连接人和生产力,让企业更智慧

当前位置: 首页 / 客户案例 /
景行助中科院千万亿次HPC集群"元"顺利升级
发布时间:2018-03-22

2017年1月20日,景行锐创正式发布了资源管理与调度软件的全新版本。同期,我们对中科院网络中心千万亿次的HPC集群“元”升级成功,在短短2小时的时间窗口内将用户原有的版本升级到最新版本。本次升级过程中,用户集群中的作业没有任何丢失,用户的配置文件无缝迁移,作业提交服务基本没有中断,得到了用户的好评,也显示出景行资源管理与调度软件良好的兼容性和健壮性。

本次升级在现有版本的框架上,主要进行了以下优化:

1. 绿色节能调度

该功能通过服务器的ipmi接口,对长时间空闲的节点按批次自动触发休眠或关机,以节约能源;当集群资源不够时又自动唤醒休眠的机器来执行作业。该功能还能通过底层的jhds自动探测服务器的能耗和CPU温度,提交作业时可通过选项要求调度到能耗最低或温度最低的节点上去运行。该功能支持Linux和Windows节点。

2.“双系统自动切换”调度

该功能需要管理员在集群中的部分服务器上安装双系统,并通过配置dualboot资源标志出具备双系统的服务器,在调度时,如果作业所需OS类型的节点slots不足时,调度将自动把dualboot的空闲节点切换成所需的操作系统,来满足作业slots需求,使作业能够得到slots执行,从而提高集群对Linux和Windows不同应用的自适应性。

3. MIC绑定

首先UniScheduler可自动检测到各Linux节点的MIC个数,用户可以使用jsub -mic选项来指定作业在每个节点上所需要的mic资源数量,这时UniScheduler会根据资源请求选择合适的hosts和MIC设备,生成MIC绑定信息,使得该作业进程只能使用调度分配的MIC设备资源,从而避免多个作业争用同一块MIC而导致性能相互影响的现象。用户可以使用jhosts -mic查看节点上MIC的详细信息,使用jjobs -l查看作业的MIC绑定详细信息。目前MIC绑定只支持Linux平台。

4. 支持jobgroup作业组

该功能允许用户在提交作业时使用jsub -g指定作业组,在jjobs、jctrl命令中加上-g对同一组的作业进行统一查询和控制。还可以使用jjobgroup命令来创建和删除作业组,或查询作业组下作业的统计信息。

中科院“元”超级计算系统采用混合架构,支持异构计算,总计算能力约2.3Pflops(双精度浮点峰值计算能力),其中CPU通用计算能力700Tflops,采用Intel MIC及Nvidia GPU的计算能力共1.6Pflops。系统内存总量约140TB,存储总裸容量超过6PB。目前为中科院和研究机构用户提供物理、化学、气候模拟、天文学、能源、生命科学、航空航天等专业领域的仿真和科学计算。