通过平台,用户可以动态创建自己的人工智能环境,平台提供了多种学习算法和框架,提供了可视化的用户学习任务管理,编排,用户学习数据的管理等功能。同时,平台提供了多种资源管理和调度功能,能够协调多个用户同时进行学习,高效管理每个用户的学习任务,同时高效合理的利用整个计算资源。 在人工智能应用方面,平台提供SDK来开放了多种人工智能能力,包括图形识别能力,语言识别,语义分析等。通过平台,用户也可以有效的管理自己创建和习得的算法,并可以开放出来提供给用户来使用。
智能化监控和分析
1.对HPC相关的特定系统软件运行状态进行监控和分析,例如:并行文件系统的监控和分析,检查IO服务和IO通道是不是有瓶颈。
2.智能化、精细化的应用监控和分析,例如:对多机并行计算的大型仿真作业进行监控和分析,确保并行计算过程中没有木桶效应。
3.智能化、多目标的综合监控,
例如:
a. Intel处理器睿频和温度、功耗的关系分析;
b. IO性能和计算效率的关系分析。