当前位置: 首页 > 科技观察

曙光EasyOP用微信实现超算管理

时间:2023-03-18 17:23:21 科技观察

经常关注企业领域的朋友都知道,高性能计算机一直是管理上的难题。由于使用高性能计算机的企事业单位大多专注于某一领域,如中科院计算所、高校等,缺乏高性能计算机管理方面的专业人才。-性能计算机软件和硬件。近日,日本站得到消息,经过六个月的试运行,曙光面向高性能计算集群的SaaS级专业在线平台EasyOP(EasyOperation的缩写)正式上线。  自去年11月EasyOP亮相全国高性能计算年会并宣布试运行以来,业界一直对曙光7*24小时在线运维平台的表现充满期待。从EasyOP试运行的数据反馈信息来看,曙光EasyOP的表现堪称专业全面,不负众望。  曙光EasyOP在线运维平台正式启动仪式  试运行数据分析:专业全面全面监控气象、海洋、物理、物理、海洋等六大领域所有接入集群资产180余项指标生物学、材料和互联网。  从周期来看,EasyOP访问时间跨度分布合理,包括系统的满载和低载。在7800多个监控节点中,CPU的最大和平均利用率分别为83%和70.1%,内存的最大和平均利用率分别为40%和25.5%,存储的最大和平均利用率为23%和20.3%。此外,在EasyOP访问的资源作业中,中短时长的作业占比近70%,作业排队率约为1/5。这种多线程任务适用于对HPC系统各个子功能的全方位监控。  统计显示,半年试运行期间,所有集群自动触发通知近2900条,其中2281条为计算节点主要部件温度升高触发的轻微通知。只有3个严重通知,其中2个是共享存储挂载失败导致的,1个是严重级别高温导致节点自动关机,体现了曙光的高可靠性集群系统从侧面看。  为简化HPC运维运维服务应运而生。由于第三方HPC服务商不研发和生产HPC系统,在HPC运行问题的分析和解决方面与曙光这种HPC专业人士相比还有较大差距,不足以保障为用户高效运行HPC。  为此,曙光打造了具有五项关键技术的EasyOP——实时远程采集监控数据、海量数据存储与展示、故障分析与定位技术、海量数据统计与分析、移动终端集成与推送,曙光的EasyOP平台让HPC在线运维变得简单。  HPC运维人员不仅可以及时了解HPC集群的运行状态和故障,还可以通过网页或微信等在线咨询服务与在线专家进行一对一的交流。EasyOP也会将常见的、有代表性的故障解决方案上传到知识库,方便HPC运维人员积累。  中国科学院物理研究所研究员徐立芳表示:“HPC集群的运维一直是我们的难点,都降了,HPC的安全和效率集群也得到了改善,我们终于解放了。  懂HPC,更懂HPC运维  “EasyOP是中科曙光结合‘互联网+’和HPC的产物,不仅帮助用户维护HPC系统,更能用用户创造更多价值”系统。”曙光副总裁沙超群表示,“EasyOP通过提供运维调优等服务,为HPC带来各行各业的专家。不仅如此,曙光希望通过EasyOP搭建一个资源交易平台,让资源可以在闲暇时间创造价值。”  《了解HPC才能更好地了解HPC在线运维》。曙光总裁助理、高性能计算产品事业部总经理曹振南感慨地说,EasyOP在立项支持、设备选型、产线交付、售中部署、应用等方面能够满足用户持续的需求环境优化、在线运维指导、售后技术支持。需要。  “曙光推出EasyOP在线运维平台,引领我国HPC行业向互联网+转型,将推动行业整体服务水平的提升。”中国软件行业协会数学软件分会常务副秘书长姚继峰博士表示,“EasyOP能够实现曙光与HPC用户的互联互通,对于打造‘HPC生态’具有重要意义。”  “从硬件提供商向综合服务提供商转型”是曙光近年来应对不断变化的市场需求推出的重要战略,而主打服务升级的EasyOP无疑将在其中发挥重要作用它。同时,优秀的HPC系统结合专业的在线运维平台,也将进一步落地曙光的“数据中国”战略。