当前位置: 首页 > 科技观察

中科曙光智能计算技术总监许涛: 借助全新XMachine服务器,推动AI应用落地

时间:2023-03-13 21:47:19 科技观察

曙光智能计算技术总监徐涛:借助全新XMachine服务器,推动AI应用落地数据中心GPU:面向深度学习和高性能计算(HPC)的HGX-2GPU和基于图灵架构的T4GPU.作为超算行业的领先厂商,曙光持续跟进,推出了全新的XMachine系列AI服务器。统一的硬件平台全面兼容适配NVIDIA的Tesla系列产品,满足当前主流应用需求。  曙光智能计算技术总监徐涛在接受记者采访时表示,全新的XMachine系列AI服务器采用了CPU主板和GPU背板的解耦设计。此外,该系列AI服务器可根据CPU和GPU的发展进行自主升级。降低用户更换成本。  一个硬件平台可以组合成18种AI服务器模型  徐涛强调,新一代XMachine系列AI服务器可以做成一个不同的拓扑结构,理论上最多可以实现18种不同模型的AI服务器,可以满足各种人工智能服务的需求。之所以采用这种灵活的设计,在徐涛看来,一方面是希望在同一个平台上满足不同的应用、不同的需求。  NVIDIA在本次GTC发布了HGX-2GPU和T4GPU,针对不同的AI应用场景。HGX-2GPU具有强大的计算性能,更适合部署在训练环境;T4GPU功耗更低,更适合推理。  另一方面,通过模块化设计,在保持整体模块不变的情况下,方便更换升级,尽可能保护客户的投资。徐涛告诉记者,Nvidia目前正在大力推动NVLinkGPU卡的普及,而之前的很多卡都是用的PCI-E。因此,在设计AI服务器时,还应考虑PCI-E接口与NVLink接口的配合。  是基于以上两个原因。新一代XMachine系列AI服务器采用主板和GPU板分离设计。两块板子可以根据自己的进化速度向前推进。例如GPU板可以更换为GPU背板形式,支持NVLink或PCI-E,机箱不需要做任何改装。主板与GPU板之间的连接拓扑采用了三种不同的设计。更新过程只需要更换中间的拓扑排线,排线也采用定型模块设计,方便插拔。  基于AI应用场景的定制解决方案  新一代XMachine系列AI服务器在一个硬件平台上拥有18种变形能力,可以满足不同AI应用场景的需求,为客户节省升级成本。不过,在记者看来,如此丰富的组合会不会造成选择恐惧症呢?  谈到这个话题,徐涛告诉记者,XMachine系列AI服务器在出货时,会根据客户的实际应用场景,为客户提供个性化的产品组合解决方案。他表示,XMachine系列AI服务器在设计之初就与客户进行了深入沟通,优化了拓扑方案。这18个组合方案可以说涵盖了所有AI应用场景的需求。  徐涛还强调,曙光团队不仅可以向用户推荐硬件,还可以为用户提供完整的解决方案。  “我们了解他们的应用,从客户的应用角度出发,为客户推荐更合适的硬件配置和拓扑结构,最终将最合适的产品推荐给用户。”  据了解,XMachine系列AI服务器不仅在硬件方面具有强大优势,还提供软件解决方案,可为客户提供开箱即用的产品解决方案。不过,徐涛也告诉记者,不同的企业对软件的要求是完全不同的。比如互联网厂商,研发能力非常强,不需要软件解决方案。中型用户需要结合训练和推理。因此,曙光会与客户合作。双方共同开发解决方案。中小企业需要将数据和想法转化为产品,往往需要开箱即用的解决方案。为了方便起见,曙光集成了常用的框架和接口。  在人工智能和高性能计算领域的持续发力  XMachine系列AI服务器的推出对AI服务器行业的影响也是记者支付的话题之一在这次采访中更加关注。对此,徐涛认为,随着AI的不断发展,国外厂商或ODMAI服务器很难满足本土化的需求。必须使用定制产品来满足客户的需求。唯一的办法就是走自主研发的道路,推出更多适合中国企业的服务器,才能真正帮助他们解决困难,推动人工智能的应用。  徐涛告诉记者,人工智能的市场越来越大,大家对它的期待也越来越高。因此,在中科曙光看来,未来五年人工智能将保持高速发展。对高计算能力服务器的需求非常强烈。当然,随着需求的不断增长,客户对服务器也有了一些新的要求,所以XMachine系列AI服务器在这个时间点的推出,对于后续的市场增长将起到积极的作用。  》曙光本来就是做高性能计算的,我们的服务器不仅会用在人工智能领域,还会用在传统的高性能计算领域,所以我们的服务器在设计的时候就考虑到了来到不同的应用场景,可以满足人工智能和高性能计算的需求,在人工智能和高性能计算市场将得到快速发展,帮助企业解决计算问题,加速人工智能应用落地”徐涛这样说。【原创稿件,合作网站转载请注明原作者和出处为.com】