导弹和军用直升机上的电子设备需要在极端条件下工作。美国国防承包商McCormickStevensonCorp.在部署任何物理设备之前模拟其可以承受的现实条件。仿真依赖于Ansys等有限元分析软件,这需要大量的计算能力。几年前的一天,它竟然超出了计算极限。McCormickStevenson的首席工程师MikeKrawczyk说:“我们的一些工作会使办公室的计算机不堪重负。购买一台机器并安装软件在财务或计划上都没有意义。”相反,他们与Rescale签约,该公司以他们购买新硬件所需价格的一小部分出售其超级计算机系统的处理能力。McCormickStevenson是被称为超级计算即服务或高性能计算即服务(两个密切相关的术语)的市场的早期采用者之一。根据美国国家计算科学研究所的定义,HPC是超级计算机(具有最先进处理能力的计算机)在计算复杂问题上的应用。无论它们被称为什么,这些服务正在颠覆传统的超级计算市场,并将HPC功能带给以前买不起的客户。但这不是万能的,也绝对不是即插即用的,至少现在还不是。HPC服务实践从最终用户的角度来看,HPC即服务类似于早期大型机时代的批处理模型。“我们创建一个Ansys批处理文件并将其发送过来,运行它,然后将生成的文件下载下来并导入到本地,”Krawczyk说。在HPC服务的背后,云提供商在他们自己的数据中心运行超级计算基础设施,但这并不一定意味着当您听到“超级计算机”时,您看到的是最先进的硬件。正如IBM负责OpenPOWER计算技术的副总裁DaveTurek所解释的那样,HPC服务的核心是“一组互连的服务器。你可以称之为虚拟计算基础设施,它可以让许多不同的服务器按照你的要求并行工作一个问题。”来解决问题。”这个理论听起来很简单。但都柏林城市大学数字商业教授西奥林恩表示,需要解决一些技术问题才能使其在实践中可行。通用计算与HPC的区别在于这些互连——高速、低延迟且昂贵——因此需要将这些互连引入云基础架构领域。在HPC服务可行之前,至少还需要将存储性能和数据传输提升到与本地HPC相同的水平。但Lynn表示,一些制度创新比技术更能帮助HPC服务腾飞。特别是,“我们现在看到越来越多的传统HPC应用程序的云友好许可模型——这曾经是采用的障碍。”他说,经济也改变了潜在的客户群。“云服务提供商通过向无力承担传统HPC所需投资成本的低端HPC购买者开放,进一步打开了市场。随着市场的开放,超大规模经济模型变得越来越可行,成本开始上升下来。避免本地资本支出HPC服务对传统超级计算长期占主导地位的私营部门客户具有吸引力。这些客户包括严重依赖复杂数学模型的行业,包括McCormickStevenson等国防承包商,以及石油和天然气公司、金融公司服务公司和生物技术公司。都柏林城市大学的Lynn补充说,松散耦合的工作负载是一个特别好的用例,这意味着许多早期采用者正在将其用于3D图像渲染和相关应用程序。但是什么时候考虑HPC服务而不是本地才有意义HPC?对于模拟烟雾在建筑物中蔓延和火灾对建筑物结构部件的破坏的德国公司hhpberlin来说,答案在于它超出了现有资源。“我们一直在运行自己的小型集群,最多到80个处理器内核已经好几年了,”H?pb数值模拟科学负责人SusanneKilian说厄林。...但是随着应用程序的复杂性增加,这种架构变得越来越不合适;可用容量并不总是足以快速处理项目。”她说,“然而,简单地为一个新集群付费并不是一个理想的解决方案:考虑到我们公司的规模和管理环境,持续维护这个集群(定期软件和硬件升级)是不切实际的。”此外,需要模拟的项目数量波动很大,因此集群的利用率并不是真正可预测的。通常,使用高频率的周期与很少或没有使用的周期交替使用。“通过切换到HPC即服务模型,hhpberlin释放了过剩容量而无需支付升级费用。IBM的Turek解释了不同公司在评估其需求时进行的计算。对于一家拥有30名员工的生物科学初创公司来说,“你需要计算,但您真的不能让15%的员工专门用于计算。就像您可能还说您不想要全职法律代表一样,所以您也将其作为一项服务来做。“然而,对于一家更大的公司来说,它最终归结为权衡HPC服务的运营费用与购买内部超级计算机或HPC集群的成本。这些与您迄今为止遇到的任何云服务类似.然而,HPC市场的某些特性可能会使运营支出(OPEX)与资本支出(CAPEX)成为前者。超级计算机不是商品硬件,例如存储或x86服务器;进步很快就会使其过时。正如McCormickStevenson的Krawczyk说:“这就像买车:一旦开走,它就开始贬值。“对于许多公司,尤其是规模较大、灵活性较差的公司而言,购买超级计算机的过程可能会陷入无望的泥潭。”IBM的Turek,痴迷,那么RFP一定要执行,你得有CIO的支持,你要和内部客户合作,保证服务的连续性,这是一个非常非常复杂的过程,没有多少机构执行得很好“一旦你选择走高性能计算服务的路线,你会发现你会从云服务中获得很多你期望的好处,尤其是只有在业务需要时才付费的能力,这可以带来资源的高效利用。.Gartner高级总监兼分析师ChiragDekate表示,当您对高性能计算有短期需求时,突发负载是推动HPC服务选择的关键用例。“在制造业中,产品设计阶段前后的HPC活动往往会达到非常高的峰值。但是,一旦产品设计完成,在产品开发周期的剩余时间里,HPC资源的利用率就会降低。”相比之下,云计算只有在你有大型、长时间运行的工作时才会减弱,”他说。“通过巧妙的系统设计,你可以将这些HPC服务突发与你自己的内部常规计算相结合。埃森哲实验室董事总经理TeresaTung举了一个例子:“通过API接入HPC可以与传统计算无缝结合。在模型构建阶段,传统的AI管道可能会在高端超级计算机上进行训练,但最终经过反复按预期运行的训练模型将部署在云端的其他服务上,甚至部署在边缘设备上。”它并不适合所有的应用场景。HPC服务适用于批处理和松耦合场景。这与一个常见的HPC缺点有关:数据传输问题。高性能计算本身往往涉及庞大的数据集,并且将所有这些信息通过互联网发送给云服务提供商并不容易。“我们与生物技术行业的客户交谈,他们每月仅在数据费用上就花费1000万美元,”IBM的Turek说。金钱并不是唯一的潜在问题。构建一个利用数据的工作流可以挑战您的工作流,并让您绕过传输数据所需的漫长时间。来自hhpberlin的Kilian说:“当我们拥有自己的HPC集群时,我们当然可以随时访问已经生成的模拟结果,这样我们就可以进行交互式的临时评估。我们目前正在努力实现更高效和交互式访问和评估云生成的数据,而无需下载大量模拟数据。”MikeKrawczyk提到了另一个绊脚石:合规性问题。国防承包商使用的任何服务都需要《国际武器交易条例》(ITAR)合规,McCormickStevenson选择Rescale的部分原因是Rescale是他们找到的唯一合规供应商。而更多公司使用云服务今天,任何希望使用云服务的公司都应该意识到使用别人的基础设施所涉及的法律和数据保护问题,而许多HPC场景的敏感性使得HPC甚至这种服务的问题更加突出。此外,IT治理对HPC服务的要求超出了现行法规。例如,您需要跟踪您的软件许可证是否允许使用云——尤其是专门为在本地HPC集群上运行而编写的软件包。通常,您需要跟踪您的HPC服务的使用情况使用,它可能是一种诱人的资源,尤其是当您从员工习惯使用的内部系统过渡到可用的HPC可用容量时祝福。例如,Avanade全球平台高级总监兼Azure平台服务全球负责人RonGilpin建议减少用于时间不敏感任务的处理核心数量。“如果一项工作需要一个小时而不是十分钟,它可以使用165个处理器而不是1,000个,从而节省数千美元,”他说。要求采用HPC的最大障碍之一始终是它需要独特的内部技能,而HPC服务无法神奇地消除这一障碍。根据Gartner的Dekate的说法,“许多CIO已经将许多工作负载迁移到云端,并看到了成本节约、敏捷性和效率的提高,并相信在HPC生态系统中可以实现类似的结果。一个常见的误解是,他们可以以某种方式优化劳动力通过完全移除系统管理员并引入可以处理HPC工作负载的新云专家来降低成本。”对于HPC即服务来说尤其如此。“但HPC不是主流企业环境,”他说,“你要处理由高带宽、低延迟网络互连的高端计算节点,并且相当复杂的应用程序和中间件技术堆栈。在许多情况下,甚至文件系统层也是HPC环境所独有的。没有同等的技能组合可能会破坏稳定。”但超级计算技能的供应正在减少,Dekate称之为“老龄化”劳动力,因为这一代开发人员将目光投向了初出茅庐的初创企业,而不是学术界或使用HPC的更老式的公司。因此,HPC服务提供商正在尽其所能弥合差距。IBM的Turek表示,许多HPC资深人士总是希望运行自己精心调整的代码,并且需要专门的调试器和其他工具来帮助他们在云中实现这一点。但即使是HPC新手也可以调用供应商构建的代码库,以利用超级计算的并行处理能力。第三方软件提供商出售的交钥匙软件包可以降低HPC的许多复杂性。埃森哲的董表示,该行业需要投入更多资金才能真正蓬勃发展。她说:“HPCaaS创造了具有高影响力的新功能,但需要做的是让它易于被数据科学家、企业架构师或软件开发人员使用。这包括易于使用的API、文档和示例代码。它包括回答问题的用户支持。仅仅提供一个API是不够的,API需要符合目的。对于数据科学家来说,这可能在Python中可用,并且可以轻松替换她已经在使用的框架。价值来自使这些用户能够通过新的效率和性能最终改进他们的工作,只要他们能够访问新功能。”如果供应商能够做到这一点,那么HPC服务就可以真正将超级计算带给大众。
