今天,云计算几乎已经成为所有企业的基本IT基础设施战略。去年Gartner预测基础设施即服务(IaaS)需求将增长36.8%。另一家咨询公司在2018年进行的另一项云调查显示,95%的企业制定了云战略,其中51%的企业采用了混合云战略。然而,尽管云无处不在,而且HPC已经在云中使用了十多年——2008年Univa在AWS上启用了它的第一个HPC集群——企业一直不愿意将HPC工作负载放在云中。对数据安全的担忧和缺乏相应的技术已经超过了降低管理成本和避免拥有硬件的好处。只有在过去的一年里,我们才真正达到了一个临界点。一项客户调查显示,2017年企业对HPC云的兴趣和使用增加了10倍。随着与云计算相关的挑战减少,这些企业看到了采用混合云战略的经济和商机。在公共云中,他们可以使用NvidiaGPU等专用硬件而不影响CAPEX,或者扩展通常会影响其他集群的TensorFlow机器学习模型等计算密集型工作负载。在混合模型中,他们可以在不牺牲现有投资的情况下实现这些目标。混合云已成为高性能计算的重要竞争战略。但是从哪里开始呢?混合云战略在HPC领域,大多数公司都开始利用云来扩充现有资源。这样做可以最大化当前投资,并提供一种简化新??云基础架构模型的方法。然而,这也有可能加剧现有的复杂性。如果不能很好地了解他们现有基础设施的使用方式,就不可能知道添加云服务是否会给他们带来真正需要的结果。因此,在引入新的云资源之前,他们应该尽可能整合孤立的、封闭的工作负载,并确保他们拥有合适的工具,使他们能够查看使用模式并优化资源。通过这种方式,企业可以将公有云资源引入到他们现有的工作流程中。大多数公司从少量工作负载开始这种转变,然后逐渐增加。在开始时采用以下策略,并在您增加公共云投资时对其进行微调,可以帮助您实现无缝过渡:策略自动化对于混合云环境和HPC至关重要。拥有HPC工作负载的公司可能已经意识到拥有合适的策略管理工具的好处,并且应该考虑制定有助于他们最大限度地利用混合云资源的策略。他们可以通过制定策略来提高吞吐量,这些策略可以自动确定哪些工作负载在本地运行,哪些工作负载在云中运行,并根据工作负载指标和历史可靠地监控、响应和做出决策。例如,可以设置策略以将云实例分配给等待资源时间过长的任务,或者自动终止未使用的云实例。云爆发(一种应用程序部署模型,其中应用程序运行在私有云或数据中心,并在计算能力需求达到峰值时突然填充公共云。)可用于调整公司的容量以满足需求,显着加快计算速度,并不断满足需求HPC工作负载不受其他集群的影响。组织应该注意将云爆发功能与工作负载管理层联系起来,而不是应用程序或基础设施层。这让HPC云管理软件可以根据公司更广泛的基础设施的需求决定何时配置服务器实例、暂存数据和拆除资源。如果使用得当,云爆发将实现硬件预算决策的灵活性,同时帮助组织加快步伐。最终用户应该能够使用他们已知和信任的方法与云基础设施进行交互。如果一个组织在采用云计算时突然改变他们的管道和交付方式,他们将不可避免地遇到错误和延迟。相反,他们应该保留现有的工作流和与之关联的调度程序,无论它们是像“qsub”提交单个任务这样的简单步骤,还是像环境设置、观察作业状态、数据移动这样的复杂过程,或者从一个任务到另一个任务的序列。***,带上你自己的形象。使用相同的机器映像有助于使应用程序在本地节点和基于云的节点之间可移植。公司应该使用自己的云提供的软件自定义镜像,而不是每个供应商特定的VM镜像。拥抱混合云混合云是公共云服务提供商和HPC用户的胜利,而我们才刚刚开始这场巨大的变革。HPC往往拥有数百万台服务器,每年计算数十亿小时。随着公司将这些工作负载转移到云端,它们将影响公共云服务的质量和IaaS市场的现状。公共云提供商提供的安全、GPU和机器学习服务将不断改进,吸引越来越多的企业用户,并巩固混合云中的HPC架构。
