几十年前,高性能计算(HPC)仅被研究人员、科学家和工程师等用作解决数学难题的经济实惠且可扩展的方法。然而,随着云计算、物联网、大数据等技术的发展,HPC在业界越来越受欢迎,其在数据中心领域的应用也越来越多。许多企业组织依靠HPC来执行复杂的计算任务,例如财务风险建模、政府资源跟踪、航天器飞行分析和许多其他“大数据”项目。根据Intersect360Research对全球HPC市场的分析结果,2020-2014年HPC将以7.1%的高复合增长率增长。HPC结合了硬件、软件、系统管理和数据中心设施,支持大量相互连接的计算机一起工作以执行共享任务,这些任务过于复杂以至于单台计算机无法单独完成。一些企业可能会寻求租赁或购买他们的HPC,而其他企业可能会选择在他们自己的数据中心内构建HPC基础设施。通过了解HPC基础架构的关键要求和限制,您可以确定HPC是否适合您的业务以及如何最大化其价值。什么是高性能计算(HPC)?一般来说,HPC是使用大型、功能强大的计算机来高效地处理数学密集型任务。尽管存在HPC“超级计算机”,但此类系统通常是大型企业以外的所有企业都无法企及的。相反,大多数企业可以将HPC实施为一组相对便宜、紧密集成的计算机或配置为在集群中运行的节点。此类集群使用Hadoop、MapReduce等分布式处理软件框架,通过在多台联网计算机之间划分和分配计算任务来解决复杂的计算问题。集群中的每台计算机都处理自己的问题或数据集部分,然后由软件框架重新集成以提供完整的解决方案。分布式HPC架构为组织提供了一些权衡。最直接的好处包括可扩展性和成本管理。Hadoop等框架只能在单个服务器上运行,但组织也可以将它们扩展到数千台服务器。这使企业能够使用更便宜的现成计算机来构建HPC基础设施,以满足他们当前和未来的需求。Hadoop还具有容错能力,它检测故障系统并将它们从集群中分离出来,将那些故障作业重定向到可用系统。构建HPC集群在技术上很简单,但HPC部署可能会带来业务挑战。即使能够随着时间的推移管理、扩展和添加节点,采购、部署、运营和维护数十台、数百台甚至数千台服务器以及支持它们的网络基础设施的成本也可能是一笔费用。巨大的财政投入。再加上很多企业对HPC的需求有限,HPC集群很难保持忙碌,企业在HPC上投入的资金和培训成本需要能够处理业务任务的部署才能达到成本效益。只有对用例、利用率和ROI指标有深入的了解,才能实现成功的HPC项目。实施HPC需要什么?在商业数据中心实施HPC集群的三个主要要求包括计算硬件、软件层和容纳所有这些的设施。更精确的要求取决于HPC部署的规模。计算要求。构建HPC集群需要服务器、存储和专用网络,不应为日常业务流量共享LAN。理论上,您可以在单台服务器上实现Hadoop等HPC软件,这可以帮助员工学习和获得HPC软件和工作调度方面的经验。但是,典型的基于Hadoop的HPC集群需要使用至少三个服务器:主节点、工作节点和客户端节点。您可以使用多个主节点扩展这个简单模型,每个主节点支持多个工作节点,这意味着典型的HPC部署由多个服务器组成(通常进行虚拟化以增加集群可用服务器的有效数量)。专用集群网络还需要高带宽TCP/IP网络设备,例如千兆以太网、NIC和交换机。服务器和交换机的数量取决于集群的大小和每台服务器的能力。刚接触HPC的企业通常从有限的硬件部署开始,扩展到几个机架,然后扩展到集群。您可以通过投资具有足够处理器和存储空间的高端服务器来限制服务器和交换机的数量,以提高每台服务器的计算能力。软件要求。成熟的堆栈必须能够轻松支持HPC集群管理功能套件。BrightClusterManager和OpenHPC等软件堆栈通常包括用于集群管理的各种工具,例如:配置工具监控工具系统管理工具资源管理工具MPI库数学库编译器调试器文件系统一些组织可能采用HPC框架(例如Hadoop框架)来管理他们的HPC。Hadoop包括HDFS文件系统、HadoopCommon、MapReduce和YARN等组件,它们提供许多与上面列出的功能相同的功能。HPC项目需要输出,可以以可视化、建模或其他报告软件的形式提供给管理员。可以将Hadoop数据可视化的工具有Hunk、Platfora、Datameer等,还有Jaspersoft、Pentaho、BIRT等开源工具;商业智能工具,例如Cognos、MicroStrategy和QlikView;以及可以可视化非Hadoop框架输出的图表库,例如Rshiny、D3.js和Highcharts。设施要求。设施通常是HPC部署的最大限制因素。要实施HPC,您需要物理空间和重量支持以容纳额外的服务器机架、运行它们的电源以及足够的冷却能力来管理热量。一些企业可能根本没有足够的空间和冷却基础设施来支持大量额外的服务器。超融合基础设施系统可以最大限度地减少物理计算占用空间,但HCI具有高功率密度,可能导致机架“热点”和其他冷却挑战。用于HPC部署的完整计算机机架可包含多达72台刀片服务器和5台架顶式交换机,总重量高达1800磅,需要高达43kW的电力支持。HPC部署需要仔细评估数据中心设施并详细判断系统电源和冷却要求和容量。如果设施不足以部署HPC,您必须寻找内部HPC的替代方案。迎接HPC实施挑战计算挑战。虽然HPC硬件很常见且随时可用,但您可以使用模块化高密度服务器来解决计算限制。模块化设计使服务器易于扩展和更换。您可以使用带有专用高速LAN的专用高性能服务器以获得最佳性能,这使您能够通过定期的技术更新周期和额外投资来随着时间的推移更新您的HPC程序。软件挑战。HPC软件的一个主要挑战是管理软件组件版本和互操作性,即确保修补或更新一个组件不会对其他软件组件的稳定性或性能产生不利影响。解决这个问题的关键是让测试和验证成为HPC软件更新过程的核心部分。设施挑战。处理装满服务器和网络设备的额外机架所需的可用物理数据中心空间、电力和冷却问题限制了许多希望实施HPC的组织。为此,服务器升级可能会有所帮助。通过部署更大、更强大的服务器来支持更多VM,您可以有效地添加HPC“节点”,而无需添加更多物理服务器。此外,将VM分组在同一物理服务器内可以缓解网络问题,因为VM可以在服务器内进行通信,而无需通过LAN传输流量。您还可以寻求第三方支持,例如托管以获得额外空间。托管使您的??组织能够租用供应商数据中心的空间并使用该供应商的电力和冷却设施。然而,托管通常需要昂贵的、可能跨越数年的长期合同义务。电力成本也会影响HPC部署的长期成本,因此请评估本地电力可用性和成本。考虑采用平衡的三相配电基础设施和先进的配电设备(例如智能PDU和开关PDU)来提高电源效率。不间断电源装置支持HPC集群服务器的有序运行,以最大限度地减少数据丢失。添加高密度服务器机架会给数据中心的空气处理系统增加相当大的冷却负荷。当额外的冷却不可用时,评估托管或云选项,或考虑先进的冷却技术,例如HPC机架的浸入式冷却。HPC拥抱云?包括AWS、谷歌云平台和微软Azure在内的几家公共云提供商正在为面临构建和运营HPC挑战的企业提供HPC服务。公共云克服了个体企业面临的规模和成本挑战,这也使其成为部署HPC任务的理想选择。云可以提供:全球可用数据中心几乎无限的可扩展性;各种专用CPU、GPU、现场可编程门阵列和快速互连硬件功能,以优化机器学习、可视化和渲染等任务的工作性能;成熟且始终在线的可用HPC服务,例如AmazonEMR上的AzureCycleCloud和ApacheHadoop,可以减少本地IT员工的学习曲线和支持负担;按需付费的成本模式,让企业只需要在实际使用这些云服务和资源时,才需要为HPC付费。执行频繁和适度的HPC任务的企业可能会选择构建和维护有限的HPC集群,以实现本地数据处理项目的便利性和安全性,但对于偶尔要求更高且内部无法支持的HPC项目,他们可能仍会迁移到公共云。
