当前位置: 首页 > 科技观察

云计算与高性能计算:谁更具竞争力?

时间:2023-03-12 17:54:20 科技观察

最近关于高性能计算集群方案是自建还是直接购买的争论如火如荼。生态系统的关键组成部分现已到位。经过几年的发展和演进,云环境下的高性能计算的可行性终于在一定程度上得到了证实——至少对于某些应用来说是这样。在大型云服务提供商通过更强大的网络和处理器解决方案对高性能计算进行探索性扩展的同时,以Rescale为代表的其他厂商也开始通过自己的许可模式帮助ISV接入高性能计算。HPC代码揭开了HPC软件的神秘面纱。但需要强调的是,在云环境中运行高性能计算负载还存在很多问题。哪些负载应该交给内部的高性能计算集群,以及其他可能有资源需求突然增长的工作负载,如何充分利用双方的先天优势,目前还很难找到一个明确的答案。根据ThePlatform网站最近发表的一篇文章,我们可以看到,在高性能计算领域,机房的建设、采购、主机托管等任务确实很难完成。为了更好地理解这两种观点的思考方式,我们使用了Rescale提供的一些数字——这是一家高性能计算云服务商(如前所述,主要负责将软件与高性能计算分离)性能计算)。致力于与软件开发商的对接)。以下数字来自Rescale对内部HPC集群与租赁云提供商容量和许可进行的成本比较。这些数字反映了使用典型的中端集群处理高性能计算工作负载的成本——请注意,这没有考虑任何高端处理器或加速解决方案。在一篇讨论使用高性能计算云服务的成本的文章中,RescaleCEOJorisPoort解释说,这主要是为了反映终端用户的中位数成本水平——一些需要高端性能,另一些则更关心成本因素,所以这些数字仅用于基准测试目的。当然,一旦加入新的Haswell处理器或InfiniBand等其他高成本元素,基础成本无疑会大幅增加——尤其是在购买集群设备的第一年。在上述配置条件下,用户每月需要承担近7万美元的固定成本来运营和维护一个典型的100节点的物理数据中心集群,其中约1.6万美元用于能耗和冷却费用之中。Poort提供的统计数据还包括管理集群的全职工程师的薪水。他还强调,对于大多数用户来说,即使是那些已经开始向云过渡的用户,这个角色仍然存在,因为企业经常继续在本地运行大量工作负载。接下来我们可以看到Poort提供的一个典型集群的具体成本构成:这只是集群运维的支出。Poort表示,实际情况还应该考虑到集群的总体拥有成本,包括技术支持团队和其他服务项目。超出表格范围的费用每月总成本约为110,000美元。有趣的是,与硬件相关的成本仅为40,000美元左右,但其他运营(包括电力、人员和其他相关费用)却高达70,000美元。这听起来并不低,特别是考虑到公司倾向于按部门进一步划分HPC资源预算。例如,在一些企业中,带宽成本预算被纳入到整体带宽使用监控机制中。功耗也是如此,往往不会直接分配给高性能计算集群,因为数据中心还包括其他设备带来的能源成本。虽然这些资金会由企业提供,但普尔特表示,直接列出数字更容易理解——这里的统计结果是各种费用直接累加的总和,其中可能还包括一些高性能的计算一个部门负责人实际被其他部门使用的支出项目。考虑到这一点,很难将总成本准确分解为每小时的运营费用,尤其是考虑到在大多数情况下我们只能根据不同的硬件进行单独计算。换句话说,上面列出的总体运营和数据中心管理费用经常在计算中遗漏。这里我们计算满载时每个计算核心的使用成本为每小时10美分。当然,由于不同公司的情况不同,计算结果可能会有很大差异。“如果你只加上功耗而不是整个数据中心的成本,你可能能够使用每个内核每小时5美分。从表面上看,这似乎没有太大区别,但这是一个比我们贵的成本水平。计算结果高出25%——加上其他设施支出和要素的负担,最终的差异将是巨大的,”Poort解释道。这种节省可能不会立竿见影,但这绝对是两种选择之间的重要区别,并且随着时间的推移会变得更加明显。美中不足的是,每个计算核心每小时10美分的使用成本仅适用于满载假设,如下表所示。“在评估这些成本时经常出现的另一个重大误解是,当人们查看他们在云服务器上的支出时,他们倾向于按表面价值看待,并认为这比购买服务器和自己插入基础设施的成本更高.高的。考虑到这一点,我们需要强调资源利用的差异——在云端,我们可以随时打开和关闭我们租用的设备。在非使用期间,它们完全没有影响。不惜任何代价,”Poort指出。换句话说,作为典型的内部系统解决方案,大多数高性能计算工程和技术团队更倾向于采用最大容量规格来应对资源需求高峰。毕竟,往往更好“把所有的资源都投入到产品开发中,比保持100%的资源利用率更重要。”“很多企业已经意识到,他们的实际资源利用率可能只有60%到70%。但这样的产能设置对企业来说真的是非常明智的。”他们自己,因为他们需要满足峰值容量的资源需求——工程师们已经迫不及待了。”这可以追溯到Poort之前的观点,即HPC客户的理想用例是能够将本地资源与基于云的容量相结合,以轻松应对高峰需求。同时,现有的硬件投资用于平衡实际的运营成本,他并不期望企业客户将他们的关键任务高性能计算工作负载全部放在云端,但在他看来,使用云计算提供的各种硬件和软件工具绝对是一个理想的选择。云服务扩展企业现有能力。***需要强调的是,Rescale除了拥有可观的全球资源储备外,还拥有丰富的软件授权组合,足以帮助ISV摆脱那些昂贵且昂贵的软件授权。复杂的高性能计算工程软件。对于用户来说,按小时支付软件许可费用显然是极其重要的,甚至是独一无二的优势。虽然这一点并没有明确ref上表中选出的——特殊高性能计算系统和具体工作负载的实际差异,让我们很难为它制定一个准确的基准,但我相信用户对它肯定有一定的价值。理解。原标题:云与HPC集群成本难题