上图:全球首款安卓机器人播报员Komoroid.GPU(或图形处理单元)已经远远超出其应用范围。超级计算机设计人员发现它们非常适合从他们构建的系统中的CPU卸载大量工作负载;它们还被证明是一种称为深度学习的机器学习方法的超高效处理器。这正是谷歌用来投放定向广告的人工智能类型,亚马逊的Alexa可用于即时回答语音查询。创建允许计算机通过观察和迭代进行学习的算法无疑是复杂的;同样令人难以置信的是:设计计算机系统来执行这些指令,并拥有数据中心的基础设施来供电和冷却。Ober在Nvidia的超大规模客户数据中心系统中对这种深度学习有着深刻的理解。他在接受DataCenterKnowledge网站记者采访时表示:“我们一直在处理大型数据中心中的大量hyperscale(真的是hyperscale)。构建用于深度学习训练的GPU系统是一项非常庞大和艰巨的任务。“工程问题。真的,真的很难。甚至像Facebook和微软这样的互联网巨头也在努力。”上图:Facebook最新的人工智能服务器BigBasin。八个散热器中的每一个都是隐藏的GPU。(图片来源:Facebook)训练人工智能需要很大的力量。训练是深度学习中涉及的一种计算工作负载(或一类工作负载,因为该领域正在发展并且有多个)。不同的训练方法)。目标是教一个深度神经网络——一个计算节点网络,旨在模仿人脑中神经元的交互方式——从现有数据中提取新特征。例如,神经网络可以通过反复“看到”照片中的多张狗图像来学习识别照片中的狗,这些图像将被标记为狗。另一种类型的工作负载是推理,这是神经网络将其知识应用于新数据的领域(例如,识别以前看不见的图像中的狗)。Nvidia为上述两类工作负载生产GPU。然而,在数据中心实施训练可能是特别困难的部分,因为用于训练的硬件需要非常密集的GPU集群,或者每台服务器有多达8个GPU的互连服务器。虽然这样的机柜可以轻松消耗超过30kW的功率密度,但超级计算机领域以外的大多数数据中心在设计上并不支持这种高功率密度。即便如此,在范围的低端,大约20个这样的机柜需要消耗与达拉斯牛仔队在AT&T体育场的巨型屏幕一样多的功率,这是世界上最大的1080p视频显示器,包含3000万像素。灯泡。“我们确实给许多数据中心的基础设施带来了真正的压力,”Ober在谈到Nvidia的GPU时说。“通过深度学习培训,公司通常希望使计算池尽可能密集,而这会消耗相当惊人的功率密度,这是一个真正的挑战。”电压。GPU计算本身会在瞬态(突然的电压尖峰)中产生大量能量,而这些能量难以处理。“互连节点是另一个巨大的挑战。根据训练数据的来源,数据中心网络可能会非常繁重,”Ober说。”“你的业务可以创造一个真正的热点。”在他看来,功率密度和网络很可能是数据中心系统中深度学习的两个设计挑战。上图:TeslaP100是Nvidia最强大的GPU(图片来源:Nvidia)CoolingAI像Facebook和微软这样的超大规模数据中心运营商主要通过将他们的深度学习集群分布在许多机架上来应对功率密度挑战,尽管他们在液体冷却或液体辅助冷却方面面临一些“困惑”。”。液体冷却是将冷冻水直接输送到主板上的芯片(冷却超级计算机的常用方法),而液体辅助冷却是将冷冻水输送到连接到IT机柜的热交换器的过程,该热交换器冷却空气为服务器提供冷却。并非每个需要支持高密度深度学习硬件的企业都拥有令人羡慕的数十万平方英尺的数据中心空间,对于那些不具备这种规模的数据中心提供商,例如选择专注于高密度的全球的数据中心,都选择了采用液体辅助冷却的路线。最近,对这些提供商的服务的需求猛增,这在很大程度上是由于对机器学习的兴趣日益增长。初创公司和大公司都在积极寻找方法来利用广泛预测的技术来推动下一波技术创新,但他们中的大多数都没有必要的基础设施来支持这项开发工作。Chris,高密度数据中心提供商ScaleMatrix的联合创始人。奥兰多(ChrisOrlando)在接受采访时表示:“目前,GPU支持的工作负载是我们看到增长最大的工作负载,这些工作负载肯定来自企业部门。企业级数据中心不像Gear这。”曲棍球棒增长需求的激增是最近才开始的。奥兰多说,他的公司在去年年中的某个时候发现了曲棍球棒状的增长轨迹。推动这种增长的其他应用一直是生命科学和基因组学中的计算(ScaleMatrix是其旗舰数据中心在圣地亚哥以外的最大客户之一,此类研究的中心是基因组学研究(J.CraigVenterInstitute)、地理研究和大数据分析。在其位于圣地亚哥的第二个数据中心休斯顿,大部分需求来自石油和天然气行业,其勘探工作需要一些高辛烷值的计算能力。圣地亚哥的另一个主要ScaleMatrix客户是Cirrascale,一家专门从事深度学习基础设施的硬件制造商和云服务提供商。:ScaleMatrixSanDiego数据中心内部一瞥(图片来源:ScaleMatrix,Inc.)ScaleMatrixSanDiego数据中心的每个机柜都可以冷却周围的空气全封闭机柜,利用中央设备的冷却水,支持高达52kW的机柜功率。冷却需求。定制设计的系统冷却水回路位于机柜顶部,服务器排出的热空气在这里上升并冷却,然后再被推回到主板上。随着企业对高密度计算的需求不断增长,该公司最近开始向有兴趣在本地部署该技术的公司出售该技术。总部位于硅谷的数据中心提供商Colovore也专注于高密度托管。该公司正在使用更典型的后门热交换器,在当前的第一阶段提供每机架高达20kW的功率密度,在即将到来的第二阶段提供35kW的功率密度。至少有一位客户已经表示对其功率密度超过35kW的机架感兴趣,因此该公司正在探索将冷冻水直接输送到类似超级计算机系统主板的可能性。该公司的联合创始人兼总裁肖恩表示,如今,Colovore数据中心容量的“很大一部分”用于支持用于机器学习的GPU集群。SeanHolzknecht在接受采访时说。与ScaleMatrix一样,Colovore目前在其发展道路上处于有利地位。硅谷是推动机器学习、自动驾驶、生物信息等领域信息化企业发展的最佳平台,不乏精品供应商对高密度数据中心空间的需求。上图:Colovore数据中心地板下的视图,显示了支持水冷门的基础设施。(图片来源:Colovore)对AI硬件和Colovore和ScaleMatrix提供的基础设施的需求激增可能会继续增长。机器学习仍处于早期阶段,大型云平台玩家(包括谷歌、Facebook、微软和阿里巴巴等几家公司)正在生产中使用该技术。目前,该领域的许多活动包括开发,但这项工作仍然消耗大量GPU资源。Nvidia表示,对AI硬件的需求正在激增,这主要是由亚马逊网络服务、谷歌云平台和微软Azure等企业云巨头推动的。是的,这些企业还提供机器学习、增强云服务和原始GPU功耗。市场非常渴望获得最大的云GPU实例。Nvidia的Ober说:“现在有大量的消费和关注被支付给具有GPU实例的云服务提供商。”***的实例。”
