当前位置: 首页 > 科技观察

消除数据中心热点的各种技术措施

时间:2023-03-22 12:57:56 科技观察

UptimeInstitute的一项调查研究表明,多达十分之一的机柜在高于设备可靠性指南建议的允许范围的温度下运行。目前,数据中心机柜的功率密度不断上升,每个机柜的平均功率密度达到5kW甚至更高。因此,预计受热点困扰的机柜数量将与日俱增,很快就会超过上述比例。如果热点长期不能消除,时间长了可能会造成严重威胁,不仅危及IT设备的可靠性和性能,还会影响硬件厂商的保修或维护协议。因此,数据中心运维人员需要尽快采取有效措施规避此类风险。1、什么是热点?许多IT专业人员经常检查热通道的温度,或者在冷通道的错误位置查看温度。一旦温度过高,他们就认为找到了热点。然后,他们采取各种可能令人失望的对策,造成比消除热点更多的热点。准确了解什么是热点、其根本原因以及如何识别热点对于根除热点至关重要。(1)热点的定义数据中心内任意测得的高温点都不能认为是热点。我们将热点定义为:当IT设备的进风口温度高于ASHRAETC9.9推荐的预期值时,即视为热点。一般来说,机柜顶部最容易产生热点。美国采暖、制冷和空调工程师协会(ASHRAE)的热指南给出了服务器进风口温度的推荐值和允许范围。(2)热点的根本原因数据中心安装的冷却设备的冷却能力经常超过需求,特别是当冷却能力完全由IT设备“铭牌”上的额定值决定时。如果是这样,为什么还会出现热点?究其原因,热点不是制冷量不足或热负荷过大造成的,而是制冷量没有得到充分利用。换句话说,冷却能力是足够的,但由于缺乏气流管理而未能在需要冷却的区域提供足够的冷却能力。图1是冷却能力未充分利用的示例,它来自施耐德电气的真实案例研究。该图显示了一个传统的典型数据中心,采用基于房间的冷却,高架地板和吊顶用作送风和回风管道。机房空调首先将冷空气以一定的压力和速度送入地板通道。然后,冷空气从地板通道(即泄漏气流)通过高架地板中的穿孔地板(占CRAC气流的54%)和地板中的电缆切口(占CRAC气流的46%)进入IT空间。从地板上的电缆切口泄漏的气流可能会导致冷却能力损失,因为气流无法到达IT设备的前端,而是绕过它。事实上,这些气流并没有带走任何热量,而是循环回到冷却装置。大部分通过穿孔地板的气流(占穿孔地板风量的96.29%)都流经IT机柜中的设备,但由于缺乏气流管理,并非全部流经设备。一小部分冷空气(占穿孔地板气流的3.71%)绕过IT设备返回到制冷单元。与泄漏气流一样,这些旁路气流也会导致冷却能力损失。同时,一些“急需降温”的IT设备得不到足够的制冷量,不得不从机柜后方吸入设备排出的热风(占IT风量的7.15%),这往往处于“降温急”的IT设备。IT设备前端形成热点。简而言之,减少气流泄漏、旁路和再循环的措施将有助于消除热点。(3)如何识别热点及早发现热点对于防止IT设备过热和发生故障至关重要。我们可以通过三种方式找到热点:检测热点最简单、最经济的方法是在数据中心周围走动,将手放在机柜正面,感受温度。如果温度较高,则存在热点。此方法最不准确,但适用于非常明显的热点。手动测量更准确,因为仪表可以更准确地测量温度。此类仪器包括塑料温度条、枪式温度计和FLIR热像仪。人工测量被认为是一种经济且非常有效的热点检测方法。尽管今天的热像仪成本高达300美元以上。数据中心运维人员可以使用这些仪器测量服务器进风口和机柜前门的温度,以及服务器进风口和排风口的温差(即ΔT服务器),从而找到热点。自动化监控被誉为热点识别的最佳方法,可以显示实时数据,说明服务器或数据中心的冷却状态。数据中心物理基础设施管理(DCIM)解决方案的自动监控设备可以在系统达到某个阈值时通过电子邮件或短信向相关人员发送实时警报。借助DCIM软件,您可以根据自己的具体要求,查看各设备进风口和出风口的实际温度。施耐德电气的StruxureWareTM是典型的数据中心基础设施管理软件,它可以使用从安装的传感器网络收集的实时数据,提供详细的三维热分布图。这种方法是最准确的,但也是最昂贵的。此外,IT设备通常具有内置热传感器,用于监控其热状态并使用IPMI协议报告热点。其他有助于识别或防止潜在热点的建议包括使用计量机架PDU来识别和检查高密度(功率密度超过5kW)机架——因为这些机架有更高的热点潜力。在决定移动、添加和更改机架后或在数据中心设计阶段使用CFD软件预测热点。CFD仿真技术可以对机柜正面的温度和压力等高线以及机柜周围的气流分布进行详细的三维分析,从而识别潜在的热点。该工具的强大之处在于能够识别冷却能力被浪费的区域以及冷热气流混合导致冷却能力未充分利用的区域。2.评价所采取的传统措施。当发现热点时,数据中心运维人员会采取各种应对措施。然而,并非所有措施都会奏效。下面描述了一些传统的应对措施以及它们有效/无效的原因。请注意,大多数措施根本不会减少气体旁路或再循环。(1)调低冷却装置温度设定值降低送风温度有助于减少热点似乎合乎逻辑,但这是处理热点的最后手段,因为它降低了整体温度。制冷系统效率和制冷量。这种方法的效果取决于机房空调的工作状态。如果冷却系统仍然有过剩容量(即工作量小于100%,未达到冷却极限),那么降低温度设定点的做法会产生积极效果。对于机房空调附近的热点,降低温度设置可以降低热点处的温度。但如果机房空调运行在最大容量(100%满负荷),由于系统已达到制冷极限,降低温度设定点没有效果,因此无法消除热点。对于给定的环境条件,每个冷却系统都有固定的最大冷却能力。随着温度设定点的降低,“最大”冷却能力也会降低。(2)在热通道中放置穿孔地板有些人认为这很好,因为他们不了解冷通道/热通道布局设计的好处,将所有高温都视为热点。事实上,这种方法并没有消除冷通道中的热点,反而有可能产生更多的热点。此外,在热通道中放置穿孔地板(即产生旁路气流)也会降低可用的冷却能力。冷通道/热通道布局设计是最有效的方法,因此热通道中完全没有热点。由于冷通道是IT设备获得冷量的“冷容器”,因此IT设备保持冷通道内的低温非常重要。早期风冷大型设备普及时,往往通过活动地板提供冷量,根据回风温度控制制冷机组。这种方法之所以奏效,是因为室内空气温度均匀,冷热气流混合得很好。如今,冷通道/热通道的布局设计刻意设置冷热两个温区,导致回风温度不均。习惯于统一室温设计的人可能会在热通道中放置穿孔地板,认为这样做可以解决热点问题。(3)将机柜和穿孔地板放置在靠近冷却装置的位置有些人觉得将机柜和穿孔地板尽可能靠近冷却装置放置,因为他们认为放置在距冷却装置几英尺以内的机架和穿孔地板会受到影响。更好的结果。更多的冷却能力。但实际上,效果恰恰相反。它可能导致IT设备耗尽并且无法始终如一地消除热点。虽然这种做法可以帮助捕获大部分热量,但它是不可预测的,也不是解决热点的有效方法。这种做法之所以会导致IT设备散热不足,是因为制冷单元送出的气流速度快,导致该区域的静压偏低。这意味着安装在该区域的穿孔地板的制冷量很小,甚至可能将房间内的气流吸入地板通道。确定高架地板下的气流是否存在问题的一种简单方法是在穿孔地板上方放置一张小纸片。如果纸张被吸进多孔地板,则应将多孔地板换成实心地板,以平衡活动地板下的通道压力。(4)在热点柜前放置落地扇有人认为这样可以将气流直接集中在热点前,是消除热点的好方法。但是,这种方法只能在紧急情况下临时使用,例如IT设备的冷却即将中断时。这种方法可以降低设备的工作温度来消除热点,但是非常昂贵。落地扇的作用基本上是一个气流混合器,将设备排出的冷热空气混合,使气流的温度介于送风温度低和排风温度高之间。这也增加了通过设备的气流。冷热空气的混合也会降低制冷系统的效率,导致除湿/加湿负担增加,制冷系统容量利用率不足,还可能因制冷冗余而造成损失。此外,落地扇可以作为数据中心内的额外热源。(5)将气流吹过冰块送入冷通道有人认为用冰块降温是一种很好的简单方法。虽然这种方法有助于缓解热点,但冰融化并变成水,可能会溢出容器,造成严重后果。即使使用包装好的冰袋也不是最好的方法,因为有更简单有效的方法。我们将在下面详细讨论这些方法。(6)推入便携式冷却装置有些人认为这是解决问题的好方法,因为它将冷空气直接集中在热点前。但这种方法只能在紧急情况下临时使用,比如IT设备的制冷即将中断时。不幸的是,这种方法经常被用作永久解决方案。便携式冷却装置通常用于发生冷却损失的情况,因为它们可以很容易地被数据中心工作人员推到位。但是,下面讨论的最佳方法是首选的永久性解决方案,它们价格低廉且非常有效,可以正确解决整个数据中心的热点问题。(7)增加冷却装置有些人很自然地将热点与冷却能力不足联系起来,因此增加冷却装置被认为是一种理想的方法。然而,在大多数情况下,制冷量是足够的,但由于缺乏气流管理,所需的制冷量达不到制冷需求点。此外,这种方法不是灵丹妙药,在解决热点问题时会产生大量费用。根据UptimeInstitute的一项调查,虽然一些IT机房的制冷能力高达所需制冷量的15倍,但机房中仍有7%到20%的机架存在热点。原因是进入的冷空气绕过了IT设备的进风口。正确的解决方案是使用下面讨论的最佳实践,然后验证是否需要额外的冷却装置。3、消除热点的新方法上述方法很常见,但大多数不推荐使用,因为它们无助于解决热点的两个主要原因(即气流旁路和再循环)。为了消除空气旁路和再循环,必须将冷热空气完全分开,这样根本不存在热点。下面的前四个最佳实践之所以有效,正是因为它们解决了气流旁路或再循环,或两者兼而有之的问题。最后一种新方法只能在气流管理完全到位后使用。(1)管理机柜气流许多热点的产生是因为设备排出的热空气在机柜内或机柜周围循环。因此,改善机柜气流管理对于解决热点问题至关重要。开放式机柜U空间和电缆进出线是热风回流的主要原因,直接导致热点。改善机柜气流的最简单和最经济的方法之一是使用盲板挡住未使用的机柜U空间,并在机柜的进出风口安装毛刷。企业应更新数据中心运营流程,规定移动、增设、变更时必须安装盲板、盲刷。某些类型的交换机和路由器使用侧向气流。如果安装这些设备的数据中心采用传统的从前到后的机架气流,则交换机/路由器排出的热空气会返回进气口并导致热点。借助机架侧空气分配装置,我们可以预测地将冷空气直接输送到侧空气装置,而不会产生热点。如果平均冷却能力足够,但热点在高于平均水平的机架中发展,则可以添加风扇辅助设备,通过改善气流和增加冷却能力来改善冷却。风扇辅助设备有效地从相邻机架“借用”气流,用于功率密度高达3kW的负载,以支持机架负载。这种方法可最大限度地减少机柜顶部和底部之间的温差,并防止设备排出的热空气再循环到机柜进气口。必须非常小心地部署所有排气装置,以确保来自相邻空间的气流不会使相邻机柜过热。这些设备应由UPS供电,以避免停电期间冷却中断。在高密度环境下,备用引擎启动时也可能出现过热现象。(2)机房气流管理机房气流管理改善后,接下来重要的一步就是机房气流管理的改善。首先,高架地板上的所有开口都是密封的。使用刷子密封机柜后部和PDU下方的电缆入口。大多数导致意外气流的泄漏都是由这些开口引起的。空气阻尼泡沫或垫子也可用于密封冷却装置和其他地板空隙周围的缝隙,在地板缺失的地方安装实心地板,并找出导致气流旁路的穿孔地板并用实心地板代替。例如,如果一个空柜子前面有一块穿孔地板,就应该换成实心地板。此外,按照边栏中的步骤重新平衡地板下的气流。正确铺设地板并密封高架地板的缝隙可以帮助恢复失去的制冷能力。导致热点问题的另一个因素是机柜顶部上方和机柜排末端周围发生的冷热气流混合。解决此问题的最佳做法是通过安全壳和/或机柜气流将冷热气流分开。通道封闭不仅有助于消除热点,而且比传统的非封闭数据中心设计更节能。可以用送风装置替换机柜的后门,从而将其变成主动风管机柜。请注意,这些设备会使机柜的总深度增加约250mm,这可能会增加每两排相邻机柜之间的间距。通常情况下,排入热通道的热风会被收集并向上推,然后沿风管进入回风通道。这可以防止气流在机柜中再循环并提高冷却系统的效率和冷却能力。主动、独立的管道系统中的风扇可以支持高达12kW的机架功率密度,并克服通道压力差或服务器排风电缆过度拥挤导致的压降。但主动式风管系统很容易为数据中心的其他区域带来意想不到的问题,因此在部署和安装它们时应格外小心。这些设备必须使用盲板和机柜侧板。有源管道系统是电力消耗者,因此需要监控和维护。(3)移动问题负载如前所述,移动问题负载的方法是在发现“问题”负载后,将其移动到密度较低的机柜,以消除热点。为机房配备冷却设备,将机房冷却到低于机柜潜在峰值的平均值,并将负载分散到多个机柜上,从而摆脱任何高于设计平均值的机柜负载。请注意,将设备负载分布在多个机柜中会导致机柜内出现大量未使用的垂直空间。这些空间必须用盲板密封,以防止冷却性能下降。如果可以拆除服务器或其他关键设备,几乎可以免费解决热点问题。(4)改变温湿度传感器的位置大多数老旧的数据中心,机房空调的回风口都安装了温度检测器,使得风量变幻莫测。这也会导致机房空调负载不均衡,造成服务器进风口温度波动。将温度探头移至供气受控且可预测的供气流中,可以使IT设备进气口的温度更加均匀。与密闭装置配合使用时,改变温度探头的位置也可以提高送风温度,从而降低冷却系统的能耗,而不必担心送风温度波动较大。(5)使用数据中心基础设施管理软件控制冷却单元的气流一些系统可以根据IT机柜前的温度来控制单个机房的冷却单元。这些系统使用模糊算法来动态预测和调整冷却装置风扇速度,并衡量哪些冷却装置可以关闭。可以通过控制进入数据中心的空气量来限制旁路气流。Vigilent制冷系统是此类系统的典型示例。4.结语热点会严重影响服务器的可靠性和性能,甚至造成服务器损坏。由于冷空气泄漏(即气流旁路)和设备排出的热空气再循环等低效的气流管理,IT设备的进气口经常出现热点。步行感应温度、手动测量温度或自动监测是识别热点的三种主要方法。数据中心运维人员采取了很多消除热点的对策,但大多都不尽如人意。有些只能作为紧急情况使用,有些则毫无用处,有些甚至可能使问题变得更糟。消除热点的最佳实践包括机架和房间气流管理、空气遏制、问题设备的重新定位、改变温度传感器位置,以及通过数据中心物理基础设施管理软件控制流向冷却单元的气流。使用这些方法解决热点问题不仅简单易行,而且成本低、效果好。