如何保障数据中心的稳定运行,一直是困扰业界多年的难题。机房环境的意外变化可能造成难以估量的损失。因此,我们希望打造一个“零钱沙盘”。在真正改变之前,操作员可以在沙盘中进行试改。如果变更效果在预期范围内,再对真实环境进行变更,尽可能减少变更对机房造成的故障。. 近日,阿里巴巴-南大联合研究院联合实施并上线了高精度实时监控系统——基于CFD的变化沙盘系统。本系统在现成的CFD软件上实现了工业级精度变化的沙盘测试和验证。今天,让我们从零到一来观察一下这次尝试。 项目背景 随着阿里巴巴业务的不断扩大,其数据中心规模也在不断扩大。相应地,数据中心的日常演练、运营优化等变化也越来越频繁;规模的增加导致环境的复杂度呈指数级增长,越来越难以根据专家经验判断变化是否会导致故障。同时,数据中心变更故障可能对业务造成的影响越来越大,可能造成的损失难以估计。因此,机房运营商迫切需要一个规范可靠的机房变更安全验证系统,帮助他们了解变更的具体影响是什么,是否会影响安全生产,是否有更合理的变更建议。 对于电源变化,可以从电源拓扑中构建一个变化沙盘。然而,暖通空调的变化涉及气流组织和热量的变化,这些变化是看不见摸不着的。传统方法很难模拟现实世界的变化。IDC运营优化团队经过一系列调研得出结论,采用计算流体动力学(ComputationalFluidDynamics,简称CFD)进行机房模拟是一种更可能达到生产标准的方式。 现有的类似解决方案 ComputationalFluidDynamics(CFD)forcomputationalfluiddynamics(CFD)forcomputationalsimulation是检查不同变化对机房的热力学影响的通用解决方案。CFD建模可以通过建立物理模型并加载实际的热力学设置(制冷和制热、空调服务器风速等)来计算私人房间内的气流分布和温度。CFD模拟具有比较成熟的技术积累,广泛应用于热力学和空气动力学领域。在数据中心领域,也有从盒子到芯片级的CFD仿真应用。但由于精度有限,一般只用于前期设计和规划。 数据中心包房流线 应用CFD搭建沙盘系统的挑战: 1)现有商用CFD软件可以模拟包房获取机房热分布和气流方向。但这种软件通常用于设计阶段,利用设计阶段的粗略数据进行仿真。实际工况还原程度低,温度预测精度只能达到3度以上,无法满足更换沙盘的精度要求。 2)目前的CFD软件主要以人机交互为主,缺乏对自动化操作的支持,不能满足自动获取数据和返回结果的需求。大量操作只能通过人机交互进行,效率低下。 3)建模所需数据的真实性。由于模型的准确性与所采用的模拟设置是否与实际情况相符密切相关,因此获取的模拟设置信息(如功耗、空调设置信息等)的准确性非常关键。通常这些信息是在设计阶段确定的,其中一些是在运行时获得的。只有仔细验证这些数据,才能保证建模的准确性(反过来,建模过程可以逆向设计实现和数据标准化过程)。 我们的解决方案 阿里巴巴与新加坡南洋理工大学(NTU)计算机科学与工程学院温永刚教授团队依托阿里巴巴-南大联合研究院平台,通过近一年的研究,开发和测试,实施并推出了一个高精度的基于CFD的变化沙盘系统,可以连接到一个实时监控系统。本系统在现成的CFD软件上实现了工业级精度变化的沙盘测试和验证。 本项目选择了机房内的私人房间作为技术试点,在机房物理建模、模型标定和项目实施等方面进行了密切合作。 1)物理建模: 这个过程主要是将包房内的物理结构设置到模型中,提供仿真基础。本着最大限度还原的原则,我们实现了以下几个方面的建模操作:结构建模:设置机房结构、墙壁、通风口、天花板、管道空调设备、传感器设置设备建模:根据厂商模型导入服务器模型 2)模型校准 模型校准的主要原则需要实现以下三个方面的真实还原:机房制冷源热温:校准时,需要确认模型中的冷热与实际一致。机房气流变化的原因:在校准过程中,需要保证冷热风的气流与实际情况一致。温度测量数据:校准时,需要保证模型预测的温度与实际温度一致。 为了保证模型能够达到工业级精度,项目组进行了大量的数据验证和模型调整。这些工作对整个机房的相关信息和设置进行了全面的梳理和验证,形成了完整的标准化校准文档,为以后的建模推广打下了坚实的基础。这些校准操作可以分为2类: 第1类:数据验证服务器验证(包括:少数服务器U位冲突,服务器功耗校准)传感器验证(包括:空调送风温度,速度,以及冷热通道传感器位置、数据) 第二类:机型调整热风泄漏设置调整,热风泄漏会导致冷通道温度升高。箱体仿真模式调整,设置为细粒度仿真模式。服务器风量设置调整,精确设置服务器风速以满足实际需要。 依靠大量的传感器数据,通过上述标定操作,最终模型在设计阶段达到了CFD从未使用过的精度。这些精度来自于我们对各种硬件布局的精准还原,每一次操作的数据审核,以及细粒度的服务器风速校准。 3)项目实施 如图所示为沙盘系统流程图。在模型达到所需的精度后,该团队进一步实现了CFD模拟的自动化。通过接入阿里巴巴自主研发的数据中心实时监控系统(DCIM),获取服务器功耗、空调出风温度、风扇转速等实时数据,并通过6Sigma开放SDK,让模型可以实时模拟包房内的真实情况。另外,一旦仿真计算完成,我们将计算结果从模型中导出,并传回监控系统,从而完成一个闭环仿真计算。 这样我们就实现了将沙盘系统集成到DCIM系统中,整个操作可以实现自动化,为沙盘系统日后的应用和推广打下了坚实的基础。 最终结果: 1)精度达标:模型以真实监测数据为输入,计算模拟目标传感器测温与实际传感器测温的平均绝对误差(MAE)作为模型准确度是根据来衡量的。经过长期观察(使用不同时期的数据进行验证),模型的仿真精度能够满足阿里巴巴数据中心建设标准的要求。理论上,它可以替代冷热通道传感器来监控数据中心生产车间的环境。 2)成功登陆:目前模型已经成功接入DCIM系统,可以自动从DCIM抓取数据并返回结果。目前仿真时间约为1小时,未来有望通过升级6SigmaLicense规范增加至10分钟。接入这套实时CFD仿真系统,意味着阿里自研的DCIM系统成为全球唯一具备高精度实时CFD仿真模块的数据中心云维管理系统。 改变沙盘系统的价值 私人房间可视化:从原来的2D和数字方式到3D和图形数字显示方式,包括实际布局、热力情况、气流情况,让管理者机房专家可与Facility专家交流,更直观、全面、快速了解机房整体情况,更快发现包房HVAC环境问题,协助优化现场冷量分布和气流组织。 故障检测:可实现厘米级监控包房内温度,快速发现温升(局部热点),从而拥有更快更强的风险识别能力,防止大型计算机室温上升事件。 设计验证:建模过程所需的物理设置信息通常在设计阶段确定。建模过程中获得的错误反馈信息可以直接验证设计与实现的差异。 设计优化(变更指导):沙盘系统可以模拟数据中心在不同设计下的运行,可以作为设计优化和数据中心变更的先验平台。 HVAC控制推荐:通过尝试不同的空调设置,并应用到当前环境中,可以获得最佳温度控制和能耗的空调设置,实现包房制冷的可靠智能控制. 业务调度推荐:根据机房详细温度分布,结合用电水位数据,为业务调度系统提供调度参考,使业务分布更均匀,温度分布机房布局也更加统一,制冷能耗降低,服务器性能提升。健康。 未来展望 未来的合作方向之一是对变沙盘系统进行行业级推广和验证,目标是制定行业标准。这使得变更沙盘系统能够应用于阿里数据中心更多的机房,以验证设计和优化管理控制。 未来我们希望将系统沙盘扩展到整个暖通系统,覆盖机房外的制冷设备,实现全链条模拟。这样就可以实现整个制冷系统的设计验证和控制优化。 综上所述,改变沙盘系统将显着提升数据中心从设计到运维的自动化水平,为更稳定高效的数据中心运维提供支撑。这是一次从零到一的尝试。我们构建了首个实时、高精度的HVAC变更系统,帮助数据中心运维人员判断变更是否可能导致故障,从而减少变更带来的损失。过错。更进一步,我们可以在更改后给出具体的环境变化,给出更改建议,甚至可以实现自动更改。这样,我们离无人值守机房的目标会越来越近。
