当前位置: 首页 > 科技观察

数据中心基础设施项目的高效管理

时间:2023-03-22 00:49:42 科技观察

数据中心的自动监控系统在市场上相对较新,最初此类产品包括各种功能,例如保存设备记录以及控制设备移动和维护。直到今天,它的功能不仅仅是绑定数据库绘制图表来传达机房的信息,现代系统可以解决数据中心运行中的各种任务。在本文中,我们将研究行业中的常见问题并尝试找到解决方案。扩展多功能数据中心的工程基础设施可分为两个控制回路,一个处理机柜的冷却和配电,另一个处理整个设施的电源系统、空调系统和各种辅助子系统(灭火、门禁等),通常这两个电路及其组成部分相互独立,由不同部门的维护人员操作。企业通常不愿意购买基础设施管理的整体解决方案,尤其是对于商业数据中心。但公司管理层时常想省钱,同意使用分散的空调和UPS系统进行规划。然而,多个控制电路之间缺乏通信桥梁、数据中心子系统的自动化程度不同以及多个不同的设备供应商使得所有设施部分的协调变得复杂,导致集成困难重重。控制模式最坏的情况下,小型数据中心子系统是手动控制的,使用MicrosoftExcel记录设备安装和移动。通常这种文书工作自然是一团糟,因为用电子表格维护正确的数据库是一个问题。一个非常具有挑战性的任务,当机柜数量以十为单位计量时,存在人工核算的问题,而且此类数据中心只有在出现故障时才会更换设备,这会增加事故的间接成本和停机时间.如果停机时间对数据中心至关重要,则应使用反应控制模式,该模式监控故障排除程序并进行持续的文书工作。但是,该过程是基于员工的经验和他们对数据中心的了解,以便在发生事件时可以迅速排除问题。在没有机会全面分析故障原因的情况下,预防存在严重困难,当只有少数专家知道如何管理设施的所有过程时,如果一个专家离开,就会出现新的问题。一个更先进的管理模型,始终以服务为导向,负责设施所有子系统的完整文书工作,明确定义设备更换和预防性维护的规则和程序,并对设备的移动进行全面计算,同时提供工程系统参数、事件描述、人员事件缓解措施等运行报告。面向服务的数据中心管理方式的主要特点是其主动性。该模型不仅可以分析错误原因,还可以在问题发生之前进行预测,建立解决方案,快速恢复服务。当然,如果不为所有数据中心子系统引入单一的自动化监控和调度系统,这种方法是不可行的。经验表明,由于缺乏高技能专家,错误往往是人为失误,但如果调度中心实现自动化,并且所有设施维护规章制度都已建立,那么大多数人员只需要基本知识即可。监控和调度大约十年前,所有工程子系统都合并到一个单一平台DCIM(数据中心基础设施管理)解决方案中。DCIM的第一个版本能够制定场景或计划并维护文书工作,但功能发生了很大变化,现代解决方案连接到来自不同制造商的设备中的内置监控工具,并连接到其他传感器、控制器、信号转换器和数据收集系统收集机柜到每一层的能源消耗、机柜、冷却系统和内部管道的温度和湿度以及液体泄漏数据的信息,这是达到预期目的所需的最低限度。一旦安装了DCIM,客户就可以拥有一个集成的监控环境系统来处理包括所有关键子系统和IT设备在内的数据。主要任务是结合最大可用数据的流向,及时收集和处理数据,使机房人员能够全面了解数据中心所有子系统的功能状态,包括实时计算能力。这是DCIM的另一个优势,可以减少人为因素对数据中心子系统性能的影响。选择困难。公司导入DCIM的时间可能会有所不同,但最好在设施设计时导入DCIM。这时也可以选择不同厂商的设备,集成到现有的独立子系统中,在数据中心设计时选择。不会引起任何问题的解决方案通常由帮助选择必要的硬件和软件的系统集成商完成。现有数据中心的情况比较复杂,现在需要召集一个工作组,包括相关部门的代表,把需要监控的基础设施的所有参数和节点,按照重要性从高到低的顺序列出来对基础设施设备支持的协议和通信方法进行排名和审查,然后考虑安装哪些传感器和控制器。使用此信息,选择必须购买的软件解决方案,然后列出要扩展的设备以估算总体项目预算。完全外包DCIM的导入是个好主意。错误将比系统集成商花费更多的设计时间。服务成本更高。DCIM系统最初是本地进口的,但现在许多开发人员将它们作为SaaS(软件即服务)提供,这种方式可以大大降低费用。优化立足点数据中心运营的主要费用是电力成本。IT设备和冷却系统的运行消耗大量电力。因此,必须首先优化能耗。能源消耗取决于许多外部和内部因素,例如气候和天气条件。(包括季节变化)将直接影响冷却系统,其中DCIM还可以分析电信设备和其他子系统负载增减的试算。人工计算所有因素是不可能的,但可以通过DCIM系统对实际积累的统计数据进行计算分析,从而找出基础设施中的问题区域。数据中心最关键的指标之一是电源使用效率(PUE)系数,它显示有多少电能用于IT负载、冷却和UPS运行,以及有多少能量用于配电系统。PUE计算方法是机房总耗电量除以IT设备总耗电量。起初,1.6到2.0的PUE系数被认为是可以接受的,但现在市场正在追求更高效的数据中心,因此正在努力将PUE保持在1.1到1.2之间。通常,机房能耗是在UPS的输出、配电单元的输出以及IT设备的实际使用情况下测量的。根据获得的数据,可以准确推导出数据中心的能效。虽然PUE不能反映数据的一些细微差别,例如无法尝试服务器的停机时间或确定问题热点的来源,但PUE仍然非常重要。此外,将PUE降低到接近1通常会导致数据中心可靠性降低、事故和设备寿命缩短,从而抵消节能效果。现代控制系统可以采集服务器、机柜、配电设备的能耗数据,甚至可以监控每一个通信点,以通俗易懂的可视化形式显示关键资源消耗统计数据,更容易发现区域具有最高的能源消耗。为了优化成本支出,还可以确定低负载时期,以便在这些时期安排维护。能耗峰值分析可以将能量储备保持在10%-15%的范围内,而不是手动控制的30%-40%,这也节省了可观的成本。DCIM解决方案还可以监控其他工程子系统。例如,DCIM可以映射气流以识别空调和气候控制系统中的问题区域,这些是机房中仅次于IT设备的第二大电力用户。不要忘记在出现严重问题之前进行故障排除,预防并迅速消除它们可以提高基础设施的可靠性并降低成本。手动控制只适用于小型机房,但在几十甚至上百个机柜的机房,就必须导入DCIM。行业展望到目前为止,我们只讨论了基础设施工程,因为IT基础设施管理被认为是一项单独的任务,通常使用与DCIM不同的系统。对于商业数据中心来说,IT设备的工作是客户的责任,但虚拟化融合/超融合基础设施的发展正在逐渐改变这种状况。如今,开发人员正在开发可以在单个物理设备上进行实时监控的虚拟服务器解决方案,而IT供应商则在其产品中嵌入大量传感器以监控功耗和温度。虚拟化环境中的有效载荷规划必须涵盖所有层面:操作系统和应用程序、服务器、存储系统、电信设备和通信管道,当然还有物理资源,如:电源、冷却、加湿系统等。DCIM解决方案不是只是大型数据中心的一部分,但在不久的将来,DCIM、虚拟化平台和IT基础设施管理系统将紧密结合。