当前位置: 首页 > 科技观察

你建的数据中心真的靠谱吗?

时间:2023-03-13 00:28:02 科技观察

数据中心行业广泛采用冗余设备来实现更高的系统可用性,通常要求在99.999%(五个九)范围内。但是,所需的冗余级别取决于设备的可靠性。例如,“N+1”冗余系统无法通过同时发生故障的可能性很高的不可靠系统组件来实现高可用性。可靠性影响可用性,但在数据中心遇到停机和故障的情况下,可靠性和可用性不是一回事。可靠性还会影响数据中心的运营成本。更多的停机时间等于更多的维护和维修费用。可靠性是指在指定条件下,一个项目将在指定时间间隔内执行其预期功能的概率。关于可靠性,这里有一些需要注意的重要问题:数据中心是否使用以可靠性为中心的维护(RCM)概念来优化维护工作?是否已完成设备的关键性分析?是否定期跟踪平均故障间隔时间(MTBF)?预防性维护(PM)程序是否优化?是否跟踪设备故障并相应改进流程?目标:最大限度地减少支出,最大限度地提高可靠性在当今竞争激烈的市场中,可靠性和运营费用保持在最低水平,同时运行时间也最短。许多数据中心仅根据OEM服务建议来制定关键设备的服务范围。虽然这可以产生足够的结果,但通常不是很好。很多时候,这些建议符合服务组织的最大利益,而不是最终用户的利益。事实上,通常有更好的方法来提高可靠性,同时使用以可靠性为中心的维护(RCM)原则降低成本。虽然以可靠性为中心的维护(RCM)计划已被证明是有效的,但它们可能成本高昂且资源密集。它们涉及创建详细的故障模式和影响分析(FMEA)以及填充决策工作表,这需要专业知识并且可能非常耗时。考虑到这一点,在数据中心内实施全面的以可靠性为中心的维护(RCM)计划通常并不划算。相反,实施采用关键的以可靠性为中心的维护(RCM)要素和有关常见故障模式的历史信息的预防性维护(PM)优化计划是一种已在其他行业证明具有成本效益的策略,并且正在为数据中心提供良好的采用模型。下图显示了具有预防性和预测性维护策略的故障概率曲线(P-F曲线)。P-F曲线是以可靠性为中心的维护(RCM)的基本原则,无需完成详尽的分析即可成功应用。许多这些可靠性工具可用于显着改善资产的状况和使用寿命。解决方案:实施可靠性计划2017年,数据中心运营商RagingWire,Inc.决定为其数据中心实施可靠性计划。公司聘请具有生产背景的可靠性工程师。其初步的可靠性措施包括:1.服务范围a.研制相关设备81台。b.输入管理机构(IEEE、ANSI/NETA、ASHRAE、NFPA)的OEM建议和代码。C。设备清单包括支持设备,如叉车、托盘升降机、电梯、防雷装置、高架门、装卸码头、阀门和供水系统。d.用于为所有设备创建任务列表,并在预防性维护(PM)程序的计算机化维护管理系统(CMMS)中设置。2.计算机化维修管理系统(CMMS)a.制定和记录标准。b.使用未使用或不必要的信息重新部署程序。C。新增故障、原因及维护代码、使用寿命等可靠性字段。d.输入内部和外部工作活动的纠正工作单。e.对已实施的变更进行全公司范围的培训。F。为正在进行的年度培训和新员工建立培训矩阵。G。建立一个每月开会的咨询团队,讨论可以改进该计划的就业和变化。H。创建详细的用户指南。我。建立环境健康与安全(EHS)定期要求以确保合规。3.可靠性制定分配责任的路线图。b.成立了可靠性指导小组。4.节约成本组建了一个成本降低团队,包括工程和运营人员。b.采购团队就主要设备和费用达成一致。C。通过使用一系列服务,每年可节省250,000美元。5.预防性维护(PM)建立柴油发电机油、变压器油在线上报分析小组。b.通过故障模式和影响分析(FMEA)对关键设备实施预防性维护(PM)优化流程6.资产管理a.定义资产并创建列表。b.定义了设备层次结构。C。确定设备的关键性。d.定义的维护策略:预防性维护(PM)、故障查找、重新设计、运行至故障。7.根本原因分析(RCA)根据批准的政策和详细程序制定程序。b.选择根本原因分析(RCA)软件来支持该过程。C。选定的工程和操作人员已经过培训。8.创建策略和文档创建预防性维护(PM)优化策略和程序、热成像策略和程序、预测性维护策略、油液分析策略和程序、电机电路分析策略、振动分析策略和计算机化维护管理系统(CMMS)招聘策略。9.建立工单处理工作流程未来举措未来将计划更多举措,包括:(1)确定设备预期使用寿命的程序,以帮助进行资本规划。(2)建立预防性维护(PM)和基于状态的维护(CBM)程序。(3)使用可靠性关键绩效指标(KPI)确定持续改进的机会。(4)建立仓库管理程序,正确识别现场所需的备品备件,并妥善保管,以备使用。可靠性计划的典型好处包括减少设备故障和维护成本、提高工作单效率、延长资产寿命以及因设备维护风险降低而带来的更安全的环境。此外,一些附带好处包括收集设备历史记录以进行资产管理和年度预算、系统地消除故障的根本原因以及评估维护活动以寻找持续改进的机会。一家数据中心运营商通过其新的可靠性计划节省了资金并提高了生产力。捕获故障数据和改进维护流程有望继续延长资产的预期使用寿命,从而减少资本支出。还可以跟踪关键指标以确保预期与结果相符。通过优先考虑可靠性并超越数据中心固有的冗余措施,这是朝着成为更可靠、更经济的数据中心提供商的目标迈出的重要一步。