当前位置: 首页 > 科技观察

数据中心业务中断大多与运营流程有关

时间:2023-03-16 10:12:37 科技观察

TiePoint-BKM工程设备公司运营解决方案总监DavidBoston表示,三分之二的数据中心业务中断与其运营流程有关,而非基础设施系统。现在很多重点行业在开发和运营过程中投入大量的时间和资源在培训和教育上,比如核工业、军民航,甚至司机,而数据中心行业没有那么多的时间和资源用于培训和教育。训练。TiePoint-BKMEngineeringEquipment运营解决方案总监DavidBoston表示,三分之二的数据中心中断与运营流程有关,而不是基础设施系统。“大多数人都知道流程是造成大部分停机时间的原因,但很少有人主动全面地解决这些问题,”他说。“这对我们行业来说是独一无二的。”学院的数据中心世界大会概述了防止数据中心中断的策略。他建议,数据中心管理经常被迫更换老化的基础设施系统和组件,或导致反复出现问题的系统,并习惯于增加系统容量以适应负载增长。在基础设施方面,冷却系统中的机械故障占故障的大部分,但电气系统故障导致停机事件较多,因为很难在如此短的时间内快速响应。“这些努力需要外部工程支持,因此管理所需的时间通常仅限于项目识别和监督,”他说。虽然开发和数据中心中断的最常见原因可能是更耗时的管理,但它确实需要很多时间。以下是波士顿推荐的三大问题和最佳实践:1.设施的员工人数和班次与关键运营的目标正常运行时间不匹配。***实践:量化高级IT主管的正常运行时间目标并确保人员配备匹配。波士顿建议每班安排两个人,其他员工负责培训和程序计划。如果需要最长的正常运行时间,则只有在可以接受偶尔的停机事件时才应使用全天候值班。2.没有具体的培训计划,包括设施开始运营前的专业实践时间。***实践:指定一名团队成员作为培训项目的管理者,及时协调所有团队成员的月度应急响应培训。练习轮换每个团队成员,在维护活动之前隔离基础设施系统,并在预防性维护日历上记录活动以使系统恢复服务。3、对具体流程了解不够。***实践:指派一名团队成员作为项目负责人,负责为几乎每个关键设施所需的100到200个关键项目开发(或与顾问一起工作)。每个人都确认其技术准确性和验证,并且所有程序都对团队中最不知情的人清楚。Boston评论说:“我一直怀疑许多公司最初不愿意花时间实施上述选项。组织绝对应该在业务关键方面实施这些流程,而这些流程会对组织的收入产生负面影响或声誉。但是,对于非关键业务,他建议采用快速恢复方法。