当前位置: 首页 > 科技观察

如何防止数据中心中断?_0

时间:2023-03-15 23:28:00 科技观察

每一次数据中心中断都是代价高昂的。随着数字化步伐的加快,维持正常运行时间的压力极具挑战性。考虑到数据中心负载的增加,单靠人类已经不可能处理复杂性增加带来的大量问题。如今,IT运营团队比以往任何时候都更需要管理复杂的IT基础架构。这与不断增加的数据量相结合,使得IT团队的任务在当今动态、不断变化的IT环境中更难管理。这增加了中断的可能性。尽管有许多技术进步,但停电现象很普遍,而且还在不断增加。UptimeInstitute的2022年度中断分析报告强调,五分之一的组织报告在过去三年中经历了“严重”或“重大”中断,涉及重大财务损失、声誉损害、合规违规,在某些严重情况下,也有人员伤亡,标志着重大中断发生率略有上升趋势。根据Uptime的2022年数据中心弹性调查,80%的数据中心经理和操作员在过去三年中经历过某种类型的中断,与正常情况相比略有增加,在70%到80%之间波动。超过60%的数据中心故障导致总损失至少100,000美元,高于2019年的39%。同期,损失超过100万美元的中断所占百分比从11%上升到15%。数据中心中断的原因中断的原因各不相同。从网络故障到硬件或软件故障,再到停电、网络攻击和人为错误,数据中心中断的原因有很多。以下是服务中断的主要原因,并推荐了缓解这些问题的最佳做法:网络问题:根据Uptime的2022年数据中心弹性调查,网络相关问题已成为过去三年所有IT服务中断的主要原因事件的最大单一原因——无论严重程度如何。由于越来越多地使用云技术、软件定义的架构和混合分布式架构带来的复杂性,由于软件、网络和系统问题导致的中断正在增加。与电力相关的问题:与电力相关的停电占被归类为严重停电(导致停机和经济损失)的43%。据Uptime称,电源事故的最大单一原因是不间断电源(UPS)故障。人为错误:同样的正常运行时间调查显示,绝大多数与人为错误有关的中断涉及被忽视或不适当的程序。近40%的组织在过去三年中经历过人为错误导致的重大中断。在这些事件中,85%是由于员工未能遵守程序或程序本身存在缺陷。勒索软件和DDoS:网络攻击也可能是造成中断的主要原因。勒索软件和DDoS攻击导致的数据泄露如今很常见,并可能导致业务中断。随着勒索软件变得越来越复杂和普遍,它在大公司的董事会中越来越引人注目。NTTSecurityHoldings的一份报告指出,勒索软件流行正在影响业务连续性,勒索软件事件响应业务在过去24个月中增长了240%。防止中断的最佳实践弹性是数据中心的一个关键属性,每个企业都必须通过一系列举措努力防止中断。首先,组织必须定期分析数据中心生态系统每个关键组件的弹性,例如电源、冷却、连接、服务提供商。数据中心温度与数据中心设备故障直接相关。因此,监测温度对于防止任何可能的设备故障或停机变得极为重要。UPS系统的故障也可能导致停电。由于大多数UPS系统在发生电源故障之前从未真正经过测试,因此对UPS系统进行一致的远程监控有助于提供实时警报,并在潜在问题导致断电之前提醒管理员。软件故障也可能导致中断和停机。因此,定期的软件更新和补丁是必要的。为确保定期打补丁,AI可用于扫描漏洞并在需要时应用软件更新或补丁。AI还可用于主动识别与数据中心设备或应用程序性能或安全性相关的问题。通过结合使用主动网络监控和使用自动化来最大限度地减少人为错误的可能性,可以防止与网络相关的中断。网络冗余也是可取的,这意味着如果一个网络出现故障,可以使用来自不同服务提供商的备用网络。理想情况下,聘请第三方服务提供商可以审核弹性并提供独立、公正的评估以了解和衡量弹性。选择正确的灾难恢复流程还有助于从中断中快速恢复。为确保抵御勒索软件,组织必须减少用户权限、取消所有最终用户管理员并使用多因素身份验证(MFA),因为这极大地限制了攻击者横向移动的机会。网络分段可以减少攻击向量,而实施基于策略的用户端点检测和响应(EDR)解决方案隔离可以帮助防止恶意软件的传播。研究表明,许多数据中心中断是完全可以预防和避免的。如果组织投资于正确的设备、技术和流程,则可以避免大多数中断。