数据中心标准机构UptimeInstitute最近对全球300多名数据中心运营经理进行了一项调查。当被问及冠状病毒大流行将如何改变数据中心运营时,三分之二的受访者希望在未来几年内增加数据中心的冗余。许多人预计其运营成本会增加。这样做的理由很明确:爆发可能意味着员工减少,运营服务和供应链可能中断。远程监控和预防性维护将有助于减少发生故障的可能性,但机器经常会发生故障。通过增加系统冗余来减少故障的影响是有意义的。但即使在大流行之前,数据中心行业就存在增加冗余的趋势。在UptimeInstitute2020年对全球数据中心供应商、设计师和顾问进行的调查中,大约一半的受访者表示,他们的客户在过去三到五年中增加了数据中心冗余。云计算平台能否解决宕机问题?这种趋势对某些人来说似乎不足为奇,但并非完全可以预测。随着多站点弹性的提高和可用性区域的增长,云计算的应用越来越广泛。至少在理论上,这可以显着减少单个数据中心设施中服务中断的影响,因为流量和工作负载可以转移到其他数据中心。在这种能力的支持下,一些数据中心运营商,如Facebook,采用了比过去更低的冗余度,从而节省了成本和能源。但是,使用可用区也会面临一些问题,网络和软件问题经常会导致服务中断。服务中断后,一个数据中心立即将容量和流量需求转移到另一个数据中心,从而增加了风险。因此,即使是大型云计算提供商和全球网络运营商也大多同时管理可维护的数据中心设施,并经常规定托管合作伙伴拥有或运营具有“N+2”冗余级别的数据中心设施。在所有选项可用的情况下,向增加冗余的整体转变仍然缓慢且相当微妙。根据业务需要,数据中心设计人员大多采用“N+1”或“N+2”冗余配置,这通常取决于数据中心设计人员的创造力。总体而言,2N个数据中心的数量实际上略有减少,但在三年时间里从“N+1”稳步转变为“N+2”——不仅在功率方面,而且在冷却。正如UptimeInstitute在2020年全球数据中心调查中所讨论的那样,可用性区域的使用也在增加。这些更高级别的冗余部分是由渐进的关键需求模式和不断增长的IT依赖性来解释的。每个服务或每个客户端所需的冗余级别由业务需求决定,但不是固定的。许多IT服务的重要性与日俱增,凸显了通过增加冗余来降低风险的重要性。“渐进式关键性”(数据中心基础设施和流程未升级或更新以反映其支持的应用程序或业务流程日益增长的关键性)可能需要升级冗余。UptimeInstitute预计数据中心运营商在未来会更多地使用分布式服务,尤其是当更多的工作负载是使用云计算或微服务架构设计的(工作负载更便携,它们的实例更容易复制)。但没有迹象表明对数据中心冗余的需求正在减少。运行这些分布式服务的软件通常不透明、复杂,并且可能容易出现编程或配置错误。年度调查数据显示,此类问题正在激增。此外,任何大型组件故障都可能级联,使得数据和应用程序可以跨多个数据中心同步的数据中心的恢复变得困难且成本高昂。目前的趋势很明显:在各级增加裁员是风险最小的途径,即使这意味着一些额外的费用和重复工作。
