当前位置: 首页 > 科技观察

如何定义数据中心可用性

时间:2023-03-18 02:23:44 科技观察

数据中心是一个安全的基础设施,为IT设备提供稳定的电力和适当的环境运行条件。通常,数据中心运营面临许多不利因素,因此有充分的理由确保IT设备的电源可用性。我们在这里讨论如何定义数据中心的“可用性”。在数据中心的世界里,很多人常常将“可用性”和“可靠性”视为同一件事。此外,“冗余”一词似乎暗示某些人可以使用。可靠性不是可用性可靠性是系统或组件在指定条件下指定时间段内执行其所需功能的能力。组件的可靠性是基于称为平均故障间隔时间(MTBF)的统计概率的预测,通常以小时表示(例如100,000小时)。组件、设备或子系统的MTBF通常取决于数据中心设施的制造商。系统的可用性通常表示为时间的百分比。对于数据中心,它被称为“正常运行时间”,并用数字“9”进行量化。需要注意的是,常见的五个九(即99.999%)是贝尔最初设定的系统可用性参考标准。然而,五个九听起来令人印象深刻,但是,当基于每年8,760小时时,五个九仍然意味着每年有5.3分钟的停机时间。即使是六个九也相当于每年32秒的停机时间。在当今24/7的IT环境中,这对于组织来说显然是不可接受的,因为IT能力只能容忍少于20毫秒的中断。而且,这并不一定意味着一年只有一次停电。这可能面临多次停电,每次只有几秒,但加起来平均一年停电32秒,这显然是灾难性的,但在数学上仍然精确,并且满足6个9的要求.就可用性声明而言,重要的区别在于预测值和历史值。对于新建数据中心或其规划设计,只能作为参考,具体可根据其冗余设备的水平及其容错控制系统的复杂程度而定。相比之下,可用性的历史数据仅代表过去的实践经验。然而,历史数据并不代表未来的表现。具有“N+1”冗余的数据中心设施可能会在五年内没有任何中断,而具有“2N+1”冗余的数据中心可能会在其运行中断的第一年发生电源故障。冗余表示部署额外的设备,这些设备可以在发生故障时或在主电源或主设备不可用的情况下进行维护时提供所需的电力或冷却(定义为“N”)。然而,这个简单的陈述并不能确保负载转移到辅助或附加设备操作可以是无缝的或瞬时的。举个简单的例子,在市电停电期间,备用发电机启动并能够为负载供电,通常需要10到30秒。显然这对IT设备没有任何作用,需要有足够能量储备的UPS来提供不间断的电力。对于冷却系统,可接受的时间因冷却系统的类型而异。对于低功率密度设备,可持续5~30分钟。对于功率密度非常高的IT设备,只能持续15分钟。到60秒。用于控制电源和冷却以支持IT负载的弹性冗余设备。冗余设备本身并不排除瞬间或短暂的中断。人们使用容错设计和冗余设备(N+1、N+2等)和关键电源路径(N、2N等)的组合,IT设备在不中断电源的情况下运行。虽然拥有高度可靠的设备可以减少系统故障的可能性,但它并不能确保更高的可用性。“可用性”的真正基础是冗余设备、容错设计以及电力和冷却系统的控制和传输时间的重要性。事实上,永远不要将数据中心的可用性建立在设备的预期可靠性之上。企业需要采取更全面的方法。GreenGrid组织正在开发其数据中心可用性开放标准(OSDA)的第一个版本。虽然不打算与UptimeInstituteTier4系统直接竞争,但OSDA概念适用于电力设备和冷却系统的冗余级别的经典视图,但它还在整体方案中纳入了多站点数据复制以提高逻辑可用性应用程序,而不仅仅是维持数据中心基础设施的现状。OSDA系统也更灵活,因为它允许在不同级别实现电源和冷却冗余,这与不那么灵活的框架相反,后者确实认识到某些组织(或某些应用程序)可能需要更高的电气冗余,例如采用2“N+1”冗余,实际上只需实现“N+1”冗余即可。完全开发后,OSDA平台和工具集可用于评估多站点数据复制如何提供相同或更高级别的应用程序可用性(这就是首先构建数据中心的原因),范围为1-10,即使在使用冗余级别较低的数据中心基础设施时也是如此。许多企业高管认为云计算是“完美”的解决方案,因为它将消除与数据中心和IT硬件相关的所有资本和运营成本以及人员成本。虽然盲目地假定它始终可用,但实际上,云计算服务提供商的底层服务更加晦涩或完全不透明。尽管如此,即使在今天,许多机构和商业组织仍无法真正确定一种有意义的方式来评估云计算服务的可用性。计算架构变得非常活跃并不断发展,很明显,大多数组织已经放弃构建或运营自己的数据中心设施。许多企业采用托管服务提供商提供的托管服务,他们可以使用基于冗余方法的传统数据中心基础架构方法对其进行评估。因此,托管和云计算的混合方法已成为许多组织当前最喜欢的策略。许多人不同意长期运行的“数据中心可用性”行业标准,这是由UptimeInstitute创始人KenBrill创建的四层Tier分类系统。虽然它仍然是一个有价值的(和基本的)概念和指标,但它只评估数据中心设施基础设施的可用性,而不评估IT硬件、软件和数据本身的可用性。在虚拟化和数据复制时代,其基于数据中心的“可用性评级”只关注数据中心设施的电力和冷却基础设施的冗余水平。虽然这也很重要,但它不应该成为评估计算系统和存储的基础。数据可用性的唯一因素。因此,在规划和构建整体计算策略时,软件和应用程序需求的功能弹性应该是更重要的因素之一。例如,开放计算项目要求全面重新思考IT硬件的物理、电气和逻辑方面,以及电气设备、机械基础设施和建筑物本身的设计。这就是OpenComputeProject成员,如Facebook、谷歌和微软等超大规模运营商所使用的。在许多情况下,它们的设备冗余级别相对较低(例如,某些系统为“N”或N+1),但由于其软件故障转移冗余和多站点数据复制,总体可用性较高。虽然这些要求的某些特征与传统企业组织根本不同,但如果使用得当,应考虑并采用这些设计、设备和软件策略的某些方面。最后但同样重要的是,今天比特币被认为是世界未来货币的基础。大多数最新和最大的比特币数据中心运营模式似乎与传统数据中心设施相反。事实上,它的许多数据中心都没有UPS、备用发电机,而且很少或根本没有制冷设备。他们的唯一目的是最大限度地降低比特币挖矿成本,一旦停电就停止而不造成损害,并在电力恢复后立即开始挖矿。因此,即使是两个9的电力设施的可用性也比具有大量额外初始和运营成本的完全电力链数据中心设施更具成本效益。尽管如此,越来越大的托管设施、云服务数据中心和混合解决方案将在未来几年占据主导地位,组织需要评估每个整体解决方案的长期成本和风险。在这个不断发展的计算环境中,构成“可用性”的是对其目的的最佳选择,而不是仅仅依赖于传统Tier4数据中心设施的严格标准。