当前位置: 首页 > 科技观察

数据中心的可用性、可靠性取决于很多因素

时间:2023-03-16 16:23:48 科技观察

在数据中心行业,“可靠性”和“可用性”这两个词经常交替使用来描述数据中心性能的预期水平。尽管数据中心的可靠性和可用性是相关的,但它们描述了截然不同的性能特征。从科学的角度来看,可靠性与可重复性有关。如果同一个实验一次又一次地得出相同的结果,则它具有很高的可靠性。两种常见的可靠性衡量标准是:平均无故障时间(MTBF),即正常运行的总时间除以故障次数。故障率,即故障次数除以正常运行的总时间。技术意义上的“可靠性”一词通常与“有效性”结合使用。效度是指实际测量的准确性或真实性。如果企业每次进行10次测量并得到相同的结果,则测量可能是可靠的。但是,如果测量结果无效,则无效。可用性是衡量某物处于运行状态的频率的指标。简而言之,可用性是正常运行时间除以测量的总时间。一般来说,有些东西可用但不可靠,有些东西可靠但效率不高。机房空调可能运行多年(高可用性),但在维持稳定的机房环境条件(低可靠性)方面做得很差。如果控制恒温器未校准,则其测量性能无效。那么,您如何衡量数据中心的可靠性?答案取决于数据中心设施运营的总体目标和期望。只要在适当的操作和总体设计意图和约束范围内,就可以信任可靠的数据中心来提供连续的操作和操作。一些高性能计算(超级计算机)设备不需要100%的正常运行时间。他们可以安排“运行”之间的完全中断。它们可以使用主要或次要基础设施拓扑构建,因为它们不需要同时维护。它的整体可用性可能低于Tier3和Tier4数据中心的设备,但如果它们在运行过程中的故障率非常低,则它们是可靠的并且被认为具有高可靠性。但大多数数据中心的目标是持续运行IT设备。在这种情况下,目标是提供100%的机房可用性。为了实现这一目标,需要信度和效度。保持数据中心运行的操作过程必须是可重复的,因为它们始终如一地产生预期结果,并且它们的结果必须与预期结果相匹配。物理基础设施和操作人员是影响数据中心可靠性和可用性的两个因素。总体而言,数据中心关键设施行业在提供高质量、高性能基础设施方面做得非常出色。随着行业的发展,数据中心冗余方案已经从“N”演变为“N+1”,“2N”演变为“2(N+1)”拓扑(其中“N”为所需设备的最小数量以满足给定系统的要求)。数据中心工程师和设计师吸取了经验教训,并将这些策略应用于每个关键系统和子系统,包括系统之间的相关控制和接口。设计现在可以被认证为“同时可维护”和“容错”。这些设计不仅消除了单点故障,而且即使在设备和系统被隔离以进行维护和维修时也能保持容错能力。缺点是这些设计引入了令人难以置信的复杂性和错综复杂的开关程序和操作顺序。因此,越来越依赖计算机来主动监控设备和系统性能的健康状况和状态,并在需要时采取自动化措施。好消息是服务器是有史以来最可靠的“机器”。它们可以几乎连续地被监视(受波特率、轮询时间、扫描率等因素的限制)并且可以依赖于***一次又一次地执行其编程逻辑。数据中心运营的常识性原则人们需要牢记这些有助于提高数据中心可用性和可靠性的常识性原则。简单比复杂更可靠。计算机比工人更可靠。设备性能会随着时间和使用而降低。高质量的设备比低质量的设备具有更好的可用性和可靠性。未经校准的传感器的精度会随着时间的推移而降低。启动和停止设备比稳定运行设备压力更大。