当前位置: 首页 > 科技观察

怎样计算系统的可靠性和可用性是几个9-

时间:2023-03-16 13:19:30 科技观察

如何计算一个系统的可靠性和可用性是多少9?这些一般是指系统的SLA(ServiceLevelAgreement)具体是几个“9”,以此来表示系统在一年中的具体宕机时间。那么这些9是如何计算出来的,对于具体系统的可用性和可靠性有哪些考虑呢?下面是朋友推荐的一篇很棒的英文文章,我翻译了一下。1.系统可用性系统可用性是通过将系统建模为串联和并联连接的组件来计算的。以下规则用于确定系统是串联还是并联:如果一个组件的故障导致组合无法运行,则认为两个组件串联运行这两个组件并联运行。1.串联可用性如上图所示,如果X和Y两个组件之一出现故障,整个组合不可用,则认为X和Y两个组件串联。仅当组件X和组件Y都可用时,整个组合才可用。可以看出,组合的可用性是这两部分的乘积,公式如下:A=AxAy由上式可知,在串联系统中,整体组合的可用性为总是低于单个组件的可用性。对于上述X和Y系列的两个组件,可用性如下:从上表我们可以看出,即使使用了可用性非常高的组件Y,组合系统仍然会受到组件X的影响,影响会很大lower,和“木桶”原理一样,都是受最短板的影响。2.ParallelAvailability如上图所示,当两个组件都失效时,如果整个系统都失效,则认为两个组件是并联的。一个组件可用,则整个系统可用。整体可用性为1-(两个组件均不可用),公式如下:A=1-(1-Ax)2由上可知,对于一个系统有两个并行组件,整体的可用性取决于任何一个组件的可用性高。如上图所示,假设组件X有两个部分,可用性如下:我们可以看到,即使组件X的ava较低ilability,组合系统具有高可用性。2.可用性计算示例1.了解系统第一步,我们首先准备一个详细的系统框图。该系统由一个输入传感器组成,该传感器接收信号并将其转换为适用于信号处理器的数据流。输出被发送到两个冗余信号处理器。源信号处理器用于输入,备用信号处理器忽略来自输入传感器的数据。备用处理器监视主信号处理器的健康状况。两个信号处理器的输出被合并并发送到输出转换器。同样,有源信号处理器驱动数据线。待机保持数据线不变。输出传感器向外部输出信号。2.系统可靠性第二步是准备系统的可靠性模型。在此阶段,我们决定系统的并行和串行连接。我们示例系统的完整可靠性模型如下:这里需要注意的几个要点是:信号处理器的硬件和软件被建模为两个不同的实体。软件和硬件是串联的,因为如果硬件或软件不工作,信号处理器就不能工作。两个信号处理器(软件+硬件)组合在一起形成一个信号处理复合体。在一个信号处理复合体中,两个信号处理复合体并联放置,因为系统可以在其中一个信号处理器发生故障时工作。输入传感器、信号处理复合体和输出传感器串联放置,因为这三个组件中的任何一个出现故障都会导致系统完全失效。3.计算单个组件的可用性第三步涉及计算单个组件的可用性。MTBF(平均故障间隔时间)和MTTR(平均修复时间)值是为每个组件估算的。对于硬件组件,可以从硬件制造商的数据表中获取MTBF信息。如果硬件是内部开发的,硬件组将提供电路板的MTBF信息。硬件的MTTR估计基于操作员对系统的监控程度。在这里,我们估计硬件MTTR约为2小时。一旦知道了MTBF和MTTR,就可以使用以下公式来计算组件的可用性:评估软件的MTBF是一项艰巨的任务。软件MTBF其实就是软件重启时间。可以使用系统的缺陷率来估计中间间隔。在这里,我们估计MTBF约为4000小时。MTTR是重新启动故障处理器的时间。我们的处理器支持自动重启,所以我们估计软件MTTR在5分钟左右。请注意,5分钟似乎偏高。但MTTR应包括以下内容:由于信号处理器软件崩溃而中止的活动所浪费的时间检测信号处理器故障的时间失败的处理器重新启动并恢复服务所花费的时间从上表我们看到,即使是硬件,MTBF越高,MTBF越高软件的可用性。主要原因是软件的MTTR要低很多。换句话说,软件确实经常失败,但恢复很快,因此对系统可用性的影响较小。输入和输出传感器具有相当高的可用性,因此即使没有冗余组件也可以实现。4.计算系统可用性最后一步是计算整个系统的可用性。这些计算基于串行和并行可用性计算公式。3.如何实现多9.每个公司对几个9的定义不同。很多互联网公司都要求99.99。像一些事业单位网站、服务网站等,经常会因为故障导致服务不可用,估计最高只有99.9。如果我们提供的服务可用性较低,则意味着损失会更大。更何况,如果是特别重要的时刻,说不定在某个时刻,你可能会因为服务不可用而损失一大笔钱,这个订单出乎意料。因此,只要尽可能提高SLA的可用性,就可以最大限度地提高企业的生产力。实现more9,需要对自己的服务进行监控,在服务异常或者宕机的时候能够及时恢复。添加冗余以防止出现问题。