当前位置: 首页 > 科技观察

关于数据中心冗余备份的重要性

时间:2023-03-13 13:32:32 科技观察

数据中心拥有备份系统是家常便饭,其重要性不言而喻。数据中心由成千上万的电子设备组成。这些设备在运行过程中难免会出现各种问题。系统有冗余备份是非常重要的。比如有几万台服务器的数据,几乎每天都有服务器损坏。为确保系统的运行不受影响,必须进行备份。当一台服务器出现故障时,其他服务器可以自动接管,业务不会受到任何影响。然而,要从头到尾备份数据中心的整个系统并不容易。不仅需要投入大量资金,还需要投入人力进行维护。对于大多数数据中心而言,所消耗的能源往往令人望而却步。部分设备和部分系统实现了冗余备份,故障时可以平滑切换业务。就在上月底,阿里云发生了大规模、长期的故障,迅速在网上引起热议。很多云用户的业务中断了一个小时,造成了很大的损失。不管是什么原因,至少阿里云的业务本身没有备份。发现故障时,业务没有及时切换到备份系统,或者备份系统缺失。现在的云全天候有业务,不能一直停。这对数据中心提出了很大的挑战。它需要大量的技术来保持业务在数千台设备上正常运行,并在异常时自动修复。要保证,如果系统设计的不够好,就会经常出现问题。要想保证数据中心的业务不间断,唯一的出路就是采用冗余备份技术,将备份技术渗透到数据中心的每一个环节,保证任何一个环节出现故障,系统业务都能正常运行。这就像一架飞机。飞机的发动机、机翼、通风系统等都有备份,这样一旦出现故障,飞机利用备份系统,可以继续正常飞行。这种设计使飞机成为世界上最安全的飞机。该设备是冗余备份的最佳系统。与飞机相比,数据中心更加复杂,零部件设备更多,整个系统的冗余备份难度更大。做数据中心备份需要大量的资金。最简单的冗余备份就是建设容灾数据中心或者对重要设备进行冗余备份。显然,这会大大增加数据中心的支出,原本需要10亿,考虑到每个链路甚至整个数据中心的备份,需要20亿甚至更多,但这样的投入并不能使收益翻倍,这就是为什么许多数据中心投资过多。灾备数据中心往往由不缺钱的金融银行建设。容灾数据中心可以在一个数据中心出现故障时,将整个业务切换到容灾数据中心。中心完全是陪太子读书,不承载任何业务,但还是需要正常维护。因此,这样的建设和后期运维的投资是相当大的。如果数据中心的备份不行,就备份核心设备和业务。当核心设备出现故障时,业务可直接切换至备份设备继续运行,确保数据中心业务不受影响。需要根据数据中心的资金情况,有选择地选择冗余备份设备和系统,尽可能用最少的钱做更完整的冗余。除了资金,冗余备份技术的引入也很重要。当主用设备或系统出现故障时,能否感知并平滑切换到备用系统,也需要很多技术保障,否则备用设备和系统仍然毫无用处。如果无法自动检测和切换,手动切换是另一种方式。简而言之,就是要保证当主系统??出现故障时,业务能够平滑的切换到备系统上。这样的冗余备份是有效的。除了设备备份,从技术角度来说,也可以达到冗余备份的效果。例如在网络层面部署等价路由,在服务器上部署集群和虚拟机等。当出现路由问题时,流量可以切换到其他网络链路,当虚拟机出现问题时,可以自动迁移到正常的服务器上运行,引入备份技术可以减少设备资金投入。但是也要注意不要引入过多的冗余技术,这样会使整个系统运行效率低下,而且如果设计过于复杂,运维起来很不方便,出现问题排查难度很大。一旦主系统出现故障,无法切换到备份系统,可能无法检查和恢复业务,导致业务中断时间更长,得不偿失。所以部署一些冗余的备份技术是很有必要的,但是也不能太复杂。它不需要那些高端技术。应该简单有效,主备自动切换自如。在当前的数据中心,云计算、软件定义等新技术的盛行,大大增加了系统的复杂度。如果引入过多的备份技术,系统复杂度将成倍增加,不利于数据中心业务的稳定。当然,并不是因为困难而不应该做备份。如果现在的数据中心不做任何业务备份,就无法承载任何重要业务,尤其是互联网业务。我们不能不拒绝。如果数据中心反复频繁中断业务,会给客户的业务带来损失。在信息传输高度发达的今天,负面影响会迅速蔓延,很快就会导致数据中心失去大量客户,最终无法继续运营。现在的数据中心需要24小时不间断运行,一刻也不能停,不允许中断。比如阿里云和腾讯云都要跟客户签协议。一旦因过失导致业务中断,他们必须做出相应的赔偿。如果总是中断,则无法支付赔偿金。一定要重视数据中心的业务冗余备份,从设备、网络、业务、系统等各个方面考虑冗余,这样在遇到故障的时候,能够从容应对,处理故障在没有用户感知的情况下。没有人能预测未来什么时候会发生什么故障。可能我们建备份数据中心的时候,主数据中心还没有出现重大故障,但也有可能,当我们没有备份数据中心的时候,数据中心发生了致命的无法挽回的故障,谁敢赌吗?不如乖乖的完成冗余备份系统。虽然会多花一些钱和人力,但也是值得的。