当前位置: 首页 > 科技观察

如何避免虚拟基础架构中的单点故障

时间:2023-03-15 01:23:50 科技观察

墨菲定律指出,如果可能出错,就会出错。也许没有比服务器虚拟化更严格遵守这条法律的地方了。当数据中心只有物理服务器时,服务器故障通常只会影响一个工作负载。并且虚拟主机运行多个工作负载,这意味着许多应用程序可能会失败。大多数使用服务器虚拟化的企业都利用故障转移集群或复制等技术来处理管理程序级别的故障。但是,此类技术在保护虚拟工作负载方面仍有很长的路要走,因为集群通常是不够的。即使搭建了高可用的虚拟主机集群,也有可能出现故障。如果某些虚拟基础架构成为单点故障,就会发生故障。虽然有可能消除每一个可以想到的单点故障,但这需要雄厚的财力。在大多数情况下,企业必须识别潜在风险,然后评估风险转化为实际问题的可能性。商家可能会花钱应对***的风险。这也引出了存在哪些潜在单点故障的问题。真正的失败风险可能有很大差异,这取决于使用哪个供应商的产品以及虚拟基础架构的部署方式。有些风险与硬件相关,有些与软件相关。与硬件相关的故障会影响整个虚拟基础架构中的所有硬件。以电源管理为例,很多虚拟主机都配备了冗余电源模块。当一个电源模块出现故障时,第二个电源模块可以在线接管,不影响主机服务器。失败的后果。虚拟主机通常连接到UPS,能够在停电时使用发电机发电。但是,如果在主电源发生故障时所有服务器都连接到同一台发电机,则该发电机也可能成为潜在的单点故障。这是需要进行风险评估的时候。许多事情都可能出错,在备用发电机无法影响整个虚拟基础架构之前必须中断电源。不应将备用发电机的故障放在心上,因为备用发电机成为单点故障的可能性非常小。如前所述,虽然可以消除所有可能的单点故障,但成本非常高。可以想象为各种服务器配备单独的备用发电机,即使这样也不一定能消除潜在的单点故障。如果这些备用发电机的燃料都来自同一个地方,而燃料恰好被水污染,那么发电机燃料就会出现单点故障。重要的是要注意,在其他事情失败之前,很多事情都可能出错。在集群环境中,共享存储成为单点故障的情况更为常见。集群存储通常配置有冗余磁盘。当冗余不满足要求时,阵列、交换机和电缆可能会发生故障。在软件方面,如果不进行冗余部署,基础架构服务器可能会成为单点故障。例如,假设一家企业打算部署SystemCenterVirtualMachineManager(SCVMM)作为管理Hyper-V的工具。除非部署在高度可用的虚拟机上,否则SCVMM可能会成为单点故障。同样,SCVMM所依赖的SQLServer数据库也可能成为单点故障,除非该数据库也是冗余的。其他潜在的单点故障可能包括DNS服务器、域控制器、DHCP服务器、备份服务器或Internet网关。对于大多数企业来说,不可能消除所有可能的单点故障。更好的策略是识别单点故障,然后评估单点故障的风险级别。原文链接:https://img.ydisp.cn/news/20220814/h5jopvi0bnw