当前位置: 首页 > 科技观察

应对数据中心宕机的主要措施和方法是什么

时间:2023-03-22 10:54:53 科技观察

虽然数据中心的设计在理论上不可能失败,但确实会发生,因此数据中心运营商将面临非常严峻的局面,尤其是托管数据中心。根据最近的一些事件,托管数据中心停电和业务中断的后果可能非常严重。例如:英国电信是全球最大的通信供应商和托管数据中心供应商之一,其运营的数据中心今年遭遇了两次停机。据报道,受故障影响,伦敦及周边地区的语音和数据流量下降了10%,事故持续了四个多小时。虽然在设计和运营数据中心时努力避免中断或事故,但数据中心托管设施也不能幸免于这些问题,意外中断在短期和长期内都可能代价高昂。如果客户选择放弃服务,企业可能会因未达到服务水平协议(SLA)而受到经济处罚,或者可能对企业品牌造成长期损害和业务收入损失。数据中心停机从数据中心的角度来看,为了防止停机,该做什么和不该做什么是一个非常简单的想法。但是,如果作为数据所有者,其数据中心解决方案存在错误,则得出不同的结论。如果企业客户已做出将其数据放在外部数据中心的战略决策并进行了风险分析。但这真的能让你为最坏的结果做好准备吗?问题是,如果企业客户发现自己遇到这种情况,应该怎么办?为最坏情况做准备的最好方法是不断应对这种可能性。如果它失败了,组织的努力准备和过程意识将为其提供资源和工具来减轻失败。如果企业没有考虑或没有这样做,建议从以下几个方面评估自身情况。1.分散风险首先,企业在制定数据中心战略时,应避免将所有数据放在一个地方,增加风险系数。同样,避免将所有关键应用程序放在同一位置。考虑将主要数据存储在一个位置,将备份数据存储在另一个位置。然后遍历每个场景并确定任何级别的故障会产生什么影响。每年重复这个过程。2.信任但确认企业从服务提供商处获得审计跟踪,更重要的是接受审查。在许多情况下,需要审核托管数据中心是否符合HIPAA、SOX和PCI等法规。然而,有时,这种审查可能是由不完全了解IT或数据中心如何运作的人完成的。因此,企业需要安排了解数据中心如何可靠运行的专业人员进行审计。这些第三方审计通常比自己识别风险更容易,而且可以提供更多信息。在大多数情况下,与中断成本和运营成本相比,通过审查和验证措施降低风险的成本通常是最低的。3.签署书面协议企业需要了解数据中心托管提供商将如何处理中断。与供应商签订合同时,坚持签订书面协议,确认双方同意在什么情况下会发生中断。这是至关重要的。事实上,数据所有者发现有时协议并没有涵盖他们的想法。此外,必须有供应商在中断期间提供服务的书面保证,并承诺在可接受的时间范围内恢复服务。4.备份策略企业必须了解其业务面临的风险,并做好最坏的打算。大多数托管数据中心都有一个备用站点,可以处理基本的灾难恢复,以确保他们的客户对运营的影响很小或没有影响。大多数公司仍在数据中心(托管数据中心、云计算或本地)中进行主动-主动数据库部署。虽然一些主动-主动部署接近成功,但在尝试使用灾难恢复备份时中断可能会很痛苦。数据库并不像企业希望的那样完整,数据丢失或应用程序很可能在故障转移期间受到影响。5.了解(并记录)流程当事件发生时,所有各方都会进入危机模式。了解(并记录)您的托管服务提供商如何处理自然灾害和故障组件等事件非常重要。那么采取什么步骤以及以什么顺序进行呢?企业要问的一个重要问题是,如果发生故障,谁将有权访问?事发后,其他商家也将可以访问该服务器。企业需要确切地知道他们是否有权访问、对谁、谁有权访问以及他们在有权访问时可以做什么。此外,了解在维修期间将采取哪些额外的安全措施来保护他们的数据。这个过程的一个重要部分是通信协议。开放式沟通对于有效管理情况和向业务经理提供最新信息至关重要。企业需要知道谁是主要联系人、联系谁以获取更新信息以及联系频率。此外,定期验证联系人的姓名和电话号码。重要的是,如果呼叫列表中的电话号码过时或联系人离职,这种情况会变得更糟。6.保存记录文档不仅适用于托管数据中心,也适用于所有与数据中心业务相关的公司。在调查过程中,发现许多客户没有记录他们的日常操作流程和程序。即使有记录,也不会经常更新。文档对于在发生灾难时做好准备至关重要,包括了解应用程序的运行位置、了解哪些中断受影响最大、谁需要了解更改等等。7.了解故障在评估过程中,大多数托管服务提供商会告诉您系统是如何安装的,以防止服务中断。他们还为企业提供满意客户的推荐和参考。但他们通常不会告诉他们失败的案例。因此,为了让组织了解托管服务提供商的故障,他们需要询问他们在过去一年中是否发生过事件,如果发生过,事件的详细信息、如何纠正以及采取了哪些措施来防止它从再次发生。在这些情况下,企业可以学到很多关于托管数据中心的知识,以及他们如何处理这种情况。应对危机,正是考验合作伙伴资质的时候。8、了解免责条款如果企业对托管服务合作伙伴失去信心,请务必了解合同中的免责条款,这将有助于企业顺利中止合作。确保合同不是用模糊的语言写成的,也不受不合理条款的约束。9.了解你的选择大多数托管数据中心合同的有效期为数年,在此期间托管数据中心市场的规模将扩大,新的参与者将进入市场。虽然企业此时可能不打算采用新的托管数据中心,但他们应该不断评估其他供应商,或者与顾问或经纪人一起审查他们的选择。如果出现故障,企业必须知道迁移到新解决方案的选项。在某些情况下,如果故障严重或持续时间过长,其后果可能会迫使托管数据中心关闭,从而使组织的业务蒙受损失。10.成为数据中心专家英国电信的故障案例,问题的原因是断路器故障。虽然人们会认为关键设施会避免单点故障,但证据表明并非如此。如今,要开展数据业务,组织必须成为数据中心的专家。组织不仅需要精通数据中心知识,还需要了解市场趋势。通过提问和阅读报告,了解数据中心解决方案的方方面面。最重要的是,了解潜在的故障点并了解可能导致中断的原因。每个人都希望永远不会发生中断或故障。但是,如果这样做,企业必须为此做好准备并指导其团队。最好的建议是在这些失败情况下制定计划并逐步遵循该计划。沟通对于计划的成功至关重要,因为当失败发生时人们会变得不耐烦,但他们必须坚持到底。通过定期检查这些重要领域,您将获得有效应对中断或故障的知识和经验。