当前位置: 首页 > 科技观察

实现数据中心高可用性的五个步骤

时间:2023-03-16 12:22:43 科技观察

高可用性是当今存储专业人员最常用的术语。但是,简单地将资金和最新技术投入公司数据中心的存储阵列并希望避免停机是行不通的。因此,企业数据中心迫切需要实施一套行之有效的方案。在本文中,独立顾问BenMaas为我们的读者概述了五个关键步骤,说明如何有效保护企业应用程序免受最常见的数据丢失和停机原因的影响。这五个步骤是:了解软件的业务功能;了解企业中所有应用程序的运行时要求;适当调整企业数据中心的环境;适当调整和设置您公司的数据存储库以实施更好的实践数据保护软件如今,许多企业实际上在不了解其全部功能或限制的情况下使用某些数据保护软件。例如,备份软件可以使用多种不同的方法来创建安全的恢复集。它可以在文件、应用程序、卷、管理程序或操作系统级别进行复制。或者它可以支持方法组合以提供多种恢复选项。虚拟机(VM)的备份软件就是一个很好的例子。大多数企业使用快照技术来执行此任务,尽管每个企业可能使用不同的技术来完成此任务。一些企业采用称为VMware的本机虚拟机快照技术的无代理方法。其他一些企业使用部署在每个虚拟机上的软件代理。如果您企业的备份软件依赖代理来执行虚拟机备份,它将更直接地与虚拟机文件系统一起工作。在这种情况下,备份软件可能会在拍摄虚拟机快照之前使用Microsoft的卷影复制服务(VSS)将数据整合到磁盘。但是,如果您企业的备份软件采用无代理的方式进行快照,可能仍然会部分依赖代理进行备份。备份软件在执行备份时,将一段软件临时放入虚拟机中,调用MicrosoftVSS创建快照。为此,它使用VMwareAPI启动快照,然后将该软件代码放置在虚拟机上以创建快照。快照完成后,它将删除已安装的片段。即使是这种虚拟机备份的混合方法也可能不够。在某些情况下,备份软件可能需要与特定应用程序(如MicrosoftExchange或SQLServer)集成,以将数据同步到磁盘。这将创建一个在恢复后可用的应用程序一致性备份。同样,许多备份软件产品使用重复数据删除来最小化存储需求。一些备份软件产品能够对客户端和其他服务器上的数据进行重复数据删除。有些仅在数据到达存储设备时才执行重复数据删除。有些甚至提供在这三个位置中的任何一个执行重复数据删除或根本不执行重复数据删除的选项。您的企业软件支持的选项将影响您执行此操作所需的带宽量,以及您在客户端、媒体服务器或磁盘目标上删除重复数据所需的处理能力。了解备份软件的这些功能和限制非常重要,因为它们会影响备份和恢复所需的时间,并最终影响备份的可靠性。1.超越备份和恢复任务关键型应用程序应尽可能始终在线或始终开启。这种级别的服务需要比备份软件所能提供的更先进的工具。对停机中断零容忍的企业应考虑为关键系统提供高可用性(HA)解决方案。HA通过将系统实时复制到远程站点来确保始终在线的服务。如果您的生产环境发生中断,HA允许您的企业立即故障转移到辅助位置并继续在那里运行,直到您的本地问题得到解决。HA恢复以分钟或秒为单位进行测量,因此可以将数据丢失降至最低,接近于零。实用步骤二了解应用程序正常运行时间要求现在您了解了您公司使用的备份软件的功能和使用限制,您需要了解每个应用程序的恢复目标。一旦您确定了这些目标,您需要将它们映射回软件中可用的功能,甚至映射到您企业内的流程,以确保它们是一致的,并且这些应用程序可以根据业务需求保持可用。例如,MySQL没有官方认可的方法来获取其数据的实时快照。因此,您无法证明您的备份软件能够随时将数据同步到磁盘以创建可恢复的快照。唯一经过验证的备份MySQL的方法是关闭MySQL(这对于需要100%正常运行时间的应用程序没有意义),或者制作该数据的副本,然后针对副本创建快照。像MySQL这样的例子说明了为什么你需要知道你的数据在哪里以及它是如何工作的,所以你不需要运行恢复来发现你正在丢失数据或它已损坏。相反,MicrosoftSQL等软件提供的API可以为您的企业提供比MySQL更好的数据保护体验。使用VSS卷影副本,企业可以避免这些问题。同样,您需要确保您的备份软件知道如何正确调用API以验证您的数据是否已写入磁盘,从而最大限度地减少并最好避免数据丢失或损坏的可能性。此步骤非常重要,尤其是当您的企业正在处理需要备份软件来加密存储在驱动器或内存中的数据的应用程序时。加密创建了额外的保护级别,您需要确保备份软件在数据进入驱动器之前对其进行加密。许多提供商要求企业客户管理和保留自己的加密密钥。IT专业人员负责保护这些密钥。如果您的企业丢失了加密密钥,就会丢失备份,如果丢失备份,就会丢失数据。实践步骤三适当调整企业数据备份环境企业需要考虑两种备份方式,才能正确调整企业数据备份环境的规模。1.数据中心备份数据中心备份可能是最容易量化和扩展的。企业通常有专门的网络来备份这些应用服务器,而这些备份流量甚至可能不会经过企业网络。生产应用程序数据可能受到基于阵列的快照技术的保护,其中备份软件启动短期存储在阵列上并由备份软件管理的数据快照。然后,备份软件可以将该快照备份到磁盘、磁带甚至云中,以便长期保存。企业数据中心使用的更复杂的备份软件往往可以更轻松地备份数据中心托管的应用程序。当您开始探索在数据中心外备份应用程序的位置(无论是在企业数据中心大楼的其他地方、校园内还是远程)时,正确调整备份和恢复环境的规模变得更加困难。如果通过LAN连接执行本地备份,您需要验证在备份窗口期间是否有足够的计算机资源和网络带宽可用,以避免中断生产应用程序。由于备份往往在数小时后运行,因此这通常不是无法克服的问题。但是,如果您的企业在核心数据中心之外运行24x7全天候运行的应用程序,并且该应用程序没有低需求活动期,您可能需要升级这些服务器上的计算资源,或者您可能需要为这些应用程序提供额外的网络带宽,以确保其备份和恢复可以在计划的备份窗口内进行。您可能还需要考虑更高级的备份工具,例如高可用性解决方案(HA)。HA技术使用即时故障转移功能来确保关键任务应用程序和数据的正常运行时间要求。2.远程备份如果您的企业需要通过WAN连接在远程位置备份或恢复应用程序操作,挑战就变得更加严峻。除了确保您拥有可用于备份和恢复数据的计算和网络资源外,您还需要验证数据是否可以及时恢复;否则,您企业的恢复目标将无法实现。真正知道它是否有效的唯一方法是在生产环境中对其进行测试。执行此操作时,重要的是要考虑在执行备份或恢复时备份环境中可能遇到的某些变量。例如,如果您要通过VPN通道运行备份或恢复,您的吞吐量将会下降。此外,数据在通过LAN或WAN链接发送之前是否需要加密?如果是这样,请验证加密数据的设备是否可以及时执行以满足您的备份或恢复服务级别协议。另外需要注意的是,存储备份数据的磁盘必须足够快,以满足备份和恢复的需要。我见过企业有许多机器同时写入或读取数据,从而减慢了速度。考虑这样一种情况,您的企业可能有24台机器需要在24小时内恢复。您的组织可能不会尝试单独恢复它们。您将希望并行恢复它们。还需要确保从中恢复数据的存储设备能够处理满足这些需求所需的I/O量。同样,可以使用计算器来帮助企业执行这些类型的评估,但我发现唯一可以确定的方法是在您的企业环境中亲自测试它们。实用第四步正确调整和设置数据存储库我遇到过软件供应商对可以放入存储库的数据量有严格限制的情况。例如,备份软件提供商可能会强制执行2TB的限制(或对单个备份存储库有其他限制),这可能会迫使企业客户需要将备份分散到多个存储库中。如果企业同时运行多个恢复流,这将发挥作用。在这种情况下,您需要确保存储库可以快速读取数据以满足您的恢复时间目标(RTO)。有许多供应商提供大小调整文档,这些文档对于为您的企业环境正确调整存储库大小非常有帮助。您只需要确保您有足够的存储库同时配置和可用。在备份期间对数据进行重复数据删除时,调整这些存储库的大小尤为重要。另请注意,供应商使用备份代理来更接近Web主机上的存储。在这种情况下,您需要确保已正确调整以确保您有足够的RAM、CPU和本地存储,以避免在备份或恢复过程中的某个时刻出现瓶颈。我还使用虚拟机作为数据库服务器,其中托管了7到8TB的数据。有时,这些大小的VM会尝试从存储库中恢复数据。在这种情况下,吞吐量不足成为一个真正的问题。数据只有分布到多个存储库后才能及时恢复,因为企业用户可以同时在多个驱动器上运行恢复。练习第五步实施更完整的练习计划实施更完整的练习计划。这意味着您的组织应该运行多个测试。在您实际执行恢复过程之前,您的企业永远不会完全意识到恢复过程中涉及多少迁移部分。也许最复杂的是那些涉及从地理上分散的备份执行的恢复。在这些情况下,您需要运行恢复测试以确保您想要的一切都会发生。大多数时候,我在测试过程中遇到了我认为不可能发生的问题。有一次,我遇到了软件许可问题。在测试期间恢复应用程序后,应用程序软件必须验证其许可。在远程回拨期间,许可软件检测到自从我在测试服务器上运行该应用程序以来,托管该软件的服务器的IP地址发生了变化。然后它会使软件许可证无效。虽然这很不方便,但它成为了一个生产问题,因为它使在测试和生产中运行的软件副本的软件许可证无效。这种疏忽破坏了生产环境。从测试开始就自信地恢复您的企业环境。这导致我改变了灾难恢复测试的方式。现在,当我启动测试环境时,我会关闭出站网络流量。在此期间,我会查看出站流量,以确保没有软件试图远程报告可能无意中导致测试或生产环境中断的故障。这可能代表了我的某种程度的偏执狂,我不一定告诉其他人也这么极端。然而,一朝被蛇咬了十年,就怕井绳了。我个人发现软件许可是恢复过程中的一个问题。企业需要执行测试的另一个很好的例子是确保数据可以恢复。我工作的一家公司在其MicrosoftSQL服务器上创建了一个“X”驱动器或文件共享。然后对这个“X”驱动器执行每周数据备份。然而,我其实并不知道这件事,公司的另一个同事知道这个“X”驱动器,也知道它的用途,所以他决定用它来连接两个SQLServer数据库服务器。执行了一些复制,当时效果很好。但过了一段时间,该公司更改了备份程序,并决定其SQL服务器不再需要这些数据库服务器上的“X”驱动器。我评估了系统并将“X”驱动器置于整个环境中。当我们完成时,在两个SQLServer数据库服务器之间进行复制的人开始对我们大喊大叫,“为什么复制中断了?”这些情况共同说明了为什么测试如此重要。除了环境的频繁变化外,总会有一些细微的差别,比如“X”盘无法使用,这就很难按照用户的期望进行恢复,除非你的企业经常进行恢复测试。