数据中心关闭清单可帮助IT团队在插拔硬件和丢失有价值的信息之前专注于数据备份、测试和系统验证。虽然策略和程序对现代IT至关重要,但数据中心管理员经常因中断而措手不及,无法关闭需要关闭的设备。这种需求可能像即将来临的风暴一样强烈,或者只是一般的市政电网升级。但是,企业准备和应对设施关闭的方式可以避免灾难的代价。精心设计和测试的数据中心关闭程序在业务连续性规划中起着至关重要的作用。它为迁移或关闭应用程序、保护有价值的数据、关闭物理系统以及在发生事件或故障后重新启动它们定义了最安全的过程。下面考虑基本收尾文件中的主要元素。验证和更新系统文档每个数据中心关闭过程都是最终重启的先决条件,因此适当的准备是确保在中断期结束后成功重启的关键。创建一个全面的(或至少是现有的)文档集来捕获每个系统的卷、操作系统和应用程序配置,特别注意在重新启动期间可能会或可能不会更改的任何内容。有无数工具可用于创建此文档,大多数现代配置管理和实施工具都可以捕获和报告系统状态。不要忘记捕获或记录任何网络设备或存储阵列的配置。管理依赖关系组织和数据中心设施之间的实际依赖关系差异很大,因此IT规划人员需要确定启动顺序,包括网络设备、存储阵列、DNS服务器、备份服务器和调度程序。一旦所有必需的服务器、存储、网络和关键服务(如DNS)恢复在线,启动顺序可以重新启动应用程序(如数据库),然后是依赖的应用程序(如企业销售系统)。然后,启动任何依赖于这些应用程序的进程,例如企业的店面网站。在准备期间,还可以识别和理解数据中心内的各种依赖关系。记录相关性允许IT人员以正确的顺序重新启动系统、服务和应用程序,以避免中断和启动时间丢失。例如,工作人员不想在启动从属存储阵列之前启动服务器。执行和验证备份备份是任何数据中心内的一个重要过程,但在计划的设备停机之前,可靠的备份工作至关重要。在关机开始前完成,并验证任何定期计划的备份,并手动备份任何未定期备份或关机前恢复点目标较长的系统。传统的备份方法可能会寻求捕获每台服务器的操作系统状态以及单独的数据备份,例如SAN上的数据。虚拟化数据中心可以选择更新的、高级的VM感知备份,例如快照和远程复制。如果没有单一的方法或措施来进行正确的备份,则流程和底层工具必须根据您自己的数据中心和业务需求进行定制,但关键是要确保备份所有备份,并测试这些备份以验证它们是否完整和有效。可恢复的。如果准备时间有限,请专注于任务关键型备份。但是,任何未备份的系统或数据都会使应用程序和业务面临风险。检查和验证系统硬件准备情况数据中心关闭清单的第三步是检查硬件状态并识别任何硬件故障。现代系统管理工具可以为电子邮件或邮件系统生成错误报告,将事件记录到日志文件,甚至可以在全面的实时仪表板上跟踪事件。但并非所有事件都可以立即处理。例如,RAID6组的RAID5中的一块磁盘可能发生故障并重新写入另一块备用磁盘,但技术人员更换和重建故障磁盘可能需要一段时间。类似的问题可能出现在虚拟机工作负载可能已经迁移或重新启动到其他可用系统的服务器上,但故障系统可能仍然存在问题,因为它尚未得到处理。查看错误日志和仪表板也不会解决问题,但它会在它们关闭之前发现任何问题,提醒IT它们不是由停机或重启引起的。IT人员可以做出明智的决定,在停机前解决未决事件,或者至少确保未解决的问题不会干扰重启。以正确的顺序关闭系统通常,成功的数据中心关闭程序从IT环境的外围开始,并逐步进入。组织可以首先注销并关闭最终用户、应用程序、Web服务器、Exchange等服务等,然后关闭数据库和中间件。在此之后,可以在虚拟化环境中关闭虚拟实例(例如虚拟机或虚拟机),然后是管理工具,例如VMwarevCenter或MicrosoftSystemCenter。只有IT团队可以关闭物理服务器。服务器关闭后,IT团队可以关闭存储和网络设备。IT团队随后关闭UPS、监视器、配电装置和其他辅助设备,最终完成关闭。恢复和验证系统当计划中断结束时,IT团队可以实施重启流程。在理想情况下,重启与关机顺序完全相反,但情况并非总是如此。重新启动通常需要注意将电力重新分配到设施中,并防止可能使断路器跳闸和损坏设备的大浪涌。每个主要步骤还需要进行一些验证或测试,以确保设备或软件在下一个引导步骤之前正常运行。例如,在尝试启动任何存储阵列之前,打开网络设备并验证它们是否正常启动。打开存储阵列后,检查是否有任何故障磁盘、有问题的磁盘组和其他可能的问题。
