当前位置: 首页 > 科技观察

服务器维护清单中的7个步骤

时间:2023-03-20 16:09:13 科技观察

为了有效地维护服务器,服务器管理员必须执行主动的硬件和软件检查。服务器维护清单必须包括除尘、日志查看、软件补丁测试等。即使具有服务器的性能和冗余功能,增加的工作负载整合和可靠性预期也会对服务器硬件造成影响。服务器维护清单应涵盖物理元素以及系统的软件层配置。还必须考虑彻底维护需要时间、工时和测试这一事实。使用清单可帮助服务器管理员定义目标并使IT团队保持在正轨上。1.创建维护计划服务器管理员通常会忽略计划的维护窗口。不要等到出了问题才开始维护;留出时间进行例行的服务器预防性维护。维护频率取决于服务器设备的年龄、数据中心和需要维护的服务器数量。例如,与部署在经过HEPA过滤、冷却良好的数据中心中的新服务器相比,位于设备柜中的旧服务器需要更频繁的检查。组织可以根据供应商或第三方提供商的例程制定例行维护计划;如果供应商的服务合同要求每四或六个月进行一次系统检查,则需要遵循此时间表。2.为停机做准备在处理服务器维护清单上的项目之前,您首先需要制定一个计划。这包括检查系统日志以查找需要立即关注的错误或事件。如果系统日志指示特定内存模块有错误,则应订购并安装更换双列直插式内存(DIMM)。同样,如果固件、操作系统或代理补丁/更新可用,请在计划的维护窗口之前测试和审查它们。为使系统脱机并恢复服务制定明确的计划。在虚拟化之前,服务器及其托管的应用程序需要停机以适应维护窗口,迫使服务器管理员在夜间或周末执行维护。虚拟服务器支持在不停机的情况下迁移工作负载,因此服务器管理员可以将应用程序迁移到其他服务器,只要在底层主机系统上执行服务器维护,它们就会保持可用。维修首先要了解虚拟机的去向,将虚拟机迁移到选定的系统,并在关闭服务器进行维护之前验证每个工作负载是否正常运行。此时,服务器管理员可以关闭服务器并将其从机架中移除。3.检查气流路径服务器宕机后,需要目视检查其外部和内部气流路径。清除所有可能阻挡冷却空气的积尘和碎屑。从外部进风口和出风口开始,进入系统机箱,查看CPU散热器和风扇组件、内存以及所有冷却风扇叶片和风管。从机架上卸下服务器后,需要确保服务器是干净的。使用干净、干燥的压缩空气清除防静电工作区的灰尘或碎屑。除尘不是一个新过程,但它仍然是必要的。灰尘是一种绝缘体,因此去除灰尘尤为重要,因为美国采暖、制冷和空调工程师协会(ASHRAE)的替代冷却解决方案和建议提高了数据中心的运行温度。灰尘和其他气流障碍物会导致服务器消耗更多功率,甚至可能导致组件故障。4、检查本地硬盘服务器的启动、工作负载的启动和存储、用户数据等都依赖于内部硬盘。磁盘介质问题会影响工作负载性能和稳定性,并导致硬盘驱动器过早出现故障。使用CheckHardDrive实用程序等工具来验证驱动器的完整性并尝试恢复驱动器上的任何坏扇区。使用磁性介质的硬盘驱动器并不完美。常见问题包括损坏的扇区和碎片。RAID在发生存储错误后保持数据完整性方面取得了很大进步,但较小的1U机架式服务器无法提供足够的物理空间来部署硬盘阵列。只要NT文件系统和文件分配表硬盘文件碎片就不会消失,只要文件系统使用第一个可用簇的硬盘空间。碎片会降低服务器硬盘驱动器的速度并导致故障。优化卷实用程序WindowsServer2016碎片整理和处理存储层。5.验证日志数据和事件服务器在事件日志中记录了大量的事件信息。如果不仔细检查系统、恶意软件和其他事件日志,任何服务器维护清单都是不完整的。当然,关键的系统问题应该立即引起管理人员和技术人员的注意,但是无数的小问题可能预示着长期的问题。检查日志时,管理员应检查报告设置并验证正确的警报和警报收件人。例如,在检查日志时,管理员应检查报告设置并验证正确的警报和警报接收者。例如,如果技术人员离开了服务器组,服务器的报告系统就需要更新。还要仔细检查联系方式。如果错误发生在工作时间以外,向技术人员的公司电子邮件地址报告错误将无效。当日志检查发现长期或反复出现的问题时,主动调查可以在问题升级之前解决问题。如果服务器的日志报告内存中存在可恢复的错误,则不会触发严重警报。但是,如果有重复的实例表明模块存在问题,管理员可以执行更详细的分析来识别即将发生的故障。如果问题没有严重到关闭服务器的程度,管理员可以将服务器恢复到生产状态,直到更换硬件可用为止。6.测试补丁和更新服务器的软件堆栈(BIOS、操作系统、管理程序、驱动程序和应用程序)必须协同工作。不幸的是,软件代码很少没有问题,因此经常修补或更新拼图以修复错误、提高安全性、简化互操作性并提高性能。任何软件都不应该有自动更新。管理员应确定是否需要补丁或升级,然后彻底评估和测试更改。软件开发人员可能无法测试所有可能的硬件和软件组合,因此需要明智地选择补丁和更新以避免性能问题或工作流程中断。例如,监控代理补丁可能会导致严重的工作负载问题,因为新代理消耗的带宽比预期的要多。转向DevOps的更新更小、更频繁,这增加了出现问题的可能性。在将补丁或更新部署到沙盒或测试安装程序之前,组织仍必须在实验室中对其进行测试,并始终能够恢复原始软件配置。7.记录所有系统更改在维护窗口期间,您的服务器可能会发生很多事情,例如硬件、软件或系统配置更改。服务器管理员完成他们的服务器维护清单后,检查它们并记录任何新的系统状态是很重要的。例如,更换网络适配器、添加或更换内存或更新操作系统都会改变系统的配置。依赖系统配置管理工具的组织可能需要在允许系统重新投入使用之前更新或发现配置管理数据库中记录的任何更改。服务器管理员必须更新任何强制或必需的状态配置状态以允许更改。还要验证系统的安全状态,例如防火墙设置、反恶意软件版本或扫描频率和入侵检测设置。安全检查确保对系统软件的更改不会无意中暴露任何在以前的配置中关闭的攻击面。一旦服务器重新联机,不要忘记更新任何系统备份或灾难恢复(DR)内容。验证服务器的备份/灾难恢复频率是否保持不变,除非必须专门调整任何相关设置以反映服务器的新用例。