服务器宕机是比较严重的服务器故障问题。对于很多支付行业来说,这是一个致命的设备故障问题。例如:2009年秋天,微软数据中心的服务器故障导致存储在微软服务器上的T-MobileSidekick手机上的所有用户数据丢失。这些数据包括联系人、日历、照片、待办事项等;2013年10月,雅虎邮箱进行全面改版升级。升级后,一些用户表示他们的帐户丢失了电子邮件。12月,雅虎官方确认升级导致1%的邮箱账户丢失邮件,部分邮件数周甚至数月无法送达。该事件最终影响了约100万用户;2015年9月,刚刚上线的DynamoDB服务器导致亚马逊云服务宕机。包括Redait、Tinder、Netflix和IMDB在内的大量热门网站都受到影响并停止服务超过7个小时。当然,服务器可以根据不同的工作负载分为很多类别。一篇文章不能把所有的问题都说清楚。今天主要说说当web服务器宕机时,运维人员第一时间应该做些什么。其实宕机可以分为假宕机(非蓝屏宕机)和宕机两大类。假停机是硬件资源暂时耗尽,无法响应外部命令的现象。通常,网站处于访问高峰期,带宽等资源已满。这时候只需要等待一定的时间,服务器释放更多的硬件资源即可恢复正常。而宕机,如果通过ping测试服务器,键盘切换NumLock或CapsLock功能,显示器无屏幕输出,或者鼠标光标无反应,说明服务器硬件有故障。首先检查所有线缆和外围设备,并尝试使用ping命令检测设备的状态。ping命令对所有平台都是通用的,也是最简单的。如果能ping通局域网内的服务器,那么可以尝试ping局域网外的服务器进行检测。这样做可以快速确定问题是否出在交换和路由级别,而不是服务器级别。如果电源没有问题,但是ping不通,需要从底层到顶层逐层排查问题。检查网络接口和网络配置是否正常?是否启用了DHCP?Web服务器是否指向正确的DNS服务器?Windows环境下,需要检查服务器是否具有Web服务的作用。在linux环境下,检查会比较复杂,可以尝试查找http相关的文件或服务,确保服务器在运行。还有,如果web服务器已经虚拟化了,试试ping物理服务器自己的真实IP。这可以帮助您进一步隔离问题。如果您根本无法ping通同一台服务器,并且您已确保已全面检查您的网络连接,那么您需要进行更深入的分析。这时候就需要查看日志,找出web服务器宕机时日志中记录的信息。如果您是专业人士,日志信息可以告诉您一切。半专业人士可以google一下日志告警的错误信息,一步步找到解决办法。方法,非专业管理员会请外援。总之,找问题要看大局,从架构和资源的角度找问题。当然,经常备份数据,选择备份服务器,方便在紧急情况下随时切换,是最笨也是最简单的方法。
