最近忙着在世界各地出差,尤其是前几天去德国法兰克福参加ISC超算行业盛会,认识了很多国内外的超算供应商。那天吃饭聊天的时候,大家很自然地谈到了不同品牌甚至不同国家的计算设备,特别是服务器的设计理念。不同品牌的服务器差异有多大?这个问题可谓见仁见智。业内“菜鸟”说:这个东西设计不一样,管理不一样,这个不一样那个不一样,总之就是很不一样;但业内“老人”表示:这玩意儿没什么区别,都是Intel平台,能差到什么地步呢?这个话题还在讨论的相当热烈。来自不同阵营的人们都在引用自己的例子来试图说服彼此。一时间在热闹的德国餐厅里,我们一行人的嘈杂声似乎与环境融为一体。后来某国字头的科研院所领导下定决心——不管什么牌子的服务器,只要达到一定的规模,哪天不破三破五?于是大家默不作声,而是举起酒杯,沉浸在德国啤酒的酸甜苦辣中,就像服务员一样,百感交集。虽然每台服务器在出厂时都经过了非常严格的测试,很多品牌也进行了这样那样的便捷维护计划,但是在大规模部署中,或多或少都会遇到宕机问题。也让数据中心的维护人员每天疲惫不堪。因此,对于这些运营商来说,最重要的不是使用哪台服务器,而是如何减轻运维负担。靠增加人手并不是唯一的办法,显然还需要在技术层面解决。这也正是华为服务器一直努力的方向。众所周知,服务器硬件种类繁多,出现故障的原因也很复杂。偶尔的警报和停机时间更令人困惑。很多时候,当系统出现严重故障时,由于操作系统不支持等原因,生成的MCE代码没有被记录下来,故障信息的收集、问题的定位和分析变得越来越困难。为此,华为推出了故障诊断管理系统FDM(FaultDiagnosis&Management),就是针对此类问题的解决方案。带外处理OS故障解决方案一般来说,对于服务器应用问题,很多品牌都已经有了明确的解决方案。一方面,从硬件的角度来看,服务器会在前面板设置一个告警指示灯,通过指示灯的颜色变化和闪烁频率可以方便的判断出服务器的基本状态,是否有处理器、硬盘、网络等问题;另一方面,通过服务器的OS或BIOS系统,也可以简单记录服务器运行的基本信息,实现基本的运维管理。之所以称其为“基本”,是因为这些措施只能支持小规模、常态化的情况。试想一下,当你走进一个承载着上千台服务器的机房,你怎么能通过某台服务器的指示灯闪烁或告警声来判断故障情况呢?甚至有可能,当你在那个嘈杂的环境中时,你不会去关注某个服务器的细节,直到最终客户打电话投诉。与系统告警相比,OS信息记录可能是一种更好的方式,但更多时候这种应用的效果体现在事后的回顾中,而且由于系统已经宕机,信息或报告是否100%在这次保存不确定。因此,要进行有效的运维,仅仅依靠这两种方案是不够的。华为的FDM方式或许可以为业界提供一个新的思路。按照FDM的规划,除了业界常见的以OS为中心的故障处理系统外,华为服务器还将增加带外(OS-independent)故障处理系统,以解决现有OS故障严重的问题。死机、抓不到故障数据的技术问题。这样就可以有效解决记录OS故障的问题,做到问题可追溯,便于运维人员发现真正的问题并加以解决。相对于OS,整个BMC的监控机制现在很多服务器都采用了BMC的管理方式。BMC是Bas??eboardManagementController的缩写,主要功能是实现本地和远程诊断、控制台支持、配置管理、硬件管理和故障排除。记得那是在2010年,当时某厂商的售前团队给我演示了BMC接口的功能,当时我惊呆了。“你还可以这样玩”,这大概是当时我脑海里冒出的第一个念头。后来BMC接口成为了很多服务器的标准配置,极大的方便了管理员的日常工作。试想一下,躺在家里的沙发上,拿着笔记本,动动手指就能打开或关闭公司的某些服务器,是多么惬意啊!当然,BMC的能量可不仅仅是一点点。在华为服务器中,BMC功能发挥着重要作用。华为服务器通过将故障信息汇聚到BMC,让BMC在带外进行进一步的故障分析、定位和预警,解决了OS作为故障处理中心的问题。容量不足、不可控、影响系统性能等问题,真正做到运维便捷化、智能化。海量故障信息看不懂怎么办?正如文章开头老领导提到的,在一个大型数据中心,每天发生服务器故障的数量是惊人的。这些数据需要随着时间的积累不断分析判断。以达到方便的操作和维护。但是对于运维人员来说,显然没有足够的时间对这些数据进行一一分析,这就需要技术手段来实现大规模、批量化处理。与人类相比,机器显然更适合这种重复性的筛选和排查工作,能够更高效地处理。为此,基于华为在服务器故障机制方面的技术积累和对海量故障样本数据的归纳能力,华为服务器提供“故障诊断与定位”和“故障预警”两大专家系统,提高一次性故障和自动故障处理能力。.诊断准确性。例如,当系统中某台服务器出现故障时,“故障诊断与定位”可以第一时间告诉管理员哪一排机架、哪个机柜的哪个服务器的哪个部件出现问题,大大缩短了定位时间;而“故障预警”甚至可以根据服务器的运行状态和以往的故障情况进行提前预警,比如提醒管理员需要更换散热风扇等。应该说,集以上三大特色运维功能为一体的“FDM故障诊断管理系统”,可以帮助客户更好的完成故障信息(带内/带外)的采集和分析,实现故障尽快诊断和定位。可永久提供故障预警,大大简化了运维步骤,解决了时间和人力成本。如今,华为“FDM故障诊断管理系统”已在某大型互联网公司全面部署。此前,由于公司某批服务器PCI故障原因定位迟缓,导致服务器故障后业务无法部署,造成大量浪费。应用华为“FDM故障诊断管理系统”后,能够快速定位并成功更换故障部件,帮助企业快速恢复业务,缓解应用危机。每天,我们用微信作为社交手段,用百度做区域导航,用淘宝、京东实现线上消费。在这些互联网巨头的背后,有海量服务器支撑着计算和存储平台,为我们的信息化生活提供保障。华为“FDM故障诊断管理系统”的出现,为这些服务器提供了强大的运维后盾,也帮助那些互联网巨头免去了后顾之忧,为我们提供了更加便捷舒适的生活体验。
