今天一早接到一个客户的电话,说单位部分用户无法上网。我登录查看后,发现其中一个存储控制器损坏了。主要原因如下。目前,客户的核心业务运行在vSphere虚拟化平台上。该单元有3个HP服务器+1个IBM3524存储。一台HP服务器使用SAS电缆连接到控制器B,服务器和存储之间没有冗余连接。ESXi6.0安装在3台HP服务器上,配置为HA,所有虚拟机都存储在IBM3524存储中。当A控制器损坏时,前2台HP服务器与存储失去连接,部分虚拟机因HA损坏而无法启动。2台服务器丢失,HA失败。知道原因后,让客户把其中一台HP服务器的SAS线接在B控制器的空闲端口上(目前IBM3524有两个控制器,每个控制器有2个SAS接口,所以B控制器目前有一个如果端口空闲),重新启动服务器。这时会有两台服务器可以正常工作,然后启动业务虚拟机。此时,单位申请暂时恢复。恢复营业后,因为现在的存储已经过保了,所以申请了新的同型号控制器。控制器到货后,我更换了损坏的控制器A,更换过程中发现Slot8的磁盘快坏了。更换控制器后,同时更换即将发生故障的磁盘。下面介绍主要过程和步骤。(1)进入IBMDSStorageManager管理软件,可以看到控制器A处于离线状态,并且有两个带有黄色五星符号的磁盘,如图1-1所示。图1-1下线了[说明]在目前的示意图中,Slot3和Slot8都有黄色五星符号,Slot3中有一个磁盘。因为磁盘一开始有点故障,所以这个磁盘是没有分配给显示器。当前磁盘未分配,未使用,但该磁盘是可用磁盘,可从托架中取出,放置在其他需要的位置;而Slot8被分配为Array-2逻辑盘,该盘存在数据丢失的风险。(2)在“RecoveryGuru”进一步检查中,发现第八盘位的磁盘即将发生故障,存在数据丢失的风险,如图1-2所示。图1-2slot8磁盘(3)从存储中取出损坏的控制器A,并更换为新购买的控制器。(4)在存储管理中,右击控制器A,在弹出的快捷菜单中选择“高级→放置→联机”,将其联机,如图1-3所示。图1-3控制器上线(5)控制器上线,如图1-4所示。图1-4控制器在线。控制器上线后,A控制器下的服务器没有找到LUN。进一步检查发现控制器A的flash状态不正确,如图1-5所示。图1-5A控制器flash状态错误估计是控制器在发货过程中,可能有磕碰或其他原因导致控制器内的SD卡(8GB缓存卡)松动或出现问题。将新安装的控制器设置为“离线状态”,打开控制器,将原来损坏的控制器的SD卡插入新购买的控制器。(6)右击控制器A,在弹出的快捷菜单中选择“高级→放置→离线”,将其离线,如图1-6所示。图1-6控制器下线(7)在弹出的“确认下线”对话框中单击“是”按钮确认,如图1-7所示。图1-7确认设置为离线(8)当控制器A处于离线状态时,移除控制器,如图1-8所示。然后更换原来损坏控制器的SD卡,重新插上控制器。图1-8控制器处于离线状态(9)再次将控制器设置为在线状态。此时SD卡状态正常,如图1-9所示。图1-9控制器正常。此时连接控制器A的服务器应该可以找到分配给存储的LUN。如果找不到LUN,可以在“Storage&CopyServices”中右击LUN,在弹出的快捷菜单中选择“Change→Ownership/PreferredPath”,选择“ControllerinSlotA”,如图图1-10图1-10更换LUN到控制器A对于slot8即将失效的磁盘,可以设置为“Fail”,用热备盘替换,然后用在插槽8中添加新磁盘。主要步骤如下。(1)右击Slot8的磁盘,在弹出的快捷菜单中选择“Advanced→Fail”,如图1-11所示。图1-11设置磁盘故障(2)在弹出的“ConfirmFailDrive”对话框中输入yes,单击“OK”按钮,如图1-12所示。图1-12确认设置(3)右键单击??Slot6(该槽位中的磁盘为热备盘),在弹出的快捷菜单中选择“HotSpareConverage”,如图1-13.图1-13热备盘转换(4)在弹出的“HotSpareDriveOptions”对话框中选择“Automaticallyassigndrives”,然后单击“OK”按钮,如图1-16所示。图1-16自动分配驱动器(5)在“ReplaceDrives”对话框中,将显示将Slot8中的故障磁盘替换为Slot6,如图1-17所示。图1-17更换驱动器(6)返回“Storage&Copyservices”对话框,浏览LUN,可以看到逻辑磁盘将被重建,如图1-18所示。时间是10点02分。图1-18磁盘重建(7)此时,可以将bay8中的磁盘取下,更换为相同容量的新磁盘。图1-18改造完成后,更换bay8的硬盘,如图1-19所示。此时,bay8的磁盘有一个黄色的五星级标记,而bay6的磁盘有一个红色的十字标记。图1-19更换磁盘(8)在“Storage&Copyservices”对话框中浏览涉及的LUN,可以看到状态已经变为“CopybackProgressdataunavailable”。当前时间是22:23,复制过程已经完成了大约60%,如图1-20所示。因为更换Slot8的时间大约是上午10:00左右,从那时起已经过去了大约12个小时,据此计算,整个更换和更换磁盘所需的时间约为15个小时。图1-20复制过程(9)第二天早上7点33分查看,复制进度已经完成,如图1-21所示。图1-21复制完成(10)点击“Hardware”选项卡中的Slot8,可以看到当前磁盘已经分配给Array-2,而原来的Slot6仍然是热备盘,如图1-22。至此整个维护就完成了。图1-22系统状态正常【本文为专栏作家“王春海”原创稿件,转载请注明出处】点此阅读更多作者好文
