存储系统是当今大数据云计算时代的基础,其稳定性是支撑如此海量数据的基础。因此各大相关行业对这部分都非常重视,所以这里简单总结一下学习和总结存储系统故障处理的一些思路。首先,在处理存储系统可能出现的故障之前,必须对整个存储系统的架构和原理有一个清晰的认识。一般来说,存储系统由主机、交换机和存储设备组成。它们可以直接连接,也可以通过IP网络或FC网络连接。整个系统的稳定性与各个组成部分息息相关。其次,了解故障的分类。故障分类大致分为硬件故障、配置故障或License问题。先外后内,先处理高级别告警再处理低级别告警,先共性后个性。面对故障,第一步总是先收集必要的信息,了解整个存储系统的基本信息、故障信息、存储设备信息、网络、主机服务器信息。这些部分可以直接管理到主机、交换机或存储设备上进行收集。现在厂商也有专门的开发和维护工具来帮助管理人员做这些事情。只有收集了这些信息,我们才能对整个存储系统有一个大概的、清晰的认识。至少对今天出现故障的可能原因有一个了解,然后细化每个组件来排查可能出现的问题。1、主机层在主机层,主要需要检查的是操作系统版本,以及对应的HBA卡是否满足相应的标准,如速度、IOPS、带宽等。二是在主机上安装多路径软件,查看存储设备连接的物理路径状态和存储LUN等信息。2.网络层网络层可能出现的问题多为连通性问题,如链路故障导致丢包或误码率增加等。对于这种现象,可以观察交换机上的端口信息,看误码率是否继续增长,如果有,可能是链路组件不正常或接触不良。其次,端口速度或带宽可能不达标。检查端口配置和协商状态,这可能会导致失败或性能问题。3.存储层存储设备可以导出相关告警、事件或运行数据、系统日志、硬盘日志,进一步分析可能出现的故障原因。是存储控制器问题还是底层硬盘问题,需要一一排查。在底层存储方面,我们主要考虑存储模块的配置,指示灯的状态等信息。从指示灯的状态,我们可以分析是否有硬件故障等。其次,在配置方面:RAID级别,条带深度,LUN读写策略,缓存策略,LUN所有权和硬盘类型满足业务特点,不满足可能导致的问题。这些都是我们在排查和处理的时候需要考虑的。总之,面对存储系统故障,一定要思路清晰,不要盲目去做。一味地这样做可能会加重故障,进一步增加故障排除的难度。
