服务器和存储系统稳定运行是IT基础设施的基石,其健康状态直接决定业务连续性,科学、规范的巡检方法能提前识别潜在风险,将故障拦截在萌芽阶段,本文基于行业最佳实践与一线运维经验,系统梳理服务器和存储设备的标准化巡检流程,聚焦可落地、可量化的关键检查项,为运维团队提供高效、精准的巡检方法论支持。

巡检前准备:夯实基础,明确标准
巡检质量取决于准备充分度。
- 明确巡检对象与范围:区分物理服务器( Dell PowerEdge、HPE ProLiant)、虚拟化宿主机(VMware ESXi)、存储设备(EMC PowerStore、NetApp AFF、华为OceanStor)及超融合平台。
- 制定标准化检查清单:
- 硬件层:电源、风扇、RAID卡、硬盘状态、温度传感器
- 系统层:CPU/内存/磁盘I/O利用率、日志错误数、服务进程状态
- 存储层:卷可用空间、快照链长度、复制状态、QoS延迟
- 工具准备就绪:
- 服务器:iDRAC/iLO、IPMI、
ipmitool、sensors命令 - 存储:厂商CLI(如
storcli)、SNMP监控(Zabbix/Prometheus)、iostat/nmon性能采集
- 服务器:iDRAC/iLO、IPMI、
服务器核心巡检项:聚焦五大关键维度
每台服务器巡检需覆盖以下5大模块,缺一不可。
硬件健康状态(10分钟/台)
- 硬盘状态:RAID卡日志中无“Predictive Failure”“Degraded”告警;SMART检测无
Reallocated_Sector_Ct>100或Current_Pending_Sector>0。 - 电源与风扇:冗余电源均在线(状态灯绿色),风扇转速>30%且无异响;温度>70℃需立即干预。
- 内存ECC错误:
dmidecode -t 17 | grep -i "error"或通过IPMI查看Memory Correctable Error Count,>0需记录并跟踪。
系统资源负载(实时监控+历史比对)
- CPU:1分钟平均负载 < 核心数×0.7;单进程CPU占用>80%持续5分钟需告警。
- 内存:Swap使用率<10%;
free -m中available内存 > 总内存30%。 - 磁盘I/O:
iostat -x 1 5中%util<85%,await<20ms(SSD)或<50ms(HDD)。
日志与告警分析(核心!)
- 系统日志:
grep -i "error\|fail\|critical" /var/log/messages,重点关注kernel: [Hardware Error]、mdadm: DegradedArray。 - 应用日志:数据库(如MySQL的
error.log)、中间件(如Tomcat的catalina.out)中是否有OOMKilled、Connection reset。 - 第三方告警:对接Zabbix时,确认
Trigger状态为“PROBLEM”的设备已闭环处理。
安全与补丁合规性
- 系统补丁:内核版本非EOL(如CentOS 7.9需升级至7.9.2009+);关键漏洞(如Log4j、Sudo CVE-2021-3156)已修复。
- 服务最小化:
netstat -tulnp中仅开放必要端口(如22/443/3306),禁用Telnet、FTP等高危服务。
备份有效性验证(每月必做)
- 备份任务状态:检查Veeam/Commvault任务日志,确认“Success”且无警告。
- 恢复演练:每季度随机抽取1个虚拟机/数据库实例执行沙箱恢复,验证RTO<30分钟、RPO<5分钟。
存储系统专项巡检:从容量到性能全链路覆盖
存储故障往往无声无息,巡检必须穿透表象,直击底层逻辑。

容量与空间管理
- 可用容量预警:卷剩余空间<20%时触发告警(非25%!),SSD需预留10% over-provisioning。
- 快照管理:快照链长度≤5层;单快照占用空间>源卷15%时自动清理旧快照。
性能基线比对
- 延迟监控:
iostat -x中svctm> 10ms(HDD)或>2ms(NVMe)视为异常。 - 吞吐瓶颈:对比历史峰值,当前IOPS下降>30%且无业务变更记录时,需排查缓存命中率(应>95%)。
数据冗余与一致性
- RAID重建状态:
storcli /c0/eALL/sALL show rebuild,重建进度<99%且持续>24小时需人工介入。 - 一致性检查:NetApp执行
volume consistency-check start;EMC执行symrdf verify,禁止跳过校验。
网络与链路健康
- 多路径I/O:
multipath -ll中所有路径状态为active ready,无ghost路径。 - 网络延迟:
ping存储管理IP的RTT<1ms(同机房)或<5ms(跨机房)。
巡检结果闭环:从发现到解决的标准化流程
巡检不是终点,而是运维闭环的起点。
- 分级定级:
- P0级(立即处理):硬盘故障、RAID降级、存储不可用
- P1级(24小时内):CPU持续>90%、内存泄漏、备份失败
- P2级(72小时内):日志告警、补丁未更新、快照超限
- 自动化报告生成:通过Ansible+Python脚本自动生成PDF报告,含趋势图、风险热力图、处置建议。
- 知识库沉淀:将高频问题(如“RAID卡固件v12.12.0导致SSD掉盘”)录入Confluence,关联解决方案。
相关问答
Q1:巡检频率如何科学设定?
A:基础巡检(硬件/日志)每日自动执行;性能基线分析每周人工复核;深度巡检(备份恢复演练、快照清理)按月计划推进,业务上线前需增加专项巡检。
Q2:中小团队资源有限,如何高效执行?
A:优先部署开源工具链(Zabbix+Prometheus+Grafana),配置自动巡检脚本;将P0/P1项设为自动告警,P2项合并至周报;利用厂商远程支持服务(如Dell ProSupport)补充专业能力。

您在巡检中最常遇到哪些“隐形陷阱”?欢迎留言分享您的实战经验!
