故障处理——戴尔服务器远程控制卡与BIOS版本问题导致的一次宕机处理过程

it2025-07-30  33

故障名称

戴尔服务器远程控制卡与BIOS版本问题导致的一次宕机处理过程

故障发生时间

2020-10-21 14:30-15:00

故障描述

1、平台异常,无法打开页面。经确认是平台上的微服务连接数据库异常。 2、无法通过ssh连接数据库服务器。 3、zabbix监控告警,zabbix-agent连接失效。

故障分析

1、通过上述现象,可以确定是数据库服务器宕机了。 2、通过Dell IDRACB 远程控制卡查看服务器的事件日志和生命周期日志。发现有如下警告信息。 此警告出现的时间与服务器出现故障的时间高度一致,因此判断此警告信息就是导致服务器故障的原因。 3、查找官方资料。发现PWR2262 这个故障是由于IDRAC 固件2.00.00.00 或更低版本以及 BIOS 2.8.0 或更低版本时会随机出现这个故障,而且这个故障会导致系统重启或者系统故障。好坑呀。。。

处理过程

根据官方的建议,处理过程如下: 1、到官网下载IDRACB远程控制卡的最新的驱动程序和BIOS的最新版本的驱动程序。 2、在远程控制卡管理系统里上传新的驱动程序。 3、重启服务器,完成远程控制卡和BIOS的版本升级。

经验总结

1、加强对于公司服务器硬件驱动程序的管理。确保服务器硬件正常运行。

官方文档对于该故障的描述及解决方案

最新回复(0)