一种基于内存错误的服务器预警方法

文档序号:6368802阅读:384来源:国知局
专利名称:一种基于内存错误的服务器预警方法
技术领域
本发明涉及大型服务器管理技术领域,具体地说是一种基于内存错误的服务器预警方法。
背景技术
I、当前的服务器监控系统主要通过带外监控来监控系统的温度,电压和风扇转速等信息控制系统外部环境的稳定。这些带外的方法无法覆盖内存系统内存发生错误,尤其是当今服务器集群系统内存条动则成百上千,一旦出问题很难定位;
2、当前的监控系统主要是基于时间的轮询机制,这种机制虽然在一定程度上较为高效,但是如果系统不稳定发生的时间点正好在两次轮询中间,那么监控系统就无法获取这个错误,在一定程度上漏掉了这个错误,可能导致非常严重的后果。

发明内容
本发明的目的是提供一种基于内存错误的服务器预警方法。本发明的目的是按以下方式实现的,包括以下步骤
(1)检查BIOS的设置是否开启了内存预警;
(2)如果开启了内存预警则转步骤3),否则返回;
(3)在服务器初始化阶段设置CPU中断,当其检测到内存错误的时候发出SMI中断;
(4)当CPU检测到ECC校验错误时发出SMI中断;
(5)BIOS的SMI Handler检测BIOS的设置是否开启了 RAS,如果开启RAS则转步骤
6),否则转步骤8 ;
(6)检测内存错误数是否达到了启动RAS特性的临界值,若使是,转步骤7),否则转步骤8);
(7)根据RAS设置包括内存热备,内存镜像,内存双颗粒数据校正,来采取对应的措施,并且通过IPMI命令将对应的事件发送给BMC ;
(8)将发生错误的内存条的信息以及当前其总计发生的错误数目发送到BMC;
(9)BMC将BIOS发送的信息以易读的方式实时解析到界面,并且实时的以Mail的方式发送给系统管理员,方便下次停机维护的时候对对应发生错误的内存进行处置。实时SMI中断来处理内存错误,不需要操作系统有任何参与,在系统没有发生内存错误时候不会有任何额外开销,高效监控。基于系统运行时内存的稳定预警,区别于传统的只能监控温度,电压等因素的预警,是一种更深层次的预警机制。本发明的有益效果如下
I)通过系统中断的方式处理错误,在BIOS级别做全部处理,不需要操作系统的参与,更加实时高效;精确定位内存出错位置,而且不会漏掉任何一个发生的错误,更加安全;在系统发生内存错误时利用RAS特性做系统内存低层次的恢复,从而保证了系统的稳定运行,在大型企业级服务器集群上更为重要;
2)在系统内存初始化时根据BIOS的设置选项选择CPU在检查到内存ECC校验错误时候是否发出SMI中断;
3)在系统运行的过程中,若CPU检查到内存ECC校验错误,则通过中断发送出来;
4)BI0S在收到中断后通过判断错误的级别是否需要采取进一步的RAS恢复,以及将错误恢复结果和具体错误内存条信息发送到BMC ;
5)BMC来解析错误具体信息并且将其发送到管理员邮箱,由系统管理员决定。


图I是系统部署流程图。
具体实施例方式参照说明书附图对本发明的方法作以下详细地说明。BIOS将预警功能在Setup界面上做给用户做出选择。具体实现流程
(1)如果开启了内存预警则转3,否则返回;
(2)在服务器的内存初始化阶段设置CPU对应寄存器,当其检测到内存错误的时候发出SMI中断;
(3)在SMI的Handler里面注册对应此功能的调用函数,在入口处判断是否是自己需要处理的事件;
(4)当CPU检测到ECC校验错误时发出SMI中断时。SMIHandler需要做得事情包括
①检测BIOS的设置是否开启了RAS,如果开启RAS则转②否则转④;
②检测内存错误数是否达到了启动RAS特性的临界值,若使是,转③,否则转④;
③根据RAS设置(内存热备,内存镜像,内存双颗粒数据校正)来采取对应的措施,并且通过IPMI命令将对应的事件发送给BMC ;
④将发生错误的内存条的信息以及当前其总计发生的错误数目发送到BMC。BMC将BIOS发送的信息以易读的方式实时解析到界面,并且实时的以Mail的方式发送给系统管理员,方便下次停机维护的时候对对应发生错误的内存
除说明书所述的技术特征外,均为本专业技术人员的已知技术。
权利要求
1.一种基于内存错误的服务器预警方法,其特征在于包括以下步骤 (1)检查BIOS的设置是否开启了内存预警; (2)如果开启了内存预警则转步骤(3),否则返回; (3)在服务器初始化阶段设置CPU中断,当其检测到内存错误的时候发出SMI中断; (4)当CPU检测到ECC校验错误时发出SMI中断; (5)BI0S的SMIHandler检测BIOS的设置是否开启了 RAS,如果开启RAS则转步骤(6),否则转步骤8 ; (6)检测内存错误数是否达到了启动RAS特性的临界值,若使是,转步骤(7),否则转步骤(8); (7)根据RAS设置包括内存热备,内存镜像,内存双颗粒数据校正,来采取对应的措施,并且通过IPMI命令将对应的事件发送给BMC ; (8)将发生错误的内存条的信息以及当前其总计发生的错误数目发送到BMC; (9)BMC将BIOS发送的信息以易读的方式实时解析到界面,并且实时的以Mail的方式发送给系统管理员,方便下次停机维护的时候对对应发生错误的内存进行处置。
2.根据权利要求I所述的服务器预警方法,其特征在于实时SMI中断来处理内存错误,不需要操作系统有任何参与,在系统没有发生内存错误时候不会有任何额外开销,高效监控。
3.根据权利要求I所述的服务器预警方法,其特征在于基于系统运行时内存的稳定预警,区别于传统的只能监控温度,电压等因素的预警,是一种更深层次的预警机制。
全文摘要
本发明提供一种基于内存错误的服务器预警方法,1)通过系统中断的方式处理错误,在BIOS级别做全部处理,不需要操作系统的参与,精确定位内存出错位置,在系统发生内存错误时利用RAS特性做系统内存低层次的恢复,从而保证了系统的稳定运行,在大型企业级服务器集群上更为重要。2)在系统内存初始化时根据BIOS的设置选项选择CPU在检查到内存ECC校验错误时候是否发出SMI中断。3)在系统运行的过程中,若CPU检查到内存ECC校验错误,则通过中断发送出来。4)BIOS在收到中断后通过判断错误的级别是否需要采取进一步的RAS恢复,以及将错误恢复结果和具体错误内存条信息发送到BMC。5)BMC来解析错误具体信息并且将其发送到管理员邮箱,由系统管理员决定。
文档编号G06F11/10GK102681909SQ20121012896
公开日2012年9月19日 申请日期2012年4月28日 优先权日2012年4月28日
发明者曹光耀 申请人:浪潮电子信息产业股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1