一种基于ipmi的冗余计算机系统节点故障主被动检测方法

文档序号:6521822阅读:285来源:国知局
一种基于ipmi的冗余计算机系统节点故障主被动检测方法
【专利摘要】本发明公开了一种冗余计算机系统的故障主被动检测方法。该方法包括第一步:利用冗余待测计算机的IPMI标准接口,故障检测模块实时收集冗余系统中待测的主用计算机和备用计算机的状态数据,收集到一定数量的运行状态数据后;第二步:故障检测模块通过模式匹配方法诊断待测计算机是否出现运行故障;第三步:依据给定的系统参数值,预测主用计算机一段时间内出现故障事件的概率。作为实现多台计算机冗余系统容错不可或缺的基础组件之一,本发明故障主被动检测方法能够在一定程度上降低故障检测的时间延迟、提高故障检测的准确性、预测故障发生概率,以支撑关键服务系统的快速失效切换和主动容错等高可用保障机制。
【专利说明】一种基于IPMI的冗余计算机系统节点故障主被动检测方法
【技术领域】
[0001]本发明属于多台计算机冗余系统中的故障主被动检测方法,特别是一种基于IPMI的冗余计算机系统节点故障主被动检测方法。
【背景技术】
[0002]计算机技术的迅猛发展使得计算机系统被广泛应用于国民经济的各行各业,人类社会对计算机信息系统的依赖程度越来越高,各领域对计算机信息系统的可靠性和稳定性要求也变得越来越高。不仅航空、航天、舰船这样的高技术和军事领域要求高可靠的计算机,而且银行、证券、交通、石油、化工、钢铁等金融和工业部门也要求具有高可靠的计算机。
[0003]多台计算机冗余备份是一种有效解决系统可靠性的方案,该技术成本相对较低,具有安装维护简单、稳定可靠、监测直观等优点,在关键业务系统中获得了广泛的应用。多台计算机冗余容错系统中,一个模块为主用计算机,用以产生系统的输出,其余计算机作为备用。采用各种故障检测技术及故障定位技术来确定发生故障的计算机,若主用计算机发生故障,则启动重构机制,将一个正常的备用计算机转化为主用计算机,从而保障系统服务的正常。
[0004]故障检测是实现多台计算机冗余系统容错不可或缺的基础组件之一,面向关键服务器的计算机故障检测技术目前在故障检测延迟和故障检测准确性方面仍需要很大改进,难以满足关键服务系统的可靠性需求,尤其是航空、航天、舰船这样的高技术和军事领域。虽然越来越多的企业开始在其生产的设备中支持智能平台管理接口(IntelligentPlatform Management Interface, IPMI)标准,以监控系统中和底层硬件相关的设备组件及有关参数(如电压、温度、风扇),但是目前尚未出现利用IPMI监控信息数据在多台计算机冗余系统中实现待测计算机故障主被动检测的技术方法。
[0005]发明目的
[0006]本发明的目的在于提供了一种为冗余计算机系统运行期间故障主被动检测的方法。
[0007]实现本发明目的的技术解决方案为:一种基于IPMI的冗余计算机系统节点故障主被动检测方法,包括以下步骤:
[0008]步骤1、在所有待测计算机上部署并启用IPMI功能模块,并通过标准RJ45接口或串行接口与故障检测模块相连接;所有待测计算机构成冗余备份系统;所述故障检测模块是采用FPGA实现的逻辑功能模块。
[0009]步骤2、通过IPMI协议周期性地收集上述冗余系统中主备计算机节点的运行状态信息序列P,所述状态信息包括CPU、风扇、内存和部件状态数据;
[0010]步骤3、对步骤2采集到的状态信息序列p进行分析,通过模式匹配方法分别对主备计算机节点的运行状态进行故障判定,即故障被动检测;具体为:
[0011 ] 步骤3-1、对于系统预置样本库Q中的某个样本序列q和采集到的待测计算机状态序列P,q G Q,对序列p和q进行平均线性分段,得到N个子序列,N为自然数;对于各子序列中相邻两点确定的线段,确定各线段对应的斜率值和斜率反正切值;
[0012]步骤3-2、拟合各子序列中斜率反正切值相近的连续线段,得到其拟合变换后的斜率反正切值序列Hp[l...trp, 1...N]和Hq[l...trq, 1...N],其中t/为序列p第r个子序列的线段数目;对于某一个子序列r,r e [1,N],其对应线段拟合变换的具体步骤为:
[0013](a)将 n 初始为 I,即 n=l ;
[0014](b)确定子序列r中第n条线段与第n+1条线段的斜率反正切值之差h=H[n,r] -H[n+1, r],以判定两条线段间的斜率反正切值的相似程度,其中H[n,r]表示子序列r中第n条线段的斜率反正切值,H[n, r] G Hp [1...tx,1...N]或H[n, r] G Hq[l.? ? tx,1.? ? N];
[0015](c)对斜率反正切值之差h进行判断,若|h|>=e,则n=n+l,转到步骤(b),直到完成遍历子序列r中所有的线段;若|h|〈e,利用一元线性回归函数,确定出序列r中第11条线段和第n+1条线段对应拟合线段的斜率值R,之后执行步骤(d) ; e为判定阈值;
[0016](d)更新拟合变换后的斜率反正切值序列,以arctan (R)取代子序列r中第n条线段的斜率反正切值H[n, r],即H[n, r] =arctan (R),并将子序列r中第n+1条线段对应横坐标跨度并入第n条线段的横坐标跨度;
[0017](e)删除子序列r中第n+1条线段,转到步骤(b),直到完成遍历子序列r中所有的线段;
[0018]步骤3-3、重复步骤3-1和步骤3-2,确定序列p与样本库Q中所有样本序列相匹配的子序列数;对于某个样本序列q,q E Q,确定序列p与q相匹配的子序列数的具体步骤为:
[0019](I)设定偏离误差@ >0 ;用E(q)表示序列P与样本序列q之间匹配的子序列数,E(q)初始为0 ;
[0020](2)若q为故障状态的样本序列,F(q)=l ;若q为非故障状态的样本序列,F (q) =0 ;
[0021](3)确定序列p与样本序列q之间匹配的子序列数E (q),具体为:比较序列p和序列q的N个子序列,如果子序列中的线段数不等,则匹配子序列数不增加;如果子序列中的线段数相等,进一步确定出子序列对应线段间的偏差,如果平均偏差小于允许的偏离误差
3,即
【权利要求】
1.一种基于IPMI的冗余计算机系统节点故障主被动检测方法,其特征在于:包括以下步骤: 步骤1、在所有待测计算机上部署并启用IPMI功能模块,并通过标准RJ45接口或串行接口与故障检测模块相连接;所有待测计算机构成冗余备份系统; 步骤2、通过IPMI协议周期性地收集上述冗余系统中主备计算机节点的运行状态信息序列P,所述状态信息包括CPU、风扇、内存和部件状态数据; 步骤3、对步骤2采集到的状态信息序列p进行分析,通过模式匹配方法分别对主备计算机节点的运行状态进行故障判定,即故障被动检测; 步骤4、在给定的系统参数值的前提下,通过对主用计算机节点故障进行预测,即故障主动检测,确定在何时对上述冗余系统实施主动式的主备切换。
2.根据权利要求1所述的基于IPMI的冗余计算机系统节点故障主被动检测方法,其特征在于,步骤I中所述故障检测模块是采用FPGA实现的逻辑功能模块。
3.根据权利要求1所述的基于IPMI的冗余计算机系统节点故障主被动检测方法,其特征在于,步骤3中对步骤2采集到的状态信息序列进行分析,通过模式匹配方法对主备计算机节点的运行状态进行故障判定,具体为: 步骤3-1、对于系统预置样本库Q中的某个样本序列q和采集到的待测计算机状态序列p,q G Q,对序列p和 q进行平均线性分段,得到N个子序列,N为自然数;对于各子序列中相邻两点确定的线段,确定各线段对应的斜率值和斜率反正切值; 步骤3-2、拟合各子序列中斜率反正切值相近的连续线段,得到其拟合变换后的斜率反正切值序列1...N]和Hq[1...trq, 1...N],其中t/为序列p第r个子序列的线段数目;对于某一个子序列r,r e [1,N],其对应线段拟合变换的具体步骤为: (a)将n初始为I,即n=l; (b)确定子序列r中第n条线段与第n+1条线段的斜率反正切值之差h=H[n,r]-H[n+1, r],以判定两条线段间的斜率反正切值的相似程度,其中H[n,r]表示子序列r中第n条线段的斜率反正切值,H[n, r] G Hp [1...tx,1...N]或H[n, r] G Hq[l.? ? tx,1.? ? N]; (c)对斜率反正切值之差h进行判断,若|h|>=e,则n=n+l,转到步骤(b),直到完成遍历子序列r中所有的线段;若|h|〈 e,利用一元线性回归函数,确定出序列r中第n条线段和第n+1条线段对应拟合线段的斜率值R,之后执行步骤(d) ; e为判定阈值; (d)更新拟合变换后的斜率反正切值序列,以arctan(R)取代子序列I 中第n条线段的斜率反正切值H[n, r],即H[n, r] =arctan (R),并将子序列r中第n+1条线段对应横坐标跨度并入第n条线段的横坐标跨度; (e)删除子序列r中第n+1条线段,转到步骤(b),直到完成遍历子序列r中所有的线段; 步骤3-3、重复步骤3-1和步骤3-2,确定序列p与样本库Q中所有样本序列相匹配的子序列数;对于某个样本序列q,q G Q,确定序列P与q相匹配的子序列数的具体步骤为: (1)设定偏离误差P>0 ;用E(q)表示序列p与样本序列q之间匹配的子序列数,E (q)初始为0 ; (2)若q为故障状态的样本序列,F(q)=l ;若q为非故障状态的样本序列,F (q) =0 ;(3)确定序列p与样本序列q之间匹配的子序列数E(q),具体为:比较序列p和序列q的N个子序列,如果子序列中的线段数不等,则匹配子序列数不增加;如果子序列中的线段数相等,进一步确定出子序列对应线段间的偏差,如果平均偏差小于允许的偏离误差P,即
4.根据权利要求1所述的基于IPMI的冗余计算机系统节点故障主被动检测方法,其特征在于,步骤4中在给定系统参数值的前提下对主用计算机节点故障进行预测具体为:步骤4-1、利用主用计算机节点运行故障预测的数学模型f(x)进行预测:

【文档编号】G06F11/07GK103617104SQ201310634139
【公开日】2014年3月5日 申请日期:2013年12月1日 优先权日:2013年12月1日
【发明者】徐振朋, 翟永宁, 殷进勇, 杨光年, 李韦韦, 吴茂传, 苏培培, 楼智翔, 董奇, 史小犇 申请人:中国船舶重工集团公司第七一六研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1