基于高层级症状的硬件故障检测装置及方法

文档序号:6526039阅读:202来源:国知局
基于高层级症状的硬件故障检测装置及方法
【专利摘要】基于高层级症状的硬件故障检测装置及方法,属于硬件故障检测领域。本发明是为了解决现有硬件故障检测装置及方法功耗高的问题。本发明所述的基于高层级症状的硬件故障检测装置,通过在不同层级中嵌入故障检测模块,逐层对故障进行检测,能够诊断多种故障类型,使检测功耗减小了60%。本发明所述的基于高层级症状的硬件故障检测方法,属高层级检测方法,它通过逐层检测的方式,使通用性和覆盖面增大,提高了各层级的故障屏蔽能力,使故障覆盖率达到了90%以上。同时将故障症状进行区分,为后续故障诊断机制减小功耗。本发明所述的基于高层级症状的硬件故障检测装置及方法,适用于对计算机硬件进行故障检测。
【专利说明】基于高层级症状的硬件故障检测装置及方法
【技术领域】
[0001 ] 本发明属于硬件故障检测领域。
【背景技术】
[0002]半导体器件故障按机理可分为瞬时故障、永久故障和间歇故障。瞬时故障是由辐射引发的暂时性失效或状态改变,通常不会对器件产生物理性损伤。此类故障受环境因素影响较大,具有随机性。永久故障指因设计缺陷或器件老化引起的永久性物理损伤,故障现场可重现,易于检测。一经发现,常通过器件替换进行维护。间歇故障引发原因与永久故障类似,但属于一种过渡阶段,故障表现出不规则的爆发性,爆发频度逐渐增加并最终形成永久故障。间歇故障发生后,故障部件亦须替换。
[0003]处理器I内硬件故障检测常针对触发器、锁存器等时序逻辑,一般采用ECC、奇偶校验等机制实现。有研究发现,对于乱序架构处理器190%以上组合逻辑发生的单比特翻转被奇偶校验检出的概率低于50%,因为乱序处理器I在读取操作数时指令已经流出流水线。而对于以解码单元、算逻单元、地址生成单元为代表的组合逻辑,以及多核内的互联部件难于防护。成熟的冷备、热备(cold/hot spare),双模、三模冗余(TMR/DMR)等机制故障检错率高,但却带来了过高的硬件代价。

【发明内容】

[0004]本发明是为了解决现有硬件故障检测装置及方法功耗高的问题,现提供基于高层级症状的硬件故障检测装置及方法。
[0005]基于高层级症状的硬件故障检测装置,它包括:处理器、固件层、操作系统层和应用层;
[0006]处理器的信号输出端连接固件层的信号输出端,固件层的信号输出端连接操作系统层的信号输入端,操作系统层的信号输出端连接应用层的信号输入端;
[0007]所述固件层中嵌入关键陷入症状检测模块,该检测模块用于检测固件层中的关键陷入故障;
[0008]所述操作系统层中嵌入高发活动症状检测模块,该检测模块用于检测操作系统层中的高发活动故障;
[0009]所述应用层中嵌入死循环症状检测模块、故障状态未引用症状检测模块和故障状态引用检测模块,所述死循环症状检测模块用于检测应用层中的死循环故障,故障状态未引用症状检测模块用于检测应用层中的故障状态未引用故障,故障状态引用检测模块用于检测应用层中的故障状态引用故障。所述处理器包括:地址生成单元、算逻单元、解码单元和寄存单兀;
[0010]所述地址生成单元的信号输出端、算逻单元的信号输出端、解码单元的信号输出端和寄存单兀的信号输出端同时作为处理器的信号输出端。
[0011]基于高层级症状的硬件故障检测方法,该方法是基于以下装置实现的,[0012]基于高层级症状的硬件故障检测装置,它包括:处理器、固件层、操作系统层和应用层;
[0013]处理器的信号输出端连接固件层的信号输出端,固件层的信号输出端连接操作系统层的信号输入端,操作系统层的信号输出端连接应用层的信号输入端;
[0014]所述固件层中嵌入关键陷入症状检测模块,该检测模块用于检测固件层中的关键陷入故障;
[0015]所述操作系统层中嵌入高发活动症状检测模块,该检测模块用于检测操作系统层中的高发活动故障;
[0016]所述应用层中嵌入死循环症状检测模块、故障状态未引用症状检测模块和故障状态引用检测模块,所述死循环症状检测模块用于检测应用层中的死循环故障,故障状态未引用症状检测模块用于检测应用层中的故障状态未引用故障,故障状态引用检测模块用于检测应用层中的故障状态引用故障;
[0017]所述硬件故障检测方法,包括以下步骤:
[0018]步骤一:处理器将控制信号发送给固件层,固件层中的关键陷入症状检测模块对该信号进行故障检测,然后执行步骤二 ;
[0019]步骤二:判断关键陷入症状检测模块是否检测到故障,是则确定系统硬件发生关键陷入故障,完成硬件故障检测,否则执行步骤三;
[0020]步骤三:固件层将信号发送到操作系统层,操作系统层中的高发活动症状检测模块对该信号进行故障检测,然后执行步骤四;
[0021]步骤四:判断高发活动症状检测模块是否检测到故障,是则确定系统硬件发生高发活动故障,完成硬件故障检测,否则执行步骤五;
[0022]步骤五:操作系统层将信号发送到应用层,应用层中的死循环症状检测模块、故障状态未引用症状检测模块和故障状态引用检测模块同时对该信号进行故障检测,然后同时执行步骤六、步骤七和步骤八;
[0023]步骤六:判断死循环症状检测模块是否检测到故障,是则确定系统硬件发生死循环故障,完成硬件故障检测,否则确定系统硬件未发生故障;
[0024]步骤七:判断故障状态未引用症状检测模块是否检测到故障,是则确定系统硬件发生死循环故障,完成硬件故障检测,否则确定系统硬件未发生故障;
[0025]步骤八:判断故障状态引用检测模块是否检测到故障,是则确定系统硬件发生死循环故障,完成硬件故障检测,否则确定系统硬件未发生故障。
[0026]本发明所述的基于高层级症状的硬件故障检测装置,通过在不同层级中嵌入故障检测模块,逐层对故障进行检测,避免了周期性检测带来的漏检问题,同时能够诊断多种故障类型,使检测功耗减小了 60%。
[0027]本发明所述的基于高层级症状的硬件故障检测方法,属高层级检测方法,它通过逐层检测的方式,使通用性和覆盖面增大,提高了各层级的故障屏蔽能力,使故障覆盖率达到了 90%以上。同时将故障症状进行区分,从而有效避免了将操作系统和应用的容错特性排除在外的过度容错,为后续故障诊断机制减小功耗。
[0028]本发明所述的基于高层级症状的硬件故障检测装置及方法,适用于对计算机硬件进行故障检测。【专利附图】

【附图说明】
[0029]图1为基于高层级症状的硬件故障检测装置的结构示意图。
[0030]图2为基于高层级症状的硬件故障检测方法的流程图。
【具体实施方式】
[0031]【具体实施方式】一:参照图1具体说明本实施方式,本实施方式所述的基于高层级症状的硬件故障检测装置,它包括:处理器1、固件层2、操作系统层3和应用层4 ;
[0032]处理器I的信号输出端连接固件层2的信号输出端,固件层2的信号输出端连接操作系统层3的信号输入端,操作系统层3的信号输出端连接应用层4的信号输入端;
[0033]所述固件层2中嵌入关键陷入症状检测模块,该检测模块用于检测固件层2中的关键陷入故障;
[0034]所述操作系统层3中嵌入高发活动症状检测模块,该检测模块用于检测操作系统层3中的高发活动故障;
[0035]所述应用层4中嵌入死循环症状检测模块、故障状态未引用症状检测模块和故障状态引用检测模块,所述死循环症状检测模块用于检测应用层4中的死循环故障,故障状态未引用症状检测模块用于检测应用层4中的故障状态未引用故障,故障状态引用检测模块用于检测应用层4中的故障状态引用故障。
[0036]【具体实施方式】二:本实施方式是对【具体实施方式】一所述的基于高层级症状的硬件故障检测装置作进一步限定,本实施方式中,所述处理器I包括:地址生成单元1-1、算逻单元1-2、解码单元1-3和寄存单元1-4 ;
[0037]所述地址生成单元1-1的信号输出端、算逻单元1-2的信号输出端、解码单元1-3的信号输出端和寄存单兀1-4的信号输出端同时作为处理器I的信号输出端。
[0038]【具体实施方式】三:参照图2具体说明本实施方式,本实施方式所述的基于高层级症状的硬件故障检测方法,该方法是基于以下装置实现的,
[0039]基于高层级症状的硬件故障检测装置,它包括:处理器1、固件层2、操作系统层3和应用层4 ;
[0040]处理器I的信号输出端连接固件层2的信号输出端,固件层2的信号输出端连接操作系统层3的信号输入端,操作系统层3的信号输出端连接应用层4的信号输入端;
[0041]所述固件层2中嵌入关键陷入症状检测模块,该检测模块用于检测固件层2中的关键陷入故障;
[0042]所述操作系统层3中嵌入高发活动症状检测模块,该检测模块用于检测操作系统层3中的高发活动故障;
[0043]所述应用层4中嵌入死循环症状检测模块、故障状态未引用症状检测模块和故障状态引用检测模块,所述死循环症状检测模块用于检测应用层4中的死循环故障,故障状态未引用症状检测模块用于检测应用层4中的故障状态未引用故障,故障状态引用检测模块用于检测应用层4中的故障状态引用故障;
[0044]所述硬件故障检测方法,包括以下步骤:
[0045]步骤一:处理器I将控制信号发送给固件层2,固件层2中的关键陷入症状检测模块对该信号进行故障检测,然后执行步骤二 ;
[0046]步骤二:判断关键陷入症状检测模块是否检测到故障,是则确定系统硬件发生关键陷入故障,完成硬件故障检测,否则执行步骤三;
[0047]步骤三:固件层2将信号发送到操作系统层3,操作系统层3中的高发活动症状检测模块对该信号进行故障检测,然后执行步骤四;
[0048]步骤四:判断高发活动症状检测模块是否检测到故障,是则确定系统硬件发生高发活动故障,完成硬件故障检测,否则执行步骤五;
[0049]步骤五:操作系统层3将信号发送到应用层4,应用层4中的死循环症状检测模块、故障状态未引用症状检测模块和故障状态引用检测模块同时对该信号进行故障检测,然后同时执行步骤六、步骤七和步骤八;
[0050]步骤六:判断死循环症状检测模块是否检测到故障,是则确定系统硬件发生死循环故障,完成硬件故障检测,否则确定系统硬件未发生故障;
[0051]步骤七:判断故障状态未引用症状检测模块是否检测到故障,是则确定系统硬件发生死循环故障,完成硬件故障检测,否则确定系统硬件未发生故障;
[0052]步骤八:判断故障状态引用检测模块是否检测到故障,是则确定系统硬件发生死循环故障,完成硬件故障检测,否则确定系统硬件未发生故障。
【权利要求】
1.基于高层级症状的硬件故障检测装置,它包括:处理器(I)、固件层(2)、操作系统层(3)和应用层(4); 处理器(I)的信号输出端连接固件层(2)的信号输出端,固件层(2)的信号输出端连接操作系统层(3)的信号输入端,操作系统层(3)的信号输出端连接应用层(4)的信号输入端; 所述固件层(2)中嵌入关键陷入症状检测模块,该检测模块用于检测固件层(2)中的关键陷入故障; 所述操作系统层(3)中嵌入高发活动症状检测模块,该检测模块用于检测操作系统层(3)中的高发活动故障; 其特征在于,所述应用层(4)中嵌入死循环症状检测模块、故障状态未引用症状检测模块和故障状态引用检测模块,所述死循环症状检测模块用于检测应用层(4)中的死循环故障,故障状态未引用症状检测模块用于检测应用层(4)中的故障状态未引用故障,故障状态引用检测模块用于检测应用层(4)中的故障状态引用故障。
2.根据权利要求1所述的基于高层级症状的硬件故障检测装置,其特征在于,所述处理器(I)包括:地址生成单元(1-1)、算逻单元(1-2)、解码单元(1-3)和寄存单元(1-4); 所述地址生成单元(1-1)的信号输出端、算逻单元(1-2)的信号输出端、解码单元(1-3)的信号输出端和寄存单兀(1-4)的信号输出端同时作为处理器(I)的信号输出端。
3.基于高层级症状的硬件故障检测方法,其特征在于,该方法是基于以下装置实现的, 基于高层级症状的硬件 故障检测装置,它包括:处理器(I)、固件层(2)、操作系统层(3)和应用层(4); 处理器(I)的信号输出端连接固件层(2)的信号输出端,固件层(2)的信号输出端连接操作系统层(3)的信号输入端,操作系统层(3)的信号输出端连接应用层(4)的信号输入端; 所述固件层(2)中嵌入关键陷入症状检测模块,该检测模块用于检测固件层(2)中的关键陷入故障; 所述操作系统层(3)中嵌入高发活动症状检测模块,该检测模块用于检测操作系统层(3)中的高发活动故障; 所述应用层(4)中嵌入死循环症状检测模块、故障状态未引用症状检测模块和故障状态引用检测模块,所述死循环症状检测模块用于检测应用层(4)中的死循环故障,故障状态未引用症状检测模块用于检测应用层(4)中的故障状态未引用故障,故障状态引用检测模块用于检测应用层(4)中的故障状态引用故障; 所述硬件故障检测方法,包括以下步骤: 步骤一:处理器(I)将控制信号发送给固件层(2),固件层(2)中的关键陷入症状检测模块对该信号进行故障检测,然后执行步骤二 ; 步骤二:判断关键陷入症状检测模块是否检测到故障,是则确定系统硬件发生关键陷入故障,完成硬件故障检测,否则执行步骤三; 步骤三:固件层(2)将信号发送到操作系统层(3),操作系统层(3)中的高发活动症状检测模块对该信号进行故障检测,然后执行步骤四; 步骤四:判断高发活动症状检测模块是否检测到故障,是则确定系统硬件发生高发活动故障,完成硬件故障检测,否则执行步骤五; 步骤五:操作系统层(3)将信号发送到应用层(4),应用层(4)中的死循环症状检测模块、故障状态未引用症状检测模块和故障状态引用检测模块同时对该信号进行故障检测,然后同时执行步骤六、步骤七和步骤八; 步骤六:判断死循环症状检测模块是否检测到故障,是则确定系统硬件发生死循环故障,完成硬件故障检测,否则确定系统硬件未发生故障; 步骤七:判断故障状态未引用症状检测模块是否检测到故障,是则确定系统硬件发生死循环故障,完成硬件故障检测,否则确定系统硬件未发生故障; 步骤八:判断故障状态引用检测模块是否检测到故障,是则确定系统硬件发生死循环故障,完成硬件故障 检测,否则确定系统硬件未发生故障。
【文档编号】G06F11/22GK103744758SQ201310737931
【公开日】2014年4月23日 申请日期:2013年12月27日 优先权日:2013年12月27日
【发明者】崔刚, 傅忠传, 王超, 朱东杰, 潘波, 王秀峰, 季春光, 张明, 王彦, 张毕英, 张策 申请人:哈尔滨工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1