一种计算机系统故障诊断决策及处理方法

文档序号:6368808阅读:276来源:国知局
专利名称:一种计算机系统故障诊断决策及处理方法
技术领域
本发明涉及计算机故障管理领域,具体涉及ー种计算机系统故障诊断、决策计划及处理的方法。
背景技术
在科学计算、商用服务、政府职能等领域,各种服务器、存储等计算机系统均起着神经枢纽的作用,一旦出现故障,轻则导致服务中断、设备故障,重则危及到国家和人民生命和财产的安全。用户在追求系统高性能、高容量、高密度等指标的同时,更看重的是系统的可靠性和稳定性,在此需求的推动下,各种各样的故障管理、容错管理技术应运而生。目前国际上高端计算机系统从底层的硬件到顶层的应用软件,大都采用了多种类型的故障管理技术,例如HP公司的Superdome服务器和IBM的Z系列服务器,全面地采用了故障检测与校正机制、错误恢复功能、硬件故障隔离等故障管理能力。然而,现有的故障管理方法和策略大都是静态部署的,即一旦系统当中发生了某种类型的故障,系统会按照ー种固定的模式进行故障检测、进行故障定位、故障隔离、系统重构等工作,这些策略都是在系统部署时就已经确定下来的,系统在运行过程中很难改变。实际上,由于高端计算机系统自身架构的复杂性,加之被部署的网络环境及其上运行应用的复杂性,随着系统的运行,系统中的可用资源会发生很大的变化,外部环境也会发生较复杂的变化,固定模式的故障处理策略很难满足容错计算机在复杂环境下的长时间运行。因此,系统的故障处理策略需要能够动态的、自适应的变化,以尽可能适应系统状态的变化和外部环境的变化。因此,在现有计算机故障管理领域,在现有故障处理理论的基础之上,提出一种计算机系统故障诊断、决策计划及处理的方法很有必要。

发明内容
本发明提出了一种计算机系统故障诊断、决策计划及处理的方法,利用这种方法,故障管理系统可根据被管理计算机的配置、运行状态及故障症状,智能地对故障管理知识库中的知识进行自主配置和优化,以此为基础对故障进行诊断并采用适当的策略进行处理。本发明的目的是按以下方式实现的,包括故障管理系统,该系统能够根据被管理计算机的配置、运行状态及故障症状,智能地利用故障管理知识库中的知识进行自主配置和优化,以此为基础对故障进行诊断并采用适当的策略进行处理,故障管理系统包括故障管理知识库(1),状态监视模块(2),故障知识学习分析模块(3),决策计划模块(4),故障处理模块(5),人机接ロ(6),其中
故障管理知识库(1),包括故障诊断知识、故障处理策略知识和故障预测知识;故障管理知识库是实现该方法的基础; 状态监视模块(2),负责对系统状态进行检测;
故障知识学习分析模块(3),利用故障管理知识库中的现有知识和从状态监视模块中收集到的状态信息加以综合分析,并针对分析结果对故障管理知识库中的知识进行重新配置和更新;故障知识学习分析模块是实现该方法的核心;
决策计划模块(4),根据从状态监视模块中收集到的状态信息,查询故障管理知识库,决策针对当前系统是否存在故障、该种故障应该进行何种处理策略进行处理、是否需要进行预警;
故障处理模块(5),负责根据决策计划模块的决策结果进行实际的故障处理动作,包括风扇调速、部件隔离;
人机接ロ(6),通过该接ロ由管理员采用人工的方式对故障管理知识库中的内容进行更新,或执行特定故障处理动作,人机接ロ提供管理员与故障管理系统进行交互的接ロ,作为自主计算机制的有益补充。所述的状态监视模块采用带外/带内综合监控方式,获取计算机系统中芯片级、板卡级、系统级的状态/故障信息。所述的故障知识学习分析模块,基于故障管理知识库中的大量历史状态/故障知识,利用聚类分析算法对未来故障产生的趋势、针对特定故障要采取的处理策略进行智能分析,并将分析后得出的新知识更新至故障管理知识库中。所述的故障处理模块,结合硬件/操作系统级的容错机制,对已发生的或潜在的故障进行处理。本发明的有益效果是可以使故障管理系统针对被管理计算机由于发生故障或其他导致系统资源发生动态变化的条件下,能够根据监测到的系统状态/故障信息,智能地对故障诊断知识、故障处理策略知识和故障预测知识进行动态配置及调整,达到自主管理、自主调整的要求。基于自主计算的计算机系统故障诊断、响应与预警方法所具有的上述优点,使得其弥补了传统故障管理系统中由于只能采用预定义策略进行故障诊断和处理,可能存在的故障漏检、故障处理策略有误、对系统配置/外部环境变化适应性差等问题。


图I是传统的基于静态故障处理策略的计算机故障管理系统体系结构示意 图2是基于自主计算的故障诊断、响应与预警方法的计算机故障管理系统体系结构示意图。实施方式
下面參照附图,对本发明的内容以ー个具体实例来描述实现基于自主计算的故障诊断、响应与预警方法的计算机故障管理系统的过程。正如发明内容中所描述的,本发明体系结构(參见附图2)主要包括故障管理知识库(1),状态监视模块(2),故障知识学习分析模块(3),决策计划模块(4),故障处理模块(5),人机接ロ(6),其中
故障管理知识库中的内容主要包括故障诊断知识、故障处理策略知识和故障预测知识,可采用数据仓库的方式进行实现;故障管理知识库是实现该方法的基础。故障管理知识库保存系统历史故障诊断知识、故障处理策略知识和故障预测知识,以供故障知识学习分 析模块进行分析使用。其中故障诊断知识包括获得的计算机状态监测数据和症状等,用于诊断被管理资源和外部环境的状态/故障依据;故障处理策略知识定义从状态到动作或目标的映射,包括通过自主计算获得的故障处理策略及预定义策略;故障预测知识包括针对已知故障推測潜在故障的问题求解。管理员可通过人机接ロ对故障管理知识库中的知识进行人工更新,以作为自主计算方式的补充;决策计划模块进行故障处理策略的依据也来自故障管理知识库。故障知识学习分析模块利用聚类分析算法,对故障管理知识库中的故障诊断知识、故障处理策略知识和故障预测知识进行数据抽取、清理、转换、和移植,对未来故障产生的趋势、针对特定故障要采取的处理策略进行智能分析,并将分析后得出的新知识更新至故障管理知识库中。故障知识学习分析模块是实现该方法的核心。该模块可采用如系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等经典聚类算法进行实现。状态监视模块,负责对系统状态进行检測。可通过如下两种方式获取系统状态信息通过带外硬件故障管理接ロ(如I2C/SMBUS、JTAG, GPIO等)获取计算机系统中芯片级、板卡级状态/故障信息;通过带内操作系统故障管理接ロ(如调用操作系统API实现操作系 统状态/故障监视代理)获取操作系统级状态/故障信息。决策计划模块,根据从状态监视模块中收集到的状态信息,查询故障管理知识库,决策针对当前系统是否存在故障、该种故障应该进行何种处理策略进行处理、是否需要进行预警,并调用故障处理模块执行相应的故障处理动作。故障处理模块,负责根据决策计划模块的决策结果,执行相应的故障处理动作,可通过如下两种方式进行实现通过带外硬件故障管理接ロ(如I2C/SMBUS、JTAG, GPIO等)实现硬件级别的故障处理机制,如风扇调速、部件隔离等;通过带内操作系统故障管理接ロ(如调用操作系统API实现操作系统状态/故障处理代理)实现操作系统级的故障处理机制,如进程迁移、页表重映射等。人机接ロ,通过该接ロ可由管理员采用人工的方式对故障管理知识库中的内容进行更新,或执行特定故障处理动作。可采用多种方式(如Web UI、⑶I、CLI等)进行实现。
权利要求
1.一种计算机系统故障诊断决策及处理方法,其特征在干包括故障管理系统,该系统能够根据被管理计算机的配置、运行状态及故障症状,智能地利用故障管理知识库中的知识进行自主配置和优化,以此为基础对故障进行诊断并采用适当的策略进行处理,故障管理系统包括故障管理知识库(1),状态监视模块(2),故障知识学习分析模块(3),决策计划模块(4),故障处理模块(5),人机接ロ(6),其中 故障管理知识库(1),包括故障诊断知识、故障处理策略知识和故障预测知识;故障管理知识库是实现该方法的基础; 状态监视模块(2),负责对系统状态进行检测; 故障知识学习分析模块(3),利用故障管理知识库中的现有知识和从状态监视模块中收集到的状态信息加以综合分析,并针对分析结果对故障管理知识库中的知识进行重新配置和更新;故障知识学习分析模块是实现该方法的核心; 决策计划模块(4),根据从状态监视模块中收集到的状态信息,查询故障管理知识库,决策针对当前系统是否存在故障、该种故障应该进行何种处理策略进行处理、是否需要进行预警; 故障处理模块(5),负责根据决策计划模块的决策结果进行实际的故障处理动作,包括风扇调速、部件隔离; 人机接ロ(6),通过该接ロ由管理员采用人工的方式对故障管理知识库中的内容进行更新,或执行特定故障处理动作,人机接ロ提供管理员与故障管理系统进行交互的接ロ,作为自主计算机制的有益补充。
2.根据权利要求I所述的方法,其特征在于状态监视模块采用带外/带内综合监控方式,获取计算机系统中芯片级、板卡级、系统级的状态/故障信息。
3.根据权利要求I所述的方法,其特征在于,故障知识学习分析模块,基于故障管理知识库中的大量历史状态/故障知识,利用聚类分析算法对未来故障产生的趋势、针对特定故障要采取的处理策略进行智能分析,并将分析后得出的新知识更新至故障管理知识库中。
4.根据权利要求I所述的方法,其特征在于,故障处理模块,结合硬件/操作系统级的容错机制,对已发生的或潜在的故障进行处理。
全文摘要
本发明提供一种计算机系统故障诊断决策及处理方法,包括故障管理系统,该系统能够根据被管理计算机的配置、运行状态及故障症状,智能地利用故障管理知识库中的知识进行自主配置和优化,以此为基础对故障进行诊断并采用适当的策略进行处理,故障管理系统包括故障管理知识库,状态监视模块,故障知识学习分析模块,决策计划模块,故障处理模块,人机接口,可以使故障管理系统针对被管理计算机由于发生故障或其他导致系统资源发生动态变化的条件下,能够根据监测到的系统状态/故障信息,智能地对故障诊断知识、故障处理策略知识和故障预测知识进行动态配置及调整,达到自主管理、自主调整的要求。
文档编号G06F11/07GK102662788SQ20121012900
公开日2012年9月12日 申请日期2012年4月28日 优先权日2012年4月28日
发明者乔英良 申请人:浪潮电子信息产业股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1