一种基于专家系统方法的计算机故障管理系统的制作方法

文档序号:6599911阅读:209来源:国知局

专利名称::一种基于专家系统方法的计算机故障管理系统的制作方法
技术领域
:本发明涉及一种计算机故障管理系统,尤其是涉及一种基于专家系统方法的计算机故障管理系统。
背景技术
:随着现代社会的不断发展,计算机系统已经深入而广泛地应用于医疗卫生、教育、工业生产、交通运输、金融、科学研究、军事等各领域之中。支撑关键应用的计算机系统一旦出现故障,往往会造成巨大的经济损失,甚至可能影响社会的安定与经济的运行。在此背景下,计算机系统的可靠性越来越多地得到人们的关注和重视。然而与此同时,计算机系统的结构日益复杂,规模不断增大,使得计算机系统的可靠性面临愈发严峻的困难和挑战。计算机系统的可靠性由硬件可靠性和软件可靠性共同决定。将系统在观测期中正常运行的时间总和记作PT,将观测期中各次故障发生到相应故障被检测出的时间总和记作DT,将观测期中用于等待和准备恢复软件故障的时间总和记作PreST,将观测期中用于恢复软件故障的时间总和记作ST,将观测期中用于等待和准备恢复硬件故障的时间总和记作PreHT,将观测期中恢复硬件故障的时间总和记作HT,为说明简便计,不妨假设PreST、ST、PreHT、HT均无重叠,则有系统可靠性R=PT/(DT+PreST+ST+PreHT+HT)。由此可知,提高计算机系统可靠性的根本方法就是减少系统中软、硬件故障的发生,以及在故障发生后及早发现并尽快恢复。现有的计算机故障管理方法较好地应用于部件级系统中,但往往缺乏面向整体系统的结构性设计,也未见将故障管理作为完整子系统纳入计算机系统的总体设计中,因而多无法对局部的计算机故障施以全局优选的处理;其次,现有的计算机故障管理方法一般过分依赖人工参与,这通常会显著地增加等待和准备处理故障的时间,并且由于个体技术水平和认知能力的差异,也增大了处理不当甚至是错误处理的可能;再者,现有的计算机故障管理方法大多仅关注特定硬件或特定软件的故障,通用性和可扩展性较差。专家系统是具备专门知识和经验的计算机智能程序系统,采用人工智能中的知识表示和知识推理技术来实现通常只能由领域专家解决的复杂问题。近年来,专家系统已经应用到众多领域,数量众多的专家系统在功能上已达到,甚至超过同领域中人类专家的水平,并在实际应用中产生了巨大的经济效益和社会效益。
发明内容本发明的目的是提供一种基于专家系统方法的计算机故障管理系统,以弥补现有主流计算机故障管理方法的不足本发明的目的是按以下方式实现的,计算机故障管理系统由数据采集器、故障事件生成模块、故障诊断引擎、知识库、知识获取模块、故障隔离模块、故障恢复模块、故障预警模块、日志服务模块、故障管理注册模块以及人机交互界面组成。系统的故障处理工作流程如下若干个数据采集器监视目标系统的硬件、操作系统及应用程序的运行并采集其运行状态关键信息,发送至故障事件生成模块;故障事件生成模块格式化数据采集器提交的原始数据,输出故障诊断引擎能够识别的故障事件;故障诊断引擎根据故障事件生成模块输出的故障事件结合知识库中的故障诊断专家知识,采用数据驱动控制策略推理匹配的故障处理规则,继而触发故障隔离模块、故障恢复模块、故障预警模块实施后续的故障处理;故障隔离模块根据故障诊断模块输出的故障处理策略逻辑地隔离指定故障组件,以限制故障扩散范围并作为后续故障处理的前置条件;故障恢复模块根据故障诊断模块输出的故障处理策略,恢复指定故障组件的功能或运行状态;故障预警模块根据故障诊断模块输出的故障处理策略,采用阈值算法对目标系统可能产生的故障进行预测并发送预警信息。知识库包含以规则形式表达的故障诊断知识,诊断规则由规则描述、匹配条件集和方法集构成;知识获取模块采用指导注入式的学习策略,通过人机交互界面向领域专家提供智能编辑器,以实现知识库的扩充。日志服务模块向故障事件生成模块、故障诊断引擎、故障隔离模块、故障恢复模块以及故障预警模块提供基于网络的日志记录接口。故障事件生成模块记录生成格式化故障事件的相关信息;故障诊断引擎记录推理故障事件处理规则的相关信息;故障隔离模块记录隔离指定故障组件的相关信息;故障恢复模块记录恢复指定故障组件的相关信息;故障预警模块记录预测故障的相关信息。日志信息能够清楚地反映出故障管理系统自身的运行情况,更准确而完整地记录着故障管理系统所管理的目标系统中产生故障的详细信息,是相关人员分析与改进目标计算机系统可靠性的重要依据。故障管理注册模块包含注册与注销数据采集器、注册与注销故障事件类型、注册与注销故障隔离方法、注册与注销故障恢复方法以及注册与注销故障预警方法的功能,这使得动态地增加和删除数据采集器、故障事件类型、故障隔离方法、故障恢复方法以及故障预警方法成为可能,因而极大地增强了系统的可扩展性。系统管理者通过该系统中人机交互界面对数据采集器、故障事件生成模块、故障诊断引擎、知识库、故障隔离模块、故障恢复模块、故障预警模块、日志服务模块进行监视和管理;领域专家通过上述人机交互界面访问知识获取模块提供的智能编辑器。人机交互界面是所述系统的重要组成。本发明所述的一种基于专家系统方法的计算机故障管理系统与现有的故障管理方法相比,具有以下优点1.本系统将故障管理纳入计算机系统的总体设计之中,具备良好的结构化设计,因而能够综合考量各种故障处理机制,以及充分利用系统资源,这使得本系统能够以更合理的策略实施故障处理。2.本系统中故障处理的全过程均由程序驱动和实现,尤其是故障的诊断和相应处理策略的选取由专家系统自动推理完成,因而能够显著地缩短故障处理时间,并且避免由于系统管理者个体技术水平和认知能力的差异而造成的不当处理和错误处理。3.本系统中知识库可以通过知识获取动态扩充;数据采集器、故障事件类型、故障隔离方法、故障恢复方法以及故障预警方法均可以通过故障管理注册模块动态地增加和删除。因而系统具有良好的通用性和可扩展性。图1为系统结构示意图;图2为故障处理流程示意图;图3为知识库管理流程示意图;图4为日志服务模块结构示意图;图5故障管理注册模块结构示意图;图6人机交互界面结构示意图。具体实施例方式下面结合附图对本发明所述的一种基于专家系统方法的计算机故障管理系统进行更详细的说明。参照附图1,本发明所述系统由数据采集器、故障事件生成模块、故障诊断引擎、知识库、知识获取模块、故障隔离模块、故障恢复模块、故障预警模块、日志服务模块、故障管理注册模块以及人机交互界面组成。参照附图2,本发明所述系统的故障处理的主要工作流程如下若干个数据采集器监视目标系统的硬件、操作系统及应用程序的运行并采集其运行状态关键信息,发送至故障事件生成模块;故障事件生成模块格式化数据采集器提交的原始数据,输出故障诊断引擎能够识别的故障事件;故障诊断引擎根据故障事件生成模块输出的故障事件结合知识库中的故障诊断专家知识,采用数据驱动控制策略推理匹配的故障处理规则,继而触发故障隔离模块、故障恢复模块、故障预警模块实施后续的故障处理;故障隔离模块根据故障诊断模块输出的故障处理策略逻辑地隔离指定故障组件,以限制故障扩散范围并作为后续故障处理的前置条件;故障恢复模块根据故障诊断模块输出的故障处理策略,恢复指定故障组件的功能或运行状态;故障预警模块根据故障诊断模块输出的故障处理策略,采用阈值算法对目标系统可能产生的故障进行预测并发送预警信息。2.数据采集器本发明所述系统中可以存在多个独立运行的数据采集器,分别监视目标系统的各主要硬件、操作系统及关键应用程序的运行并采集其运行状态信息,进而通过网络发送至故障事件生成模块。在本系统的典型实现中,数据采集器主要通过以下途径获取信息>MCA(MachineCheckArchitecture)>S.Μ.Α.R.Τ.(Self-Monitoring,Analysis,andReportingTechnology)>MCH(MemoryControllerHub)>PCI-ExpressAER(AdvancedErrorReporting)>ACPI(AdvancedConfigurationandPowerManagementInterface)>SMBus(SystemManagementBus)>IPMI(IntelligentPlatformManagementInterface)>AMT(ActiveManagementTechnology)>各类传感器>操作系统内核探针>SysFS文件系统>应用程序日志>PTrace技术>嵌入式子系统>网络设备3.故障事件生成模块本发明所述系统中,故障事件生成模块格式化数据采集器提交的原始数据,输出故障诊断引擎能够识别的故障事件。在本系统的典型实现中,故障事件的格式如下[EventSerialNum,DataCollectorID,EventLocation,EventType,Eventlnfo]其中各字段的含义如下所示。<table>tableseeoriginaldocumentpage8</column></row><table>4.故障诊断引擎本发明所述系统中,故障诊断引擎根据故障事件生成模块输出的故障事件结合知识库中的故障诊断专家知识,采用数据驱动控制策略推理得出匹配的故障诊断规则,继而触发故障隔离模块、故障恢复模块、故障预警模块实施后续的故障处理。在本系统的典型实现中,故障诊断引擎采用数据驱动控制策略。其主要工作流程如下e)遍历故障诊断后缓冲区,以故障事件特征匹配故障诊断规则。若匹配成功则转至步骤e;否则执行步骤bf)遍历知识库,以故障事件特征匹配故障诊断规则的条件集g)生成冲突集和求解冲突h)确认故障诊断规则,刷新故障诊断后缓冲区i)向关联模块输出规则的方法集,以驱动后续故障处理5.知识库本发明所述系统中,知识库包含以规则形式表达的故障诊断知识。在本系统的典型实现中,故障诊断规则的格式如下[RuleDesc,ConditiohSet,MethodSet]其中各字段的含义如下所示。<table>tableseeoriginaldocumentpage9</column></row><table>6.知识获取模块本发明所述系统中,知识获取模块采用指导注入式的学习策略,通过人机交互界面向领域专家提供智能编辑器,以实现知识库的扩充。在本系统的典型实现中,知识获取模块的主要工作流程如下e)前置步骤,领域专家通过智能编辑器创建新的故障诊断规则f)规则检验。若通过检验执行步骤c;否则转至步骤ag)冲突分析。若未见冲突执行步骤d;否则转至步骤ah)向知识库添加新规则7.故障隔离模块本发明所述系统中,故障隔离模块根据故障诊断模块输出的故障处理策略逻辑地隔离目标系统故障组件,以限制故障扩散范围并作为后续故障处理的前置条件。在本系统的典型实现中,故障隔离模块主要以下列技术和措施为基础对指定故障组件实施隔离>CPU热移除>内存热移除>Bad/PoisonedDataContainment>PCI-Express热移除>Socket热移除>IOH热移除>·KVM(Kernel-basedVirtualMachine)>应用容器>停止故障组件运行8.故障恢复模块本发明所述系统中,故障恢复模块根据故障诊断模块输出的故障处理策略,恢复目标系统故障组件的功能或运行状态。在本系统的典型实现中,故障恢复模块主要以下列技术和措施为基础对指定的故障组件实施恢复>CPU锁步(Lockst印)>CPU热添加>ParityProtection>Soft-ErrorHardenedLatches>缓存保护技术(CacheSafeTechnology)>可恢复的MCA>ReplayonCRCError>LaneFailover>ECC(ErrorCheckingandCorrecting)>DDDC(DoubleDeviceDataCorrection)>PatrolScrubbing>DemandScrubbing>DIMMSparing>内存热添加>MemorySparing>内存镜像(MemoryMirroring)>内存迁移(MemoryMigration)>PCI-Express热添力口>QPILinkRecovery>QPILinkSelf-healing>QPIPoisonForwarding>Socket热添力口>IOH热添加>操作系统核心多副本>进程迁移>进程检查点技术>进程对技术>内存迁移(由操作系统实现的)>多路径1/0>虚拟机动态迁移>应用容器动态迁移>数据回滚>高可用技术9.故障预警模块该系统中故障预警模块根据故障诊断模块输出的故障处理策略,采用阈值算法对目标系统可能产生的故障进行预测并发送预警信息。在本系统的典型实现中,故障预警模块的主要工作流程如下e)从故障事件缓冲区取回未决故障事件f)在故障预警对象链中查找与当前故障事件类型匹配的项g)执行匹配项的计数方法h)执行匹配项的阈值检验方法。若计数达到或大于阈值,则执行步骤e;否则转至步骤ai)执行匹配项的报警方法10.日志服务模块参见附图4,在本发明所述系统中,日志服务模块向故障事件生成模块、故障诊断引擎、故障隔离模块、故障恢复模块以及故障预警模块提供基于网络的日志记录接口。故障事件生成模块记录生成格式化故障事件的相关信息;故障诊断引擎记录推理故障事件处理规则的相关信息;故障隔离模块记录隔离指定故障组件的相关信息;故障恢复模块记录恢复指定故障组件的相关信息;故障预警模块记录预测故障的相关信息。这些日志信息能够清楚地反映出故障管理系统自身的运行情况,更准确而完整地记录着故障管理系统所管理的目标系统中产生故障的详细信息,是相关人员分析与改进目标计算机系统可靠性的重要依据。在本系统的典型实现中,日志条目的格式如下[Time,Subject,Action,Conclusion,Additional]其中各字段的含义如下所示<table>tableseeoriginaldocumentpage11</column></row><table>11.故障管理注册模块参见附图5,本发明所述系统的故障管理注册模块(501)包含注册与注销数据采集器(502)、注册与注销故障事件类型(503)、注册与注销故障隔离方法(504)、注册与注销故障恢复方法(505)以及注册与注销故障预警方法(506)的功能,这使得动态地增加和删除数据采集器、故障事件类型、故障隔离方法、故障恢复方法以及故障预警方法成为可能,因而极大地增强了系统的可扩展性。在本系统的典型实现中,故障管理注册模块的主要工作流程如下a)创建新的故障管理设施描述符(可以是数据采集器描述符,故障事件类型描述符,或故障隔离/恢复/预警方法描述符)b)根据输入参数设置上述描述符c)将该描述符加入相应类型的描述符链表中待用下面以注册数据采集器为例,进一步说明故障管理注册模块的实施方式。数据采集器描述结构如下所示<table>tableseeoriginaldocumentpage12</column></row><table>因此故障管理注册模块增加新的数据采集器的主要工作流程即a)创建新的数据采集器描述符b)根据输入参数设置上述描述符中id、owner、authority、running_mode、objects、entry_point>talk_manner以及format各项的值c)将该描述符加入数据采集器描述符全局链表中12.人机交互界面参见附图6,在本发明所述系统中,系统管理者通过该系统中人机交互界面对数据采集器、故障事件生成模块、故障诊断引擎、知识库、故障隔离模块、故障恢复模块、故障预警模块、日志服务模块进行监视和管理;领域专家通过上述人机交互界面访问知识获取模块提供的智能编辑器。人机交互界面是所述系统的重要组成。在本系统的典型实现中,人机交互界面支持以下访问方式>CLI(CommandLineInterface)方式>GUI(GraphicalUserInterface)方式>基于浏览器的网络访问方式。权利要求一种基于专家系统方法的计算机故障管理系统,其特征在于,该系统包括数据采集器1)、故障事件生成模块2)、故障诊断引擎3)、知识库4)、知识获取模块5)、故障隔离模块6)、故障恢复模块7)、故障预警模块8)、日志服务模块9)、故障管理注册模块10)以及人机交互界面11),系统管理者通过该系统中人机交互界面11)对数据采集器1)、故障事件生成模块2)、故障诊断引擎3)、知识库4)、故障隔离模块5)、故障恢复模块6)、故障预警模块7)、日志服务模块8)进行监视和管理,并通过人机交互界面11访问知识获取模块5)提供的智能编辑器,其中1)系统中设置若干个独立运行的数据采集器,分别监视目标系统的各主要硬件、操作系统及关键应用程序的运行并采集其运行状态信息,进而通过网络发送至故障事件生成模块;数据采集器通过以下途径获取信息MCA;S.M.A.R.T.;MCH;PCI-ExpressAER;ACPI;SMBus;IPMI;AMT;各类传感器;操作系统内核探针;SysFS文件系统;应用程序日志;PTrace技术;嵌入式子系统;网络设备;2)故障事件生成模块,格式化数据采集器提交的原始数据,输出故障诊断引擎能够识别的故障事件;故障事件的格式如下[EventSerialNum,DataCollectorID,EventLocation,EventType,EventInfo]3)故障诊断引擎,根据故障事件生成模块输出的故障事件结合知识库中的故障诊断专家知识,采用数据驱动控制策略推理匹配的故障处理规则,继而触发故障隔离模块、故障恢复模块、故障预警模块实施后续的故障处理;故障诊断引擎采用数据驱动控制策略工作流程如下a)遍历故障诊断后缓冲区,以故障事件特征匹配故障诊断规则,若匹配成功则转至步骤e,否则执行步骤b;b)遍历知识库,以故障事件特征匹配故障诊断规则的条件集;c)生成冲突集和求解冲突;d)确认故障诊断规则,刷新故障诊断后缓冲区,向关联模块输出规则的方法集,以驱动后续故障处理;4)知识库包含以规则形式表达的故障诊断知识,诊断规则由规则描述、匹配条件集和方法集构成,故障诊断规则的格式如下[RuleDesc,ConditionSet,MethodSet];5)知识获取模块,采用指导注入式的学习策略,通过人机交互界面向领域专家提供智能编辑器,以实现知识库的扩充,知识获取模块的主要工作流程如下a)前置步骤,领域专家通过智能编辑器创建新的故障诊断规则;b)规则检验,若通过检验执行步骤c;否则转至步骤a;c)冲突分析,若未见冲突执行步骤d;否则转至步骤a;d)向知识库添加新规则;6)故障隔离模块,根据故障诊断模块输出的故障处理策略逻辑地隔离目标系统故障组件,以限制故障扩散范围并作为后续故障处理的前置条件;故障隔离模块以下列技术和措施为基础对指定故障组件实施隔离CPU热移除内存热移除Bad/PoisonedDataContainmentPCI-Express热移除Socket热移除IOH热移除KVM应用容器;停止故障组件运行;7)故障恢复模块,根据故障诊断模块输出的故障处理策略,恢复目标系统故障组件的功能或运行状态;故障恢复模块以下列技术和措施为基础对指定的故障组件实施恢复CPU锁步;CPU热添加;ParityProtection;Soft-ErrorHardenedLatches;缓存保护技术;可恢复的MCA;ReplayonCRCError;LaneFailover;ECC;DDDC;PatrolScrubbing;DemandScrubbing;DIMMSparing;内存热添加;MemorySparing;内存镜像;内存迁移;PCI-Express热添加;QPILinkRecovery;QPILinkSelf-healing;QPIPoisonForwarding;Socket热添加;IOH热添加;操作系统核心多副本;进程迁移;进程检查点技术;进程对技术;由操作系统实现的内存迁移;多路径I/O;虚拟机动态迁移;应用容器动态迁移;数据回滚高可用技术;8)故障预警模块,根据故障诊断模块输出的故障处理策略,采用阈值算法对目标系统可能产生的故障进行预测并发送预警信息;故障预警模块的主要工作流程如下a)从故障事件缓冲区取回未决故障事件b)在故障预警对象链中查找与当前故障事件类型匹配的项c)执行匹配项的计数方法d)执行匹配项的阈值检验方法,若计数达到或大于阈值,则执行步骤e;否则转至步骤a执行匹配项的报警方法;9)日志服务模块,向故障事件生成模块、故障诊断引擎、故障隔离模块、故障恢复模块以及故障预警模块提供基于网络的日志记录接口;日志条目的格式如下[Time,Subject,Action,Conclusion,Additional];10)故障管理注册模块,包含以下功能注册与注销数据采集器、注册与注销故障事件类型、注册与注销故障隔离策略、注册与注销故障恢复策略、注册与注销故障预警策略;故障管理注册模块的主要工作流程如下a)创建新的故障管理设施描述符,包括数据采集器描述符,故障事件类型描述符,或故障隔离/恢复/预警方法描述符;b)根据输入参数设置上述描述符;c)将该描述符加入相应类型的描述符链表中待用;11)人机交互界面是所述系统的重要组成,人机交互界面支持以下访问方式CLI方式;GUI方式;基于浏览器的网络访问方式;具体管理步骤如下若干个数据采集器监视目标系统的硬件、操作系统及应用程序的运行并采集其运行状态关键信息,发送至故障事件生成模块;故障事件生成模块格式化数据采集器提交的原始数据,输出故障诊断引擎能够识别的故障事件;故障诊断引擎根据故障事件生成模块输出的故障事件结合知识库中的故障诊断专家知识,采用数据驱动控制策略推理匹配的故障处理规则,继而触发故障隔离模块、故障恢复模块、故障预警模块实施后续的故障处理;故障隔离模块根据故障诊断模块输出的故障处理策略逻辑地隔离指定故障组件,以限制故障扩散范围并作为后续故障处理的前置条件;故障恢复模块根据故障诊断模块输出的故障处理策略,恢复指定故障组件的功能或运行状态;故障预警模块根据故障诊断模块输出的故障处理策略,采用阈值算法对目标系统可能产生的故障进行预测并发送预警信息。全文摘要本发明提供一种基于专家系统方法的计算机故障管理系统,该系统包括数据采集器1)、故障事件生成模块2)、故障诊断引擎3)、知识库4)、知识获取模块5)、故障隔离模块6)、故障恢复模块7)、故障预警模块8)、日志服务模块9)、故障管理注册模块10)以及人机交互界面11),系统管理者通过该系统中人机交互界面11)对数据采集器1)、故障事件生成模块2)、故障诊断引擎3)、知识库4)、故障隔离模块5)、故障恢复模块6)、故障预警模块7)、日志服务模块8)进行监视和管理,并通过人机交互界面11访问知识获取模块5)提供的智能编辑器。文档编号G06F11/34GK101833497SQ201010135370公开日2010年9月15日申请日期2010年3月30日优先权日2010年3月30日发明者吴楠,张东申请人:山东高效能服务器和存储研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1