一种信息系统故障自动恢复的方法及系统的制作方法_3

文档序号：9787308阅读：来源：国知局

知识库会更加丰富，完整；因此，在其还没有很完整的情况下，需要对告警信息进行判断，看其是否在知识库所管的范围内，若是，则选择与告警信息对应的BP神经网络状态分析程序对告警信息进行状态评估。若不在，则可以发出报警信息，或者通知对应的管理人员进入人工处理流程。
[0100] 并可以在此基础上进行总结，逐步完善知识库，随着信息系统故障自动恢复系统使用时间的增加，知识库也会进入良性循环，最终使得信息系统故障自动恢复更加全面和可靠。随着技术发展，可以对知识库进行更新和修改，保证知识库的准确性。
[0101] S130、根据状态评估结果，调取相应的匹配脚本，并根据所述匹配脚本执行恢复命令。
[0102] 其中，针对每种告警情况，会设置相应的匹配脚本对其进行自动恢复，匹配脚本中存储有常用的处理问题的步骤指令。调用执行匹配脚本中的指令，可以自动完成对信息系统的故障自动恢复。匹配脚本可以包括中间件启动脚本、停止脚本、重启脚本、数据库表空间扩容脚本、数据库节点重启脚本、F5负载均衡设备隔离脚本等。可以根据系统的状态选择执行相应的脚本或作业，及时处置系统运行中发现的问题或故障，实现常见问题快速处理，快速恢复业务功能。
[0103] 基于上述技术方案，本发明实施例提供的信息系统故障自动恢复的方法，该方法采用BP神经网络进行系统软硬件状态评估和系统容量预测，建立自动处置匹配脚本集，结合问题处理知识库进行系统状态与脚本匹配，实现了信息系统运行典型问题的自动化恢复；即减少人工干预，提高信息系统整体的可靠性和问题故障自愈能力，提高运维工作的自动化和智能化水平。
[0104] 基于上述技术方案，故障与问题的自动处理是一个典型的监测-处理闭环工作机制，首先监测信息系统运行指标，进行状态评估，尝试通过知识库匹配的规则启动相关的恢复操作命令，然后进行业务或告警恢复验证。处理机制如图3所示。将发现的异常通知到自动处理过程，自动处理过程对信息系统状态进行评估和判断，并采取一些远程操作，进行问题或故障的处理，以及业务恢复。如果出现的问题或故障不属于知识库范围、超过自动处理次数、处置失败、业务或告警未恢复等异常情况则通知预定管理人员。故障和问题自动处理的示意图如图4所示。具体处理过程可以如下：
[0105] 基于上述技术方案，优选的，所述根据状态评估结果，调取相应的匹配脚本，并根据所述匹配脚本执行恢复命令，可以包括：
[0106] S3、根据状态评估结果，调取相应的匹配脚本；
[0107] S31、判断所述告警信息的连续处理次数是否超过对应的阈值;若超过，则可以通知相应的管理人员，转入人工处理流程。
[0108] S32、若未超过，则根据所述匹配脚本执行恢复命令，并验证所述告警信息是否恢复；
[0109] S33、若恢复，则结束；
[0110] S34、若未恢复，则根据所述告警信息，选择对应的BP神经网络状态分析程序对所述告警信息进行状态评估，并进入S3。
[0111] 其中，这里阈值的设定可以根据告警信息的不同，而设置不同的数值。也可以统一设定一个对应的阈值，例如3。
[0112] 基于上述技术方案，参考图4也可以看到该方法还可以包括：
[0113] 记录所述信息系统的故障自动恢复过程日志。
[0114] 其中，技术人员可以通过对日志的查看、统计；能够对信息系统进行维护，也可以对信息系统的自动恢复的方法进行更新完善。可选的，该方法还可以包括：
[0115]定期根据信息系统故障自动恢复系统的日志，对BP神经网络状态分析程序及匹配脚本进行维护。
[0116] 通过对BP神经网络状态分析程序及匹配脚本的维护可以提高系统的可靠性和准确性。
[0117] 基于上述技术方案，本发明实施例提供的信息系统故障自动恢复的方法，该方法采用BP神经网络进行系统软硬件状态评估和系统容量预测，建立自动处置匹配脚本集，结合问题处理知识库进行系统状态与脚本匹配，实现了信息系统运行典型问题的自动化恢复；即减少人工干预，提高信息系统整体的可靠性和问题故障自愈能力，提高运维工作的自动化和智能化水平。还通过对BP神经网络状态分析程序及匹配脚本的维护可以提高系统的可靠性和准确性。
[0118] 本发明实施例提供了信息系统故障自动恢复的方法，能够自动恢复信息系统故障和问题，减少人工干预。
[0119] 下面对本发明实施例提供的信息系统故障自动恢复的系统进行介绍，下文描述的信息系统故障自动恢复的系统与上文描述的信息系统故障自动恢复的方法可相互对应参照。
[0120] 请参考图5,图5为本发明实施例所提供的系统集成的认证系统的结构框图；该系统可以包括：
[0121] 获取模块100,用于获取信息系统的监控状态指标的数值；
[0122] 告警信息模块200,用于将各个所述监控状态指标的数值与对应的预定状态指标范围进行比较，并根据比较结果确定告警信息；
[0123] 状态评估模块300,用于根据所述告警信息，选择对应的BP神经网络状态分析程序对所述告警信息进行状态评估；
[0124] 恢复模块400,用于根据状态评估结果，调取相应的匹配脚本，并根据所述匹配脚本执行恢复命令。
[0125] 可选的，所述状态评估模块300包括：
[0126] 范围判断单元，用于根据所述告警信息，判断所述告警信息是否属于知识库范围；
[0127] 状态评估单元，用于若属于，则选择与所述告警信息对应的BP神经网络状态分析程序对所述告警信息进行状态评估。
[0128] 可选的，所述恢复模块400包括：
[0129] 调取单元，用于根据状态评估结果，调取相应的匹配脚本；
[0130] 第一判断单元，用于判断所述告警信息的连续处理次数是否超过对应的阈值；
[0131 ]执行单元，用于若未超过，则根据所述匹配脚本执行恢复命令；
[0132] 验证单元，用于验证所述告警信息是否恢复；
[0133] 若未恢复，则触发所述状态评估模块根据所述告警信息，选择对应的BP神经网络状态分析程序对所述告警信息进行状态评估。
[0134] 基于上述技术方案，该系统还可以包括：
[0135] 日志模块，用于记录所述信息系统的故障自动恢复过程日志。
[0136] 基于上述技术方案，该系统还可以包括：
[0137] 维护模块，用于定期根据信息系统故障自动恢复系统的日志，对BP神经网络状态分析程序及匹配脚本进行维护。
[0138] 根据上述各个技术方案，该系统为支撑信息系统故障或问题的自动恢复处理技术实现，可以集成开发一套具有信息系统状态指标监测、状态分析与预测、典型故障或问题知识库、作业与脚本管理、流程引擎等功能模块的信息系统故障自动处理系统，保证数据中心稳定运行。该系统可以包括交互层、业务层和展现层。交互层主要是与服务器、负载均衡、数据库、应用软件等打交道，获取运行状态指标数据、执行处理命令以及与外部系统的数据集成。业务层主要实现知识库管理、状态分析、作业和匹配脚本的管理等。展现层是日常操作使用、系统配置、统计分析，以及系统运行情况和处理情况的界面。
[0139] 下面通过具体例子对上述系统的效果进行验证：
[0140] 搭建了测试环境，被测信息系统由1台F5设备、4台Linux服务器组成，其中2台应用服务器安装Weblogic中间件、2台数据库服务器安装Oralce I

完整全部详细技术资料下载

当前第3页1 2 3 4