一种智能运维管理系统的制作方法

文档序号:14022611阅读:886来源:国知局

本发明涉及系统运维管理技术领域,尤其是一种智能运维管理系统。



背景技术:

目前it运维系统规模不断增长,系统在对服务器、虚拟机、交换机等网络设备性能及其网络连通性进行监测过程中,运维人员每天会收到越来越多的监控报警,面对海量的运维指标当系统出现故障时,运维人员很难从海量监控指标中迅速找到故障根因,报警风暴极大地降低了定位问题的速度,故障恢复速度基本依赖于运维人员的经验以及操作响应速度。因此建立一个故障自动诊断与快速恢复系统协同处理的智能运维平台,针对多场景构建机器学习模型与大数据专家系统,实时对运维平台的异常进行在线诊断与定位,当系统出现故障时通过执行相应策略实现快速修复,恢复正常运行是人们所需要的。



技术实现要素:

为了克服上述问题,本发明提供一种智能运维管理系统,实时对系统的异常进行在线诊断与定位,当系统出现故障时通过执行相应策略实现快速修复,并且能自动对修复结果不理想及修复时间过长的故障提醒系统管理员进行优化。

本发明解决其技术问题所采用的技术方案是:

一种智能运维管理系统,包括系统监测模块、故障信息识别模块、故障修复模块和故障修复评估模块;

所述系统监测模块用于监测系统的运行状态,当监测到异常时,系统监测模块将当前的状态参数及监测到的异常情况传递给故障信息收集模块;

所述故障信息识别模块用于将收集模块传递收集到的异常情况进行识别确认是否为虚警,将判断为故障的信息传递给故障修复模块进行修复;

所述故障修复模块用于在接收到故障信息识别模块的报警信息后根据故障特征对故障进行修复;

所述故障修复评估模块用于对故障修复模块的故障修复结果进行评估是否合格;所述故障修复评估模块还包括时间检测单元,所述时间检测单元用于检测故障修复花费时间并判断所花费的时间是否大于阈值。

进一步的,所述故障修复评估模块还用于对故障修复后,根据系统的运行状态对每次修复结果进行打分,定期将打分低的自修复执行过程提交给系统管理员进行分析,并提示管理员优化存诸在脚本调用模块中对应的脚本。

进一步的,所述时间检测单元工作流程为:当故障修复模块在接收到故障信息识别模块的报警信息后,所述时间检测单元检测并记录当前系统时间,当故障修复模块将故障修复后,所述时间时间检测单元再次检测并记录当前系统时间,并计算两次所检测到的时间间隔,并判断所述时间间隔是否大于阈值,当所述时间间隔大于阈值时,将该故障自修复执行过程提交给系统管理员进行分析,并提示管理员优化存诸在脚本调用模块中对应的脚本。

进一步的,所述阈值为修复该故障所需平均时间的2-3倍。

本发明的有益效果是,本发明中的监测模块能对系统进行全面检测,当检测系统出现异常时,故障信息识别模块对异常信息进行识别判断是否为故障,对于判断为故障的信息,故障修复模块对故障进行有效修复,故障修复评估模块对故障修复模块的修复结果进行评估能针对修复结果不理想的故障提交给系统管理员进行分析,本系统还能对于修复过程中出现所需时间过长的结果提醒统管理员进行分析并进行相应的优化系统。本系统不仅能对异常进行在线诊断与定位,当系统出现故障时通过执行相应策略实现快速修复,并且能自动对修复结果不理想及修复时间过长的故障提醒系统管理员进行优化,不断提升故障修复效果及效率。

附图说明

图1是本发明一较佳实施方式的智能运维管理系统结构框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,当组件被称为“固定于”另一个组件,它可以直接在另一个组件上或者也可以存在居中的组件。当一个组件被认为是“连接”另一个组件,它可以是直接连接到另一个组件或者可能同时存在居中组件。当一个组件被认为是“设置于”另一个组件,它可以是直接设置在另一个组件上或者可能同时存在居中组件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

请同时参见图1本发明一较佳实施方式提供一种智能运维管理系统,包括包括系统监测模块10、故障信息识别模块20、故障修复模块30和故障修复评估模块40。系统监测模块10用于监测系统的运行状态,当监测到异常时,系统监测模块10将当前的状态参数及监测到的异常情况传递给故障信息收集模块20;故障信息识别模块20用于将收集模块传递收集到的异常情况进行识别确认是否为虚警,将判断为故障的信息传递给故障修复模块30进行修复;故障修复模30块用于在接收到故障信息识别模块的报警信息后根据故障特征对故障进行修复;故障修复评估模块40用于对故障修复模块的故障修复结果进行评估是否合格;故障修复评估模块40还包括时间检测单元410,时间检测单元410用于检测故障修复花费时间并判断所花费的时间是否大于阈值。

进一步的,故障修复评估模块40还用于对故障修复后,根据系统的运行状态对每次修复结果进行打分,定期将打分低的自修复执行过程提交给系统管理员进行分析,并提示管理员优化存诸在脚本调用模块中对应的脚本。

进一步的,时间检测单元410工作流程为:当故障修复模块30在接收到故障信息识别模20块的报警信息后,时间检测单元410检测并记录当前系统时间,当故障修复模块30将故障修复后,时间时间检测单元410再次检测并记录当前系统时间,并计算两次所检测到的时间间隔,并判断所述时间间隔是否大于阈值,当所述时间间隔大于阈值时,将该故障自修复执行过程提交给系统管理员进行分析,并提示管理员优化存诸在脚本调用模块中对应的脚本。所述阈值为修复该故障所需平均时间的2-3倍。



技术特征:

技术总结
本发明涉及系统运维管理技术领域,尤其是一种智能运维管理系统。包括系统监测模块、故障信息识别模块、故障修复模块和故障修复评估模块;系统监测模块用于监测系统的运行状态,当监测到异常时,系统监测模块将当前的状态参数及监测到的异常情况传递给故障信息收集模块;故障信息识别模块用于将收集模块传递收集到的异常情况进行识别确认是否为虚警,将判断为故障的信息传递给故障修复模块进行修复;故障修复模块用于在接收到故障信息识别模块的报警信息后根据故障特征对故障进行修复;故障修复评估模块用于对故障修复模块的故障修复结果进行评估。本发明能对故障快速修复,并能自动对修复结果不理想及修复时间过长的故障提醒管理员进行优化。

技术研发人员:姚小艳
受保护的技术使用者:广西宜州市联森网络科技有限公司
技术研发日:2017.10.31
技术公布日:2018.03.27
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1