一种基于大数据的智能告警处理方法与流程

文档序号:13476067阅读:1542来源:国知局

本发明涉及软件和it智能运维技术领域,尤其涉及一种基于大数据的智能告警处理方法。



背景技术:

随着各行业信息化建设的迅速发展,网络覆盖面也在不断扩大、应用系统广泛应用、软硬件数量大幅增加。为了更好、更有效的保障系统上线后的稳定的运行。对于服务器的硬件资源、性能、带宽、端口、进程、服务等都必须有一个可靠和可持续的监测机制,统计分析每天的各种数据,从而能及时反映出服务器哪里存在性能瓶颈、安全隐患等。另外是要有危机意识,就是了解服务器有可能出现哪些严重的问题,出现这些问题后该如何去迅速处理。比如数据库的数据丢失,日志容量过大,被黑客入侵等等。由此,对信息化资源的统筹咨询规划,应从技术和管理两方面入手,将目前信息化应用领域中所涉及的环境、设施、设备、软件、数据库等资源纳入统一的监控平台中来,并通过消除管理对象之间的差别、数据采集手段的差别、管理软件的差别,对各种不同数据来源实现统一管理、统一规范、统一处理、统一展现、统一用户登录、统一权限控制实现一个贯穿整个信息化系统全过程、实现规范化、自动化、智能化的信息化资源大运维的监控管理。

目前,一个完整的运维系统,会将机房里的工单跟机房监控系统紧密结合起来,成功的利用监控平台自动化的生成工单,通过监控平台的报警功能发送工单信息,将工单处理跟机房的设备信息、知识库关联起来,使机房的运维管理更加简单、便捷,由于知识库的加入,也降低了机房监控的培训压力。

目前,国内多数行业已经为部分信息化资源建立了监控和运维管理系统,对硬件、软件出现的问题,通过设置阈值的方式,产生告警。然而,告警产生之后,虽然用户可以直接通过短信,邮件,im等方式看到告警,但是告警产生后,需要完全通过运维人员的经验去对问题做出判断和解决。如果运维人员没有见过某种告警,或者对硬件、软件的知识储备不足,会直接导致问题出现后做出错误的判断,错误的处理,从而导致故障不能得到正确的处理,或者故障处理效率低下。



技术实现要素:

本发明的目的在于提供一种基于大数据的智能告警处理方法,从而解决现有技术中存在的前述问题。

为了实现上述目的,本发明采用的技术方案如下:

一种基于大数据的智能告警处理方法,包括如下步骤:

s1,构建用于存储各种故障处理方法的告警知识库;

s2,根据运维人员查看的当前告警的内容或标题信息,在所述告警知识库中搜索,获取与当前告警相关的所有的故障处理方法;

s3,将所有的故障处理方法返回给运维系统;

s4,运维系统将所有的故障处理方法展现给运维人员;

s5,运维人员从所有的故障处理方法中选择合适的处理方法进行故障处理。

优选地,s1包括如下步骤:

s101,运维人员收到故障告警时,将故障的处理方法记录下来,并存储到本地;

s102,对故障的处理方法按照标题以及具体的内容进行整理,并按照特定的类型进行分类,形成告警知识库。

优选地,s3中,将所有的故障处理方法以列表的形式返回给运维系统。

本发明的有益效果是:本发明实施例提供的一种基于大数据的智能告警处理方法,通过构建告警知识库,将运维人员对各种告警的处理经验存储在告警知识库中,并将该告警知识库进行共享,当产生告警时,运维软件就可以通过使用告警知识库找到与当前告警相关的解决方案,并展示给当前的运维人员,运维人员可以选择其中的一个,或者几个方案进行查看解决方案详细信息,并参照执行,而不必费尽心思回忆以前的解决方案,或者去网上搜索解决方案,或者向同事寻求帮助,从而提高了工作效率和解决的准确度。

附图说明

图1是告警信息及故障处理解决方案的展示页面示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。

本发明实施例提供了一种基于大数据的智能告警处理方法,包括如下步骤:

s1,构建用于存储各种故障处理方法的告警知识库;

s2,根据运维人员查看的当前告警的内容或标题信息,在所述告警知识库中搜索,获取与当前告警相关的所有的故障处理方法;

s3,将所有的故障处理方法返回给运维系统;

s4,运维系统将所有的故障处理方法展现给运维人员;

s5,运维人员从所有的故障处理方法中选择合适的处理方法进行故障处理。

其中,s1可以包括如下步骤:

s101,运维人员收到故障告警时,将故障的处理方法记录下来,并存储到本地;

s102,对故障的处理方法按照标题以及具体的内容进行整理,并按照特定的类型进行分类,形成告警知识库。

s3中,将所有的故障处理方法以列表的形式返回给运维系统。

在一般的运维系统中,都会提供当前告警的告警列表。采用本发明提供的方案,用户点击某条告警的时候(如点击告警所在的行,或者点击告警标题等,方式各种各样),软件会在后台搜索这条告警的详细信息,并展示在前台页面,前台页面会显示这条告警的详细信息,详细信息包括告警的发生时间,发生次数,告警相关的资源等内容。与此同时,在告警知识库中,按照这条告警的标题,或者内容,或者告警定义的关键字,去告警知识库中,查找这种告警的相关知识(解决方案)。搜索到解决方案之后,将这些解决方案,同样以类似的方式展示在前台页面,并附带超链接,当运维人员点击某条解决方案的时候,会弹出这条解决方案的具体内容,供运维人员参考。当运维人员觉得某个方案是解决这个故障的有效途径之时,便可以按照这个方案进行实际的操作。这样,当一个告警产生时,运维人员便可以不必再费尽心思回忆以前的解决方案,或者去网上搜索解决方案,或者向同事寻求帮助,因而提高了工作效率。

其中,告警信息及故障处理解决方案的展示页面如图1所示。

通过采用本发明公开的上述技术方案,得到了如下有益的效果:本发明实施例提供的一种基于大数据的智能告警处理方法,通过构建告警知识库,将运维人员对各种告警的处理经验存储在告警知识库中,并将该告警知识库进行共享,当产生告警时,运维软件就可以通过使用告警知识库找到与当前告警相关的解决方案,并展示给当前的运维人员,运维人员可以选择其中的一个,或者几个方案进行查看解决方案详细信息,并参照执行,而不必费尽心思回忆以前的解决方案,或者去网上搜索解决方案,或者向同事寻求帮助,从而提高了工作效率和解决的准确度。

本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

本领域人员应该理解的是,上述实施例提供的方法步骤的时序可根据实际情况进行适应性调整,也可根据实际情况并发进行。

上述实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机设备可读取的存储介质中,用于执行上述各实施例方法所述的全部或部分步骤。所述计算机设备,例如:个人计算机、服务器、网络设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等;所述的存储介质,例如:ram、rom、磁碟、磁带、光盘、闪存、u盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1