云系统中告警信息的管理方法和装置与流程

文档序号:11778242阅读:161来源:国知局
云系统中告警信息的管理方法和装置与流程
本发明涉及信息处理领域,尤指一种云系统中告警信息的管理方法和装置。
背景技术
:简单网络管理协议(simplenetworkmanagementprotocol,snmp)是一种应用层协议,是传输控制协议/因特网互联协议(transmissioncontrolprotocol/internetprotocol,tcp/ip)协议族的一部分。它使网络设备之间能够方便地交换管理信息。能够让网络管理员管理网络的性能,发现和解决网络问题及进行网络的扩充。snmptrap(snmp陷阱)是snmp的一部分,当被监控段出现特定事件,可能是性能问题,甚至是网络设备接口宕掉等,代理端会给管理站发告警事件。假如在特定事件出现的时刻,不是由代理agent主动通知网络管理系统(networkmanagementsystem,nms),那么nms必须不断地对agent进行轮询。这是非常浪费计算资源的方法,正如人们用中断通知cpu数据的到达,而不是让cpu进行轮询一样。trap通知是更加合理的选择。在云系统中,开启snmptrap服务的机器可以把本机器的一些硬件故障信息发送到指定的机器。故障信息包括:磁盘的插入与拔出,电源的插入与拔出,电源的健康状态,温度传感器的状态等。在开启snmptrap服务的机器上配置发送目的机器的ip及目的端口后,在接收机器上开启该端口的监听服务,就会收到trap信息,trap信息包括:对象标识符(objectidentifier,oid)和发送机器的ip地址。在云海中监控的资源,出现故障后(比如:某个硬盘的插拔,风扇的通电有否),都会发送trap告警信息,该信息包含oid,该资源的ip等信息,云海收到这些信息后,会根据oid判断出发送的告警信息的具体内容和告警资源的资源小类,再结合ip地址,判断是由哪个资源发出的信息。就可以得出具体资源的具体告警信息。当某个资源的某块硬盘被拔出时,会产生一条trap告警,但是,当该硬盘又被插入时,会产生另一条trap告警,而实际上是上一条告警的恢复,这样的告警机制会给网管维护带来不必要的维护成本。因此,如何优化网管维护减低维护成本是亟待解决的问题。技术实现要素:为了解决上述技术问题,本发明提供了一种云系统中告警信息的管理方法和装置,能够优化网管维护减低维护成本。为了达到本发明目的,本发明提供了一种云系统中告警信息的管理方法,包括:当检测到云系统中端口发出告警信息后,记录所述端口的第一告警信息;如果再次检测到该端口发出的第二告警信息后,判断所述第二告警信息的内容是否是对第一告警信息中记录的故障的处理结果的描述信息;如果是,则对所述第二告警信息的输出进行管理。其中,所述方法还具有如下特点:所述对所述第二告警信息的输出进行管理,包括:将所述第二告警信息的内容修改为故障处理结果;输出所述故障处理结果。其中,所述方法还具有如下特点:所述检测到该端口发出的第二告警信息之后,所述方法还包括:判断所述第二告警信息的发出时间是否在所述第一告警信息发出后的预先设置的时间阈值内;如果在所述时间阈值内,再对所述第二告警信息的内容进行判断。其中,所述方法还具有如下特点:所述再次检测到该端口发出的第二告警信息是通过如下方式得到的,包括:获取所述第一告警信息中的对象标识符;在接收到所述第二告警信息后,获取所述第二告警信息中的对象标识符;判断所述第二告警信息中的对象标识符与所述第一告警信息中的对象标识符是否一致;如果一致,则确定再次检测到该端口发出的第二告警信息。其中,所述方法还具有如下特点:所述判断所述第二告警信息的内容是否是对第一告警信息中记录的故障的处理结果的描述信息,包括:获取预先设置的信息比对表,其中所述比对表中包括告警信息的描述信息和所述告警信息对应的故障处理结果的描述信息;根据所述信息比对表,获取所述第一告警信息对应的故障处理结果的描述信息;利用所述故障处理结果的描述信息,判断所述第二告警信息的内容是否是对第一告警信息中记录的故障的处理结果的描述信息。一种云系统中告警信息的管理装置,包括:记录模块,用于当检测到云系统中端口发出告警信息后,记录所述端口的第一告警信息;判断模块,用于如果再次检测到该端口发出的第二告警信息后,判断所述第二告警信息的内容是否是对第一告警信息中记录的故障的处理结果的描述信息;管理模块,用于如果是,则对所述第二告警信息的输出进行管理。其中,所述装置还具有如下特点:所述管理模块包括:处理单元,用于将所述第二告警信息的内容修改为故障处理结果;输出单元,用于输出所述故障处理结果。其中,所述装置还具有如下特点:所述判断模块包括:第一判断单元,用于判断所述第二告警信息的发出时间是否在所述第一告警信息发出后的预先设置的时间阈值内;第二判断单元,用于如果在所述时间阈值内,再对所述第二告警信息的内容进行判断。其中,所述装置还具有如下特点:所述判断模块包括:第一获取单元,用于获取所述第一告警信息中的对象标识符;第二获取单元,用于在接收到所述第二告警信息后,获取所述第二告警信息中的对象标识符;第三判断单元,用于判断所述第二告警信息中的对象标识符与所述第一告警信息中的对象标识符是否一致;确定单元,用于如果一致,则确定再次检测到该端口发出的第二告警信息。其中,所述装置还具有如下特点:所述判断模块包括:第三获取单元,用于获取预先设置的信息比对表,其中所述比对表中包括告警信息的描述信息和所述告警信息对应的故障处理结果的描述信息;第四获取单元,用于根据所述信息比对表,获取所述第一告警信息对应的故障处理结果的描述信息;判断单元,用于利用所述故障处理结果的描述信息,判断所述第二告警信息的内容是否是对第一告警信息中记录的故障的处理结果的描述信息。本发明提供的实施例,当检测到云系统中端口发出告警信息后,记录所述端口的第一告警信息,如果再次检测到该端口发出的第二告警信息后,判断所述第二告警信息的内容是否是对第一告警信息中记录的故障的处理结果的描述信息,如果是,则对所述第二告警信息的输出进行管理,不仅能够把trap告警的故障信息和故障的恢复相关联,让用户及时了解trap告警的故障恢复情况,还能够减少trap告警数,提升告警准确率。本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。附图说明附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。图1为本发明提供的云系统中告警信息的管理方法的流程图;图2为本发明提供的云系统中告警信息的管理方法应用实例的流程图;图3为本发明提供的云系统中告警信息的管理装置的结构图。具体实施方式为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。图1为本发明提供的云系统中告警信息的管理方法的流程图。图1所示方法包括:步骤101、当检测到云系统中端口发出告警信息后,记录所述端口的第一告警信息;步骤102、如果再次检测到该端口发出的第二告警信息后,判断所述第二告警信息的内容是否是对第一告警信息中记录的故障的处理结果的描述信息;步骤103、如果是,则对所述第二告警信息的输出进行管理。举例来说,硬盘被拔出后和硬盘被插入的oid相关联系,当某块硬盘被拔出,发送trap告警后,找出对应的硬盘被插入的oid,当硬盘被插入的oid发送过来的时候,把硬盘把拔出的那条告警的状态设置为恢复状态,而不是新产生一条告警。本发明提供的方法实施例,当检测到云系统中端口发出告警信息后,记录所述端口的第一告警信息,如果再次检测到该端口发出的第二告警信息后,判断所述第二告警信息的内容是否是对第一告警信息中记录的故障的处理结果的描述信息,如果是,则对所述第二告警信息的输出进行管理,不仅能够把trap告警的故障信息和故障的恢复相关联,让用户及时了解trap告警的故障恢复情况,还能够减少trap告警数,提升告警准确率。下面对本发明提供的方法实施例作进一步说明:本发明通过对象标识符(objectidentifier,oid)对告警信息进行标识,其中oid又称为物联网域名,用于对任何类型的对象、概念或者“事物”进行全球无歧义、唯一命名。其中,oid举例如下:某品牌存储设备的运行状态的oid:.1.3.6.1.4.1.211.1.21.1.150.14.1.1.0某品牌存储设备的硬盘状态的oid:.1.3.6.1.4.1.211.1.21.1.150.2.19.2.1.4.1某品牌存储设备的硬盘健康状态的oid:.1.3.6.1.4.1.211.1.21.1.150.2.19.2.1.17.1被检测资源自动发送的告警信息,信息中包含oid和资源的ip,称为trap告警;当告警恢复后,告警信息记录的故障信息在设备中不存在了。在检测到该端口发出的第二告警信息之后,判断所述第二告警信息的发出时间是否在所述第一告警信息发出后的预先设置的时间阈值内;如果在所述时间阈值内,再对所述第二告警信息的内容进行判断。具体的,通过比对第二告警信息发出的时间是否在时间阈值内,来判断是否需要对第二告警信息进行管理,如果两条告警信息发出的时间间隔过长,为了让网管能够知道端口的变化,就需要将该第二告警信息发出,以保证告警的准确性。其中,再次检测到该端口发出的第二告警信息是通过如下方式得到的,包括:获取所述第一告警信息中的对象标识符;在接收到所述第二告警信息后,获取所述第二告警信息中的对象标识符;判断所述第二告警信息中的对象标识符与所述第一告警信息中的对象标识符是否一致;如果一致,则确定再次检测到该端口发出的第二告警信息。本发明实施例通过成对oid来进行管理,成对oid表示同一事物的两个状态的oid。比如硬盘插入的oid与硬盘拔出的oid是成对oid,电源的插入的oid与拔出的oid是成对oid。本发明方法实施例是以同一资源的同一块磁盘的拔出与插入作为例子来进行说明,以便于理解。本专利对所有的成对oid所发送的trap告警均适用。成对oid所表示的trap信息举例如表1:刀片服务器上电刀片服务器下电刀片服务器插入刀片服务器拔出风扇拔出槽位风扇插入槽位电源插入槽位电源拔出槽位交换背板插入槽位交换背板拔出槽位管理单板插入槽位管理单板拔出槽位磁盘插入磁盘拔出表1在判断所述第二告警信息的内容是否是对第一告警信息中记录的故障的处理结果的描述信息时,获取预先设置的信息比对表,其中所述比对表中包括告警信息的描述信息和所述告警信息对应的故障处理结果的描述信息;根据所述信息比对表,获取所述第一告警信息对应的故障处理结果的描述信息;利用所述故障处理结果的描述信息,判断所述第二告警信息的内容是否是对第一告警信息中记录的故障的处理结果的描述信息。具体的,参照表1可知,在第一告警信息为硬盘拔出后,查询该第一告警信息对应的故障处理结果,该故障处理结果为硬盘插入;如果查找到的第二告警信息为硬盘插入,则确定第一告警信息和第二告警信息为成对oid。其中,对所述第二告警信息的输出进行管理时,将所述第二告警信息的内容修改为故障处理结果;输出所述故障处理结果。仍以上例进行说明,当检测到硬盘插入的告警信息是对故障的处理后,可以将该告警信息处理为操作提示信息,该提示信息可以为硬盘已插入,故障已处理。下面以应用实例对本发明提供的方法实施例作进一步说明:图2为本发明提供的云系统中告警信息的管理方法应用实例的流程图。图2所示方法包括:在云海os系统(以下简称“云海os”)中开启snmptrap监听服务,在云海os系统中监控的资源发生硬件故障信息后,会以trap信息的方式发送到云海os中,其中trap信息包括发送信息的ip地址及oid。云海os接收到trap信息后,会根据其中的oid来识别发送信息的资源小类,再结合ip地址识别出发送trap信息的资源。再对oid进行解析,进而识别出具体的告警信息,把告警信息存储到云海os中,记录下告警id。根据trap信息发送来的oid在related.sql中找到与之成对的oid,具体related.sql的管理表格具体参见表2。把该oid及其相关信息存放在info.sql中,其中info.sql的管理表格具体参见表3。当云海os中再接收到一条trap信息时,根据oid和ip地址识别出资源名称后,根据3个条件在info.txt文件中查找。如果查找不到,则为一条新的告警;如果可以查找到:则为该条告警的恢复。其中link.sql文件的列名示意图表2表31)首先在云海os系统中开启snmptrap监听服务,在云海os系统中监控的资源发生硬件故障信息后,会以trap信息的方式发送到云海os中,其中trap信息包括发送信息的ip地址及oid。2)云海os接收到trap信息后,会根据其中的oid来识别发送信息的资源小类,再结合ip地址识别出发送trap信息的资源。再对oid进行解析,进而识别出具体的告警信息,把告警信息存储到云海os中,记录下告警id。3)根据trap信息发送来的oid在related.sql中找到与之成对的oid。把告警id,资源名称,告警oid,与之成对的oid,以及0(表示没有恢复)作为一行存放在info.sql中;其中related.sql文件的表格参见下表34)当云海os中再接收到一条trap信息时,根据oid和ip地址识别出资源名称后,根据以下3个条件(资源名称,发来的oid是否与“与之成对的oid”相同,“是否恢复”列是否为0)在info.txt文件中查找。a、如果查找不到,则为一条新的告警:把告警信息存储到云海os中,记录下告警id,然后按照步骤3操作。b、如果可以查找到:则为该条告警的恢复。把info.txt中的对应行的“是否恢复列”置为1。并根据该行的告警id在云海os中把该条告警删除。这样就完成了一条trap告警的恢复。本发明应用实例提供的方法,通过使用snmptrap的主动推送故障信息的功能以及新建了成对oid的关联关系,当trap信息是某条trap故障告警的恢复信息时,能及时发现,并把这条告警删除。在云海os系统中,当trap推送中是某条故障的恢复信息时,能和之前的故障信息关联,这样不仅能够把trap告警的故障信息和故障的恢复相关联,让用户及时了解trap告警的故障恢复情况;还能够减少trap告警数,提升告警准确率。图3为本发明提供的云系统中告警信息的管理装置的结构图。图3所示装置,包括:记录模块301,用于当检测到云系统中端口发出告警信息后,记录所述端口的第一告警信息;判断模块302,用于如果再次检测到该端口发出的第二告警信息后,判断所述第二告警信息的内容是否是对第一告警信息中记录的故障的处理结果的描述信息;管理模块303,用于如果是,则对所述第二告警信息的输出进行管理。其中,所述管理模块303包括:处理单元,用于将所述第二告警信息的内容修改为故障处理结果;输出单元,用于输出所述故障处理结果。其中,所述判断模块302包括:第一判断单元,用于判断所述第二告警信息的发出时间是否在所述第一告警信息发出后的预先设置的时间阈值内;第二判断单元,用于如果在所述时间阈值内,再对所述第二告警信息的内容进行判断。其中,所述判断模块302包括:第一获取单元,用于获取所述第一告警信息中的对象标识符;第二获取单元,用于在接收到所述第二告警信息后,获取所述第二告警信息中的对象标识符;第三判断单元,用于判断所述第二告警信息中的对象标识符与所述第一告警信息中的对象标识符是否一致;确定单元,用于如果一致,则确定再次检测到该端口发出的第二告警信息。其中,所述判断模块302包括:第三获取单元,用于获取预先设置的信息比对表,其中所述比对表中包括告警信息的描述信息和所述告警信息对应的故障处理结果的描述信息;第四获取单元,用于根据所述信息比对表,获取所述第一告警信息对应的故障处理结果的描述信息;判断单元,用于利用所述故障处理结果的描述信息,判断所述第二告警信息的内容是否是对第一告警信息中记录的故障的处理结果的描述信息。本发明提供的装置实施例,当检测到云系统中端口发出告警信息后,记录所述端口的第一告警信息,如果再次检测到该端口发出的第二告警信息后,判断所述第二告警信息的内容是否是对第一告警信息中记录的故障的处理结果的描述信息,如果是,则对所述第二告警信息的输出进行管理,不仅能够把trap告警的故障信息和故障的恢复相关联,让用户及时了解trap告警的故障恢复情况,还能够减少trap告警数,提升告警准确率。虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1