事件数据处理方法及设备与流程

文档序号:25991604发布日期:2021-07-23 21:03阅读:113来源:国知局
事件数据处理方法及设备与流程

本公开涉及数据处理技术领域,尤其是涉及一种事件数据处理方法及设备。



背景技术:

如今,云计算应用越来越普及,云资源越来越多,it资源逐年累积建设,使得云环境中的it资源逐渐大量增长,但由于it资源复杂度高且稳定性差,较难实现统一管理及控制,目前,传统的对it资源数据进行监控以及管理的方式效率较低,无法满足实际需求,尤其是当系统中出现故障时,往往无法根据系统数据确定故障源,从而无法有效对故障事件进行处理,可见,一种高效的事件数据处理方法有待被提出。



技术实现要素:

本公开的目的在于提供一种事件数据处理方法及设备,用以解决相关技术中对it资源数据监管效率较低的问题。

根据本公开一个或多个实施例提供了一种事件数据处理方法,包括:采集网元设备的事件数据;通过预先建立的事件处理策略对所述事件数据进行识别,得到故障事件,将所述故障事件中具有关联关系的故障事件建立关联关系,根据具有关联关系的多个故障事件确定故障源,其中,所述事件处理策略中至少包括两条具有跳转、分支或回溯关系的规则表达式;基于所述故障源发出告警消息。

可选的,所述方法还包括:在采集网元设备的事件数据之后,若在第一预设时间内连续采集到目标事件数据达到预设次数,则提高所述目标事件的优先级。

可选的,所述方法还包括:在采集网元设备的事件数据之后,根据事件的优先级,为事件设定处理时间;若到达所述事件的处理时间,所述事件未被处理,发出催办消息。

可选的,所述方法还包括:在通过预先建立的事件处理策略对所述事件数据进行识别,得到故障事件之后,若在第二预设时间段内并未接收到关闭所述故障事件的消息;则提高所述故障事件的等级。

可选的,所述方法还包括:在采集网元设备的事件数据之后,若发生恢复事件,则关联到所述恢复事件对应的原始故障事件,并更新所述原始故障事件的状态。

可选的,基于所述故障源发出告警消息,包括:根据故障事件发生的时长以及故障事件的级别,通过不同的告警方式以及不同的告警内容发出所述告警消息。

可选的,所述网元设备的事件数据至少包括以下一种:事件序号、网元名称、事件发生时间、原始告警类型、原始告警级别、告警内容以及告警信息来源。

可选的,所述方法还包括:在通过预先建立的事件处理策略对所述事件数据进行识别,得到故障信息之后,对于重复故障事件,保持故障条目不变,记录该故障事件第一次发生的时间、最后一次发生的时间以及发生次数。

可选的,通过预先建立的事件处理策略对所述故障事件中具有关联关系的故障事件建立关联关系,包括:将具有同一网际互连协议ip地址以及故障类型相同的故障事件建立关联关系。

根据本公开的一个或多个实施例,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任意一种事件数据处理方法。

本公开一个或多个实施例的事件数据处理方法,基于预先建立的事件处理策略从采集的事件数据中识别出故障事件,再将故障事件中具有关联关系的故障事件进行关联,以根据故障事件之间的关联关系确定故障源,在确定故障源后基于该故障源进行告警。从而可从大量事件数据中精准识别出故障事件以及定位故障源,保证了系统的可靠性。

附图说明

为了更清楚地说明本公开具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是根据本公开一个或多个实施例示出的一种事件数据处理方法的流程图;

图2是根据本公开一个或多个实施例示出的一种事件处理策略的示意图;

图3是根据本公开一个或多个实施例示出的一种事件升级的流程图;

图4是根据本公开一个或多个实施例示出的一种事件升级的流程图;

图5是根据本公开一个或多个实施例示出的一种电子设备的框图。

具体实施方式

下面将结合实施例对本公开的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。

在本公开的描述中,需要理解的是,术语"中心"、"纵向"、"横向"、"长度"、"宽度"、"厚度"、"上"、"下"、"前"、"后"、"左"、"右"、"竖直"、"水平"、"顶"、"底"、"内"、"外"、"顺时针"、"逆时针"等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本公开和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本公开的限制。

此外,术语"第一"、"第二"仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有"第一"、"第二"的特征可以明示或者隐含地包括一个或者更多个所述特征。在本公开的描述中,"多个"的含义是两个或两个以上,除非另有明确具体的限定。此外,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本公开中的具体含义。

图1是根据本公开一个或多个实施例示出的一种事件数据处理方法的流程图,如图1所示,该方法包括:

步骤101:采集网元设备的事件数据;

例如,可通过系统内置的数据采集工具集,自动发现及适配数据中心的it资源,通过自适应、智能的采集调度算法,遵循各管理对象的内置kpi(keyperformanceindicators,关键业绩指标)/kqi(keyqualityindicators,关键质量指标)采集策略,自动适配各资源的采集调度命令,实现对各it资源的运行基础数据进行主动式的实时采集,并进行初步的数据预处理及数据缓存。

同时,系统内置各种trap(陷阱)、syslog(系统日志)、自定义接口等类型的高性能采集引擎,可对各it资源运行过程中的软硬件故障、运行事件、告警事件等被动式采集,能够根据各设备的类型及报文协议,自动解析各协议中的报文标识、报文段、报文属性等关键信息,并进行集中动态处理。

其中,数据采集工具集能够支持适配多种管理接口协议,如:支持snmp(simplenetworkmanagementprotocol,简单网络管理协议)、cli(command-lineinterface,命令行界面)、wmi(windowsmanagementinstrumentation,windows管理规范)、odbc(opendatabaseconnectivity,开放数据库连接)/jdbc(javadatabaseconnectivity,java数据库连接)、trap、sntp(simplenetworktimeprotocol,简单网络时间协议)、ntp(networktimeprotocol,网络时间协议)、api(applicationprogramminginterface,应用程序接口)等,从而可采集各it资源的设备信息、配置信息、状态信息、性能信息以及告警信息。

例如,可以通过主动状态轮询进行事件数据的采集、通过snmptrap进行事件数据的采集、通过syslog进行事件数据的采集或者通过日志文件进行事件数据的采集。

在本公开的一个或多个实施例中,所述网元设备的事件数据至少包括以下一种:

事件序号、网元名称、事件发生时间、原始告警类型、原始告警级别、告警内容以及告警信息来源。

步骤102:通过预先建立的事件处理策略对所述事件数据进行识别,得到故障事件,将所述故障事件中具有关联关系的故障事件建立关联关系,根据具有关联关系的多个故障事件确定故障源,其中,所述事件处理策略中至少包括两条具有跳转、分支或回溯关系的规则表达式;

其中,事件处理策略可以是基于规则的事件处理引擎,可自定义表达的事件处理策略,该事件处理策略通过对输入事件数据与预设策略进行匹配,并衡量策略定义中的一系列规则表达式,可分析和处理事件,以快速定位故障原因。如图2所示,策略由一系列规则组成。规则是一个可以衡量的表达式。规则之间支持跳转,分支与回溯的关系。在给定输入条件的情况下,一个定义正确的策略应该有唯一固定的输出。

基于步骤101中采集到的事件数据,按照各资源的kpi/kqi指标体系,对数据进行计算、加工及分析处理,转换成系统标准的数据模型分析,建立统一的信息模型,实现数据的一致性解释和存储。通过建立统一的数据库表、字段等,可收集、分析、翻译运维管理相关信息,如配置信息、设备状态、告警情况等,比对、分析、关联各类数据,准确反映设备的状态和配置信息,从而可并按照不同的告警规则进行风险的识别以及告警信息推送。

在步骤102中,可将事件数据输入事件处理策略,事件处理策略可识别出事件对应的故障,例如,可识别出事件对应的故障标识字段。其中,具有关联关系的故障事件,例如可以是具有部分相同的故障事件数据。

对将所述故障事件中具有关联关系的故障事件建立关联关系,根据具有关联关系的多个故障事件确定故障源进行举例说明,假设根据采集到的事件数据获知多个设备发生网络故障,以及同时确定出该多个设备均与同一个交换机相连,而根据采集到的事件数据表明该交换机发生网络故障,故可将多个设备的网络故障事件与该交换机的网络故障事件建立关联关系,基于该关联关系进行分析,可以确定出故障源为该交换机。

步骤103:基于所述故障源发出告警消息。

本公开一个或多个实施例的事件数据处理方法,基于预先建立的事件处理策略从采集的事件数据中识别出故障事件,再将故障事件中具有关联关系的故障事件进行关联,以根据故障事件之间的关联关系确定故障源,在确定故障源后基于该故障源进行告警。从而可从大量事件数据中精准识别出故障事件以及定位故障源,保证了系统的可靠性。

此外,通过自定义事件处理策略,根据故障事件之间的关联关系,对故障事件进行智能分析并自动处理。可采用高性能内存数据库技术,提高整个系统的并发处理能力,适应大规模综合设施管理需求,同时能够提高平台的扩展性以及灵活性。通过数据同步技术,可实现设备配置数据与设备管理信息库的定期更新和自动同步,以确保设备管理信息库中的数据与实际环境一致。

在本公开的一个或多个实施例中,上述事件数据处理方法还可包括:

在采集网元设备的事件数据之后,若在第一预设时间内连续采集到目标事件数据达到预设次数,则提高所述目标事件的优先级。以图3所示为例,若某一事件在15分钟(为上述第一预设时间段的一个示例)内触发三次(为上述预设次数的一个示例),则该事件升级。

在本公开的一个或多个实施例中,上述事件数据处理方法还可包括:

在采集网元设备的事件数据之后,根据事件的优先级,为事件设定处理时间;若到达所述事件的处理时间,所述事件未被处理,发出催办消息。例如,

系统可支持用户自定义的事件的优先级级别,并可以根据sla(service-levelagreement,服务等级协议)为不同优先级的事件定义不同的处理时间。当事件到达预期的时间还没有被解决时,系统可自动通过email、短信等方式催办,也可以自动或手动将事件升级到指定的人员进行处理。

在本公开的一个或多个实施例中,上述事件数据处理方法还可包括:

通过预先建立的事件识别策略对所述事件数据进行识别,得到故障事件之后,若在第二预设时间段内并未接收到关闭所述故障事件的消息;

则提高所述故障事件的等级。以图4所示为例,如果在10分钟(为第二预设时间段的一个示例)内触发的事件未被关闭,则事件升级。

在本公开的一个或多个实施例中,上述事件数据处理方法还可包括:

在采集网元设备的事件数据之后,若发生恢复事件,则关联到所述恢复事件对应的原始故障事件,并更新所述原始故障事件的状态。例如,系统根据事件处理策略,对有关联关系的事件进行自动处理,如当恢复事件发生时,将该恢复事件自动关联到原始的故障事件,并将原始的故障事件的状态设置为清除,表示故障已经恢复。

在本公开的一个或多个实施例中,所述基于所述故障源发出告警消息,可包括:根据故障事件发生的时长以及故障事件的级别,通过不同的告警方式以及不同的告警内容发出所述告警消息。举例说明,假设事件按照等级由高到低被分为5级,通过如下表1对发出告警消息的条件、故障通知方式、故障通知内容要求以及实现方式进行示例性说明。

表1

其中,所有的窗口和声音,需要事先指定通知的客户端机器地址,网管将把声音发送到指定的机器上。而短信自动告警,需要预先录入监控人员和主管人员手机号码,并给出事件与监控人员、主管人员的对应关系。

在本公开的一个或多个实施例中,上述事件数据处理方法还可包括:

在通过预先建立的事件处理策略对所述事件数据进行识别,得到故障信息之后,对于重复故障事件,保持故障条目不变,记录该故障事件第一次发生的时间、最后一次发生的时间以及发生次数。例如,可基于内存数据库的自动化压缩(de-duplication)功能将所采集的重复故障事件在故障数据库中只保留一条,该条故障事件会记录第一次发生的时间和最后一次发生的时间及发生次数。

在本公开的一个或多个实施例中,上述事件数据处理方法还可包括:通过预先建立的事件处理策略对所述故障事件中具有关联关系的故障事件建立关联关系,可包括:

将具有同一网络之间互连的协议ip地址以及故障类型相同的故障事件建立关联关系。即,将对应于同一ip地址且故障类型也相同的故障事件认为是关联事件,建立这些事件之间的关联关系。例如,系统可根据配置管理数据库中的配置信息,自动将事件信息与行内相关的资源信息(如该设备的位置,负责人等等)进行关联,使管理人员在收到报警的同时,直接可以查看到事件相关的内容,无需再进行额外的查询工作。

在本公开的一个或多个实施例中,事件的相关性分析可包括:同类告警关联,将故障和其恢复事件进行自动相关,并同步更新状态;故障源分析,找到故障发生的具体位置,并关联由此引发的其他相关事件;业务相关性分析,找到故障影响的业务、部门等信息,并根据影响的范围和程度采取不同的措施。

在本公开的一个或多个实施例中,在通过事件采集器获取原始事件信息时,由于事件信息过于专业不利于业务人员直观识别,可通过与原始事件内容匹配进行中文翻译。可对包含事件的节点、类型和级别等字段的翻译。

本公开一个或多个实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任意一种事件数据处理方法。

需要说明的是,本公开实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

图5示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的cpu(centralprocessingunit,中央处理器)、微处理器、应用专用集成电路(applicationspecificintegratedcircuit,asic)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。

存储器1020可以采用rom(readonlymemory,只读存储器)、ram(randomaccessmemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信,也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。

总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。

最后应说明的是:以上各实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述各实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1