事件数据处理方法及设备与流程

文档序号：25991604发布日期：2021-07-23 21:03阅读：113来源：国知局

本公开涉及数据处理技术领域，尤其是涉及一种事件数据处理方法及设备。

背景技术：

如今，云计算应用越来越普及，云资源越来越多，it资源逐年累积建设，使得云环境中的it资源逐渐大量增长，但由于it资源复杂度高且稳定性差，较难实现统一管理及控制，目前，传统的对it资源数据进行监控以及管理的方式效率较低，无法满足实际需求，尤其是当系统中出现故障时，往往无法根据系统数据确定故障源，从而无法有效对故障事件进行处理，可见，一种高效的事件数据处理方法有待被提出。

技术实现要素：

本公开的目的在于提供一种事件数据处理方法及设备，用以解决相关技术中对it资源数据监管效率较低的问题。

根据本公开一个或多个实施例提供了一种事件数据处理方法，包括：采集网元设备的事件数据；通过预先建立的事件处理策略对所述事件数据进行识别，得到故障事件，将所述故障事件中具有关联关系的故障事件建立关联关系，根据具有关联关系的多个故障事件确定故障源，其中，所述事件处理策略中至少包括两条具有跳转、分支或回溯关系的规则表达式；基于所述故障源发出告警消息。

可选的，所述方法还包括：在采集网元设备的事件数据之后，若在第一预设时间内连续采集到目标事件数据达到预设次数，则提高所述目标事件的优先级。

可选的，所述方法还包括：在采集网元设备的事件数据之后，根据事件的优先级，为事件设定处理时间；若到达所述事件的处理时间，所述事件未被处理，发出催办消息。

可选的，所述方法还包括：在通过预先建立的事件处理策略对所述事件数据进行识别，得到故障事件之后，若在第二预设时间段内并未接收到关闭所述故障事件的消息；则提高所述故障事件的等级。

可选的，所述方法还包括：在采集网元设备的事件数据之后，若发生恢复事件，则关联到所述恢复事件对应的原始故障事件，并更新所述原始故障事件的状态。

可选的，基于所述故障源发出告警消息，包括：根据故障事件发生的时长以及故障事件的级别，通过不同的告警方式以及不同的告警内容发出所述告警消息。

可选的，所述网元设备的事件数据至少包括以下一种：事件序号、网元名称、事件发生时间、原始告警类型、原始告警级别、告警内容以及告警信息来源。

可选的，所述方法还包括：在通过预先建立的事件处理策略对所述事件数据进行识别，得到故障信息之后，对于重复故障事件，保持故障条目不变，记录该故障事件第一次发生的时间、最后一次发生的时间以及发生次数。

可选的，通过预先建立的事件处理策略对所述故障事件中具有关联关系的故障事件建立关联关系，包括：将具有同一网际互连协议ip地址以及故障类型相同的故障事件建立关联关系。

根据本公开的一个或多个实施例，提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任意一种事件数据处理方法。

本公开一个或多个实施例的事件数据处理方法，基于预先建立的事件处理策略从采集的事件数据中识别出故障事件，再将故障事件中具有关联关系的故障事件进行关联，以根据故障事件之间的关联关系确定故障源，在确定故障源后基于该故障源进行告警。从而可从大量事件数据中精准识别出故障事件以及定位故障源，保证了系统的可靠性。

附图说明

为了更清楚地说明本公开具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本公开一个或多个实施例示出的一种事件数据处理方法的流程图；

图2是根据本公开一个或多个实施例示出的一种事件处理策略的示意图；

图3是根据本公开一个或多个实施例示出的一种事件升级的流程图；

图4是根据本公开一个或多个实施例示出的一种事件升级的流程图；

图5是根据本公开一个或多个实施例示出的一种电子设备的框图。

具体实施方式

下面将结合实施例对本公开的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

在本公开的描述中，需要理解的是，术语"中心"、"纵向"、"横向"、"长度"、"宽度"、"厚度"、"上"、"下"、"前"、"后"、"左"、"右"、"竖直"、"水平"、"顶"、"底"、"内"、"外"、"顺时针"、"逆时针"等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本公开和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本公开的限制。

此外，术语"第一"、"第二"仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有"第一"、"第二"的特征可以明示或者隐含地包括一个或者更多个所述特征。在本公开的描述中，"多个"的含义是两个或两个以上，除非另有明确具体的限定。此外，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本公开中的具体含义。

图1是根据本公开一个或多个实施例示出的一种事件数据处理方法的流程图，如图1所示，该方法包括：

步骤101：采集网元设备的事件数据；

例如，可通过系统内置的数据采集工具集，自动发现及适配数据中心的it资源，通过自适应、智能的采集调度算法，遵循各管理对象的内置kpi(keyperformanceindicators，关键业绩指标)/kqi(keyqualityindicators，关键质量指标)采集策略，自动适配各资源的采集调度命令，实现对各it资源的运行基础数据进行主动式的实时采集，并进行初步的数据预处理及数据缓存。

同时，系统内置各种trap(陷阱)、syslog(系统日志)、自定义接口等类型的高性能采集引擎，可对各it资源运行过程中的软硬件故障、运行事件、告警事件等被动式采集，能够根据各设备的类型及报文协议，自动解析各协议中的报文标识、报文段、报文属性等关键信息，并进行集中动态处理。

其中，数据采集工具集能够支持适配多种管理接口协议，如：支持snmp(simplenetworkmanagementprotocol，简单网络管理协议)、cli(command-lineinterface，命令行界面)、wmi(windowsmanagementinstrumentation，windows管理规范)、odbc(opendatabaseconnectivity，开放数据库连接)/jdbc(javadatabaseconnectivity，java数据库连接)、trap、sntp(simplenetworktimeprotocol，简单网络时间协议)、ntp(networktimeprotocol，网络时间协议)、api(applicationprogramminginterface，应用程序接口)等，从而可采集各it资源的设备信息、配置信息、状态信息、性能信息以及告警信息。

例如，可以通过主动状态轮询进行事件数据的采集、通过snmptrap进行事件数据的采集、通过syslog进行事件数据的采集或者通过日志文件进行事件数据的采集。

在本公开的一个或多个实施例中，所述网元设备的事件数据至少包括以下一种：

事件序号、网元名称、事件发生时间、原始告警类型、原始告警级别、告警内容以及告警信息来源。

步骤102：通过预先建立的事件处理策略对所述事件数据进行识别，得到故障事件，将所述故障事件中具有关联关系的故障事件建立关联关系，根据具有关联关系的多个故障事件确定故障源，其中，所述事件处理策略中至少包括两条具有跳转、分支或回溯关系的规则表达式；

其中，事件处理策略可以是基于规则的事件处理引擎，可自定义表达的事件处理策略，该事件处理策略通过对输入事件数据与预设策略进行匹配，并衡量策略定义中的一系列规则表达式，可分析和处理事件，以快速定位故障原因。如图2所示，策略由一系列规则组成。规则是一个可以衡量的表达式。规则之间支持跳转，分支与回溯的关系。在给定输入条件的情况下，一个定义正确的策略应该有唯一固定的输出。

基于步骤101中采集到的事件数据，按照各资源的kpi/kqi指标体系，对数据进行计算、加工及分析处理，转换成系统标准的数据模型分析，建立统一的信息模型，实现数据的一致性解释和存储。通过建立统一的数据库表、字段等，可收集、分析、翻译运维管理相关信息，如配置信息、设备状态、告警情况等，比对、分析、关联各类数据，准确反映设备的状态和配置信息，从而可并按照不同的告警规则进行风险的识别以及告警信息推送。

在步骤102中，可将事件数据输入事件处理策略，事件处理策略可识别出事件对应的故障，例如，可识别出事件对应的故障标识字段。其中，具有关联关系的故障事件，例如可以是具有部分相同的故障事件数据。

对将所述故障事件中具有关联关系的故障事件建立关联关系，根据具有关联关系的多个故障事件确定故障源进行举例说明，假设根据采集到的事件数据获知多个设备发生网络故障，以及同时确定出该多个设备均与同一个交换机相连，而根据采集到的事件数据表明该交换机发生网络故障，故可将多个设备的网络故障事件与该交换机的网络故障事件建立关联关系，基于该关联关系进行分析，可以确定出故障源为该交换机。

步骤103：基于所述故障源发出告警消息。

此外，通过自定义事件处理策略，根据故障事件之间的关联关系，对故障事件进行智能分析并自动处理。可采用高性能内存数据库技术，提高整个系统的并发处理能力，适应大规模综合设施管理需求，同时能够提高平台的扩展性以及灵活性。通过数据同步技术，可实现设备配置数据与设备管理信息库的定期更新和自动同步，以确保设备管理信息库中的数据与实际环境一致。