一种自动化告警的改进方法及告警数据的自动化处理平台与流程

文档序号:17429020发布日期:2019-04-17 03:14阅读:508来源:国知局
一种自动化告警的改进方法及告警数据的自动化处理平台与流程

本发明涉及互联网技术领域,特别涉及一种自动化告警的改进方法及告警数据的自动化处理平台。



背景技术:

随着cdn(contentdeliverynetwork,内容分发网络)的不断发展,cdn中的各个集群的功能也越来越多。在实际运行过程中,集群的功能可能出现或多或少的异常,这些异常往往会产生对应的告警数据。如果集群中出现的异常为之前没有出现过的,那么便会诞生新的告警场景,这些新的场景通常无法被cdn自动处理,而是需要管理人员登录具体的机器进行问题排查分析,然后再手动记录这些新的场景,从而完善告警的自动化处理过程。显然,现有技术中这种通过管理人员进行人工操作的方式,会浪费较多的人力和物力,具备较低的效率。



技术实现要素:

本申请的目的在于提供一种自动化告警的改进方法及告警数据的自动化处理平台,能够自动地对cdn中产生的告警数据进行处理,以提高告警数据的处理效率。

为实现上述目的,本申请一方面提供一种自动化告警的改进方法,所述方法包括:从告警平台处获取告警数据,并识别所述告警数据表征的告警场景;根据预设处理策略对识别出的所述告警场景进行自动化处理,得到所述告警场景的处理结果;基于所述告警场景的类型和所述告警场景的处理结果,确定所述告警场景对应的改进优先级,并按照所述改进优先级完善所述告警场景的自动化告警流程。

为实现上述目的,本申请另一方面还提供一种告警数据的自动化处理平台,所述平台包括:数据获取单元,用于从告警平台处获取告警数据;场景识别单元,用于识别所述告警数据表征的告警场景;处理单元,用于根据预设处理策略对识别出的所述告警场景进行自动化处理,得到所述告警场景的处理结果;汇总分析单元,用于基于所述告警场景的类型和所述告警场景的处理结果,确定所述告警场景对应的改进优先级,并按照所述改进优先级完善所述告警场景的自动化告警流程。

由上可见,本申请提供的技术方案,在获取到告警数据后,首先可以识别该告警数据表征的告警场景。其中,告警场景可以分为已知场景和未知场景,未知场景可以是cdn中新出现的场景。在识别出告警数据表征的告警场景后,可以根据预设处理策略对识别出的告警场景进行自动化处理,从而可以得到告警场景的处理结果。在实际应用中,针对已知场景和未知场景可以具备不同的处理方法。其中,已知场景可以通过执行预设的处理脚本来自动化处理,而未知场景由于不具备预设的处理脚本,可以记录该未知场景的特征信息,该特征信息后续可以用于分析引起未知场景的故障原因。在对告警场景进行识别和处理后,可以针对识别结果和处理结果,对告警场景进行改进。改进的目的是不断完善告警的自动化流程,从而使得告警数据表征的告警场景均能够被自动化处理。由上可见,本申请提供的技术方案,通过对告警数据进行场景识别并尝试进行自动化处理,从而可以根据识别结果和处理结果,不断完善自动化告警的过程,最终能够自动地对cdn中产生的告警数据进行处理,从而提高告警数据的处理效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施方式中的系统架构示意图;

图2是本发明实施方式中自动化告警的改进方法步骤图;

图3是本发明实施方式中不同告警场景的处理示意图;

图4是本发明实施方式中自动化处理平台的功能模块示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。

本申请提供一种自动化告警的改进方法,该方法可以应用于cdn的告警系统中,该告警系统可以具备如图1所示的系统架构。在该告警系统中,可以包括告警平台和自动化处理平台。其中,所述告警平台可以产生cdn中的告警数据,并且该告警数据可以被自动化处理平台获取。自动化处理平台可以对获取的告警数据进行识别告警场景和自动化处理,从而得到处理结果,并且可以将处理结果反馈给告警平台,并对处理过程中的数据进行汇总分析。

具体地,请参阅图2,所述自动化告警的改进方法可以包括以下步骤。

s1:从告警平台处获取告警数据,并识别所述告警数据表征的告警场景。

在本实施方式中,cdn中的设备在运行过程中可能会出现各种异常,这些异常会触发设备的告警机制,设备从而会产生告警信息。该告警信息例如可以是设备的报错信息,也可以是在设备出现异常后,针对设备进行外部测试时产生的测试数据。这些告警信息会汇总于告警平台中,从而形成cdn的告警数据。

在本实施方式中,自动化处理平台可以按照指定周期从告警平台处读取产生的告警数据。在读取到告警数据后,可以针对告警数据中的每条告警信息,识别各条告警信息表征的告警场景。其中,所述告警场景可以表征故障原因、故障影响范围等信息。在实际应用中,同一类的故障往往会对应相同或者相似的告警数据,鉴于此,在自动化处理平台中可以预先设置一批常见的告警场景,并且可以在自动化处理平台中存储这些常见的告警场景分别对应的告警数据。这样,在自动化处理平台中,便可以具备多个预设告警场景,同时,这些预设告警场景对应的告警数据可以作为标准数据,后续通过将标准数据与当前获取的告警数据进行对比,便可以确定当前获取的告警数据中,哪些属于预设告警场景,哪些属于新出现的告警场景。

在本实施方式中,在识别告警数据表征的告警场景时,可以将所述告警数据与上述的预设告警场景的标准数据进行匹配,若在所述预设告警场景的标准数据中存在所述告警数据,则可以判定所述告警数据表征的告警场景为已知场景,而若在所述预设告警场景的标准数据中不存在所述告警数据,则可以判定所述告警数据表征的告警场景为未知场景。当然,在实际应用中,告警数据中可以包含多个不同的告警信息,那么可以分别将这些告警信息与预设告警场景的标准数据进行匹配,从而确定出这些告警信息中,哪些表征已知场景,哪些表征未知场景。也就是说,获取的告警数据可以表征不同的告警场景,后续可以针对这些不同的告警场景分别进行处理。

在一个实施方式中,在识别出告警数据表征的告警类型后,还可以根据告警类型的不同,执行不同的操作。具体地,请参阅图3,若识别出的所述告警场景为已知场景,那么可以直接对该告警数据进行分析,从而根据所述告警数据确定所述告警场景对应的告警原因。其中,所述告警原因可以直接通过告警参数的方式包含于所述告警数据中,该告警参数可以表征故障原因、故障影响范围等。这样,通过识别所述告警数据中的告警参数,便可以获知对应的告警原因。此外,所述告警数据中也可以没有注明告警参数,而是仅包括当前故障的一些描述信息。例如,该描述信息可以是类似“磁盘连续10次读写失败”、“网站连续10次无法访问”等信息。由于识别出的告警场景为已知场景,因此自动化处理平台中存储了与这些描述信息相匹配的故障原因,从而可以对告警数据中的描述信息进行识别,从而确定出这些描述信息对应的告警原因。

在本实施方式中,若识别出的所述告警场景为未知场景,则表明在当前的自动化处理平台中,无法直接识别出该告警数据对应的告警原因。此时,可以进一步收集出现故障的设备的细节信息,以便后续对收集的细节信息进行分析,从而识别出引起本次告警的故障原因,进而可以将未知场景转换为已知场景进行处理。具体地,首先可以确定该告警场景对应的目标对象,其中,该目标对象可以是导致本次告警数据产生的对象。该目标对象例如可以是当前设备中的一个组件,或者是运行于当前设备中的软件。在确定告警场景对应的目标对象时,可以识别产生所述告警数据的告警规则,其中,所述告警规则可以作为触发告警数据的前置条件,只有在满足该告警规则时,才会触发对应的告警数据。例如,某个告警规则可以是“网站连续10次无法打开”,那么当某个网站在一定时长内连续10次无法被打开,那么针对该网站便会产生对应的告警数据。告警数据与告警规则可以是一一对应的,从而可以根据告警数据确定出对应的告警规则。然后,可以基于确定出的告警规则生成所述告警数据对应的主体信息。其中,所述主体信息中可以包括触发当前的告警数据的主体,以及该主体出现的故障。例如某个网站连续10次无法打开时,针对生成的告警数据,可以生成“xx网站”、“连续10次无法打开”这样的主体信息。其中,“xx网站”便可以表示当前出现故障的网站标识,“连续10次无法打开”则表明具体的故障信息。这样,由于主体信息描述了当前出现异常的目标对象,从而可以根据该主体信息确定出告警数据对应的目标对象。

在本实施方式中,在确定出该目标对象之后,相当于将故障排查的范围进一步缩小,此时,为了检测目标对象当前出现的是什么异常,可以采集所述目标对象的特征信息,所述特征信息可以用于表征所述目标对象中出现的异常。具体地,可以获取所述目标对象的报错信息以及在所述目标对象出现异常后,针对所述目标对象进行外部测试的测试数据,从而可以将所述报错信息和所述测试数据作为所述目标对象的特征信息。后续通过对该特征信息进行分析,便可以确定出目标对象实际出现的是何种异常,进而可以排查出未知场景对应的故障原因。

s3:根据预设处理策略对识别出的所述告警场景进行自动化处理,得到所述告警场景的处理结果。

在本实施方式中,在识别出告警数据表征的告警场景,并针对不同的告警场景进行故障原因排查后,可以根据预设处理策略对识别出的告警场景进行自动化处理。自动化处理的目的在于解决当前的告警数据,以使得出现异常的设备或者组件或者软件不影响正常的业务。

具体地,若所述告警场景为已知场景,那么在自动化处理平台中,已经预先为该已知场景设置了处理脚本。此时,可以读取所述告警场景对应的预先设置的处理脚本,并针对所述告警场景执行所述处理脚本,从而对所述告警场景进行自动化处理。例如,所述已知场景为磁盘损坏,那么执行对应的处理脚本后,便可以自动停止该磁盘所在的服务器,以避免该服务器无法正常存储数据。

然而,在实际应用中,尽管为已知场景配置了处理脚本,但是该处理脚本执行后,并不一定能成功处理该已知场景对应的故障。在这种情况下,若按照所述预先设置的处理脚本无法对所述告警场景进行处理,则可以记录所述告警场景的处理报错信息。后续,可以对该处理报错信息进行进一步的故障排查,从而制定出解决该已知场景的故障的可行脚本。

在本实施方式中,若所述告警场景为未知场景,那么在自动化处理平台中并没有配置对应的处理脚本,因此也无法成功处理该未知场景的故障。此时,可以记录所述告警场景对应的特征信息,由于特征信息可以用于表征所述告警数据对应的目标对象中出现的异常,那么后续对该特征信息进行分析后,便可以知晓该未知场景对应的实际故障,从而可以制定出解决故障的可行脚本。

s5:基于所述告警场景的类型和所述告警场景的处理结果,确定所述告警场景对应的改进优先级,并按照所述改进优先级完善所述告警场景的自动化告警流程。

在本实施方式中,在识别出告警数据表征的告警场景的类型,以及针对不同的告警场景得到自动化的处理结果之后,可以根据告警场景的类型和对应的处理结果,对告警场景的自动化告警流程进行改善。针对能够成功处理的已知场景而言,无需进行调整。而针对无法成功处理的已知场景,以及识别出的未知场景而言,需要分析出这些场景实际的故障原因,并制定出能够解决该故障原因的可行脚本,才能够将这些场景最终转换为能够成功处理的已知场景。

具体地,在本实施方式中,告警数据中包含众多的告警信息,针对这些告警信息能够识别出大量不同的告警类型,并得到大量的处理结果。为了有序地进行改善进程,可以确定各个待改善的告警场景对应的改进优先级,并按照所述改进优先级依次完善各个告警场景的自动化告警流程。

在本实施方式中,可以根据不同的告警场景出现的频率来确定告警场景对应的改进优先级。出现频率越高,则表示越需要及时改进,从而对应的优先级也应当越高。若当前的告警场景为无法进行自动化处理的已知场景,则可以获取所述告警场景的处理报错信息。对于不同的场景而言,处理报错信息也往往不同。此时,可以统计各类处理报错信息各自的报错比例系数。具体地,针对当前类别的处理报错信息而言,统计其报错比例系数时,可以统计在指定时段内所述当前类别的处理报错信息的出现次数,并计算所述出现次数在自动化处理总量中所占的第一比例以及计算所述出现次数在告警数据总量中所占的第二比例。其中,所述自动化处理总量可以是所述指定时段内总共完成处理的告警信息的数量之和,该数量之和包括了成功处理的告警信息、未成功处理的告警信息以及无法处理的未知告警信息。所述告警数据总量则可以指获取的告警数据中告警信息的总数量。上述计算出的第一比例和第二比例,均可以作为当前类别的处理报错信息的报错比例系数。当然,在实际应用中,可以仅将第一比例和第二比例中的一个比例作为报错比例系数,也可以将这两个比例同时作为报错比例系数,甚至还可以对这两个比例进行加权求和之后作为报错比例系数。

在本实施方式中,若所述告警场景为未知场景,则可以获取所述告警场景的特征信息。类似的,不同的未知场景,也往往对应不同的特征信息。因此,也可以分别统计各类特征信息各自的特征比例系数。与统计上述的报错比例系数类似,针对当前类别的特征信息,可以统计在指定时段内所述当前类别的特征信息的出现次数,并计算所述出现次数在自动化处理总量中所占的第三比例以及计算所述出现次数在告警数据总量中所占的第四比例,然后可以将计算的所述第三比例和所述第四比例作为所述当前类别的特征信息的特征比例系数。当然,在实际应用中,可以仅将第三比例和第四比例中的一个比例作为特征比例系数,也可以将这两个比例同时作为特征比例系数,甚至还可以对这两个比例进行加权求和之后作为特征比例系数。

在本实施方式中,统计出不同的报错比例系数和特征比例系数之后,可以将统计的所述报错比例系数和所述特征比例系数进行排序,并根据排序结果确定处理报错信息或者特征信息的改进优先级。在实际应用中,可以按照比例系数从大到小的顺序进行排序,并按照排序结果从前到后的顺序,从高到低地分配各个告警场景的优先级。

在本实施方式中,确定出各个告警场景的优先级后,便可以按照确定出的优先级对各个告警场景进行改善。具体地,若所述告警场景为无法自动化处理的已知场景,可以获取所述告警场景的报错信息以及针对所述告警场景的测试数据,并根据所述报错信息和所述测试数据分析出所述告警场景对应的故障原因。然后,可以生成用于解决所述故障原因的脚本,并将生成的所述脚本作为所述告警场景对应的处理脚本。然后,可以用生成的该处理脚本替换掉该已知场景原本预先设置的处理脚本,这样,后续在识别出该已知场景后,便可以利用最新生成的该处理脚本对其进行自动化处理,从而能够成功处理该已知场景的故障。

在本实施方式中,若所述告警场景为未知场景,则可以获取所述未知场景对应的特征信息,并基于所述特征信息分析出所述告警场景对应的故障原因。然后,可以将所述特征信息与所述故障原因进行关联,并将关联后的信息作为所述告警场景的标准数据。这样,相当于在自动化处理平台中新增了一个告警场景,并配置了该告警场景对应的标准数据,从而可以将该未知的告警场景转换为已知场景。然后,还可以生成用于解决所述故障原因的脚本,并将生成的所述脚本作为所述告警场景对应的处理脚本。这样,原先的未知场景可以添加至自动化处理平台中,并且可以为其配置标准数据以及对应的处理脚本,后续针对该未知场景,便可以按照已知场景的流程进行处理,从而实现了将未知场景转换为已知场景,进而能够不断完善自动化处理平台对于告警场景的自动化处理过程。

在一个实施方式中,自动化处理平台可以通过告警平台预设的数据查询接口获取到对应的告警数据。所述数据查询接口例如可以是dna(digitalnetworkarchitecture,数字网络结构)接口、http接口等。告警数据中的各条告警信息在生成时,可以根据是否需要被自动化处理而选择是否携带指定处理标识。其中,若需要被自动化处理,则可以在告警信息中携带所述指定处理标识;相反,若无需被自动化处理,则可以不携带所述指定处理标识。在本实施方式中,自动化处理平台可以在所述告警数据中确定具备指定处理标识的目标告警信息,所述指定处理标识用于表征需要进行自动化处理,然后,自动化处理平台便可以识别所述目标告警信息表征的告警场景。对于没有携带指定处理标识的告警信息而言,由于告警参数能够直接表明对应的告警场景,因此在自动化处理平台中可以省略场景识别的过程。

在一个实施方式中,在自动化处理平台对告警数据进行场景识别和自动化处理时,可以将处理结果展示出来。具体地,在识别所述告警数据表征的告警场景时,可以展示场景识别结果,所述场景识别结果中可以包括场景类型;其中,若所述场景类型表征未知场景,所述场景识别结果中还可以包括所述未知场景的特征信息。例如,自动化处理平台可以在显示屏中展示“已识别出已知场景xxx”,以及“已识别出未知场景xxx,特征信息为xxx”这样的信息。此外,在对所述告警场景进行自动化处理后,也可以展示处理结果,所述处理结果中包括处理成功的场景标识以及处理失败的场景的错误信息。例如,自动化处理平台可以在显示屏中展示“成功处理xxx”,以及“处理失败,错误信息为xxx”。上述的“xxx”均表示可以根据实际情况进行展示的具体信息。

请参阅图4,本申请还提供一种告警数据的自动化处理平台,所述平台包括:

数据获取单元,用于从告警平台处获取告警数据;

场景识别单元,用于识别所述告警数据表征的告警场景;

处理单元,用于根据预设处理策略对识别出的所述告警场景进行自动化处理,得到所述告警场景的处理结果;

汇总分析单元,用于基于所述告警场景的类型和所述告警场景的处理结果,确定所述告警场景对应的改进优先级,并按照所述改进优先级完善所述告警场景的自动化告警流程。

在一个实施方式中,所述平台还包括:

全局日志记录单元,用于采集自动化处理过程中的各项信息;

数据存储单元,用于存储所述全局日志记录单元中采集的信息,并存储所述场景识别单元记录的场景识别结果,并存储所述处理单元记录的所述告警场景的处理结果。

在一个实施方式中,所述平台还包括:

场景处理单元,用于若识别出的所述告警场景为已知场景,根据所述告警数据确定所述告警场景对应的告警原因;若识别出的所述告警场景为未知场景,确定所述告警数据对应的目标对象,并采集所述目标对象的特征信息,所述特征信息用于表征所述目标对象中出现的异常。

由上可见,本申请提供的技术方案,在获取到告警数据后,首先可以识别该告警数据表征的告警场景。其中,告警场景可以分为已知场景和未知场景,未知场景可以是cdn中新出现的场景。在识别出告警数据表征的告警场景后,可以根据预设处理策略对识别出的告警场景进行自动化处理,从而可以得到告警场景的处理结果。在实际应用中,针对已知场景和未知场景可以具备不同的处理方法。其中,已知场景可以通过执行预设的处理脚本来自动化处理,而未知场景由于不具备预设的处理脚本,可以记录该未知场景的特征信息,该特征信息后续可以用于分析引起未知场景的故障原因。在对告警场景进行识别和处理后,可以针对识别结果和处理结果,对告警场景进行改进。改进的目的是不断完善告警的自动化流程,从而使得告警数据表征的告警场景均能够被自动化处理。由上可见,本申请提供的技术方案,通过对告警数据进行场景识别并尝试进行自动化处理,从而可以根据识别结果和处理结果,不断完善自动化告警的过程,最终能够自动地对cdn中产生的告警数据进行处理,从而提高告警数据的处理效率。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1