一种基于时空分析日志的故障定因方法和系统与流程

文档序号:20038643发布日期:2020-02-28 11:38阅读:151来源:国知局
一种基于时空分析日志的故障定因方法和系统与流程

本发明属于一种基于时空分析日志的故障定因方法和系统



背景技术:

现有故障定因系统的处理方法一般是对各个指标进行统计和编排,并不会对设备产生的日志进行特征和内容的分析。

缺点1:网络设备运行维护的故障定因需要有经验的专家人士完成,对人员的依赖较大。

缺点2:故障根因定位困难,故障解决时间长,影响用户体验。

缺陷3:现有网管系统可视性较差,管理效率低,不能针对海量设备进行管理。

伴随5g网络的到来,ip网络设备将会越来越多,网络配置也会变得越来越复杂,将会给网络运维带来巨大的挑战。



技术实现要素:

本发明所要解决的技术问题是提供一种基于时空分析日志的故障定因方法和系统,用以解决现有技术存在的问题。

本发明解决上述技术问题所采取的技术方案如下:

一种基于时空分析日志的故障定因方法,包括:

步骤1)采集网络系统中所有网络设备产生的syslog日志;

步骤2)针对网络中所有设备产生的syslog日志进行监控并且周期性实时的对日志基于时间空间进行特征分析;

步骤3)对网络设备的运行状态进行基于时间的特征提取并分析,排查网络设备的隐患和故障时间点;

步骤4)获取空间拓扑信息;

步骤5)联合空间拓扑信息提取相关设备日志构建异常事件的特征矩阵;

步骤6)通过智能决策算法得到故障传播链以及根因,展现故障影响面以及根因详细信息。

优选的是,步骤1)中,具体包括:

对网络设备日志进行固定时间粒度采集,包括分析目标网络中的所有设备,同时获取的日志为全量数据,所有数据统一采集存储至大数据孵化平台的存储单元。

优选的是,步骤2)中,具体包括:

对每台设备的日志都进行相同时间粒度的实时多维度统计分析,其中维度包括总量、成分量、不同成分的量;

通过对设备正常运行时的日志进行学习,得到设备正常运行时不同维度统计的日志基线特征;

对设备日志进行固定周期的采集监控,当监控值脱离基线值超过阈值时,则认为在这个时间点检测到了一个日志异常事件,这里的阈值是通过算法学习到的一个具有一定置信度的动态值。

优选的是,步骤3)中,具体包括:

取设备在异常时间点周围的日志数据,并且将日志的多维统计特征值进行格式化整理,构成这台设备在异常时间点的异常事件特征向量。

优选的是,步骤4)中,具体包括:

使用网络中的常用协议信息来构建空间拓扑结构;

在异常时间点对拓扑相关的设备进行异常日志提取,并按照统计特征值进行格式化整理,这些特征向量拼在一起构成了异常时间点的异常事件的特征矩阵。

优选的是,步骤5)中,具体包括:

通过对单台设备分别提取异常时间点日志特征向量,结合网络的空间拓扑信息,将关联设备的异常日志特征向量拼接,构成网络异常事件的特征矩阵;

通过对不同场景异常故障日志的统计、积累和提取异常事件特征矩阵,并且有监督的对每一类网络异常事件进行关联算法模型训练,得到异常日志特征矩阵和异常根因的关联关系。

优选的是,步骤6)中,具体包括:

通过逻辑算法分析特征矩阵,得到异常事件的传播路径,定界到异常故障的根因设备,进一步对根因设备的异常该日志特征向量算法分析,可以得到故障根因信息;

通过界面视图,将分析出的异常事件的故障传播链以及影响面通过简单的拓扑结构呈现出来,同时将故障根因分级别显示。

一种基于时空分析日志的故障定因系统,包括:

syslog采集单元、实时日志异常检测单元、异常日志特征提取单元、空间拓扑发现单元、关联分析单元和故障定因单元;

所述syslog采集单元,用于采集网络系统中所有网络设备产生的syslog日志;

所述实时日志异常检测单元,用于针对网络中所有设备产生的syslog日志进行监控并且周期性实时的对日志基于时间空间进行特征分析;

所述异常日志特征提取单元,用于对网络设备的运行状态进行基于时间的特征提取并分析,排查网络设备的隐患和故障时间点;

所述空间拓扑发现单元,用于获取空间拓扑信息;

所述关联分析单元,用于联合空间拓扑信息提取相关设备日志构建异常事件的特征矩阵;

所述故障定因单元,用于通过智能决策算法得到故障传播链以及根因,展现故障影响面以及根因详细信息。

优选的是,所述syslog采集单元,进一步用于:

对网络设备日志进行固定时间粒度采集,包括分析目标网络中的所有设备,同时获取的日志为全量数据,所有数据统一采集存储至大数据孵化平台的存储单元。

优选的是,所述异常日志特征提取单元,进一步用于:

对每台设备的日志都进行相同时间粒度的实时多维度统计分析,其中维度包括总量、成分量、不同成分的量;

通过对设备正常运行时的日志进行学习,得到设备正常运行时不同维度统计的日志基线特征;

对设备日志进行固定周期的采集监控,当监控值脱离基线值超过阈值时,则认为在这个时间点检测到了一个日志异常事件,这里的阈值是通过算法学习到的一个具有一定置信度的动态值。

对每台设备的日志都进行相同时间粒度的实时多维度统计分析,其中维度包括总量、成分量、不同成分的量;

通过对设备正常运行时的日志进行学习,得到设备正常运行时不同维度统计的日志基线特征;

对设备日志进行固定周期的采集监控,当监控值脱离基线值超过阈值时,则认为在这个时间点检测到了一个日志异常事件,这里的阈值是通过算法学习到的一个具有一定置信度的动态值。

本发明是通过人工智能的方法,针对网络中所有设备产生的syslog日志进行监控并且周期性实时的对日志基于时间空间进行特征分析。由计算机代替人力,对网络设备的运行状态进行基于时间的特征提取并分析,排查网络设备的隐患和故障时间点;联合空间拓扑信息提取相关设备日志构建异常事件的特征矩阵,通过智能决策算法得到故障传播链以及根因,最终通过界面视图呈现的方式展现故障影响面以及根因详细信息,达到智能、高效、精准运维的目的。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

附图说明

下面结合附图对本发明进行详细的描述,以使得本发明的上述优点更加明确。其中,

图1是本发明基于时空分析日志的故障定因方法的流程示意图;

图2是本发明基于时空分析日志的故障定因方法实施例中的网络日志的示意图;

图3是本发明基于时空分析日志的故障定因方法实施例中的空间拓扑的示意图;

图4是本发明基于时空分析日志的故障定因方法实施例中空间拓扑发现的示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。

另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

本发明是通过人工智能的方法,针对网络中所有设备产生的syslog日志进行监控并且周期性实时的对日志基于时间空间进行特征分析。由计算机代替人力,对网络设备的运行状态进行基于时间的特征提取并分析,排查网络设备的隐患和故障时间点;联合空间拓扑信息提取相关设备日志构建异常事件的特征矩阵,通过智能决策算法得到故障传播链以及根因,最终通过界面视图呈现的方式展现故障影响面以及根因详细信息,达到智能、高效、精准运维的目的。

本发明中的所有数据以及计算都是集中在大数据孵化平台上面进行,可以将对日志分析进行故障定因的能力进行封装,作为一种网络服务提供给各个用户进行使用。这种故障定因的能力即具有自主学习的特点,可以将收集到的日志数据进行整理和分析学习;又具备可移植的特点,适用于不同场景下的网络故障根因排查。

本发明的目标是,将网络设备的所有syslog文件集中管理起来,通过人工智能算法对设备运行状态基于时间和空间进行诊断分析,达到如下目标:

1.在故障发生之前发现隐患,提升客户使用体验;

2.将故障根因的查找时间从小时数量级降为分钟数量级;

3.将网络故障事件以故障传播的形式直观呈现出来,并且支持故障回放。

具体来说,一种基于时空分析日志的故障定因方法,包括:

步骤1)采集网络系统中所有网络设备产生的syslog日志;

步骤2)针对网络中所有设备产生的syslog日志进行监控并且周期性实时的对日志基于时间空间进行特征分析;

步骤3)对网络设备的运行状态进行基于时间的特征提取并分析,排查网络设备的隐患和故障时间点;

步骤4)获取空间拓扑信息;

步骤5)联合空间拓扑信息提取相关设备日志构建异常事件的特征矩阵;

步骤6)通过智能决策算法得到故障传播链以及根因,展现故障影响面以及根因详细信息。

本发明可以完成以下目的:

1、将人工故障定因的逻辑抽象为数学模型,通过算法实现,由计算机代替人力完成,收集和不断补充经验库,使网络设备故障定因这项工作脱离对专家人士的依赖。

2、计算机的运算能力随着科技的进步得到了大大的提升,可以将人工定位耗时几小时级的量级降低为分钟量级。

3、本方案使用大数据平台,集中存储和处理日志数据,完全能够承担管理海量网络设备的工作。

其中,具体来说,优选的是,步骤1)中,具体包括:

对网络设备日志进行固定时间粒度采集,包括分析目标网络中的所有设备,同时获取的日志为全量数据,所有数据统一采集存储至大数据孵化平台的存储单元。

优选的是,步骤2)中,具体包括:

对每台设备的日志都进行相同时间粒度的实时多维度统计分析,其中维度包括总量、成分量、不同成分的量;

通过对设备正常运行时的日志进行学习,得到设备正常运行时不同维度统计的日志基线特征;

对设备日志进行固定周期的采集监控,当监控值脱离基线值超过阈值时,则认为在这个时间点检测到了一个日志异常事件,这里的阈值是通过算法学习到的一个具有一定置信度的动态值。

优选的是,步骤3)中,具体包括:

取设备在异常时间点周围的日志数据,并且将日志的多维统计特征值进行格式化整理,构成这台设备在异常时间点的异常事件特征向量。

优选的是,步骤4)中,具体包括:

使用网络中的常用协议信息来构建空间拓扑结构;

在异常时间点对拓扑相关的设备进行异常日志提取,并按照统计特征值进行格式化整理,这些特征向量拼在一起构成了异常时间点的异常事件的特征矩阵。

优选的是,步骤5)中,具体包括:

通过对单台设备分别提取异常时间点日志特征向量,结合网络的空间拓扑信息,将关联设备的异常日志特征向量拼接,构成网络异常事件的特征矩阵;

通过对不同场景异常故障日志的统计、积累和提取异常事件特征矩阵,并且有监督的对每一类网络异常事件进行关联算法模型训练,得到异常日志特征矩阵和异常根因的关联关系。

优选的是,步骤6)中,具体包括:

通过逻辑算法分析特征矩阵,得到异常事件的传播路径,定界到异常故障的根因设备,进一步对根因设备的异常该日志特征向量算法分析,可以得到故障根因信息;

通过界面视图,将分析出的异常事件的故障传播链以及影响面通过简单的拓扑结构呈现出来,同时将故障根因分级别显示。

本发明主要由六个功能模块来完成网络设备日志的分析,包括syslog采集单元、实时日志异常检测单元、异常日志特征提取单元、空间拓扑发现单元、关联分析单元、故障定因单元。

所述syslog采集单元,用于采集网络系统中所有网络设备产生的syslog日志;

所述实时日志异常检测单元,用于针对网络中所有设备产生的syslog日志进行监控并且周期性实时的对日志基于时间空间进行特征分析;

所述异常日志特征提取单元,用于对网络设备的运行状态进行基于时间的特征提取并分析,排查网络设备的隐患和故障时间点;

所述空间拓扑发现单元,用于获取空间拓扑信息;

所述关联分析单元,用于联合空间拓扑信息提取相关设备日志构建异常事件的特征矩阵;

所述故障定因单元,用于通过智能决策算法得到故障传播链以及根因,展现故障影响面以及根因详细信息。

更具体地说,其完成以下的工作:

1、syslog采集

对网络设备日志进行固定时间粒度采集,包括分析目标网络中的所有设备,同时获取的日志为全量数据,所有数据统一采集存储至大数据孵化平台的存储单元。

2、实时日志异常检测

对每台设备的日志都进行相同时间粒度的实时多维度统计分析,其中维度包括总量、成分量、不同成分的量等。通过对设备正常运行时的日志进行学习,可以得到设备正常运行时不同维度统计的日志基线特征。对设备日志进行固定周期的采集监控,当监控值脱离基线值超过阈值时,则认为在这个时间点检测到了一个日志异常事件,这里的阈值是通过算法学习到的一个具有一定置信度的动态值。

3、异常日志特征提取

取设备在异常时间点周围的日志数据,并且将日志的多维统计特征值进行格式化整理,构成这台设备在异常时间点的异常事件特征向量。

4、空间拓扑发现

网络中的事件具有相互影响的特征,因此分析网络故障根因,必须考虑网络拓扑结构。网络拓扑结构是基于空间维度对网络中的异常事件进行特征提取的重要信息来源,拓扑结构可以使用网络中的常用协议信息来构建。在异常时间点对拓扑相关的设备进行异常日志提取,并都按照统计特征值进行格式化整理,这些特征向量拼在一起构成了异常时间点的异常事件的特征矩阵。

5、关联分析

通过对单台设备分别提取异常时间点日志特征向量,结合网络拓扑信息,将关联设备的异常日志特征向量拼接,构成此次网络异常事件的特征矩阵。通过对不同场景异常故障日志的统计、积累和提取异常事件特征矩阵,并且有监督的对每一类网络异常事件进行关联算法模型训练。得到异常日志特征矩阵和异常根因的关联关系。

6、故障定因

基于以上各个流程的分析,已经提取出网络中的异常事件以及异常事件点的日志特征矩阵。通过逻辑算法分析特征矩阵,可以得到此异常事件的传播路径,定界到异常故障的根因设备。进一步对根因设备的异常该日志特征向量算法分析,可以得到故障根因信息。

最后通过界面视图,将分析出的异常事件的故障传播链以及影响面通过简单的拓扑结构呈现出来,同时将故障根因分级别显示。

该发明通过对网络设备日志的时间特征和空间拓扑特征提取、发现网络异常事件,然后通过提取异常事件的日志特征信息,分析得到网络异常事件的故障根因。

基于以上原因本方案寻求了一种更高效、更精准、更节省成本的运维方法。网络设备在运行过程中会产生大量的日志信息,存储在syslog文件中。虽然,网络设备都具备基本的故障检测功能并可以实时上送告警信息。但是,运维人员在面对大量的网络设备,和大量的网络运行数据时,会不可避免的忽略掉一些告警信息;同时,告警信息并不能完全覆盖网络中的所有故障,很多时候,对于网络故障的根因定位需要专业人员排查每台设备的syslog文件才能解决,当前的网管系统并不具备自主发现和自主分析的能力。因为日志记录着设备的部分配置信息以及在运行过程产生的所有信息,因此对于网络中的绝大多数故障信息,都会被日志记录下来。所以,网管系统想要实现网络故障自主发现和自主分析的能力,对设备日志数据的监控和分析是十分必要的。本方案是通过人工智能的方法,针对网络中所有设备产生的syslog日志进行采集和关联分析,由计算机代替人力,对网络设备的运行状态进行实时算法分析,排查网络隐患和故障,并通过智能决策引擎模块找到根因,实现运维提效。

需要说明的是,对于上述方法实施例而言,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。

而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1