利用时序相关性进行IT故障根因分析的方法及装置与流程

文档序号:12305185阅读:559来源:国知局
利用时序相关性进行IT故障根因分析的方法及装置与流程

本发明实施例涉及信息处理技术领域,尤其涉及一种利用时序相关性进行it故障根因分析的方法及装置。



背景技术:

日志数据是故障排除、监控、安全、合规、电子取证等许多企业应用的基础。同时,它们具有巨大的分析价值,随着大数据时代的来临,数据产生速度加快、数据体量巨大,单凭人力无法跟上机器产生数据的速度。日志数据中的大多数内容也并不能交由人工直接识别。随着日志容量和类型的增长,日志数据超出了人类的认知能力,对日志内容进行分析并追踪潜在的问题越来越困难,尤其是在多日志相关性分析出现之后,需要经验丰富的操作人员跟踪事件链、过滤噪音,并最终诊断出问题出现的根本原因。对于业务故障的根因分析,一直比较依赖于运维人员的经验和试错,只有最简单的硬件故障,才能通过简单的parent(起源,父级元素)设定做到一点告警收敛,目前还没有能够较好地解决上述问题的方法或装置出现。



技术实现要素:

为了克服相关技术中存在的技术问题,本发明提供一种利用时序相关性进行it故障根因分析的方法及装置,以实现在故障发生后能够及时地对故障原因进行分析并排除故障。

第一方面,本发明实施例提供了一种利用时序相关性进行it故障根因分析的方法,其可行的技术方案包括如下:

一种利用时序相关性进行it故障根因分析的方法,所述方法包括:

获取系统日志;

抽取所述系统日志的关键字段,对所述关键字段进行统计以得到系统日志的时间序列数据;

基于量化假设检测自动提取所述时间序列数据的相关特征;

当it故障发生时,通过格兰杰因果关系对所述时间序列数据的相关特征进行检验,其中,所述时间序列数据的各相关特征之间的因果关系量值的大小作为评价为所述it故障的发生原因的依据。

结合另一方面,在另一方面的一种可能出现的实现方式中,所述抽取所述系统日志的关键字段,对所述关键字段进行统计以得到系统日志的时间序列数据,包括:

抽取所述系统日志的关键字段;

对所述系统日志的关键指标参数进行统计得到所述系统日志的时间序列数据;

其中,所述关键指标参数包括访问数量、权限更改、错误信息中的一种或两种以上的组合。

结合另一方面,在另一方面的一种可能出现的实现方式中,所述抽取所述系统日志的关键字段,对所述关键字段进行统计以得到系统日志的时间序列数据,还包括:

对所述关键字段进行参数化设置;

对所述系统日志得到的参数化后的关键字段建立参数作用关系图;

所述通过格兰杰因果关系对所述时间序列数据的相关特征进行检验,包括:通过格兰杰因果关系对所述参数化后的关键字段进行检验。

结合另一方面,在另一方面的一种可能出现的实现方式中,所述时间序列数据的各相关特征之间的因果关系量值的大小作为评价为所述it故障的发生原因的依据,包括:

通过格兰杰因果关系对所述参数化后的关键字段进行检验,得出参数化后的关键字段的因果关系量值;

根据所述因果关系量值建立所述it故障的定量因果关系图。

结合另一方面,在另一方面的一种可能出现的实现方式中,所述时间序列数据的各相关特征之间的因果关系量值的大小作为评价为所述it故障的发生原因的依据,还包括:

确定所述定量因果关系图中最大的路径为it故障传播路径。

第二方面,本发明实施例还提供了一种利用时序相关性进行it故障根因分析的装置,其可行的技术方案包括如下:

所述装置包括:

获取模块,用于获取系统日志;

统计模块,用于抽取所述系统日志的关键字段,对所述关键字段进行统计以得到系统日志的时间序列数据;

自动提取模块,用于基于量化假设检测自动提取所述时间序列数据的相关特征;

故障确定模块,用于当it故障发生时,通过格兰杰因果关系对所述时间序列数据的相关特征进行检验,其中,所述时间序列数据的各相关特征之间的因果关系量值的大小作为评价为所述it故障的发生原因的依据。

上述的装置,所述统计模块包括:

抽取子模块,用于抽取所述系统日志的关键字段;

统计子模块,用于对所述系统日志的关键指标参数进行统计得到所述系统日志的时间序列数据;

其中,所述关键指标参数包括访问数量、权限更改、错误信息中的一种或两种以上的组合。

上述的装置,所述统计模块还包括:

参数化设置模块,用于对所述关键字段进行参数化设置;

参数图建立模块,用于对所述系统日志得到的参数化后的关键字段建立参数作用关系图;

所述故障确定模块还用于:通过格兰杰因果关系对所述参数化后的关键字段进行检验。

上述的装置,所述故障确定模块还用于:

通过格兰杰因果关系对所述参数化后的关键字段进行检验,得出参数化后的关键字段的因果关系量值;

根据所述因果关系量值建立所述it故障的定量因果关系图。

上述的装置,所述故障确定模块,还包括:

路径确定子模块,用于确定所述定量因果关系图中最大的路径为it故障传播路径。

本发明通过抽取所述系统日志的关键字段,对所述关键字段进行统计以得到系统日志的时间序列数据,建立格兰杰因果关系后通过计算图中各时间序列数据的相关特征之间的因果关系量值确定故障原因,并能够在格兰杰因果关系图中不断加入新的参数,实现了通过机器学习的方式自动化完成故障根因分析过程,帮助用户快速找出故障发生原因,减少故障诊断时间(meantimeto

diagonise,mttd),使系统最快恢复正常。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种利用时序相关性进行it故障根因分析的方法的流程示意图。

图2是根据一示例性实施例示出的一种利用时序相关性进行it故障根因分析的方法的流程示意图。

图3是根据一示例性实施例示出的一种利用时序相关性进行it故障根因分析的方法的流程示意图。

图4是根据一示例性实施例示出的一种利用时序相关性进行it故障根因分析的装置的框图。

图5是根据一示例性实施例示出的一种利用时序相关性进行it故障根因分析的装置的框图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图中将各步骤描述成顺序的处理,但是其中的许多步骤可以并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排,当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图内的其它步骤。处理可以对应于方法、函数、规程、子例程、子程序等。

本发明涉及一种利用时序相关性进行it故障根因分析的方法及其对应的装置,其主要运用于企业it系统在发生故障后及时排除网络故障的场景中,其基本思想是:抽取系统日志中的关键字段以作为时间序列数据,并对该时间序列数据进行相关特征的自动化提取,在it系统发生故障时,使用格兰杰因果关系对时序相关特征进行检验,对图中因果关系量值最大的路径作为故障传播路径,并以此为根据作为解决该故障的方案基础,或者由故障知识数据库中匹配出最佳的故障解决方案,能够快速找出故障发生原因,减少故障诊断时间mttd,使系统最快恢复正常。

本实施例可适用于带有机器学习模块的it终端中以进行快速故障排除的情况中,该方法可以由机器学习模块来执行,其中该机器学习模块可以由软件和/或硬件来实现,也可以应用于如日志易应用程序,如图1所示,为本发明实施例一提供的流程示意图,所述方法具体包括如下步骤:

在步骤110中,获取系统日志;

所述系统日志包括设备的操作系统运行时产生的系统日志、应用程序日志以及安全日志等;在一种可行的实施方式中,其可以通过对操作系统中运行中输入eventvwr.msc调用系统的事件查看器对系统日志进行接收。

在步骤120中,抽取所述系统日志的关键字段,对所述关键字段进行统计以得到系统日志的时间序列数据;

所述系统日志的关键字段可以为表示某一类型的信息。

在步骤130中,基于量化假设检测自动提取所述时间序列数据的相关特征;

在本发明示例性实施例的一种实施场景中,在进行特征提取时,可以通过计算每一个特征与响应变量的相关性、训练能够对特征打分的预选模型以及通过深度学习来进行特征选择等方式进行,所述时间序列数据的相关特征则可以是自相关参数、偏相关参数以及滞后期参数等。

在所述量化假设检测时,通常以百分数%为检测水平,大于该检测水平的相关特征被提取,萨满教小于该检测水平的相关特征则为非相关特征则被过滤。

在步骤140中,当it故障发生时,通过格兰杰因果关系对所述时间序列数据的相关特征进行检验,其中,所述时间序列数据的各相关特征之间的因果关系量值的大小作为评价为所述it故障的发生原因的依据。

在本发明示例性实施例的另一种实施场景中,如图2所示,所述抽取所述系统日志的关键字段,对所述关键字段进行统计以得到系统日志的时间序列数据,还包括:

在步骤121中,对所述关键字段进行参数化设置;

在步骤122中,对所述系统日志得到的参数化后的关键字段建立参数作用关系图;

所述通过格兰杰因果关系对所述时间序列数据的相关特征进行检验,包括:步骤123:通过格兰杰因果关系对所述参数化后的关键字段进行检验。

在本发明示例性实施例的另一种实施场景中,如图3所示,所述时间序列数据的各相关特征之间的因果关系量值的大小作为评价为所述it故障的发生原因的依据,包括:

在步骤131中,通过格兰杰因果关系对所述参数化后的关键字段进行检验,得出参数化后的关键字段的因果关系量值;

在当故障知识数据库中的关键字段与所述系统日志匹配未成功时,根据用户关于新故障已形成的反馈解决方案将该次新故障的新故障现象、新故障原因以及新故障解决方案添加到所述故障知识数据库中,亦即通过机器学习,以抽取的所述系统日志的关键字段作为关键指标参数,并对所述系统日志的关键指标参数建立参数作用关系图,并进而进行步骤140,其中,所述关键指标参数包括访问数量、权限更改、错误信息中的一种或两种以上的组合。

在步骤132中,根据所述因果关系量值建立所述it故障的定量因果关系图。

在本发明示例性实施例的一种实施场景中,可以用格兰杰因果关系检验对关键指标参数两两检验,根据计算得出的因果关系量值建立故障的定量因果关系图,将因果关系量值最大的路径认为是故障传播路径,该故障传播路径同时也为所述it故障的发生原因。

在本发明示例性实施例的另一种实施场景中,所述时间序列数据的各相关特征之间的因果关系量值的大小作为评价为所述it故障的发生原因的依据,还包括:

确定所述定量因果关系图中最大的路径为it故障传播路径。

本发明的方法,通过抽取所述系统日志的关键字段,对所述关键字段进行统计以得到系统日志的时间序列数据,建立格兰杰因果关系后通过计算图中各时间序列数据的相关特征之间的因果关系量值确定故障原因,并能够在格兰杰因果关系图中不断加入新的参数,实现了通过机器学习的方式自动化完成故障根因分析过程,帮助用户快速找出故障发生原因,减少故障诊断时间(meantimetodiagonise,mttd),使系统最快恢复正常。

图4为本发明实施例五提供的一种利用时序相关性进行it故障根因分析的装置的结构示意图,该装置可由软件和/或硬件实现,一般地集成于机器学习中,可通过利用时序相关性进行it故障根因分析的方法来实现。如图所示,本实施例可以以上述实施例为基础,提供了一种利用时序相关性进行it故障根因分析的装置,其主要包括了获取模块410、统计模块420、自动提取模块430以及故障确定模块440。

其中的获取模块410,用于获取系统日志;

其中的统计模块420,用于抽取所述系统日志的关键字段,对所述关键字段进行统计以得到系统日志的时间序列数据;

其中的自动提取模块430,用于基于量化假设检测自动提取所述时间序列数据的相关特征;

其中的故障确定模块440,用于当it故障发生时,通过格兰杰因果关系对所述时间序列数据的相关特征进行检验,其中,所述时间序列数据的各相关特征之间的因果关系量值的大小作为评价为所述it故障的发生原因的依据。

在本发明示例性实施例的另一种实施场景中,如图5所示,所述统计模块420包括:

抽取子模块421,用于抽取所述系统日志的关键字段;

统计子模块422,用于对所述系统日志的关键指标参数进行统计得到所述系统日志的时间序列数据;

其中,所述关键指标参数包括访问数量、权限更改、错误信息中的一种或两种以上的组合。

在本发明示例性实施例的另一种实施场景中,所述统计模块还包括:

参数化设置模块,用于对所述关键字段进行参数化设置;

参数图建立模块,用于对所述系统日志得到的参数化后的关键字段建立参数作用关系图;

所述故障确定模块还用于:通过格兰杰因果关系对所述参数化后的关键字段进行检验。

上述的装置,所述故障确定模块440还用于:

通过格兰杰因果关系对所述参数化后的关键字段进行检验,得出参数化后的关键字段的因果关系量值;

根据所述因果关系量值建立所述it故障的定量因果关系图。

上述的装置,所述故障确定模块440,还包括:

路径确定子模块,用于确定所述定量因果关系图中最大的路径为it故障传播路径。

上述实施例中提供的利用时序相关性进行it故障根因分析的装置可执行本发明中任意实施例中所提供的利用时序相关性进行it故障根因分析的方法,具备执行该方法相应的功能模块和有益效果,未在上述实施例中详细描述的技术细节,可参见本发明任意实施例中所提供的利用时序相关性进行it故障根因分析的方法。

将意识到的是,本发明也扩展到适合于将本发明付诸实践的计算机程序,特别是载体上或者载体中的计算机程序。程序可以以源代码、目标代码、代码中间源和诸如部分编译的形式的目标代码的形式,或者以任何其它适合在按照本发明的方法的实现中使用的形式。也将注意的是,这样的程序可能具有许多不同的构架设计。例如,实现按照本发明的方法或者系统的功能性的程序代码可能被再分为一个或者多个子例程。

用于在这些子例程中间分布功能性的许多不同方式将对技术人员而言是明显的。子例程可以一起存储在一个可执行文件中,从而形成自含式的程序。这样的可执行文件可以包括计算机可执行指令,例如处理器指令和/或解释器指令(例如,java解释器指令)。可替换地,子例程的一个或者多个或者所有子例程都可以存储在至少一个外部库文件中,并且与主程序静态地或者动态地(例如在运行时间)链接。主程序含有对子例程中的至少一个的至少一个调用。子例程也可以包括对彼此的函数调用。涉及计算机程序产品的实施例包括对应于所阐明方法中至少一种方法的处理步骤的每一步骤的计算机可执行指令。这些指令可以被再分成子例程和/或被存储在一个或者多个可能静态或者动态链接的文件中。

另一个涉及计算机程序产品的实施例包括对应于所阐明的系统和/或产品中至少一个的装置中每个装置的计算机可执行指令。这些指令可以被再分成子例程和/或被存储在一个或者多个可能静态或者动态链接的文件中。

计算机程序的载体可以是能够运载程序的任何实体或者装置。例如,载体可以包含存储介质,诸如(rom例如cdrom或者半导体rom)或者磁记录介质(例如软盘或者硬盘)。进一步地,载体可以是可传输的载体,诸如电学或者光学信号,其可以经由电缆或者光缆,或者通过无线电或者其它手段传递。当程序具体化为这样的信号时,载体可以由这样的线缆或者其它装置或者装置组成。可替换地,载体可以是其中嵌入有程序的集成电路,所述集成电路适合于执行相关方法,或者供相关方法的执行所用。

应该留意的是,上文提到的实施例是举例说明本发明,而不是限制本发明,并且本领域的技术人员将能够设计许多可替换的实施例,而不会偏离所附权利要求的范围。在权利要求中,任何放置在圆括号之间的参考符号不应被解读为是对权利要求的限制。动词“包括”和其词形变化的使用不排除除了在权利要求中记载的那些之外的元素或者步骤的存在。在元素之前的冠词“一”或者“一个”不排除复数个这样的元素的存在。本发明可以通过包括几个明显不同的元件的硬件,以及通过适当编程的计算机而实现。在列举几种装置的装置权利要求中,这些装置中的几种可以通过硬件的同一项来体现。在相互不同的从属权利要求中陈述某些措施的单纯事实并不表明这些措施的组合不能被用来获益。

如果期望的话,这里所讨论的不同功能可以以不同顺序执行和/或彼此同时执行。此外,如果期望的话,以上所描述的一个或多个功能可以是可选的或者可以进行组合。

如果期望的话,上文所讨论的各步骤并不限于各实施例中的执行顺序,不同步骤可以以不同顺序执行和/或彼此同时执行。此外,在其他实施例中,以上所描述的一个或多个步骤可以是可选的或者可以进行组合。

虽然本发明的各个方面在独立权利要求中给出,但是本发明的其它方面包括来自所描述实施方式的特征和/或具有独立权利要求的特征的从属权利要求的组合,而并非仅是权利要求中所明确给出的组合。

这里所要注意的是,虽然以上描述了本发明的示例实施方式,但是这些描述并不应当以限制的含义进行理解。相反,可以进行若干种变化和修改而并不背离如所附权利要求中所限定的本发明的范围。

本领域普通技术人员应该明白,本发明实施例的装置中的各模块可以用通用的计算装置来实现,各模块可以集中在单个计算装置或者计算装置组成的网络组中,本发明实施例中的装置对应于前述实施例中的方法,其可以通过可执行的程序代码实现,也可以通过集成电路组合的方式来实现,因此本发明并不局限于特定的硬件或者软件及其结合。

本领域普通技术人员应该明白,本发明实施例的装置中的各模块可以用通用的移动终端来实现,各模块可以集中在单个移动终端或者移动终端组成的装置组合中,本发明实施例中的装置对应于前述实施例中的方法,其可以通过编辑可执行的程序代码实现,也可以通过集成电路组合的方式来实现,因此本发明并不局限于特定的硬件或者软件及其结合。

注意,上述仅为本发明的示例性实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。这里无需也无法对所有的实施方式予以穷举。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,凡在本发明的精神和和原则之内所引伸出的任何显而易见的变化或者变动仍处于本发明权利要求所保护的范围之中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1