通过自然语言处理进行运维排障的方法和装置与流程

文档序号:12905975阅读:444来源:国知局
通过自然语言处理进行运维排障的方法和装置与流程

本发明实施例涉及信息处理技术领域,尤其涉及一种通过自然语言处理进行运维排障的方法和装置。



背景技术:

随着信息化进程的飞速发展,计算机系统已经成为现代企业的一部分。近年来各行业信息化建设不断完善,业务的操作也越来越集中于信息系统或信息平台。保证系统正常运行的运维工作也日渐重要,如何在突发状况出现时及时修复解决是运维人员的工作重点之一。

目前针对突发故障,业界普遍采用逐步排查检测法,例如针对网络中断故障:

当客户端发生网络中断的故障后,首先判断用户(或终端)到三层网关设备之间通道是否存在问题,从用户(或终端)上ping网关是否能通,用户(或终端)自身是否发生问题。

二层网络是否正常:如果用户(或终端)ping网关不通,则检查下端二层网络、用户网线、三层网关设备以下网线或光纤是否正常,端口是否up,是否有crcerror报文统计。检查二层网络中的交换机设备是否能正常学习到用户mac地址,检查三层网关设备与二层交换设备之间的连通性、二层设备的cpu利用率是否正常,是否有二层环路造成或病毒攻击。首先确保用户(或终端)能正常ping通网关设备

三层网络是否正常:可以通过telnet/console口登陆三层设备,如果有问题,通过ping、tracert、showlogging、端口统计、cpu利用率统计、链路状态、路由表状态、mpls标签表状态等对问题进行分析,在业务忙时,不得擅自重启或倒换三层核心路由器等设备。

如果用户上网或承载业务仍然存在故障,可以查看dns等外界环境是否正常,承载的业务本身是否发生问题,查看相关告警,然后做出相应的处理。

这种逐步排查的工作方式需要耗费运维人员的大量精力进行人工排障,很容易出现漏查等问题,从而在管理上不能做到准确的安全运维,存在漏洞。而且出现问题后逐步排查实时性较差,不能及时发现问题。用户需要一种同时满足实时性、智能化和安全性良好的故障应对方法。

业界长期以来对事后分析的重视度不高,因为运维人员面对的故障原因多种多样,事后分析的结果很难明显的作用于下一次故障的预防或处理上。

其它问题,如果现场不能解决,就通报关键用户并联系厂商解决。因此,目前暂时还没有能够较好地解决上述问题的方法或装置出现。



技术实现要素:

为了克服相关技术中存在的技术问题,本发明提供一种通过自然语言处理进行运维排障的方法和装置,以实现通过故障知识数据库实现在故障发生时快速及时地得到相关的故障应对方案。

第一方面,本发明实施例提供了一种通过自然语言处理进行运维排障的方法,其具体的技术方案包括:

根据历史数据中存在的故障现象、故障原因以及故障解决方案进行分析,建立故障现象、故障原因以及故障解决方案三者关联关系的故障知识数据库;

当发生故障时,获取与故障相关的系统日志;

提取所述故障知识数据库中故障现象的关键字段,并与所述系统日志进行匹配;

当所述故障知识数据库中的关键字段与所述系统日志匹配成功时,推送所述故障知识数据库中的与所述关键字段关联的故障解决方案。

结合另一方面,在另一方面的一种可能出现的实现方式中,当所述故障知识数据库中的关键字段与所述系统日志匹配未成功时,根据用户关于新故障已形成的反馈解决方案将该次新故障的新故障现象、新故障原因以及新故障解决方案添加到所述故障知识数据库中。

结合另一方面,在另一方面的一种可能出现的实现方式中,所述方法还包括:

对添加到所述故障知识数据库中的每一新故障现象、新故障原因以及新故障解决方案均设置对应的新关键字段,以在所述提取所述故障知识数据库中的关键字段,并与所述系统日志进行匹配的步骤中,利用所述新关键字段与所述系统日志进行匹配。

结合另一方面,在另一方面的一种可能出现的实现方式中,所述提取所述故障知识数据库中故障现象的关键字段,并与所述系统日志进行匹配,包括:

通过自然语言处理提取故障现象的表征描述信息或发生原因中的至少一个;

将所述故障现象的表征描述信息或发生原因中的至少一个作为关键字段;

以所述关键字段对所述故障知识数据库中已保存的故障现象的关键字段进行匹配。

结合另一方面,在另一方面的一种可能出现的实现方式中,所述当发生故障时,获取与故障相关的系统日志,包括:

接收系统日志;

对所述系统日志中的非结构化数据转化为结构化日志数据;

所述提取所述故障知识数据库中故障现象的关键字段,并与所述系统日志进行匹配,包括:

对转化后的结构化日志数据中的操作对象、操作时间、操作地点、操作类型以及授权信息中的一种或二种以上的组合作为关键字段信息,以与所述故障知识数据库中故障现象的关键字段进行匹配。

第二方面,本发明实施例还提供了一种通过自然语言处理进行运维排障的装置,其具体的技术方案包括:

库建立模块,用于根据历史数据中存在的故障现象、故障原因以及故障解决方案进行分析,建立故障现象、故障原因以及故障解决方案三者关联关系的故障知识数据库;

获取模块,用于当发生故障时,获取与故障相关的系统日志;

匹配模块,用于提取所述故障知识数据库中故障现象的关键字段,并与所述系统日志进行匹配;

推送模块,用于当所述故障知识数据库中的关键字段与所述系统日志匹配成功时,推送所述故障知识数据库中的与所述关键字段关联的故障解决方案。

结合另一方面,在另一方面的一种可能出现的实现方式中,所述装置还包括:智能学习模块,用于当所述故障知识数据库中的关键字段与所述系统日志匹配未成功时,根据用户关于新故障已形成的反馈解决方案将该次新故障的新故障现象、新故障原因以及新故障解决方案添加到所述故障知识数据库中。

结合另一方面,在另一方面的一种可能出现的实现方式中,所述装置还包括:

字段匹配模块,用于对添加到所述故障知识数据库中的每一新故障现象、新故障原因以及新故障解决方案均设置对应的新关键字段,以在所述提取所述故障知识数据库中的关键字段,并与所述系统日志进行匹配的步骤中,利用所述新关键字段与所述系统日志进行匹配。

结合另一方面,在另一方面的一种可能出现的实现方式中,所述匹配模块,包括:

自然语言处理子模块,用于通过自然语言处理提取故障现象的表征描述信息或发生原因中的至少一个;

字段选取子模块,用于将所述故障现象的表征描述信息或发生原因中的至少一个作为关键字段;

所述匹配匹配还用于:以所述关键字段对所述故障知识数据库中已保存的故障现象的关键字段进行匹配。

结合另一方面,在另一方面的一种可能出现的实现方式中,所述获取模块,包括:

接收模块,用于接收系统日志;

转化模块,用于对所述系统日志中的非结构化数据转化为结构化日志数据;

所述匹配模块还用于:对转化后的结构化日志数据中的操作对象、操作时间、操作地点、操作类型以及授权信息中的一种或二种以上的组合作为关键字段信息,以与所述故障知识数据库中故障现象的关键字段进行匹配。

本发明通过建立的故障知识数据库使得在故障发生时快速查找得到相关的故障应对方案,大大提高排除故障的效率,节约时间和人力成本,比原来的逐步排查快速省力,帮助用户减少故障恢复时间(meantimetorepair,mttr),并且能够通过用户的反馈不断强化故障应对方案的故障知识数据库,解决目前人工排查故障效率低下的问题。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种通过自然语言处理进行运维排障的方法的流程示意图。

图2是根据一示例性实施例示出的匹配过程的流程图。

图3是根据一示例性实施例示出的结构化后匹配方法的流程图。

图4是根据一示例性实施例示出的一种通过自然语言处理进行运维排障的装置的框图。

图5是根据一示例性实施例示出的匹配时转化匹配模块的装置框图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图中将各步骤描述成顺序的处理,但是其中的许多步骤可以并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排,当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图内的其它步骤。处理可以对应于方法、函数、规程、子例程、子程序等。

本发明涉及一种通过自然语言处理进行运维排障的方法及其对应的装置,其主要运用于需要对it系统进行运营维护以及故障排除的场景中,其基本思想是:根据历史数据中存在的故障现象、故障原因以及故障解决方案进行分析,建立故障现象、故障原因以及故障解决方案三者关联关系的故障知识数据库并在后期不断地对该故障知识数据库进行强化,使得当系统出现故障或异常时,故障知识数据库能够根据出现故障的故障现象的关键字段快速地提供解决方案,提供了一种同时满足实时性、智能化和安全性良好的故障应对方法。

本实施例可适用于带有机器学习模块的it企业终端中以进行快速故障排除的情况中,该方法可以由机器学习模块来执行,其中该装置可以由软件和/或硬件来实现,如图1所示,为本发明的通过自然语言处理进行运维排障的方法的流程示意图,所述方法具体包括如下步骤:

在步骤110中,根据历史数据中存在的故障现象、故障原因以及故障解决方案进行分析,建立故障现象、故障原因以及故障解决方案三者关联关系的故障知识数据库;

对于历史数据中存在的故障现象、故障原因以及故障解决方案进行分析,可通过建立模型的方式对历史数据中的故障相关数据进行选取,并进而建立故障现象、故障原因以及故障解决方案的映射关系,从而形成所述故障知识数据库。

在本发明示例性实施例的一种实施场景中,还可以对所述故障解决方案中的各类未输入所述故障知识库中的故障进行排查,通过人工输入的方式将该遗漏的故障现象、故障原因以及故障解决方案的映射关系输入所述故障知识数据库。

在步骤120中,当发生故障时,获取与故障相关的系统日志;

当发生故障时接收系统日志,所述系统日志包括设备的操作系统运行时产生的系统日志、应用程序日志以及安全日志等;在一种可行的实施方式中,其可以通过对操作系统中运行中输入eventvwr.msc调用系统的事件查看器对系统日志进行接收。

在步骤130中,提取所述故障知识数据库中故障现象的关键字段,并与所述系统日志进行匹配;

在本步骤中,其可以通过自然语言处理方法对所述的关键字段进行提取,自然语言处理是计算机科学、人工智能、语言学关注计算机和人类(自然)语言之间的相互作用的领域,其处理方式可以是机器学习跟模式识别、统计学习、数据挖掘、计算机视觉、语音识别等,其具体的方式本发明并不限制,如图2所示,其具体的方法可包括如下步骤;

在步骤131中,通过自然语言处理提取故障现象的表征描述信息或发生原因中的至少一个;

在步骤132中,将所述故障现象的表征描述信息或发生原因中的至少一个作为关键字段;

在步骤133中,以所述关键字段对所述故障知识数据库中已保存的故障现象的关键字段进行匹配。

所述系统日志的关键字段可以为表示某一类型的信息,通过故障现象的表征描述信息和/或发生原因作为关键字段的方式,可以通过该关键字段更准确地所述故障知识数据库中进行最为相同或者相似的故障现象的匹配,进而查找出最适合的故障解决方案。

在步骤140中,当所述故障知识数据库中的关键字段与所述系统日志匹配成功时,推送所述故障知识数据库中的与所述关键字段关联的故障解决方案。

推送与所述故障现象最匹配的故障解决方案,即可以使得根据该故障解决方案解决故障,其故障解决效率得到了大幅提升。

同时,在本发明示例性实施例的实施场景中,用户还可以对故障知识数据库提供的故障解决方案的推送进行设置,例如“共享”、“感兴趣,下次主动提醒”、“不感兴趣,取消提醒”以及“删除”、“推送方案无法解决故障”等,使得故障知识数据库能够根据用户的设置进一步对已保存的故障现象、故障原因以及故障解决方案的映射关系进行优化,也能够根据用户的设置更人性化地进行提醒或推送服务。

本发明的方法,通过建立的故障知识数据库使得在故障发生时快速查找得到相关的故障应对方案,大大提高排除故障的效率,节约时间和人力成本,比原来的逐步排查快速省力,帮助用户减少故障恢复时间(meantimetorepair,mttr),并且能够通过用户的反馈不断强化故障应对方案的故障知识数据库,解决目前人工排查故障效率低下的问题。

在本发明示例性实施例的一种实施场景中,当所述故障知识数据库中的关键字段与所述系统日志匹配未成功时,还可以实现对所述故障知识数据库的不断强化,结合图1所示,这一强化过程可包括如下步骤;

在步骤150中,根据用户关于新故障已形成的反馈解决方案将该次新故障的新故障现象、新故障原因以及新故障解决方案添加到所述故障知识数据库中。

对于每一次出现的新故障,可以通过网络查询其对应的新故障原因以及新故障解决方案,可以通过人工输入的方法将该新故障对应的新故障原因以及新故障解决方案添加到所述故障知识数据库中以持续强化所述故障知识数据库,不断丰富能够解决故障的数据,从而应对不断出现的新的故障问题。

对于所推荐或推送的故障应对方案,在一种可行的实施方式中,其还可以注明故障原因、故障等级、发生概率等信息,使用户可详细查看每个故障应对方案所匹配的日志信息。

在本发明示例性实施例的另一种实施场景中,所述方法还包括:

对添加到所述故障知识数据库中的每一新故障现象、新故障原因以及新故障解决方案均设置对应的新关键字段,以在所述提取所述故障知识数据库中的关键字段,并与所述系统日志进行匹配的步骤中,利用所述新关键字段与所述系统日志进行匹配。

对于新故障的关键字段,当其也所述故障知识数据库中已保存的故障的表征描述信息较为相似、相似或相同时,其可以根据其出现的时间对该关键字段带上时间标签,以便于对其进行区分,便于在后续的故障解决时推送更为准确的故障解决方案。

在本发明示例性实施例的另一种实施场景中,所述步骤120中还可以包括对系统日志中的数据进行结构化转化,以便于对结构化转化后的系统日志进行关键字段的匹配,如图3所示,这一过程可包括如下步骤:

在步骤121中,接收系统日志;

在步骤122中,对所述系统日志中的非结构化数据转化为结构化日志数据;

所述提取所述故障知识数据库中故障现象的关键字段,并与所述系统日志进行匹配,包括:

在步骤130’中,对转化后的结构化日志数据中的操作对象、操作时间、操作地点、操作类型以及授权信息中的一种或二种以上的组合作为关键字段信息,以与所述故障知识数据库中故障现象的关键字段进行匹配。

结构化数据可以用二维表结构来逻辑表达实现,而从二维表结构中选取关键字段则可以实现更高的效率以及更低的延误,使得当用户从所述故障知识数据库中输入故障查询方案时,可以自动且及时地匹配实时入库的关键字,推荐故障应对方案。

本发明的方法,可以极大地提高排除故障的效率,帮助用户减少故障恢复时间(meantimetorepair,mttr),节约时间和人力成本,比原来的逐步排查快速省力。

图4为本发明实施例五提供的一种通过自然语言处理进行运维排障的装置的结构示意图,该装置可由软件和/或硬件实现,一般地集成于企业it(informationtechnology,信息技术)终端中,可通过自然语言处理进行运维排障的的方法来实现。如图所示,本实施例可以以上述实施例为基础,提供了一种通过自然语言处理进行运维排障的装置,其主要包括了库建立模块410、获取模块420、匹配模块430以及推送模块440。

其中的库建立模块410,用于根据历史数据中存在的故障现象、故障原因以及故障解决方案进行分析,建立故障现象、故障原因以及故障解决方案三者关联关系的故障知识数据库;

获取模块420,用于当发生故障时,获取与故障相关的系统日志;

匹配模块430,用于提取所述故障知识数据库中故障现象的关键字段,并与所述系统日志进行匹配;

推送模块440,用于当所述故障知识数据库中的关键字段与所述系统日志匹配成功时,推送所述故障知识数据库中的与所述关键字段关联的故障解决方案。

在本发明示例性实施例的另一种实施场景中,所述装置还包括:智能学习模块450,用于当所述故障知识数据库中的关键字段与所述系统日志匹配未成功时,根据用户关于新故障已形成的反馈解决方案将该次新故障的新故障现象、新故障原因以及新故障解决方案添加到所述故障知识数据库中。

在本发明示例性实施例的另一种实施场景中,所述装置还包括:

字段匹配模块,用于对添加到所述故障知识数据库中的每一新故障现象、新故障原因以及新故障解决方案均设置对应的新关键字段,以在所述提取所述故障知识数据库中的关键字段,并与所述系统日志进行匹配的步骤中,利用所述新关键字段与所述系统日志进行匹配。

在本发明示例性实施例的另一种实施场景中,所述匹配模块,包括:

自然语言处理子模块,用于通过自然语言处理提取故障现象的表征描述信息或发生原因中的至少一个;

字段选取子模块,用于将所述故障现象的表征描述信息或发生原因中的至少一个作为关键字段;

所述匹配匹配还用于:以所述关键字段对所述故障知识数据库中已保存的故障现象的关键字段进行匹配。

在本发明示例性实施例的另一种实施场景中,如图5所示,所述获取模块410,包括:

接收模块411,用于接收系统日志;

转化模块412,用于对所述系统日志中的非结构化数据转化为结构化日志数据;

所述匹配模块还包括:转化匹配模块413,对转化后的结构化日志数据中的操作对象、操作时间、操作地点、操作类型以及授权信息中的一种或二种以上的组合作为关键字段信息,以与所述故障知识数据库中故障现象的关键字段进行匹配。

上述实施例中提供的通过自然语言处理进行运维排障的装置可执行本发明中任意实施例中所提供的通过自然语言处理进行运维排障的方法,具备执行该方法相应的功能模块和有益效果,未在上述实施例中详细描述的技术细节,可参见本发明任意实施例中所提供的通过自然语言处理进行运维排障的方法。

将意识到的是,本发明也扩展到适合于将本发明付诸实践的计算机程序,特别是载体上或者载体中的计算机程序。程序可以以源代码、目标代码、代码中间源和诸如部分编译的形式的目标代码的形式,或者以任何其它适合在按照本发明的方法的实现中使用的形式。也将注意的是,这样的程序可能具有许多不同的构架设计。例如,实现按照本发明的方法或者系统的功能性的程序代码可能被再分为一个或者多个子例程。

用于在这些子例程中间分布功能性的许多不同方式将对技术人员而言是明显的。子例程可以一起存储在一个可执行文件中,从而形成自含式的程序。这样的可执行文件可以包括计算机可执行指令,例如处理器指令和/或解释器指令(例如,java解释器指令)。可替换地,子例程的一个或者多个或者所有子例程都可以存储在至少一个外部库文件中,并且与主程序静态地或者动态地(例如在运行时间)链接。主程序含有对子例程中的至少一个的至少一个调用。子例程也可以包括对彼此的函数调用。涉及计算机程序产品的实施例包括对应于所阐明方法中至少一种方法的处理步骤的每一步骤的计算机可执行指令。这些指令可以被再分成子例程和/或被存储在一个或者多个可能静态或者动态链接的文件中。

另一个涉及计算机程序产品的实施例包括对应于所阐明的系统和/或产品中至少一个的装置中每个装置的计算机可执行指令。这些指令可以被再分成子例程和/或被存储在一个或者多个可能静态或者动态链接的文件中。

计算机程序的载体可以是能够运载程序的任何实体或者装置。例如,载体可以包含存储介质,诸如(rom例如cdrom或者半导体rom)或者磁记录介质(例如软盘或者硬盘)。进一步地,载体可以是可传输的载体,诸如电学或者光学信号,其可以经由电缆或者光缆,或者通过无线电或者其它手段传递。当程序具体化为这样的信号时,载体可以由这样的线缆或者其它装置或者装置组成。可替换地,载体可以是其中嵌入有程序的集成电路,所述集成电路适合于执行相关方法,或者供相关方法的执行所用。

应该留意的是,上文提到的实施例是举例说明本发明,而不是限制本发明,并且本领域的技术人员将能够设计许多可替换的实施例,而不会偏离所附权利要求的范围。在权利要求中,任何放置在圆括号之间的参考符号不应被解读为是对权利要求的限制。动词“包括”和其词形变化的使用不排除除了在权利要求中记载的那些之外的元素或者步骤的存在。在元素之前的冠词“一”或者“一个”不排除复数个这样的元素的存在。本发明可以通过包括几个明显不同的元件的硬件,以及通过适当编程的计算机而实现。在列举几种装置的装置权利要求中,这些装置中的几种可以通过硬件的同一项来体现。在相互不同的从属权利要求中陈述某些措施的单纯事实并不表明这些措施的组合不能被用来获益。

如果期望的话,这里所讨论的不同功能可以以不同顺序执行和/或彼此同时执行。此外,如果期望的话,以上所描述的一个或多个功能可以是可选的或者可以进行组合。

如果期望的话,上文所讨论的各步骤并不限于各实施例中的执行顺序,不同步骤可以以不同顺序执行和/或彼此同时执行。此外,在其他实施例中,以上所描述的一个或多个步骤可以是可选的或者可以进行组合。

虽然本发明的各个方面在独立权利要求中给出,但是本发明的其它方面包括来自所描述实施方式的特征和/或具有独立权利要求的特征的从属权利要求的组合,而并非仅是权利要求中所明确给出的组合。

这里所要注意的是,虽然以上描述了本发明的示例实施方式,但是这些描述并不应当以限制的含义进行理解。相反,可以进行若干种变化和修改而并不背离如所附权利要求中所限定的本发明的范围。

本领域普通技术人员应该明白,本发明实施例的装置中的各模块可以用通用的计算装置来实现,各模块可以集中在单个计算装置或者计算装置组成的网络组中,本发明实施例中的装置对应于前述实施例中的方法,其可以通过可执行的程序代码实现,也可以通过集成电路组合的方式来实现,因此本发明并不局限于特定的硬件或者软件及其结合。

本领域普通技术人员应该明白,本发明实施例的装置中的各模块可以用通用的移动终端来实现,各模块可以集中在单个移动终端或者移动终端组成的装置组合中,本发明实施例中的装置对应于前述实施例中的方法,其可以通过编辑可执行的程序代码实现,也可以通过集成电路组合的方式来实现,因此本发明并不局限于特定的硬件或者软件及其结合。

注意,上述仅为本发明的示例性实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。这里无需也无法对所有的实施方式予以穷举。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,凡在本发明的精神和和原则之内所引伸出的任何显而易见的变化或者变动仍处于本发明权利要求所保护的范围之中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1