一种日志分析方法与装置与流程

文档序号:17130504发布日期:2019-03-16 01:08阅读:217来源:国知局
一种日志分析方法与装置与流程
本发明涉及计算机领域,更具体地,特别是指一种日志分析方法与装置。
背景技术
:白盒交换机是一种软硬件分离的新型交换机。只要购买odm(原始设计制造商)的交换机裸机硬件并搭配可选的开源操作系统就可以构成完整的交换机系统来出售。白盒交换机上的操作系统(本质上是linux系统)通常会运行多种服务,开启数十种软件,对主板系统、交换、路由逻辑进行管理和监测,运维人员也会定期对机器进行维护。这一些列的操作都会产生大量的操作数据。为了保护交换机的安全,通常操作系统及运行的服务都会对一些关键操作进行日志记录,比如用户远程登录、连接数据库、程序崩溃、网络故障等。将关键信息记录日志以后,在日后出现问题时方便进行问题定位。操作系统可以实时收集这些日志信息,并发送至远端专有的日志服务器进行存储,便于查看。现有技术在发生问题后人工地从服务器中提取相关日志,将其整理成表格或其他固定格式的文件,然后按照时间点找到出现问题的时刻,对该处的日志进行分析,定位到问题所在,然后进行处理。由于日志文件可能非常多,每个文件中还存有大量的日志记录,因此如何对其中的内容进行分析、提取出告警和错误信息比较复杂。对现有技术中难以从日志文件中提取出所需的特定信息的问题,目前尚未有有效的解决方案。技术实现要素:有鉴于此,本发明实施例的目的在于提出一种日志分析方法与装置,能够从不同日志文件或不同类型的日志文件中提取和分析日志信息,以自动推断日志内容,解放人工劳动力,降低日志分析成本。基于上述目的,本发明实施例的一方面提供了一种日志分析方法,应用于交换机,包括以下步骤:收集现有日志并从现有日志中提取出日志信息;对日志信息进行数字化处理以获得日志数据;将日志数据重构为机器学习模型可处理的数据集,数据集包括训练集和测试集;使用训练集训练多个机器学习模型;使用测试集来测试训练得到的机器学习模型并根据测试结果来进行选择;和使用所选择的机器学习模型来分析新日志。在一些实施方式中,提取的日志信息包括文字内容信息和等级信息;生成的日志数据包括文字内容数据和等级数据。在一些实施方式中,数字化处理包括:将每个文字内容信息拆分为多个单词;使用单词总表对多个单词进行统计,在单词总表中出现的单词记数字1,未出现的记数字0,生成统计结果;根据统计结果为每个文字内容信息生成作为文字内容数据的数组。在一些实施方式中,单词总表为将所有文字内容信息拆分出的不同单词所形成的表。在一些实施方式中,数字化处理还包括:为每个日志等级赋予一个相应的数字;将每个等级信息根据与其相对应的数字来生成等级数据。在一些实施方式中,重构包括将所有文字内容数据和等级数据形成作为数据集的矩阵。在一些实施方式中,训练集的内容不同于测试集的内容并且训练集的容量大于测试集的容量。在一些实施方式中,根据测试结果来进行选择包括:根据测试结果选择测试精度最高的机器学习模型。在一些实施方式中,多个机器学习模型包括knn算法或逻辑回归算法。本发明实施例的另一方面,还提供了一种日志分析装置,包括:至少一个处理器;存储器,存储器用于存储可在处理器上运行的程序代码,其中处理器在运行程序代码时执行上述的日志分析方法。本发明具有以下有益技术效果:本发明实施例提供的日志分析方法与装置,通过收集现有日志并从现有日志中提取出日志信息、对日志信息进行数字化处理以获得日志数据、将日志数据重构为机器学习模型可处理的数据集,数据集包括训练集和测试集、使用训练集训练多个机器学习模型、使用测试集来测试训练得到的机器学习模型并根据测试结果来进行选择、使用所选择的机器学习模型来分析新日志的技术方案,能够从不同日志文件或不同类型的日志文件中提取和分析日志信息,以自动推断日志内容,解放人工劳动力,降低日志分析成本。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。图1为本发明提供的日志分析方法的流程示意图。具体实施方式为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。基于上述目的,本发明实施例的第一个方面,提出了一种能够从不同日志文件或不同类型的日志文件中提取和分析日志信息的方法的实施例。图1示出的是本发明提供的日志分析方法的实施例的流程示意图。所述日志分析方法,包括以下步骤:步骤s101,收集现有日志并从现有日志中提取出日志信息;步骤s103,对日志信息进行数字化处理获得日志数据;步骤s105,将日志数据重构为机器学习模型可处理的数据集,数据集包括训练集和测试集;步骤s107,使用训练集训练多个机器学习模型;步骤s109,使用测试集来测试训练得到的机器学习模型并根据测试结果来进行选择;和步骤s111,使用所选择的机器学习模型来分析新日志。本发明实施例公开了在白盒交换机上部署一种基于机器学习算法的日志分析方法。本方法收集大量的已有日志信息作为训练集,并构建训练模型,通过对训练集的学习与测试,形成高精度的预测模型。然后,让此模型运行在白盒交换机系统中,自动分析采集到的每一条新的交换机日志,并预测出该条日志的严重等级。若发现是个高危等级的日志,则立即通过邮件或其他手段通知维护人员,做到及时响应处理问题。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(rom)或随机存储记忆体(ram)等。所述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。在一些实施方式中,提取的日志信息包括文字内容信息和等级信息;生成的日志数据包括文字内容数据和等级数据。通常来说日志文件中的一条日志记录通常会包括许多信息,本发明实施例的预测模型需要建立实际文字内容(如英文)与该条日志等级之间的关系,因此其他诸如发生时间、用户、所在进程等对日志等级影响不大的信息可以被忽略。当然,如果上述额外信息中的一项或多项对于其它预测模型使必要的或有意义的,本领域技术人员也可以按需保留。在一些实施方式中,数字化处理包括:将每个文字内容信息拆分为多个单词;使用单词总表对多个单词进行统计,在单词总表中出现的单词记数字1,未出现的记数字0,生成统计结果;根据统计结果为每个文字内容信息生成作为文字内容数据的数组。根据本发明实施例公开的方法还可以被实现为由cpu执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被cpu执行时,执行本发明实施例公开的方法中限定的上述功能。上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。在一些实施方式中,单词总表为将所有文字内容信息拆分出的不同单词所形成的表。在一些实施方式中,数字化处理还包括:为每个日志等级赋予一个相应的数字;将每个等级信息根据与其相对应的数字来生成等级数据。计算机对数字更为敏感,因此需要通过特定方法来将文字信息转换为数字信息。对于简单的日志等级,可以为个日志等级赋予一个数字,如‘error’对应0,‘warning’对应1,‘normal’对应2等等。而日志文字内容则复杂的多,无法为每条日志用单独的数字来表示。本发明实施例将日志信息中的所有日志内容拆分为单词生成单词总表,并构建一维数组。可以确定,每条日志的文字内容只包括单词总表中的一小部分;若该条日志的文字内容包括对应单词,则记数字1,否则记数字0。举例说明:对于文字信息为“useradminlogin”、等级为“normal”的日志记录log1,构建的一维数组如下:login……admin……user…levellog1100100102其中“…”代表出现在单词总表中的其它单词。由于日志文字内容千变万化,所以一维数组的列可能会非常多。本发明实施例将最后一列定为level,即该条日志的等级。本领域技术人员应当明白,这里公开所描述的数字化处理步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现所述的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。在一些实施方式中,重构包括将所有文字内容数据和等级数据形成作为数据集的矩阵。多个上述形式的一维数组被作为行而集合成二维矩阵df,即机器学习所使用的数据集。训练集的内容不同于测试集的并且训练集的容量大于测试集的。在机器学习中,将与单词总表对应的列称为feature,日志等级称为label。通过大量已有的feature与label数据对机器学习模型进行训练,从而使其能够对未来出现的日志内容进行预测。虽然日志文字内容可能会非常繁多,但集合终究是有限的,因此可以通过对模型的大量训练来获得一个精度较高的结果。在本发明实施例中,例如获得交换机中十万条日志记录信息,从中提取文字内容信息和等级信息,编写程序进行数字化处理,形成具有十万个行的数据集。然后随机对这十万条数据进行分割,其中九万条作为训练集,剩余一万条作为测试集,以便测试经过训练的模型精度如何。在一些实施方式中,根据测试结果来选择训练得到的机器学习模型包括:根据测试结果选择测试精度最高的机器学习模型。在确定学习模型后,交换机中新出现的每条日志信息都将被分解为feature,然后经过模型后预测出对应的label,根据label确定的level来自动通知维护人员进行后续处理。本领域普通技术人员可以理解:实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(rom)或随机存储记忆体(ram)等。在一些实施方式中,多个机器学习模型包括knn算法或逻辑回归算法。由于日志分析是分类监督学习场景,因此knn或者逻辑回归等算法的学习模型是优选的。从上述实施例可以看出,本发明实施例提供的日志分析方法,通过收集现有日志并从现有日志中提取出日志信息、对日志信息进行数字化处理获得日志数据、将日志数据重构为机器学习模型可处理的数据集,数据集包括训练集和测试集、使用训练集训练多个机器学习模型、使用测试集来测试训练得到的机器学习模型并根据测试结果来进行选择、使用所选择的机器学习模型来分析新日志的技术方案,能够从不同日志文件或不同类型的日志文件中提取和分析日志信息,以自动推断日志内容,解放人工劳动力,降低日志分析成本。需要特别指出的是,上述日志分析方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于日志分析方法也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在所述实施例之上。基于上述目的,本发明实施例的第二个方面,提出了一种能够从不同日志文件或不同类型的日志文件中提取和分析日志信息的装置的实施例。所述日志分析装置包括至少一个处理器、和存储器,存储器存储有可在处理器上运行的程序代码,其中处理器在运行程序代码时执行上述的日志分析方法。本发明实施例公开所述的装置可为各种电子终端设备,例如手机、个人数字助理(pda)、平板电脑(pad)、智能电视等,也可以是大型终端设备,如服务器等,因此本发明实施例公开的保护范围不应限定为某种特定类型的装置、设备。本发明实施例公开所述的客户端可以是以电子硬件、计算机软件或两者的组合形式应用于上述任意一种电子终端设备中。从上述实施例可以看出,本发明实施例提供的日志分析装置,通过收集现有日志并从现有日志中提取出日志信息、对日志信息进行数字化处理获得日志数据、将日志数据重构为机器学习模型可处理的数据集,数据集包括训练集和测试集、使用训练集训练多个机器学习模型、使用测试集来测试训练得到的机器学习模型并根据测试结果来进行选择、使用所选择的机器学习模型来分析新日志的技术方案,能够从不同日志文件或不同类型的日志文件中提取和分析日志信息,以自动推断日志内容,解放人工劳动力,降低日志分析成本。需要特别指出的是,上述日志分析装置的实施例采用了所述日志分析方法的实施例来具体说明各模块的工作过程,本领域技术人员能够很容易想到,将这些模块应用到所述日志分析方法的其他实施例中。当然,由于所述日志分析方法实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于所述日志分析装置也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在所述实施例之上。以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上所述的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包括在本发明实施例的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1