日志分类方法、装置及电子设备与流程

文档序号：24729368发布日期：2021-04-20 11:37阅读：106来源：国知局

1.本发明实施例涉及数据分析技术领域，具体涉及一种日志分类方法、日志分类装置、其电子设备及计算机存储介质。

背景技术：

2.日志是各类应用系统在运行时产生的信息，如日常操作、网络访问、系统警告、系统错误等事件的相关属性与信息。
3.为了帮助开发者和维护者掌握系统运行的信息，日志内建于几乎所有的应用系统。其对于分析应用系统运行情况，提供系统故障的原因分析和监控预警有着重要的作用。
4.随着应用系统的规模日益庞大，复杂度逐渐提升，产生的日志数据量非常大，使得人工逐条分析日志成为一件成本极高且几乎不可能的任务。因此，通常会采用计算机辅助的方式，对大量的日志进行自动化分类，以降低日志数据的规模。
5.但是，应用系统的日志的数据类型也与系统监控指标存在很大的差异，应用系统的日志通常都是由应用系统架构自行吐出，或是开发人员自行编写规定的。日志中不具备类似于属性，数值的结构化特征，也没有特定的格式，日志通常表现为一串结合系统行为特征的自然语言串。
6.由此，在进行日志自动分类时，通常采用的方式是由技术人员预设各种日志分类规则，对日志进行规则匹配分类，或者是仅获取日志文本内容中的结构化数据部分(如路径、ip等)对日志进行分类。
7.在实现本发明实施例的过程中，发明人发现：现有的日志分类方法中，抛弃了日志中非结构化文本所蕴含的信息。因此，只适用于严格的格式化、结构化日志，对非结构化日志的分类精度较低。
8.另外，添加预设分类规则的方式对于专家经验知识依赖性强，局限性高，依赖开发人员在源程序上对日志文本的约束，对日志分析人员的系统、业务认知水平要求极高。
9.而且，伴随着业务支撑与应用系统的变更和扩张，日志的数据体量也会日益提高，日志格式变更频率也会提高。但当新格式的日志出现时，预先设定的分类规则会因为过度依赖日志的格式，无法对未曾出现过的格式日志进行精准分类，需要使用大量的精力和人力成本进行日志分类规则的变更和创建。

技术实现要素：

10.鉴于上述问题，本发明实施例提供了一种日志分类方法、日志分类装置、其电子设备及计算机存储介质，克服了上述现有技术中存在的问题。
11.根据本发明实施例的一个方面，提供了一种日志分类方法，所述方法包括：
12.生成训练数据集，所述训练数据集为带有标签的日志；通过所述训练数据集，训练获得自然语言处理模型；将待分类日志划分为中文文本以及非中文文本；根据所述自然语言处理模型，计算所述中文文本的第一类别信息；根据所述自然语言处理模型，计算所述非
中文文本的第二类别信息；整合所述第一类别信息和所述第二类别信息，生成对应的特征向量；根据所述特征向量，确定所述待分类日志的日志类别。
13.在一种可选的方式中，所述生成训练数据集的步骤具体包括：
14.根据采集获得的日志的原始结构化特征，聚合形成若干个日志簇；在每个所述日志簇中，提取若干条日志作为样本数据；根据所述样本数据，确定每个所述日志簇的标签；记录所述日志簇、样本数据和标签之间的对应关系，形成所述训练数据集。
15.在一种可选的方式中，所述根据所述自然语言处理模型，计算所述中文文本的第一类别信息的步骤具体包括：
16.将所述中文文本表示为若干个单词的集合；通过词典的映射，将每一个单词转换为对应的词向量；所述词典通过训练获得；叠加所述中文文本的词向量和n-garm向量后求平均，获得与所述中文文本对应的中文文档向量；根据所述中文文档向量，计算所述中文文本的第一类别信息。
17.在一种可选的方式中，所述根据所述自然语言处理模型，计算所述非中文文本的第二类别信息的步骤具体包括：
18.将所述非中文文本表示为若干个单词的集合；通过词典的映射，将每一个单词转换为对应的词向量；所述词典通过训练获得；叠加所述非中文文本的词向量和n-garm向量后求平均，获得与所述非中文文本对应的非中文文档向量；根据所述非中文文档向量，计算所述非中文文本的第二类别信息。
19.在一种可选的方式中，所述日志类别包括第1日志类别至第n日志类别，n为正整数；所述第一类别信息为所述中文文本分别属于第1日志类别至第n日志类别的概率向量；所述第二类别信息为所述非中文文本分别属于第1日志类别至第n日志类别的概率向量。
20.在一种可选的方式中，所述整合所述第一类别信息和所述第二类别信息，生成对应的特征向量，具体包括：将所述第一类别信息和所述第二类别信息对应的概率向量进行纵向拼接，生成对应的特征向量。
21.在一种可选的方式中，所述将所述特征向量输入到多分类器中，确定所述待分类日志的类别，具体包括：
22.将所述特征向量映射到0至1的区间中，获得对应的归一化值；所述特征向量中所有的归一化值之和为1；选取所述归一化值最大的类别作为所述待分类日志的类别。
23.根据本发明实施例的另一方面，提供了一种日志分类装置，包括：
24.训练数据集生成模块，用于生成训练数据集，所述训练数据集为带有标签的日志；训练模块，用于通过所述训练数据集，训练获得自然语言处理模型；日志分割模块，用于将待分类日志划分为中文文本以及非中文文本；自然语言处理模块，用于根据所述自然语言处理模型，计算所述中文文本的第一类别信息；并且根据所述自然语言处理模型，计算所述非中文文本的第二类别信息；特征向量生成模块，用于整合所述第一类别信息和所述第二类别信息，生成对应的特征向量；分类模块，用于根据所述特征向量，确定所述待分类日志的日志类别。
25.根据本发明实施例的另一方面，提供了一种用于日志分类的电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；
26.所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行以下操作：生成训练数据集，所述训练数据集为带有标签的日志；通过所述训练数据集，训练获得自然语言处理模型；将待分类日志划分为中文文本以及非中文文本；根据所述自然语言处理模型，计算所述中文文本的第一类别信息；根据所述自然语言处理模型，计算所述非中文文本的第二类别信息；整合所述第一类别信息和所述第二类别信息，生成对应的特征向量；根据所述特征向量，确定所述待分类日志的日志类别。
27.根据本发明实施例的又一方面，提供了一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使所述处理器执行以下操作：生成训练数据集，所述训练数据集为带有标签的日志；通过所述训练数据集，训练获得自然语言处理模型；将待分类日志划分为中文文本以及非中文文本；根据所述自然语言处理模型，计算所述中文文本的第一类别信息；根据所述自然语言处理模型，计算所述非中文文本的第二类别信息；整合所述第一类别信息和所述第二类别信息，生成对应的特征向量；根据所述特征向量，确定所述待分类日志的日志类别。
28.本发明实施例通过自然语言处理技术对日志文本中的非结构化数据的语言理解能力，分别对中文部分和非中文部分进行分类并整合，能够体现日志文本的中文部分及非中文部分各自表达的日志特征，提高了日志的分类准确率，解决了现有规则匹配分类方式的缺陷，提高了运维人员分析日志的效率。
29.上述说明仅是本发明实施例技术方案的概述，为了能够更清楚了解本发明实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。
附图说明
30.通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：
31.图1示出了本发明实施例提供的日志分类方法流程图；
32.图2示出了本发明实施例提供的生成训练数据集的流程图；
33.图3示出了本发明实施例提供的计算第一类别信息的流程图；
34.图4a示出了fasttext模型第一部分的计算过程的流程图；
35.图4b示出了fasttext模型第二部分的计算过程的流程图；
36.图4c示出了fasttext模型第三部分的计算过程的流程图；
37.图5示出了fasttext模型的模型结构示意图；
38.图6示出了本发明另一实施例提供的日志分类方法流程图；
39.图7示出了本发明实施例提供的运维系统的功能框图；
40.图8示出了本发明实施例提供的自然语言处理过程的流程图；
41.图9示出了本发明实施例提供的日志分类装置的结构示意图；
42.图10示出了本发明实施例提供的用于日志分类的电子设备的结构示意图。
具体实施方式
43.下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。
44.图1示出了本发明日志分类方法实施例的流程图，该方法应用于应用系统维护设备中。该应用系统维护设备是指用于对应用系统进行维护，以支撑应用系统可靠稳定的运行的电子设备。该电子计算设备可以是服务器等任何合适类型的，具有一定逻辑运算能力的硬件设备，其可以外接有相应的交互设备，实现与维护人员之间的交互。
45.如图1所示，该方法包括以下步骤：
46.步骤110：生成训练数据集，所述训练数据集为带有标签的日志。
47.训练数据集是指多条带有标签的日志组成的集合。“标签”是类似于关键词标识的信息，其表示了日志在某方面的特点的或者特征。换言之，带有标签的日志可以被认为是已知的数据样本，可以作为参考标准。
48.具体可以采用任何合适的方式生成该训练数据集，为日志标注对应的一个或者多个标签以体现或者说明日志的特征。
49.在较佳实施例中，如图2所示，所述步骤110具体可以包括如下步骤：
50.步骤111：根据采集获得的日志的原始结构化特征，聚合形成若干个日志簇。
51.其中，该原始结构化特征是指一些能够唯一标识一类具有极高相似度的日志的结构化数据。
52.其具体可以根据实际生产情况以及维护人员的个人经验等实际的情况而确定，保证在同一个日志簇内的日志所属的日志类别的一致性。例如，可以使用日志中的结构化数据“java class”对日志进行聚合。
[0053]“日志簇”是根据原始结构化特征进行预先分类形成的初步聚类结果。具有相同或者或者相近的原始结构化特征的日志可以被归入一个日志簇中。
[0054]
步骤112：在每个所述日志簇中，提取若干条日志作为样本数据。
[0055]
在聚合获得多个不同的日志簇以后，由于其实际上是一个较为粗浅的分类。因此，需要保留或者提取每个日志簇中的一部分日志作为样本数据，用以代表该日志簇。
[0056]
该样本数据是指通过任何合适的抽样方式，在日志簇中抽取或者保留下来的一个或者多个具体的日志。
[0057]
步骤113：根据所述样本数据，确定每个所述日志簇的标签。
[0058]
样本数据自身具有的代表性可以表示一个日志簇所具有的特征或者特点，通过分析少量的样本数据即可确定每个日志簇所对应的标签。具体可以使用任何类型的标签标注方式来确定和标注每个日志簇的标签。例如，最简单的可以通过维护人员或者技术专家通过人工的方式对日志簇进行标注。
[0059]
步骤114：记录所述日志簇、样本数据和标签之间的对应关系，形成所述训练数据集。
[0060]
最终形成的训练数据集中可以包含每个日志簇的标签及其样本数据，提供给后续的模型训练使用。
[0061]
步骤120：通过所述训练数据集，训练获得自然语言处理模型。
[0062]“自然语言处理”(natural language processing，nlp)是指令计算机理解自然语言文本的含义的处理过程。利用自然语言处理模型可以有效的挖掘获得非结构化数据的特征和特征。
[0063]
具体可以根据计算能力以及所需要的准确度等的实际情况而选择使用任何类型或者形式的自然语言处理模型。当然，在使用前，自然语言处理模型需要利用已有的训练数据集进行训练，确定模型中的一个或者多个参数。
[0064]
步骤130：将待分类日志划分为中文文本以及非中文文本。
[0065]
待分类日志是指需要进行分类的，由应用系统生成的原始日志。如上所记载的，日志中包含了大量的非结构化的文本数据。考虑到中文与其他语言文字在表意上所具有的显著区别，可以将日志中的文本数据分离为中文文本和非中文文本两部分。
[0066]
步骤140：根据所述自然语言处理模型，计算所述中文文本的第一类别信息。
[0067]“第一类别信息”是指中文文本输入到已经训练完成后的自然语言处理模型后输出的模型运算结果，表明了中文文本所属类别的情况和相关信息。其具体的数据形式由具体使用的自然语言处理模型所决定。
[0068]
步骤150：根据所述自然语言处理模型，计算所述非中文文本的第二类别信息。
[0069]
与“第一类别信息”相类似的，“第二类别信息”则是指非中文文本输入到已经训练完成后的自然语言处理模型后输出的模型运算结果。在一些实施例中，该中文文本和非中文文本可以使用相同的自然语言处理模型。
[0070]
步骤160：整合所述第一类别信息和所述第二类别信息，生成对应的特征向量。
[0071]“整合”是根据第一类别信息和第二类别信息的具体数据结构，采用对应的合并方式将两者变为一个特征向量的过程。“特征向量”是采用向量形式表示的日志特征，其可以用于标识或者描述该日志所具有的特点。
[0072]
步骤170：根据所述特征向量，确定所述待分类日志的日志类别。
[0073]“日志类别”是指高度相似的多个日志组成的集合。日志分类的最终目的便是将日志分入或者归到合适的日志类别中。根据实际情况的不同，可以具有对应的日志类别。
[0074]
在本发明实施例生成训练数据集的过程中，基于日志的原始结构化特征，对日志进行聚合形成日志簇，可以有效的降低人工打标签的工作量，控制数据集的规模。
[0075]
而且，在自然语言处理模型运用过程中，将中文及非中文部分先分离计算再合并信息进行分类的方式，可以更好的体现中文部分及非中文部分各自表达的日志特征，提高了日志的分类准确率。
[0076]
本发明实施例提供的日志分类方法可以自动的对非结构化的日志进行精准分类，极大的提升了运维人员分析日志的效率。
[0077]
图3示出了本发明日志分类方法步骤130的流程图。图4a为fasttext模型第一部分的运算过程的示意图。图4b为fasttext模型第二部分的运算过程的示意图。图4c为fasttext模型第三部分的运算过程的示意图。
[0078]
在本实施例中，该自然语言处理模型可以使用被称为“fasttext”的模型。该模型是由facbook公司提供的，可以应用于进行文字嵌入和文本分类计算的模型，具有运算量低，运算速度快的特点。其中，图5为该模型的模型结构示意图。
[0079]
如图3和图4a至图4c所示，步骤130包括以下步骤：
[0080]
步骤131：将所述中文文本表示为若干个单词的集合。
[0081]
在一段文本内容中，实际上可以被划分为多种不同的单词。每一个单词是指文本中最小的表意单元。通过数据预处理，可以将输入的中文文本表示为由若干个单词组成的集合。亦即，将中文文本进行切分，分割为多个单词。
[0082]
步骤132：通过词典的映射，将每一个单词转换为对应的词向量。
[0083]
如图4a所示，词典中记录了单词与词向量之间的映射关系。其可以被认为是一个运算函数，输入所述词典后，会映射输出对应的词向量。
[0084]
在实际使用过程中，词典是一个在训练过程中逐步形成的变量。其可以具有一个初始值，然后在训练过程中，通过分类结果与训练数据集提供的标签的比对结果不断的进行优化以形成最终的词典。
[0085]
步骤133：叠加所述中文文本的词向量和n-garm向量后求平均，获得与所述中文文本对应的中文文档向量。
[0086]
所述n-gram向量表征的是将一个单词与其上下文的单词进行组合后形成的一个新的向量。其中，“n-gram”中的n表示联系上下文单词的数量。
[0087]
例如，语句“内存溢出警告”，会在数据预处理过程中被切分为“内存”、“溢出”、“警告”三个独立的单词。取n＝2，则2-gram向量则相应的表示为“内存溢出”和“溢出警告”。
[0088]
因此，如图4b所示，可以在词向量的基础上，通过加入n-gram向量使自然语言处理模型学习到单词之间的上下文关系，理解文本的真正含义，有利于提升分类的准确率。
[0089]
步骤134：根据所述中文文档向量，计算所述中文文本的第一类别信息。
[0090]
最终计算得到的中文文档向量实际上是一个n维的向量。如图4c所示，在实际使用过程中，可以通过一个被称为“softmax”的多分类器来计算获得中文文本的分类情况。
[0091]
应当说明的是，由于“softmax”分类器的输出值是在0到1之间的区间内的，并且所有的值之和为1。因此，“softmax”分类器的输出符合关于概率的定义。
[0092]
换言之，该第一类别信息实际上可以是指中文部分分别属于第1至第n日志类别的概率向量，概率向量中的每一个元素表示属于对应日志类别的概率。
[0093]
在另一些实施例中，非中文文本也可以使用图4a至图4c所示的计算过程，通过fasttext模型计算确定对应的第二类别信息，获得非中文文本的概率向量(即属于第1至第n日志类别的概率)。其具体的运算过程与中文文本的运算过程相同，为陈述简便，在此不作赘述。
[0094]
图6示出了本发明另一实施例的日志分类方法的流程图。在本实施例中，该日志分类方法使用了如图5所示的fasttext模型进行自然语言处理。该方法同样也可以应用于应用系统维护设备中。该应用系统维护设备可以是任何类型的，用于对应用系统进行维护，以支撑应用系统可靠稳定运行的电子设备。如图6所示，在图2所示的步骤110至步骤150的基础上(在图6中相应的以步骤210至步骤250来标记)，所述方法还包括如下步骤：
[0095]
步骤260：将所述第一类别信息和所述第二类别信息对应的概率向量进行纵向拼接，生成对应的特征向量。
[0096]
如上实施例所记载的，经由fasttext模型计算获得的第一类别信息和第二类别信息分别是中文文本的概率向量和非中文文本的概率向量。
[0097]
由此，可以通过向量纵向拼接的方式，将两个概率向量组合为一个特征向量。这样的，待分类日志便可以由一个特征向量来表示。
[0098]
由于该特征向量兼具了第一类别信息和第二类别信息。因此，能够更好的对待分类日志的内容进行描述或者表示。
[0099]
步骤270：将所述特征向量映射到0至1的区间中，获得对应的归一化值。
[0100]
该步骤是一个对特征向量进行数据归一化的过程，以利于判断和确定日志所属的日志类别。在本实施例中，可以使用softmax函数执行该归一化处理，从而令特征向量中所有元素的归一化值之和为1，具有概率的特性。
[0101]
步骤280：选取所述归一化值最大的类别作为所述待分类日志的日志类别。
[0102]
在进行softmax函数的转换以后，特征向量对应的数值便可以认为是待分类日志属于各个日志类别的概率。由此，可以确定该待分类日志属于归一化值最大的类别，亦即概率最高的日志类别。
[0103]
图7示出了用于执行本发明实施例的日志分类方法的运维系统的功能框图。如图7所示，该系统可以被划分为“在线分类”和“离线训练”两部分。在线分类基于离线训练提供的，训练完成的自然语言处理模型(如fasttext)来实现对应用系统产生的日志的自动分类。
[0104]
其中，该系统包括如下功能模块：日志采集模块710，日志簇生成模块720，日志标签模块730，日志样本标签库740，日志分类模型750以及日志实时分类模块760。
[0105]
日志采集模块710用于实时采集应用系统所产生的日志。其可以采用任何合适的形式或者类型的功能插件或者抓取工具实现。
[0106]
一方面，日志采集模块710采集获得的日志可以被送入日志簇生成模块720用于生成训练数据集。另一方面，在训练完成以后，日志采集模块710采集获得的日志也可以被送入日志实时分类模块760进行实时分类。
[0107]
日志簇生成模块720对接收到的日志进行预聚合，通过一些原始结构化特征而划分为多个日志簇以降低数据集的规模，以便于降低标签标注的工作量。另外，在形成日志簇的过程中，为每个日志簇保留多条日志作为样本数据。
[0108]
日志标签模块730用于对样本数据进行标签标注，为各个样本数据打上与其对应的标签。在标签标注完成以后，可以通过样本数据绑定标签与日志簇之间的关系，完成标签匹配的过程。
[0109]
标签匹配后确定的日志簇可以存储记录在日志样本标签库内，作为训练数据集提供给日志分类模型750进行模型训练。
[0110]
图8为日志分类模型750进行自然语言处理的示意图。如图8所示，日志分类模型750在进行处理时，首先将日志的中文文本及非中文文本分离，然后，分别由fasttext模型计算类别信息。最后将两部分的类别信息合并，通过softmax分类器计算确定最终的日志类别。
[0111]
在离线训练的过程中，日志分类模型750可以将日志的标签作为参考标准，根据计算得到的日志类别与日志的标签的比较结果进行反馈优化，直至达到理想的分类效果。
[0112]
日志实时分类模块760使用日志分类模型750提供的，已经训练好的模型对日志进行实时分类。
[0113]
图9示出了本发明日志分类装置实施例的结构示意图。如图9所示，该装置900包括：训练数据集生成模块910、训练模块920、日志分割模块930、自然语言处理模块940、特征向量生成模块950以及分类模块960。
[0114]
其中，训练数据集生成模块910用于生成训练数据集，所述训练数据集为带有标签的日志。训练模块920用于通过所述训练数据集，训练获得自然语言处理模型。日志分割模块930用于将待分类日志划分为中文文本以及非中文文本。自然语言处理模块940用于根据所述自然语言处理模型，计算所述中文文本的第一类别信息；并且根据所述自然语言处理模型，计算所述非中文文本的第二类别信息。特征向量生成模块950用于整合所述第一类别信息和所述第二类别信息，生成对应的特征向量。分类模块960用于根据所述特征向量，确定所述待分类日志的日志类别。
[0115]
在一种可选的方式中，所述训练数据集生成模块910具体用于根据采集获得的日志的原始结构化特征，聚合形成若干个日志簇；在每个所述日志簇中，提取若干条日志作为样本数据；根据所述样本数据，确定每个所述日志簇的标签，并且记录所述日志簇、样本数据和标签之间的对应关系，形成所述训练数据集。
[0116]
通过生成日志簇的预聚合方法，可以有效的降低训练数据集的规模，减少了进行标签标注的工作量。
[0117]
在一种可选的方式中，对于中文文本，所述自然语言处理模块940具体用于：将所述中文文本表示为若干个单词的集合；通过词典的映射，将每一个单词转换为对应的词向量；所述词典通过训练获得；叠加所述中文文本的词向量和n-garm向量后求平均，获得与所述中文文本对应的中文文档向量；根据所述中文文档向量，计算所述中文文本的第一类别信息。
[0118]
而对于非中文文本，所述自然语言处理模块940具体用于：将所述非中文文本表示为若干个单词的集合；通过词典的映射，将每一个单词转换为对应的词向量；所述词典通过训练获得；叠加所述非中文文本的词向量和n-garm向量后求平均，获得与所述非中文文本对应的非中文文档向量；根据所述非中文文档向量，计算所述非中文文本的第二类别信息。
[0119]
在一种可选的方式中，所述日志类别包括第1日志类别至第n日志类别，n为正整数。基于fasttex模型计算获得的第一类别信息为所述中文文本分别属于第1日志类别至第n日志类别的概率向量。基于fasttext模型计算获得的第二类别信息为所述非中文文本分别属于第1日志类别至第n日志类别的概率向量。
[0120]
基于上述第一类别信息和第二类别信息，特征向量生成模块950具体用于：将所述第一类别信息和所述第二类别信息对应的概率向量进行纵向拼接，生成对应的特征向量。
[0121]
在一种可选的方式中，所述分类模块960具体用于：将所述特征向量映射到0至1的区间中，获得对应的归一化值；所述特征向量中所有的归一化值之和为1；选取所述归一化值最大的类别作为所述待分类日志的类别。
[0122]
本发明实施例的日志分类装置，利用自然语言处理模型，可以自动的对非结构化的日志进行精准分类，极大的提升了运维人员分析日志的效率。
[0123]
而且，在使用自然语言处理模型的过程中，采用了将中文及非中文部分先分离计算，再重新合并获得特征向量的方式，可以更好的体现中文部分及非中文部分各自表达的日志特征，提高了日志的分类准确率。
[0124]
本发明实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的日志分类方法。
[0125]
可执行指令具体可以用于使得处理器执行以下操作：生成训练数据集，所述训练数据集为带有标签的日志；通过所述训练数据集，训练获得自然语言处理模型；将待分类日志划分为中文文本以及非中文文本；根据所述自然语言处理模型，计算所述中文文本的第一类别信息；根据所述自然语言处理模型，计算所述非中文文本的第二类别信息；整合所述第一类别信息和所述第二类别信息，生成对应的特征向量；根据所述特征向量，确定所述待分类日志的日志类别。
[0126]
在一种可选的方式中，所述生成训练数据集的步骤具体包括：根据采集获得的日志的原始结构化特征，聚合形成若干个日志簇；在每个所述日志簇中，提取若干条日志作为样本数据；根据所述样本数据，确定每个所述日志簇的标签；记录所述日志簇、样本数据和标签之间的对应关系，形成所述训练数据集。
[0127]
在一种可选的方式中，所述根据所述自然语言处理模型，计算所述中文文本的第一类别信息的步骤具体包括：
[0128]
将所述中文文本表示为若干个单词的集合；通过词典的映射，将每一个单词转换为对应的词向量；所述词典通过训练获得；叠加所述中文文本的词向量和n-garm向量后求平均，获得与所述中文文本对应的中文文档向量；根据所述中文文档向量，计算所述中文文本的第一类别信息。
[0129]
在一种可选的方式中，所述根据所述自然语言处理模型，计算所述非中文文本的第二类别信息的步骤具体包括：
[0130]
将所述非中文文本表示为若干个单词的集合；通过词典的映射，将每一个单词转换为对应的词向量；所述词典通过训练获得；叠加所述非中文文本的词向量和n-garm向量后求平均，获得与所述非中文文本对应的非中文文档向量；根据所述非中文文档向量，计算所述非中文文本的第二类别信息。
[0131]
在一种可选的方式中，所述日志类别包括第1日志类别至第n日志类别，n为正整数；所述第一类别信息为所述中文文本分别属于第1日志类别至第n日志类别的概率向量；所述第二类别信息为所述非中文文本分别属于第1日志类别至第n日志类别的概率向量。
[0132]
在一种可选的方式中，所述整合所述第一类别信息和所述第二类别信息，生成对应的特征向量的步骤具体包括：将所述第一类别信息和所述第二类别信息对应的概率向量进行纵向拼接，生成对应的特征向量。
[0133]
在一种可选的方式中，所述将所述特征向量输入到多分类器中，确定所述待分类日志的类别的步骤具体包括：将所述特征向量映射到0至1的区间中，获得对应的归一化值；所述特征向量中所有的归一化值之和为1；选取所述归一化值最大的类别作为所述待分类日志的类别。
[0134]
本发明实施例的计算机存储介质，利用自然语言处理模型，可以自动的对非结构化的日志进行精准分类，极大的提升了运维人员分析日志的效率。
[0135]
而且，在使用自然语言处理模型的过程中，采用了将中文及非中文部分先分离计算，再重新合并获得特征向量的方式，可以更好的体现中文部分及非中文部分各自表达的日志特征，提高了日志的分类准确率。
[0136]
图10示出了本发明用于日志分类的电子设备实施例的结构示意图，本发明具体实施例并不对该用于日志分类的电子设备的具体实现做限定。
[0137]
如图10所示，该电子设备可以包括：处理器(processor)1002、通信接口(communications interface)1004、存储器(memory)1006、以及通信总线1008。
[0138]
其中：处理器1002、通信接口1004、以及存储器1006通过通信总线1008完成相互间的通信。通信接口1004，用于与其它设备比如客户端或其它服务器等的网元通信。处理器1002，用于执行程序1010，具体可以执行上述用于日志分类的电子设备的日志分类方法实施例中的相关步骤。
[0139]
具体地，程序1010可以包括程序代码，该程序代码包括计算机操作指令。
[0140]
处理器1002可能是中央处理器cpu，或者是特定集成电路asic(application specific integrated circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个cpu；也可以是不同类型的处理器，如一个或多个cpu以及一个或多个asic。
[0141]
存储器1006，用于存放程序1010。存储器1006可能包含高速ram存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。
[0142]
程序1010具体可以用于使得处理器1002执行以下操作：生成训练数据集，所述训练数据集为带有标签的日志；通过所述训练数据集，训练获得自然语言处理模型；将待分类日志划分为中文文本以及非中文文本；根据所述自然语言处理模型，计算所述中文文本的第一类别信息；根据所述自然语言处理模型，计算所述非中文文本的第二类别信息；整合所述第一类别信息和所述第二类别信息，生成对应的特征向量；根据所述特征向量，确定所述待分类日志的日志类别。
[0143]
在一种可选的方式中，所述程序1010使所述处理器执行以下操作：根据采集获得的日志的原始结构化特征，聚合形成若干个日志簇；在每个所述日志簇中，提取若干条日志作为样本数据；根据所述样本数据，确定每个所述日志簇的标签；记录所述日志簇、样本数据和标签之间的对应关系，形成所述训练数据集。
[0144]
在一种可选的方式中，所述程序1010使所述处理器执行以下操作：将所述中文文本表示为若干个单词的集合；通过词典的映射，将每一个单词转换为对应的词向量；所述词典通过训练获得；叠加所述中文文本的词向量和n-garm向量后求平均，获得与所述中文文本对应的中文文档向量；根据所述中文文档向量，计算所述中文文本的第一类别信息。
[0145]
在一种可选的方式中，所述程序1010使所述处理器执行以下操作：将所述非中文文本表示为若干个单词的集合；通过词典的映射，将每一个单词转换为对应的词向量；所述词典通过训练获得；叠加所述非中文文本的词向量和n-garm向量后求平均，获得与所述非中文文本对应的非中文文档向量；根据所述非中文文档向量，计算所述非中文文本的第二类别信息。
[0146]
在一种可选的方式中，所述日志类别包括第1日志类别至第n日志类别，n为正整数；所述第一类别信息为所述中文文本分别属于第1日志类别至第n日志类别的概率向量；所述第二类别信息为所述非中文文本分别属于第1日志类别至第n日志类别的概率向量。
[0147]
在一种可选的方式中，所述程序1010使所述处理器执行以下操作：将所述第一类别信息和所述第二类别信息对应的概率向量进行纵向拼接，生成对应的特征向量。
[0148]
在一种可选的方式中，所述程序1010使所述处理器执行以下操作：将所述特征向量映射到0至1的区间中，获得对应的归一化值；所述特征向量中所有的归一化值之和为1；选取所述归一化值最大的类别作为所述待分类日志的类别。
[0149]
本发明实施例的用于日志分类的电子设备，在进行日志分类的过程中，利用自然语言处理模型，可以自动的对非结构化的日志进行精准分类，极大的提升了运维人员分析日志的效率。
[0150]
而且，在使用自然语言处理模型的过程中，采用了将中文及非中文部分先分离计算，再重新合并获得特征向量的方式，可以更好的体现中文部分及非中文部分各自表达的日志特征，提高了日志的分类准确率。
[0151]
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
[0152]
在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。
[0153]
类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。
[0154]
本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
[0155]
此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
[0156]
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未
列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林昊;叶晓龙;余建利;竺士杰;胡林熙;蒋通通;乔柏林
技术所有人：中国移动通信集团有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。