本发明涉及计算机,尤其涉及一种日志数据处理方法、装置、设备及存储介质。
背景技术:
1、随着信息技术的发展,日志数据作为记录系统运行状态和异常情况的重要数据源,在系统管理、故障排查、安全防护等方面扮演着重要角色。然而,由于日志数据量大、形式复杂以及存在一定的噪声和异常值等问题,如何从海量的日志数据中筛选出有意义的信息,对于日志数据分析和应用具有至关重要的意义。
2、目前,现有的日志数据处理方法主要包括基于规则的方法、基于关键词搜索的方法以及基于机器学习的方法等。
3、但是,基于规则的方法以及基于关键词搜索的方法,需要依靠人力在日志数据中查询信息,导致日志分析耗时较久,难度较高。基于机器学习的方法针对海量日志数据实时处理、存储和分析等方面,存在着计算资源消耗高、耗时久、精度不足等问题。
技术实现思路
1、本发明提供了一种日志数据处理方法、装置、设备及存储介质,可以减少日志数据处理过程中消耗的计算资源,提高日志数据处理效率,以及处理结果的准确性。
2、根据本发明的一方面,提供了一种日志数据处理方法,所述方法包括:
3、采集多个原始日志数据,对各所述原始日志数据进行标准化处理,并根据处理后的日志数据,建立与所述多个原始日志数据匹配的分词库;
4、根据所述分词库,确定与各所述原始日志数据对应的日志向量,并根据各所述原始日志数据对应的日志向量,对所述多个原始日志数据进行层次聚类;
5、根据聚类结果,确定与所述多个原始日志数据对应的分析结果。
6、可选的,对各所述原始日志数据进行标准化处理,包括:
7、按照预设的标准字段类型,分别对各所述原始日志数据对应的字段值进行提取;
8、所述标准字段类型包括时间戳、日志来源以及日志内容。
9、可选的,根据处理后的日志数据,建立与所述多个原始日志数据匹配的分词库,包括:
10、将每个原始日志数据对应的日志内容进行拆分,得到每个原始日志数据对应的至少一个分词;
11、根据每个原始日志数据对应的至少一个分词构建分词库;
12、所述分词库中包括每个分词与对应标识符之间的映射关系。
13、可选的,根据所述分词库,确定与各所述原始日志数据对应的日志向量,包括:
14、根据所述分词库中每个分词与对应标识符之间的映射关系,确定与各所述原始日志数据对应的特征向量;
15、对各所述原始日志数据对应的特征向量进行归一化处理,得到各所述原始日志数据对应的日志向量。
16、可选的,根据聚类结果,确定与所述多个原始日志数据对应的分析结果,包括:
17、根据聚类结果在所述多个原始日志数据中,按照目标数据类型筛选有效数据;或者,
18、根据聚类结果,在所述多个原始日志数据中检测异常数据;所述异常数据对应的异常类型包括模式异常、参数异常以及占比异常。
19、可选的,根据聚类结果,在所述多个原始日志数据中检测异常数据,包括:
20、根据所述聚类结果,判断所述多个原始日志数据对应的日志类别中是否存在异常日志类别;
21、若是,则将所述异常日志类别对应的原始日志数据作为异常数据
22、根据本发明的另一方面,提供了一种日志数据处理装置,所述装置包括:
23、日志采集模块,用于采集多个原始日志数据,对各所述原始日志数据进行标准化处理,并根据处理后的日志数据,建立与所述多个原始日志数据匹配的分词库;
24、层次聚类模块,用于根据所述分词库,确定与各所述原始日志数据对应的日志向量,并根据各所述原始日志数据对应的日志向量,对所述多个原始日志数据进行层次聚类;
25、日志分析模块,用于根据聚类结果,确定与所述多个原始日志数据对应的分析结果。
26、根据本发明的另一方面,提供了一种电子设备,所述设备包括:
27、至少一个处理器;以及
28、与所述至少一个处理器通信连接的存储器;其中,
29、所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的日志数据处理方法。
30、根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的日志数据处理方法。
31、本发明实施例提供的技术方案,通过采集多个原始日志数据,对各所述原始日志数据进行标准化处理,并根据处理后的日志数据,建立与所述多个原始日志数据匹配的分词库,根据所述分词库,确定与各所述原始日志数据对应的日志向量,并根据各所述原始日志数据对应的日志向量,对所述多个原始日志数据进行层次聚类,根据聚类结果,确定与所述多个原始日志数据对应的分析结果的技术手段,可以减少日志数据处理过程中消耗的计算资源,提高日志数据处理效率,以及处理结果的准确性。
32、应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
1.一种日志数据处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,对各所述原始日志数据进行标准化处理,包括:
3.根据权利要求2所述的方法,其特征在于,根据处理后的日志数据,建立与所述多个原始日志数据匹配的分词库,包括:
4.根据权利要求3所述的方法,其特征在于,根据所述分词库,确定与各所述原始日志数据对应的日志向量,包括:
5.根据权利要求1所述的方法,其特征在于,根据聚类结果,确定与所述多个原始日志数据对应的分析结果,包括:
6.根据权利要求5所述的方法,其特征在于,根据聚类结果,在所述多个原始日志数据中检测异常数据,包括:
7.一种日志数据处理装置,其特征在于,所述装置包括:
8.一种电子设备,其特征在于,所述设备包括:
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-6中任一项所述的日志数据处理方法。
10.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的日志数据处理方法。