一种日志模板提取方法、装置、电子设备及存储介质与流程

文档序号:33643828发布日期:2023-03-29 02:54阅读:来源:国知局

技术特征:
1.一种日志模板提取方法,其特征在于,包括:获取待处理日志信息,其中,所述待处理日志信息中包括多条日志;基于多维聚类算子,对所述多条日志进行聚类,获得至少一个日志组,其中,所述至少一个日志组中每个日志组包括的各日志符合相似度条件,所述多维聚类算子中每个聚类算子用于计算日志之间的相似度;提取所述至少一个日志组的目标日志模板。2.根据权利要求1所述的方法,其特征在于,基于多维聚类算子,对所述多条日志进行聚类,获得至少一个日志组之前,所述方法包括:对所述多条日志进行预处理操作,其中,所述预处理操作包括以下至少一种:将所述多条日志中长度超过预设长度阈值的日志进行裁剪;基于预设的正则表达式,将所述多条日志中与所述正则表达式匹配的目标变量替换为对应的指定字符。3.根据权利要求1所述的方法,其特征在于,基于多维聚类算子,对所述多条日志进行聚类,获得至少一个日志组,包括:基于多维聚类算子,分别确定所述多条日志在各聚类算子下的相似度;根据所述多条日志在各聚类算子下的相似度,确定出所述多条日志中符合相似度条件的日志,并将符合相似度条件的日志聚类为一个日志组,获得各符合相似度条件的日志组。4.根据权利要求1所述的方法,其特征在于,基于多维聚类算子,对所述多条日志进行聚类,获得至少一个日志组,包括:基于多维聚类算子,分别确定所述多条日志在各聚类算子下的相似度;根据所述多条日志在各聚类算子下的相似度,确定出所述多条日志中符合相似度条件的日志,并将符合相似度条件的日志聚类为一个日志组,获得各符合相似度条件的日志组;根据预设聚类规则,确定所述各符合相似度条件的日志组之间是否符合所述预设聚类规则,并将符合所述预设聚类规则的日志组合并以聚类为一个日志组。5.根据权利要求3或4所述的方法,其特征在于,基于多维聚类算子,分别确定所述多条日志在各聚类算子下的相似度,包括:根据所述多条日志的长度,将所述多条日志进行排序;依次针对未聚类为日志组的各日志,确定所述未聚类为日志组的各日志中长度最大的第一日志,并基于所述多维聚类算子,确定所述第一日志与所述未聚类为日志组的各日志中除所述第一日志外的其它日志之间的相似度;则根据所述多条日志在各聚类算子下的相似度,确定出所述多条日志中符合相似度条件的日志,并将符合相似度条件的日志聚类为一个日志组,获得各符合相似度条件的日志组,包括:依次针对未聚类为日志组的各日志,筛选出与所述第一日志符合所述相似度条件的第二日志,将所述第一日志和所述第二日志聚类为一个日志组,直至将所述多条日志均聚类完成,获得各符合相似度条件的日志组。6.根据权利要求5所述的方法,其特征在于,若所述多维聚类算子至少包括信息覆盖度算子,则基于所述多维聚类算子,确定所述第一日志与所述未聚类为日志组的各日志中除所述第一日志外的其它日志之间的相似度,包括:
分别针对所述未聚类为日志组的各日志中除所述第一日志外的其它日志,确定所述第一日志与所述其它日志之间的相似度;其中,针对所述其它日志中任一第三日志,确定所述第一日志与所述第三日志之间的相似度,包括:根据预设分隔符,分别将所述第一日志和所述第三日志进行切分处理,获得所述第一日志的第一切分结果和所述第三日志的第三切分结果;根据所述第一切分结果和所述第三切分结果,获得所述第一切分结果和所述第三切分结果的公共分词;根据所述公共分词的数目和所述第三切分结果中包括的分词数目,分别获得所述公共分词的信息值和所述第三切分结果的信息值;根据所述公共分词的信息值和所述第三切分结果的信息值,获得所述第一日志和所述第三日志之间的相似度。7.根据权利要求5所述的方法,其特征在于,若所述多维聚类算子至少包括固定长度算子,则基于所述多维聚类算子,确定所述第一日志与所述未聚类为日志组的各日志中除所述第一日志外的其它日志之间的相似度,包括:分别针对所述未聚类为日志组的各日志中除所述第一日志外的其它日志,确定所述第一日志与所述其它日志之间的相似度;其中,针对所述其它日志中任一第四日志,确定所述第一日志与所述第四日志之间的相似度,包括:根据预设分隔符,分别将所述第一日志和所述第四日志进行切分处理,获得所述第一日志的第一切分结果和所述第四日志的第四切分结果;在所述第一切分结果中包括的分词数目和所述第四切分结果中包括的分词数目不相同时,确定所述第一日志和所述第四日志之间的相似度为0;在所述第一切分结果中包括的分词数目和所述第四切分结果中包括的分词数目相同时,确定所述第一切分结果中各分词与所述第四切分结果中各分词是否相同,并根据所述第一切分结果中各分词与所述第四切分结果中各分词是否相同的确定结果,获得所述第一日志和所述第四日志之间的相似度。8.根据权利要求1所述的方法,其特征在于,提取所述至少一个日志组的目标日志模板之后,还包括:将所述目标日志模板与历史日志模板库中历史日志模板进行匹配;在确定匹配时,将所述目标日志模板合并于所述历史日志模板,在确定不匹配时,将所述目标日志模板存储于所述历史日志模板库中。9.根据权利要求8所述的方法,其特征在于,所述方法还包括:按照预设统计周期,分别统计所述历史日志模板库中历史日志模板下在各预设统计周期中增加的日志数量;根据所述历史日志模板在各预设统计周期中增加的日志数量,生成日志模板时序图,以用于展示在各预设统计周期中日志数量变化。10.一种日志模板提取装置,其特征在于,包括:获取模块,用于获取待处理日志信息,其中,所述待处理日志信息中包括多条日志;
聚类模块,用于基于多维聚类算子,对所述多条日志进行聚类,获得至少一个日志组,其中,所述至少一个日志组中每个日志组包括的各日志符合相似度条件,所述多维聚类算子中每个聚类算子用于计算日志之间的相似度;提取模块,用于提取所述至少一个日志组的目标日志模板。11.一种电子设备,其特征在于,包括:处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述处理器用于执行所述存储器中存储的机器可读指令,所述机器可读指令被所述处理器执行时,所述处理器执行如权利要求1至9任意一项所述的日志模板提取方法的步骤。12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时,所述处理器执行如权利要求1至9任意一项所述的日志模板提取方法的步骤。

技术总结
本公开提供了一种日志模板提取方法、装置、电子设备及存储介质,该方法包括:获取待处理日志信息,其中,所述待处理日志信息中包括多条日志;基于多维聚类算子,对所述多条日志进行聚类,获得至少一个日志组,其中,所述至少一个日志组中每个日志组包括的各日志符合相似度条件,所述多维聚类算子中每个聚类算子用于计算日志之间的相似度;提取所述至少一个日志组的目标日志模板,这样,不需要预先训练日志模板,可以实现线上实时日志分析,更加简单和高效,并且采用多维聚类算子聚类,提高了聚类和日志模板提取的准确性。类和日志模板提取的准确性。类和日志模板提取的准确性。


技术研发人员:薛文满
受保护的技术使用者:北京火山引擎科技有限公司
技术研发日:2022.11.30
技术公布日:2023/3/28
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1