提取日志数据的方法及装置与流程

文档序号:17798224发布日期:2019-05-31 20:55阅读:来源:国知局

技术特征:

1.一种提取日志数据的方法,其特征在于,所述方法包括:

获取目标字段,所述目标字段为用户从预设日志样本中通过输入设备选择的并且用于从待匹配日志中提取与所述目标字段同类别的数据;

分别依据不同的生成策略生成所述目标字段对应的正则表达式集合,所述正则表达式集合中每一个正则表达式对应一种生成策略;

根据所述正则表达式集合中的每个正则表达式分别对待匹配日志进行正则匹配,每个正则表达式至多匹配出一个匹配数据;

判断待匹配日志中是否匹配出匹配数据;

若匹配到匹配数据,计算每个匹配数据对应的所有正则表达式的权重得分之和占所有的正则表达式的权重得分之和的比重值,得到对应匹配数据的匹配值;

选择匹配值最大的匹配数据确定为待匹配日志中与所述目标字段同类别的数据。

2.根据权利要求1所述的方法,其特征在于,所述选择匹配值最大的匹配数据确定为待匹配日志中与所述目标字段同类别的数据,包括:

将最大的匹配值与预设匹配阈值比较;

若大于预设匹配阈值,则将匹配值最大的匹配数据确定为待匹配日志中与所述目标字段同类别的数据;

若小于等于预设匹配阈值,则对待匹配日志的提取失败。

3.根据权利要求1或2中任一项所述的方法,其特征在于,在所述选择匹配值最大的匹配数据确定为待匹配日志中与所述目标字段同类别的数据之后,所述方法进一步包括:

将与匹配值最大的匹配数据对应的每个正则表达式的权重得分增大,得到新的权重得分;

依据新的权重得分计算下一条待匹配日志对应的匹配数据的匹配值。

4.根据权利要求3所述的方法,其特征在于,在根据所述正则表达式集合中的每个正则表达式分别对待匹配日志进行正则匹配之后,所述方法进一步包括:

若没有匹配到匹配数据,则对待匹配日志的提取失败。

5.根据权利要求4所述的方法,其特征在于,在所述分别依据不同的生成策略生成所述目标字段对应的正则表达式集合之后,所述方法进一步包括:

将所述正则表达式集合中的所有正则表达式输出展示;

接收修改正则表达式的修改请求,以根据所述修改请求修改对应的正则表达式。

6.根据权利要求5所述的方法,其特征在于,若获取到多个目标字段,所述方法进一步包括:

分别针对每个目标字段单独执行确定所述待匹配的日志中与所述目标字段同类别的数据;

在依据最后一个目标字段执行确定所述待匹配的日志中与所述目标字段同类别的数据后,对下一条待匹配日志执行确定与所述目标字段同类别的数据。

7.根据权利要求6所述的方法,其特征在于,在所述获取目标字段之后,所述方法进一步包括:

输出填写所述目标字段的字段名称的提示框,以使外部通过所述提示框输入字段名称;

接收所述字段名称,以使所述字段名称与从所有待匹配日志中提取出的与目标字段同类别的数据关联显示。

8.一种提取日志数据的装置,其特征在于,所述装置包括:

获取单元,用于获取目标字段,所述目标字段为用户从预设日志样本中通过输入设备选择的并且用于从待匹配日志中提取与所述目标字段同类别的数据;

生成单元,用于分别依据不同的生成策略生成所述目标字段对应的正则表达式集合,所述正则表达式集合中每一个正则表达式对应一种生成策略;

匹配单元,用于根据所述正则表达式集合中的每个正则表达式分别对待匹配日志进行正则匹配,每个正则表达式至多匹配出一个匹配数据;

判断单元,用于在根据所述正则表达式集合中的每个正则表达式分别对待匹配日志进行正则匹配之后,判断待匹配日志中是否匹配出匹配数据;

计算单元,用于在匹配到匹配数据后,计算每个匹配数据对应的所有正则表达式的权重得分之和占所有的正则表达式的权重得分之和的比重值,得到对应匹配数据的匹配值;数据确定单元,用于选择匹配值最大的匹配数据确定为待匹配日志中与所述目标字段同类别的数据。

9.根据权利要求8所述的装置,其特征在于,所述数据确定单元包括:

比较模块,用于将最大的匹配值与预设匹配阈值比较;

第一确定模块,用于若大于预设匹配阈值,则将匹配值最大的匹配数据确定为待匹配日志中与所述目标字段同类别的数据;

第二确定模块,用于若小于等于预设匹配阈值,则对待匹配日志的提取失败。

10.根据权利要求8或9中任一项所述的装置,其特征在于,所述装置进一步包括:

调节单元,用于在所述选择匹配值最大的匹配数据确定为待匹配日志中与所述目标字段同类别的数据之后,将与匹配值最大的匹配数据对应的每个正则表达式的权重得分增大,得到新的权重得分;

所述计算单元,还用于依据新的权重得分计算下一条待匹配日志对应的匹配数据的匹配值。

11.根据权利要求10所述的装置,其特征在于,所述装置进一步包括:

提取失败确定单元,用于若没有匹配到匹配数据,则认定对待匹配日志的提取失败。

12.根据权利要求11所述的装置,其特征在于,所述装置进一步包括:

展示单元,用于在所述分别依据不同的生成策略生成所述目标字段对应的正则表达式集合之后,将所述正则表达式集合中的所有正则表达式输出展示;

修改请求接收单元,用于接收修改正则表达式的修改请求,以根据所述修改请求修改对应的正则表达式。

13.根据权利要求12所述的装置,其特征在于,所述数据确定单元,还用于若获取到多个目标字段,分别针对每个目标字段单独执行确定所述待匹配的日志中与所述目标字段同类别的数据;以及在依据最后一个目标字段执行确定所述待匹配的日志中与所述目标字段同类别的数据后,对下一条待匹配日志执行确定与所述目标字段同类别的数据。

14.根据权利要求13所述的装置,其特征在于,所述装置进一步包括:

输出单元,用于在所述获取目标字段之后,输出填写所述目标字段的字段名称的提示框,以使外部通过所述提示框输入字段名称;

字段名称接收单元,用于接收所述字段名称,以使所述字段名称与从所有待匹配日志中提取出的与目标字段同类别的数据关联显示。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1