对日志消息内容的面向语义分析的制作方法_4

文档序号:9925280阅读:来源:国知局
706识别为该关键字的相关联的值。因此,"user"704被识别/加标签为关键字和值 两者。必须解决该冲突W丢弃第一规则的识别或者第二规则的识别。在一些实施例中,值相 对关键字具有更高的优先。例如,在图7A的示例中,通过将"user"704识别为值并移除/删除 "user" 704的关键字识别和"Smith" 706的值识别来解决"user" 704冲突。在一些实施例中, 较长的值相对较短的值具有更高的优先。例如,如果两个值识别重叠,那么保留较长的值并 丢弃较短的值和其相关联的关键字。在一些实施例中,关键字不能够重叠,因为多个辨认 器/规则可W不针对相同的关键字被指定。在一些实施例中,如果关键字重叠,可W使用一 个或多个冲突解决规则(例如,将在辨认器头部中的优先级识别符用于解决冲突)W解决在 关键字识别之间的冲突。
[0050] 在604,执行关键字聚集。例如,如果值后辨认器被配置为修饰语(例如,被配置在 图3A的头部302的"Modifier"字段中),并且该值后辨认器已经生成在日志消息中的匹配, 那么如果该值也是另一辨认器/规则的另一识别关键字/值对的关键字的话将该辨认器的 匹配关键字与辨认器的值结合成为结合关键字。图7B是具有重叠修饰语辨认器的识别关键 字和值的示例日志消息。修饰语识别符辨认器的第一规则已经将"From"712识别为关键字 并且将"address"714识别为关键字的相关联的值。第二规则将"acklress"714识别为关键字 并且"10.1.1.1"716识别为该关键字的相关联的值。因为处理叩'〇111"712的辨认器被指派为 修饰语,所W "From" 712和"ad化ess"714被连接到复合或聚集关键字"From acMress"中并 且该聚集关键字的相关联的值是"10.1.1. r 716。
[0051] 图8是图解用于使用直接辨认器/规则处理日志消息部分的过程的实施例的流程 图。可W在图1的日志处理器108上实现图8的过程。在一些实施例中,图8的过程被包括在图 4的412中。
[0052] 在802,将日志消息的第一未识别部分定位为开始位置。在一些实施例中,日志消 息是使用图4的过程直到步骤410处理的日志消息。例如,已经将日志消息的部分识别为关 键字或值并已经被后期处理W解决冲突并结合修饰语关键字。定位还未被识别为另一组辨 认器/规则的(例如,未被值后辨认器/规则识别的)关键字或值的日志消息的第一部分(例 如,从左到右检查)。
[0053] 在804,通过从定位的开始位置开始捜索确定直接辨认器/规则匹配是否定位于日 志消息中。在一些实施例中,确定直接辨认器的规则的所有匹配中的最长左边最多的匹配。 在一些实施例中,直接辨认器是在图2的202接收的被用于处理日志消息的直接辨认器。将 要被利用的所有直接辨认器的所有规则的所有正则表达式(例如,图3B的正则表达式312) 形成到所有正则表达式的单个析取(di S化nction)中(例如,([正则表达式1 ] V [正则表达 式2] V [正则表达式3]-)并将其用于从所定位的开始位置开始定位在日志消息中的匹 配。运可W经由不确定性有限自动机和/或确定性有限自动机允许同时捜索。在一些实施例 中,可能仅在由另一辨认器/规则未被识别的日志消息的部分中找到匹配(例如,不能匹配 已经由值后辨认器/规则识别为关键字或值的日志消息的部分)。
[0054] 如果在804找到了匹配,那么在806使用与匹配该部分的直接辨认器/规则相关联 的函数处理该匹配部分。例如,将对应于所匹配的正则表达式的在图3B的函数316中指定的 函数提供给匹配部分。该函数可W返回在匹配辨认器/规则中指定的(例如,在图3B的列名 称314中指定的)列名称下被存储在数据库中的结果。
[0055] 在808,将在日志消息内的开始位置前进到在匹配部分的末端之后的日志消息的 下一未识别部分。
[0056] 在810,确定是否到达日志消息的末端。如果到达了日志消息的末端,那么过程结 束。如果没有到达日志消息的末端,那么过程然后返回802。
[0化7] 如果在804没有找到匹配,那么过程结束。
[0058]虽然出于理解清楚的目的相当详细地描述了前述实施例,但是本发明不被限于所 提供的细节。存在许多实现本发明的替换方式。所公开的实施例是说明性的而不是限制性 的。
【主权项】
1. 一种系统,包括: 通信接口,被配置成接收日志消息;以及 处理器,与所述通信接口耦合并被配置成: 识别要被分离地提取的所述日志消息的一个或多个部分;以及 使用与识别的部分相关联的提取规则从每个识别的部分提取值。2. 如权利要求1的系统,其中所述处理器还被配置成确定所述日志消息的消息类型。3. 如权利要求2的系统,其中提取所述值包括确定所确定的消息类型是否匹配所述提 取规则指定的消息类型。4. 如权利要求2的系统,其中至少部分地基于所述日志消息的源确定所述日志消息的 类型。5. 如权利要求2的系统,其中至少部分地基于在所述日志消息中包括的关键字确定所 述日志消息的类型。6. 如权利要求1的系统,其中所述处理器还被配置成至少部分地通过使用另一先前接 收的日志消息的相关联的内容来推断与所述识别的部分之一相关联的关键字。7. 如权利要求1的系统,其中识别所述日志消息的一个或多个部分包括确定所述日志 消息包括一个或多个提取规则的一个或多个关键字。8. 如权利要求1的系统,其中识别所述日志消息的一个或多个部分包括至少部分地基 于与所述识别的部分的每个相关联的提取规则的优先级识别符确定所述日志消息的一个 或多个部分的优先级处理顺序。9. 如权利要求1的系统,其中所述识别的部分中的至少一个的提取规则是包括多个提 取规则的辨认器的一部分。10. 如权利要求1的系统,其中将不同的提取规则与所述识别的部分中的每一个相关 联。11. 如权利要求1的系统,其中所述值是匹配所述提取规则的正则表达式的所述日志消 息的一部分。12. 如权利要求1的系统,其中能够仅通过信号提取规则提取所述日志消息的一部分, 并且所述处理器还被配置成解决在至少两个提取规则之间的冲突。13. 如权利要求1的系统,其中所述处理器还被配置成如果确定所述日志消息内的被定 位的关键字和在所述日志消息中定位的相关联的值匹配修饰语提取规则并且所述相关联 的值是另一提取规则的匹配关键字那么将在所述关键字与所述相关联的值结合。14. 如权利要求1的系统,其中所述处理器还被配置成使用第二组的一个或多个提取规 则来提取没有已经被识别用于分离地提取的所述日志消息的一个或多个部分。15. 如权利要求14的系统,其中使用所述第二组的一个或多个提取规则包括匹配来自 所述第二组的一个或多个提取规则的每一个提取规则的规则正则表达式的析取结合的单 个正则表达式。16. 如权利要求1的系统,其中将所述值存储在数据库中。17. 如权利要求16的系统,其中将所述值存储在与被用于提取被存储在所述数据库中 的所述值的提取规则的关键字相关联的列名称下。18. 如权利要求17的系统,其中将所述列名称正规化以使语义上相似的列名称标准化。19. 一种方法,包括: 接收日志消息; 识别要被分离地提取的所述日志消息的一个或多个部分;以及 使用处理器以使用与识别的部分相关联的提取规则从每个识别的部分中提取值。20. -种计算机程序产品,所述计算机程序产品被体现在有形的计算机可读存储媒体 中,并且包括计算机指令,用于: 接收日志消息; 识别要被分离地提取的所述日志消息的一个或多个部分;以及 使用与识别的部分相关联的提取规则从每个识别的部分中提取值。
【专利摘要】公开了处理日志消息。接收日志消息。识别要被分离地提取的日志消息的一个或多个部分。从每个识别的部分提取值。提取值包括使用提取规则。提取规则与识别的部分相关联。
【IPC分类】G06F7/00
【公开号】CN105706045
【申请号】CN201480040420
【发明人】M.佩罗恩
【申请人】泰必高软件公司
【公开日】2016年6月22日
【申请日】2014年7月10日
【公告号】US9336203, US20150025875, WO2015009542A1
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1