一种复杂网络体系下异构安全日志信息的自适应提取方法及系统的制作方法_2

文档序号:8258895阅读:来源:国知局
所述日志解析指纹,将日志解析指纹与LITD树的二级 节点中的日志解析指纹进行比较,定位SYSL0G日志对应的LITD树的三级节点,如果所采集 的SYSL0G日志的日志解析指纹与LITD树中的所有日志解析指纹都不匹配,则进入学习阶 段A,构建该SYSL0G日志对应的LITD树;如果在当前的LITD树的二级节点中找到了与所 采集的SYSL0G日志的日志解析指纹匹配的日志解析指纹,则进入步骤C4。
[0043] C4、通过将SYSL0G日志的分词数据信息与决策树三级节点中的分词数据信息进 行比较,获得对SYSL0G日志的解析结果。
[0044] 优选地,学习模块通过以下步骤完成日志解析指纹的计算:
[0045]对文本字符串形式的原始日志信息进行分词。
[0046] 在所述分词后,获得各个分词字段的索引Si;其中,i = 0, 1,2, 3…n ;n是分词字 段的总个数。
[0047] 并获得各个分词字段对应的内容正则解析规则Ri;其中,i = 0, 1,2, 3…n ;n是分 词字段的总个数。
[0048] 根据各个分词字段的索引Si和内容正则解析规则Rp依据下式计算日志解析指 纹:
[0049] SoRo-SiRfSA-S^…SnRn。
[0050] 优选地,缓存模块还用于:将LITD树为以多层HashMap嵌套的存储数据结构方式 存储在计算机内存中。
[0051] 与现有技术相比,本发明包括:A、持续采集异构安全日志数据,采用分词工具对日 志数据结构进行分拆,根据预置的常用日志字段正则匹配字典表对日志数据中指定位置的 字段数据进行内容属性匹配,构建日志信息提取决策树LIDT,作为异构安全日志信息的提 取规则;LITD树的信息随着新的日志结构的加入不断更新。B、对构建的LITD树的信息在 计算机内存中进行缓存,该缓存根据LITD树的更新实时更新。C、对新采集的异构安全日志 数据,根据LITD树按照日志报送地址、日志类型以及日志各位置字段的顺序逐层解析,提 取异构安全日志信息。D、将形成的规范格式的异构安全日志数据存储进入数据库系统。通 过本发明的方案,能够降低成本,提高对复杂网络环境SYSL0G信息提取的适应性。
【附图说明】
[0052] 下面对本发明实施例中的附图进行说明,实施例中的附图是用于对本发明的进一 步理解,与说明书一起用于解释本发明,并不构成对本发明保护范围的限制。
[0053] 图1为本发明的复杂网络体系下异构安全日志信息的自适应提取方法流程图;
[0054] 图2为本发明的复杂网络体系下异构安全日志信息的自适应提取系统框图;
[0055] 图3为本发明的复杂网络体系下异构安全日志信息的自适应提取方法实现结构 图;
[0056] 图4为本发明的复杂网络体系下异构安全日志信息的自适应提取系统决策树结 构图。
【具体实施方式】
[0057] 为了便于本领域技术人员的理解,下面结合附图对本发明作进一步的描述,并不 能用来限制本发明的保护范围。
[0058] 本发明提出一种复杂网络体系下异构安全日志信息的自适应提取与分析方法。本 发明采用日志信息提取决策树机制作为日志信息解析模型,该模型是由持续的机器学习构 建,采用分词技术和正则匹配技术构建该学习模型;在日志解析阶段,根据自动学习获取的 日志信息解析模型对新的日志样本进行解析,并提供统一格式的日志记录,从而实现了复 杂网络体系下异构安全日志的自适应提取与分析。
[0059] 具体地,本发明提出了一种复杂网络体系下异构安全日志信息的自适应提取方 法,如图1、图4所示,该方法包括以下步骤:
[0060] A、持续采集异构安全日志数据,采用分词工具对所述日志数据结构进行分拆,根 据预置的常用日志字段正则匹配字典表对所述日志数据中指定位置的字段数据进行内容 属性匹配,构建日志信息提取决策树LIDT,作为异构安全日志信息的提取规则;LITD树的 信息随着新的日志结构的加入不断更新。
[0061] B、对构建的LITD树的信息在计算机内存中进行缓存,缓存根据LITD树的更新实 时更新。
[0062] C、对新采集的异构安全日志数据,根据LITD树按照日志报送地址、日志类型以及 日志各位置字段的顺序逐层解析,提取异构安全日志信息。
[0063] D、将形成的规范格式的异构安全日志数据存储进入数据库系统。
[0064] 其中,用户可以对日志信息提取决策树中的内容属性定义进行人工设置,以保证 从异构安全日志提出的信息可读性更强,并优化日志字段正则匹配字典,最终将经过格式 化后的安全日志信息存储进入数据库系统,共同其它系统使用。
[0065] 优选地,步骤A中具体包括以下步骤:
[0066]A1、通过系统日志SYSL0G协议获得异构安全日志数据,通过对异构安全日志数据 的头部分解析获取SYSL0G日志的报送设备互联网协议IP,以报送设备IP作为LITD树的一 级节点。
[0067] A2、采用分词工具对SYSL0G日志中代表原始日志的MSG字段进行分词,并按顺序 对分词结果进行索引。
[0068] A3、通过各分词字段的属性和对应索引计算日志解析指纹,将日志解析指纹作为 LITD树的二级节点。
[0069] A4、将各分词字段的索引和内容属性作为LITD树的三级节点。
[0070] A5、返回步骤A1。
[0071] 优选地,步骤C具体包括以下步骤:
[0072] C1、采集SYSL0G日志,解析报送设备IP信息,将报送设备IP信息与LITD树的一 级节点中的报送设备IP进行比较,定位SYSL0G日志对应的LITD树的二级节点,如果所采 集的SYSL0G日志的报送设备IP信息与LITD树中的所有报送设备IP都不匹配,则进入学 习阶段A,构建该SYSL0G日志对应的LITD树;如果在当前的LITD树的一级节点中找到了 与所采集的SYSL0G日志的报送设备IP信息匹配的报送设备IP,则进入步骤C2。
[0073] C2、采用分词工具对述SYSL0G日志中代表原始日志的MSG字段进行分词,并按顺 序对分词结果进行索引。
[0074] C3、计算获得SYSL0G日志的日志解析指纹,将日志解析指纹与LITD树的二级节点 中的日志解析指纹进行比较,定位SYSL0G日志对应的LITD树的三级节点,如果所采集的 SYSL0G日志的日志解析指纹与LITD树中的所有日志解析指纹都不匹配,则进入学习阶段 A,构建该SYSL0G日志对应的LITD树;如果在当前的LITD树的二级节点中找到了与所采集 的SYSL0G日志的日志解析指纹匹配的日志解析指纹,则进入步骤C4。
[0075] C4、通过将SYSL0G日志的分词数据信息与决策树三级节点中的分词数据信息进 行比较,获得对SYSL0G日志的解析结果。
[0076]优选地,计算日志解析指纹包括以下步骤:
[0077] S1、对文本字符串形式的原始日志信息进行分词。
[0078] S2、在分词后,获得各个分词字段的索引Si;其中,i = 0, 1,2, 3…n ;n是分词字段 的总个数。
[0079] S3、获得各个分词字段对应的内容正则解析规则Ri;其中,i = 0, 1,2, 3…n ;n是 分词字段的总个数。
[0080] S4、根据各个分词字段的索引Si和内容正则解析规则Ri,依据下式计算日志解析 指纹:
[0081] SoRo-SiRfSA-S^…SnRn。
[0082] 本发明中分词算法为,采用以标志切分为手段的基于字符串的分词算法,具体工 具是采用开源StandardAnalyzer分词算法。
[0083] 优选地,经过LITD树进行信息提取后的异构安全日志数据的规范格式包括:事件 名称、事件摘要、事件分类、采集类型、等级、网络协议、网络应用协议以及属性信息;LITD 树在计算机内存中的存储数据结构为以多层HashMap嵌套的方式实现。
[0084] 其中,经过信息提取后范化的安全日志格式为:
【主权项】
1. 一种复杂网络体系下异构安全日志信息的自适应提取方法,其特征在于,所述方法 包括W下步骤: A、 持续采集异构安全日志数据,采用分词工具对所述日志数据结构进行分拆,根据预 置的常用日志字段正则匹配字典表对所述日志数据中指定位置的字段数据进行内容属性 匹配,构建日志信息提取决策树LIDT,作为所述异构安
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1