一种网络安全日志模板抽取方法及装置的制造方法

文档序号:9330373阅读:188来源:国知局
一种网络安全日志模板抽取方法及装置的制造方法
【技术领域】
[0001] 本发明涉及信息安全领域,尤其涉及一种网络安全日志模板抽取方法及装置,该 方案不依赖于任何先验知识,可以自动抽取出描述未知网络安全日志格式的模板。
【背景技术】
[0002] 网络安全日志,包括操作系统产生的系统日志和网络安全设备产生的报警日志, 记录了网络环境中发生的各种安全事件,为网络异常诊断和网络攻击威胁的发现提供重要 的线索。在网络安全日志分析系统中,日志格式解析是一个必不可少的步骤。因此,抽取网 络安全日志模板,对日志分析有着重要的意义。目前,在一些比较成熟的网络安全日志分 析产品中,如OSS頂、Snort、OSSEC等,通常采集基于正则表达式的日志解析方法。它们获 取日志模板的方法包括两种:一种是通过阅读相关技术文档,获得源日志的格式模板说明; 另一种是通过人工去分析源日志的格式,手工编写日志格式模板。这种日志模板提取的方 法,只适用于已知格式模板的日志。当大量格式未知的日志混杂在一起,并且没有相关技术 文档说明时,很难通过人工分析的方法得到描述日志格式的模板。
[0003] 随着网络通信技术的发展,部署在网络环境中的设备和系统服务都越来越多,越 来越复杂化,从而导致网络中产生的日志呈现"海量"、"异构"的特点。虽然很多日志格式 可以通过相关的技术文档获得,日志格式可能会随着系统的更新或升级而改变。并且很多 安全产品厂商的日志格式并不对外公开,对于网络中海量未知格式的日志,分析人员很难 人工去抽取出所有的日志模板。

【发明内容】

[0004] 本发明的目的在于提供一种网络安全日志模板抽取方法及装置,使得日志分析人 员能够不需要任何先验知识,可以自动获取网络安全日志格式的模板。从而,解决前面提到 的在网络安全日志格式提取中遇到的问题。
[0005] 为实现上述目的,本发明采用的技术方案如下:
[0006] -种网络安全日志模板抽取方法,包括如下步骤:
[0007] 1)对原始的网络安全日志进行数据清洗,得到过滤掉时间和IP地址的日志信息;
[0008] 2)对不包含时间和IP地址的日志信息进行聚类,把具有相似格式的日志划分到 同一类中;
[0009] 3)对于每一类中的日志,提取出日志中描述格式的模板词,得到日志格式的模板。
[0010] 进一步地,步骤1)在数据清洗时,根据时间和IP地址具有的特定的格式,采用正 则表达式匹配去掉对应的字段。
[0011] 进一步地,步骤2)采用DBSCAN算法或者OPTICS算法对相似格式的日志进行聚 类。
[0012] 进一步地,步骤3)利用LDA Gibbs sampling算法提取出日志中描述格式的模板 词,仅保留原始日志中的模板词,得到日志格式。
[0013] 进一步地,步骤3)将每个主题中分布最大的单词作为模板词,用来描述日志的格 式;在得到模板词后,把原始日志中不属于模板词的单词用**代替,得到描述日志格式的 正则表达式。
[0014] 一种网络安全日志模板抽取装置,其包括:
[0015] 数据清洗单元,用于对原始的网络安全日志进行数据清洗,过滤其中的时间和IP 地址;
[0016] 信息聚类单元,用于对不包含时间和IP地址的日志信息进行聚类,把具有相似格 式的日志划分到同一类中;
[0017] 模板提取单元,用于提取每一类的日志中描述格式的模板词,得到日志格式的模 板。
[0018] 进一步地,所述信息聚类单元采用DBSCAN算法或者OPTICS算法对相似格式的日 志进行聚类。
[0019] 进一步地,所述模板提取单元利用LDA Gibbs sampling算法提取出日志中描述格 式的模板词,仅保留原始日志中的模板词,得到日志格式。
[0020] 利用本发明提供的方法提取网络安全日志的格式,具有以下优点:
[0021] 1、该方法不需要任何网络安全领域的先验知识,就可以得到描述未知网络安全日 志格式的模板;
[0022] 2、该方法解决了对包含不同格式的海量多源异构网络安全日志模板的提取,为日 志分析预处理提供有力的支撑;
[0023] 3、在提取描述日志格式的模板单词之前,先进行聚类处理,然后对每一类网络安 全日志进彳it旲板提取,从而减小系统负载,提尚运算效率;
[0024] 4、该方法得到的网络安全日志模板可以用于日志分析中的日志解析,比查阅技术 说明文档或手工分析准确率更高。
【附图说明】
[0025] 图1是本发明方法的数据流处理流程图。
[0026] 图2是具体实例中网络安全日志模板抽取方法的流程图。
[0027] 图3是SSH进程日志信息示意图。
[0028] 图4是进行数据清洗后的日志信息示意图。
[0029] 图5是聚类结果示意图。
[0030] 图6是模板抽取后得到的描述日志格式的正则表达式示意图。
[0031] 图7是具体实例中不同主题数量的召回率曲线图。
【具体实施方式】
[0032] 为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和 附图,对本发明做进一步说明。
[0033] 本发明提供的网络安全日志模板抽取方法,其主要步骤包括数据清洗、信息聚类 和模板提取,如图1所示。其中,数据清洗是首先对日志数据中具有特定格式的字段,包括 日期、IP地址等,进行过滤;信息聚类是对清洗之后的数据,利用聚类算法把具有相似格式 的日志划分到一个类中;模板提取是对于每一个类中的日志,提取出日志中描述格式的模 板词,仅保留原始日志中的模板词,得到日志格式。
[0034] L数据清洗
[0035] 该方法中的数据清洗,主要是为了过滤掉具有特定格式的字段,包括时间和IP地 址。该方法主要是对数据清洗后剩余的信息部分进行模板提取。
[0036] 在自然语言中,时间和IP地址具有特定的格式,本方法中采用正则表达式匹配去 掉对应的字段。
[0037] IP地址的正则表达式可以是:
[0038] (( ? : ( ? :25[0-5] |2[0-4]\d| ((l\d{2}) I ([1-9] ? \d)))\.){3} (? :25[0-5]I 2[0-4]\dI ((l\d{2}) I ([1-9] ? \d))))
[0039] 时间2015-12-2112:21:10.的正则表达式可以是:
[0040] (\d{4})-(0\d{l} I I [0-2])-(0\d{l} | [ 12]\d {I} | 3 [0 I]) (0\d {I} | I \ d{l} |2[0-3]) : [0-5]\d{l} : ([0-5]\d{l})
[0041] 下表中列出几种常用的正则表达式:
[0042] 表1常用正则表达式
[0043]
[0045] 数据清洗的输入是原始的网络安全日志,输出的是过滤掉时间和IP地址的日志 信息。
[0046] 2.信息聚类
[0047] 该方法中提到的信息聚类,输入是清洗之后不包含时间和IP地址的日志信息,输 出是包含相似格式的多个日志信息聚类。
[0048] 优选地,该方法米用 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚类算法,对相似格式的日志进行聚类;选取日志中的单词组 成作为日志特征向量,把每一条日志转化为多维空间里的一个点,进行聚类。
[0049] DBSCAN算法是一种基于密度的聚类算法,不需要事先知道要形成的簇类的数 量,并且可以发现噪音点。还可以采用的聚类方法有OPTICS算法(Ordering Points to identify the clustering structure),OPTICS并不显示的产生结果类簇,而是为聚类分 析生成一个增广的簇排序,可以得到基于任何半径E和minPts的DBSCAN算法的聚类结 果。
[0050] 原始日志中出现的每个单词作为一个特征,假设输入的M条日志中共有W个不同 的单词,0表示不存在该特征,1表示存在该特征。每一条日志信息可以转化为由0和1组 成的W维特征向量,表示空间的一个点。得到空间的M个点,利用DBSCAN算法把M个点进 行聚类,得到的每一个聚类中都包含格式相似的日志。
[0051] 上面以单词作为日志的特征,在其它实施例中,还可以采用N-Gram(汉语语言模 型)把日志划分为由长度为N的字段组成的有序队列,每一个长度为N的字段作为日志的 特征,最终得到的模板词就是由多个长度为N的字段组成的单词序列。
[0052] 3.模板提取
[0053] 对于每一个类中的日志,利用LDA(Latent Dirichlet allocation,隐含狄利克雷 分布)Gibbs
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1