一种基于大数据分析技术的网络安全日志告警处理方法与流程

文档序号:27503530发布日期:2021-11-22 16:38阅读:604来源:国知局
一种基于大数据分析技术的网络安全日志告警处理方法与流程

1.本发明涉及电力信息系统技术领域,具体是一种基于大数据分析技术的网络安全日志告警处理方法。


背景技术:

2.近年来,信息网络安全事件频发,安全形势日趋严峻,随着网络边界的扩大和网络安全设备的增多,各类网络安全设备产生的日志数据快速增长,而海量的日志事件需要安全运维人员进行辨识和处理,这其中包含许多重复的日志和无效的垃圾日志,而且不同的安全厂商具备不同的攻击特征库,采取不同的监测告警策略,为提高对于网络安全的整体感知能力,只能降低告警阈值,导致攻击告警误报多,监控人员监控压力大,另外网络安全设备部署的模式,导致同一流量被不同安全设备捕获,进而导致同一攻击行为触发沿途经过的多台安全设备告警,造成重复告警的现象。
3.要有效减少告警的误报和重复,提升告警分析处理的能力,有两项重要的工作需要完成,一是对多源异构的日志数据进行高效准确的统一格式的标准化解析,二是对统一格式后的标准化日志数据进行关联分析从而进行日志告警事件的有效去重,达到减少告警的误报和重复。
4.日志的标准化解析的需要根据来自多源的设备日志编写正则表达式对日志数据进行字段转义,完成日志的标准化解析,在现今各类设备日渐增多,日志标准化解析靠人工完成效率太低。
5.现有对日志关联分析去重算法多是基于apriori算法或fp

growth算法。
6.apriori算法是一种挖掘布尔关联规则的频繁项集的算法,其缺点是对数据库的扫描次数过多,可能产生大量的候选项集,在频繁项目集长度变大的情况下,运算时间显著增加,采用唯一支持度,没有考虑各个属性重要程度的不同;
7.fp

growth算法是基于apriori算法构建,是将数据集存储在一个特定的称做fp树的结构之后发现频繁项集或者频繁项对,缺点是树的子节点过多,例如生成了只包含前缀的树,那么也会导致算法效率大幅度下降;另外,fp

growth算法需要递归生成条件数据库和条件fp

tree,所以内存开销大,而且只能用于挖掘单维的布尔关联规则。


技术实现要素:

8.本发明提供一种基于大数据分析技术的网络安全日志告警处理方法,用以解决现有技术中存在的由于网络安全日志种类和数量多,产生的告警事件消息无法得到及时高效处理的问题。
9.本发明采用下述技术方案:
10.一种基于大数据分析技术的网络安全日志告警处理方法,包括如下步骤:
11.步骤s1:采集需要进行告警分析的各类型网络安全设备所产生的日志;
12.步骤s2:日志解析引擎将自动遍历内置的grok表达式解析规则库,如果规则库中
存在对应的规则,进行步骤s3,如果不存在则进行步骤s4;
13.步骤s3:日志解析引擎根据匹配到规则对日志按解析规则进行自动分词处理,再自动生成范式化文件,解析引擎将范式化文件通过logstash的过滤器插件对日志按标准范式化字段进行转义,生成格式统一的标准化日志;
14.步骤s4:遍历不到对应规则的日志发往未解析日志库,由人工来使用解析引擎的辅助功能,通过选择合适的分词符,以及分词后各字段合适的转义映射规则,根据解析引擎给出的参考解析结果和原始日志数据对比,再对转义映射规则进行调整,直到能正确有效的生成统一格式的标准化日志,将转义映射规则补充进解析规则库,再通过解析引擎解析出日志;
15.步骤s5:通过编写的日志过滤规则对日志进行过滤,去掉无意义的日志;
16.步骤s6:将标准化的日志数据转化为网络安全告警事件;
17.步骤s7:对于未在网络攻击事件分类规则定义范围内的日志数据,通过自定义新增的告警规则将日志数据定义为网络安全告警事件;
18.步骤s8:通过余弦相似度算法对在一段时间范围内网络安全告警事件进行关联分析,将符合相似性规则的告警事件进行合并,并记录事件条数;
19.步骤s9:通过告警事件合并的日志数据对关联的流量数据包进行下载分析,根据分析来调整关联分析的余弦相似度算法的相似性规则取值。
20.进一步的,步骤s1中基于syslog协议由大数据组件logstash进行各类安全设备的日志采集,接收不同编码格式的原始日志。
21.进一步的,步骤s3中标准范式化字段包含已定义的系统标识内容、事件主体部分、事件客体部分、事件语义部分、事件生成部分、事件原始部分、其他属性共40个类型字段,以及26个可自定义的保留字段,以便对日志消息进行解析。
22.进一步的,步骤s5中对日志进行过滤后,保留存储的日志存入elasticsearch数据库,建立一个索引,提供给日志查询使用。
23.进一步的,步骤s6具体包括:根据预置的网络安全攻击阶段和攻击事件分类规则,将日志事件按攻击阶段和事件分类进行匹配和关联分析,将日志数据按不同攻击阶段的事件分类存入数据仓库,形成安全事件分析主题库。
24.进一步的,步骤s7中自定义新增的告警规则的编写,是由人工通过“与”、“或”、“非”、“包含”、“大于”、“小于”、“等于”等逻辑运算符组合,结合日志标准字段取值范围进行安全事件的筛选,通过低代码的拖拽、选择、数值填空方式生成自定义规则。
25.进一步的,步骤s7中自定义新增的告警规则的编写,是由人工通过“与”、“或”、“非”、“包含”、“大于”、“小于”、“等于”等逻辑运算符组合,结合日志标准字段取值范围进行安全事件的筛选,通过低代码的拖拽、选择、数值填空方式生成自定义规则。
26.一种网络安全日志告警去重处理系统,包括:
27.采集模块,用于采集需要进行告警分析的各类型网络安全设备所产生的日志;
28.范式化处理模块,所述范式化处理模块内嵌grok表达式解析规则库的日志解析引擎,用于根据匹配到规则对日志按解析规则进行自动分词处理,再自动生成范式化文件,解析引擎将范式化文件通过logstash的过滤器插件对日志按标准范式化字段进行转义,生成格式统一的标准化日志;
29.过滤模块,用于通过编写的日志过滤规则对日志进行过滤,去掉无意义的日志;
30.告警处理模块,用于将标准化的日志数据转化为网络安全告警事件;
31.关联分析模块,用于通过余弦相似度算法对在一段时间范围内网络安全告警事件进行关联分析,将符合相似性规则的告警事件进行合并,并记录事件条数;
32.关联流量下载模块,用于通过告警事件合并的日志数据对关联的流量数据包进行下载分析,根据分析来调整关联分析的余弦相似度算法的相似性规则取值。
33.本发明通过自动解析引擎得到格式统一的标准化日志数据,通过日志过滤规则先过滤掉无用和无意义的日志,然后通过网络攻击事件分类规则将日志转化为安全告警事件,再通过告警规则和关联分析算法将一定时间范围内相关联的告警事件进行合并,有效的将重复告警去重,并记录了重复发生频率,提高了告警事件分析质量。
附图说明
34.图1是本发明基于大数据分析技术的网络安全日志告警处理方法的流程示意图;
35.图2是本发明中余弦相似度算法的示意图。
具体实施方式
36.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
37.请参阅图1,本发明实施例提供一种基于大数据分析技术的网络安全日志告警处理方法,包括如下步骤:
38.步骤s1:采集需要进行告警分析的各类型网络安全设备所产生的日志。
39.本发明基于syslog协议由大数据组件logstash进行各类安全设备的日志采集,接收不同编码格式的原始日志。
40.步骤s2:日志解析引擎将自动遍历内置的grok表达式解析规则库,如果规则库中存在对应的规则,进行步骤s3,如果不存在则进行步骤s4。
41.步骤s3:日志解析引擎根据匹配到规则对日志按解析规则进行自动分词处理,再自动生成范式化文件,解析引擎将范式化文件通过logstash的过滤器插件对日志按标准范式化字段进行转义,生成格式统一的标准化日志。
42.标准范式化字段包含已定义的系统标识内容、事件主体部分、事件客体部分、事件语义部分、事件生成部分、事件原始部分、其他属性共40个类型字段,另外还有26个保留字段可以自定义,以便对日志消息进行清晰的解析,这些按标准化解析出来的字段将用于后续告警事件关联分析进行合并去重步骤的使用。
43.范式化处理后的数据信息包括:
44.1)系统标识内容:事件名称、事件摘要、事件类型、事件等级、网络协议、网络应用协议;
45.2)事件主体部分:源名称、源mac地址、源ip、源转换ip地址、源端口、源转换端口;
46.3)事件客体部分:目的名称、目的mac地址、目的ip、目的转换ip地址、目的端口、目
的转换端口;
47.4)事件语义部分:用户名称、程序名称、操作、对象、结果;
48.5)事件生成部分:响应、设备名称、设备类型、设备ip、产生时间、监控数值;
49.6)事件原始部分:原始等级、原始类型、发送流量、接收流量、持续时间、请求信息;
50.7)其他属性:事件接收时间、采集器ip地址、采集类型、原始消息、归并数目。
51.步骤s4:遍历不到对应规则的日志(即解析引擎不能正确有效解析的日志)发往未解析日志库,由人工来使用解析引擎的辅助功能,通过选择合适的分词符,以及分词后各字段合适的转义映射规则,根据解析引擎给出的参考解析结果和原始日志数据对比,再对转义映射规则进行调整,直到能正确有效的生成统一格式的标准化日志,将转义映射规则补充进解析规则库,再通过解析引擎解析出日志。
52.步骤s5:通过编写的日志过滤规则对日志进行过滤,去掉无意义的日志,比如设备状态日志和设备登录日志,将日志过滤规则作为筛选条件对符合条件的日志进行过滤筛选存储。
53.在本步骤中,保留存储的日志存入elasticsearch数据库,建立一个索引,提供给日志查询使用。
54.步骤s6:将标准化的日志数据转化为网络安全告警事件,本步骤根据预置的网络安全攻击阶段和攻击事件分类规则,将日志事件按攻击阶段和事件分类进行匹配和关联分析,将日志数据按不同攻击阶段的事件分类存入数据仓库,形成安全事件分析主题库。
55.所述网络安全攻击阶段和攻击事件,包括:
56.1)攻击准备:信息收集(基本信息收集、扫描、网络监听、数据窃取)、其他(恶意域名访问)
57.2)攻击实施:漏洞利用攻击(配置不当、安全漏洞、服务漏洞、注入攻击、系统漏洞攻击、应用程序漏洞、协议漏洞)、高级攻击(apt)、口令攻击(暴力破解、社会工程、弱口令)、拒绝服务攻击、欺骗攻击(电子邮件欺骗、web欺骗)、劫持攻击(会话劫持、包劫持、域名劫持)、其他(通用)
58.3)攻陷阶段:提升攻击权限、windows\linux痕迹清除、高级攻击(后门程序)、安全系统后门(系统后门、网页后门)
59.4)横向移动:内网渗透(主机渗透、内网反弹、域渗透)。
60.步骤s7:对于未在网络攻击事件分类规则定义范围内的日志数据,通过自定义新增的告警规则将日志数据定义为网络安全告警事件,并对日志告警事件进行属性重定义,产生的安全告警事件在elasticsearch数据库建立另一个索引。
61.本步骤中自定义新增的告警规则的编写,是由人工通过“与”、“或”、“非”、“包含”、“大于”、“小于”、“等于”等逻辑运算符组合,结合日志标准字段取值范围进行安全事件的筛选,通过低代码的拖拽、选择、数值填空方式生成自定义规则。
62.步骤s8:通过余弦相似度算法对在一段时间范围内网络安全告警事件进行关联分析,将符合相似性规则的告警事件进行合并,并记录事件条数。默认的时间段设置为1分钟。
63.余弦相似度算法:一个向量空间中两个向量夹角间的余弦值作为衡量两个个体之间差异的大小,余弦值接近1,夹角趋于0,表明两个向量越相似,余弦值接近于0,夹角趋于90度,表明两个向量越不相似。
64.余弦相似度算法如图2所示,其中二维向量的夹角公式如下:
[0065][0066]
进一步拓展到n维向量的夹角公式如下:
[0067]
a={x1,x2,x3...xn}b={y1,y2,y3...yn}
[0068][0069]
在对于日志数据的相似度的计算中,所提取日志数据是来自对统一格式的标准化日志的属性字段,计算模型可以对提取的日志属性字段进行选择,选中的属性字段加入到计算公式中,比如上述公式中a、b分别代表两条日志数据分别提取其日志属性字段所形成的向量a和b,其中提取的关键元素包含在步骤s3中的40个已定义的类型字段和26个保留字段,计算步骤说明如下:
[0070]
比如:一条原始日志数据将其标准化解析后,经过对向量组成元素选择后,参与计算的标准化日志的主要有效数据包含:{事件发生时间:2021

08

0610:39:18,源地址:59.38.139.62,源端口:8080,目的地址:192.168.181.221,目的端口:8080,协议:http,事件名称:扫描,事件类型:恶意行为,等级:低危,设备类型:安全设备/流量检测设备},此数据中时间按选定时间范围与事件发生时间取间隔数值,时间间隔默认设置为1分钟,需要比较的日志数据是在此1分钟范围内的日志数据,为便于理解此处的时间按发生的秒来计算,取值39分之后的数值为18,源地址转换为int类型数字992381758,端口取值为8080,目的地址转换为int类型数字3232282077,端口取值为8080,协议对应在数据库中的数值为6,事件名称对于扫描事件在数据库中攻击阶段事件分类规则表的对应数值为11,恶意行为这个事件类型在数据库中对应数值为9,等级对应数值为1,设备类型的分类对应在数据库中的数值为26,综合计算的取值位数和元素对应在数据库中的取值规则,因此向量a={0.18,0.992381758,0.8080,0.3232282077,0.8080,0.6,0.11,0.9,0.1,0.26}。
[0071]
一条原始日志数据将其标准化解析后,经过对向量组成元素选择后,参与计算的标准化日志的主要有效数据包含:{事件发生时间:2021

08

0610:39:47,源地址:59.38.130.31,源端口:8080,目的地址:192.168.181.221,目的端口:8080,协议:http,事件名称:基本信息收集,事件类型:信息收集,等级:低危,设备类型:安全设备/流量检测设备},发生时间数值为47,源地址转换为int类型数字992379423,端口取值为8080,目的地址转换为int类型数字3232282077,端口取值为8080,协议对应在数据库中的数值为6,事件名称对于基本信息收集事件在数据库中攻击阶段事件分类规则表的对应数值为10,信息收集这个事件类型在数据库中对应数值为5,等级对应数值为1,设备类型的分类对应在数据库中的数值为26,综合计算的取值位数和元素对应在数据库中的取值规则,,因此向量b={0.47,0.992379423,0.8080,0.63232282077,0.8080,0.6,0.1,0.5,0.1,0.26}。
[0072]
带入到公式中计算结果为0.998327,根据相似度计算的阈值设定(比如当前设定0.995),因此可以判断两条日志是存在关联。
[0073]
在系统中可以设置的相似度计算的阈值,将大于等于阈值的告警事件定义为关联事件(比如0.995),并将计算出来的关联告警事件进行合并,并记录事件条数。
[0074]
另外需要加入到计算公式的其他元素如果在遇到取值为空的情况取值可以设定为0。
[0075]
除了将源ip、目的ip、源端口、目的端口、网络协议五元组数据列入到计算公式的向量,其他日志告警事件所包含的范式化的数据字段都可以作为计算的向量,计算结果越接近1,说明日志告警事件越相似,根据设置的相似度的阈值,将达到和超过阈值的告警事件定义为关联事件,并将计算出来的关联告警事件进行合并,并记录事件条数。
[0076]
步骤s9:通过告警事件合并的日志数据对关联的流量数据包进行下载分析,根据分析来调整关联分析的余弦相似度算法的相似性规则取值,从而达到对关联分析调优的效果。具体的,通过对所述的告警事件关联的日志数据下载流量数据包,分析后对余弦相似度计算结果取值进行调整,设置新的阈值,以及对向量元素选取范围和向量元素取值规则进行调整,达到调优的目的。
[0077]
本发明实施例还提供一种网络安全日志告警去重处理系统,包括:
[0078]
采集模块,用于采集需要进行告警分析的各类型网络安全设备所产生的日志;本发明基于syslog协议由大数据组件logstash进行各类安全设备的日志采集,接收不同编码格式的原始日志。
[0079]
范式化处理模块,所述范式化处理模块内嵌grok表达式解析规则库的日志解析引擎,用于根据匹配到规则对日志按解析规则进行自动分词处理,再自动生成范式化文件,解析引擎将范式化文件通过logstash的过滤器插件对日志按标准范式化字段进行转义,生成格式统一的标准化日志。
[0080]
对于解析引擎不能正确有效解析的日志将发往未解析日志库,由日志解析引擎通过人工给出分词字符将日志分词显示,给出参考结果和原始日志对比,由人工对转义映射规则进行补充后再次对日志解析完成标准化解析。
[0081]
过滤模块,用于通过编写的日志过滤规则对日志进行过滤,去掉无意义的日志,比如设备状态日志和设备登录日志,将日志过滤规则作为筛选条件对符合条件的日志进行过滤筛选存储;
[0082]
告警处理模块,用于将标准化的日志数据转化为网络安全告警事件,具体的,可根据预置的网络安全攻击阶段和攻击事件分类规则,将日志事件按攻击阶段和事件分类进行匹配和关联分析,将日志数据按不同攻击阶段的事件分类存入数据仓库,形成安全事件分析主题库。
[0083]
对于未在网络攻击事件分类规则定义范围内的日志数据,通过自定义新增的告警规则将日志数据定义为网络安全告警事件,并对日志告警事件进行属性重定义,产生的安全告警事件在elasticsearch数据库建立另一个索引。
[0084]
关联分析模块,用于通过余弦相似度算法对在一段时间范围内网络安全告警事件进行关联分析,将符合相似性规则的告警事件进行合并,并记录事件条数。
[0085]
关联流量下载模块,用于通过告警事件合并的日志数据对关联的流量数据包进行下载分析,根据分析来调整关联分析的余弦相似度算法的相似性规则取值,从而达到对关联分析调优的效果。
[0086]
本发明通过建立一套直观、可靠、稳定的网络安全日志分析方法,通过简便、快捷的方式将采集到的网络安全日志数据进行范式化解析处理,生成统一日志属性的日志数
据,再将日志产生的告警事件进行去重合并处理,有效提升网络安全检测效率,减少告警的误报和重复,从而减轻告警分析处理的压力。
[0087]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何属于本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1