一种网络安全态势预测方法及系统与流程

文档序号:26141433发布日期:2021-08-03 14:26阅读:100来源:国知局
一种网络安全态势预测方法及系统与流程

本发明涉及一种网络安全态势预测方法及系统,属于网络安全研究技术领域。



背景技术:

在网络安全态势感知与通报预警平台的相关研究中,为了支持安全态势的有效评估,必须提升平台的威胁发现与态势预测能力。现有的防御技术一般都是基于对安全事件的检测分类进行安全性预测的,当前的大部分研究都在致力于对安全事件的分类模型算法改进,期望提升安全事件检测的精度,对整体的网络安全态势感知缺乏全局的掌控。并且,预测工作通常都是时序相关,对数据的时序依赖特性要求很高,直接套用时序模型需要对数据的平稳性进行严格的检验,如果输入数据不平稳就没法直接使用时序模型。



技术实现要素:

本发明的目的是提供一种网络安全态势预测方法及系统,以快速、准确地实现网络安全态势的预测。

本发明为解决上述技术问题而提供一种网络安全态势预测方法,该预测方法包括以下步骤:

1)获取表征网络状态信息特征的样本数据及其对应的时间信息,形成时间序列数据,所述的样本数据为文本信息特征;

2)根据时间序列中文本信息特征的相似程度进行聚合分类,形成不同类簇;

3)确定各类簇的中心点,选取与各类簇中心点特征相近的样本数据,将该样本作为安全态势训练样本;

4)根据设定安全态势确定规则计算安全态势训练样本中各样本对应的安全概率,以实现对所述安全态势训练样本的标注;所述的设定安全态势确定规则包括设定时间段的特征、敏感字段和基于经验的混合式安全概率判断规则;

5)利用深度学习模型建立网络安全态势预测模型,将标注后的安全态势训练样本对所述网络安全态势预测模型进行训练;

6)获取待预测的网络安全状态特征,并将其输入到训练后的网络安全态势预测模型中,实现对网络安全态势的预测。

本发明通过获取包含有表征网络状态的文本信息特征的样本数据,利用相似特征进行聚合分类,通过密度聚类形成类簇;提取类簇中心点的关键信息以及与其特征相近的数据,构建各聚簇的安全态势训练样本;根据设定规则计算安全态势训练样本的安全概率,以此实现对安全态势训练样本的标注;利用深度学习模型建立网络安全态势预测模型,将安全态势训练样本输入到预测模型中进行训练,利用训练后的预测模型实现对网络安全态势的预测。该方法高效、精准的实现网络安全态势智能感知与预测。

进一步地,为提高预测的准确性,所述步骤6)中的网络安全态势预测模型为lstm模型。

进一步地,所述步骤2)中的聚合分类采用网络化密度聚类。

进一步地,所述的文本信息特征至少包括域名长度、子域名最大长度、字符熵、数字与字母转换率、连续数字长度、连续字母长度、域名a记录、域名ip熵和ns记录数中的两种。

进一步地,所述的密度聚类的过程包括:

定义网格步长,根据样本数据网格化样本数据集空间,形成网格对象集;

定义网格对象的密度阈值,将密度值大于设定的密度阈值的网格对象称为密集网格对象,形成网络对象集,遍历网格对象集,当发现第一个密集网格对象时,便以该网格对象开始扩展,扩展原则是若一个网格对象与该密集网格对象邻接并且其自身也是密集网格对象,则将该网格对象加入到该密集区域中,直到不再有这样的网格对象被发现为止,这样就完成了一次聚簇类标的划分;

重复该步骤对剩下的网格对象进行访问,直到所有网格对象都被遍历为止,完成所有聚簇的划分。

进一步地,为了准确、快速计算出安全概率,该方法还包括根据样本数据中网络状态信息特征中各特征的重要性对安全态势训练样本的中特征进行筛选,以筛选出比较重要的特征。

进一步地,为保证样本数据的完整性,所述步骤1)还包括对样本数据的预处理,预处理过程包括:

对样本数据进行日志分解和格式化处理;

对样本数据中的文本信息特征的缺失值进行处理,去除缺失值大于设定阈值的特征,对于缺失值小于设定阈值的特征的缺失值进行补充。

本发明还提供了一种网络安全态势预测系统,该预测系统包括:

样本数据获取模块,用于获取表征网络状态信息特征的样本数据及其对应的时间信息,形成时间序列数据,所述的样本数据为文本信息特征;

样本数据聚类模块,用于根据时间序列数据中参数的相似特征进行聚合分类,通过密度聚类形成类簇;提取类簇中心点的关键信息,提取与所述类簇中心点特征相近的数据,构建各聚簇的安全态势训练样本,并将所述各聚簇安全态势训练样本以一定比例随机划分成训练集和测试集;

安全概率计算模块,用于根据设定安全态势确定规则计算安全态势训练样本中各样本对应的安全概率,以实现对所述安全态势训练样本的标注;所述的设定安全态势确定规则包括设定时间段的特征、敏感字段和基于经验的混合式安全概率判断规则;

模型建立模块,用于根据所述标注后的训练集和原始样本数据构建lstm模型,进行多轮迭代训练,建立基于网络状态特征参数与安全概率之间的非线性映射关系;将测试样本数据作为lstm模型的输入,获取作为预测输出结果的安全概率数据;根据预测输出结果的安全概率数据和地址、端口文本数据之间的函数关系构建安全态势预测模型;

态势预测模块,根据安全态势预测模型对下一时间段的网络安全态势进行预测。

进一步地,所述样本数据聚类模块包括:

样本数据分组单元,通过机器学习模型对时间序列数据中的文本信息特征进行数据匹配,根据匹配度对所述文本信息特征进行分组;其中,所述文本信息特征包括地址及相应的域名长度、子域名最大长度、字符熵、数字与字母转换率、连续数字长度、连续字母长度、域名a记录、域名ip熵、ns记录数等参数中的一种或几种;

样本数据聚类单元,用于采用基于网格化的密度聚类,判断空间中样本数据的密度,完成网格对象集的聚类;根据所述基于网格化的密度聚类,对每个样本数据的类标进行划分,即对所述目标进行分类,形成类簇;

样本构建单元,配置提取初始类簇中心点的样本数据,以及根据以初始类簇中心点为起点选取与其距离相近的设定条数的样本数据,构建各个聚簇的安全态势训练样本。

进一步地,该系统还包括特征筛选模块,所述的特征筛选模块用于根据样本数据中网络状态信息特征中各特征的重要性对安全态势训练样本的中特征进行筛选,以筛选出比较重要的特征。

附图说明

图1是本发明网络安全态势预测方法的流程图;

图2是本发明网络安全态势预测系统的结构图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步地说明。

方法实施例

本发明首先获取带有网络状态信息的样本数据及其对应的时间信息,并对其进行预处理;然后根据时间序列数据中参数的相似特征进行聚合分类,通过密度聚类形成类簇;提取类簇中心点的关键信息以及与其特征相近的数据,构建各聚簇的安全态势训练样本,随机划分成训练集和测试集;针对筛选出的网络状态信息特征,通过对训练时间段内的网络状态信息进行加权统计可以计算出安全概率,从而建立基于网络状态特征参数与安全概率之间的映射关系;基于训练集和测试集建立lstm模型,进行多轮迭代训练,输出地址定位后网络的安全概率;根据预测模型输出结果的安全概率数据对网络的安全态势进行预测。该方法高效、精准的实现网络安全态势智能感知与预测。该方法的具体实现流程如图1所示,具体实现步骤如下。

1.获取带有网络状态信息的样本数据及其对应的时间信息,并对其进行预处理。

本发明获取的是带有网络状态特征参数的时间序列数据;其中,样本数据包括网络状态特征参数:源地址、源端口、目的地址和目的端口的数据,以及所述网络状态特征参数分别对应的通信连接情况的日志数据。为保证后续的预测的准确性,需要对获取的数据进行预处理,预处理的步骤包括:

1)将不同类型的日志通过agent收集到日志清洗服务器中,通过日志清洗服务器将收集的样本数据进行日志分解、格式化;

2)对清洗后的样本数据进行网络状态信息特征提取,以提取网络状态信息特征的文本信息特征;

3)对文本信息特征的缺失值进行处理,首先去除缺失值大于90%的特征,对于缺失值低于90%的特征,则对缺失值进行补充,可采用如众数替代、均值插补、极大似然估计、多重插补等方法来补充缺失值;

4)随后进行特殊时期处理,找出预测时间段的各特征值方差大于预设阈值的样本数据。

2.根据时间序列数据中参数的相似特征进行聚合分类,通过密度聚类形成类簇。

通过机器学习模型对时间序列数据中的文本信息特征进行数据匹配,根据匹配度对文本信息特征进行分组;其中,所述文本信息特征包括地址及相应的域名长度、子域名最大长度、字符熵、数字与字母转换率、连续数字长度、连续字母长度、域名a记录、域名ip熵、ns记录数等参数中的一种或几种。

将每一组样本数据的特征参数映射到矩阵中,对所述样本数据进行网格化;采用基于网格化的密度聚类,判断空间中样本数据的邻域关系和密度,完成网格对象集的聚类。根据基于网格化的密度聚类,对每个样本数据的类标进行划分,即对所述目标进行分类,形成类簇。

根据样本数据的特征参数网格化样本数据集空间,形成网格对象集;该算法的网格化过程包括:给定包含d个属性的数据集合,该数据集合组成d维数据空间s,在d维数据空间s中,将每一维数据根据预先定义的网格步长划分为pi份,则整个数据空间被划分为个不相交的矩形网格,这些网格即为网格对象。

定义网格对象的密度阈值,将密度值大于事先设定的密度阈值的网格对象称为密集网格对象。首先遍历网格对象集,当发现第一个密集网格对象时,便以该网格对象开始扩展,扩展原则是若一个网格对象与该密集网格对象邻接并且其自身也是密集网格对象,则将该网格对象加入到该密集区域中,直到不再有这样的网格对象被发现为止,这样就完成了一次聚簇类标的划分。重复该步骤对剩下的网格对象进行访问,直到所有网格对象都被遍历为止,完成所有聚簇的划分。

该基于密度和网格的簇心算法处理速度很快,与数据点的个数无关,只与划分后的网格单元数有关,适用于高维数据集,有较好的伸缩性,对输入顺序和噪音不敏感,可进行并行化过程和增量更新。

3.提取类簇中心点的特征信息,提取与所述类簇中心点特征相近的数据,构建各聚簇的安全态势训练样本,并将所述各聚簇安全态势训练样本以一定比例随机划分成训练集和测试集。

随机选择一个点作为第一个初始类簇中心点,然后选择距离该点最远的那个点作为第二个初始类簇中心点,然后再选择距离前两个点的最近距离最大的点作为第三个初始类簇的中心点,以此类推,直至选出k个初始类簇中心点;提取初始类簇中心点的样本数据,以及根据以初始类簇中心点为起点选取与其距离相近的前n条样本数据,构建各个聚簇的安全态势训练样本。其中n可以根据实际情况进行设定,在本实例中优选为10~20。

4.对训练集和测试集的样本数据中的网络状态信息特征进行筛选,筛选出部分重要特征。

由于网络状态信息中的文本信息比较多,且有些信息对网络安全态势的影响没有那么大,因此,为方便后续对网络安全态势的预测,本发明需要对其中的特征信息进行筛选,筛选出重要特征。具体筛选时可采用决策树、层次分析法等方式,也可根据样本数据中的网络状态信息特征进行rf特征重要性计算,通过计算所述网络状态信息特征中各个特征的重要性百分比与准确率的关系,筛选出部分重要特征。

5.对特征筛选后的样本数据进行标注。

将筛选出的特征代入设定的规则中计算安全概率,其中的设定安全态势确定规则包括设定时间段的特征、敏感字段和基于经验的混合式安全概率判断规则。例如当出现了特定的ip,说明其出现了不安全的因素,或者是对某个地址的方位次数超过了设定次数或者一段时间每隔5s进行访问导致的爬虫过程不安全的问题。

6.将测试样本数据作为lstm模型的输入,获取作为预测输出结果的安全概率数据;根据预测输出结果的安全概率数据和网络状态特征参数之间的函数关系构建安全态势预测模型。

上述技术方案将预处理后的训练集数据输入到基于lstm的神经网络模型中进行模式评估和优化;使用日志数据生成正常聚类和异常聚类,作为初始化阶段知识库;添加新样本数据进行学习,调整初始化阶段构建的知识库集群,构建安全态势预测的神经网络模型;使用训练后的神经网络模型预估下一个时间窗内的安全概率,并可通过建立规则设置是否生成告警信息。

系统实施例

本发明的网络安全态势预测系统如图2所示,包括:数据预处理模块、样本数据聚类模块、模型建立模块和态势预测模块。数据预处理模块,用于获取带有网络状态信息的样本数据及其对应的时间信息,按照时间戳顺序排序,对样本数据进行预处理、补充日志数据缺失值,得到关于网络状态特征参数的时间序列数据;样本数据聚类模块,用于根据时间序列数据中参数的相似特征进行聚合分类,通过密度聚类形成类簇;提取类簇中心点的关键信息,提取与所述类簇中心点特征相近的数据,构建各聚簇的安全态势训练样本,并将所述各聚簇安全态势训练样本以一定比例随机划分成训练集和测试集;模型建立模块,用于根据所述训练集和原始样本数据构建lstm模型,进行多轮迭代训练,建立基于网络状态特征参数与安全概率之间的非线性映射关系;将测试样本数据作为lstm模型的输入,获取作为预测输出结果的安全概率数据;根据预测输出结果的安全概率数据和地址、端口文本数据之间的函数关系构建安全态势预测模型;态势预测模块,根据安全态势预测模型对下一时间段的网络安全态势进行预测。

其中数据预处理模块包括:

日志收集单元,将不同类型的日志通过agent收集到日志清洗服务器中,通过日志清洗服务器将收集的样本数据日志分解、格式化;

网络状态信息特征提取单元,通过对清洗后的样本数据进行字符识别等方式,提取网络状态信息特征的文本信息特征;

缺失值处理单元,用于对文本信息特征的缺失值进行处理,首先去除缺失值大于90%的特征,对于缺失值低于90%的特征,则对缺失值进行补充,可采用如众数替代、均值插补、极大似然估计、多重插补等方法来补充缺失值;

特殊值处理单元,用于随后进行特殊时期处理,找出预测时间段的各特征值方差大于预设阈值的样本数据。

还包括安全概率计算模块,用于对训练时间段内根据日志数据中的连接失败次数占比、请求通信次数占比、源地址通信次数占比等信息进行加权统计,从而计算出安全概率。。

样本数据聚类模块包括:

样本数据分组单元,通过机器学习模型对时间序列数据中的文本信息特征进行数据匹配,根据匹配度对所述文本信息特征进行分组;其中,所述文本信息特征包括地址及相应的域名长度、子域名最大长度、字符熵、数字与字母转换率、连续数字长度、连续字母长度、域名a记录、域名ip熵、ns记录数等参数中的一种或几种;

样本数据聚类单元,用于采用基于网格化的密度聚类,判断空间中样本数据的密度,完成网格对象集的聚类;根据所述基于网格化的密度聚类,对每个样本数据的类标进行划分,即对所述目标进行分类,形成类簇;

样本构建单元,配置为随机选择一个点作为第一个初始类簇中心点,然后选择距离该点最远的那个点作为第二个初始类簇中心点,然后再选择距离前两个点的最近距离最大的点作为第三个初始类簇的中心点,以此类推,直至选出k个初始类簇中心点;取初始类簇中心点的样本数据,以及根据以初始类簇中心点为起点选取与其距离相近的前n条样本数据,构建各个聚簇的安全态势训练样本。与现有技术相比,本发明方法及系统通过获取各类安全数据的历史行为进行融合分析,应用神经网络对网络中的重大安全事件进行预测,指导平台的安全预警决策生成;实现从空间维度对安全数据进行地址定位,利用它的空间特性进行预测。

本发明实施例还提供一种基于机器学习和时序预测技术的网络安全态势预测的装置,该装置应用于包括上述实施例中的基于机器学习和时序预测技术的网络安全态势预测的系统。

本发明实施例提供的基于机器学习和时序预测技术的网络安全态势预测的装置及系统可以实现上述提供的方法实施例,具体功能实现请参见方法实施例中的说明,在此不再赘述。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)或随机存储记忆体(randomaccessmemory,ram)等。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1