一种基于图神经网络的攻击者画像方法与流程

文档序号:33713843发布日期:2023-04-01 02:50阅读:249来源:国知局
一种基于图神经网络的攻击者画像方法与流程

1.本发明涉及的是信息安全技术领域,具体涉及一种基于图神经网络的攻击者画像方法。


背景技术:

2.近年来,网络安全问题突出,攻击手段层出不穷,且变得更加隐蔽、更加智能、更难以发现。在此背景下,网络安全溯源具有重要的意义。有研究基于简单的聚类模型对攻击者进行画像,即根据提取安全日志和收集的其他数据通过k-means等方法进行聚类分析,但该方法忽略了攻击信息之间隐藏的特征,难以准确的对攻击者进行画像。此外,还有方法基于transformer进行语义识别溯源,然而该方法需要大量的数据进行训练,且对于攻击信息之间的关联推理能力较弱,在复杂的网络环境之中,ip地址等信息容易伪造,使得无法最终得到准确的结果。与此同时,现有方法多只使用攻击信息中的部分属性,难以彻底的利用攻击信息进行精准溯源,应用场景受限。
3.为了解决攻击者画像模糊、对攻击信息难以关联推理的问题,开发一种基于图神经网络的攻击者画像方法尤为必要。


技术实现要素:

4.针对现有技术上存在的不足,本发明目的是在于提供一种基于图神经网络的攻击者画像方法,基于图神经网络对攻击信息进行聚类分析,满足对攻击者精准画像的需求,易于推广使用。
5.为了实现上述目的,本发明是通过如下的技术方案来实现:一种基于图神经网络的攻击者画像方法,其步骤为:
6.s1.获取攻击信息;
7.s2.对攻击事件进行范式化处理,使来自不同厂商、设备的信息具有相同的维度和格式;
8.s3.攻击事件特征图的初始构建,确定节点及节点的特征集合x,并根据节点的连接情况生成边,以邻接矩阵a的形式保存边信息;
9.s4.图神经网络表示学习,通过网络表示学习获得节点的最优高级特征;
10.s5.攻击事件特征图的聚类分析,得到攻击者的画像集合。
11.作为优选,所述的步骤s1具体为:收集开源的网络安全实验室和厂商产生的报警日志,为了保证真实的环境情况,混合kdd99、ids2017、digg、reddit、unsw-nb15等数据集的子集进行实验,并用人工标注相应攻击源并映射对应的操作集。
12.作为优选,所述的步骤s2的具体方法为:
13.s2.1:将来自不同厂商、设备的攻击信息采用相同的格式进行储存;
14.s2.2:通过国家标准《网络攻击定义及描述规范标准》对攻击模式的特征维度、攻击意图、攻击严重程度进行定义,确定每个攻击模式的上下级关系,攻击模式的概要等详细
信息;
15.s2.3:根据第三方情报和知识库对攻击者的ip、受害者的ip、攻击者的特征信息、受害者的特征信息进行范式化定义;
16.s2.4:调整各个攻击信息的维度,使来自不同资源的攻击信息具有相同的维度,该步骤还包括:将样本数据集全部提供给基于极端随机树(extra tree)的分类模型,以确定每个特征属性的重要程度。
17.作为优选,所述的步骤s3的具体方法为:
18.s3.1:根据预处理的信息构建节点连接单元,对节点集合内的节点添加边连接;
19.s3.2:根据每个节点的特征构建初始特征矩阵x,根据每个节点之间的关系构建邻接矩阵a,得到攻击网络g=(v,e,x,a)。
20.作为优选,所述的步骤s4的具体方法为:
21.s4.1:基于node2vec网络嵌入方法学习网络的结构和节点的邻接信息等高级特征;
22.s4.2:基于学习到的高级特征使用图神经网络学习一个图神经网络映射函数,使得节点vi可以聚合自己的特征xi和邻居节点的特征xi来生成节点vi的新表示,捕获图内部数据的依存关系。
23.作为优选,所述的步骤s4.1具体包括:
24.s4.1.1:通过超参数p,q控制随机游走的策略,采样获取攻击网络的信息;
25.s4.1.2:由步骤s3中生成的网络图通过skip-gram模型学习每个节点的网络特征。
26.作为优选,所述的步骤s4.2具体包括:
27.s4.2.1:根据步骤s4.1学习到网络节点和邻接信息的高级特征信息,首先构建图卷积神经网络自编码器encoder,利用编码器将输入的高级特征信息向量f投影至的编码空间z,即z=encoder(f);
28.s4.2.2:根据带有注意力机制的编码器,对节点进行加权平均,计算公式为:
[0029][0030]
式(1)中,w
ij
为节点i与节点j之间的注意力权重,ui为i的所有邻节点集合,分别为i节点在k和k+1层的信息,σ为sigmoid函数;
[0031]
s4.2.3:计算编码空间z节点之间的内积;图自编码器的损失函数表示为:
[0032]
loss=-log(σ(zi))-r
·ev~p(v)
log(σ(zi))
ꢀꢀ
(2)
[0033]
式(2)中,v~p(v)代表负样本数;
[0034]
s4.2.4:最小化损失函数,推理和捕获图中数据的依存关系。
[0035]
作为优选,所述的步骤s4.2.1中的图卷积神经网络自编码器encoder具体为:图自编码器encoder是由图卷积神经网络所实现,其计算方法如下:
[0036][0037]
作为优选,所述的步骤s5基于图神经网络得到的特征向量进行聚类分析,为攻击者进行画像,包括:
[0038]
s5.1:假定聚类中心为xj,则节点i属于u类别的概率s
iu
表示为:
[0039][0040]
式(4)中,为i节点与聚类中心为xj的距离;
[0041]
s5.2:为使每个不同类之间的距离最大,定义目标分布ti:
[0042][0043]
s5.3:聚类模型的损失函数ls为:
[0044]
s5.4通过最小化ls训练模型,根据训练的结果将具有相似特征的攻击事件划分到一个聚类,即可得到攻击者的画像。
[0045]
本发明的有益效果:本方法基于图神经网络和聚类分析,可实现对攻击信息的特征提取和关联推理,用图神经网络和聚类分析的方法实现复杂情况攻击者画像,满足对攻击者精准画像的需求,应用前景广阔。
附图说明
[0046]
下面结合附图和具体实施方式来详细说明本发明;
[0047]
图1为本发明的流程图;
[0048]
图2为本发明的算法流程图;
[0049]
图3为本发明公共标准《网络攻击定义及描述规范标准》攻击模式示例图;
[0050]
图4为本发明《网络攻击定义及描述规范标准》攻击模式定义示意图。
具体实施方式
[0051]
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
[0052]
参照图1-4,本具体实施方式采用以下技术方案:一种基于图神经网络的攻击者画像方法,其步骤为:
[0053]
s1.获取攻击信息,具体为:收集开源的网络安全实验室和厂商产生的报警日志,为了保证真实的环境情况,混合kdd99、ids2017、digg、reddit、unsw-nb15等数据集的子集进行实验,并用人工标注相应攻击源并映射对应的操作集。
[0054]
s2.对攻击事件进行范式化处理,使来自不同厂商、设备的信息具有相同的维度和格式,具体方法为:
[0055]
s2.1:将来自不同厂商、设备的攻击信息采用相同的格式进行储存;
[0056]
s2.2:通过国家标准《网络攻击定义及描述规范标准》对攻击模式的特征维度、攻击意图、攻击严重程度进行定义,确定每个攻击模式的上下级关系,攻击模式的概要等详细信息;
[0057]
s2.3:根据第三方情报和知识库对攻击者的ip、受害者的ip、攻击者的特征信息、受害者的特征信息进行范式化定义;
[0058]
s2.4:调整各个攻击信息的维度,使来自不同资源的攻击信息具有相同的维度,该步骤还包括:将样本数据集全部提供给基于极端随机树(extra tree)的分类模型,以确定每个特征属性的重要程度。
[0059]
s3.攻击事件特征图的初始构建,确定节点及节点的特征集合x,并根据节点的连接情况生成边,以邻接矩阵a的形式保存边信息;将数据集中每一个攻击事件作为攻击网络的一个节点,若发生攻击事件,则在两个用户对应的节点之间建边;获取节点和边的初始特征,构建攻击网络g=(v,e,x,a),具体方法为:
[0060]
s3.1:根据预处理的信息构建节点连接单元,对节点集合内的节点添加边连接;
[0061]
s3.2:根据每个节点的特征构建初始特征矩阵x,根据每个节点之间的关系构建邻接矩阵a,得到攻击网络g=(v,e,x,a)。
[0062]
s4.图神经网络表示学习,通过网络表示学习获得节点的最优高级特征和图级特征表示。对于输入的特征图g=(v,e,x,a),首先通过node2vec算法学习获得节点的最优高级特征,其具体方法为:
[0063]
s4.1:基于node2vec网络嵌入方法学习网络的结构和节点的邻接信息等高级特征,包括:
[0064]
s4.1.1:通过超参数p,q控制随机游走的策略,采样获取攻击网络的信息;
[0065]
s4.1.2:由步骤s3中生成的网络图通过skip-gram模型学习每个节点的网络特征。
[0066]
s4.2:基于学习到的高级特征使用图神经网络学习一个图神经网络映射函数,使得节点vi可以聚合自己的特征xi和邻居节点的特征xi来生成节点vi的新表示,捕获图内部数据的依存关系。具体为:
[0067]
s4.2.1:根据步骤s4.1学习到网络节点和邻接信息的高级特征信息,首先构建图卷积神经网络自编码器encoder,利用编码器将输入的高级特征信息向量f投影至的编码空间z,即z=encoder(f);该图卷积神经网络自编码器encoder由图卷积神经网络所实现,其计算方法如下:
[0068][0069]
s4.2.2:根据带有注意力机制的编码器,对节点进行加权平均,计算公式为:
[0070][0071]
式(1)中,w
ij
为节点i与节点j之间的注意力权重,ui为i的所有邻节点集合,分别为i节点在k和k+1层的信息,σ为sigmoid函数;
[0072]
s4.2.3:计算编码空间z节点之间的内积;图自编码器的损失函数表示为:
[0073]
loss=-log(σ(zi))-r
·ev~p(v)
log(σ(zi))
ꢀꢀ
(2)
[0074]
式(2)中,v~p(v)代表负样本数;
[0075]
s4.2.4:最小化损失函数,推理和捕获图中数据的依存关系。
[0076]
s5.攻击事件特征图的聚类分析,得到攻击者的画像集合。基于图神经网络得到的特征向量进行聚类分析,为攻击者进行画像,包括:
[0077]
s5.1:假定聚类中心为xj,则节点i属于u类别的概率s
iu
表示为:
[0078][0079]
式(4)中,为i节点与聚类中心为xj的距离;
[0080]
s5.2:为使每个不同类之间的距离最大,定义目标分布ti:
[0081][0082]
s5.3:聚类模型的损失函数ls为:
[0083]
s5.4通过最小化ls训练模型,根据训练的结果将具有相似特征的攻击事件划分到一个聚类,即可得到攻击者的画像。
[0084]
值得注意的是,所述的步骤s2根据《网络攻击定义及描述规范标准》公共标准对攻击事件进行范式化处理和标准化处理,使来自不同厂商、设备的攻击信息拥有相同的维度和格式。同时根据第三方情报和知识库对攻击者的ip、受害者的ip、攻击者的特征信息,受害者的特征信息进行范式化定义。使得来源不同的攻击信息具有相同的格式和维度。容易理解的,不同厂商、设备的信息数据结构差异巨大,必须经过范式化处理才能被大数据统一分析和关联推理。
[0085]
其中根据《网络攻击定义及描述规范标准》公共标准进行范式化处理是指将攻击事件定义为以攻击模式为核心的安全事件规范架构,涵盖了目标特征维度、攻击意图维度。攻击严重程度等三个维度。参照图3、4,例如一个攻击事件主要包括:攻击模式名称、目标类型、目标产品、攻击严重程度、涉及协议、操作时间、操作账户名、失败原因。标准化处理是将较大的数据值转化为较小的数据值,对空值进行填充,以及对异常值进行剔除。维度调整是指调整各个攻击信息的维度,选取对攻击信息分析有用的属性,用于信息的聚类分析和关联推理。
[0086]
将上述的数据范式化和标准化完成后,人工整理词库,使用ltp语言技术平台分词器进行分词,去除噪声进行one-hot编码。基于上述处理过的数据建立样本集d
x
(x=1...t),将其放入极端随机树分类模型中,生成极端随机森林,根据极端随机森林确定每个特征属性的重要程度。
[0087]
本具体实施方式基于图神经网络和聚类分析方法,首先收集攻击信息数据,通过《网络攻击定义及描述规范标准》对数据集进行范式化处理,然后构建特征图并基于图神经网络进行表示学习。其中,图神经网络表示学习首先通过node2vec网络嵌入提取高级特征,然后通过图卷积神经网络捕获特征图的内部依存关系,最后通过聚类分析,完成攻击者的画像。该方法解决了攻击者画像模糊、对攻击信息难以关联推理的问题,满足对攻击者精准画像的需求,具有广阔的市场应用前景。
[0088]
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其
等效物界定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1