一种基于图神经网络的实体身份关联映射方法及系统与流程

文档序号:37380968发布日期:2024-03-22 10:33阅读:12来源:国知局
一种基于图神经网络的实体身份关联映射方法及系统与流程

本发明涉及网络信息安全,尤其涉及一种基于图神经网络的实体身份关联映射方法及系统。


背景技术:

1、随着互联网和信息技术的高速发展,各个行业的各类信息系统由于建设时间跨度和技术迭代的影响,往往存在多源身份数据,这就给不法分子利用身份数据不一致的问题进行隐私窃取、钓鱼等违法行为留下了可乘之机,如果能够建立网络实体身份间的关联映射,有助于开展信任机制传播、异常用户检测与干预、舆情分析与管控、用户隐私保护、行为审计与追踪溯源等方面的研究,大大降低这方面的安全风险。

2、实体身份关联映射是上述场景的应用基础,但不同信息系统具有不同的身份管理系统,缺乏身份联盟管理体系,导致不同信息系统中的虚拟身份无法直接进行关联,且单源属性相似性、多源行为不一致性等特性给身份特征提取、关联映射带来了极大的挑战。因此针对实体身份关联映射方法的研究已成为了一个新的趋势,但基于特征组合权重的传统方法和依赖专家知识设计的机器学习方法,由于身份特征表征能力弱、潜在关系不清晰等问题导致关联结果不是很理想,研究方向正逐步由传统身份关联方法、基于机器学习的方法,向基于深度学习的方法进行转变。

3、网络实体在各种信息系统中的信息主要包括:身份属性信息、身份关系拓扑、实体行为细节等。面对诸多挑战,如何有效的融合并运用是准确提取实体身份特征并实现身份关联映射的关键。


技术实现思路

1、为了解决上述问题,本发明提出一种基于图神经网络的实体身份关联映射方法及系统,针对表征能力弱的问题,利用图神经网络的传播机制,实现身份特征信息提取全覆盖,提高了节点特征表达能力。针对潜在关系不清晰的问题,通过注意力机制自学习,提高了对噪声的适应性,对节点邻域进行精细化表达,从而准确实现网络实体身份关联映射。

2、本发明采用的技术方案如下:

3、一种基于图神经网络的实体身份关联映射方法,包括:

4、基于图嵌入的特征提取和表示:将不同信息系统中的相关信息及提取的特征作为节点进行图表示,构建这些节点与用户之间的连边,再将图中的特征节点映射至同一特征空间,得到特征归一化表示;所述相关信息包括身份属性信息、身份关系拓扑和实体行为细节;

5、基于多层注意力网络的身份关联映射:模拟真实网络中存在的结构噪声和属性噪声;通过多层图注意力网络学习每个图嵌入结构的隐藏特征,聚合各个图注意力层的嵌入,平衡嵌入中的局部信息和全局信息,得到嵌入表示结果;根据每一层图注意力层的嵌入表示结果聚合得到关联匹配得分,并使用分层关联矩阵进行表示,再通过贪心算法得到最终的关联矩阵,从而获得每个实体身份节点的关联匹配候选用户。

6、进一步地,所述基于图嵌入的特征提取和表示包括:树状结构确定、图嵌入结构构建、身份属性信息特征提取、实体行为细节特征提取、身份关系拓扑特征提取、节点向量化表示。

7、进一步地,所述基于多层注意力网络的身份关联映射包括:属性噪声模拟、自适应噪声损失函数引入、注意力系数归一化、节点嵌入融合、多层特征表达和关联身份识别计算。

8、进一步地,所述基于图嵌入的特征提取和表示包括以下步骤:

9、s101.树状结构确定:第一层为表达层,包括身份属性信息节点、身份关系拓扑节点和实体行为细节节点;第二层为类型层,包括属性分类和关系拓扑分类组成的类别节点;第三层为特征层,包括特征提取的具体结果,特征层节点具有唯一性和通用性;

10、s102.图嵌入结构构建:将图嵌入结构表示为η={υ,ε},其中υ={vi|i=1,...,n}为节点集合,ε={eij|(i,j)=1,...,n}为边集合;节点集合υ由实体节点υu、身份属性信息节点υp、身份关系拓扑节点υg、实体行为细节节点υs、类别节点υc和特征节点υf六类节点构成,即υ={υu,υp,υg,υs,υc,υf};

11、s103.身份属性信息特征提取:对于简单维度的身份属性信息,将其直接作为特征节点构建在图嵌入结构中;对于简短文本类信息,则直接提取字符作为特征,并记录字符出现的位置;

12、s104.实体行为细节特征提取:将融合解析的实体行为细节进行拼接组合,并利用聚类将实体行为细节进行分类,再利用tf-idf方法计算词频,提取行为细节关键词,作为实体行为细节节点;对于有先后顺序的特征,则记录顺序信息;

13、s105.身份关系拓扑特征提取:利用line中的一阶相似度,对每种身份关系进行嵌入表示,构建关系嵌入连边eij,获得潜在空间中身份的向量表示zi,zj,并添加映射函数得到关系嵌入连边在潜在空间中的特征向量h';

14、s106.节点向量化表示:使用glorot正态分布对节点集合υ={υu,υp,υg,υs,υc,υf}进行向量化表示,计算所抽取表示的注意力权重,捕捉特征之间的内部相关性,并在后续训练过程中动态更新潜在空间中的嵌入向量。

15、进一步地,所述基于多层注意力网络的身份关联映射包括以下步骤:

16、s201.属性噪声模拟:建立增强学习的邻接矩阵,并设置一个零掩码矩阵,通过计算得到零掩码矩阵与邻接矩阵的哈达玛积,使源实体身份节点集合υ能够以概率p去随机删除或增加连边e,从而模拟真实信息系统中存在的结构噪声;

17、s202.自适应噪声损失函数引入:引入自适应噪声损失函数以最小化增强学习前后节点间多级特征的差异,并基于置信机制控制增强学习过程是否越界;

18、s203.化注意力系数归一:通过参数化矩阵w对节点属性矩阵f进行共享的线性变换,使用softmax函数对注意力系数μab=α(wfυ,wfυ')进行归一化,使其在不同身份节点之间具有可比性;所述注意力系数为μab=α(wfυ,wfυ')用于反映身份节点a和b间的重要性程度;

19、s204.节点嵌入融合:构建k个图注意力层,每一层在不同的邻域结构中学习不同的属性特征;第0层嵌入h(0)为初始的属性矩阵f,后面每层嵌入h(x)的属性特征是通过学习其邻域的结构信息得到,并利用多层图注意力机制将实体节点集合υ的身份属性信息节点υp、身份关系拓扑节点υg、实体行为细节节点υs在不同网络层上进行融合;

20、s205.多层特征表达:使用每一层的嵌入表达结果作为实体身份节点的特征表达{h(1),h(2),...,h(k)},其中k为超参数,也是图注意力层的层数;

21、s206.关联身份识别计算:构建分层关联矩阵其中m为当前图注意力层的层数,为信息系统s的实体身份节点的特征表达,为信息系统t的实体身份节点的特征表达;根据当前图注意力层的所有结构信息和属性信息获得每个实体身份节点的关联匹配候选用户。

22、一种基于图神经网络的实体身份关联映射系统,包括:

23、特征提取和表示模块,被配置为将不同信息系统中的相关信息及提取的特征作为节点进行图表示,构建这些节点与用户之间的连边,再将图中的特征节点映射至同一特征空间,得到特征归一化表示;所述相关信息包括身份属性信息、身份关系拓扑和实体行为细节;

24、身份关联映射模块,被配置为模拟真实网络中存在的结构噪声和属性噪声;通过多层图注意力网络学习每个图嵌入结构的隐藏特征,聚合各个图注意力层的嵌入,平衡嵌入中的局部信息和全局信息,得到嵌入表示结果;根据每一层图注意力层的嵌入表示结果聚合得到关联匹配得分,并使用分层关联矩阵进行表示,再通过贪心算法得到最终的关联矩阵,从而获得每个实体身份节点的关联匹配候选用户。

25、进一步地,所述特征提取和表示模块包括依次连接的树状结构确定单元、图嵌入结构构建单元、身份属性信息特征提取单元、实体行为细节特征提取单元、身份关系拓扑特征提取单元和节点向量化表示单元。

26、进一步地,所述基于多层注意力网络的身份关联映射包括依次连接的属性噪声模拟单元、自适应噪声损失函数引入单元、注意力系数归一化单元、节点嵌入融合单元、多层特征表达单元和关联身份识别计算单元。

27、进一步地,所述基于图嵌入的特征提取和表示包括:

28、树状结构确定单元,其第一层为表达层,包括身份属性信息节点、身份关系拓扑节点和实体行为细节节点;第二层为类型层,包括属性分类和关系拓扑分类组成的类别节点;第三层为特征层,包括特征提取的具体结果,特征层节点具有唯一性和通用性;

29、图嵌入结构构建单元,被配置为将图嵌入结构表示为η={υ,ε},其中υ={vi|i=1,...,n}为节点集合,ε={eij|(i,j)=1,...,n}为边集合;节点集合υ由实体节点υu、身份属性信息节点υp、身份关系拓扑节点υg、实体行为细节节点υs、类别节点υc和特征节点υf六类节点构成,即υ={υu,υp,υg,υs,υc,υf};

30、身份属性信息特征提取单元,被配置为对于简单维度的身份属性信息,将其直接作为特征节点构建在图嵌入结构中;对于简短文本类信息,则直接提取字符作为特征,并记录字符出现的位置;

31、实体行为细节特征提取单元,被配置为将融合解析的实体行为细节进行拼接组合,并利用聚类将实体行为细节进行分类,再利用tf-idf方法计算词频,提取行为细节关键词,作为实体行为细节节点;对于有先后顺序的特征,则记录顺序信息;

32、身份关系拓扑特征提取单元,被配置为利用line中的一阶相似度,对每种身份关系进行嵌入表示,构建关系嵌入连边eij,获得潜在空间中身份的向量表示zi,zj,并添加映射函数得到关系嵌入连边在潜在空间中的特征向量h';

33、节点向量化表示单元,被配置为使用glorot正态分布对节点集合υ={υu,υp,υg,υs,υc,υf}进行向量化表示,计算所抽取表示的注意力权重,捕捉特征之间的内部相关性,并在后续训练过程中动态更新潜在空间中的嵌入向量。

34、进一步地,所述基于多层注意力网络的身份关联映射包括:

35、属性噪声模拟单元,被配置为建立增强学习的邻接矩阵,并设置一个零掩码矩阵,通过计算得到零掩码矩阵与邻接矩阵的哈达玛积,使源实体身份节点集合υ能够以概率p去随机删除或增加连边e,从而模拟真实信息系统中存在的结构噪声;

36、自适应噪声损失函数引入单元,被配置为引入自适应噪声损失函数以最小化增强学习前后节点间多级特征的差异,并基于置信机制控制增强学习过程是否越界;

37、化注意力系数归一单元,被配置为通过参数化矩阵w对节点属性矩阵f进行共享的线性变换,使用softmax函数对注意力系数μab=α(wfυ,wfυ')进行归一化,使其在不同身份节点之间具有可比性;所述注意力系数为μab=α(wfυ,wfυ')用于反映身份节点a和b间的重要性程度;

38、节点嵌入融合单元,被配置为构建k个图注意力层,每一层在不同的邻域结构中学习不同的属性特征;第0层嵌入h(0)为初始的属性矩阵f,后面每层嵌入h(x)的属性特征是通过学习其邻域的结构信息得到,并利用多层图注意力机制将实体节点集合υ的身份属性信息节点υp、身份关系拓扑节点υg、实体行为细节节点υs在不同网络层上进行融合;

39、多层特征表达单元,被配置为使用每一层的嵌入表达结果作为实体身份节点的特征表达{h(1),h(2),...,h(k)},其中k为超参数,也是图注意力层的层数;

40、关联身份识别计算单元,被配置为构建分层关联矩阵其中m为当前图注意力层的层数,为信息系统s的实体身份节点的特征表达,为信息系统t的实体身份节点的特征表达;根据当前图注意力层的所有结构信息和属性信息获得每个实体身份节点的关联匹配候选用户。

41、本发明的有益效果在于:

42、1)针对表征能力弱的问题,提出基于图嵌入的特征提取和表示方法,将不同信息系统中的身份属性信息、身份关系拓扑、实体行为细节及其提取的特征分别在图嵌入结构中进行表示,并构建这些节点与用户之间的连边,将图中的特征节点映射至潜在特征空间,实现特征归一化表示,便于后续关联映射。

43、2)针对潜在关系不清晰的问题,提出了基于多层注意力网络的身份关联映射模型,不需要先验知识即可训练,面对真实信息系统中出现的属性噪声,进行自适应增强学习,提高了对噪声的适应性。并通过注意力机制学习邻居节点的权重,对节点邻域进行了精细化表达,从而能够准确地实现了关联用户身份识别。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1