融合多社交媒体平台的知识图谱邻域结构非同构的实体对齐方法

文档序号:32424454发布日期:2022-12-02 23:36阅读:66来源:国知局
融合多社交媒体平台的知识图谱邻域结构非同构的实体对齐方法

1.本发明涉及机器学习领域,尤其涉及融合多社交媒体平台数据的知识图谱邻域结构非同构的实体对齐方法。


背景技术:

2.随着在线社交媒体近年来越来越流行,用户在各媒体平台上的历史用户数据包含了多种不同时间、地点、人物、事件、内容等信息,构成表示为多维度异构网络的知识图谱。用户可能会利用不同的社交媒体平台区分不同的需求,所以同一个用户可能在多个不同的社交媒体平台上产生不同的信息记录。例如,某用户可以使用脸书与其朋友分享近日生活趣事和心情,使用推特了解最新的新闻和时事。然而,同一用户在不同社交媒体平台上拥有的账户以及发表的言论大多数是孤立的,相互之间没有关联。
3.判断不同社交媒体平台构建的知识图谱中的用户实体是否指向真实世界同一用户的过程称为用户实体对齐,将不同社交媒体平台构建的知识图谱中的用户实体对齐对于实际生活中的许多跨平台应用具有很大的价值。例如,在将脸书和推特的用户实体进行对齐后,可以利用某一用户在脸书上对应的用户实体的个人兴趣以及社交关系等进行针对性地分析,然后利用分析结果向该用户的推特推送该用户可能会感兴趣的新话题或可能会关注的新朋友。
4.现行的用户实体对齐解决方案主要依赖于知识图谱的图结构,基于多平台社交媒体数据知识图谱实体具有邻域同构特性的假设。在从大规模知识图谱中提取的一些合成数据集上这些方法取得了一流的性能,然而合成数据集是由现实数据集提取和整理后产生的,目前的对齐算法在实际结构多样的数据集上不能产生令人满意的结果。
5.现实生活中的知识图谱只有少部分实体是严格同构,并且联系频繁,交流丰富,而大多数实体只含有少量的机构信息,并且是联系较为稀疏的远邻居。因此,目前的实体对齐算法仅假设信息同构在现实数据上的表现不好,需要考虑知识图谱构建过程中对实体特征的影响。


技术实现要素:

6.要解决的技术问题
7.针对融合多社交媒体平台数据的知识图谱邻域结构非同构的实体对齐结果不够精准,提出了一种邻域结构非同构的实体对齐模型,引入加入转换不变函数的图卷积神经网络和图注意力机制。该方法可以最大程度的保留知识图谱中实体的原始特征,精准的表示节点的信息,提升对齐结果的精准性。
8.技术方案
9.一种融合多社交媒体平台的知识图谱邻域结构非同构情况实体对齐方法,其特征在于步骤如下:
10.s1、根据用户实体在多个社交媒体平台上的交互以及交互主题内容构建知识图谱;
11.s2、计算实体间的注意力权重,标记对中心实体贡献更大的邻居实体;
12.s3、通过拓扑不变函数分别对实体的单跳和两跳邻居进行聚合,补充实体的单跳和两跳邻居表示信息;
13.s4、利用门控机制结合单跳和两跳邻居表示,得到实体表示;
14.s5、根据对齐模块计算处理后的实体表示,得到实体间相似度,获得对齐的最终结果。
15.进一步的,所述s1所构建的知识图谱中,所述用户、评论主题均作为其实体节点,用户与用户、用户与评论主题以三元组《h,r,t》的方式构成知识图谱。
16.进一步的,所述s2中,计算实体间的注意力权重方法具体为:
17.s21:根据知识图谱,引入图注意力网络;
18.s22:针对中心实体和两跳及以上邻居节点应用图注意力网络;
19.s23:使用矩阵和分别对中心实体以及邻居实体进行线性变换,得出实体的注意力权重;
20.s24:使用softmax函数归一化标注实体邻居节点的注意力权重。
21.进一步的,所述s3中,通过拓扑不变函数对知识图谱进行实体嵌入为:
22.s31:根据知识图谱和s2处理后的实体表示,提取实体的特征矩阵
23.s32:将特征矩阵输入转换不变函数mask gate mg
(l)
中;
24.s33:将上一步函数输出值mg
(l)
(h
(l)
)输入图卷积神经网络;
25.s34:应用转换不变函数highway gate对原始特征及线性转换后的特征进行插值;
26.s35:输出基于图卷积神经网络的转换不变函数的实体嵌入后的知识图谱。
27.进一步的,所述s4中,利用门控机制结合单跳和两跳邻居表示的方法具体为:
28.s41:利用公式聚合表示s2所得到的实体与其两跳邻居的注意力权重;
29.s42:通过门控机制合并实体的单跳和两跳邻居的聚合表示,控制s3图卷积神经网络中多图层传递引入的噪声,优化知识图谱表示。
30.进一步的,所述s5中,根据对齐模块计算实体间的相似度,获得实体对齐结果的方法具体为:
31.s51:引入曼哈顿距离计算公式计算s4所得实体嵌入之间的距离度量;
32.s52:返回各源实体的目标实体排序列表,排名最高即视为对齐。
33.一种计算机系统,其特征在于包括:一个或多个处理器,计算机可读存储介质,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述的方法。
34.一种计算机可读存储介质,其特征在于存储有计算机可执行指令,所述指令在被执行时用于实现上述的方法。
35.有益效果
36.本发明提供一种融合多社交媒体平台的知识图谱邻域结构非同构的实体对齐方
法,采集并融合多社交媒体平台的数据,根据用户的交互行为以及主题内容构建知识图谱。由于社交媒体上的用户的交互信息及关系并非均为同一架构,在知识图中体现为邻域结构的非同构,所以在本发明中考虑引入图卷积神经网络减弱图结构对最终实体表示的影响,较之传统的图卷积网络加入了转换不变函数的gcn获取实体单跳邻居表示,降低gcn聚合和转换过程中的耦合性,使得转换过程中实体的原始特征得以保留,而不是只聚合邻域的实体特征;再者,在模型中引入多跳邻居扩展对齐实体邻域结构的重叠,使用注意力机制突出对实体表示有用的邻居,弱化部分没有贡献的远邻居,进一步优化聚合效果,降低邻域结构非同构的影响;其后,对聚合过程中层间传递的噪音进行处理,使用门控机制控制噪声的传递。最后通过对齐模块计算实体表示之间的相似度,根据实体嵌入之间的特定距离度量,为每个源实体返回目标实体排序列表,确定实体对齐的效果,获得实体对齐的结果。本发明利用邻域结构非同构的实体对齐模型减弱非同构实体在图结构转换和传统图卷积网络转换中的特征损失,解决了实体非同构性所带来的问题,使得实体对齐的结果更加精准。
附图说明
37.附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
38.图1为本发明融合多社交媒体平台数据的知识图谱邻域结构非同构的实体对齐结构异构的示意图;
39.图2为本发明融合多社交媒体平台数据的知识图谱邻域结构非同构的实体对齐方法的知识图谱架构图;
40.图3为本发明融合多社交媒体平台数据的知识图谱邻域结构非同构的实体对齐方法的模型框架图。
具体实施方式
41.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
42.一种融合多社交媒体平台数据的知识图谱非同构邻域结构的实体对齐方法,包括以下步骤:
43.s1、根据用户实体在多个社交媒体平台上的交互以及交互主题内容构建知识图谱谱;
44.s2、计算实体间的注意力权重,标记对中心实体贡献更大的邻居实体。
45.s3、通过拓扑不变函数分别对实体的单跳和两跳邻居进行聚合,补充实体的单跳和两跳邻居表示信息信息。
46.s4、利用门控机制结合单跳和两跳邻居表示,得到实体表示。
47.s5、根据对齐模块计算处理后的实体表示,得到实体间相似度,获得对齐的最终结果。
48.下面来具体描述本发明的技术方案:
49.s1、根据用户在多个社交媒体平台上的交互以及交互主题内容构建知识图;
50.所构建的知识图谱中,所述用户、评论主题均作为其实体节点,用户与用户、用户与评论主题以三元组《h,r,t》的方式构成知识图谱。例如用户a与b存在社交关系,a发表主题1的评论,可以将其转换为三元组《用户a,评论,用户b》,《用户a,评论内容,主题1》。
51.s2、计算实体间的注意力权重,得到对中心实体贡献更大的邻居实体。
52.所述得到计算实体间的注意力权重方法具体步骤如下:
53.s21、根据s1知识图谱,引入图注意力网络,其中网络在每一个注意函数中的实体共享两个线性变换:
54.在图注意力网络在第l层输入的实体表示为ei,ej;
55.s22、针对中心实体和较远(两跳及以上)邻居节点应用图注意力网络;
56.s23、使用矩阵和分别对中心实体以及邻居实体进行线性变换,得出实体的注意力权重;
57.第l层的注意力权重的计算公式如下所示:
[0058][0059]
s24、使用softmax函数归一化标注实体邻居节点的注意力权重,softmax函数具体如下:
[0060][0061]
s3、通过拓扑不变函数对单跳和两跳邻居聚合,得到实体表示。
[0062]
通过拓扑不变函数对单跳和两跳邻居聚合具体步骤如下:
[0063]
s31、根据知识图谱和s2处理后的实体表示,提取实体的特征矩阵
[0064]
s32、将特征矩阵输入转换不变函数mask gate mg
(l)
中,计算公式如下所示:
[0065][0066]
s33、将上一步函数输出值mg
(l)
(h
(l)
)输入图卷积神经网络,计算公式如下所示:
[0067][0068]
s34、应用转换不变函数highway gate对原始特征及线性转换后的特征进行插值,计算公式如下所示:
[0069][0070]
s35、输出基于图卷积神经网络的转换不变函数的实体嵌入后的知识图谱,计算公式如下所示:
[0071]h(l+1)
=t
(l)
(h
(l)
)
⊙h(l+1)
+(1-t
(l)
(h
(l)
))
⊙h(l)

[0072]
s4、利用门控机制结合单跳和两跳邻居表示,得到实体表示。
[0073]
s41、利用公式聚合表示s2所得到的实体与其两跳邻居的注意力权重,公式具体如下所示;
[0074][0075]
s42、通过门控机制合并实体的单跳和两跳邻居的聚合表示,控制s3网络中多图层传递引入的噪声,优化知识图谱表示,合并公式如下所示:
[0076][0077][0078]
s5、根据对齐模块计算实体间的相似度,获得实体对齐的结果。
[0079]
s51、引入曼哈顿距离计算公式计算s4所得实体嵌入之间的距离度量;
[0080]
计算来自知识图谱kg1的实体e
i1
和来自知识图谱kg2的实体e
j2
之间距离的公式如下所示:
[0081][0082]
并且本节中使用边际排名损失函数,计算公式如下所示:
[0083][0084]
s52、返回各源实体的目标实体排序列表,排名最高即视为对齐。
[0085]
最终获得实体对齐的结果。
[0086]
本发明利用加入转换不变函数的gcn获取实体单跳邻居表示和图注意力机制对远邻居的筛选突出,提升了邻域结构非同构条件下的实体对齐效果。本发明提供了一种端到端训练的模型架构,模型不需要进行人工提取特征,避免引进人为偏见,减少人工设计流程。
[0087]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明公开的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1