一种基于节点自适应的小样本知识图谱补全方法和装置与流程

文档序号:33723111发布日期:2023-04-05 23:18阅读:63来源:国知局
一种基于节点自适应的小样本知识图谱补全方法和装置与流程

本发明属于数据挖掘算法应用,涉及一种基于节点自适应的小样本知识图谱补全方法。


背景技术:

1、知识图是一种结构化的语义知识库,用于以符号的形式描述物理世界中的概念及其相互关系。现实世界中的许多知识图谱数据库,如freebase、wikidata、 nell等,都是以(头实体、关系、尾实体)形式表达的三重事实。由于知识图谱的重要性,它也被引入到自然语言处理的各种下游任务中,如知识问答、对话系统、信息抽取等。知识图谱的完整性促进了这些下游任务的运行。然而,现实世界中的知识图谱数据库还远远不够完整和全面。因此,有必要通过推断新的三重事实来完善知识图谱。为了完善知识图谱数据,大多数现有的基于嵌入的知识图谱补全模型需要为每个关系提供足够的三元组作为训练数据,如transe, rotate和conve等。

2、然而在现实中,每个关系的三元组数量都符合长尾分布。也就是说,只有少数关系频繁出现,而大多数关系在一个知识图谱数据库中只出现几次。这种现象限制了非频繁关系学习一个良好的向量表征,从而进一步降低了知识图谱补全的性能。因此这也激发了一个新兴的研究课题,称为小样本知识图谱补全,其任务为给定一个task关系r以及所属该关系的几个实体对,从而预测该任务关系下的另一个查询实体对中的尾实体(h,r,?)。小样本知识图谱补全方法采用基于度量学习和基于模型的两种方式进行模型建构,其主要思想为将实体对表征成为小样本关系的向量表示,并将相同的小样本关系的不同向量表征进行相似度计算。为了更好的将实体对表征成关系向量表示,就需要对单个实体进行良好的表征。因此现有方法采用了图网络方法对实体的一阶邻居实体向量进行聚合从而丰富单个实体对向量表示。

3、但是,由于实体的邻居数量也呈现严重的长尾分布,因此大部分实体的可聚合邻居数量极少,这严重制约了实体对良好表征。因此有必要将实体对聚合阶层数扩大,但是扩大后也会导致实体在聚合邻居的过程中引入噪声从而影响自身的向量表征。并且有部分实体邻居数量较多,在只聚合一阶邻居的情况就已经能获得周围丰富的邻居信息,此时再将其聚合范围扩大会导致此类实体的表征受到噪声污染。而现有模型没有根据实体自适应的决定其聚合的邻居范围,应当对长尾分布中的头部实体的聚合范围减少,而对尾部实体对聚合范围应该扩大。从而使得每个实体都有充分的邻居信息可以聚合同时又尽量减少噪声的引入。


技术实现思路

1、本发明目的是为了实现对于小样本知识图谱的有效补全,并解决现有补全方法面临大部分实体没有充分的邻居信息用以聚合的问题,提出一种基于节点自适应的小样本知识图谱补全方法,能够实现对每个节点的聚合范围进行分类,从而缓解大部分实体没有充分的邻居信息聚合的问题,以及高频率实体聚合范围扩大导致的噪音污染问题,它在小样本知识图谱补全领域具有重要的作用。

2、本发明的技术关键在于,为知识图谱中所有实体构建邻居序列;并将实体的邻居序列经过transformer后输入进自适应阶层分类器,从而得到该实体的自适应聚合阶层;采用基于注意力图网络的聚合方式对实体的邻居进行聚合,其邻居拓展到第几阶由自适应阶层分类器所决定。从而实现节点的自适应聚合

3、一种基于节点自适应的小样本知识图谱补全方法,包括以下步骤:

4、步骤1、为知识图谱中所有实体构建邻居序列;

5、步骤2、将实体的邻居序列经过transformer后输入进自适应阶层分类器,从而得到该实体的自适应聚合阶层;

6、步骤3、采用基于注意力图网络的聚合方式对实体的邻居进行聚合,其邻居拓展到第几阶由自适应阶层分类器所决定;

7、步骤4、将聚合好后的头尾对向量通过两种方式表征成所对应task的小样本关系向量,分为支持集关系向量和查询关系向量;

8、步骤5、对同一task下的支持集向量和查询向量进行相似度计算;

9、步骤6、根据相似度计算损失函数值;

10、步骤7、进行网络训练,直到到达设定的迭代次数;

11、步骤8、完成训练后,使用训练好的模型根据头实体和关系来补全尾实体。

12、优选地,步骤1具体包括:为知识图谱中每个节点构建属于它的邻居序列,该序列长度为255,由自身节点e、分层节点以及一到四阶邻居节点构成,其具体组成方式见图1。其中一到四阶邻居分别选取五十个邻居节点,若节点数量不足则补padding操作,若超过规定数量则随机抽取。

13、优选地,步骤2具体包括:

14、第一层多头注意力层采用mask操作使得一阶分层节点只聚合一阶邻居。将聚合后的一阶分层节点向量与节点e向量进行拼接,随后将其输入到自适应阶层分类器进行二分类,决定是否聚合一阶邻居。若聚合一阶邻居,则执行步骤3。若为否则节点e不聚合任何邻居,将跳过步骤3、4执行阶段。

15、优选地,步骤3具体包括:若步骤2中的自适应阶层分类器分类结果为聚合一阶邻居,transformer继续编码,第二层多头注意力层同样采用mask操作使得二阶分层节点只聚合第二阶邻居,将聚合后的二阶分层节点向量与节点e向量进行拼接输入自适应阶层分类器以决定是否聚合第二阶邻居。同理,若聚合第二阶邻居则采用如同步骤2、3方法对第三阶和第四阶邻居进行分类,最终 transformer输出节点e的自适应聚合阶层。

16、优选地,步骤4具体包括:将步骤3得到的自适应聚合阶层数作为节点e需要聚合的邻居范围。采用基于注意力图网络的聚合方式进行邻居聚合,将节点e的向量表征与周围邻居实体表征向量进行相似度计算,所得相似度经过softmax 函数后即为此该邻居与节点e的注意力权重。例如步骤2得出e的自适应聚合阶层数为2,则图网络第一层聚合节点e的一阶邻居,第二层聚合节点e的二阶邻居,其公式如下:

17、

18、

19、其中,公式(1)中,*代表矩阵乘法操作,代表节点e的向量表示, ne为节点e的一阶邻居,通过上述计算关系级别注意力被表示为αe,i;公式(2) 中e′为节点e经过邻居聚合后的向量表征。

20、优选地,步骤5具体包括:小样本知识图谱中采用实体对来表征关系,实体对表示为(h,t),其中将头尾实体经过步骤3得到其各自的自适应聚合阶层,再经过步骤4得到头尾实体的聚合向量表示:需要将头尾实体对表征为他们之间的关系,即该task的小样本关系。本发明设计了两种实体对编码方式:

21、1)双向lstm编码

22、首先模型需要定义k shot,即将该小样本关系r的支持集中的实体对数量。将每个实体对的头尾实体向量进行拼接操作,得到该实体对的向量表示。将k个实体对组合成该小样本关系的实体对序列,随后将该序列输入进双向lstm编码。最终得到的向量即为该task下支持集表征的小样本关系。将第i个task下支持集得到的关系表征表示为

23、2)transformer编码

24、将实体对中的头尾实体的向量表示作为transformer的token输入。并在头尾实体间插入mask,因此,其总共包含为三个token:分别为头实体,mask,关系。其刚好对应知识图谱结构中的三元组形式。最终transformer输出mask位置的向量即为该实体对表征得到的小样本关系,最终将k个实体对关系向量通过注意力权重求和,从而得到该task的支持集关系

25、优选地,步骤6具体包括:在小样本任务设定中,一个task分为支持集和查询集。查询集同样包含有对应的实体对,同样需要将查询集中的实体对经过步骤5表征成该task的关系向量,称之为该task的查询向量,表示为

26、优选地,步骤7具体包括:对同一task中的支持集关系向量与查询集关系向量进行相似度计算,由于同一task下的两类关系向量表征的是同一种小样本关系,因此它们应越相似越好,而不同task下的支持集关系向量与查询集向量的欧式距离应越远越好。因此其计算公式如下

27、

28、

29、其中,公式(3)中,γ(.,.)代表余弦相似度计算函数;公式(4)代表查询关系向量的负样本,β为正负样的分界值。其中[x]+=max(0,x)代表一个标准的hinge损失函数。为了优化模型使得l达到最小化,本发明需要以l作为损失函数对上述步骤进行迭代训练,直到其收敛到最优值。

30、实施本发明方法的一种基于节点自适应的小样本知识图谱补全装置,包括:

31、实体邻居序列构建模块,用于为知识图谱中所有实体构建邻居序列;

32、实体的邻居序列输送模块,用于将实体的邻居序列经过transformer后输入进自适应阶层分类器,从而得到该实体的自适应聚合阶层;

33、实体邻居聚合模块,用于采用基于注意力图网络的聚合方式对实体的邻居进行聚合,其邻居拓展到第几阶由自适应阶层分类器所决定;

34、小样本关系向量表征模块,用于将聚合好后的头尾对向量通过两种方式表征成所对应task的小样本关系向量,分为支持集关系向量和查询关系向量;

35、相似度计算模块,用于对同一task下的支持集向量和查询向量进行相似度计算;

36、损失函数值计算模块,用于根据相似度计算损失函数值;

37、网络训练模块,用于进行网络训练,直到到达设定的迭代次数;

38、尾实体补全模块,用于完成训练后,使用训练好的模型根据头实体和关系来补全尾实体。

39、本发明还包括一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现权利要求1-8中任一项所述的一种基于节点自适应的小样本知识图谱补全方法。

40、有益效果

41、本发明考虑到小样本知识图谱补全领域存在的稀疏实体聚合邻居信息较少的问题,提出了基于节点自适应的小样本知识图谱补全方法一应用;设计了一种节点自适应分类器,使得邻居的聚合范围由该节点和其邻居决定,而非所有实体共享同样的范围,这解决了高频率实体聚合范围增大带来的噪音污染问题,同时也避免了稀疏实体邻居聚合信息较少的问题,同时提升了频繁实体和稀疏实体的向量表征;本发明所提出的方法能够有效提高补全精度;本发明可以通过适当改进拓展到多种知识图谱补全任务中,在知识图谱领域具有一定的应用前景。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1