一种三元组实体对齐方法、系统、计算机设备及存储介质

文档序号:37550018发布日期:2024-04-08 13:58阅读:12来源:国知局
一种三元组实体对齐方法、系统、计算机设备及存储介质

本发明涉及实体对齐,特别是涉及一种三元组实体对齐方法、系统、计算机设备及存储介质。


背景技术:

1、随着部队建设的不断推进,越来越多的新颖技术逐渐被应用于军队的日常建设中。新技术的广泛推广,导致故障诊断与故障维修数据的案例储备越来越丰富。但是由于目前部队方面的数据管理与数据读取技术还不成熟,导致大量的故障诊断与故障维修数据无法通过智能读取技术应用到日常的诊断与维修工作中。为了解决这一问题,需要借助目前应用广泛的知识图谱作为工具来将这些故障数据可视化展示,方便在装备检查维修过程中的调阅与读取。

2、目前研究的重点就在于如何构建故障数据的知识图谱。通过查阅大量参考资料,得出构建知识图谱的核心任务是命名实体识别和关系抽取。在通过知识抽取技术抽取出三元组数据后,这些三元组数据以符号化的形式初步表示知识图谱。为了进一步完善知识图谱,还需要对先前抽取出来的数据做进一步处理,例如针对抽取出的三元组进行实体对齐,将语义相近的三元组匹配在一起,从而减少构建出的知识图谱中不必要的节点数,简化图谱的结构。

3、传统的实体对齐算法大多是基于计算词向量之间的相似度来实现实体对齐的。之所以采取计算词向量之间的距离的方法,是因为实体对齐过程中需要判断两个实体是否为“同义异构体”。所谓“同义异构体”,指的是同一个实体有几种不同的名称,例如常见的油箱部件“供油管压力传感器”又被称为“油压传感器”。在绘制知识图谱时,如果存在大量类似的“同义异构体”,则会导致图谱过于臃肿,不便于基于实体关系三元组的知识推理的实现。因此就需要通过实体对齐算法来缓解知识图谱中节点过于臃肿的问题。基于距离的实体对齐算法的思路就是通过word2vector方法,将原本的实体转化为对应的词向量形式,再通过计算两个实体词向量之间的距离,来判断这两个实体是否可以进行融合。

4、但是传统的实体对齐算法所得的离散属性信息忽略了多方面隐含的语义信息,例如属性之间的关联语义以及三元组结构之间的语义信息等,使得对齐的准确度过低。


技术实现思路

1、本发明提供了一种三元组实体对齐方法、系统、计算机设备及存储介质,解决了传统的实体对齐算法所得的离散属性信息忽略了多方面隐含的语义信息的问题。

2、本发明提供一种三元组实体对齐方法,包括以下步骤:

3、通过知识抽取技术抽取实体关系三元组;

4、在实体关系三元组中获取相同属性与不同属性的实体对,其中相同属性的每对实体对均引入“等于”关系并构成正样本三元组,不同属性的每对实体对均引入“不等于”关系并构成负样本三元组;

5、通过正样本三元组和负样本三元组对bert-ea模型进行训练;

6、通过训练后的bert-ea模型对实体关系三元组的实体对进行对齐判断。

7、优选的,所述bert-ea模型包括:

8、知识编码层,对三元组进行编码,得到每个字符的向量表示以及三元组的整体语义表示;

9、信息融合层,将每个字符的向量表示以及三元组的整体语义表示进行融合,得到三元组的语义信息;

10、得分层,对三元组的语义信息进行得分计算。

11、优选的,通过正样本三元组和负样本三元组对bert-ea模型进行训练,包括以下步骤:

12、将每个三元组输入bert模型,得到每个字符的向量表示以及三元组的整体语义表示;

13、通过池化层得到与三元组的整体语义表示相同维度的字符合并表示;

14、通过非线性层将三元组的整体语义表示与字符合并表示进行融合,得到三元组的语义信息表示;

15、通过得分层对三元组的语义信息表示进行计算,得到对应的分数;

16、若分数超过阈值,则判断这两个实体指向同一对象,进行对齐,否则不进行对齐。

17、优选的,所述三元组的语义信息表示如下所示:

18、

19、式中,σ为非线性激活函数,w为连接权重参数,b为偏置参数,为三元组的字符合并表示,hcls为三元组的整体语义表示。

20、优选的,通过下式对三元组的语义信息表示进行计算:

21、

22、式中,为sigmoid激活函数,wo为得分层的连接权重,bo为得分层的偏置,为分数。

23、优选的,通过最小化交叉熵损失函数对bert-ea模型进行训练,所述损失函数如下所示:

24、

25、式中,θ=(w,b,wo,bo),((h,r,t),y)为三元组,y为标签,l为损失函数。

26、优选的,通过训练后的bert-ea模型对实体关系三元组的实体对进行对齐判断之后,还需要进行额外判断,包括:

27、额外判断融合后的实体对中的两个实体是否存在相同的周边关系;

28、如果存在相同的周边关系,则认为该实体对融合正确;如果不存在相同的周边关系,则认为这对实体间的潜在联系需要进一步采取人工的方式来判断。

29、一种故障知识图谱构建过程中三元组实体对齐系统,包括:

30、抽取模块,用于通过知识抽取技术抽取实体关系三元组;

31、样本构建模块,用于在实体关系三元组中获取相同属性与不同属性的实体对,其中相同属性的每对实体对均引入“等于”关系并构成正样本三元组,不同属性的每对实体对均引入“不等于”关系并构成负样本三元组;

32、模型训练模块,用于通过正样本三元组和负样本三元组对bert-ea模型进行训练;

33、判断模块,用于通过训练后的bert-ea模型对实体关系三元组的实体对进行对齐判断。

34、一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述三元组实体对齐方法。

35、一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述三元组实体对齐方法。

36、与现有技术相比,本发明的有益效果是:

37、本发明首先判断任意两个实体的属性是否相同,如果相同,则将该实体对与“等于”关系构成正样本三元组。如果任意两个实体的属性不相同,则引入“不等于”关系并构成负样本三元组。本发明构建的正样本三元组和负样本三元组不仅将任意两个实体之间的属性考虑了进去,还考虑了实体间可能存在的潜在关系。同时还提出了bert-ea模型,该模型首先对三元组进行编码,得到每个字符的向量表示以及三元组的整体语义表示,然后将二者进行融合,得到三元组的最终语义信息。本发明融合了多方面的语义信息,大大提高了实体对齐的准确度。



技术特征:

1.一种三元组实体对齐方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种三元组实体对齐方法,其特征在于,所述bert-ea模型包括:

3.如权利要求1所述的一种三元组实体对齐方法,其特征在于,通过正样本三元组和负样本三元组对bert-ea模型进行训练,包括以下步骤:

4.如权利要求3所述的一种三元组实体对齐方法,其特征在于,所述三元组的语义信息表示如下所示:

5.如权利要求4所述的一种三元组实体对齐方法,其特征在于,通过下式对三元组的语义信息表示进行计算:

6.如权利要求5所述的一种三元组实体对齐方法,其特征在于,通过最小化交叉熵损失函数对bert-ea模型进行训练,所述损失函数如下所示:

7.如权利要求1所述的一种三元组实体对齐方法,其特征在于,通过训练后的bert-ea模型对实体关系三元组的实体对进行对齐判断之后,还需要进行额外判断,包括:

8.一种三元组实体对齐系统,其特征在于,包括:

9.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述权利要求1-7任一所述的三元组实体对齐方法。

10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1-7任一项所述的三元组实体对齐方法。


技术总结
本发明公开了一种三元组实体对齐方法、系统、计算机设备及存储介质,涉及实体对齐技术领域,包括以下步骤:抽取实体关系三元组;在实体关系三元组中获取相同属性与不同属性的实体对,其中相同属性的每对实体对均引入“等于”关系并构成正样本三元组,不同属性的每对实体对均引入“不等于”关系并构成负样本三元组;通过正样本三元组和负样本三元组对Bert‑EA模型进行训练;通过训练后的Bert‑EA模型对实体关系三元组的实体对进行对齐判断。本发明的正样本和负样本三元组不仅将任意两个实体之间的属性考虑了进去,还考虑了实体间可能存在的潜在关系。还提出了Bert‑EA模型,融合了多方面的语义信息,大大提高了对齐准确度。

技术研发人员:谢小月,崔利杰,唐希浪,李新春,任博,张海,胡俊英,闫若诗,池果
受保护的技术使用者:中国人民解放军空军工程大学
技术研发日:
技术公布日:2024/4/7
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1