基于自适应注意力机制的知识图谱补全方法、装置和设备

文档序号:34316098发布日期:2023-05-31 23:50阅读:65来源:国知局
基于自适应注意力机制的知识图谱补全方法、装置和设备

本技术涉及知识图谱补全,特别是涉及一种基于自适应注意力机制的知识图谱补全方法、装置和设备。


背景技术:

1、随着人工智能和大数据技术的发展,知识图谱因为其良好的搜索性能和较高的存储质量,成为了数据的主流存储方式,知识图谱往往用三元组(头实体,关系,尾实体),即(h, r, t)来表示现实世界的事物,结构性好,直观性强。知识图谱作为结构化的显性知识,在语义表示、语义理解、语义推理、智能问答等语义计算任务中发挥着越来越重要的作用。虽然目前知识图谱中实体的数量可达到数十亿的水平,但大多知识图谱仍然相对稀疏,这影响了知识图谱的数据质量和整体结构性,导致知识图谱实际应用效果不佳。为了缓解该问题,知识图谱补全技术成为研究热点。

2、智能问答系统就是基于大量语料数据组成的知识图谱,通过相关编程语言实现的能够和人类进行对话、解决问题的软件系统。智能问答系统要求有较高的搜索精度,实现真正的所答即所问。

3、现有知识图谱补全模型存在欠缺关系和相似实体学习能力、难以处理冗余实体描述信息等问题,导致智能问答过程中搜索结果不够精准,可能会返回大量相似但并非准确的内容,还需要搜索者进一步筛选,不能很好的实现所答即所问。相较于三元组模型而言,融合有效邻域信息的模型能够进一步提升知识图谱补全效果,以输入样例(h, r, t),t是真值为例,其邻域三元组构成的图为g′,g′是知识图谱 g 的子图。融合邻域信息的生成式模型可以生成预测实体向量表示的模型,形如,可以看作在模型m作用下,利用邻域信息g′、中心信息h和r计算出t的值。然而,融合邻域信息的生成式模型在实际应用中仍面临许多问题。

4、1)引入冗余信息。融合邻域信息之后,虽然模型所能使用的信息量增大了,但是真正有用的信息潜藏在这大量的信息之中,绝大多数信息对于任务而言并没有正向作用,相反,这些冗余的信息反而会大大增加模型提取有效信息的难度,从而造成智能问答过程中搜索结果不够精准,搜索速度也大大减慢。

5、2)计算复杂度高。融合的邻域信息阶数越高,信息量也成指数增长。因此,融合邻域信息会导致模型的计算复杂度过高。在面对拥有上亿三元组的大型知识图谱时,融合邻域信息的模型难以发挥作用,从而造成智能问答过程中搜索速度大大减慢。

6、解决融合邻域信息之后带来的引入冗余信息和计算复杂度高两个问题,常用的思路就是减少冗余信息的引入。实现这一思路的途径之一是引入注意力机制(attentionmechanism)。注意力机制可以看作是寻址过程,运用一个神经网络模块,计算编码器的输出中对解码器所需完成任务贡献更大的序列,通过对编码器的输出进行加权平均,得到更有针对性的解码器的输入。

7、从信息选择方式的角度出发,注意力机制可以分为软注意力 (soft attention)和硬注意力 (hard attention)。软注意力所选择的信息是所有输入信息的加权平均,硬注意力所选择的信息仅仅是所有输入信息的一部分,其余部分将被直接舍弃。软注意力通过加权平均减少冗余信息的影响,但是由于冗余信息的权重逼近于零但不等于零,因此冗余信息依然对结果有一定的负面作用。硬注意力则直接将一部分信息舍弃,虽然可以有效减少冗余信息,但其难以进行反向传播,因此需要进行分阶段训练,训练难度较大。两种注意力机制均会在一定程度上影响智能问答结果的准确性和实时性。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种基于自适应注意力机制的知识图谱补全方法、装置和设备,以便兼顾智能问答结果的准确性性和实时性。

2、一种基于自适应注意力机制的知识图谱补全方法,包括:

3、获取智能问答系统知识图谱中不完整三元组的邻居实体和对应的邻居关系;不完整三元组由已知实体、待补全实体以及已知实体和待补全实体的已知关系组成;其中的实体和关系均有对应的文本描述信息;

4、将已知实体、已知关系、邻居实体和对应的邻居关系映射到指定计算空间后进行拼接,得到候选元素,计算各个候选元素的注意力得分;

5、根据注意力得分的最大值自适应确定候选元素的保留数量,根据保留数量得到优化元素;

6、由优化元素组成优化序列,根据优化序列预测得到所述待补全实体的补全值,完成智能问答系统的知识图谱补全任务。

7、一种基于自适应注意力机制的知识图谱补全装置,包括:

8、邻居信息获取模块,用于获取智能问答系统知识图谱中不完整三元组的邻居实体和对应的邻居关系;不完整三元组由已知实体、待补全实体以及已知实体和待补全实体的已知关系组成;其中的实体和关系均有对应的文本描述信息;

9、注意力得分计算模块,用于将已知实体、已知关系、邻居实体和对应的邻居关系映射到指定计算空间后进行拼接,得到候选元素,计算各个候选元素的注意力得分;

10、元素数量优化模块,用于根据注意力得分的最大值自适应确定候选元素的保留数量,根据保留数量得到优化元素;

11、实体补全模块,用于由优化元素组成优化序列,根据优化序列预测得到待补全实体的补全值,完成智能问答系统的知识图谱补全任务。

12、一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:

13、获取智能问答系统知识图谱中不完整三元组的邻居实体和对应的邻居关系;不完整三元组由已知实体、待补全实体以及已知实体和待补全实体的已知关系组成;其中的实体和关系均有对应的文本描述信息;

14、将已知实体、已知关系、邻居实体和对应的邻居关系映射到指定计算空间后进行拼接,得到候选元素,计算各个候选元素的注意力得分;

15、根据注意力得分的最大值自适应确定候选元素的保留数量,根据保留数量得到优化元素;

16、由优化元素组成优化序列,根据优化序列预测得到待补全实体的补全值,完成智能问答系统的知识图谱补全任务。

17、上述基于自适应注意力机制的知识图谱补全方法、装置和设备,包括:首先,获取智能问答系统知识图谱中不完整三元组的邻居实体和对应的邻居关系;不完整三元组由已知实体、待补全实体以及已知实体和待补全实体的已知关系组成;接着,将已知实体、已知关系、邻居实体和对应的邻居关系映射到指定计算空间后进行拼接,得到候选元素,计算各个候选元素的注意力得分;然后,根据注意力得分的最大值自适应确定候选元素的保留数量,根据保留数量得到优化元素;最后由优化元素组成优化序列,根据优化序列预测得到待补全实体的补全值,完成智能问答系统的知识图谱补全任务。

18、本发明将待补全实体对应的查询三元组的已知关系纳入注意力计算过程中,提高了注意力层对有效信息的提取;此外,本发明将注意力得分看作是利用候选序列进行推理的可信度。考虑到输入的候选序列中存在可信度高的推理结果时需要尽可能排除低可信度推理结果的影响,而输入序列中推理可信度均较为低下情况下应当尽量获取更多的信息参与推理,因此根据注意力得分的最大值自适应确定候选元素的保留数量,既可以减少推理无关三元组所带来的信息冗余,也可以提高训练速度和推理速度。综上,本发明能够兼顾知识图谱推理的速度和准确度,兼顾智能问答结果的精准性和实时性,即更快更好地实现智能问答。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1