一种实体链接方法、装置、存储介质及电子设备与流程

文档序号:36320829发布日期:2023-12-08 20:34阅读:41来源:国知局
一种实体链接方法与流程

本说明书涉及自然语言处理,尤其涉及一种实体链接方法、装置、存储介质及电子设备。


背景技术:

1、随着自然语言处理技术的发展,实体链接在诸如:搜索引擎、问答、知识图谱等任务中得到广泛的应用,实体链接的目标是将待链接文本中涉及的实体提及和预设的知识库中包含的实体进行关联。

2、通常情况下,实体链接常用的方法为基于文本匹配的方法,即,通过模型确定出待链接文本和预设的知识库中包含的实体提及的实体描述文本之间的文本相似度,并根据确定出的文本相似度,确定出待链接文本所能链接到的实体。现有的实体链接的方式通常将待链接文本和实体描述文本拼接后,共同作为神经网络模型编码层结构的输入,从而可以在神经网络模型的交互层获取两种文本的细粒度交互信息,但是密集的交互方式导致无法离线存储实体的向量表示,并且线上推断耗时较长。

3、因此,如何提升实体链接的效率,则是一个亟待解决的问题。


技术实现思路

1、本说明书提供一种实体链接方法、装置、存储介质及电子设备,以部分的解决现有技术存在的上述问题。

2、本说明书采用下述技术方案:

3、本说明书提供了一种实体链接方法,包括:

4、获取待链接文本、待链接文本中包含的各实体提及;

5、根据预先确定的实体提及与实体之间的映射关系表,确定所述待链接文本中包含的每个实体提及对应的候选实体;

6、将所述待链接文本、所述待链接文本中包含的各实体提及、预设的所述候选实体的描述文本输入到预先训练的实体链接模型中,以通过所述实体链接模型对所述待链接文本进行编码,得到所述待链接文本的特征表示,并针对每个候选实体,确定预先确定的该候选实体的描述文本的特征表示与所述待链接文本的特征表示之间的细粒度交互特征表示,并根据所述细粒度交互特征表示确定该候选实体为目标链接实体的概率;

7、根据所述概率,从各候选实体中确定出所述待链接文本对应的目标链接实体,并根据所述目标链接实体进行任务执行。

8、可选地,根据预先确定的实体提及与实体之间的映射关系表,确定所述待链接文本中包含的每个实体提及对应的候选实体,具体包括:

9、根据预先确定的实体提及与实体之间的映射关系表,确定所述待链接文本中包含的每个实体提及存在映射关系的实体,作为各第一候选实体;以及

10、根据所述待链接文本中包含的每个实体提及与预设的知识库中的每个实体的描述文本之间相关度,确定各第二候选实体;

11、根据所述第一候选实体和所述第二候选实体,确定所述待链接文本中包含的每个实体提及对应的候选实体。

12、可选地,训练所述实体链接模型,具体包括:

13、获取样本文本集合、待训练实体链接模型;

14、针对所述样本文本集合中包含的每个样本文本,获取该样本文本中包含的各实体提及,以及获取该样本文本中包含的各实体提及对应的各链接实体,作为正样本;以及

15、确定与该样本文本中包含的各实体提及相似的各描述文本对应的各实体中除各实体提及对应的各链接实体之外的其他实体,作为负样本;

16、将该样本文本,该样本文本中包含的各实体提及、所述正样本的描述文本或所述负样本的描述文本输入到所述待训练实体链接模型中,以通过所述待训练实体链接模型对所述样本文本进行编码,得到所述样本文本的特征表示,并确定预先确定的所述正样本或所述负样本的描述文本的特征表示与所述样本文本的特征表示之间的样本细粒度交互特征表示,并根据所述样本细粒度交互特征表示确定所述正样本或所述负样本为该样本文本的链接实体的概率;

17、以最小化所述正样本的或所述负样本为该样本文本的链接实体的概率与所述正样本的或所述负样本的标注结果之间偏差为优化目标,对所述待训练实体链接模型进行训练,得到训练后的实体链接模型。

18、可选地,所述实体链接模型包括:第一特征提取层;

19、将所述待链接文本、所述待链接文本中包含的各实体提及输入到预先训练的实体链接模型中,具体包括:

20、将所述待链接文本、所述待链接文本中包含的各实体提及输入到所述实体链接模型的所述第一特征提取层,以通过所述第一特征提取层针对所述待链接文本进行编码,得到所述待链接文本的语义特征表示,以及,通过所述第一特征提取层针对所述待链接文本中包含的每个字段进行编码,得到所述待链接文本的各字段特征表示,作为各第一字段特征表示;

21、通过所述第一特征提取层针对所述待链接文本中包含的每个实体提及,根据该实体提及在所述待链接文本中的起始位置的字段特征表示和结束位置的字段特征表示,确定该实体提及的特征表示。

22、可选地,所述实体链接模型包括:第二特征提取层;

23、将预设的所述候选实体的描述文本输入到预先训练的实体链接模型中,具体包括:

24、针对每个候选实体,将预设的该候选实体的描述文本输入到预先训练的实体链接模型的所述第二特征提取层中,以通过所述第二特征提取层针对所述描述文本进行编码,得到所述描述文本的语义特征表示,以及,针对所述描述文本中包含的每个字段进行编码,得到所述描述文本的各字段特征表示,作为各第二字段特征表示。

25、可选地,所述实体链接模型还包括:第一交互层、第二交互层;

26、针对每个候选实体,确定预先确定的该候选实体的描述文本的特征表示与所述待链接文本的特征表示之间的细粒度交互特征表示,具体包括:

27、将所述各第一字段特征表示和所述各第二字段特征表示输入到所述第一交互层中,以通过所述第一交互层确定所述各第一字段特征表示和所述各第二字段特征表示之间的相似度矩阵;以及

28、将所述各第一字段特征表示和所述各第二字段特征表示输入到所述第二交互层中,以通过所述第二交互层确定所述各第一字段特征表示和所述各第二字段特征表示之间的差异度矩阵;

29、根据所述相似度矩阵和所述各第一字段特征表示,确定所述待链接文本的第一细粒度交互特征表示,并根据所述差异度矩阵和所述各第一字段特征表示,确定所述待链接文本的第二细粒度交互特征表示;以及

30、根据所述相似度矩阵和所述各第二字段特征表示,确定该候选实体的第一细粒度交互特征表示,并根据所述差异度矩阵和所述各第二字段特征表示,确定该候选实体的第二细粒度交互特征表示。

31、可选地,所述实体链接模型还包括:决策层;

32、根据所述细粒度交互特征表示确定该候选实体为目标链接实体的概率,具体包括:

33、将所述待链接文本的第一细粒度交互特征表示、所述待链接文本的第二细粒度交互特征表示、所述待链接文本中包含的每个实体提及的特征表示、该候选实体的第一细粒度交互特征表示、该候选实体的第二细粒度交互特征表示、该候选实体的所述描述文本的语义特征表示输入到所述决策层中,以通过所述决策层,确定该候选实体为目标链接实体的概率。

34、本说明书提供了一种实体链接装置,包括:

35、获取模块,用于获取待链接文本、待链接文本中包含的各实体提及;

36、筛选模块,用于根据预先确定的实体提及与实体之间的映射关系表,确定所述待链接文本中包含的每个实体提及对应的候选实体;

37、确定模块,用于将所述待链接文本、所述待链接文本中包含的各实体提及、预设的所述候选实体的描述文本输入到预先训练的实体链接模型中,以通过所述实体链接模型对所述待链接文本进行编码,得到所述待链接文本的特征表示,并针对每个候选实体,确定预先确定的该候选实体的描述文本的特征表示与所述待链接文本的特征表示之间的细粒度交互特征表示,并根据所述细粒度交互特征表示确定该候选实体为目标链接实体的概率;

38、执行模块,用于根据所述概率,从各候选实体中确定出所述待链接文本对应的目标链接实体,并根据所述目标链接实体进行任务执行。

39、本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述实体链接方法。

40、本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述实体链接方法。

41、本说明书采用的上述至少一个技术方案能够达到以下有益效果:

42、在本说明书提供的实体链接方法中,首先获取待链接文本、待链接文本中包含的各实体提及,根据预先确定的实体提及与实体之间的映射关系表,确定待链接文本中包含的每个实体提及对应的候选实体,将待链接文本、待链接文本中包含的各实体提及、预设的候选实体的描述文本输入到预先训练的实体链接模型中,以通过实体链接模型对待链接文本进行编码,得到待链接文本的特征表示,并针对每个候选实体,确定预先确定的该候选实体的描述文本的特征表示与待链接文本的特征表示之间的细粒度交互特征表示,并根据细粒度交互特征表示确定该候选实体为目标链接实体的概率,根据概率,从各候选实体中确定出待链接文本对应的目标链接实体,并根据目标链接实体进行任务执行。

43、从上述方法可以看出,可以通过实体链接模型,确定候选实体的描述文本的特征表示与待链接文本的特征表示之间的细粒度交互特征表示,以确定候选实体为目标链接实体的概率,从而可以在保留待链接文本与候选实体的描述文本中包含的细粒度信息的同时,提升了实体链接的效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1