基于深度学习的集成实体链接方法及系统与流程

文档序号:20513532发布日期:2020-04-24 18:49阅读:146来源:国知局
基于深度学习的集成实体链接方法及系统与流程

本发明涉及实体链接技术领域,并特别涉及一种基于深度学习的集成实体链接方法及系统。



背景技术:

实体链接是指将文本中的实体提及映射到给定的知识库,例如,“xx会见了aa”,“xx”就是一个实体提及,需要将其链接到知识库中实体,该实体可例如是xx的全称。实体链接是自然语言理解中一个基础性的任务。

实体链接模型可以分为独立链接、集成链接和协同链接三大类,其中集成链接方法基于一个文档中提及的指称词通常只涉及到一个或者少数几个主题的假设,即主题一致性。这类方法认为同一文档中指称词的链接过程是彼此相关的,他们的链接应该是基于探索主体一致性来集成地完成的。集成链接方法通过建模同一个文档中指称词之间的相互影响,通过它们之间的相互关系来指导每一个指称词的候选实体排序。

现有的基于传统方法的集成链接模型一类是基于构造指称词-实体关系图完成,其中指称词和实体之间边的权重由二者上下文文本相似度衡量,实体和实体之间边的权重由二者的相关性衡量。基于图的传统集成链接方法包括基于随机游走和pagerank的方法、为每一个指称词定义一个只包含一个指称词-实体边的稠密子图等。第二类是基于概率模型完成链接,例如基于主题模型的方法。

现有的深度学习实体链接模型大多基于按顺序独立解决单个指称词的链接、从而完成整个文档消歧的过程,这类方法仅仅利用指称词附近的上下文文本信息,缺乏对同一文档中指称词彼此间的相关性的探究分析。

现有的基于传统方法的集成链接模型在模拟主题相关性方面,需要定义一个衡量方法来学习同一段上下文中指称词和候选实体的语义相关度,这就导致在很多样例中会产生不可靠的相关性,并且会倾向于选择更为流行的实体;基于主题模型的传统方法假设一个实体对应一个主题,这使得主题模型很难应用在大规模知识库上,并且模型的训练目标与实体消歧性能没有直接关联;基于图的方法计算代价太高。

基于深度学习的方法虽然在特征抽取上性能更为强大,但是这些方法仅仅利用指称词附近的上下文文本信息,缺乏对同一文档中指称词彼此间的相关性的探究分析,而这种相互关联性对于实体链接的过程具有重要的意义。



技术实现要素:

本发明的目的是解决上述现有技术对全局信息利用不充分和可扩展性差的问题,提出了一种基于深度学习的集成实体链接方法包括两种全局推断模型,分别是联合学习上下文和实体关系的全局推断模型,和,独立建模上下文和实体关系的全局推断模型。

具体来说,本发明提出一种基于深度学习的集成实体链接方法,其中包括:

步骤1、获取文档中待实体链接的指称词,使用局部相似度模型处理该指称词,得到该指称词的候选实体集合中每一个候选实体与指称词相应的局部相似度得分,及候选实体表达向量;

步骤2、根据该候选实体表达向量及该指称词在文档中的出现顺序,使用基于深度学习的全局推断模型得到其候选实体的全局相似度得分,判断全局相似度得分最高的候选实体与局部相似度得分最高的实体是否一致,若是,则将最高得分的候选实体作为最终的实体链接结果,否则将最高得分的候选实体作为初步结果,执行步骤3;

步骤3、使用该全局推断模型,得到该指称词匹配的候选实体的表达向量以替换该候选实体表达向量,根据该表达向量和该指称词在文档中的出现顺序,利用该全局推断模型得到指称词的每一个候选实体的全局相似度得分,选取全局相似度得分最高的候选实体作为该指称词的最佳匹配实体,判断该最佳匹配实体是否和该初步结果相同,若是,则将该最佳匹配实体作为最终的实体链接结果,否则更新全局推断模型的参数后,继续使用全局推断模型得到指称词的最佳匹配实体,直到最佳匹配实体与上一轮指称词的最佳匹配实体相同,将当前该最佳匹配实体作为最终的实体链接结果。

所述的基于深度学习的集成实体链接方法,其中该全局推断模型为文档级别的联合学习上下文和实体关系的第一全局模型;

该第一全局模型具体包括:

对于待链接指称词mi,指称词mi的上下文词项序列{x1,x2,...,xn},将其中第a个词项到第b个词项为指称词mi的文本名称添加mask遮蔽,构成指称词mi的上下文序列xi:{x1,x2,...,mask,...,xn};

文档中除当前待链接指称词mi外的所有指称词{mj|mj∈m∧mj≠mi}对应的候选实体集合为{ej|mj→ej∧mj∈m∧mj≠mi},将当前待链接指称词mi前出现的i-1个指称词{m1,m2,...mi-1}应该被链接到的各自对应实体{e1,e2,...ei-1}所对应的实体向量拼接成一个序列yl,当前待链接指称词mi后出现的n-i个指称词{mi+1,mi+2,...mn}应该被链接到的各自正确的实体{ei+1,ei+2,...en}所对应的实体向量拼接成一个序列yr,将上述三个序列拼接起来作为待链接指称词mi的全局信息x,拼接方法如下:

x=[yl;xi;yr]

将全局信息x作为transformer的输入,取当前待链接指称词mi对应的mask位置的输出作为编码了全局信息的指称词mi的表达向量与mi的一个候选实体ej的表达向量计算余弦相似度,由此得到待链接指称词mi和候选实体ej的该全局相似度得分φ′(mi,ej)。

所述的基于深度学习的集成实体链接方法,其中该全局推断模型为窗口级别的联合学习上下文和实体关系的第二全局模型:

该第二全局模型具体包括:

在模型的训练阶段,对于待链接指称词mi,其所在的文档中出现在指称词mi前面的k个词项和出现在指称词mi后面的k个词项构成指称词mi的上下文,其中每一个词项均由词向量表示,词向量项构成了指称词mi的上下文词项序列{xa-k,...,xa-1,xa,xa+1,...,xb-1,xb,xb+1,...,xb+k},将其中第a个词项到第b个词项为指称词mi的文本名称添加mask遮蔽,构成指称词mi的固定窗口大小的上下文序列xi:{xa-k,...,xa-1,mask,xb+1,...,xb+k};

文档中除当前待链接指称词mi外的所有指称词{mj|mj∈m∧mj≠mi},它们对应的正确候选实体集合为{ej|mj→ej∧mj∈m∧mj≠mi},将当前待链接指称词mi前出现的r个指称词{mi-r,mi-r+1,...mi-1}被链接到的各自实体{ei-r,ei-r+1,...ei-1}所对应的实体向量拼接成一个序列yl,当前待链接指称词mi后出现的n-i个指称词{mi+1,mi+2,...mi+r}被链接到的各自实体{ei+1,ei+2,...ei+r}所对应的实体向量拼接成一个序列yr,将上述三个序列拼接起来作为待链接指称词mi的全局信息x,拼接方法如下:

x=[yl;xi;yr]

将全局信息x作为transformer的输入,取当前待链接指称词mi对应的mask位置的输出作为编码了全局信息的指称词mi的表达向量与mi的一个候选实体ej的表达向量计算余弦相似度,由此得到待链接指称词mi和候选实体ej的该全局相似度得分φ′(mi,ej)。

所述的基于深度学习的集成实体链接方法,其中该全局推断模型为独立建模上下文和实体关系的第三全局模型:

第三全局模型,用于区分待链接指称词文本的上下文信息和与之共现的其他指称词与当前指称词之间相互关联信息,使全局推断模型能够辨别两种类型的语义信息,并能够使链接结果同时挖掘两种信息给出的指称词潜在语义;

对于当前待链接指称词mi,其所在的文档d中出现在指称词mi前后各k个词项构成了指称词mi的上下文词项序列{xa-k,...,xa-1,xa,xa+1,...,xb-1,xb,xb+1,...,xb+k},将指称词mi对应的文本添加mask遮蔽,得到其上下文词项序列{xa-k,...,xa-1,mask,xb+1,...,xb+k};将该文词项序列作为transformer层的输入,取待链接指称词mi被遮蔽位置的输出作为包含上下文语义信息的指称词mi全局表达向量

对于当前文档d中的每一个指称词{mi|mi∈m},该局部相似度模型会对其在候选实体生成阶段产生的s个候选实体集合c(mi)进行得分预测,如下为每个指称词的有效候选实体集合:

vg={(mi,ej)|mi∈m,ej∈c(mi),ψ(mi,ej)≥δ}

对于每一个指称词mi,通过下式得到其有效候选实体的表达向量:

取当前待链接指称词mi相邻的前后各r个指称词,由指称词mi相邻的指称词对应的有效候选实体表达向量构成序列作为模拟指称词与邻近指称词语义关系的transformer层的输入,指称词mi的有效实体表达向量对应的transformer层的输出为已编码相邻指称词语义关系的指称词mi全局表达向量

指称词mi和它的一个候选实体ej的该全局相似度得分为:

所述的基于深度学习的集成实体链接方法,其中该步骤3中采用随机梯度下降法更新全局推断模型的参数。

本发明还提出了一种基于深度学习的集成实体链接系统,其中包括:

模块1、获取文档中待实体链接的指称词,使用局部相似度模型处理该指称词,得到该指称词的候选实体集合中每一个候选实体与指称词相应的局部相似度得分,及候选实体表达向量;

模块2、根据该候选实体表达向量及该指称词在文档中的出现顺序,使用基于深度学习的全局推断模型得到其候选实体的全局相似度得分,判断全局相似度得分最高的候选实体与局部相似度得分最高的实体是否一致,若是,则将最高得分的候选实体作为最终的实体链接结果,否则将最高得分的候选实体作为初步结果,执行模块3;

模块3、使用该全局推断模型,得到该指称词匹配的候选实体的表达向量以替换该候选实体表达向量,根据该表达向量和该指称词在文档中的出现顺序,利用该全局推断模型得到指称词的每一个候选实体的全局相似度得分,选取全局相似度得分最高的候选实体作为该指称词的最佳匹配实体,判断该最佳匹配实体是否和该初步结果相同,若是,则将该最佳匹配实体作为最终的实体链接结果,否则更新全局推断模型的参数后,继续使用全局推断模型得到指称词的最佳匹配实体,直到最佳匹配实体与上一轮指称词的最佳匹配实体相同,将当前该最佳匹配实体作为最终的实体链接结果。

所述的基于深度学习的集成实体链接系统,其中该全局推断模型为文档级别的联合学习上下文和实体关系的第一全局模型;

该第一全局模型具体包括:

对于待链接指称词mi,指称词mi的上下文词项序列{x1,x2,...,xn},将其中第a个词项到第b个词项为指称词mi的文本名称添加mask遮蔽,构成指称词mi的上下文序列xi:{x1,x2,...,mask,...,xn};

文档中除当前待链接指称词mi外的所有指称词{mj|mj∈m∧mj≠mi}对应的候选实体集合为{ej|mj→ej∧mj∈m∧mj≠mi},将当前待链接指称词mi前出现的i-1个指称词{m1,m2,...mi-1}应该被链接到的各自对应实体{e1,e2,...ei-1}所对应的实体向量拼接成一个序列yl,当前待链接指称词mi后出现的n-i个指称词{mi+1,mi+2,...mn}应该被链接到的各自正确的实体{ei+1,ei+2,...en}所对应的实体向量拼接成一个序列yr,将上述三个序列拼接起来作为待链接指称词mi的全局信息x,拼接过程如下:

x=[yl;xi;yr]

将全局信息x作为transformer的输入,取当前待链接指称词mi对应的mask位置的输出作为编码了全局信息的指称词mi的表达向量与mi的一个候选实体ej的表达向量计算余弦相似度,由此得到待链接指称词mi和候选实体ej的该全局相似度得分φ′(mi,ej)。

所述的基于深度学习的集成实体链接系统,其中该全局推断模型为窗口级别的联合学习上下文和实体关系的第二全局模型:

该第二全局模型具体包括:

在模型的训练阶段,对于待链接指称词mi,其所在的文档中出现在指称词mi前面的k个词项和出现在指称词mi后面的k个词项构成指称词mi的上下文,其中每一个词项均由词向量表示,词向量项构成了指称词mi的上下文词项序列{xa-k,...,xa-1,xa,xa+1,...,xb-1,xb,xb+1,...,xb+k},将其中第a个词项到第b个词项为指称词mi的文本名称添加mask遮蔽,构成指称词mi的固定窗口大小的上下文序列xi:{xa-k,...,xa-1,mask,xb+1,...,xb+k};

文档中除当前待链接指称词mi外的所有指称词{mj|mj∈m∧mj≠mi},它们对应的正确候选实体集合为{ej|mj→ej∧mj∈m∧mj≠mi},将当前待链接指称词mi前出现的r个指称词{mi-r,mi-r+1,...mi-1}被链接到的各自实体{ei-r,ei-r+1,...ei-1}所对应的实体向量拼接成一个序列yl,当前待链接指称词mi后出现的n-i个指称词{mi+1,mi+2,...mi+r}被链接到的各自实体{ei+1,ei+2,...ei+r}所对应的实体向量拼接成一个序列yr,将上述三个序列拼接起来作为待链接指称词mi的全局信息x,拼接过程如下:

x=[yl;xi;yr]

将全局信息x作为transformer的输入,取当前待链接指称词mi对应的mask位置的输出作为编码了全局信息的指称词mi的表达向量与mi的一个候选实体ej的表达向量计算余弦相似度,由此得到待链接指称词mi和候选实体ej的该全局相似度得分φ′(mi,ej)。

所述的基于深度学习的集成实体链接系统,其中该全局推断模型为独立建模上下文和实体关系的第三全局模型:

第三全局模型,用于区分待链接指称词文本的上下文信息和与之共现的其他指称词与当前指称词之间相互关联信息,使全局推断模型能够辨别两种类型的语义信息,并能够使链接结果同时挖掘两种信息给出的指称词潜在语义;

对于当前待链接指称词mi,其所在的文档d中出现在指称词mi前后各k个词项构成了指称词mi的上下文词项序列{xa-k,...,xa-1,xa,xa+1,...,xb-1,xb,xb+1,...,xb+k},将指称词mi对应的文本添加mask遮蔽,得到其上下文词项序列{xa-k,...,xa-1,mask,xb+1,...,xb+k};将该文词项序列作为transformer层的输入,取待链接指称词mi被遮蔽位置的输出作为包含上下文语义信息的指称词mi全局表达向量

对于当前文档d中的每一个指称词{mi|mi∈m},该局部相似度模型会对其在候选实体生成阶段产生的s个候选实体集合c(mi)进行得分预测,如下为每个指称词的有效候选实体集合:

vg={(mi,ej)|mi∈m,ej∈c(mi),ψ(mi,ej)≥δ}

对于每一个指称词mi,通过下式得到其有效候选实体的表达向量:

取当前待链接指称词mi相邻的前后各r个指称词,由指称词mi相邻的指称词对应的有效候选实体表达向量构成序列作为模拟指称词与邻近指称词语义关系的transformer层的输入,指称词mi的有效实体表达向量对应的transformer层的输出为已编码相邻指称词语义关系的指称词mi全局表达向量

指称词mi和它的一个候选实体ej的该全局相似度得分为:

所述的基于深度学习的集成实体链接系统,其中该模块3中采用随机梯度下降法更新全局推断模型的参数。

由以上方案可知,本发明的优点在于:

本发明是一种基于集成链接的实体链接技术。基于局部相似度模型给出的初步链接结果,应用上述三种全局推断模型中的一种,结合全局推断算法,利用指称词所在的文档的文本信息和同一文档中指称词之间的相互关联性完成实体链接任务。

这种实体链接技术能够充分利用同一文档中指称词之间的相互关联丰富指称词的语义信息,能够更好地辨别指称词的含义,同时能够更准确地选取指称词对应的知识库实体,达到良好的实体链接性能。

附图说明

图1为文档级别的联合学习上下文和实体关系的全局推断模型结构图;

图2为窗口级别的联合学习上下文和实体关系的全局推断模型结构图;

图3为独立建模上下文和实体关系的全局推断模型结构图;

图4为本发明流程图。

具体实施方式

发明人在进行实体链接技术研究时,特别是针对基于集成链接的实体链接技术,发现现有技术中绝大多数模型都是基于传统方法进行的,这些方法由于基于一个实体对应一个主题的假设和必须定义一个语义相似度衡量方法的局限,使得对指称词和相应候选实体的语义和主题信息挖掘都不够充分,导致结果产生偏差,影响模型性能。解决这些问题可以利用深度学习方法对语义挖掘的强大性能来解决。而现有少数深度学习集成链接技术,在对同一文档中指称词之间的相互关系的全局信息利用以及针对大规模数据时模型的可扩展性方面都存在一定的问题。本发明基于集成链接思想,同时使用指称词上下文文本信息和同一文档中指称词之间的主题一致性关系丰富待链接指称词语义信息,设计基于transformer的全局推断模型和迭代式全局推断算法,选取匹配最佳的候选实体。本发明的链接模型在链接效果和模型可扩展性上都有提升。

本发明的关键点包括:

关键点1,联合学习上下文和实体关系的全局推断关系以及独立建模上下文和实体关系的全局推断模型;技术效果:在深入挖掘指称词和实体语义关系的同时,利用对同一文档中指称词之间相互关系的学习进一步调整指称词的链接,使得最终的链接结果既考虑了指称词和候选实体的语义关系,也考虑了同一文档中指称词链接对象彼此的协调一致;

关键点2,预测阶段的迭代式全局推断算法;技术效果在预测阶段,按照推断算法流程,基于全局推断模型完成实体链接流程。

为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。

首先选取某一个局部相似度模型,(局部相似度模型同集成链接模型相对应,指的是两种解决实体链接问题的思路,局部相似度模型即按顺序独立解决单个指称词的模型,详见背景技术介绍,如论文《jointlearningoftheembeddingofwordsandentitiesfornamedentitydisambiguation》、《end-to-endneuralentitylinking》等介绍的任一局部模型均可)对待链接文档给出初步的链接结果。(初步链接结果即局部性相似度模型预测的文档中每个指称词对应应被链接到的候选实体)随后,根据每个指称词相应候选实体集合的局部相似度得分,(候选实体集合生成方法本发明不加以限制,可采用现有任意候选实体生成方法;局部相似度得分即所选用的局部相似度模型对每个候选实体计算出来的相似度得分)按照下述方法计算每个指称词的有效候选实体集合表达向量。其次,选取本发明的三种全局推断模型中的一种,按照下述全局推断算法完成链接。流程图如图4所示。

联合学习上下文和实体关系的全局推断模型:

联合学习上下文和实体关系的全局推断模型设计为通过联合待链接指称词的上下文文本信息和与之共现的其他指称词与当前指称词之间相互关联信息,以期完成指称词消歧和选择正确候选实体的过程。根据利用的信息可以分为文档级别的联合学习上下文和实体关系的全局推断模型和窗口级别的联合学习上下文和实体关系的全局推断模型。

文档级别的联合学习上下文和实体关系的第一全局推断模型(第一全局模型):

在模型的训练阶段,对于当前待链接指称词mi,其所在的文档d中全部文本构成指称词mi的上下文,其中每一个词项均由预训练的词向量表示,由此,所有词项构成了指称词mi的上下文词项序列{x1,x2,...,xn},假设其中第a个词项到第b个词项为指称词mi的文本名称,将这几个词项添加mask遮蔽,由此构成了指称词mi的上下文序列xi:{x1,x2,...,mask,...,xn}。

文档d中除当前待链接指称词mi外的所有指称词{mj|mj∈m∧mj≠mi}(m为所有指称词构成的集合),它们对应的正确候选实体集合为{ej|mj→ej∧mj∈m∧mj≠mi}。(一个指称词的候选实体数目往往大于1,但是最终只对应一个正确的候选实体,此处指一个文档中所有的指称词对应的正确候选实体构成的集合,如公示表示)将当前待链接指称词mi前出现的i-1个指称词{m1,m2,...mi-1}应该被链接到的各自正确的实体{e1,e2,...ei-1}所对应的实体向量拼接成一个序列yl,当前待链接指称词mi后出现的n-i个指称词{mi+1,mi+2,...mn}应该被链接到的各自正确的实体{ei+1,ei+2,...en}所对应的实体向量拼接成一个序列yr,将上述三个序列拼接起来作为待链接指称词mi的全局信息,也就是第一全局推断模型所用的包含了整个文档上下文和实体关系的全局推断信息,拼接方法如下:

x=[yl;xi;yr]

将上述编码了全局信息的序列作为transformer(论文《attentionisallyouneed》中的经典模型)的输入,取当前待链接指称词mi对应的mask位置的输出作为编码了全局信息的指称词mi的表达向量与mi的一个候选实体ej的表达向量计算余弦相似度,由此得到待链接指称词mi和候选实体ej的全局匹配得分φ′(mi,ej)。模型结构如图1所示,以一个文档示例,eeropeancolonists以外的下划线为文档中的指称词,eeropeancolonists为待链接指称词,灰色实心框为指称词的有效实体表达向量,灰色空心框为被mask的指称词对应的位置,黑色空心框为词项的词向量序列。

窗口级别的联合学习上下文和实体关系的第二全局推断模型(第二全局模型):

在模型的训练阶段,对于当前待链接指称词mi,其所在的文档d中出现在指称词mi前面的k个词项和出现在指称词mi后面的k个词项构成指称词mi的上下文,其中每一个词项均由预训练的词向量表示,由此,这些词项构成了指称词mi的上下文词项序列{xa-k,...,xa-1,xa,xa+1,...,xb-1,xb,xb+1,...,xb+k},假设其中第a个词项到第b个词项为指称词mi的文本名称,将这几个词项添加mask遮蔽,由此构成了指称词mi的固定窗口大小的上下文序列xi:{xa-k,…,xa-1,mask,xb+1,…,xb+k}。

文档d中除当前待链接指称词mi外的所有指称词{mj|mj∈m∧mj≠mi},它们对应的正确候选实体集合为{ej|mj→ej∧mj∈m∧mj≠mi}。将当前待链接指称词mi前出现的r个指称词{mi-r,mi-r+1,...mi-1}应该被链接到的各自正确的实体{ei-r,ei-r+1,...ei-1}所对应的实体向量拼接成一个序列yl,当前待链接指称词mi后出现的n-i个指称词{mi+1,mi+2,...mi+r}应该被链接到的各自正确的实体{ei+1,ei+2,...ei+r}所对应的实体向量拼接成一个序列yr,将上述三个序列拼接起来作为待链接指称词mi的全局信息,也就是第二全局推断模型所用的包含了限定窗口范围内的上下文和实体关系的全局推断信息,拼接方法如上。

全局相似度的学习类似5.2.1节,即将上述编码了全局信息的序列作为transformer的输入,取当前待链接指称词mi对应的mask位置的输出作为编码了全局信息的指称词mi的表达向量与mi的一个候选实体ej的表达向量计算余弦相似度,由此得到待链接指称词mi和候选实体ej的全局匹配得分φ′(mi,ej)。模型结构如图2,所示,以一个文档示例,eeropeancolonists以外的下划线为文档中的指称词,eeropeancolonists为待链接指称词,eeropeancolonists前后灰色加粗部分为待链接指称词的窗口级别上下文,选取前后三个指称词作为待链接指称词临近指称词,灰色实心框为指称词的有效实体表达向量,灰色空心框为被mask的指称词对应的位置,黑色空心框为词项的词向量序列

联合学习上下文和实体关系的全局推断模型,最终全局相似度得分均定义为局部相似度和全局推断模型预测的得分的结合,即:

φ(mi,ej)=ffnn3([ψ(mi,ej);φ′(mi,ej)])

独立建模上下文和实体关系的第三全局推断模型(第三全局模型):

独立建模上下文和实体关系的全局推断模型设计思想核心在于区分待链接指称词文本的上下文信息和与之共现的其他指称词与当前指称词之间相互关联信息,使全局推断模型能够辨别两种类型的语义信息,并能够使链接结果同时挖掘两种信息给出的指称词潜在语义。

首先介绍对上下文包含的语义的学习。对于当前待链接指称词mi,其所在的文档d中出现在指称词mi前后各k个词项(由各自的字符-词向量表示)构成了指称词mi的上下文词项序列{xa-k,...,xa-1,xa,xa+1,...,xb-1,xb,xb+1,...,xb+k},同5.2.2节所示,将指称词mi对应的文本添加mask遮蔽,得到其上下文词项序列{xa-k,...,xa-1,mask,xb+1,...,xb+k}。将这个词项序列作为挖掘文本信息而构建的transformer层的输入,每个此项对应位置的输出即为编码了上下文信息的该词项的表达向量,取待链接指称词mi被遮蔽位置的输出作为包含上下文语义信息的指称词mi全局表达向量

其次介绍学习由周围指称词对应的实体关系所包含的待链接指称词的语义信息的模型。对于当前文档d中的每一个指称词{mi|mi∈m},第四章中的局部相似度模型会对其在候选实体生成阶段产生的s个候选实体集合c(mi)进行得分预测,如下定义每个指称词的有效候选实体集合:

vg={(mi,ej)|mi∈m,ej∈c(mi),ψ(mi,ej)≥δ}

即通过局部相似度模型的得分预测,只有与指称词相似度得分较高的候选实体才被视为是有效的候选实体,这部分实体将参与到全局推断阶段对指称词语义信息的分析过程中。对于每一个指称词mi,如下定义其有效候选实体的表达向量:

取当前待链接指称词mi相邻的前后各r个指称词,这些指称词基于主题一致性的假设,对指称词mi的语义信息具有重要的意义,所以他们的链接过程也是彼此相关的,本节构建的全局推断模型如下模拟这种语义相关性,由指称词mi相邻的指称词对应的有效候选实体表达向量构成序列将这个序列作为模拟指称词与邻近指称词语义关系的transformer层的输入,指称词mi的有效实体表达向量对应的transformer层的输出即为编码了相邻指称词语义关系的指称词mi全局表达向量

指称词mi和它的一个候选实体ej的全局相似度定义为:

式中ψ、ffnn、yej的含义是分别是局部相似度得分、前向神经网络层、候选实体ej的表达向量。

模型结构如图3。

全局推断算法

基于前文介绍的模型,下面介绍本发明的全局推断模型预测一个待链接指称词所对应的正确的实体的所用的全局推断算法。

在模型测试阶段,首先,对于每一个测试集中的文档,其包含的待链接指称词构成集合(是由很多个文档和标注了每个指称词对应的知识库中的实体的实体-指称词对构成的集合)。其次,如下选择最佳的有效候选实体判断阈值δ:选取在验证集上使得值最大的阈值δ。对每一个待链接的指称词m的候选实体集合c(m),由局部相似度模型,对所有的待链接指称词m可以得到它们候选实体集合中每一个候选实体与之相应的局部相似度得分全局推断流程如下:

1.对一个测试文档d中的每一个待链接指称词mi,根据局部相似度得分选取其候选实体集合中的有效候选实体集合vg={(mi,ej)|mi∈m,ej∈c(mi),ψ(mi,ej)≥δ},计算指称词mi的有效候选实体表达向量

2.对于文档d中的每一个指称词,按出现顺序从头到尾依次用全局推断模型计算其候选实体的全局相似度得分,判断得分最高的候选实体与局部相似度模型计算的得分最高的实体是否一致,若所有的指称词对应的候选实体均满足以上条件,则终止算法,将这些最高得分的候选实体作为最终的链接结果返回,否则进入下面的循环流程。

3.用上一步全局推断模型计算得到的每一个指称词的最佳匹配候选实体的表达向量作为当前指称词的有效实体表达向量(此处有效实体表达向量的作用请参见全局推断模型中的描述,要以此替换掉原文档中指称词对应位置的表达向量,以此达到集成链接的目的),按指称词在文档中的出现顺序依次用当前全局推断模型计算当前指称词的每一个候选实体的全局相似度得分(全局相似度得分最高的候选实体被视为是指称词的最佳匹配实体),判断文档中所有指称词的最佳匹配实体是否与上一轮完全一致(每一轮迭代过程都伴随着全局推断模型的参数更新,参数更新方式可为常规的随机梯度下降方法,因此每一轮给出的预测结果都是不同的),完全一致则终止循环,将当前结果作为最终的链接结果返回,否则进入下一轮迭代流程,直到某一轮与上一轮所有指称词的最佳链接结果完全一致。

以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。

本发明还提出了一种基于深度学习的集成实体链接系统,其中包括:

模块1、获取文档中待实体链接的指称词,使用局部相似度模型处理该指称词,得到该指称词的候选实体集合中每一个候选实体与指称词相应的局部相似度得分,及候选实体表达向量;

模块2、根据该候选实体表达向量及该指称词在文档中的出现顺序,使用基于深度学习的全局推断模型得到其候选实体的全局相似度得分,判断全局相似度得分最高的候选实体与局部相似度得分最高的实体是否一致,若是,则将最高得分的候选实体作为最终的实体链接结果,否则将最高得分的候选实体作为初步结果,执行模块3;

模块3、使用该全局推断模型,得到该指称词匹配的候选实体的表达向量以替换该候选实体表达向量,根据该表达向量和该指称词在文档中的出现顺序,利用该全局推断模型得到指称词的每一个候选实体的全局相似度得分,选取全局相似度得分最高的候选实体作为该指称词的最佳匹配实体,判断该最佳匹配实体是否和该初步结果相同,若是,则将该最佳匹配实体作为最终的实体链接结果,否则更新全局推断模型的参数后,继续使用全局推断模型得到指称词的最佳匹配实体,直到最佳匹配实体与上一轮指称词的最佳匹配实体相同,将当前该最佳匹配实体作为最终的实体链接结果。

所述的基于深度学习的集成实体链接系统,其中该全局推断模型为文档级别的联合学习上下文和实体关系的第一全局模型;

该第一全局模型具体包括:

对于待链接指称词mi,指称词mi的上下文词项序列{x1,x2,...,xn},将其中第a个词项到第b个词项为指称词mi的文本名称添加mask遮蔽,构成指称词mi的上下文序列xi:{x1,x2,...,mask,...,xn};

文档中除当前待链接指称词mi外的所有指称词{mj|mj∈m∧mj≠mi}对应的候选实体集合为{ej|mj→ej∧mj∈m∧mj≠mi},将当前待链接指称词mi前出现的i-1个指称词{m1,m2,...mi-1}应该被链接到的各自对应实体{e1,e2,...ei-1}所对应的实体向量拼接成一个序列yl,当前待链接指称词mi后出现的n-i个指称词{mi+1,mi+2,...mn}应该被链接到的各自正确的实体{ei+1,ei+2,...en}所对应的实体向量拼接成一个序列yr,将上述三个序列拼接起来作为待链接指称词mi的全局信息x,拼接过程如下:

x=[yl;xi;yr]

将全局信息x作为transformer的输入,取当前待链接指称词mi对应的mask位置的输出作为编码了全局信息的指称词mi的表达向量与mi的一个候选实体ej的表达向量计算余弦相似度,由此得到待链接指称词mi和候选实体ej的该全局相似度得分φ′(mi,ej)。

所述的基于深度学习的集成实体链接系统,其中该全局推断模型为窗口级别的联合学习上下文和实体关系的第二全局模型:

该第二全局模型具体包括:

在模型的训练阶段,对于待链接指称词mi,其所在的文档中出现在指称词mi前面的k个词项和出现在指称词mi后面的k个词项构成指称词mi的上下文,其中每一个词项均由词向量表示,词向量项构成了指称词mi的上下文词项序列{xa-k,...,xa-1,xa,xa+1,...,xb-1,xb,xb+1,...,xb+k},将其中第a个词项到第b个词项为指称词mi的文本名称添加mask遮蔽,构成指称词mi的固定窗口大小的上下文序列xi:{xa-k,...,xa-1,mask,xb+1,...,xb+k};

文档中除当前待链接指称词mi外的所有指称词{mj|mj∈m∧mj≠mi},它们对应的正确候选实体集合为{ej|mj→ej∧mj∈m∧mj≠mi},将当前待链接指称词mi前出现的r个指称词{mi-r,mi-r+1,…,mi-1}被链接到的各自实体{ei-r,ei-r+1,...ei-1}所对应的实体向量拼接成一个序列yl,当前待链接指称词mi后出现的n-i个指称词{mi+1,mi+2,…,mi+r}被链接到的各自实体{ei+1,ei+2,...,ei+r}所对应的实体向量拼接成一个序列yr,将上述三个序列拼接起来作为待链接指称词mi的全局信息x,拼接过程如下:

x=[yl;xi;yr]

将全局信息x作为transformer的输入,取当前待链接指称词mi对应的mask位置的输出作为编码了全局信息的指称词mi的表达向量与mi的一个候选实体ej的表达向量计算余弦相似度,由此得到待链接指称词mi和候选实体ej的该全局相似度得分φ′(mi,ej)。

所述的基于深度学习的集成实体链接系统,其中该全局推断模型为独立建模上下文和实体关系的第三全局模型:

第三全局模型,用于区分待链接指称词文本的上下文信息和与之共现的其他指称词与当前指称词之间相互关联信息,使全局推断模型能够辨别两种类型的语义信息,并能够使链接结果同时挖掘两种信息给出的指称词潜在语义;

对于当前待链接指称词mi,其所在的文档d中出现在指称词mi前后各k个词项构成了指称词mi的上下文词项序列{xa-k,...,xa-1,xa,xa+1,...,xb-1,xb,xb+1,...,xb+k},将指称词mi对应的文本添加mask遮蔽,得到其上下文词项序列{xa-k,...,xa-1,mask,xb+1,...,xb+k};将该文词项序列作为transformer层的输入,取待链接指称词mi被遮蔽位置的输出作为包含上下文语义信息的指称词mi全局表达向量

对于当前文档d中的每一个指称词{mi|mi∈m},该局部相似度模型会对其在候选实体生成阶段产生的s个候选实体集合c(mi)进行得分预测,如下为每个指称词的有效候选实体集合:

vg={(mi,ej)|mi∈m,ej∈c(mi),ψ(mi,ej)≥δ}

对于每一个指称词mi,通过下式得到其有效候选实体的表达向量:

取当前待链接指称词mi相邻的前后各r个指称词,由指称词mi相邻的指称词对应的有效候选实体表达向量构成序列作为模拟指称词与邻近指称词语义关系的transformer层的输入,指称词mi的有效实体表达向量对应的transformer层的输出为已编码相邻指称词语义关系的指称词mi全局表达向量

指称词mi和它的一个候选实体ej的该全局相似度得分为:

所述的基于深度学习的集成实体链接系统,其中该模块3中采用随机梯度下降法更新全局推断模型的参数。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1