一种基于深度语义邻居和多元实体关联的协同消歧方法

文档序号:25280443发布日期:2021-06-01 17:26阅读:195来源:国知局
一种基于深度语义邻居和多元实体关联的协同消歧方法

本发明涉及计算机自然语言处理技术领域,具体涉及一种基于深度语义邻居和多元实体关联的协同消歧方法。



背景技术:

实体消歧(entitydisambiguation,简称ed)是知识图谱构建、信息抽取、知识问答等多个计算机自然语言处理任务中涉及的关键技术。一般地,实体消歧在文本中的应用也叫作实体链接,用于将非结构文本中识别出的实体指称(mention)准确映射到指定知识库的具体实体条目(entity)。非结构文本中实体指称的识别,一般情况下是通过命名实体识别(ner)任务完成;具体的,实体消歧任务分为候选实体生成、消歧和不可链接预测三个模块。然而,在进行实体消歧任务中,实体存在的多样性表达方式;在不同的文本实例中,相同的实体指称可能指代不同的实体条目,或者同一个实体项在不同的文本语境中有着不同的表达形式,比如:在英文文本中,“titanic”可以指代一个电影、一艘船或者一个沉船事故。如何准确地对这些实体项进行映射,是完成实体消歧任务的关键。

现有的研究工作中,消歧方法主要分为单实体消歧方法和协同消歧方法。单实体消歧方法着重于对指定实体指称的局部上下文与相关候选实体的描述信息进行相似度匹配;协同消歧方法是更进一步地考虑同一文档中待消歧的实体指称之间的关联性,认为同一个文档中所有实体指称对应的实体之间的存在一致性,或者具有同一个讨论主题。基于这一前提,协同消歧算法被提出。现有协同消歧算法的一般做法是通过将文档中存在的实体指称以及候选实体构建成实体语义关联图进行计算。然而这种实体指称间的联合推理机制同样也带来了一些问题:首先,实体的联合计算导致了昂贵的计算成本,特别是当实体图可能包含数百个节点的长文档时;其次,考虑全体实体指称的一致性假设过于绝对,更会不可避免地引入干扰因素,抗干扰能力弱。另一方面,对于一些具有高歧义的实体指称,其对应的候选实体之间也具有高度相似性,造成对具有高歧义的实体指称辨识能力差,这给整个消歧过程带来很大的挑战。



技术实现要素:

针对现有技术存在的不足,本发明提出一种基于深度语义邻居和多元实体关联的协同消歧方法,以解决现有技术中存在的针对文档级别的实体消歧任务,存在协同消歧算法使用实体语义关联图进行计算时,计算成本高、抗干扰能力弱、对具有高歧义的实体指称辨识能力差的技术问题。

本发明采用的技术方案是,一种基于深度语义邻居和多元实体关联的协同消歧方法,包括以下步骤:

确定文本中的实体指称个数,生成实体指称集;确定每一个实体指称的上下文信息,基于映射字典为文档中每个实体指称生成候选实体集;

通过预训练获取文本中每一个单词以及相应候选实体的向量表示,并计算生成实体指称的向量表示;

计算实体指称和候选实体之间的字符串匹配度、上下文相似度,构建局部相似度特征;

结合候选实体的向量表示、实体指称的向量表示,基于深度语义信息提取文本中实体指称间的局部一致性特征,得到实体指称对应的邻接指称;

基于局部相似度特征、实体指称的候选实体集、邻接指称的候选实体集构建初始实体语义关联图;

将整个实体指称集划分为低歧义和高歧义两部分;

对于低歧义实体指称,从初始实体语义关联图中删除实体指称对应的映射实体以外的冗余候选实体节点和涉及的边,并从文档中选取低歧义实体指称的关键词作为节点引入到实体语义关联图中,与其映射实体节点建立边关系;对于高歧义实体指称,从候选实体描述页面中选择候选实体的关键词作为证据节点与相应的候选实体节点连接,形成新的边;得到最终实体语义相关图;

将局部相似度特征和最终实体语义相关图输入到基于图注意力网络的消歧模型中,对局部相似度特征以及全局特征进行聚合,输出每一个实体指称对应的映射实体。由上述技术方案可知,本发明的有益技术效果如下:提出了一种基于语义的实体指称邻接选择策略。充分利用自注意力机制对提取长距离依赖性的优势,为文本中的实体指称寻找最优指称邻居集,并在此基础上构建全局特征进行协同消歧。

在一种可实现方式中,通过窗口设置获取实体指称周围的文本得到每一个实体指称的上下文信息。

在一种可实现方式中,预训练使用word2vec模型,采用基于预训练词嵌入的实体嵌入方法。

在一种可实现方式中,局部相似度特征包括局部上下文相似度特征,局部上下文相似度特征包括词级相似度特征、句级相似度特征;提取局部上下文相似度特征按照以下步骤进行:

通过知识库获得实体指称的上下文和候选实体的文本表示;

根据实体指称的上下文和候选实体的文本表示,提取实体指称和候选实体的词级相似度特征;

基于双向长短期记忆神经网络模型提取实体指称和候选实体的句级相似度特征。

在一种可实现方式中,提取文本中实体指称间的局部一致性特征时,通过计算每一个实体指称与其他任意实体指称间的注意力权重,得到每一个实体指称对之间的语义关联度来表征局部一致性特征。

在一种可实现方式中,具体按照以下步骤得到每一个实体指称对之间的语义关联度:

将整个文档送入多层自注意力机制模型进行计算;

通过每个自注意力机制模型层对上下文信息和实体指称对之间的关联信息进行编码;

对实体指称的嵌入表示进行更新;

在多层自注意力机制模型的最后一层,将实体指称对之间的注意力权值进行归一化处理后输出,得到语义关联度。

在一种可实现方式中,构建初始实体语义关联图时,将实体指称的候选实体集、与实体指称相对应的邻接指称的候选实体集作为图的初始节点,并在不同实体指称对应的候选实体之间建立边;候选实体作为节点,候选实体间的相关度作为边。由上述技术方案可知,本发明的有益技术效果如下:针对文本的易引起消岐错误的高歧义实体指称,提出一种实体语义关联图的构造方法,为高歧义指称的消歧过程添加更多充分的证据信息,实现实体指称在消歧过程中的自我强化效果,提高整体消歧过程的准确率。

在一种可实现方式中,在将整个实体指称集划分为低歧义和高歧义两部分时,具体如下:

设置准确度阈值;

当实体指称与某一候选实体之间的匹配准确度小于或等于准确度阈值时,定义为高歧义实体指称;

当实体指称与某一候选实体之间的匹配准确度大于准确度阈值时,定义为低歧义实体。

在一种可实现方式中,对局部相似度特征以及全局特征进行聚合时,对局部相似度特征以及最终实体语义相关图的节点信息进行更新计算,得到最大化实体指称与候选实体之间的最终评分。

在一种可实现方式中,具体按以下步骤计算得到最终评分:

使用一个多层感知机对初始特征向量进行编码;

将编码结果输入到图注意力网络模型进行计算,对候选实体之间的关联信息进行逐步的提取和叠加,得到聚合局部一致性语义信息的候选实体最终隐藏状态;

通过一层线性映射对实体指称每一个候选实体的最终隐藏状态进行解码,做出最终评分。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。

图1为本发明实施例的协同消歧方法的流程图;

图2为本发明实施例的协同消歧模型的整体架构示意图;

图3为本发明实施例的自注意力机制模型的示意图;

图4为本发明实施例的构建实体语义关联图的流程示意图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只作为示例,而不能以此来限制本发明的保护范围。

需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

实施例

本实施例提供了一种基于深度语义邻居和多元实体关联的协同消歧方法,如图1、图2所示,包括以下步骤:

s1、确定文本中的实体指称个数,生成实体指称集;确定每一个实体指称的上下文信息,基于映射字典为文档中每个实体指称生成候选实体集。

在具体的实施方式中,待消歧文档文本为d;实体指称为mi,实体指称的个数为i,i为自然数。文本d中所包含的实体指称集为m(d),m(d)={m1,m2,…,mi}。确定每一个实体指称的上下文信息,具体的,对于实体指称mi,通过窗口设置获取实体指称周围的文本,文本可以是包含实体指称的句子或段落甚至整个文件,得到一组表示为的上下文,其中c1是上下文窗口大小。

基于映射字典为每个实体指称mi生成候选实体e的集合e(mi),e(mi)={ei1,ei2,…,eij},候选实体集e(mi)中的每一个候选实体e对应于知识库中的一个特定实体条目。对于某一种的知识库,如何利用现有知识构建具有丰富语义的实体语义关联图以准确地获取不同候选实体之间的独特性,是消歧模块中的关键。在具体的实施方式中,知识库的选用不作限定,举例说明,知识库为wikipedia。

s2、通过预训练获取文本中每一个单词以及相应候选实体的向量表示,并计算生成实体指称的向量表示。

在具体的实施方式中,采用基于预训练词嵌入的实体嵌入方法进行预训练。预训练使用word2vec模型训练获取词的向量表示;word2vec模型是用来产生词向量的相关模型,可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。在此基础上利用训练语料(训练语料包括知识库实体描述页面或者包含实体的注释语料)提取的“词-实体”共现特征训练实体嵌入,得到文档文本中每一个单词以及相应候选实体的向量表示,单词的向量表示为xw,候选实体的向量表示为xe。对于实体指称,由实体指称所包含的每一个单词的词向量直接相加再平均得到,即其中t(mi)表示实体指称mi包含的每一个字段;实体指称的向量表示为xm。

s3、计算实体指称和候选实体之间的字符串匹配度、上下文相似度,构建局部相似度特征。

在本实施例中,局部相似度特征包括局部字符串匹配度相似度特征、局部上下文相似度特征。提取局部相似度特征,以提取局部上下文相似度特征举例说明:

局部上下文相似度特征包括词级相似度特征、句级相似度特征。提取局部上下文相似度特征按照以下步骤进行:

(1)通过知识库获得实体指称mi的上下文和候选实体e的文本表示。

对于实体指称mi,由知识库可以得到一组表示为的上下文,其中c1是上下文窗口大小。

对于每个候选实体e,从知识库中可以获得完整的描述页面p,在具体的实施方式中,考虑兼顾准确度和复杂度,选取描述页面p的前两段作为文本表示。提取tf-idf得分最高的c2项,标记为

(2)根据实体指称的上下文和候选实体的文本表示,提取实体指称和候选实体的词级相似度特征。

根据c(mi)、c(e),提取实体指称和候选实体的词级相似度特征,词级相似度特征为其中dm和de分别是c(mi)和c(e)所对应的向量加权平均值。

(3)基于bi-lstm模型提取实体指称和候选实体的句级相似度特征。

将c(mi)和c(e)分别作为输入序列,输入到bi-lstm模型中,bi-lstm模型为训练好的双向长短期记忆神经网络。提取文本征信息,生成的隐状态分别表示为hm和he,提取实体指称和候选实体的句子级别的相似度特征,句级相似度特征为

当获得局部相似度特征后,可以基于局部相似度特征为每一个实体指称的候选实体进行排序和筛选,减少候选实体规模,降低计算成本。

s4、结合候选实体的向量表示、实体指称的向量表示,基于深度语义信息提取文本中实体指称间的局部一致性特征,得到实体指称对应的邻接指称;

如图3所示,将自注意力机制(self-attention)应用于整个文档,利用自注意力机制从多个角度获取文本序列内部实体指称间的相关联系,以捕获实体指称间的关键语义信息。考虑到文本中词汇量比较大以及所提问题的需求,对于每一个实体指称mi,只计算它与其他任意实体指称间(包括其上下文关键词信息)的注意力权重来衡量每一个实体指称对之间的语义关联度αsd。

在具体的实施方式中,构建一个基础的多层self-attention模型,用d={x1,x2,…,xn}表示整个文档,其中包括所有实体指称的向量表示xm及其上下文中单词的向量表示xw。将整个文档送入多层self-attention模型进行计算,通过每个self-attention层对上下文信息和实体指称对之间的关联信息进行编码,并对实体指称的嵌入表示xm进行更新,使

w按以下方式计算:q、k为self-attention模型里面的参数,q表示query,k表示key,dk是q、k的维度。

在多层self-attention模型的最后一层,将实体指称对之间的注意力权值作为实体指称间的语义关联度αsd进行归一化处理后输出,计算方法为:

归一化处理公式为:

经过以上计算,可以获取文档中每一个实体指称对之间的语义关联度,而语义关联值越大,说明指称对之间的语义距离越近,使用语义关联度来表征局部一致性特征。对于每一个实体指称mi,从文档中选择k个与其语义关联度αsd最大(语义关联度最大即语义距离最小)实体指称作为该实体指称对应的邻接指称。邻接指称实际上也是一个实体指称,也有其对应的候选实体集。

在具体的实施方式中,步骤s3、s4可以无先后之分,并行进行。

s5、基于局部相似度特征、实体指称的候选实体集、邻接指称的候选实体集构建初始实体语义关联图。

通过构建多元实体语义相关图承载和传递局部和全局信息。如图4所示,基于局部相似度特征,将实体指称mi的候选实体集及其邻接指称的候选实体集作为图的初始节点,并在不同提及的候选实体之间建立边,形成初始图g。g=(v,e),其中候选实体为图的节点,用v表示;候选实体间的相关度为图的边,用e表示。

s6、设置阈值将整个实体指称集划分为低歧义和高歧义两部分;当实体指称与某一候选实体之间的匹配准确度小于或等于准确度阈值时,定义为高歧义实体指称;当实体指称与某一候选实体之间的匹配准确度大于准确度阈值时,定义为低歧义实体,同时将候选实体初步定为实体指称对应的映射实体。

在本步骤中引入了“由易到难”(s2c)的方法,具体的:利用每一组“实体指称-候选实体”的局部相似度特征为候选实体初步估分,设置准确度阈值τ作为对任一实体指称和它分数最高的候选实体之间的匹配准确度的衡量指标。匹配准确度是通过前面计算的局部相似度特征得到的,大于准确度阈值则认定两者可以准确匹配,将此类实体指称划分为低歧义实体指称。小于或等于准确度阈值则定义为高歧义实体指称,将整个实体指称集划分为低歧义和高歧义两部分。阈值τ的取值范围为0~1,可以根据具体需要进行设置。

s7、对于低歧义实体指称,从初始实体语义关联图中删除实体指称对应的映射实体以外的冗余候选实体节点和涉及的边,并从文档中选取低歧义实体指称的关键词作为节点引入到实体语义关联图中,与其映射实体节点建立边关系。

将上一步骤划分后得到的低歧义实体指称,对其优先链接,如图4所示,在实体语义相关图中将该低歧义实体指称对应的冗余候选实体节点和连接到这些节点的相应边删除。此外,为了充分利用上下文和丰富指称本身的语义信息,从文档以及候选实体知识库描述页面中选取该低歧义实体指称的最相关关键词作为节点引入到实体图中,且与其映射实体节点建立边关系。

s8、对于高歧义实体指称,从候选实体描述页面中选择候选实体的关键词作为证据节点与相应的候选实体节点连接,形成新的边。

对于划分出的高歧义实体指称,引入候选实体节点以外的证据节点,增强候选实体之间的区分度。如图4所示,从候选实体在知识库中的描述页面中选择的候选实体的最相关关键词信息,并将这些证据节点与相应的候选实体节点连接起来,形成新的边,丰富实体语义相关图的内容。

通过步骤s7、s8可以得到最终实体语义相关图。在具体的实施方式中,步骤s7、s8可以无先后之分,并行进行。

s9、将局部相似度特征和最终实体语义相关图输入到基于图注意力网络的消歧模型中,对局部相似度特征以及全局特征进行聚合,输出每一个实体指称对应的映射实体。

考虑到结构化实体语义图g的特殊表示,构建一个基于图注意力网络(graphattentionnetwork,gat)的消歧模型来进行消歧。将局部相似度特征信息以及最终实体语义相关图输入到消歧模型中,以最大化实体指称与候选实体之间的综合评分函数score(m,ei)为最终目标,对局部相似度特征以及最终实体语义相关图的节点信息进行更新计算,并将实体指称对应的映射实体进行输出。在具体的实施方式中,首先,使用一个多层感知机对初始特征向量进行编码;其次,将编码结果输入到图注意力网络模型进行计算,对候选实体之间的关联信息进行逐步的提取和叠加,经过多层图注意力网络,得到聚合局部一致性语义信息的候选实体最终隐藏状态;最后,通过一层线性映射对实体指称每一个候选实体的最终隐藏状态进行解码并进行排序打分,得到最终评分,根据最终评分输出每一个实体指称对应的映射实体,完成协同消歧。

通过本实施例的技术方案,提出了一种基于语义的实体指称邻接选择策略。充分利用自注意力机制对提取长距离依赖性的优势,为文本中的实体指称寻找最优指称邻居集,并在此基础上构建全局特征进行协同消歧。

针对文本的易引起消岐错误的高歧义实体指称,提出一种实体语义关联图的构造方法,为高歧义指称的消歧过程添加更多充分的证据信息,实现实体指称在消歧过程中的自我强化效果,提高整体消歧过程的准确率。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1