本发明涉及信息处理领域,特别涉及基于多粒度LSTM网络的深层语义匹配(Deep Semantic Match Model,DSMM)实体链接方法。
背景技术:
实体链接是自然语言处理各个应用领域的基础环节,它的目标是将自由文本中的实体指称链接到目标知识图谱所对应的实体,从而解决实体间存在的歧义性问题。实体链接研究中的核心是如何对候选实体集合进行排序以挑选出正确的映射实体。实体链接的好坏会直接影响到上层任务,例如,信息检索和自动问答。
大部分传统的实体链接算法一般采用非结构化的知识图谱,通过实体指称与候选实体的上下文文本,人工抽取两者的特征向量。然而这种方式得到的特征向量不能表示词或实体的内在语义信息,缺乏对不同场景的适应性。而本发明为了解决上述的问题,采用了字符粒度、词粒度的两个双向LSTM网络和知识表示学习方法TransE,抽取表面形式和上下文语义两个层面的特征,并且结合知识图谱的结构化信息,得到了较好的实体链接效果。
技术实现要素:
为了解决现有的技术问题,本发明提供了基于多粒度LSTM网络的深层语义匹配实体链接方法。方案如下:
步骤一,采用字符级别的双向LSTM网络(char-LSTM),抽取实体指称、候选实体的表面形式特征表示,同时能够包含一定程度上的词本身的语义信息。
步骤二,采用词级别的双向LSTM网络(word-LSTM),对实体指称所在句子进行编码,将其输出作为实体指称的上下文语义特征向量。采用结构化知识图谱中的“结构上下文”,学习得到候选实体的上下文语义特征向量。
步骤三,对于实体指称、候选实体的表面形式特征向量以及上下文语义特征向量,分别计算表面形式和语义的匹配相似度得分,将表面形式匹配相似度和上下文语义匹配相似度结合作为实体指称-候选实体对最终的匹配相似度得分。
附图说明
图1是本发明提供的基于多粒度LSTM网络的深层语义匹配(DSMM)实体链接系统的网络结构图
图2是本发明提供的DSMM算法中使用的char/word-LSTM的结构图
图3是LSTM网络的循环单元结构图
具体实施方式
接下来将对本发明的实施方法作更详细的描述。
图1是本发明提供的基于多粒度LSTM网络的深层语义匹配实体链接系统的网络结构图,其中包括:
步骤S1:表面形式匹配
步骤S2:上下文语义匹配
步骤S3:相似性度量
图2给出了char/word-LSTM的结构图。
下面将对每个步骤进行具体的说明:
步骤S1:表面形式匹配。由于实体指称、候选实体普遍的长度都很短,本发明采用字符级别的双向LSTM网络(char-LSTM)来抽取两者的表面形式特征表示。char-LSTM的鲁棒性更好,能够接受由于一些印刷、时态或者其他拼写原因而导致的字符错误,同时能够包含一定程度上的词本身的语义信息。
图3给出了一种LSTM单元的单元结构,一个LSTM单元在时刻t可以描述为:
it=σ(Wi·xt+Ui·ht-1+bi)
ft=σ(Wf·xt+Uf·ht-1+bf)
ot=σ(Wo·xt+Uo·ht-1+bo)
ht=ot⊙tanh(Ct)
其中x是输入,C是记忆单元状态,i、f、o分别是输入门、遗忘门和输出门,σ和tanh是logistic sigmoid函数和hyperbolic tangent函数。⊙是数值对位相乘。W、U和b是权重矩阵和偏置项。是计算出来的候选记忆单元状态。记忆单元状态C在输入门、遗忘门的控制下,从候选记忆单元状态和前一时刻的记忆单元状态更新得到。而输出门则控制记忆单元状态的输出。
对于给定的包含T个字符M={c1,c2,…,cT}的实体指称m,输入即是m的字符形式M={c1,c2,…,cT};字符形式通过词向量层,将每个输入单元的字符转化为对应的字符向量eic:
eic=Wcharic
其中,Wchar∈Rdc×|Vc|是字符向量矩阵,dc为字符向量的维度,Vc是包括所有不同字符的字典,ic是一个独热向量,即它在除第i维上是取值为1,其余维度上的值全为0。
双向LSTM层的输入是转换后得到的字符向量取双向LSTM层最后的隐藏层状态作为输出,即实体指称m的表面形式特征向量Locm。对于候选实体e,经过同样的char-LSTM,可以得到实体e的特征向量Loce。
步骤S2:上下文语义匹配。由于单纯地依靠表面形式特征向量来做实体链接存在诸多问题,本发明采用词级别的双向LSTM网络(word-LSTM),对实体指称所在句子进行编码,将其输出作为实体指称的上下文语义特征向量。
给定实体指称m及其所在的句子sen,将sen的每个单词都转换为对应的词向量;对于第i个词,将其词向量与位置向量拼接作为LSTM层的输入,即
其中,eiw=Wwordiw为第i个词的词向量,eip=Wposiw为第i个词的位置向量。Wword∈Rdw×|Vw|和Wp∈Rdp×|Vp|分别是用来查找的词向量矩阵和位置向量矩阵。其中,dw和dp分别是词向量和位置向量的维度。Vw和Vp分别是词典和位置词典。iw和ip都是独热向量,分别只在第w维和p维取值为1,其他维全部取值为0。对于sen中的词,它的位置坐标是指它在句子中与实体指称的相对距离。
然后将双向LSTM层的所有单元的输出H=[h1,h2,…,hT]输入到attention层,最后实体指称m的上下文语义特征向量是由H的各分量的加权和在经过非线性变换之后得到的:
M=tanh(H)
α=softmax(wTM)
r=HαT
Glom=tanh(r)
对于候选实体的语义特征向量Gloe,采取知识表示学习的方法TransE。在TransE中,对于每个三元组(s,r,o)∈k,通过使E(s)+E(r)=E(o)来训练实体和关系的嵌入表示。利用实体的结构化“上下文”来学习实体的表示,得到候选实体的上下文特征向量Gloe。
步骤S3:相似性度量。由于表面形式匹配相似度和上下文语义匹配相似度都能够对实体链接提供重要的信息量,本发明选择将两者结合作为实体指称-候选实体对(m,e)最终的匹配相似度得分。
分别计算表面形式和语义这两个层面的匹配相似度得分:
ml=cosine(Locm,Loce)
mg=cosine(Glom,Gloe)
然后将表面形式匹配相似度和上下文语义匹配相似度结合作为实体指称-候选实体对(m,e)最终的匹配相似度得分:
score(m,e)=ml+mg
在算法的训练阶段,本发明选择负采样方式的合页损失函数作为最后的代价函数:
其中,γ是预设定的超参数,表示实体指称与正确实体和非正确实体的相似度间隔。e是正确的映射实体,e′是从参考的知识库的所有实体中随机采样挑选出来的错误链接实体。损失函数表达的含义即,对于正确链接的实体,其相似度得分应该比随机挑选的错误链接实体至少大间隔γ。
最后在测试系统时,只需要计算每个候选实体与实体指称之间的匹配相似度得分,选取得分最高的实体作为最终答案。
以上结合附图对所提出的基于多粒度LSTM网络的深层语义匹配(Deep Semantic Match Model,DSMM)实体链接系统及各模块的具体实施方式进行了阐述。通过以上实施方式的描述,所属领域的一般技术人员可以清楚地了解到本发明可借助软件加必须的通用硬件平台的方式来实现,当然也可以通过硬件实现,但前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现,该软件产品存储在一个存储介质中,包括若干指令用以使得一台或多台计算机设备执行本发明各个实施例所述的方法。
依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
以上所述的本发明实施方式,并不构成对发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明的保护范围之内。