面向中文短文本的实体识别与实体链接方法

文档序号：26589133发布日期：2021-09-10 20:18阅读：128来源：国知局

1.本发明涉及文本的实体识别与实体链接领域，具体涉及面向中文短文本的实体识别与实体链接方法。

背景技术：

2.实体识别的主要目标是从文本数据当中抽取出实体信息，一般包含：人名、机构名、地理位置信息、时间、日期等。实体识别是解决很多自然语言处理问题的基础，也是信息抽取中最基本的任务。实体链接指的是把文本数据当中的实体提及指向它在特定的知识库里目标实体的技术。实体链接可以应对实体产生歧义的问题。在知识工程，海量信息抽取，信息检索，智能问答等任务和应用中，实体链接系统起着关键的支撑作用。
3.公开号为cn111401049a公开了一种实体链接方法及装置，通过识别目标文本中的待消歧实体，对待消歧实体进行编码，得到文本编码，对待消歧实体对应的各个候选实体分别进行编码，得到实体描述编码，分别确定目标文本与各个候选实体的实体描述信息之间的共现特征，根据文本编码、实体描述编码和共现特征，确定待消歧实体对应的实体对象。
4.现有技术缺点：传统的实体识别与链接任务主要针对长文本，虽然英语长文本中的实体识别与链接在以往的研究中已经得到了很好的进展，但汉语短文本中的实体识别与链接仍然是一个巨大的挑战。相比之下，汉语短文实体识别与链接的文本信息当中，由于缺乏明确的词分隔符，口语化程度高，上下文不够充分以及汉语短文中提及内容的多样性等给这项任务带来了巨大的挑战。目前绝大部分的实体识别和实体链接模型依赖于有监督模型，需要大量标签数据集训练来达到实用目的。因此短文本及稀缺资源缺乏环境下，基于无监督/半监督和迁移学习的实体识别和链接模型是解决问题的关键。

技术实现要素：

5.有鉴于此，本发明提供一种面向中文短文本的实体识别与实体链接方法，所述方法包括：实体识别：s1：使用知识库中的实体名称与实体别名信息去构建实体名称词典；s2：基于词典匹配结合最大正向匹配的方法，将原始短文本中的实体与所述词典中的实体进行匹配识别，得到识别出的实体；s3：将知识库的每个实体的描述文本，输入到预训练语言模型中，取选模型输出的向量作为实体的名称嵌入表示；s4：将所述识别出的实体在原始短文本中的位置特征、原始短文本和所述实体的名称嵌入表示同时输入到融合知识库实体名嵌入的短文本实体识别模型中，得到当前实体是否为正确实体的概率；s5：利用传统的实体识别模型 bert
‑
crf与融合知识库实体名嵌入的短文本实体
识别模型做一个融合，得到最终实体识别结果；实体链接：s6：利用给定的知识库构建实体指称项词典，并通过实体识别结果确定每一个待消歧实体的候选实体集合；s7：从实体描述文本长度对初始候选实体集合进行初步筛选，删除流行度低的候选实体，得到筛选候选实体集合；s8：将原始短文本和在筛选候选实体集合中待消歧实体的描述文本连在一起，输入实体链接模型，得到每一个候选实体的概率得分；s9：对每个实体的所有候选实体的概率得分进行排序，并选取其中得分最高的候选实体作为当前实体指称在知识库中正确的链接实体。
6.优选的，构建实体名称词典的具体方法为：采用字典树去构建所述实体名称词典。
7.优选的，对于实体名称只有一个实体与之对应时，就直接使用这个实体对应的cls处的向量作为当前实体的名称嵌入表示；对于实体名字对应多个实体的情况，求所有多个实体对应的cls处的向量的平均值作为当前实体的名称嵌入表示。
8.优选的，所述原始短文本输入包括：词嵌入、位置嵌入和类型嵌入三个部分。
9.优选的，所述词嵌入对应着每个单词的id；类型嵌入是 0 或者 1，其中 0 表示第一句，1 表示第二句；所述位置嵌入为时序信息。
10.优选的，所述融合知识库实体名嵌入的短文本实体识别模型的具体结构为：bert层、双向lstm、卷积层、全连接层和sigmoid激活函数；所述bert 层与所述双向 lstm连接，所述双向lstm连接与所述卷积层连接，所述卷积层与所述全连接层连接，所述全连接层与所述sigmoid激活函数连接。
11.优选的，所述得到当前实体是否为正确实体的概率的具体过程包括：将所述bert层的输出输入到所述双向lstm，提取匹配到的实体名称对应于正向lstm的结束位置处的向量vend和对应在反向lstm 的开始位置处的向量vstart，把两个向量连接在一起后得到向量vcon；分别对正向lstm 和反向 lstm 的输出进行最大池化，得到向量vmax；把vcon 、vmax 和相对应的实体的名称嵌入表示连在一起后，分别经过卷积层、全连接层，再经过sigmoid激活函数，最后得到当前实体是否为正确实体的概率。
12.优选的，所述利用传统的实体识别模型 bert
‑
crf与融合知识库实体名嵌入的短文本实体识别模型做一个融合，具体方法为：将传统的实体识别模型 bert
‑
crf与融合知识库实体名嵌入的短文本实体识别模型概率最大的输出作为两个模型的输出结果，如果两个结果的字符串位置存在重复，则选取融合知识库实体名称嵌入的实体识别模型的结果，单字实体选取 bert
‑
crf 模型的结果；将两个模型的识别结果合在一起，得到最终实体识别结果。
13.优选的，所述描述文本是知识库中所有属性组成的集合，包括实体类型、实体摘要。
14.优选的，所述输入实体链接模型，得到每一个候选实体的概率得分的具体过程为：取bert模型第一个隐节点cls 位置处的向量输出与候选实体在 bert 模型输出向量中对应的开始与结束位置的特征向量进行连接，输入到全连接层和 sigmoid 激活，得
到每一个候选实体的概率得分。
15.本技术实施例提供的上述技术方案与现有技术相比具有如下优点：1）将预训练模型 bert 运用到短文本的实体识别和实体消歧中，即通过迁移学习的思想，利用预训练语言模型强大的特征抽取能力在特定任务中加入少量的训练数据对模型参数进行微调，从而就可使准确率得到较大的提升，这样就能够提升在标签数据资源缺乏环境下实体识别与链接的准确率。
16.（2）在实体识别的过程中，通过引入知识库实体名称嵌入向量，使得知识库的实体描述信息得以充分利用，进而解决短文本总是携带信息太少的问题。在实体链接过程中采用的基于预训练语言模型的实体链接方法可以将知识库中的信息加入到模型训练过程中，充分利用了 bert 预训练过程中的下句预测的任务，该任务中用大量语料训练了上下句相关性。该思想可以移植到实体链接任务中，即将输入文本和候选实体在知识库中的描述文本组成上下文，这样能够充分地衡量待消歧实体与候选实体的相关性。同时将实体类别信息也加入进来进一步提高实体链接的效果。
17.（3）将一种基于实体名称嵌入的实体识别模型和 bert
‑
crf 进行融合，进一步提高了实体识别的效果。 bert
‑
crf 模型识别的实体会因为边界错误导致不能够匹配得到候选实体。而融合知识库实体名称嵌入的实体识别模型是通过词典匹配方式实现，所以它的结果都能够在知识库找到候选实体，不会出现边界错误。融合知识库实体名称嵌入的实体识别模型在词典匹配时，去掉了单字实体，而 bert
‑
crf 模型可以预测单字实体。所以将两种方案融合，能够取得最好的效果。
附图说明
18.图1为本发明实施例提供的面向中文短文本的实体识别与实体链接方法的流程图；图2为本发明实施例提供的取选模型输出cls处的向量作为实体的名称嵌入表示的结构图；图3为本发明实施例提供的融合知识库实体名嵌入的短文本实体识别模型结构图；图4为本发明实施例提供的实体链接模型结构图。
具体实施方式
19.这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
20.如图1所示本技术实施例提供的面向中文短文本的实体识别与实体链接方法，包括：实体识别：s1：使用知识库中的实体名称与实体别名信息去构建实体名称词典，具体方法为：采用字典树去构建所述实体名称词典；所述字典树是一种字符串上的树形数据结构；字典
树中的每条边都对应一个字，从根节点往下的路径构成一个个字符串；字符串可以看作是一条路径，当需要查询某一个单词时，仅仅需要顺着某条路径从根节点向下遍历；当遍历到有标记的节点时，就表明当前这个字符串在存在于集合之中，如果没有到达标记处则说明不存在；s2：基于词典匹配结合最大正向匹配的方法，将原始短文本中的实体与所述词典中的实体进行匹配识别，得到识别出的实体，即以某个下标为起点递增查词的过程中，会首先输出长度更长的单词；这种方法的优势在于能够很好地解决中文短文本实体识别过程中出现的识别边界错误的问题，因为实体名称字典中的实体一定存在于知识库当中；s3：将知识库的每个实体的描述文本，输入到预训练语言模型中，取选模型输出cls处的向量作为实体的名称嵌入表示；对于实体名称只有一个实体与之对应时，就直接使用这个实体对应的cls处的向量作为当前实体的名称嵌入表示；对于实体名字对应多个实体的情况，求所有多个实体对应的cls处的向量的平均值作为当前实体的名称嵌入表示；s4：将所述识别出的实体在原始短文本中的位置特征、原始短文本和所述实体的名称嵌入表示同时输入到融合知识库实体名嵌入的短文本实体识别模型中，得到当前实体是否为正确实体的概率；所述原始短文本输入包括：词嵌入、位置嵌入和类型嵌入三个部分，所述词嵌入对应着每个单词的id；类型嵌入是 0 或者 1，其中 0 表示第一句，1 表示第二句；所述位置嵌入为时序信息；所述融合知识库实体名嵌入的短文本实体识别模型的具体结构为：bert层、双向lstm、卷积层、全连接层和sigmoid激活函数；其中，lstm为long short
‑
term memory，即长短期记忆网络；所述bert 层与所述双向 lstm连接，所述双向lstm连接与所述卷积层连接，所述卷积层与所述全连接层连接，所述全连接层与所述sigmoid激活函数连接；bert 层包含一个 12 层的 transformer 编码器结构；编码器最重要的模块是 self
‑
attention 部分，其公式如下：其中q,k,v是输入的词向量矩阵，d
k
是输入向量的维度；为了充分利用上下文信息，在这里使用了双向 lstm；首先会把 bert 模型的输出输入双向的lstm网络当中去；将所述bert层的输出输入到所述双向lstm，提取匹配到的实体名称对应于正向lstm的结束位置处的向量vend和对应在反向lstm 的开始位置处的向量vstart，把两个向量连接在一起后得到向量vcon，它能够表达当前的实体名称在文本中的语义表示；分别对正向lstm 和反向 lstm 的输出进行最大池化，得到向量vmax，这么做的目的在于可以学习到整个文本的语义信息；把vcon、vmax 和相对应的实体的名称嵌入表示连在一起后，分别经过卷积层、全连接层，再经过sigmoid激活函数，最后得到当前实体是否为正确实体的概率；s5：利用传统的实体识别模型 bert
‑
crf与融合知识库实体名嵌入的短文本实体识别模型做一个融合，得到最终实体识别结果，从而可以进一步提升实体识别的准确率，具体方法为：
将传统的实体识别模型 bert
‑
crf与融合知识库实体名嵌入的短文本实体识别模型概率最大的输出作为两个模型的输出结果，如果两个结果的字符串位置存在重复，则选取融合知识库实体名称嵌入的实体识别模型的结果，单字实体选取 bert
‑
crf 模型的结果；将两个模型的识别结果合在一起，得到最终实体识别结果；需要进一步说明的是实体名称词典在构建的过程中并没有将知识库中的单字实体插入进去，因此通过融合知识库实体名称嵌入的实体识别模型得到的结果中不包含单字实体，而 bert
‑
crf 模型能够预测单字实体；因此通过把上述两种模型进行一个融合，就可以优势互补来取得最好的实验效果；实体链接：s6：利用给定的知识库构建实体指称项词典，并通过实体识别结果确定每一个待消歧实体的候选实体集合，具体方法为：以最终实体识别结果为实体指代，把它在词典所有可能指向的目标实体当作该实体地候选实体；一般通过词典生成的初始候选集合往往比较大，如果直接拿来做实体消歧，不仅会极大地增大运算量，同时还会增加实体消歧的难度；s7：实体流行度一般用来表示实体的热门程度，流行度越大，表示实体越热门，同时考虑到目标实体一般是比较热门的实体；而实体描述文本长度越长，其流行度往往越高，被链指到的概率也越大，因此从实体描述文本长度对初始候选实体集合进行初步筛选，删除流行度低的候选实体，得到筛选候选实体集合；例如在ccks2019短文本实体识别与链接数据集中把最大候选集设置为 64 时，通过选择实体描述文本长度最长的 64 个作为候选集时，总体的召回率接近 100%；s8：将原始短文本和在筛选候选实体集合中待消歧实体的描述文本连在一起，输入实体链接模型，取bert模型第一个隐节点cls 位置处的向量输出与候选实体在 bert 模型输出向量中对应的开始与结束位置的特征向量进行连接，输入到全连接层和 sigmoid 激活，得到每一个候选实体的概率得分；所述描述文本是知识库中所有属性组成的集合，包括实体类型、实体摘要等；而实体描述的长度可能超过 512，因此本文把实体的类型放在了实体描述信息之前。这是因为实体的类型信息对于实体链接更为重要；s9：对每个实体的所有候选实体的概率得分进行排序，并选取其中得分最高的候选实体作为当前实体指称在知识库中正确的链接实体。
21.实施例如图1所示，具体流程如下:（1）首先使用知识库中的实体名称与实体的别名信息去构建实体名称词典。
22.（2）将原始短文本通过基于词典匹配结合最大正向匹配的方法得到识别出的实体。
23.（3）将知识库的每个实体的描述文本，输入到预训练语言模型 bert，取选模型输出的向量作为实体名称的嵌入表示，如图1中 a 框所示。
24.对应于图2中的具体实例，即把原始短文本（text）：摘要《某歌曲》是作者a的音乐作品，作者b作曲
……
输入bert中去，取[cls]位置的输出得到一个768维的向量就可以代表当前实体某歌曲的嵌入表示。
[0025]
（4）将图1中
①
处得到的候选实体在原始短文本中的位置特征和原始短文本与
②
处通过知识库获取的候选实体的名称嵌入同时输入到融合知识库实体名嵌入的短文本实体识别模型当中, 如图1中 b 框所示，进而得到所识别出的实体。如图3所示，可以在训练集中找到一条短文本（chinese short text）：《某文章》
‑
哈尔滨日报数字报。还有短文本中的两个实体：某文章、哈尔滨日报数字报。以及两个实体在短文本中的起始位置1和8。将短文本输入bert模型后，再通过双向lstm（backward lstm和forward lstm）,最后根据起始位置1和8，把由神经网络得到的实体向量和在（3）中对应的实体名称嵌入向量连在一起（concat）后，分别经过卷积层（conv1d）、全连接层（dense），再经过sigmoid激活，最后得到当前实体是否为正确实体的概率。选择概率大于 0.5 的实体作为结果。
[0026]
（5）利用传统的实体识别模型 bert
‑
crf 与融合知识库实体名嵌入的短文本实体识别模型做一个融合，从而可以进一步提升实体识别的准确率。
[0027]
融合规则为：如果两个结果在位置存在重复，则选取融合知识库实体名称嵌入的实体识别模型的结果，单字实体选取 bert
‑
crf 模型的结果。将两个模型的识别结果合在一起即可。例如给定一句话：中国科学院大学是一所创新型大学。 bert
‑
crf 模型的可能的识别结果为：中国科学院、大学、创新型大学；融合知识库实体名称嵌入的实体识别模型识别的结果为：中国科学院大学、创新型大学。由于中国科学院和中国科学院大学在文本中的位置存在重复，所以此处选取融合知识库实体名称嵌入的实体识别模型的结果，即中国科学院大学。最终的识别结果为中国科学院大学和创新型大学这两个实体。
[0028]
（6）实体链接的候选实体生成利用了构建查询实体引用表的思路。会提前利用给定的知识库构建实体指称项词典，具体地，给定一个实体指代，会把它在词典所有可能指向的目标实体当作该实体地候选实体。例如，将其表示成这样的键值对，{'李娜': ['10’,'19’, '37’, '38’, '40’, '85’, '86’, '140']}其中 key 为实体名字， value 为每个实体的候选实体在知识库中对应 id 组成的列表。
[0029]
实体链接的模型如图4所示，实体链接模型是基于二元分类的思想实现。首先将原始短文本（text_a）以及待消歧实体的描述文本（text_b）连在一起，其中实体的描述文本是该实体在知识库中所有属性组成的集合，包括实体类型、实体摘要等。例如：将“解读《新华字典》”这个原始短文本和其中的实体“新华字典”在知识库中的某个候选实体的类型信息：communicationmedium和描述信息：摘要：《新华字典》是新中国第一部现代汉语词典，1953年10月出版
…
拼接在一起作为模型的输入。
[0030]
而实体描述的长度可能超过512，因此本文把实体的类型放在了实体描述信息之前。这是因为实体的类型信息对于实体链接更为重要。然后将其作为 bert 模型的输入，取模型第一个隐节点cls 位置处的向量输出，再与候选实体在 bert 模型输出向量中对应开始（begin）与结束位置（end）的特征向量，进行连接（concat），接着通过全连接层（dense）和 sigmoid 激活函数来得到每一个候选实体的概率得分。只需要对每个实体的所有候选实体的概率得分进行排序，并选取其中得分最高的实体就可作为当前实体指称在知识库中链接的正确实体。
[0031]
另外，本实施例还提供一种存储介质，用于执行和/或存储上述方法。
[0032]
在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包
含一个或多个相关联的列出项目的任何或所有可能组合。
[0033]
应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
[0034]
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。
[0035]
对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
[0036]
本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。
[0037]
本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如fpga（现场可编程门阵列）或asic（专用集成电路）来执行，并且装置也可以实现为专用逻辑电路。
[0038]
适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理（pda）、移动音频或视频播放器、游戏操纵台、全球定位系统（gps）接收机、或例如通用串行总线（usb）闪存驱动器的便携式存储设备，仅举几例。
[0039]
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备（例如eprom、eeprom和闪存设备）、磁盘（例如内部硬盘或可移动盘）、磁光盘以及cd
‑
rom和dvd
‑
rom盘。处理器和存储器可由专
用逻辑电路补充或并入专用逻辑电路中。
[0040]
虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。
[0041]
类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。
[0042]
由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。
[0043]
以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陶建华;杨国花;贾晓炜;张大伟;刘通
技术所有人：中国科学院自动化研究所
我是此专利的发明人

上一篇：一种轨行式即时自锁拖泵平车的制作方法
上一篇：订单量预测方法和设备与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。