实体识别方法和系统与流程

文档序号：23889644发布日期：2021-02-09 11:17阅读：86来源：国知局

[0001]
本申请涉及机器学习模型训练的技术，更具体地讲，涉及一种实体识别方法和系统。

背景技术：

[0002]
命名实体识别(named entity recognition，ner)是一项基础而又重要的自然语言处理(natural language processing，nlp)中的词法分析任务，也往往作为信息抽取、问答系统、机器翻译等方向或显式或隐式的基础任务。
[0003]
针对目标领域的实体识别任务，需要基于该目标领域的训练语料训练特定的实体识别模型。当目标领域的训练语料较少时，训练出的实体识别模型的精确度难以达到预期；从无到有地训练出针对目标领域的实体识别模型需要耗费大量的成本，实施过程比较困难，而且训练出的实体识别模型的识别效果无法预估，若识别效果无法满足期望，会导致成本的浪费。

技术实现要素：

[0004]
本公开的示例性实施例可至少解决上述问题，也可不解决上述问题。
[0005]
在一个方面，提供了一种实体识别方法，包括：获取第一实体识别模型，其中，第一实体识别模型是基于目标领域之外的领域的实体识别训练数据预先训练好的、且第一实体识别模型包括语义理解层、映射层、序列标注层，映射层包括至少一个子映射层；对第一实体识别模型的映射层进行重构，得到第二实体识别模型；基于目标领域的实体识别训练数据训练第二实体识别模型；利用训练好的第二实体识别模型对目标领域的文本进行实体识别，输出实体识别结果。
[0006]
可选地，对第一实体识别模型的映射层进行重构的步骤包括：调整映射层中每个子映射层的权重和结构。
[0007]
可选地，调整映射层中每个子映射层的权重和结构的步骤包括：将映射层中每个子映射层的权重进行初始化。
[0008]
可选地，对第一实体识别模型的映射层进行重构的步骤还包括：调整映射层中每个子映射层的隐藏单元的数量。
[0009]
可选地，对第一实体识别模型的映射层进行重构的步骤还包括：在映射层中，在原有子映射层的基础上新增至少一个子映射层。
[0010]
可选地，目标领域之外的领域的实体识别训练数据，是通过将目标领域之外的至少一个领域的实体识别训练数据融合后得到的；该方法还包括：当同一种实体的类型在不同领域的表述方式不一致时，将同一种实体的类型进行归一处理。
[0011]
可选地，训练第一实体识别模型所使用的实体识别训练数据的数量，大于训练第二实体识别模型所使用的实体识别训练数据的数量。
[0012]
在另一个方面，提供了一种实体识别系统，实体识别系统包括第一模型获取模
块、第二模型获取模块、模型训练模块和实体识别模块；
[0013]
第一模型获取模块被配置为：获取第一实体识别模型，其中，第一实体识别模型是基于目标领域之外的领域的实体识别训练数据预先训练好的、且第一实体识别模型包括语义理解层、映射层、序列标注层，映射层包括至少一个子映射层；第二模型获取模块被配置为：对第一实体识别模型的映射层进行重构，得到第二实体识别模型；模型训练模块被配置为：基于目标领域的实体识别训练数据训练第二实体识别模型；实体识别模块被配置为：利用训练好的第二实体识别模型对目标领域的文本进行实体识别，输出实体识别结果。
[0014]
可选地，第二模型获取模块被配置为：调整映射层中每个子映射层的权重和结构。
[0015]
可选地，第二模型获取模块被配置为：将映射层中每个子映射层的权重进行初始化。
[0016]
可选地，第二模型获取模块被配置为：调整映射层中每个子映射层的隐藏单元的数量。
[0017]
可选地，第二模型获取模块被配置为：在映射层中，在原有子映射层的基础上新增至少一个子映射层。
[0018]
可选地，目标领域之外的领域的实体识别训练数据，是通过将目标领域之外的至少一个领域的实体识别训练数据融合后得到的；第一模型获取模块被配置为：当同一种实体的类型在不同领域的表述方式不一致时，将同一种实体的类型进行归一处理。
[0019]
可选地，训练第一实体识别模型所使用的实体识别训练数据的数量，大于训练第二实体识别模型所使用的实体识别训练数据的数量。
[0020]
在另一个方面，提供了一种存储指令的计算机可读存储介质，其中，当指令被至少一个计算装置运行时，促使至少一个计算装置执行上述的实体识别方法。
[0021]
在另一个方面，提供了一种包括至少一个计算装置和存储有至少一个存储指令的存储装置的系统，其中，指令在被至少一个计算装置运行时，促使至少一个计算装置执行上述的实体识别方法。
[0022]
根据本发明示例性实施例提供的实体识别方法和系统，对于基于目标领域之外的领域的实体识别数据预先训练好的第一实体识别模型的映射层重构，得到初始的第二实体识别模型，以目标领域少量的训练数据来初始的第二实体识别模型，训练后的第二实体识别模型即可应用于目标领域的实体识别业务，且能够达到较高的精确度。上述针对目标领域的模型训练过程，可以基于较少的训练语料，较快的得到具有期望精确度的实体识别模型，可以显著地简化训练过程，降低成本。
附图说明
[0023]
通过结合附图，从实施例的下面描述中，本发明这些和/或其它方面及优点将会变得清楚，并且更易于理解，其中：
[0024]
图1示出了本发明示例性实施例提供的实体识别方法的流程图。
[0025]
图2示出了本发明示例性实施例提供的实体识别系统的框图。
具体实施方式
[0026]
提供参照附图的以下描述以帮助对由权利要求及其等同物限定的本发明的实施例的全面理解。包括各种特定细节以帮助理解，但这些细节仅被视为是示例性的。因此，本领域的普通技术人员将认识到在不脱离本发明的范围和精神的情况下，可对描述于此的实施例进行各种改变和修改。此外，为了清楚和简洁，省略对公知的功能和结构的描述。
[0027]
在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括a和b之中的至少一个”即包括如下三种并列的情况：(1)包括a；(2)包括b；(3)包括a和b。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。
[0028]
本发明示例性实施例提供的第一实体识别模型和第二实体识别模型均为机器学习模型。这里，机器学习是人工智能研究发展到一定阶段的必然产物，其致力于通过计算的手段，利用经验来改善系统自身的性能。在计算机系统中，“经验”通常以“数据”形式存在，通过机器学习算法，可从数据中产生“模型”，也就是说，将经验数据提供给机器学习算法，就能基于这些经验数据产生模型，在面对新的情况时，模型会提供相应的判断，即，预测结果。不论是训练机器学习模型，还是利用训练好的机器学习模型进行预测，数据都需要转换为包括各种特征的机器学习样本。机器学习可被实现为“有监督学习”、
ꢀ“
无监督学习”或“半监督学习”的形式，应注意，本发明的示例性实施例对具体的机器学习算法并不进行特定限制。此外，还应注意，在训练和应用模型的过程中，还可结合统计算法等其他手段。
[0029]
在本发明的示例性实施例中，第一实体识别模型可以对目标领域以外的领域的文本进行实体识别，第二实体识别模型可以对目标领域的文本进行实体识别，其中，第二实体识别模型是基于预先训练好的第一实体识别模型经过重构和重新训练后得到的。下面介绍本发明示例性实施例提供的实体识别方法的流程，该流程包括获得第二实体识别模型的过程、以及利用训练好的第二实体识别模型对目标领域的文本进行实体识别的过程。
[0030]
图1示出了本发明示例性实施例提供的实体识别方法的流程图。
[0031]
参见图1，在步骤s110，获取第一实体识别模型。
[0032]
这里，第一实体识别模型是基于目标领域之外的领域的实体识别训练数据预先训练好的、且第一实体识别模型包括语义理解层、映射层、序列标注层，映射层包括至少一个子映射层。
[0033]
可选地，第一实体识别模型可以是基于目标领域之外的一个领域的实体识别训练数据预先训练好的，也可以是基于目标领域之外的多个领域的实体识别训练数据预先训练好的。第一实体识别模型具体的训练过程将在后续内容中做示例性的介绍，应当理解，该第一实体识别模型能够对其实体识别训练数据所属领域的文本进行实体识别，且可以达到期望的准确率。
[0034]
作为示例，目标领域为科技领域，第一实体识别模型可以是基于影视领域的实体识别训练数据预先训练好的，并且该第一实体识别模型能够对影视领域的文本进行实体识别，且可以达到期望的准确率。
[0035]
可选地，语义理解层的类型可以包括bert(bidirectional encoderrepresentations from transformers)模型、mass(masked sequence to sequencepre-training)模型、mt-dnn(multi-task deep neural networks)模型和 unilm(unified pre-trained language model)模型等，但不限于此，第一实体识别模型中所应用的语义理解层的类型可以根据实际的需要而定。
[0036]
可选地，映射层可以包括一个子映射层，也可以包括多个子映射层。子映射层的类型可以包括linear层、lstm(long short-term memory)层、rnn (recurrent neural network)层和transform层。映射层所包括的子映射层的数量和类型可以根据实际的需要而定。
[0037]
可选地，序列标注层的类型可以包括crf(conditional random field) 模型、hmm(hidden markov model)和memm(maximum entropy markovmodel)等，但不限于此，第一实体识别模型中所应用的序列标注层的类型可以根据实际的需要而定。
[0038]
应当理解，第一实体识别模型可以是上述任一类型的语义理解层、映射层和序列标注层的组合。例如，第一实体识别模型的结构可以包括以下的形式：bert+linear+crf、mass+linear+crf、bert+linear+hmm、 bert+linear+linear+crf、bert+linear+lstm+crf、mass+linear+lstm+crf、 bert+linear+lstm+memm。当然，第一实体识别模型的结构形式不限于此。
[0039]
在步骤s120，对第一实体识别模型的映射层进行重构，得到第二实体识别模型。
[0040]
可选地，对映射层进行重构可以包括对映射层的子映射层的某个参数进行调整、对映射层中的子映射层的数量进行调整，但重构的方式不限于此。
[0041]
在此需要说明的是，执行步骤s120是，第一实体识别模型中的语义理解层和序列标注层的是不变的，例如，语义理解层和序列标注层的权重不变。
[0042]
在步骤s130，基于目标领域的实体识别训练数据训练第二实体识别模型。
[0043]
可以理解，第二实体识别模型的训练过程与第一实体识别模型的训练过程基本一致，第二实体识别模型具体的训练过程可以参考后续内容中介绍的第一实体识别模型的训练过程。
[0044]
在此需要说明的是，训练第一实体识别模型所使用的实体识别训练数据的数量，大于训练第二实体识别模型所使用的实体识别训练数据的数量。具体来说，在能够达到相近或相同的准确率的情况下，训练第二实体识别模型所使用的目标领域的实体识别训练数据的数量，可以小于训练第一实体识别模型所使用的目标领域之外的领域的实体识别训练数据的数量。
[0045]
在步骤s140，利用训练好的第二实体识别模型对目标领域的文本进行实体识别，输出实体识别结果。
[0046]
在第二实体识别模型训练完成之后，可以将目标领域的文本输入到第二实体识别模型，第二实体识别模型可以对目标领域的文本进行实体识别并输出实体识别结果。可选地，实体识别结果可以包括文本中至少一个实体在文本中的位置、该实体的类型和该实体的内容之中的至少一项。
[0047]
根据本发明示例性实施例提供的实体识别方法，对于基于目标领域之外的领域的实体识别数据预先训练好的第一实体识别模型的映射层重构，得到初始的第二实体识
别模型，以目标领域少量的训练数据来初始的第二实体识别模型，训练后的第二实体识别模型即可应用于目标领域的实体识别业务，且能够达到较高的精确度。上述针对目标领域的模型训练过程，可以基于较少的训练语料，较快的得到具有期望精确度的实体识别模型，可以显著地简化训练过程，降低成本。
[0048]
可选地，步骤s120的对第一实体识别模型的映射层进行重构的步骤包括：调整映射层中每个子映射层的权重和结构。
[0049]
作为示例，可以对映射层中各个子映射层的权重按照相同的方式进行调整。例如，调整映射层中每个子映射层的权重的步骤包括：将映射层中每个子映射层的权重进行初始化、或者将映射层中每个子映射层的权重按照预设的比例进行缩放，但不限于此。
[0050]
作为示例，可以对映射层中各个子映射层的权重分别按照不同的方式进行调整。例如，调整映射层中每个子映射层的权重的步骤包括：将映射层中一部分子映射层的权重进行初始化，将映射层中另一部分子映射层的权重按照预设的比例进行缩放，但不限于此。
[0051]
可选地，子映射层包括至少一个隐藏单元。作为示例，可以通过调整子映射层中隐藏单元的数量的方式来调整子映射层的结构，其中，子映射层中隐藏单元的数量可以根据训练第二实体识别模型所使用的实体识别训练数据的数量而定。
[0052]
可选地，步骤s120的对第一实体识别模型的映射层进行重构的步骤还可以包括：在映射层中，在原有子映射层的基础上新增至少一个子映射层。
[0053]
应当理解，新增的子映射层是权重调整后的子映射层。新增的子映射层的数量可以根据实际需要而定，可以在原有子映射层的基础上新增一个子映射层，也可以在原有子映射层的基础上新增多个子映射层。
[0054]
可选地，原有子映射层包括一个类型的子映射层，新增的子映射层的类型与原有子映射层的类型相同。
[0055]
例如，原有子映射层仅包括linear，每个新增的子映射层的为权重调整后的linear。
[0056]
作为示例，第一实体识别模型的结构形式为bert+linear+crf，将linear 的权重初始化之后，新增加一个权重初始化后的linear，第二实体识别模型的结构形式bert+linear+linear+crf。
[0057]
可选地，原有子映射层包括两个以上的不同类型的子映射层，每个新增的子映射层类型属于原有子映射层的类型集合。可以理解，每个新增的子映射层类型可以是原有子映射层的类型中的任意一种。
[0058]
例如，原有子映射层包括linear和lstm，新增的子映射层的类型可以包括权重调整后的linear和权重调整后的lstm之中至少一个。
[0059]
作为示例，第一实体识别模型的结构形式为bert+linear+lstm+crf，将 linear和lstm重初始化之后，新增加一个权重初始化后的linear，第二实体识别模型的结构形式bert+linear+linear+lstm+crf，或者新增加一个权重初始化后的linear和一个权重初始化后的lstm，第二实体识别模型的结构形式为 bert+linear+linear+lstm+lstm+crf。
[0060]
下面对第一实体识别模型具体的训练过程做示例性的介绍。
[0061]
为了便于表述，将目标领域之外的领域称为参照领域。训练第一实体识别模型所
使用的目标领域之外的领域的实体识别训练数据，为了获得训练第一实体识别模型的实体识别训练数据，首先对参照领域的每条语料中的内容进行数字化转换。
[0062]
以参照领域为影视领域的为例，该影视领域的一条语料包括：{"text":" 如何演好自己的角色，请读《演员自我修养》《喜剧之王》周星驰崛起于穷困潦倒之中的独门秘笈","entity_list":[{"entity_index":{"begin":21,"end":25}, "entity_type":"影视作品","entity":"喜剧之王"},{"entity_index":{"begin":26, "end":29},"entity_type":"人物","entity":"周星驰"}]}。
[0063]
在上述语料中，text为文本内容，entity_list为一个列表，该列表用以保存文本中所有标注的实体的信息。一个实体的信息包括实体在文本中的位置 (entity_index)、实体类型(entity_type)和实体内容(entity)。
[0064]
如前文所示，第一实体识别模型是基于目标领域之外的领域的实体识别训练数据预先训练好的，因此，目标领域之外的领域的实体识别训练数据，可以是通过将目标领域之外的至少一个领域的实体识别训练数据融合后得到的。当同一种实体的类型在不同领域的表述方式不一致时，将同一种实体的类型进行归一处理。例如，对于文本中的人名，在不同领域的类型可以分别被表述为“人物”、“人名”和“person name”，可以将文本中的人名的类型统一规定为“person name”。
[0065]
实体识别训练数据包括文本输入和标签输入，其中文本为语料中的文本内容，标签为语料中的实体。
[0066]
对语料中的文本内容进行数字化转换得到文本输入。具体地，在文本的开始位置加上[cls]，在文本的结尾位置加上[sep]，文本内容变为变成“[cls] 如何演好自己的角色，请读《演员自我修养》《喜剧之王》周星驰崛起于穷困潦倒之中的独门秘笈[sep]”。然后基于词表，将文本内容转换数字，例如“如
”ꢀ
这个字在词表中的第1064行，那么就会把“如”这个字映射成1064。上述文本内容可以基于词表转换成为[101,1964,863,4029,1963,5633,2347,4639, 6236,5683,8025,6436,6439,518,4029,1448,5633,2770,935,1076,519,518, 1600,1197,723,4375,519,1454,3216,7721,2308,6630,755,4957,1738,4058, 949,723,705,4639,4325,7306,4909,5008,102]。
[0067]
对语料中的实体进行数字化转换得到标签输入。标签输入采用b(begin) e(end)i(inter)o(other)格式进行处理，具体地，将“喜剧之王”这一实体转换为序列[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,2,2,3,0,0,0,0,0, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]，将“周星驰”这一实体转换为序列[0,0, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,2,3,0,0,0,0,0,0,0, 0,0,0,0,0,0,0,0,0,0]。
[0068]
在上述序列中，1代表begin，表示实体内容的开始部分；3代表end，表示实体的结束部分；2代表inter，表示实体的开始和结束之间的部分；0 代表other，表示文本中除了当前实体内容之外的其它内容。例如，上述的第一个序列中的“1”，“2”，“2”，“3”，分别代表“喜”，“剧”，“之”，“王”。第一个序列中的“0”代表文本中除了“喜剧之王”之外的其它内容。
[0069]
可以将上述得到的文本输入和标签输入作为第一实体识别模型的实体识别训练数据。在进行模型训练时，训练程序可以将所有的实体识别训练数据按照预设比例(如9:1)切分为训练集和测试集，利用训练集对第一实体识别模型进行训练，利用测试集测试第一实体识别模型的准确率。另外，可以根据需要设置相关的训练参数，例如，将文本中句子
最大长度设置为128，学习率设置为0.00001。
[0070]
在得到训练好的第一实体识别模型，对第一实体识别模型的映射层进行重构。作为示例，第一实体识别模型的结构形式为bert+linear+crf，在得到训练好的第一实体识别模型之后，将第一实体识别模型中的linear替换为 linear+linear，linear+linear中的每个linear的权重和结构均已做调整，第二实体识别模型的结构形式为bert+linear+linear+crf。
[0071]
在得到结构形式为bert+linear+linear+crf的第二实体识别模型之后，再基于目标领域的实体识别训练数据训练第二实体识别模型。
[0072]
可以理解，第二实体识别模型的训练过程与第一实体识别模型的训练过程基本一致，此处不再赘述。两个模型训练过程的区别在于，训练第一实体识别模型所使用的实体识别训练数据的数量，大于训练第二实体识别模型所使用的实体识别训练数据的数量。作为示例，使用10000条语料的实体识别训练数据来训练第一实体识别模型，使用几十条语料(例如20条)的实体识别训练数据来训练第二实体识别模型。
[0073]
在第二实体识别模型训练完成之后，利用训练好的第二实体识别模型对目标领域的文本进行实体识别，输出实体识别结果。
[0074]
具体地，将目标领域的文本输入到训练好的第二实体识别模型，第二实体识别模型可以对目标领域的文本进行实体识别并输出实体识别结果。以目标领域为科技领域为例，输入的科技领域的文本如下：{"text":“chomp创建于2010年，最初仅针对苹果app store商店开展业务，2011年又将其服务范围延伸至谷歌android平台。techcrunch称，chomp此前已获得250万美元资金援助，其天使投资人包括罗恩
·
康维(ron conway)等。美国社交新闻网站digg创始人凯文
·
罗斯(kevin rose)、美国演员阿什顿
·
库彻(ashton kutcher) 等人为chomp顾问。chomp目前员工量为20名左右，这些员工都将加盟苹果。对于苹果已收购chomp的报道，chomp拒加置评，苹果亦尚未就此发表评论。(来源：腾讯科技文：中涛)”}。
[0075]
输出的实体识别结果如下：{"text":"chomp创建于2010年，最初仅针对苹果app store商店开展业务，2011年又将其服务范围延伸至谷歌android 平台。techcrunch称，chomp此前已获得250万美元资金援助，其天使投资人包括罗恩
·
康维(ron conway)等。美国社交新闻网站digg创始人凯文
·
罗斯 (kevin rose)、美国演员阿什顿
·
库彻(ashton kutcher)等人为chomp顾问。 chomp目前员工量为20名左右，这些员工都将加盟苹果。对于苹果已收购 chomp的报道，chomp拒加置评，苹果亦尚未就此发表评论。(来源：腾讯科技文：中涛)\n","entity_list":[{"entity_index":{"begin":0,"end":5}, "entity_type":"company_name","entity":"chomp"},{"entity_index":{"begin": 8,"end":13},"entity_type":"time","entity":"2010年"},{"entity_index": {"begin":19,"end":30},"entity_type":"product_name","entity":"苹果appstore"},{"entity_index":{"begin":37,"end":42},"entity_type":"time","entity": "2011年"},{"entity_index":{"begin":53,"end":63},"entity_type": "product_name","entity":"谷歌android"},{"entity_index":{"begin":66,"end": 76},"entity_type":"person_name","entity":"techcrunch"},{"entity_index": {"begin":78,"end":83},"entity_type":"product_name","entity":"chomp"}, {"entity_index":{"begin":107,"end":
112},"entity_type":"person_name", "entity":"罗恩
·
康维"},{"entity_index":{"begin":113,"end":123}, "entity_type":"person_name","entity":"ron conway"},{"entity_index": {"begin":126,"end":128},"entity_type":"location","entity":"美国"}, {"entity_index":{"begin":134,"end":138},"entity_type":"product_name", "entity":"digg"},{"entity_index":{"begin":141,"end":146},"entity_type": "person_name","entity":"凯文
·
罗斯"},{"entity_index":{"begin":147,"end": 157},"entity_type":"person_name","entity":"kevin rose"},{"entity_index": {"begin":159,"end":161},"entity_type":"location","entity":"美国"}, {"entity_index":{"begin":163,"end":169},"entity_type":"person_name", "entity":"阿什顿
·
库彻"},{"entity_index":{"begin":170,"end":184}, "entity_type":"person_name","entity":"ashton kutcher"},{"entity_index": {"begin":188,"end":193},"entity_type":"company_name","entity":"chomp"}, {"entity_index":{"begin":196,"end":201},"entity_type":"company_name", "entity":"chomp"},{"entity_index":{"begin":221,"end":223},"entity_type": "company_name","entity":"苹果"},{"entity_index":{"begin":226,"end":228}, "entity_type":"company_name","entity":"苹果"},{"entity_index":{"begin": 231,"end":236},"entity_type":"company_name","entity":"chomp"}, {"entity_index":{"begin":240,"end":245},"entity_type":"company_name", "entity":"chomp"},{"entity_index":{"begin":250,"end":252},"entity_type": "company_name","entity":"苹果"},{"entity_index":{"begin":266,"end":270}, "entity_type":"product_name","entity":"腾讯科技"},{"entity_index":{"begin": 273,"end":275},"entity_type":"person_name","entity":"中涛"}]}。
[0076]
在上述输出结果中，text为文本内容，entity_list为一个列表，该列表用以保存文本中所有标注的实体的信息。一个实体的信息包括实体在文本中的位置(entity_index)、实体类型(entity_type)和实体内容(entity)。
[0077]
以{"entity_index":{"begin":19,"end":30},"entity_type":"product_name", "entity":"苹果app store"}这一实体信息为例，该实体在文本中的位置为第19 至第30个字节，该实体的类型为product_name(产品名称)，该实体的内容为“苹果app store”。
[0078]
为了测试本发明提供的第二实体识别模型的性能，本申请的发明人对第二实体识别模型和第三实体识别模型进行了对比试验，其中，第二实体识别模型是基于第一识别模型得到的(即，对第一实体识别模型的映射层进行重构后得到第二实体识别模型)，第三实体识别模型为基于常规的模型构造方法得到的。
[0079][0080][0081]
表1
[0082]
利用相同来源的相同数量(如20条)的实体识别训练数据对第二实体识别模型和第三实体识别模型进行训练，计算两个模型的f1分数(f1-score)，两个模型的f1分数情况参照表1。需要说明的是，f1分数是分类问题的一个衡量指标，它是精确率和召回率的调和平均数，f1分数最大为1，f1分数最小为0。f1分数越大，说明机器学习模型的精确率和召回率越高。
[0083]
在表1中可以看出，在使用20条实体识别训练数据对第二识别模型和第三识别模型进行训练的情况下，第二识别模型在每个领域都能够获得较高的 f1分数，并且，在同一领域下第二识别模型的f1分数均高于第三识别模型的f1分数。
[0084]
图2示出了本发明示例性实施例提供的实体识别系统的框图。
[0085]
参照图2，实体识别系统包括第一模型获取模块、第二模型获取模块、模型训练模块和实体识别模块。
[0086]
第一模型获取模块被配置为：获取第一实体识别模型，其中，第一实体识别模型是基于目标领域之外的领域的实体识别训练数据预先训练好的、且第一实体识别模型包括语义理解层、映射层、序列标注层，映射层包括至少一个子映射层。
[0087]
第二模型获取模块被配置为：对第一实体识别模型的映射层进行重构，得到第二实体识别模型。
[0088]
模型训练模块被配置为：基于目标领域的实体识别训练数据训练第二实体识别模型。
[0089]
实体识别模块被配置为：利用训练好的第二实体识别模型对目标领域的文本进行实体识别，输出实体识别结果。
[0090]
可选地，第二模型获取模块被配置为：调整映射层中每个子映射层的权重和结构。
[0091]
可选地，第二模型获取模块被配置为：将映射层中每个子映射层的权重进行初始化。
[0092]
可选地，第二模型获取模块被配置为：调整映射层中每个子映射层的隐藏单元的
数量。
[0093]
可选地，第二模型获取模块被配置为：在映射层中，在原有子映射层的基础上新增至少一个子映射层。
[0094]
可选地，原有子映射层包括两个以上的不同类型的子映射层；每个新增的子映射层类型属于原有子映射层的类型集合。
[0095]
可选地，目标领域之外的领域的实体识别训练数据，是通过将目标领域之外的至少一个领域的实体识别训练数据融合后得到的；第一模型获取模块被配置为：当同一种实体的类型在不同领域的表述方式不一致时，将同一种实体的类型进行归一处理。
[0096]
可选地，训练第一实体识别模型所使用的实体识别训练数据的数量，大于训练第二实体识别模型所使用的实体识别训练数据的数量。
[0097]
以上已参照图1至图2描述了根据本公开示例性实施例的实体识别方法和系统。
[0098]
根据本发明示例性实施例提供的实体识别方法和系统，对于基于目标领域之外的领域的实体识别数据预先训练好的第一实体识别模型的映射层重构，得到初始的第二实体识别模型，以目标领域少量的训练数据来初始的第二实体识别模型，训练后的第二实体识别模型即可应用于目标领域的实体识别业务，且能够达到较高的精确度。上述针对目标领域的模型训练过程，可以基于较少的训练语料，较快的得到具有期望精确度的实体识别模型，可以显著地简化训练过程，降低成本。
[0099]
图2所示出的实体识别系统中的各个单元可被配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如，各个单元可对应于专用的集成电路，也可对应于纯粹的软件代码，还可对应于软件与硬件相结合的模块。此外，各个单元所实现的一个或多个功能也可由物理实体设备(例如，处理器、客户端或服务器等)中的组件来统一执行。
[0100]
此外，参照图1所描述的实体识别方法可通过记录在计算机可读存储介质上的程序(或指令)来实现。例如，根据本公开的示例性实施例，可提供存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行根据本公开的实体识别方法。
[0101]
上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，应注意，计算机程序还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理，这些附加步骤和进一步处理的内容已经在参照图1进行相关方法的描述过程中提及，因此这里为了避免重复将不再进行赘述。
[0102]
应注意，根据本公开示例性实施例的实体识别系统中的各个单元可完全依赖计算机程序的运行来实现相应的功能，即，各个单元在计算机程序的功能架构中与各步骤相应，使得整个系统通过专门的软件包(例如，lib库)而被调用，以实现相应的功能。
[0103]
另一方面，图2所示的各个单元也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时，用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中，使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。
[0104]
例如，本公开的示例性实施例还可以实现为计算装置，该计算装置包括存储部件和处理器，存储部件中存储有计算机可执行指令集合，当计算机可执行指令集合被处理器
执行时，执行根据本公开的示例性实施例的实体识别方法。
[0105]
具体说来，计算装置可以部署在服务器或客户端中，也可以部署在分布式网络环境中的节点装置上。此外，计算装置可以是pc计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。
[0106]
这里，计算装置并非必须是单个的计算装置，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。计算装置还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子装置。
[0107]
在计算装置中，处理器可包括中央处理器(cpu)、图形处理器(gpu)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
[0108]
根据本公开示例性实施例的实体识别方法中所描述的某些操作可通过软件方式来实现，某些操作可通过硬件方式来实现，此外，还可通过软硬件结合的方式来实现这些操作。
[0109]
处理器可运行存储在存储部件之一中的指令或代码，其中，存储部件还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。
[0110]
存储部件可与处理器集成为一体，例如，将ram或闪存布置在集成电路微处理器等之内。此外，存储部件可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储部件和处理器可在操作上进行耦合，或者可例如通过i/o端口、网络连接等互相通信，使得处理器能够读取存储在存储部件中的文件。
[0111]
此外，计算装置还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。计算装置的所有组件可经由总线和/或网络而彼此连接。
[0112]
根据本公开示例性实施例的实体识别方法可被描述为各种互联或耦合的功能块或功能示图。然而，这些功能块或功能示图可被均等地集成为单个的逻辑装置或按照非确切的边界进行操作。
[0113]
因此，参照图1所描述的实体识别方法可通过包括至少一个计算装置和至少一个存储指令的存储装置的系统来实现。
[0114]
根据本公开的示例性实施例，至少一个计算装置是根据本公开示例性实施例的用于执行实体识别方法的计算装置，存储装置中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个计算装置执行时，执行参照图1所描述的实体识别方法。
[0115]
以上描述了本公开的各示例性实施例，应理解，上述描述仅是示例性的，并非穷尽性的，本公开不限于所披露的各示例性实施例。在不偏离本公开的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此，本公开的保护范围应该以权利要求的范围为准。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李国才;谢佳雨;陈伟
技术所有人：第四范式（北京）技术有限公司
我是此专利的发明人

上一篇：一种应用于纳米级研磨的智能上料系统的制作方法
上一篇：一种分流拉伸螺杆元件及其螺杆组合的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。