一种实体识别方法、模型训练方法及装置与流程

文档序号:28860796发布日期:2022-02-12 00:36阅读:88来源:国知局
一种实体识别方法、模型训练方法及装置与流程

1.本技术涉及计算机技术的人工智能领域,特别涉及一种实体识别方法。本技术同时涉及一种实体识别模型训练方法、一种实体识别装置、一种实体识别模型训练装置、一种计算设备,以及一种计算机可读存储介质。


背景技术:

2.人工智能(ai,artificial intelligence)是指已工程化(即设计并制造)的系统感知环境的能力,以及获取、处理、应用和表示知识的能力。人工智能领域关键技术的发展状况,包括机器学习、知识图谱、自然语言处理、计算机视觉、人机交互、生物特征识别、虚拟现实/增强现实等关键技术。自然语言处理(natural language processing)是指用计算机对自然语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
3.实体识别又称作命名实体识别(ner,named entity recognition),是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。当前,ner是语言分析中数量最多、识别难度最大的任务,同时,ner也是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理(nlp,natural language processing)技术必不可少的组成部分。
4.深度学习(deep learning)是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。在当前的ner任务中,通常采用深度学习方法,具体是将待识别文本输入预先训练得到的实体识别模型,经实体识别模型的运算,得到待识别文本的实体识别结果。实体识别模型由双向编码表征(bert,bidirectional encoder representations from transformers)模型、长短期记忆(lstm,long short-term memory)模型和条件随机场(crf,conditional random field)层组成。bert模型是利用注意力(attention)机制来实现预训练或再训练任务的模型结构,在语法和语义层面上具有较强的理解能力,对于短实体具有较高的识别准确度。
5.然而,由于bert模型仅在语法和语义层面上有较强的理解能力,对于长实体而言,识别精度会有所下降,例如,针对长实体“加利福尼亚州斯坦福大学”,易被识别为组织(org,organization)实体,但实际应该被识别为位置(loc,location)实体“加利福尼亚州”与org实体“斯坦福大学”。因此,如何提高长实体的识别精度,成为亟待解决的技术问题。


技术实现要素:

6.有鉴于此,本技术实施例提供了一种实体识别方法,以解决现有技术中存在的技术缺陷。本技术实施例同时提供了一种实体识别模型训练方法、一种实体识别装置、一种实体识别模型训练装置、一种计算设备,以及一种计算机可读存储介质。
7.根据本技术实施例的第一方面,提供了一种实体识别方法,包括:
8.获取待识别文本及预先训练的实体识别模型,其中,实体识别模型包括第一子模型、第二子模型、第三子模型和分类层,第一子模型为基于深度学习的语言模型,第二子模型为词法关联模型,第三子模型为双向的隐藏状态提取模型;
9.将待识别文本分别输入第一子模型和第二子模型,得到第一词特征向量和第二词特征向量;
10.将第一词特征向量和第二词特征向量输入第三子模型,经第三子模型的双向隐藏状态提取,得到多个第一隐藏状态和多个第二隐藏状态;
11.将多个第一隐藏状态和多个第二隐藏状态进行拼接,得到拼接后的隐藏状态;
12.将拼接后的隐藏状态输入分类层,经分类层的分类识别,得到待识别文本的实体识别结果。
13.根据本技术实施例的第二方面,提供了一种实体识别模型训练方法,包括:
14.获取训练集和初始的网络模型,其中,训练集包括多个训练文本,各训练文本携带有实体标注信息,网络模型包括第一子模型、第二子模型、第三子模型和分类层,第一子模型为基于深度学习的语言模型,第二子模型为词法关联模型,第三子模型为双向的隐藏状态提取模型;
15.从训练集中提取训练文本,并将训练文本分别输入第一子模型和第二子模型,得到第一词特征向量和第二词特征向量;
16.将第一词特征向量和第二词特征向量输入第三子模型,经第三子模型的双向隐藏状态提取,得到多个第一隐藏状态和多个第二隐藏状态;
17.将多个第一隐藏状态和多个第二隐藏状态进行拼接,得到拼接后的隐藏状态;
18.将拼接后的隐藏状态输入分类层,经分类层的分类识别,得到训练文本的实体预测结果;
19.对比实体预测结果与训练文本携带的实体标注信息,得到差异值;
20.若差异值大于预设阈值,则调整第一子模型、第二子模型、第三子模型和分类层的模型参数,并返回执行从训练集中提取训练文本的步骤,直至达到训练停止条件,停止训练,确定完成训练的网络模型为实体识别模型。
21.根据本技术实施例的第三方面,提供了一种实体识别装置,包括:
22.第一获取模块,被配置为获取待识别文本及预先训练的实体识别模型,其中,实体识别模型包括第一子模型、第二子模型、第三子模型和分类层,第一子模型为基于深度学习的语言模型,第二子模型为词法关联模型,第三子模型为双向的隐藏状态提取模型;
23.第一语言分析模块,被配置为将待识别文本分别输入第一子模型和第二子模型,得到第一词特征向量和第二词特征向量;
24.第一隐藏状态提取模块,被配置为将第一词特征向量和第二词特征向量输入第三子模型,经第三子模型的双向隐藏状态提取,得到多个第一隐藏状态和多个第二隐藏状态;
25.第一拼接模块,被配置为将多个第一隐藏状态和多个第二隐藏状态进行拼接,得到拼接后的隐藏状态;
26.识别模块,被配置为将拼接后的隐藏状态输入分类层,经分类层的分类识别,得到待识别文本的实体识别结果。
27.根据本技术实施例的第四方面,提供了一种实体识别模型训练装置,包括:
28.第二获取模块,被配置为获取训练集和初始的网络模型,其中,训练集包括多个训练文本,各训练文本携带有实体标注信息,网络模型包括第一子模型、第二子模型、第三子模型和分类层,第一子模型为基于深度学习的语言模型,第二子模型为词法关联模型,第三子模型为双向的隐藏状态提取模型;
29.第二语言分析模块,被配置为从训练集中提取训练文本,并将训练文本分别输入第一子模型和第二子模型,得到第一词特征向量和第二词特征向量;
30.第二隐藏状态提取模块,被配置为将第一词特征向量和第二词特征向量输入第三子模型,经第三子模型的双向隐藏状态提取,得到多个第一隐藏状态和多个第二隐藏状态;
31.第二拼接模块,被配置为将多个第一隐藏状态和多个第二隐藏状态进行拼接,得到拼接后的隐藏状态;
32.预测模块,被配置为将拼接后的隐藏状态输入分类层,经分类层的分类识别,得到训练文本的实体预测结果;
33.对比模块,被配置为对比实体预测结果与训练文本携带的实体标注信息,得到差异值;
34.调整模块,被配置为若差异值大于预设阈值,则调整第一子模型、第二子模型、第三子模型和分类层的模型参数,并返回执行从训练集中提取训练文本的步骤,直至达到训练停止条件,停止训练,确定完成训练的网络模型为实体识别模型。
35.根据本技术实施例的第五方面,提供了一种计算设备,包括:存储器和处理器;
36.存储器用于存储计算机可执行指令,处理器用于执行计算机可执行指令实现本技术实施例的第一方面或第二方面所提供方法的步骤。
37.根据本技术实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现本技术实施例的第一方面或第二方面所提供方法的步骤。
38.本技术提供的实体识别方法,通过获取待识别文本及预先训练的实体识别模型,将待识别文本分别输入实体识别模型的第一子模型和第二子模型,得到第一词特征向量和第二词特征向量,然后将第一词特征向量和第二词特征向量输入实体识别模型的第三子模型,经第三子模型的双向隐藏状态提取,得到多个第一隐藏状态和多个第二隐藏状态,再将多个第一隐藏状态和多个第二隐藏状态进行拼接,得到拼接后的隐藏状态,将拼接后的隐藏状态输入实体识别模型的分类层,经分类层的分类识别,得到待识别文本的实体识别结果。
39.第一子模型为基于深度学习的语言模型,在语法和语义层面上有较强的理解能力,第二子模型为词法关联模型,在词法上具有较强的调和能力,将第一子模型和第二子模型的输出结果作为第三子模型的共同输入,经第三子模型的双向隐藏状态提取,以及隐藏状态拼接,使得输入分类层的隐藏状态不仅在语法和语义层面上有较强的理解能力,同时在词法上具有较强的调和能力。因此,在进行实体识别时,既可以从语法语义上进行实体识别,又可以从词法上进行实体识别,从而提高了长实体的识别精度。
附图说明
40.图1是本技术一实施例提供的一种实体识别方法的流程图;
41.图2是本技术一实施例提供的第三子模型的传递处理流程图;
42.图3是本技术一实施例提供的一种实体识别方法的处理流程图;
43.图4是本技术一实施例提供的一种实体识别模型训练方法的流程示意图;
44.图5是本技术一实施例提供的一种实体识别装置的结构示意图;
45.图6是本技术一实施例提供的一种实体识别模型训练装置的结构示意图;
46.图7是本技术一实施例提供的一种计算设备的结构框图。
具体实施方式
47.在下面的描述中阐述了很多具体细节以便于充分理解本技术。但是本技术能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本技术内涵的情况下做类似推广,因此本技术不受下面公开的具体实施的限制。
48.在本技术一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本技术一个或多个实施例。在本技术一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本技术一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
49.应当理解,尽管在本技术一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本技术一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。
50.首先,对本发明一个或多个实施例涉及的名词术语进行解释。
51.ner:根据模型推理出输入文本中存在的各类词语的技术,这里的词语可以是名词、动词等,而一般情况下,ner技术的输出结果为具有特定意义的表征实体的词语。并且,ner技术的输出结果可以是中文词语、英文词语等各种语言的词语。
52.crf:通过约束的形式,提升最终预测标签的准确性,这些crf约束是可以通过训练数据通过的crf层自动学习到的。
53.bert:利用attention机制来实现预训练或再训练任务的模型结构。
54.lstm:用来解决长序列训练过程中梯度爆炸和梯度消失的问题。
55.字到向量(word2vec,word to vector)模型:利用给定的输入文本来预测上下文的模型。
56.lstm输出门控:输出的内容是当前隐藏层的状态信息,由门控结构(包括遗忘门、输入门和输出门)来控制当前状态有多少对外可见。
57.在本技术中,提供了一种实体识别方法。本技术同时涉及一种实体识别模型训练方法、一种实体识别装置、一种实体识别模型训练装置、一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
58.图1示出了根据本技术一实施例提供的一种实体识别方法的流程图,具体包括以下步骤:
59.步骤s102:获取待识别文本及预先训练的实体识别模型,其中,实体识别模型包括第一子模型、第二子模型、第三子模型和分类层,第一子模型为基于深度学习的语言模型,
第二子模型为词法关联模型,第三子模型为双向的隐藏状态提取模型。
60.本技术实施例中,实体识别方法的执行主体可以是手机、便携式计算机、个人计算机等可执行实体识别功能的智能设备。
61.待识别文本为需要进行实体识别的文本,也可以称之为语料,可以是一句话、一段话或者一篇文章,为了保证识别精度,通常情况下,待识别文本为一句话。待识别文本可以是用户在上述智能设备上手动输入的,也可以是上述智能设备从数据库中获取的。实体识别模型是一种预先训练好的端到端的深度学习模型,将获取的待识别文本输入实体识别模型,经实体识别模型的内部运算,可以直接得到待识别文本的实体识别结果,实体识别结果包括待识别文本中可以被识别出来的所有实体。
62.本技术实施例中,实体识别模型包括第一子模型、第二子模型、第三子模型和分类层。第一子模型为基于深度学习的语言模型,在语法和语义层面上有较强的理解能力,例如可以是bert模型、roberta模型、albert模型等;第二子模型为词法关联模型,例如可以是word2vec等在词法上具有较强调和能力的模型;第三子模型为双向的隐藏状态提取模型,例如可以是双向lstm等具有双向提取隐藏状态功能的模型;分类层可以是具有分类功能的网络层,例如可以是基于概率分布结果的crf层等。
63.在本技术实施例的一种实现方式中,第一子模型为在语法和语义层面上有较强理解能力的基于深度学习的语言模型,而bert模型可以做到并发执行,同时提取各词语在文本中的关系特征,并且能在多个不同层次提取关系特征,进而更全面反映文本语义,因此第一子模型选择为bert模型;第二子模型为语法关联模型,而word2vec模型在进行语法关联时会考虑上下文、维度较少,因此为了保证语法关联的效果、处理速度更快,第二子模型选择为word2vec模型;第三子模型为双向的隐藏状态提取模型,而双向lstm模型作为典型的双向隐藏状态提取模型,具有方便序列建模、长期记忆功能,因此第三子模型选择为双向lstm模型;分类层是具有分类功能的网络层,而在选择双向lstm模型后,一般会选择crf层作为分类层,crf层可以为最后预测的标签添加一些约束来保证预测的标签是合法的,在训练数据过程中,这些约束可以通过crf层自动学习得到,为了提高分类精度,分类层选择为crf层。
64.当然,基于传统的神经网络模型,在crf层之前还可以设置softmax层,softmax层设置有softmax函数(又称作归一化指数函数),softmax是二分类函数sigmoid在多分类上的推广,目的是将多分类的结果以概率的形式展示出来,以给crf层提供概率输入。具体的softmax函数的计算过程为本领域公知的,这里不再赘述。crf结合了最大熵模型和隐马尔可夫模型的特点,是一种无向图模型,近年来在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果。crf是一个典型的判别式模型,其联合概率可以写成若干势函数联乘的形式,其中最常用的是线性链条件随机场。
65.实体识别模型是预先训练好的,具体的训练过程可以是上述智能设备自己执行的,也可以是其他具有模型训练功能的计算设备执行的。作为本技术实施例的一种实现方式,上述智能设备自己执行实体识别模型的训练过程如下:
66.第一步,获取训练集和初始的网络模型,其中,训练集包括多个训练文本,各训练文本携带有实体标注信息,网络模型包括第一子模型、第二子模型、第三子模型和分类层,第一子模型为基于深度学习的语言模型,第二子模型为词法关联模型,第三子模型为双向
的隐藏状态提取模型。
67.在进行实体识别模型训练时,需要先获取包括海量训练文本的训练集,一般情况下,获取训练集的方式可以是接收人工输入的海量训练文本组成训练集,也可以是从其他数据获取设备或者数据库中读取海量训练文本组成训练集。
68.所获取的训练集中训练文本一般已由人工进行了标注,具体标注的信息为训练文本中的实体,即训练集中训练文本携带有实体标注信息,其中,训练文本可以是一句话、一个短句、一段文字、一篇文章等,例如,训练文本为“a大桥的总设计师是张某某”,则该训练文本的实体标注信息可以包括“a大桥”和“张某某”。
69.初始的网络模型可以是由人工选择的第一子模型、第二子模型、第三子模型和分类层组成。
70.第二步,从训练集中提取训练文本,并将训练文本分别输入第一子模型和第二子模型,得到第一词特征向量和第二词特征向量。
71.在进行训练时,可以从训练集中任意提取一个训练文本,将该训练文本输入网络模型进行一次训练迭代。
72.第三步,将第一词特征向量和第二词特征向量输入第三子模型,经第三子模型的双向隐藏状态提取,得到多个第一隐藏状态和多个第二隐藏状态。
73.第四步,将多个第一隐藏状态和多个第二隐藏状态进行拼接,得到拼接后的隐藏状态。
74.拼接的方式可以是每次提取1个第一隐藏状态和1个第二隐藏状态,就将这两个隐藏状态按照提取的先后顺序接在一起,也可以提取完所有的第一隐藏状态和第二隐藏状态后,再将这些隐藏状态按照提取的先后顺序接在一起。第一隐藏状态和第二隐藏状态可以是单个数据的形式也可以是向量的形式,则拼接的方式可以是将多个数据先后排在一起,组成一个向量,也可以是把多个向量先后排在一起,组成一个矩阵。
75.第五步,将拼接后的隐藏状态输入分类层,经分类层的分类识别,得到训练文本的实体预测结果。
76.第六步,对比实体预测结果与训练文本携带的实体标注信息,得到差异值。
77.第七步,若差异值大于预设阈值,则调整第一子模型、第二子模型、第三子模型和分类层的模型参数,并返回执行第二步至第七步,直至达到训练停止条件,停止训练,确定完成训练的网络模型为实体识别模型。其中,训练停止条件为:差异值小于或等于预设阈值,或者循环迭代的次数达到预定次数。
78.实体识别模型的训练过程将在后续训练实施例中详细介绍,这里暂不做详述。
79.步骤s104:将待识别文本分别输入第一子模型和第二子模型,得到第一词特征向量和第二词特征向量。
80.将获取到的待识别文本分别输入第一子模型和第二子模型,第一子模型是基于深度学习的语言模型,输出的是基于语法和语义的第一词特征向量,第二子模型是词法关联模型,输出的是基于词法的第二词特征向量。
81.步骤s106:将第一词特征向量和第二词特征向量输入第三子模型,经第三子模型的双向隐藏状态提取,得到多个第一隐藏状态和多个第二隐藏状态。
82.在经第一子模型和第二子模型得到第一词特征向量和第二词特征向量后,将第一
词特征向量和第二词特征向量输入第三子模型,第三子模型是双向的隐藏状态提取模型,对于输入的词特征向量可以提取出多个隐藏状态。双向的隐藏状态提取模型和单向的隐藏状态提取模型的区别在于:单向的隐藏状态提取模型只能够单方向的进行传递,也就是按照从前往后的顺序依次提取隐藏状态,而双向的隐藏状态提取模型能够双向的进行传递,也就是按照从前往后和从后往前的顺序依次提取隐藏状态。对于本技术实施例而言,为了综合第一子模型和第二子模型的功能,需要对第一子模型和第二子模型输出的第一词特征向量和第二词特征向量分别进行隐藏状态的提取,再进行融合,因此,本技术实施例中选用双向的隐藏状态提取模型进行隐藏状态的提取。针对第一词特征向量,按照从前往后的顺序依次提取隐藏状态,针对第二词特征向量,按照从后往前的顺序依次提取隐藏状态;或者,针对第一词特征向量,按照从后往前的顺序依次提取隐藏状态,针对第二词特征向量,按照从前往后的顺序依次提取隐藏状态。这样,可以提取到多个第一隐藏状态和多个第二隐藏状态。
83.在本技术实施例的一种实现方式中,第三子模型包括多个隐藏层。相应的,s106具体可以通过如下步骤实现:将第一词特征向量输入第三子模型,经第三子模型中各隐藏层从前往后的顺序分别提取隐藏状态,得到多个第一隐藏状态;将第二词特征向量输入第三子模型,经第三子模型中各隐藏层从后往前的顺序分别提取隐藏状态,得到多个第二隐藏状态。
84.上述对第一词特征向量进行隐藏状态提取和对第二词特征向量进行隐藏状态提取的步骤可以同步进行,也可以分步进行,这里不做具体限定。作为一种更优的实现方式,针对两个词特征向量进行隐藏状态提取的步骤为同步进行的,也就是针对第一词特征向量和第二词特征向量,同步地提取每一个隐藏状态,也就是说,在提取隐藏状态时,需要设置同步化锁止操作,即在同步提取隐藏状态后,需要对一次提取的隐藏状态进行完操作之后,才会同步进行下一个隐藏状态的提取。
85.在本技术实施例中,第三子模型包括多个隐藏层,每个隐藏层都用来提取隐藏状态,在第三子模型中分为前向通道和反向通道,每个通道中包括多个隐藏层,前向通道中的隐藏层和反向通道中的隐藏层可以相同也可以不同,第三子模型的传递方式如图2所示,其中a0、a1、a2、

、a
n-1
为前向通道的隐藏层,a0’


、a
n-2’、a
n-1’为反向通道的隐藏层,s为第一词特征向量、s’为第二词特征向量,h0、h1、h2、

、h
n-1
为第一隐藏状态,h0’
、h1’
、h2’


、h
n-1’为第二隐藏状态。可见,正向通道上,hi与h
i-1
有关;反向通道上,h
i’与h
i+1’有关。
86.在本技术实施例的一种实现方式中,将第一词特征向量输入第三子模型,经第三子模型中各隐藏层从前往后的顺序分别提取隐藏状态,得到多个第一隐藏状态的步骤,具体可以通过如下步骤实现:
87.按照第三子模型中各隐藏层从前往后的顺序,将第一词特征向量输入第1个隐藏层,经第1个隐藏层的计算,得到第1个第一隐藏状态;
88.将第1个第一隐藏状态输入第2个隐藏层,经第2个隐藏层的计算,得到第2个第一隐藏状态;
89.对第i个隐藏层之前已计算出的预设数目个第一隐藏状态进行加权运算,得到加权结果,并将加权结果输入第i个隐藏层,经第i个隐藏层的计算,得到第i个第一隐藏状态,其中,i为大于2、且小于或等于n的正整数,n为第三子模型中隐藏层的总个数。
90.在实际提取隐藏状态时,第1个隐藏层是直接基于第一词特征向量提取的第一隐藏状态,提取的方式可以是利用函数计算的方式进行提取,例如f(s),f(s)即为隐藏状态提取函数,得到的是第1个第一隐藏状态h1;第2个隐藏层可以基于第1个隐藏层的输出,即f(s)再提取隐藏状态,提取的方式同样是利用函数计算的方式进行提取,即f(h1);为了保证模型对长文本语义的连续理解能力,从第3个隐藏层开始,不应仅考虑前一个隐藏层的输出,而应该综合考虑前面几个隐藏层的输出,即需要对第i个隐藏层之前已计算出的预设数目个第一隐藏状态进行加权运算,得到加权结果,这里的加权运算可以是直接计算平均值,也可以分配不同的权重。在实际应用中,由于距离越近的隐藏层对当前隐藏层的影响越大,则应该按照距离的远近来分配权重,距离越近,分配的权重越大,预设数目可以根据文本长度进行设置,文本越长,设置的预设数目可以越大,并且,根据当前隐藏层的层数,预设数目也可以动态调整,一般情况下,预设数目为大于或等于2的整数。例如,第3个隐藏层对应预设数目设置为2、第4个隐藏层对应预设数目设置为3等。以预设数目均设置为2为例,可以分配更近的一个隐藏层的输出的权重为0.8、另一个权重设置为0.2,则当前第i个隐藏层输出的第i个第一隐藏状态为:hi=f(0.8*f(h
i-1
)+0.2*f(h
i-2
))。
91.在本技术实施例的一种实现方式中,将第二词特征向量输入第三子模型,经第三子模型中各隐藏层从后往前的顺序分别提取隐藏状态,得到多个第二隐藏状态的步骤,具体可以通过如下步骤实现:
92.按照第三子模型中各隐藏层从后往前的顺序,将第二词特征向量输入第n个隐藏层,经第n个隐藏层的计算,得到第1个第二隐藏状态,其中,第n个隐藏层为第三子模型中的最后一个隐藏层;
93.将第1个第二隐藏状态输入第n-1个隐藏层,经第n-1个隐藏层的计算,得到第2个第二隐藏状态;
94.对第j个隐藏层之后已计算出的预设数目个第二隐藏状态进行加权运算,得到加权结果,并将加权结果输入第j个隐藏层,经第j个隐藏层的计算,得到第n-(j-1)个第二隐藏状态,其中,j为大于或等于1、且小于n-1的正整数。
95.在实际提取隐藏状态时,第n个隐藏层是直接基于第二词特征向量提取的第二隐藏状态,提取的方式可以是利用函数计算的方式进行提取,例如f(s’),f(s’)即为隐藏状态提取函数,得到的是第n个第二隐藏状态h1’
;第n-1个隐藏层可以基于第n个隐藏层的输出,即f(s’)再提取隐藏状态,提取的方式同样是利用函数计算的方式进行提取,即f(h1’
);为了保证模型对长文本语义的连续理解能力,从第n-2个隐藏层开始,不应仅考虑后一个隐藏层的输出,而应该综合考虑后面几个隐藏层的输出,即需要对第j个隐藏层之后已计算出的预设数目个第二隐藏状态进行加权运算,得到加权结果,这里的加权运算可以是直接计算平均值,也可以分配不同的权重。在实际应用中,由于距离越近的隐藏层对当前隐藏层的影响越大,则应该按照距离的远近来分配权重,距离越近,分配的权重越大,预设数目可以根据文本长度进行设置,文本越长,设置的预设数目可以越大,并且,根据当前隐藏层的层数,预设数目也可以动态调整,一般情况下,预设数目为大于或等于2的整数。例如,第n-2个隐藏层对应预设数目设置为2、第n-3个隐藏层对应预设数目设置为3等。以预设数目均设置为2为例,可以分配更近的一个隐藏层的输出的权重为0.8、另一个权重设置为0.2,则当前第j个隐藏层输出的第n-(j-1)个第二隐藏状态为:hj'=f(0.8*f(h
j-1
')+0.2*f(h
j-2
'))。
96.步骤s108:将多个第一隐藏状态和多个第二隐藏状态进行拼接,得到拼接后的隐藏状态。
97.针对提取的多个第一隐藏状态和多个第二隐藏状态,需要进行拼接操作,拼接的方式可以是每次提取1个第一隐藏状态和1个第二隐藏状态,就将这两个隐藏状态接在一起,也可以提取完所有的第一隐藏状态和第二隐藏状态后,再将这些隐藏状态接在一起。
98.在本技术实施例的一种实现方式中,s108具体可以通过如下步骤实现:按照第一隐藏状态和第二隐藏状态的提取顺序,将同一顺序提取的第二隐藏状态拼接在第一隐藏状态之后,得到多个拼接后的隐藏状态。
99.在本技术实施例更优的一种实现方式中,第一隐藏状态的提取和第二隐藏状态的提取是同步进行的,也就是在提取第1个第一隐藏状态的同时提取第1个第二隐藏状态,然后将第1个第二隐藏状态直接接在第1个第一隐藏状态之后,组成拼接后的第1个隐藏状态,同理,在提取第i个第一隐藏状态的同时提取第i个第二隐藏状态,然后将第i个第二隐藏状态直接接在第i个第一隐藏状态之后,组成拼接后的第i个隐藏状态。
100.步骤s110:将拼接后的隐藏状态输入分类层,经分类层的分类识别,得到待识别文本的实体识别结果。
101.分类层是一个基于概率分布结果的分类层,可以对文本中的词进行分类,并得到词在该类下的概率,概率的高低表征了分类识别的准确度,分类层采用crf层,使得概率大的更大,则识别结果越准,保证识别精度。通过分类层的分类识别即可得到待识别文本的实体识别结果。
102.应用本技术实施例,通过获取待识别文本及预先训练的实体识别模型,将待识别文本分别输入实体识别模型的第一子模型和第二子模型,得到第一词特征向量和第二词特征向量,然后将第一词特征向量和第二词特征向量输入实体识别模型的第三子模型,经第三子模型的双向隐藏状态提取,得到多个第一隐藏状态和多个第二隐藏状态,再将多个第一隐藏状态和多个第二隐藏状态进行拼接,得到拼接后的隐藏状态,将拼接后的隐藏状态输入实体识别模型的分类层,经分类层的分类识别,得到待识别文本的实体识别结果。第一子模型为基于深度学习的语言模型,在语法和语义层面上有较强的理解能力,第二子模型为词法关联模型,在词法上具有较强的调和能力,将第一子模型和第二子模型的输出结果作为第三子模型的共同输入,经第三子模型的双向隐藏状态提取,以及隐藏状态拼接,使得输入分类层的隐藏状态不仅在语法和语义层面上有较强的理解能力,同时在词法上具有较强的调和能力。因此,在进行实体识别时,既可以从语法语义上进行实体识别,又可以从词法上进行实体识别,从而提高了长实体的识别精度。
103.为了便于理解,下面结合具体实例,对本技术提供的实体识别方法进行介绍,图3示出了本技术一实施例提供的一种实体识别方法的处理流程图,具体包括以下步骤:
104.第一步,将获取的语料分别输入bert模型和word2vec模型。
105.第二步,将bert模型的输出结果输入到双向lstm的左模型(上述实施例中的前向通道),经左模型的lstml0、lstml1、lstml2等隐藏层提取隐藏状态h0’、h1’、h2’等;将word2vec模型的输出结果输入到双向lstm的右模型(上述实施例中的反向通道),经右模型的lstmr0、lstmr1、lstm r2等隐藏层提取隐藏状态h0”、h1”、h2”等。
106.其中,h2'=f(0.8*f(h1')+0.2*f(h0')),h2

=f(0.8*f(h0

)+0.2*f(h1

))。
107.第三步,在进行隐藏状态提取时,例如提取h0’和h0”时做同步化锁止,对h0’和h0”做拼接,拼接得到h0之后,才会继续下一个隐藏状态的运算。
108.第四步,将拼接后的h0、h1和h2,输入到softmax层中进行归一化指数函数的计算,得到归一化后的概率数据。
109.第五步,将归一化后的概率数据输入crf层,由crf层基于概率分布结果进行分类,得到最终的实体识别结果。
110.本实施例中,根据bert模型和word2vec模型的输出结果作为双向lstm模型的共同输入,同时继承了bert模型在语法和语义层面上的模型理解能力和word2vec在词法上的调和能力。另外,本实施例根据对双向lstm模型多个计算节点(每提取一次隐藏状态称为一个计算节点)的计算进行动态优化,即考虑该计算节点之前的两个计算节点的计算结果,实现了模型对长文本语义的连续理解力。
111.图4示出了本技术一实施例提供的一种实体识别模型训练方法的流程示意图,该方法具体包括如下步骤。
112.步骤s402,获取训练集和初始的网络模型,其中,训练集包括多个训练文本,各训练文本携带有实体标注信息,网络模型包括第一子模型、第二子模型、第三子模型和分类层,第一子模型为基于深度学习的语言模型,第二子模型为词法关联模型,第三子模型为双向的隐藏状态提取模型。
113.在进行实体识别模型训练时,需要先获取包括海量训练文本的训练集,一般情况下,获取训练集的方式可以是接收人工输入的海量训练文本组成训练集,也可以是从其他数据获取设备或者数据库中读取海量训练文本组成训练集。
114.所获取的训练集中训练文本一般已由人工进行了标注,具体标注的信息为训练文本中的实体,即训练集中训练文本携带有实体标注信息,其中,训练文本可以是一句话、一个短句、一段文字、一篇文章等,例如,训练文本为“a大桥的总设计师是张某某”,则该训练文本的实体标注信息可以包括“a大桥”和“张某某”。
115.初始的网络模型可以是由人工选择的第一子模型、第二子模型、第三子模型和分类层组成。第一子模型为基于深度学习的语言模型,在语法和语义层面上有较强的理解能力,例如可以是bert模型、roberta模型、albert模型等;第二子模型为词法关联模型,例如可以是word2vec等在词法上具有较强调和能力的模型;第三子模型为双向的隐藏状态提取模型,例如可以是双向lstm等具有双向提取隐藏状态功能的模型;分类层可以是具有分类功能的网络层,例如可以是基于概率分布结果的crf层等。
116.步骤s404,从训练集中提取训练文本,并将训练文本分别输入第一子模型和第二子模型,得到第一词特征向量和第二词特征向量。
117.在进行训练时,可以从训练集中任意提取一个训练文本,将该训练文本输入网络模型进行一次训练迭代。将提取的训练文本分别输入第一子模型和第二子模型,第一子模型是基于深度学习的语言模型,输出的是基于语法和语义的第一词特征向量,第二子模型是词法关联模型,输出的是基于词法的第二词特征向量。
118.步骤s406,将第一词特征向量和第二词特征向量输入第三子模型,经第三子模型的双向隐藏状态提取,得到多个第一隐藏状态和多个第二隐藏状态。
119.在经第一子模型和第二子模型得到第一词特征向量和第二词特征向量后,将第一
词特征向量和第二词特征向量输入第三子模型,第三子模型是双向的隐藏状态提取模型,对于输入的词特征向量可以提取出多个隐藏状态。对于本技术实施例而言,为了综合第一子模型和第二子模型的功能,需要对第一子模型和第二子模型输出的第一词特征向量和第二词特征向量分别进行隐藏状态的提取,再进行融合,因此,本技术实施例中选用双向的隐藏状态提取模型进行隐藏状态的提取。针对第一词特征向量,按照从前往后的顺序依次提取隐藏状态,针对第二词特征向量,按照从后往前的顺序依次提取隐藏状态;或者,针对第一词特征向量,按照从后往前的顺序依次提取隐藏状态,针对第二词特征向量,按照从前往后的顺序依次提取隐藏状态。这样,可以提取到多个第一隐藏状态和多个第二隐藏状态。
120.在本技术实施例的一种实现方式中,第三子模型包括多个隐藏层。相应的,s406具体可以通过如下步骤实现:将第一词特征向量输入第三子模型,经第三子模型中各隐藏层从前往后的顺序分别提取隐藏状态,得到多个第一隐藏状态;将第二词特征向量输入第三子模型,经第三子模型中各隐藏层从后往前的顺序分别提取隐藏状态,得到多个第二隐藏状态。
121.上述对第一词特征向量进行隐藏状态提取和对第二词特征向量进行隐藏状态提取的步骤可以同步进行,也可以分步进行,这里不做具体限定。作为一种更优的实现方式,针对两个词特征向量进行隐藏状态提取的步骤为同步进行的,也就是针对第一词特征向量和第二词特征向量,同步地提取每一个隐藏状态,也就是说,在提取隐藏状态时,需要设置同步化锁止操作,即在同步提取隐藏状态后,需要对一次提取的隐藏状态进行完操作之后,才会同步进行下一个隐藏状态的提取。
122.在本技术实施例的一种实现方式中,将第一词特征向量输入第三子模型,经第三子模型中各隐藏层从前往后的顺序分别提取隐藏状态,得到多个第一隐藏状态的步骤,具体可以通过如下步骤实现:
123.按照第三子模型中各隐藏层从前往后的顺序,将第一词特征向量输入第1个隐藏层,经第1个隐藏层的计算,得到第1个第一隐藏状态;
124.将第1个第一隐藏状态输入第2个隐藏层,经第2个隐藏层的计算,得到第2个第一隐藏状态;
125.对第i个隐藏层之前已计算出的预设数目个第一隐藏状态进行加权运算,得到加权结果,并将加权结果输入第i个隐藏层,经第i个隐藏层的计算,得到第i个第一隐藏状态,其中,i为大于2、且小于或等于n的正整数,n为第三子模型中隐藏层的总个数。
126.在实际提取隐藏状态时,第1个隐藏层是直接基于第一词特征向量提取的第一隐藏状态,提取的方式可以是利用函数计算的方式进行提取,例如f(s),f(s)即为隐藏状态提取函数,得到的是第1个第一隐藏状态h1;第2个隐藏层可以基于第1个隐藏层的输出,即f(s)再提取隐藏状态,提取的方式同样是利用函数计算的方式进行提取,即f(h1);为了保证模型对长文本语义的连续理解能力,从第3个隐藏层开始,不应仅考虑前一个隐藏层的输出,而应该综合考虑前面几个隐藏层的输出,即需要对第i个隐藏层之前已计算出的预设数目个第一隐藏状态进行加权运算,得到加权结果,这里的加权运算可以是直接计算平均值,也可以分配不同的权重。在实际应用中,由于距离越近的隐藏层对当前隐藏层的影响越大,则应该按照距离的远近来分配权重,距离越近,分配的权重越大,预设数目可以根据文本长度进行设置,文本越长,设置的预设数目可以越大,并且,根据当前隐藏层的层数,预设数目
也可以动态调整,一般情况下,预设数目为大于或等于2的整数。例如,第3个隐藏层对应预设数目设置为2、第4个隐藏层对应预设数目设置为3等。以预设数目均设置为2为例,可以分配更近的一个隐藏层的输出的权重为0.8、另一个权重设置为0.2,则当前第i个隐藏层输出的第i个第一隐藏状态为:hi=f(0.8*f(h
i-1
)+0.2*f(h
i-2
))。
127.在本技术实施例的一种实现方式中,将第二词特征向量输入第三子模型,经第三子模型中各隐藏层从后往前的顺序分别提取隐藏状态,得到多个第二隐藏状态的步骤,具体可以通过如下步骤实现:
128.按照第三子模型中各隐藏层从后往前的顺序,将第二词特征向量输入第n个隐藏层,经第n个隐藏层的计算,得到第1个第二隐藏状态,其中,第n个隐藏层为第三子模型中的最后一个隐藏层;
129.将第1个第二隐藏状态输入第n-1个隐藏层,经第n-1个隐藏层的计算,得到第2个第二隐藏状态;
130.对第j个隐藏层之后已计算出的预设数目个第二隐藏状态进行加权运算,得到加权结果,并将加权结果输入第j个隐藏层,经第j个隐藏层的计算,得到第n-(j-1)个第二隐藏状态,其中,j为大于或等于1、且小于n-1的正整数。
131.在实际提取隐藏状态时,第n个隐藏层是直接基于第二词特征向量提取的第二隐藏状态,提取的方式可以是利用函数计算的方式进行提取,例如f(s’),f(s’)即为隐藏状态提取函数,得到的是第n个第二隐藏状态h1’
;第n-1个隐藏层可以基于第n个隐藏层的输出,即f(s’)再提取隐藏状态,提取的方式同样是利用函数计算的方式进行提取,即f(h1’
);为了保证模型对长文本语义的连续理解能力,从第n-2个隐藏层开始,不应仅考虑后一个隐藏层的输出,而应该综合考虑后面几个隐藏层的输出,即需要对第j个隐藏层之后已计算出的预设数目个第二隐藏状态进行加权运算,得到加权结果,这里的加权运算可以是直接计算平均值,也可以分配不同的权重。在实际应用中,由于距离越近的隐藏层对当前隐藏层的影响越大,则应该按照距离的远近来分配权重,距离越近,分配的权重越大,预设数目可以根据文本长度进行设置,文本越长,设置的预设数目可以越大,并且,根据当前隐藏层的层数,预设数目也可以动态调整,一般情况下,预设数目为大于或等于2的整数。例如,第n-2个隐藏层对应预设数目设置为2、第n-3个隐藏层对应预设数目设置为3等。以预设数目均设置为2为例,可以分配更近的一个隐藏层的输出的权重为0.8、另一个权重设置为0.2,则当前第j个隐藏层输出的第n-(j-1)个第二隐藏状态为:hj'=f(0.8*f(h
j-1
')+0.2*f(h
j-2
'))。
132.步骤s408,将多个第一隐藏状态和多个第二隐藏状态进行拼接,得到拼接后的隐藏状态。
133.针对提取的多个第一隐藏状态和多个第二隐藏状态,需要进行拼接操作,拼接的方式可以是每次提取1个第一隐藏状态和1个第二隐藏状态,就将这两个隐藏状态接在一起,也可以提取完所有的第一隐藏状态和第二隐藏状态后,再将这些隐藏状态接在一起。
134.在本技术实施例的一种实现方式中,s408具体可以通过如下步骤实现:按照第一隐藏状态和第二隐藏状态的提取顺序,将同一顺序提取的第二隐藏状态拼接在第一隐藏状态之后,得到多个拼接后的隐藏状态。
135.在本技术实施例更优的一种实现方式中,第一隐藏状态的提取和第二隐藏状态的提取是同步进行的,也就是在提取第1个第一隐藏状态的同时提取第1个第二隐藏状态,然
后将第1个第二隐藏状态直接接在第1个第一隐藏状态之后,组成拼接后的第1个隐藏状态,同理,在提取第i个第一隐藏状态的同时提取第i个第二隐藏状态,然后将第i个第二隐藏状态直接接在第i个第一隐藏状态之后,组成拼接后的第i个隐藏状态。
136.步骤s410,将拼接后的隐藏状态输入分类层,经分类层的分类识别,得到训练文本的实体预测结果。
137.分类层是一个基于概率分布结果的分类层,可以对文本中的词进行分类,并得到词在该类下的概率,概率的高低表征了分类识别的准确度,分类层采用crf层,使得概率大的更大,则识别结果越准,保证识别精度。通过分类层的分类识别即可得到训练文本的实体预测结果。
138.步骤s412,对比实体预测结果与训练文本携带的实体标注信息,得到差异值。
139.在得到实体预测结果后,对比实体预测结果和训练文本携带的实体标注信息,得到两者之间的差异值。
140.步骤s414,判断差异值是否小于或等于预设阈值,或者循环迭代的次数是否达到预定次数。若否,则执行步骤s416,若是,则执行步骤s418。
141.步骤s416,调整第一子模型、第二子模型、第三子模型和分类层的模型参数,并返回执行步骤s404。
142.步骤s418,停止训练,确定完成训练的网络模型为实体识别模型。
143.依据得到的差异值即可进行模型参数的调整,调整的目标就是使得差异值小于或等于预设阈值,或者循环迭代的次数达到预定次数,通过多次的循环迭代训练,能够保证实体识别模型的识别精度。
144.应用本技术实施例,网络模型包括第一子模型、第二子模型、第三子模型和分类层,第一子模型为基于深度学习的语言模型,在语法和语义层面上有较强的理解能力,第二子模型为词法关联模型,在词法上具有较强的调和能力,将第一子模型和第二子模型的输出结果作为第三子模型的共同输入,经第三子模型的双向隐藏状态提取,以及隐藏状态拼接,使得输入分类层的隐藏状态不仅在语法和语义层面上有较强的理解能力,同时在词法上具有较强的调和能力,经过循环迭代训练,得到的实体识别模型具有一定的实体识别精度,且训练得到的实体识别模型既可以从语法语义上进行实体识别,又可以从词法上进行实体识别,从而提高了长实体的识别精度。
145.相应于上述实体识别方法实施例,图5示出了本技术一实施例提供的一种实体识别装置的结构示意图,该实体识别装置包括:
146.第一获取模块510,被配置为获取待识别文本及预先训练的实体识别模型,其中,实体识别模型包括第一子模型、第二子模型、第三子模型和分类层,第一子模型为基于深度学习的语言模型,第二子模型为词法关联模型,第三子模型为双向的隐藏状态提取模型;
147.第一语言分析模块520,被配置为将待识别文本分别输入第一子模型和第二子模型,得到第一词特征向量和第二词特征向量;
148.第一隐藏状态提取模块530,被配置为将第一词特征向量和第二词特征向量输入第三子模型,经第三子模型的双向隐藏状态提取,得到多个第一隐藏状态和多个第二隐藏状态;
149.第一拼接模块540,被配置为将多个第一隐藏状态和多个第二隐藏状态进行拼接,
得到拼接后的隐藏状态;
150.识别模块550,被配置为将拼接后的隐藏状态输入分类层,经分类层的分类识别,得到待识别文本的实体识别结果。
151.可选的,该装置还包括训练模块,被配置为:
152.获取训练集和初始的网络模型,其中,训练集包括多个训练文本,各训练文本携带有实体标注信息,网络模型包括第一子模型、第二子模型、第三子模型和分类层,第一子模型为基于深度学习的语言模型,第二子模型为词法关联模型,第三子模型为双向的隐藏状态提取模型;
153.从训练集中提取训练文本,并将训练文本分别输入第一子模型和第二子模型,得到第一词特征向量和第二词特征向量;
154.将第一词特征向量和第二词特征向量输入第三子模型,经第三子模型的双向隐藏状态提取,得到多个第一隐藏状态和多个第二隐藏状态;
155.将多个第一隐藏状态和多个第二隐藏状态进行拼接,得到拼接后的隐藏状态;
156.将拼接后的隐藏状态输入分类层,经分类层的分类识别,得到训练文本的实体预测结果;
157.对比实体预测结果与训练文本携带的实体标注信息,得到差异值;
158.若差异值大于预设阈值,则调整第一子模型、第二子模型、第三子模型和分类层的模型参数,并返回执行从训练集中提取训练文本的步骤,直至达到训练停止条件,停止训练,确定完成训练的网络模型为实体识别模型。
159.可选的,第三子模型包括多个隐藏层;第一隐藏状态提取模块530,进一步被配置为:将第一词特征向量输入第三子模型,经第三子模型中各隐藏层从前往后的顺序分别提取隐藏状态,得到多个第一隐藏状态;将第二词特征向量输入第三子模型,经第三子模型中各隐藏层从后往前的顺序分别提取隐藏状态,得到多个第二隐藏状态。
160.可选的,第一隐藏状态提取模块530,进一步被配置为:按照第三子模型中各隐藏层从前往后的顺序,将第一词特征向量输入第1个隐藏层,经第1个隐藏层的计算,得到第1个第一隐藏状态;将第1个第一隐藏状态输入第2个隐藏层,经第2个隐藏层的计算,得到第2个第一隐藏状态;对第i个隐藏层之前已计算出的预设数目个第一隐藏状态进行加权运算,得到加权结果,并将加权结果输入第i个隐藏层,经第i个隐藏层的计算,得到第i个第一隐藏状态,其中,i为大于2、且小于或等于n的正整数,n为第三子模型中隐藏层的总个数。
161.可选的,第一隐藏状态提取模块530,进一步被配置为:按照第三子模型中各隐藏层从后往前的顺序,将第二词特征向量输入第n个隐藏层,经第n个隐藏层的计算,得到第1个第二隐藏状态,其中,第n个隐藏层为第三子模型中的最后一个隐藏层;将第1个第二隐藏状态输入第n-1个隐藏层,经第n-1个隐藏层的计算,得到第2个第二隐藏状态;对第j个隐藏层之后已计算出的预设数目个第二隐藏状态进行加权运算,得到加权结果,并将加权结果输入第j个隐藏层,经第j个隐藏层的计算,得到第n-(j-1)个第二隐藏状态,其中,j为大于或等于1、且小于n-1的正整数。
162.可选的,第一拼接模块540,进一步被配置为:按照第一隐藏状态和第二隐藏状态的提取顺序,将同一顺序提取的第二隐藏状态拼接在第一隐藏状态之后,得到多个拼接后的隐藏状态。
163.可选的,第一子模型为bert模型,第二子模型为word2vec模型,第三子模型为双向lstm模型,分类层为crf层。
164.应用本技术实施例,通过获取待识别文本及预先训练的实体识别模型,将待识别文本分别输入实体识别模型的第一子模型和第二子模型,得到第一词特征向量和第二词特征向量,然后将第一词特征向量和第二词特征向量输入实体识别模型的第三子模型,经第三子模型的双向隐藏状态提取,得到多个第一隐藏状态和多个第二隐藏状态,再将多个第一隐藏状态和多个第二隐藏状态进行拼接,得到拼接后的隐藏状态,将拼接后的隐藏状态输入实体识别模型的分类层,经分类层的分类识别,得到待识别文本的实体识别结果。第一子模型为基于深度学习的语言模型,在语法和语义层面上有较强的理解能力,第二子模型为词法关联模型,在词法上具有较强的调和能力,将第一子模型和第二子模型的输出结果作为第三子模型的共同输入,经第三子模型的双向隐藏状态提取,以及隐藏状态拼接,使得输入分类层的隐藏状态不仅在语法和语义层面上有较强的理解能力,同时在词法上具有较强的调和能力。因此,在进行实体识别时,既可以从语法语义上进行实体识别,又可以从词法上进行实体识别,从而提高了长实体的识别精度。
165.上述为本实施例的一种实体识别装置的示意性方案。需要说明的是,该实体识别装置的技术方案与上述的实体识别方法的技术方案属于同一构思,实体识别装置的技术方案未详细描述的细节内容,均可以参见上述实体识别方法的技术方案的描述。
166.相应于上述实体识别模型训练方法实施例,图6示出了本技术一实施例提供的一种实体识别模型训练装置的结构示意图,该实体识别模型训练装置包括:
167.第二获取模块610,被配置为获取训练集和初始的网络模型,其中,训练集包括多个训练文本,各训练文本携带有实体标注信息,网络模型包括第一子模型、第二子模型、第三子模型和分类层,第一子模型为基于深度学习的语言模型,第二子模型为词法关联模型,第三子模型为双向的隐藏状态提取模型;
168.第二语言分析模块620,被配置为从训练集中提取训练文本,并将训练文本分别输入第一子模型和第二子模型,得到第一词特征向量和第二词特征向量;
169.第二隐藏状态提取模块630,被配置为将第一词特征向量和第二词特征向量输入第三子模型,经第三子模型的双向隐藏状态提取,得到多个第一隐藏状态和多个第二隐藏状态;
170.第二拼接模块640,被配置为将多个第一隐藏状态和多个第二隐藏状态进行拼接,得到拼接后的隐藏状态;
171.预测模块650,被配置为将拼接后的隐藏状态输入分类层,经分类层的分类识别,得到训练文本的实体预测结果;
172.对比模块660,被配置为对比实体预测结果与训练文本携带的实体标注信息,得到差异值;
173.调整模块670,被配置为若差异值大于预设阈值,则调整第一子模型、第二子模型、第三子模型和分类层的模型参数,并返回执行从训练集中提取训练文本的步骤,直至达到训练停止条件,停止训练,确定完成训练的网络模型为实体识别模型。
174.可选的,第三子模型包括多个隐藏层;第二隐藏状态提取模块630,进一步配置为:将第一词特征向量输入第三子模型,经第三子模型中各隐藏层从前往后的顺序分别提取隐
interface card))中的一个或多个,诸如ieee802.11无线局域网(wlan,wireless local area networks)无线接口、全球微波互联接入(wi-max,world interoperability for microwave access)接口、以太网接口、通用串行总线(usb,universal serial bus)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc,near field communication)接口,等等。
182.在本技术的一个实施例中,计算设备700的上述部件以及图7中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图7所示的计算设备结构框图仅仅是出于示例的目的,而不是对本技术范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
183.计算设备700可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或pc的静止计算设备。计算设备700还可以是移动式或静止式的服务器。
184.其中,处理器720用于执行如下计算机可执行指令,处理器720执行计算机可执行指令时实现上述实体识别方法或实体识别模型训练方法的步骤。
185.上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的实体识别方法、实体识别模型训练方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述实体识别方法、实体识别模型训练方法的技术方案的描述。
186.本技术一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现如前所述实体识别方法或实体识别模型训练方法的步骤。
187.上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的实体识别方法、实体识别模型训练方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述实体识别方法、实体识别模型训练方法的技术方案的描述。
188.本技术实施例公开了一种芯片,其存储有计算机指令,该计算机指令被处理器执行时实现如前所述实体识别方法或实体识别模型训练方法的步骤。
189.上述对本技术特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
190.所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质等。
191.需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为
依据本技术,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本技术所必须的。
192.在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
193.以上公开的本技术优选实施例只是用于帮助阐述本技术。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本技术的内容,可作很多的修改和变化。本技术选取并具体描述这些实施例,是为了更好地解释本技术的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本技术。本技术仅受权利要求书及其全部范围和等效物的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1