实体识别模型训练方法、装置、设备及实体识别方法与流程

文档序号:28915936发布日期:2022-02-16 10:44阅读:113来源:国知局
实体识别模型训练方法、装置、设备及实体识别方法与流程

1.本技术涉及智能识别技术领域,尤其涉及一种实体识别模型训练方法、装置、设备及实 体识别方法。


背景技术:

2.相关技术的实体识别方法,无法解决中文字词边界模糊的问题,中文与英文的边界标 识不相同,英文有明显的空格和一些独特的形式标志,例如首字母大写等作为英文的边界 标识,但是,中文字词没有像英文那样明显的切分标志,导致中文字词的前后边界模糊不 容易确定,分词不准确。因为,分词任务与实体识别任务是相互影响的,而相关技术中没 有考虑到分词任务与实体识别任务之间的关系,导致影响实体识别模型对中文字词进行实 体识别的准确度。


技术实现要素:

3.本技术提供了一种实体识别模型训练方法、装置、设备及计算机可读存储介质,以解决 相关技术中没有考虑到分词任务与实体识别任务之间的关系,导致影响实体识别模型对中文 字词进行实体识别的准确度的问题。
4.第一方面,本技术提供了一种实体识别模型训练方法,利用第一训练样本训练初始模型, 得到预训练模型,其中预训练模型用于自然语言处理;根据预训练模型建立初始多任务模型, 初始多任务模型用于执行分词任务和实体识别任务;通过目标损失函数与第二训练样本对初 始多任务模型进行训练,得到目标多任务模型;将目标训练样本输入目标多任务模型,得到 目标多任务模型输出的分词表示向量,以及目标多任务模型中的预训练模型输出的字向量和 位置表示向量;利用分词表示向量、字向量和位置表示向量训练实体识别模型,得到目标模 型。
5.第二方面,本技术提供一种实体识别方法,实体识别方法包括:通过第一方面任一实施 例的实体识别模型训练方法得到的目标模型对目标样本进行实体识别。
6.第三方面,本技术提供了一种实体识别模型训练装置,第一训练模块,利用第一训练样 本训练初始模型,得到预训练模型;第二训练模块,根据预训练模型建立初始多任务模型, 初始多任务模型用于执行分词任务和实体识别任务;第三训练模块,通过目标损失函数与第 二训练样本对初始多任务模型进行训练,得到目标多任务模型;第四训练模块,将目标训练 样本输入目标多任务模型,得到目标多任务模型输出的分词表示向量,以及目标多任务模型 中的预训练模型输出的字向量和位置表示向量;第五训练模块,利用分词表示向量、字向量 和位置表示向量训练实体识别模型,得到目标模型。
7.第四方面,本技术提供了一种电子设备,包括处理器、通信接口、存储器和通信总线, 其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
8.存储器,用于存放计算机程序;
9.处理器,用于执行存储器上所存放的程序时,实现第一方面任一项实施例的实体
识别模 型训练方法的步骤。
10.第五方面,提供了一种计算机可读存储介质,计算机可读存储介质内存储有计算机程序, 计算机程序被处理器执行时实现第一方面任一项实施例的实体识别模型训练方法的步骤。
11.本技术实施例提供的上述技术方案与现有技术相比具有如下优点:
12.本技术实施例提供的实体识别模型训练方法,应用于实体识别,利用第一训练样本训练 初始模型,得到预训练模型;根据预训练模型建立初始多任务模型,初始多任务模型用于执 行分词任务和实体识别任务,初始多任务模型建立了语义丰富的语言表征方法,增强了语言 模型的表征能力;通过目标损失函数与第二训练样本对初始多任务模型进行训练,得到目标 多任务模型,目标多任务模型通过目标损失函数和第二训练样本对初始多任务模型的分词任 务和实体识别任务进行训练,使得分词任务更为准确;将目标训练样本输入目标多任务模型, 得到目标多任务模型输出的分词表示向量,以及目标多任务模型中的预训练模型输出的字向 量和位置表示向量;利用分词表示向量、字向量和位置表示向量训练实体识别模型,得到目 标模型,考虑到分词任务对实体识别任务的影响,引入分词表示向量对实体识别模型进行训 练,有效提高了实体识别模型识别中文字词的准确度。
附图说明
13.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并 与说明书一起用于解释本发明的原理。
14.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术 描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不 付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
15.图1为根据本技术实施例提供的一种可选的实体识别模型训练方法硬件环境示意图;
16.图2为根据本技术实施例提供的一种可选的实体识别模型训练方法流程示意图;
17.图3为根据本技术实施例提供的一种可选的目标多任务模型的结构示意图;
18.图4为根据本技术实施例提供的一种可选的实体识别模型的结构示意图;
19.图5为根据本技术实施例提供的一种可选的实体识别模型的结构示意图;
20.图6为根据本技术实施例提供的另一种可选的实体识别模型训练方法流程示意图;
21.图7为根据本技术实施例提供的另一种可选的实体识别模型训练方法流程示意图;
22.图8为根据本技术实施例提供的另一种可选的实体识别模型训练方法流程示意图;
23.图9为根据本技术实施例提供的另一种可选的实体识别模型训练方法流程示意图;
24.图10为根据本技术实施例提供的另一种可选的实体识别模型训练方法流程示意图;
25.图11为根据本技术实施例提供的另一种可选的实体识别模型训练方法流程示意
图;
26.图12为根据本技术实施例提供的一种可选的模型训练装置框图;
27.图13为本技术实施例提供的一种可选的电子设备结构示意图。
具体实施方式
28.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附 图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术 的一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没 有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
29.相关技术的实体识别方法,无法解决中文字词边界模糊的问题,中文与英文的边界标识 不相同,英文有明显的空格和一些独特的形式标志,例如首字母大写等作为英文的边界标识, 但是,中文字词没有像英文那样明显的切分标志,导致中文字词的前后边界模糊不容易确定, 分词不准确,因为,分词任务与实体识别任务是相互影响的,而相关技术中没有考虑到分词 任务与实体识别任务之间的关系,导致影响实体识别模型对中文字词进行实体识别的准确 度。
30.为了解决背景技术中提及的问题,根据本技术实施例的一方面,提供了一种实体识别模 型训练方法的实施例。
31.可选地,在本技术实施例中,上述实体识别模型训练方法可以应用于如图1所示的由终 端101和服务器103所构成的硬件环境中。如图1所示,服务器103通过网络与终端101进行连 接,可用于为终端或终端上安装的客户端提供服务,可在服务器上或独立于服务器设置数据 库102,用于为服务器103提供数据存储服务,上述网络包括但不限于:广域网、城域网或局 域网,终端101包括但不限于pc、手机、平板电脑等。
32.本技术实施例中的一种实体识别模型训练方法可以由服务器103或终端101来执行,还可 以是由服务器103和终端101共同执行,如图2所示,该方法可以包括以下步骤:
33.步骤s201,利用第一训练样本训练初始模型,得到预训练模型301,其中预训练模型301 用于自然语言处理。
34.相关技术中,解决实体识别任务的模型主要是基于统计的方法。其中,基于统计的方法 有隐马尔可夫模型(hiddenmarkovmode,hmm)、最大熵(maxmiumentropy,me)、支持向量机(s upport vectormachine,svm)。而由于在实体识别中,中文与英文的边界标识不相同,英文 有明显的空格和一些独特的形式标志,例如首字母大写等作为英文单词的边界标识,但是, 中文字词没有像英文那样明显的切分标志,导致中文字词的前后边界模糊不容易确定。因为, 分词任务与实体识别任务是相互影响的,而相关技术中,基于统计的方法的实体识别模型, 没有考虑到分词任务与实体识别任务之间的关系,导致影响实体识别模型对中文字词进行实 体识别的准确度。本技术实施例提供的实体识别模型训练方法可有效提高实体识别模型的分 词能力,进而提高实体识别模型识别中文字词的准确度。
35.本技术实施例中,上述第一训练样本,可以为标注标签的文本语料,也可以为无任何标 注标签的文本语料,本技术实施例对此不作具体限定。初始模型包括但不限于,roberta模 型等。预训练模型301用于自然语言的处理,例如,识别第一训练样本中的人名、
地名、组 织机构名等,本技术实施例对此不作具体限定。
36.本技术实施例中,初始模型为roberta模型,初始模型经过第一训练样本的训练,得到 预训练模型301,预训练模型301可以为pre_roberta模型,预训练模型301用于对自然语言处 理。
37.步骤s202,根据预训练模型301建立初始多任务模型,初始多任务模型用于执行分词任务 和实体识别任务。
38.本技术实施例中,预训练模型301可以为pre_roberta模型,根据pre_roberta模型建立 初始多任务模型,初始多任务模型用于执行分词任务和实体识别任务,实体识别任务和分词 任务都是序列标注任务,且两个任务之间具有较强的关联性。
39.步骤s203,通过目标损失函数与第二训练样本304对初始多任务模型进行训练,得到目标 多任务模型,目标损失函数用于联合分词任务和实体识别任务。
40.本技术实施例中,上述的第一训练样本和第二训练样本304,可以为标注标签的文本语 料,也可以为无任何标注标签的文本语料,可以根据需要进行设置,本技术实施例对此不作 具体的限定。
41.本技术实施例的目标多任务模型为通过初始多任务模型训练而成,首先通过将预训练模 型301与第一任务层302和第二任务层303连接,得到初始多任务模型,利用目标损失函数和 第二训练样本304对初始多任务模型进行训练,得到如图3所示的目标多任务模型,如图3所 示,为本技术实施例提供的一种目标多任务模型的结构示意图。目标多任务模型包括:预训 练模型301、训练完成的第一任务层302和训练完成的第二任务层303。
42.本技术实施例中,利用目标损失函数和第二训练样本304对初始多任务模型进行训练包 括:利用第二训练样本304,多次训练初始多任务模型,在训练的初始阶段,通过更新第二 训练样本304,先对初始多任务模型的分词任务进行训练,当分词任务的损失值满足目标损 失阈值时,再更新第二训练样本304对实体识别任务进行训练,从而使得在对实体识别任务 进行训练时,初始多任务模型的实体识别任务具有了一定的分词能力,有效提高目标多任务 模型的表现效果和泛化能力。
43.可以理解的是,本技术实施例的目标多任务模型中,预训练模型可以为pre_robert模型、 训练完成的第一任务层302可以为bi-lstm_n,训练完成的第二任务层303可以为bi-lstm_p。 bi-lstm_n和bi-lstm_p分别与pre_robert模型连接,bi-lstm_n用于执行实体识别任务;bi
ꢀ‑
lstm_p也用于执行分词任务。
44.步骤s204,将目标训练样本输入目标多任务模型,得到目标多任务模型输出的分词表示 向量403,以及目标多任务模型中的预训练模型301输出的字向量402和位置表示向量401。
45.本技术实施例中,上述的第一训练样本、第二训练样本304和目标训练样本,可以为标 注标签的文本语料,也可以为无任何标注标签的文本语料,任意两者或三者可以相同,也可 以三者都不相同,可以根据需要进行设置,本技术实施例对此不作具体的限定。
46.本技术实施例中,上述训练得到的目标多任务模型的第一任务层,可以为bi-lstm_n, 目标多任务模型的预训练模型301,可以为pre_robert模型,将目标训练样本输入目标多任 务模型后,得到bi-lstm_n输出的分词表示向量403,pre_robert模型输出的字向量402,同 时,pre_robert模型本身对目标训练样本的位置编码,作为位置表示向量401。
47.步骤s205,利用分词表示向量403、字向量402和位置表示向量401训练实体识别模型, 得到目标模型。
48.本技术实施例中,如图4所示,实体识别模型包括语言层404。将第二训练样本304输入 图3所示的目标多任务模型中,得出目标多任务模型的第一任务层302输出的分词表示向量403、预训练模型301输出的字向量402和预训练模型301的位置表示向量401。利用分词表示 向量403、字向量402和位置表示向量401训练图4所示的实体识别模型,实体识别模型的语言 层404作为特征提取器,对输入的向量进行特征提取,并输出特征,该第一目标特征则为该 实体识别模型输出的结果。
49.如图5所示,本技术实施例的实体识别模型,还可以包括,训练完成的第一任务层302 和条件随机场层405,其中语言层404与训练完成的第一任务层302连接,训练完成的第一任务 层302与条件随机场层405连接。上述实施例实体识别模型的语言层404提取特征之后,将特 征输入到训练完成的第一任务层302中,训练完成的第一任务层302对输入的特征执行实体识 别。接着,训练完成的第一任务层302,将执行实体识别后的特征输入到条件随机场层405, 以学习特征之间的依赖和约束关系。
50.本技术实施例中,语言层404可以为bert模型、训练完成的第一任务层302可以为bi-ls tm_n、条件随机场层405可以为crf模型。利用分词表示向量403、字向量402和位置表示向量 401对实体识别模型进行训练,从而得到目标模型。bi-lstm_n用于执行实体识别任务,可以 有效加速实体识别模型的训练速度,此外,还可以增加实体识别模型对输入样本时序特征的 敏感性,并输出新的特征,在bi-lstm_n之后引入crf模型,crf模型用于对bi-lstm_n输出的 特征进行学习,crf模型的学习包括但不限于,特征之间的依赖和约束关系。
51.可以理解的是,中文字词的前后边界模糊,上述实施例的实体识别模型,引入了分词表 示向量403进行训练,可以对中文字词的前后边界进行分界,因为,分词任务和实体识别任 务是相互影响的,而本技术实施例,考虑到实体识别任务与分词任务之间的关系,所以,本 申请实施例的实体识别模型可以有效提高对中文字词的实体识别准确度。
52.如图6所示,具体的,上述步骤s202中,根据预训练模型301建立初始多任务模型,初始 多任务模型用于执行分词任务和实体识别任务,可以通过如下的步骤s601和步骤s602实现:
53.步骤s601,根据预训练模型301建立初始多任务模型,初始多任务模型用于执行分词任 务和实体识别任务。
54.步骤s602,将预训练模型301分别与训练完成的第一任务层302和训练完成的第二任务层 303连接,得到初始多任务模型,训练完成的第一任务层302用于执行实体识别任务,训练完 成的第二任务层303用于执行分词任务。
55.本技术实施例中,预训练模型301可以为pre_robert模型,训练完成的第一任务层302 可以为bi-lstm_n,训练完成的第二任务层303可以为bi-lstm_p,pre_roberta模型分别与b i-lstm_n和bi-lstm_p连接,bi-lstm_n,用于特征提取,以执行实体识别任务,bi-lstm_p, 也用于特征提取,以执行分词任务。可以理解的是,本技术实施例的bi-lstm_n和bi-lstm_ p均用于提取特征,且两者之间的参数不共享。
56.如图7所示,具体的,上述步骤s203中,通过目标损失函数与第二训练样本304对初始多 任务模型进行训练,得到目标多任务模型,可以通过如下的步骤s701和步骤s702实
现:
57.步骤s701,通过第二训练样本304对初始多任务模型进行训练。
58.本技术实施例中,第二训练样本304可以多次训练初始多任务模型,上述的第一训练样 本和第二训练样本304可以为标注标签的文本语料,也可以为无任何标注标签的文本语料, 可以根据需要进行设置,本技术实施例对此不作具体的限定。
59.步骤s702,当目标损失函数的损失值达到阈值时,判定初始多任务模型训练 完成,得到目标多任务模型,目标损失函数为,
60.其中,loss表示目标损失函数 的损失值,loss1表示实体识别任务的损失值,loss2表示分词任务的损失值,step 表示训练初始多任务模型的总次数,i表示当前的训练次数。
61.本技术实施例中,通过目标损失函数的损失值与阈值进行比较来判定初始多 任务模型是否训练完成,当目标损失函数的损失值达到阈值时,判定初始多任务 模型训练完成,得到目标多任务模型。目标损失函数的设计包括但不限于, 其中,loss表示目标损失函数 的损失值,loss1表示实体识别任务的损失值,loss2表示分词任务的损失值,st ep表示训练初始多任务模型的总次数,i表示当前的训练次数,能够实现判定初 始多任务模型的训练完成即可。
62.本技术实施例中,目标损失函数利用对正余弦函数的改造,作为实体识别任务损失函数 数值和分词任务损失函数数值的加权权重,实体识别任务和分词任务都是序列标注任务,但 是分词任务的解空间可以小于实体识别任务。因此,在训练初始多任务模型的初始阶段,分 词任务损失占总损失的主要部分,随着对初始多任务模型的训练,实体识别任务损失占总损 失的主要部分,当目标损失函数的损失值达到一定阈值时,判定初始多任务模型的训练完成, 得到目标多任务模型。可以理解的是,目标多任务模型经过上述训练,具有了一定的分词能 力,使得在进行实体识别时,有效提高实体识别模型的表现效果和泛化能力。
63.本技术实施例中,在训练上述初始多任务模型的初始阶段,可以利用较为简单的实体识 别任务和/或分词任务,从而可以缓解因为更新第二训练样本304,给训练初始多任务模型带 来的冷启动问题。
64.如图8所示,具体的,上述步骤s203中,通过目标损失函数与第二训练样本304对初始多 任务模型进行训练,可以通过如下的步骤s801和步骤s802实现:
65.步骤s801,通过更新第二训练样本304对初始多任务模型的分词任务进行训练。
66.本技术实施例中,上述的第一训练样本和第二训练样本304可以为标注标签的文本语料, 也可以为无任何标注标签的文本语料,可以根据需要进行设置,本技术实施例对此不作具体 的限定。
67.步骤s802,当分词任务的损失值满足目标损失阈值时,通过更新第二训练样本304对初 始多任务模型的实体识别任务进行训练。
68.本技术实施例中,通过更新第二训练样本304,先对初始多任务模型的分词任务进行训 练,当分词任务的损失值满足目标损失阈值时,再通过更新第二训练样本304,对初始
多任 务模型的实体识别任务进行训练,使得在针对训练实体识别任务进行第二训练样本304的更 新时,初始多任务模型的实体识别任务具有了一定的分词能力,有效提高了由初始多任务模 型训练得到的目标多任务模型的表现效果和泛化能力。
69.可以理解的是,本技术实施例多次更新第二训练样本304,来对初始多任务模型的分词 任务和实体识别任务进行训练。
70.如图9所示,具体的,上述步骤s205中,利用分词表示向量403、字向量402和位置表示 向量401训练实体识别模型,得到目标模型,可以通过如下的步骤s901和步骤s902实现:
71.步骤s901,对分词表示向量403、字向量402和位置表示向量401进行加和运算,得到目 标数据集。
72.步骤s902,通过目标数据集对实体识别模型的语言层404进行训练,得到目标模型,语 言层404用于对输入的目标数据集进行特征提取,并输出第一目标特征。
73.本技术实施例中,实体识别模型的语言层404,包括但不限于,bert模型,将分词表示 向量403、字向量402和位置表示向量401进行加和运算后的目标数据集输入bert模型中进行 训练,bert模型对输入的目标数据集进行特征提取和表征后,输出第一目标特征。
74.如图10所示,具体的,上述实施例中的实体识别模型,还可以包括步骤s1001和步骤 s1002:
75.步骤s1001,将语言层404与训练完成的第一任务层302连接,训练完成的第一任务层302 与条件随机场层405连接。
76.步骤s1002,将第一目标特征输入到训练完成的训练完成的第一任务层302,以得到对第 一目标特征执行实体识别后的第二目标特征,将第二目标特征输入到条件随机场层405,以 学习第二目标特征之间的依赖和约束关系。
77.本技术实施例中,上述语言层404,可以包括,bert模型,条件随机场层405,包括但不 限于,crf模型,实体识别模型的bert模型输出第一目标特征后,将第一目标特征输入到实 体识别模型的crf模型中,利用crf模型学习第一目标特征之间的依赖和约束关系。
78.本技术实施例中,语言层404可以为,bert模型,条件随机场层405可以为,crf模型, 训练完成的第一任务层302可以为bi-lstm_n,将bert模型与bi-lstm_n连接,bi-lstm_n与c rf模型连接,当bert模型对输入的目标数据集进行特征提取后,输出第一目标特征到bi-ls tm_n,bi-lstm_n对第一目标特征执行实体识别,并得到第二目标特征,将第二目标特征输 入到crf模型,以学习第二目标特征之间的依赖和约束关系。本技术实施例,将bert模型与b i-lstm_n连接,可以有效提高实体识别模型的训练速度,还可以增加实体识别模型对样本时 序特征的敏感性。此外,在bi-lstm_n后,连接crf模型,可以学习第二目标特征之间的依赖 和约束关系。
79.本技术实施例中,还提供了一种实体识别方法,实体识别方法包括但不限于,通过实现 如前述任意一个方法实施例提供的实体识别模型训练方法得到目标模型对目标样本进行实 体识别。
80.本技术实施例中,上述的第一训练样本、第二训练样本304和目标训练样本,可以为标 注标签的文本语料,也可以为无任何标注标签的文本语料,任意两者或三者可以相同,也可 以三者都不相同,可以根据需要进行设置,本技术实施例对此不作具体的限定。
81.如图11所示,在本技术的一实施例中,上述实施例中的实体识别模型的训练方法,
还可 以通过如下的步骤s1101、步骤s1102、步骤s1103、步骤s1104、步骤s1105和步骤s1106实现:
82.步骤s1101,开始。
83.步骤s1102,利用第一训练样本训练初始模型。
84.本技术实施例中,第一训练样本,可以为不需要任何标注标签的文本语料,也可以为有 标注标签的文本语料。在利用第一训练样本训练初始模型后,得到预训练模型301。
85.步骤s1103,训练由分词任务和实体识别任务组成的初始多任务模型。
86.本技术实施例中,将预训练模型301分别与训练完成的第一任务层302和训练完成的第二 任务层303连接,得到初始多任务模型。初始多任务模型用于执行实体识别任务和分词任务, 实体识别任务为训练完成的第一任务层302,分词任务为训练完成的第二任务层303。可以理 解的是,两个任务都是序列标注任务,且具有较强的关联性。当预训练模型301输出张量后, 训练完成的第一任务层302和训练完成的第二任务层303提取特征,而且训练完成的第一任务 层302和训练完成的第二任务层303之间的参数不共享。
87.可以理解的是,上述实施例中的初始多任务模型,还包括目标损失函数和第二训练样本 304,目标损失函数,包括实体识别任务损失函数和分词任务损失函数,目标损失函数可以 用于判定初始多任务模型是否训练完成,当目标损失函数的损失值达到阈值时,判定初始多 任务模型的训练完成,得到目标多任务模型。第二训练样本304用于多次训练初始多任务模 型,在训练的初始阶段,分词任务损失占主要部分,随着对初始多任务模型的训练,实体识 别任务损失占主要部分,在训练的初始阶段,利用较为简单的任务可以缓解初始多任务模型 参数更新的冷启动问题,在对实体识别任务进行训练时,初始多任务模型的实体识别任务具 有了一定的分词能力,有效提高了目标多任务模型的表现效果和泛化能力。
88.需要说明的是,上述实施例中,初始多任务模型的损失函数为, 其中,loss表示目标损失函数 的损失值,loss1表示实体识别任务的损失值,loss2表示分词任务的损失值,st ep表示训练初始多任务模型的总次数,i表示当前的训练次数。
89.步骤s1104,将分词任务的bi-lstm引入到实体识别模型的输入表示中。
90.步骤s1105,训练实体识别模型。
91.步骤s1106,结束。
92.本技术实施例中,将第二训练样本304输入步骤s1103训练完成的目标多任务模型,得到 分词表示向量403,以及预训练模型301输出的字向量402,预训练模型301对数据位置编码, 产生的位置表示向量401。将分词表示向量403、字向量402和位置表示向量401进行加和运算, 然后,输入到实体识别模型中进行训练。本技术实施例的实体识别模型,包括语言层,语言 层可以为bert模型,利用bert模型作为特征提取器,对输入的分词表示向量403、字向量40 2和位置表示向量401进行特征提取和表征,从而增强了实体识别模型的表征能力,将分词表 示向量403引入到实体识别模型进行训练,拓展了实体识别模型的特征空间,提高了实体识 别任务的预测精度。
93.上述实施例中的实体识别模型,还可以包括,经过步骤s1103训练得到的训练完成
的第 一任务层302和条件随机场层,训练完成的第一任务层302可以为bi-lstm_n,条件随机场层 可以为crf模型。bi-lstm_n与bert模型连接,可以加速实体识别模型的训练速度,还可以增 加实体识别模型对目标样本时序特征的敏感性。将bi-lstm_n与crf模型连接,crf模型可以 学习bi-lstm_n输出特征之间的依赖和约束关系。
94.如图12所示,本技术实施例还提供了一种实体识别模型训练方法装置,实体识别模型训 练方法装置,包括但不限于:
95.第一训练模块1201,利用第一训练样本训练初始模型,得到预训练模型301,其中预训 练模型301用于自然语言处理;
96.第二训练模块1202,根据预训练模型301建立初始多任务模型,初始多任务模型用于执 行分词任务和实体识别任务;
97.第三训练模块1203,通过目标损失函数与第二训练样本304对初始多任务模型进行训练, 得到目标多任务模型,目标损失函数用于联合分词任务和实体识别任务;
98.第四训练模块1204,将目标训练样本输入目标多任务模型,得到目标多任务模型输出的 分词表示向量403,以及目标多任务模型中的预训练模型301输出的字向量402和位置表示向 量401;
99.第五训练模块1205,利用分词表示向量403、字向量402和位置表示向量401训练实体识 别模型,得到目标模型。
100.需要说明的是,该实施例中的第一训练模块1201可以用于执行本技术实施例中的步骤 s201,该实施例中的第二训练模块1202可以用于执行本技术实施例中的步骤s202,该实施例 中的第三训练模块1203可以用于执行本技术实施例中的步骤s203,该实施例中的第四训练模 块1204可以用于执行本技术实施例中的步骤s204,该实施例中的第五训练模块1205可以用于 执行本技术实施例中的步骤s205。需要说明的是,上述模块作为装置的一部分可以运行在如 图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。
101.可选地,第一训练模块1201,具体用于:
102.利用第一训练样本对roberta模型进行训练,从而得到一个具有初始参数值的模型,即 pre_roberta模型,pre_roberta模型可以对样本语料中的人名、地名、组织机构名等命名实 体进行识别。
103.可选地,第二训练模块1202,具体用于:
104.通过pre_roberta模型建立初始多任务模型,初始多任务模型用于执行实体识别任务和 分词任务,两个任务本质上都是序列标注任务。从自然语言的特点上来看,实体识别任务和 分词任务之间具有较强的关联性。
105.可选地,该实体识别模型训练装置还包括第三训练模块1203,用于:
106.通过目标损失函数,将初始多任务模型的实体识别任务和分词任务进行联合,利用第二 训练样本304对初始多任务模型进行训练,当pre_roberta模型输出张量之后,实体识别任务 和分词任务分别用自己的bi-lstm层提取目标特征,且两者之间的bi-lstm参数互不共享。
107.在利用第二训练样本304对初始多任务模型进行训练时,通过目标损失函数值来判定初 始多任务模型是否训练完成。
108.目标损失函数为其中,loss表示 目标损失函数的损失值,loss1表示实体识别任务的损失值,loos2表示分词任务的损失值, step表示训练初始多任务模型的总次数,i表示当前的训练次数。目标损失函数值,为实体 识别任务函数值和分词任务损失函数值。在训练初始多任务模型的初始阶段,因为,分词任 务的解空间小于实体识别任务的解空间,所以,分词任务损失占总损失的主要部分。随着对 初始多任务模型的不断训练,实体识别任务损失占总损失的主要部分。当目标损失函数值达 到阈值时,判定初始多任务模型训练完成,从而得到目标多任务模型。
109.可选地,第四训练模块1204,具体用于:
110.将目标训练样本输入目标多任务模型,得到目标多任务模型的bi-lstm_p输出的分词表 示向量403,同时,得到目标多任务模型的pre_roberta模型输出的字向量402,以及pre_ro berta模型本身对数据的位置编码,产生的位置表示向量401。
111.可选地,第五训练模块1205,具体用于:
112.利用上述第四训练模块1204输出的分词表示向量403、字向量402和位置表示向量401, 作为训练第五训练模块1205中实体识别模型的输入,实体识别模型在综合得到分词表示向量 403、字向量402和位置表示向量401后,利用实体识别模型的bert模型作为特征提取器对输 入的向量进行特征提取和表征。
113.需要说明的是,在bert模型之后,可以增加第三训练模块1203训练得到的bi-lstm_n, 可以加速训练实体识别模型的速度,还可以加强实体识别模型对目标样本时序特征的敏感 性。
114.还需要说明的,在上述实施例中的bi-lstm_n之后,还可以增加crf模型,利用crf模型 可以学习,bi-lstm_n输出的第二目标特征之间的依赖和约束关系。
115.根据本技术实施例的另一方面,本技术实施例还提供了一种电子设备,如图13所示,包 括处理器1301、通信接口1302、存储器1303和通信总线1304,其中,处理器1301,通信接口 1302,存储器1303通过通信总线1304完成相互间的通信。该电子设备包括但不限于:
116.存储器1303,用于存放计算机程序;
117.处理器1301,用于执行存储器1303上所存放的程序,当处理器1301执行存储器1303存储 的计算机程序时,处理器1301用于执行上述的实体识别模型训练方法。
118.存储器1303作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂 态性计算机可执行程序,如本技术实施例描述的实体识别模型训练方法。处理器1301,通过 运行存储在存储器1303中的非暂态软件程序,以及指令,从而实现上述的实体识别模型训练 方法。
119.存储器1303可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至 少一个功能所需要的应用程序;存储数据区可存储执行上述的实体识别模型训练方法。此外, 存储器1303可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存 储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器1303可选包括 相对于处理器1301远程设置的存储器1303,这些远程存储器可以通过网络连接至该处理器1301。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
120.实现上述的实体识别模型训练方法所需的非暂态软件程序以及指令存储在存储器1303 中,当被一个或者多个处理器1301执行时,执行上述的实体识别模型训练方法,例如,执行 图2中描述的方法步骤s201至s205,图6中描述的方法步骤s601、s602,图7中描述的方法步 骤s701、s702,图8中描述的方法步骤s801、s802,图9中描述的方法步骤s901、s902,图1 0中描述的方法步骤s1001、s1002,图11中描述的方法步骤s1101至s1106。
121.上述电子设备中的存储器、处理器通过通信总线和通信接口进行通信。通信总线可以是 外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结 构(extended industry standard architecture,简称eisa)总线等。该通信总线可以分为 地址总线、数据总线、控制总线等。
122.上述的处理器可以是通用处理器,包括中央处理器(central processing unit,简称c pu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digitalsignal processing,简称dsp)、专用集成电路(application specific integrated circu it,简称asic)、现场可编程门阵列(field-programmable gate array,简称fpga)或者其他 可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
123.本发明实施例还提供了一种存储介质,存储有计算机可执行指令,计算机可执行指令用 于执行上述的实体识别模型训练方法。
124.在一实施例中,该存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多 个控制处理器1301执行,例如,被上述电子设备中的一个处理器1301执行,可使得上述一个 或多个处理器1301执行上述的实体识别模型训练方法,例如,执行图2中描述的方法步骤s2 01至s205,图6中描述的方法步骤s601、s602,图7中描述的方法步骤s701、s702,图8中描 述的方法步骤s801、s802,图9中描述的方法步骤s901、s902,图10中描述的方法步骤s100 1、s1002,图11中描述的方法步骤s1101至s1106。
125.以上所描述的实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以 不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实 际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
126.可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组 合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(application sp ecific integrated circuits,asic)、数字信号处理器(digital signal processing,ds p)、数字信号处理设备(dsp device,dspd)、可编程逻辑设备(programmable logic de vice,pld)、现场可编程门阵列(field-programmable gate array,fpga)、通用处理器、 控制器、微控制器、微处理器、用于执行本技术所述功能的其它电子单元或其组合中。
127.对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存 储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
128.本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算 法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件 还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每 个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范 围。
129.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、
装置 和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
130.在本技术所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式 实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一 种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可 以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间 的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可 以是电性,机械或其它的形式。
131.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部 件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元 上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
132.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个 单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
133.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在 一个计算机可读取存储介质中。基于这样的理解,本技术实施例的技术方案本质上或者说对 现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机 软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算 机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述 的存储介质包括:u盘、移动硬盘、rom、ram、磁碟或者光盘等各种可以存储程序代码的介 质。
134.需要说明的是,在本文中,诸如“第一”、“第二”、“第三”、“第四”、“第五
”ꢀ
等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要 求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”或 者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品 或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过 程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”ꢀ
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要 素。
135.以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这 些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可 以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限 制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范 围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1