本技术涉及自然语言处理,尤其涉及一种命名实体识别模型的训练方法、相关方法及相关产品。
背景技术:
1、随着自然语言处理技术的发展,自然语言处理的应用也越来越多,其中,就包括基于自然语言模型对文本进行命名实体识别(named entity recognition,ner)。而在利用自然语言模型对文本进行命名实体识别之前,需要对自然语言模型进行训练,以使自然语言模型具备对文本进行命名实体识别的能力,因此,如何通过对自然语言模型进行训练具有非常重要的意义。
技术实现思路
1、本技术提供一种命名实体识别模型的训练方法、相关方法及相关产品,以训练得到用于对文本进行命名实体识别的模型,其中,相关方法包括命名实体识别方法,相关产品包括:命名实体识别模型的训练装置、命名实体识别装置、电子设备、计算机可读存储介质、计算机程序产品。
2、第一方面,提供了一种命名实体识别模型的训练方法,所述方法包括:
3、获取训练数据,所述训练数据包括训练文本、主任务指令和第一辅助任务指令,所述主任务指令包括主任务的第一任务内容,所述第一任务内容包括确定所述训练文本中的第一实体词语以及所述第一实体词语的实体类型,所述第一实体词语为命名实体(namedentity,ne),所述第一辅助任务指令包括第一辅助任务的第二任务内容,所述第二任务内容包括确定所述训练文本所包含的实体类型;
4、在利用所述训练数据训练预训练语言模型的过程中,所述预训练语言模型依据所述主任务指令中的所述第一任务内容执行所述主任务得到第一执行结果,所述预训练语言模型依据所述第一辅助指令中的所述第二任务内容执行所述第一辅助任务得到第二执行结果;
5、确定所述第一执行结果与所述主任务的第一标签的第一差异;
6、确定所述第二执行结果与所述第一辅助任务的第二标签的第二差异;
7、基于所述第一差异和所述第二差异,更新所述预训练语言模型的参数,得到命名实体识别模型,所述命名实体识别模型用于对文本进行命名实体识别。
8、结合本技术任一实施方式,所述训练数据还包括描述第二实体词语的实体类型的示例,所述第二实体词语为命名实体,且所述第二实体词语与所述第一实体词语不同;
9、所述预训练语言模型依据所述主任务指令中的所述第一任务内容执行所述主任务得到第一执行结果,包括:
10、所述预训练语言模型在所述示例提示下,依据所述主任务指令中的所述第一任务内容,执行所述主任务得到所述第一执行结果。
11、结合本技术任一实施方式,所述训练数据还包括第二辅助任务指令,所述第二辅助任务指令包括第二辅助任务的第三任务内容,所述第三任务内容包括从所述训练文本中确定所述第一实体词语;
12、在所述基于所述第一差异和所述第二差异,更新所述预训练语言模型的参数,得到命名实体识别模型之前,所述方法还包括:
13、在利用所述训练数据训练预训练语言模型的过程中,所述预训练语言模型依据所述第二辅助任务指令中的所述第三任务内容执行所述第二辅助任务得到第三执行结果;
14、确定所述第三执行结果与所述第二辅助任务的第三标签的第三差异;
15、所述基于所述第一差异和所述第二差异,更新所述预训练语言模型的参数,得到命名实体识别模型,包括:
16、基于所述第一差异、所述第二差异和所述第三差异,更新所述预训练语言模型的参数,得到所述命名实体识别模型。
17、结合本技术任一实施方式,所述训练数据还包括第三辅助任务指令,所述第三辅助任务指令包括第三辅助任务的第四任务内容,所述第四任务内容包括确定所述训练文本中的词语的实体类型;
18、在所述基于所述第一差异、所述第二差异和所述第三差异,更新所述预训练语言模型的参数,得到所述命名实体识别模型之前,所述方法还包括:
19、在利用所述训练数据训练预训练语言模型的过程中,所述预训练语言模型依据所述第三辅助任务指令中的所述第四任务内容执行所述第三辅助任务得到第四执行结果;
20、确定所述第四执行结果与所述第三辅助任务的第四标签的第四差异;
21、所述基于所述第一差异、所述第二差异和所述第三差异,更新所述预训练语言模型的参数,得到所述命名实体识别模型,包括:
22、基于所述第一差异、所述第二差异、所述第三差异和所述第四差异,更新所述预训练语言模型的参数,得到所述命名实体识别模型。
23、结合本技术任一实施方式,所述基于所述第一差异、所述第二差异、所述第三差异和第四差异,更新所述预训练语言模型的参数,得到所述命名实体识别模型,包括:
24、基于所述第一差异、所述第二差异、所述第三差异和第四差异,确定所述预训练语言模型的损失,所述损失与所述第一差异、所述第二差异、所述第三差异和所述第四差异均呈正相关;
25、基于所述损失,更新所述预训练语言模型的参数,得到所述命名实体识别模型。
26、结合本技术任一实施方式,所述训练数据还包括预设实体类型,所述第四任务内容包括从预设实体类型中确定所述训练文本中的所述第一实体词语的实体类型。
27、结合本技术任一实施方式,所述第一执行结果和所述第三执行结果均包括按预设句子结构描述所述第一实体词语的文本。
28、结合本技术任一实施方式,所述训练数据还包括预设实体类型,所述第一任务内容包括从预设实体类型中确定所述第一实体词语的实体类型。
29、结合本技术任一实施方式,所述预训练语言模型为文本到文本转换模型。
30、第二方面,提供了一种命名实体识别方法,所述方法包括:
31、获取待识别文本;
32、利用命名实体识别模型对所述待识别文本进行命名实体识别,得到命名实体识别结果,所述命名实体识别模型是通过第一方面及其任一实施方式训练得到的。
33、结合本技术任一实施方式,在得到命名实体识别结果之后,所述方法还包括:
34、基于所述命名实体识别结果,确定目标映射关系,所述目标映射关系为所述待识别文本中的目标实体词语与所述目标实体词语的目标实体类型的映射关系,所述目标实体词语为命名实体。
35、结合本技术任一实施方式,所述命名实体识别结果按预设句式描述候选实体词语的候选实体类型,所述候选实体词语为命名实体;
36、所述基于所述命名实体识别结果,确定目标映射关系,包括:
37、将所述命名实体识别结果中用于描述同一所述候选实体词语的文本,划分为相同的子文本,得到至少一个子文本;
38、基于所述预设句式,确定各个所述子文本中的所述候选实体词语以及各个所述子文本中的所述候选实体类型;
39、基于所述候选实体词语与所述候选实体类型,确定所述目标映射关系。
40、结合本技术任一实施方式,所述基于所述候选实体词语与所述候选实体类型,确定所述目标映射关系,包括:
41、针对同一所述子文本中的所述候选实体词语和所述候选实体类型,在所述候选实体词语属于所述待识别文本,且所述候选实体类型为预设实体类型的情况下,确定所述候选实体词语与所述候选实体类型之间的映射关系为所述目标映射关系。
42、第三方面,提供了一种命名实体识别模型的训练装置,所述训练装置包括:
43、获取单元,用于获取训练数据,所述训练数据包括训练文本、主任务指令和第一辅助任务指令,所述主任务指令包括主任务的第一任务内容,所述第一任务内容包括确定所述训练文本中的第一实体词语以及所述第一实体词语的实体类型,所述第一实体词语为命名实体,所述第一辅助任务指令包括第一辅助任务的第二任务内容,所述第二任务内容包括确定所述训练文本所包含的实体类型;
44、执行单元,用于在利用所述训练数据训练预训练语言模型的过程中,所述预训练语言模型依据所述主任务指令对所述训练文本执行所述主任务得到第一执行结果,所述预训练语言模型依据所述第一辅助指令对所述训练文本执行所述第一辅助任务得到第二执行结果;
45、确定单元,用于确定所述第一执行结果与所述主任务的第一标签的第一差异;
46、所述确定单元,用于确定所述第二执行结果与所述第一辅助任务的第二标签的第二差异;
47、更新单元,用于基于所述第一差异和所述第二差异,更新所述预训练语言模型的参数,得到命名实体识别模型,所述命名实体识别模型用于对文本进行命名实体识别。
48、结合本技术任一实施方式,所述训练数据还包括描述第二实体词语的实体类型的示例,所述第二实体词语为命名实体,且所述第二实体词语与所述第一实体词语不同;
49、所述执行单元,具体用于:
50、所述预训练语言模型在所述示例提示下,依据所述主任务指令中的所述第一任务内容,执行所述主任务得到所述第一执行结果。
51、结合本技术任一实施方式,所述训练数据还包括第二辅助任务指令,所述第二辅助任务指令包括第二辅助任务的第三任务内容,所述第三任务内容包括从所述训练文本中确定所述第一实体词语;
52、所述执行单元,还用于在利用所述训练数据训练预训练语言模型的过程中,所述预训练语言模型依据所述第二辅助任务指令中的所述第三任务内容执行所述第二辅助任务得到第三执行结果;
53、所述确定单元,还用于确定所述第三执行结果与所述第二辅助任务的第三标签的第三差异;
54、所述更新单元,具体用于基于所述第一差异、所述第二差异和所述第三差异,更新所述预训练语言模型的参数,得到所述命名实体识别模型。
55、结合本技术任一实施方式,所述训练数据还包括第三辅助任务指令,所述第三辅助任务指令包括第三辅助任务的第四任务内容,所述第四任务内容包括确定所述训练文本中的词语的实体类型;
56、所述执行单元,还用于在利用所述训练数据训练预训练语言模型的过程中,所述预训练语言模型依据所述第三辅助任务指令中的所述第四任务内容执行所述第三辅助任务得到第四执行结果;
57、所述确定单元,还用于确定所述第四执行结果与所述第三辅助任务的第四标签的第四差异;
58、所述更新单元,具体用于基于所述第一差异、所述第二差异、所述第三差异和所述第四差异,更新所述预训练语言模型的参数,得到所述命名实体识别模型。
59、结合本技术任一实施方式,所述更新单元,具体用于:
60、基于所述第一差异、所述第二差异、所述第三差异和第四差异,确定所述预训练语言模型的损失,所述损失与所述第一差异、所述第二差异、所述第三差异和所述第四差异均呈正相关;
61、基于所述损失,更新所述预训练语言模型的参数,得到所述命名实体识别模型。
62、结合本技术任一实施方式,所述训练数据还包括预设实体类型,所述第四任务内容包括从预设实体类型中确定所述训练文本中的所述第一实体词语的实体类型。
63、结合本技术任一实施方式,所述第一执行结果和所述第三执行结果均包括按预设句子结构描述所述第一实体词语的文本。
64、结合本技术任一实施方式,所述训练数据还包括预设实体类型,所述第一任务内容包括从预设实体类型中确定所述第一实体词语的实体类型。
65、结合本技术任一实施方式,所述预训练语言模型为文本到文本转换模型。
66、第四方面,提供了一种命名实体识别装置,所述命名实体识别装置包括:
67、获取单元,用于获取待识别文本;
68、识别单元,用于利用命名实体识别模型对所述待识别文本进行命名实体识别,得到命名实体识别结果,所述命名实体识别模型是通过第一方面及其任一实施方式训练得到的。
69、结合本技术任一实施方式,所述命名实体识别装置还包括:确定单元,用于基于所述命名实体识别结果,确定目标映射关系,所述目标映射关系为所述待识别文本中的目标实体词语与所述目标实体词语的目标实体类型的映射关系,所述目标实体词语为命名实体。
70、结合本技术任一实施方式,所述命名实体识别结果按预设句式描述候选实体词语的候选实体类型,所述候选实体词语为命名实体;
71、所述确定单元,具体用于:
72、将所述命名实体识别结果中用于描述同一所述候选实体词语的文本,划分为相同的子文本,得到至少一个子文本;
73、基于所述预设句式,确定各个所述子文本中的所述候选实体词语以及各个所述子文本中的所述候选实体类型;
74、基于所述候选实体词语与所述候选实体类型,确定所述目标映射关系。
75、结合本技术任一实施方式,所述确定单元,具体用于针对同一所述子文本中的所述候选实体词语和所述候选实体类型,在所述候选实体词语属于所述待识别文本,且所述候选实体类型为预设实体类型的情况下,确定所述候选实体词语与所述候选实体类型之间的映射关系为所述目标映射关系。
76、第五方面,提供了一种电子设备,包括:处理器和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;
77、在所述处理器执行所述计算机指令的情况下,所述电子设备执行如上述第一方面及其任一实施方式;在所述处理器执行所述计算机指令的情况下,所述电子设备或者执行如上述第二方面及其任一实施方式。
78、第六方面,提供了另一种电子设备,包括:处理器、发送装置、输入装置、输出装置和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;
79、在所述处理器执行所述计算机指令的情况下,所述电子设备执行如上述第一方面及其任一实施方式;在所述处理器执行所述计算机指令的情况下,所述电子设备或者执行如上述第二方面及其任一实施方式。
80、第七方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括程序指令;
81、在所述程序指令被处理器执行的情况下,使所述处理器执行如上述第一方面及其任一实施方式;在所述程序指令被处理器执行的情况下,或者使所述处理器或者执行如上述第二方面及其任一实施方式。
82、第八方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序或指令;在所述计算机程序或指令在计算机上运行的情况下,使得所述计算机执行上述第一方面及其任一实施方式;在所述程序指令被处理器执行的情况下,或者使所述处理器执行如上述第二方面及其任一实施方式。
83、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本技术。
84、本技术中,训练数据包括训练文本、主任务指令和第一辅助任务指令,其中,主任务指令包括主任务的第一任务内容,第一任务内容包括确定训练文本中的第一实体词语以及第一实体词语的实体类型,第一辅助任务指令包括第一辅助任务的第二任务内容,第二任务内容包括确定训练文本所包含的实体类型。因此,训练装置在获取训练数据后,利用训练数据训练预训练语言模型,可使预训练语言模型依据主任务指令中的第一任务内容对训练文本执行主任务得到第一执行结果,以及使预训练语言模型依据第一辅助指令中的第二任务内容对训练文本执行第一辅助任务得到第二执行结果。训练装置通过确定第一执行结果与主任务的第一标签的差异,可得到用于表征预训练语言模型执行主任务的效果的第一差异。训练装置通过确定第二执行结果与第一辅助任务的第二标签的差异,可得到用于表征预训练语言模型执行第一辅助任务的效果的第二差异。于是,训练装置基于第一差异和第二差异,更新预训练语言模型的参数,可提升预训练语言模型执行主任务的效果,以及提升预训练语言模型执行第一辅助任务的效果。由于提升预训练语言模型执行第一辅助任务的效果,可使预训练语言模型能更好理解实体类型在文本中的语义,进而有利于预训练语言模型执行主任务,而主任务的第一任务内容是对文本进行命名实体识别,因此训练装置基于第一差异和第二差异,更新预训练语言模型的参数,得到命名实体识别模型,可提升命名实体识别模型对文本进行命名实体识别的准确度。
85、此外,由于该训练方法的训练对象是预训练语言模型,该训练方法可在使用少量训练文本的情况下,训练得到命名实体识别模型,换句话说,该训练方法可利用预训练语言模型的学习能力,通过小样本(few shot)训练得到命名实体识别模型。