本申请涉及人工智能,特别涉及一种语言模型的训练方法、电子设备、存储介质及产品。
背景技术:
1、随着人工智能技术的发展,语言模型被广泛应用于nlp(natural languageprocessing,自然语言处理)的各个领域。为提高语言模型的训练速度,通常会基于大量的通用样本语料训练一个预训练语言模型,进而基于训练任务对应的标注标签的训练样本语料,对预训练语言模型的模型参数进行微调,得到完成训练任务的语言模型。
2、然而,标注标签的训练样本语料通常较少,基于少量的训练样本语料训练的语言模型精度较低。
技术实现思路
1、本申请实施例提供了一种语言模型的训练方法、电子设备、存储介质及产品,能够采用少量的标注标签的训练样本语料训练出精度较高的语言模型。所述技术方案如下:
2、第一方面,提供了一种语言模型的训练方法,所述方法包括:
3、基于目标训练任务的多个第一训练样本语料,对预训练语言模型进行预设范式训练,得到教师语言模型,所述第一训练样本语料标注有所述目标训练任务需要识别的类别标签;
4、调用所述教师语言模型,对所述目标训练任务的多个第二训练样本语料进行识别,得到多个第二训练样本语料的类别概率分布,所述第二训练样本语料未标注类别标签,且所述第二训练样本语料的数量多于所述第一训练样本语料的数量,所述概率类别分布用于指示所述目标训练任务需要识别的各个类别的概率值;
5、基于多个第二训练样本语料的类别概率分布,计算多个第二训练样本语料的伪标签的确定性数值,所述伪标签为第二训练样本语料的类别概率分布中最大概率值对应的类别,所述确定性数值用于表征所述教师语言模型为第二训练样本语料识别出的伪标签为真实标签的概率;
6、基于多个第二训练样本语料的伪标签的确定性数值,从多个第二训练样本语料中,获取确定性数值满足阈值条件的多个易分训练样本语料;
7、基于多个易分训练样本语料,对所述教师语言模型进行预设范式训练,得到完成所述目标训练任务的学生语言模型。
8、第二方面,提供了一种语言模型的训练装置,所述装置包括:
9、第一训练模块,用于基于目标训练任务的多个第一训练样本语料,对预训练语言模型进行预设范式训练,得到教师语言模型,所述第一训练样本语料标注有所述目标训练任务需要识别的类别标签;
10、识别模块,用于调用所述教师语言模型,对所述目标训练任务的多个第二训练样本语料进行识别,得到多个第二训练样本语料的类别概率分布,所述第二训练样本语料未标注类别标签,且所述第二训练样本语料的数量多于所述第一训练样本语料的数量,所述概率类别分布用于指示所述目标训练任务需要识别的各个类别的概率值;
11、计算模块,用于基于多个第二训练样本语料的类别概率分布,计算多个第二训练样本语料的伪标签的确定性数值,所述伪标签为第二训练样本语料的类别概率分布中最大概率值对应的类别,所述确定性数值用于表征所述教师语言模型为第二训练样本语料识别出的伪标签为真实标签的概率;
12、获取模块,用于基于多个第二训练样本语料的伪标签的确定性数值,从多个第二训练样本语料中,获取确定性数值满足阈值条件的多个易分训练样本语料;
13、第二训练模块,用于基于多个易分训练样本语料,对所述教师语言模型进行预设范式训练,得到完成所述目标训练任务的学生语言模型。
14、第三方面,提供了一种电子设备,包括处理器以及存储器;所述存储器存储至少一条程序代码;所述至少一条程序代码用于被所述处理器调用并执行,以实现第一方面所述的语言模型的训练方法。
15、第四方面,提供了一种计算机可读存储介质,其所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序被处理器执行时能够实现第一方面所述的语言模型的训练方法。
16、第五方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时能够实现第一方面所述的语言模型的训练方法。
17、本申请实施例提供的技术方案带来的有益效果是:
18、基于标注有目标训练任务需要识别的类别标签的第一训练样本语料,对预训练语言模型进行训练,得到教师语言模型,进而基于该教师语言模型对未标注标签的第二训练样本语料进行识别,得到第二训练样本语料的类别概率分布,进而将类别概率分布中的最大概率值对应的类别作为第二训练样本语料的伪标签,虽然该教师语言模型学习了对目标训练任务的标签的识别能力,但是由于第一训练样本语料的数量比较少,导致教师语言模型的精度较低,基于精度较低的教师语言模型为第二训练样本语料识别出的伪标签并不准确。为了能够获取到标签较为准确的训练样本语料进行模型训练,本申请实施例还将基于第二训练本的类别概率分布,对第二训练样本语料的伪标签进行不确定性估计,以得到第二训练样本语料的伪标签的确定性数值,该确定性数值能够表征教师语言模型为第二训练样本语料识别出的伪标签为真实标签的概率,基于该确定性数值选取的符合阈值条件的易分训练样本语料为标签较为准确的第二训练样本语料,基于该易分训练样本语料对教师语言模型进行训练,能够得到精度较高的学生语言模型。
1.一种语言模型的训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述教师语言模型的数量为t个,t为正整数,所述基于多个第二训练样本语料的类别概率分布,计算多个第二训练样本语料的伪标签的确定性数值,包括:
3.根据权利要求2所述的方法,其特征在于,所述基于t个教师语言模型分别对所述第二训练样本语料识别得到的类别概率分布,计算所述第二训练样本语料的信息增益,包括:
4.根据权利要求2所述的方法,其特征在于,所述根据所述第二训练样本语料的信息增益,计算所述第二训练样本语料的目标伪标签的置信度数值,包括:
5.根据权利要求2所述的方法,其特征在于,所述基于t个教师语言模型分别对所述第二训练样本语料识别得到的类别概率分布,计算所述第二训练样本语料的标签为所述目标伪标签时的平均概率值,包括:
6.根据权利要求1所述的方法,其特征在于,所述基于多个易分训练样本语料,对所述教师语言模型进行预设范式训练,得到完成所述目标训练任务的学生语言模型,包括:
7.根据权利要求1所述的方法,其特征在于,所述基于多个易分训练样本语料,对所述教师语言模型进行预设范式训练,得到完成所述目标训练任务的学生语言模型,包括:
8.根据权利要求1至7中任一项所述的方法,其特征在于,所述预设范式包括头部微调范式、头部前缀范式、头部自适应范式、提示微调范式、提示前缀范式及提示自适应范式中任一种。
9.一种电子设备,其特征在于,包括处理器以及存储器;所述存储器存储至少一条程序代码;所述至少一条程序代码用于被所述处理器调用并执行,以实现如权利要求1至8中任一项所述的语言模型的训练方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序被处理器执行时能够实现如权利要求1至8中任一项所述的语言模型的训练方法。
11.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时能够实现如权利要求1至8中任一项所述的语言模型的训练方法。