本技术涉及语音识别,更具体的说,是涉及一种低资源语音识别模型训练方法、相关设备及可读存储介质。
背景技术:
1、语音识别是指对低资源语音数据进行识别,将低资源语音数据自动转化为文字。低资源语音识别指的是对各种小语种低资源语音数据的识别。小语种低资源语音数据各异性较强但数据资源匮乏,难以适应以汉语、英语等主流语言的语音识别模型,因此,需要训练低资源语音识别模型以实现对各种小语种低资源语音数据的识别。
2、目前,可以采用无监督预训练方法训练得到低资源语音识别模型。无监督预训练方法包含两个阶段:无监督预训练阶段及有监督学习阶段,其中,无监督预训练阶段的训练数据使用无监督低资源语音数据,有监督学习阶段的训练数据使用有监督低资源语音数据,即标注好的小语种低资源语音数据。但是,实际应用场景中,采用无监督预训练方法训练得到的低资源语音识别模型性能仍有所欠缺。
3、因此,如何提供一种低资源语音识别模型的训练方法,以提升低资源语音识别模型在实际应用场景中的性能,成为本领域技术人员亟待解决的技术问题。
技术实现思路
1、鉴于上述问题,本技术提出了一种低资源语音识别模型训练方法、相关设备及可读存储介质。具体方案如下:
2、一种低资源语音识别模型训练方法,所述方法包括:
3、获取无监督低资源语音数据和基础预训练模型;
4、从所述无监督低资源语音数据中筛选出目标无监督低资源语音数据,所述目标无监督低资源语音数据为所述无监督低资源语音数据中标注价值高的数据;
5、对所述目标无监督低资源语音数据进行标注,得到有监督低资源语音数据;
6、利用所述无监督低资源语音数据以及所述有监督低资源语音数据,对所述基础预训练模型进行训练得到低资源语音识别模型。
7、可选地,所述从所述无监督低资源语音数据中筛选出目标无监督低资源语音数据,包括:
8、计算各个无监督低资源语音数据对于所述基础预训练模型的熵值;
9、基于各个无监督低资源语音数据对于所述基础预训练模型的熵值,从无监督低资源语音数据中选取预设数量的无监督低资源语音数据作为目标无监督低资源语音数据。
10、可选地,所述基于各个无监督低资源语音数据对于所述基础预训练模型的熵值,从无监督低资源语音数据中选取预设数量的无监督低资源语音数据作为目标无监督低资源语音数据,包括:
11、按照各个无监督低资源语音数据对于所述基础预训练模型的熵值由大到小将所述无监督低资源语音数据进行排序,选取排名靠前的预设数量个无监督低资源语音数据作为目标无监督低资源语音数据。
12、可选地,利用所述无监督低资源语音数据以及所述有监督低资源语音数据,对所述基础预训练模型进行训练得到低资源语音识别模型,包括:
13、使用有监督低资源语音数据对所述基础预训练模型进行训练,得到初代低资源语音识别模型;
14、基于所述初代低资源语音识别模型对所述基础预训练模型进行初始化,得到教师模型和学生模型;
15、固定所述教师模型的参数,利用所述有监督低资源语音数据以及所述无监督低资源语音数据,使用所述教师模型指导所述学生模型进行迭代训练,迭代训练预设次数之后,得到的学生模型即为所述低资源语音识别模型。
16、可选地,利用所述有监督低资源语音数据以及所述无监督低资源语音数据,使用所述教师模型指导所述学生模型进行一次迭代训练的过程包括:
17、确定本次迭代训练对应的学生模型;
18、利用所述本次迭代训练对应的学生模型对所述无监督低资源语音数据构建伪标签,并计算各个无监督低资源语音数据对于所述本次迭代训练对应的学生模型的熵值;
19、基于各个无监督低资源语音数据对于所述本次迭代训练对应的学生模型的熵值,确定本次迭代训练对应的伪标注低资源语音数据;
20、将所述有监督低资源语音数据以及所述本次迭代训练对应的伪标注低资源语音数据,分别输入所述教师模型以及所述本次迭代训练对应的学生模型,固定所述教师模型的参数,使用所述教师模型指导所述本次迭代训练对应的学生模型进行训练,本次迭代训练完毕后得到的学生模型作为下次迭代训练对应的学生模型。
21、可选地,所述基于各个无监督低资源语音数据对于所述本次迭代训练对应的学生模型的熵值,确定本次迭代训练对应的伪标注低资源语音数据,包括:
22、按照各个无监督低资源语音数据对于所述本次迭代训练对应的学生模型的熵值有小到大将所述无监督低资源语音数据进行排序,选取排名靠前的预设数量个无监督低资源语音数据作为伪标注低资源语音数据。
23、可选地,所述基础预训练模型包括特征提取模块、量化模块以及上下文模块;
24、所述特征提取模块包括多层一维卷积结构,所述量化模块以及所述上下文模块包括多层transformer网络结构。
25、一种低资源语音识别模型训练装置,所述装置包括:
26、获取单元,用于获取无监督低资源语音数据和基础预训练模型;
27、筛选单元,用于从所述无监督低资源语音数据中筛选出目标无监督低资源语音数据,所述目标无监督低资源语音数据为所述无监督低资源语音数据中标注价值高的数据;
28、标注单元,用于对所述目标无监督低资源语音数据进行标注,得到有监督低资源语音数据;
29、训练单元,用于利用所述无监督低资源语音数据以及所述有监督低资源语音数据,对所述基础预训练模型进行训练得到低资源语音识别模型。
30、可选地,所述筛选单元,包括:
31、第一计算单元,用于计算各个无监督低资源语音数据对于所述基础预训练模型的熵值;
32、选取单元,用于基于各个无监督低资源语音数据对于所述基础预训练模型的熵值,从无监督低资源语音数据中选取预设数量的无监督低资源语音数据作为目标无监督低资源语音数据。
33、可选地,所述选取单元,具体用于:
34、按照各个无监督低资源语音数据对于所述基础预训练模型的熵值由大到小将所述无监督低资源语音数据进行排序,选取排名靠前的预设数量个无监督低资源语音数据作为目标无监督低资源语音数据。
35、可选地,所述训练单元,包括:
36、初代低资源语音识别模型确定单元,用于使用有监督低资源语音数据对所述基础预训练模型进行训练,得到初代低资源语音识别模型;
37、教师模型和学生模型确定单元,用于基于所述初代低资源语音识别模型对所述基础预训练模型进行初始化,得到教师模型和学生模型;
38、学生模型迭代训练单元,用于固定所述教师模型的参数,利用所述有监督低资源语音数据以及所述无监督低资源语音数据,使用所述教师模型指导所述学生模型进行迭代训练,迭代训练预设次数之后,得到的学生模型即为所述低资源语音识别模型。
39、可选地,所述学生模型迭代训练单元,包括:
40、确定单元,用于确定本次迭代训练对应的学生模型;
41、伪标签构建单元,用于利用所述本次迭代训练对应的学生模型对所述无监督低资源语音数据构建伪标签;
42、第二计算单元,用于计算各个无监督低资源语音数据对于所述本次迭代训练对应的学生模型的熵值;
43、伪标注低资源语音数据确定单元,用于基于各个无监督低资源语音数据对于所述本次迭代训练对应的学生模型的熵值,确定本次迭代训练对应的伪标注低资源语音数据;
44、迭代训练单元,用于将所述有监督低资源语音数据以及所述本次迭代训练对应的伪标注低资源语音数据,分别输入所述教师模型以及所述本次迭代训练对应的学生模型,固定所述教师模型的参数,使用所述教师模型指导所述本次迭代训练对应的学生模型进行训练,本次迭代训练完毕后得到的学生模型作为下次迭代训练对应的学生模型。
45、可选地,所述伪标注低资源语音数据确定单元,具体用于:
46、按照各个无监督低资源语音数据对于所述本次迭代训练对应的学生模型的熵值有小到大将所述无监督低资源语音数据进行排序,选取排名靠前的预设数量个无监督低资源语音数据作为伪标注低资源语音数据。
47、可选地,所述基础预训练模型包括特征提取模块、量化模块以及上下文模块;
48、所述特征提取模块包括多层一维卷积结构,所述量化模块以及所述上下文模块包括多层transformer网络结构。
49、一种低资源语音识别模型训练设备,包括存储器和处理器;
50、所述存储器,用于存储程序;
51、所述处理器,用于执行所述程序,实现如上所述的低资源语音识别模型训练方法的各个步骤。
52、一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的低资源语音识别模型训练方法的各个步骤。
53、借由上述技术方案,本技术公开了一种低资源语音识别模型训练方法、相关设备及可读存储介质。先从无监督低资源语音数据中筛选出标注价值高的目标无监督低资源语音数据;然后,对目标无监督低资源语音数据进行标注,得到有监督低资源语音数据;最后,利用无监督低资源语音数据以及有监督低资源语音数据,对基础预训练模型进行训练得到低资源语音识别模型。本方案中,先从无监督低资源语音数据中筛选出标注价值高的数据再进行标注得到有监督低资源语音数据,使得得到的有监督低资源语音数据的质量较高,而且,无监督低资源语音数据在训练过程中也得到了更为充分的利用,因此,训练得到的低资源语音识别模型在实际应用场景中的性能会有所提升。