本发明属于语音识别领域,具体涉及一种基于多语种采样的粤语语音识别模型训练方法及系统。
背景技术:
1、语音识别模型可以实现将语音转化为文本的功能,是人机交互中最重要的方式之一,基于深度神经网络的语音识别模型可以取得较好的语音识别准确度,但其性能优劣程度依赖于可获得的标准数据量。不过,自监督预训练技术可以通过利用无标注数据提升语音识别模型的性能。但是对于粤语来说,由于有标注和无标注数据量相对于汉语和英语等语种都较少,利用已有技术仍不能获得令人满意的性能。
2、现在常用的多语种自监督预训练可以利用除目标语种外的其他语种数据辅助提升目标语种的语音识别模型性能,但是粤语与其他语种之间的相似度很少有人研究,所以如何利用其他语种的知识训练模型提升识别粤语的性能仍有很大的研究空间。
技术实现思路
1、本发明提出了一种基于多语种采样的粤语语音识别模型训练方法及系统,能充分地利用其他语种训练多语种学习模型,提升该模型对粤语语音识别的准确度。
2、本发明的第一方面提供了一种基于多语种采样的粤语语音识别模型训练方法,所述方法包括:
3、将预设的语种信息进行预处理,得到每个语种信息的嵌入表征;
4、将每个语种信息的嵌入表征输入预设的第一语种模型,计算每个语种和粤语的相关度;
5、根据每个语种和粤语的相关度,对预设的语种语音数据重新采样,得到重采样语种数据;
6、将重采样语种数据输入预设的第一语种模型进行粤语学习,得到第二语种模型;
7、根据预设的粤语标注数据,通过预设的模型检测标准对第二语种模型进行检测,得到粤语语音识别模型;其中,所述预设的模型检测标准复用了第二语种模型的参数作为粤语语音识别模型的初始化参数,然后使用预设的学习率对第二语种模型的参数进行调整,以得到粤语语音识别模型。
8、上述方案先通过预设的语种信息计算每个语种和粤语的相关度,根据所述相关度控制模型进行粤语学习,再通过预设的粤语标注数据,校验模型,提升了模型对粤语语音识别的准确度,使模型在使用时能更好的抓住语言的特征进行预测,而且复用了第二语种模型的参数作为粤语语音识别模型的初始化参数,从而可以利用少量标注数据完成粤语语音识别模型的训练。
9、在第一方面的一种可能的实现方法中,将预设的语种信息进行预处理,得到每个语种信息的嵌入表征,具体为:
10、将预设的语种信息的独热码通过预设的嵌入矩阵进行处理,同时对嵌入矩阵的参数进行优化,优化后的嵌入矩阵的每一行对应一个语种信息的嵌入表征;其中,所述嵌入表征在训练过程中不依赖文本标注,仅需要预设的语种信息及其对应的语种标签;所述嵌入表征的训练准则为自监督训练准则,所述自监督训练准则是从预设的语种信息中提取训练目标,不需要对预设的语种信息进行文本标注;
11、根据优化后的嵌入矩阵,得到每个语种信息的嵌入表征。
12、上述方案通过预设的嵌入矩阵进行数据处理,使优化后的嵌入矩阵的每一行对应一个语种信息的嵌入表征,以此得到预设的第一语种模型的输入数据,为计算语种和粤语间的相关度提供数据支撑。
13、在第一方面的一种可能的实现方法中,将每个语种信息的嵌入表征输入预设的第一语种模型,计算每个语种和粤语的相关度,具体为:
14、计算每个语种的嵌入表征和粤语的嵌入表征之间的余弦距离;
15、根据所述余弦距离,得到每个语种和粤语的相关度。
16、上述方案通过计算每个语种和粤语的相关度,确定和粤语相似度高的语种,根据高相似度的语种可以决定数据重采样的比重,提升了预设的第一语种模型的学习的效率。
17、在第一方面的一种可能的实现方法中,每个语种的嵌入表征和粤语的嵌入表征之间的余弦距离,具体为:
18、每个语种的嵌入表征和粤语的嵌入表征之间的余弦距离si,具体公式为:
19、
20、其中,si为第i个语种的嵌入表征和粤语的嵌入表征之间的余弦距离,ei为第i个语种的嵌入表征,e为粤语的嵌入表征。
21、在第一方面的一种可能的实现方法中,根据每个语种和粤语的相关度,对预设的语种语音数据重新采样,得到重采样语种数据,具体为:
22、通过与预设的数据处理方法对每个语种和粤语的相关度进行归一化处理,得到每个语种的归一化值;其中,所述归一化值为对应的语种在预设的语种语音数据的采样概率;
23、根据每个语种的归一化值,对预设的语种信息重新采样,得到重采样语种数据。
24、上述方案通过对预设的语种语音数据重新采样,得到和粤语相关度高的语种数据,使预设的第一语种模型能重点学习和粤语更加相似的语言的特征,提升了识别粤语语音的准确度。
25、在第一方面的一种可能的实现方法中,每个语种的归一化值,具体为:
26、每个语种的归一化值pi,具体公式为:
27、
28、其中,t为温度系数,si为第i个语种的粤语的相关度,sj为第j个语种的粤语的相关度。
29、在第一方面的一种可能的实现方法中,预设的模型检测标准,具体为:
30、预设的模型检测标准lctc,具体公式为:
31、
32、其中,x为重采样语种数据,y为重采样语种数据的标注,p(x)为重采样语种数据的分布函数,为第t次迭代时第二语种模型的参数,为频谱数据增强函数。
33、本发明第二方面提供了一种基于多语种采样的粤语语音识别模型训练系统,所述系统包括:数据预处理模块,相关度计算模块,数据重采样模块,语言学习模块和模型检测模块;
34、其中,所述数据预处理模块用于将预设的语种信息进行预处理,得到每个语种信息的嵌入表征;
35、所述相关度计算模块用于将每个语种信息的嵌入表征输入预设的第一语种模型,计算每个语种和粤语的相关度;
36、所述数据重采样模块用于根据每个语种和粤语的相关度,对预设的语种语音数据重新采样,得到重采样语种数据;
37、所述语言学习模块用于将重采样语种数据输入预设的第一语种模型进行粤语学习,得到第二语种模型;
38、所述模型检测模块用于根据预设的粤语标注数据,通过预设的模型检测标准对第二语种模型进行检测,得到粤语语音识别模型;其中,所述预设的模型检测标准复用了第二语种模型的参数作为粤语语音识别模型的初始化参数,然后使用预设的学习率对第二语种模型的参数进行调整,以得到粤语语音识别模型。
39、在第二方面的一种可能的实现方式中,数据预处理模块包括:嵌入表征获取单元;
40、所述嵌入表征获取单元用于将预设的语种信息的独热码通过预设的嵌入矩阵进行处理,同时对嵌入矩阵的参数进行优化,优化后的嵌入矩阵的每一行对应一个语种信息的嵌入表征;其中,所述嵌入表征在训练过程中不依赖文本标注,仅需要预设的语种信息及其对应的语种标签;所述嵌入表征的训练准则为自监督训练准则,所述自监督训练准则是从预设的语种信息中提取训练目标,不需要对预设的语种信息进行文本标注;根据优化后的嵌入矩阵,得到每个语种信息的嵌入表征。
41、在第二方面的一种可能的实现方式中,相关度计算模块包括:相关度计算单元;
42、所述相关度计算单元用于计算每个语种的嵌入表征和粤语的嵌入表征之间的余弦距离;根据所述余弦距离,得到每个语种和粤语的相关度。
43、在第二方面的一种可能的实现方式中,数据重采样模块包括:数据归一化单元;
44、所述数据归一化单元用于通过与预设的数据处理方法对每个语种和粤语的相关度进行归一化处理,得到每个语种的归一化值;其中,所述归一化值为对应的语种在预设的语种语音数据的采样概率;根据每个语种的归一化值,对预设的语种信息重新采样,得到重采样语种数据。