本发明涉及语音识别,特别是涉及基于知识蒸馏的海南方言语音识别优化系统。
背景技术:
1、方言的保护和智能识别技术的发展成为了社会关注的焦点。目前,海南方言语音识别技术虽已取得一定成果,但在实际运用中,其识别准确率仍有待提升。首要制约因素在于训练数据规模受限与模型泛化能力不足。尽管有研究团队在竭力构建海南方言语音数据库,相较于普通话及粤语等已建立成熟语料体系的语言,海南方言语音资源库建设呈现明显滞后性,进而制约了模型的训练与性能优化。同时,该技术在实际应用场景中的适应性也略显不足。面对复杂的环境噪音、各异的说话人风格以及多样的语言表达方式,海南方言语音识别系统的应对能力尚需提升,这也限制了其在旅游、医疗、养老等领域的广泛应用。
2、相对于稀缺的海南方言音频-文本配对数据,实际生产中获取纯文本数据的成本确实更低,且可获取的纯文本数据数量往往比音频-文本配对数据多出数个甚至数十个数量级。将一个外部语言模型集成到一个语音识别系统中是很重要的。传统方法如浅层融合或深层融合虽然有效,但是模型较为复杂,并且在解码时计算量大。
技术实现思路
1、针对上述现有技术,本发明在于提供基于知识蒸馏的海南方言语音识别优化系统,主要解决上述背景技术中存在的技术问题。
2、为达到上述目的,本发明实施例的技术方案是这样实现的:
3、基于知识蒸馏的海南方言语音识别优化系统,包括:
4、数据预处理模块,用于对海南方言语音数据、海南方言文本数据进行处理,输出得到mfcc语音特征序列、标注的文本标签、海南方言文本数据;
5、教师模型模块,包括rnn语言模型、cnn语言模型、transformer语言模型,将所述方言文本数据分别输入所述rnn语言模型、所述cnn语言模型、所述transformer语言模型中,经过动态温度调节,得到软标签和中间层特征;
6、学生模型训练模块,根据所述mfcc语音特征序列、所述标注的文本标签、所述软标签、所述中间层特征对学生模型进行知识蒸馏以及参数调优;
7、输出模块,利用知识蒸馏以及参数调优后的学生模型对海南方言进行语音识别,得到识别结果。
8、可选地,所述rnn语言模型为基于lstm的循环神经网络语言模型,用于捕捉所述海南方言文本数据中的序列依赖关系;
9、所述cnn语言模型为基于卷积神经网络的语言模型,用于捕捉所述海南方言文本数据的局部特征;
10、所述transformer语言模型为由多层transformer编码器堆叠而成,用于提取所述海南方言文本数据的多尺度特征。
11、可选地,所述根据所述mfcc语音特征序列、所述标注的文本标签、所述软标签、所述中间层特征对学生模型进行知识蒸馏和参数调优,包括:
12、对于所述mfcc语音特征序列,利用所述学生模型前向传播生成预测结果;
13、对于所述标注的文本标签,将所述标注的文本标签作为真实标签,计算所述预测结果与所述真实标签的交叉熵损失,得到分类损失;
14、对于所述软标签,将分别经过所述rnn语言模型、所述cnn语言模型、所述transformer语言模型得到的软标签进行加权平均,计算学生模型的预测结果与加权平均后的软标签之间的蒸馏损失;
15、对于所述中间层特征,提取所述学生模型中与所述教师模型对应的实时中间层特征,将所述教师模型输出的中间层特征与所述学生模型提取的实时中间层特征进行匹配,并计算所述教师模型的中间层特征与所述学生模型的实时中间层特征的余弦相似度损失,得到中间层特征匹配损失;
16、基于所述分类损失、所述蒸馏损失、所述中间层特征匹配损失计算总损失函数,根据所述总损失函数进行训练,得到训练好的学生模型。
17、可选地,所述分类损失的计算公式为:
18、
19、其中,y为真实标签,t为温度,q(t)为学生模型输出软化后的概率分布;为分类损失。
20、可选地,所述蒸馏损失的计算公式为:
21、
22、其中,为蒸馏损失,t为温度,p(t)为教师模型输出软化后的概率分布,m为教师模型数量,为第m个教师模型经温度处理的软标签,wm为权重;
23、所述蒸馏损失中的权重计算公式为:
24、
25、confidencem=1/cerm
26、其中,confidencem为第m个教师模型的置信度。
27、可选地,所述中间层特征匹配损失的计算公式为:
28、
29、其中,l为中间层数量,为教师模型第l层的特征,为学生模型第l层的特征。
30、可选地,所述总损失函数的表达式为:
31、
32、其中,ɑ、β为损失权重,为总损失,为分类损失,为蒸馏损失,为中间层特征匹配损失。
33、本发明的有益效果在于:本发明提供的基于知识蒸馏的海南方言语音识别优化系统,通过数据预处理模块对海南方言语音数据和海南方言文本数据进行预处理,提取mfcc语音特征序列,得到文本标签、海南方言文本数据,将经过数据预处理模块处理的海南方言文本数据利用教师模型模块进行处理,教师模型模块中包括多个语言模型,利用多个语言模型进行融合,生成软标签和中间层特征,再利用学生模型训练模块进行知识蒸馏和参数调优,计算分类损失、蒸馏损失和中间层特征匹配损失,得到总损失函数,通过总损失函数优化训练过程,最后得到训练好的学生模型,利用训练好的学生模型对海南方言进行语言识别,得到语音识别结果;在训练阶段通过利用多个外部语言模型生成软标签来指导学生模型的训练,在解码阶段不需要引入额外的外部语言模型,从而减少了计算复杂度;以及通过将教师模型的知识迁移到学生模型中,即:将复杂模型中的知识迁移到简单模型中,参数更少,计算的复杂度更低。
1.基于知识蒸馏的海南方言语音识别优化系统,其特征在于,包括:
2.根据权利要求1所述的基于知识蒸馏的海南方言语音识别优化系统,其特征在于,所述rnn语言模型为基于lstm的循环神经网络语言模型,用于捕捉所述海南方言文本数据中的序列依赖关系;
3.根据权利要求1所述的基于知识蒸馏的海南方言语音识别优化系统,其特征在于,所述根据所述mfcc语音特征序列、所述标注的文本标签、所述软标签、所述中间层特征对学生模型进行知识蒸馏和参数调优,包括:
4.根据权利要求3所述的基于知识蒸馏的海南方言语音识别优化系统,其特征在于,所述分类损失的计算公式为:
5.根据权利要求3所述的基于知识蒸馏的海南方言语音识别优化系统,其特征在于,所述蒸馏损失的计算公式为:
6.根据权利要求3所述的基于知识蒸馏的海南方言语音识别优化系统,其特征在于,所述中间层特征匹配损失的计算公式为:
7.根据权利要求3所述的基于知识蒸馏的海南方言语音识别优化系统,其特征在于,所述总损失函数的表达式为: