一种基于双层知识蒸馏说话人模型压缩系统和方法与流程

文档序号:24814054发布日期:2021-04-27 13:33阅读:来源:国知局

技术特征:
1.一种基于双层知识蒸馏说话人模型压缩方法,其特征在于,包括:s101,训练一个教师模型,所述教师模型能够提取教师网络学习的说话人表征,所述教师模型能够预测教师网络学习的说话人后验概率分布;s102,所述教师模型包括一个教师网络,所述教师网络包括表征层和后验概率层;s103,通过知识蒸馏,利用所述教师模型对学生模型进行训练;所述学生模型包括一个学生网络,所述学生模型能够提取学生网络学习的说话人表征;s104,所述双层知识蒸馏能够从所述教师网络中同时提取表征层和后验概率层的知识;s105,通过所述教师网络学习的说话人表征进行表征层知识蒸馏;s106,所述表征层知识蒸馏指导学生网络模仿教师网络的说话人表征;s107,通过所述教师网络学习的说话人后验概率分布进行后验概率层知识蒸馏;s108,所述后验概率层知识蒸馏通过说话人类别之间的相似性引导学生网络模仿教师网络的说话人后验概率分布;s109,所述双层知识蒸馏能够将所述学生网络和所述教师网络之间的表征层和后验概率层输出的差异添加到总分类损失中;s110,所述双层蒸馏能够得到说话人类内表征的分布和类间表征的相似性;通过说话人表征的层次化分布指导学生实现较小的说话人类内差异和较大的说话人类间差异,从而最终提高说话人建模的准确性。2.如权利要求1所述的基于双层知识蒸馏说话人模型压缩方法,其特征是,所述表征层知识蒸馏能够得到所述教师网络对每个说话人表征的总体分布,从而直接指导学生网络说话人类内表征的收敛。3.如权利要求2所述的基于双层知识蒸馏说话人模型压缩方法,其特征是,从所述教师网络后验概率层的输出中提取知识,所述后验概率层知识蒸馏通过所述教师模型能够预测的后验分布指导所述学生模型的优化;所述后验概率层知识蒸馏能够学到说话人类别之间的相似性。4.如权利要求3所述的基于双层知识蒸馏说话人模型压缩方法,其特征是,从所述教师网络后验概率层的输出中提取知识。5.如权利要求4所述的基于双层知识蒸馏说话人模型压缩方法,其特征是,将所述教师网络后验概率层的输出作为标准,纳入所述学生网络损失函数的计算,引导所述学生模型参数的更新。6.如权利要求5所述的基于双层知识蒸馏说话人模型压缩方法,其特征是,所述后验概率层知识蒸馏通过教师模型预测的后验概率分布指导所述学生模型的优化。7.如权利要求6所述的基于双层知识蒸馏说话人模型压缩方法,其特征是,所述学生模型通过分类函数am

loss引入参数m控制角度余量,所述学生模型在不同说话人类别的表征之间生成角度分类余量,所述学生模型能够使得正确分类的要求更为严格。8.如权利要求7所述的基于双层知识蒸馏说话人模型压缩方法,其特征是,所述总分类损失为表征层知识蒸馏的余弦距离损失、后验概率层知识蒸馏的kl散度损失和用于说话人分类的softmax损失。9.一种基于双层知识蒸馏说话人模型压缩系统,其特征在于,包括:
训练一个教师模型,所述教师模型能够提取教师网络学习的说话人表征,所述教师模型能够预测教师网络学习的说话人后验概率分布;所述教师模型包括一个教师网络,所述教师网络包括表征层和后验概率层;通过知识蒸馏,利用所述教师模型对学生模型进行训练;所述学生模型包括一个学生网络,所述学生模型能够提取学生网络学习的说话人表征;所述双层知识蒸馏能够从所述教师网络中同时提取表征层和后验概率层的知识;通过所述教师网络学习的说话人表征进行表征层知识蒸馏;所述表征层知识蒸馏指导学生网络模仿教师网络的说话人表征;通过所述教师网络学习的说话人后验概率分布进行后验概率层知识蒸馏;所述后验概率层知识蒸馏通过说话人类别之间的相似性引导学生网络模仿教师网络的说话人后验概率分布;所述双层知识蒸馏能够将所述学生网络和所述教师网络之间的表征层和后验概率层输出的差异添加到总分类损失中;所述双层蒸馏能够得到说话人类内表征的分布和类间表征的相似性;通过说话人表征的层次化分布指导学生实现较小的说话人类内差异和较大的说话人类间差异,从而最终提高说话人建模的准确性。
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1