语音情绪识别模型训练方法、语音情绪识别方法及装置与流程

文档序号：33713994发布日期：2023-04-01 03:11阅读：来源：国知局

技术特征：
1.一种语音情绪识别模型训练方法，其特征在于，所述方法包括：获取无标注语音数据集及有标注语音数据集，所述有标注语音数据集中的标注为语音对应的情绪；基于所述无标注语音数据集进行自监督训练，得到预训练模型；基于所述有标注语音数据集对所述预训练模型进行训练，得到初始语音情绪识别模型；基于所述初始语音情绪识别模型，对所述无标注语音数据集进行筛选，得到无标注训练数据集；基于所述无标注训练数据集和所述有标注语音数据集对所述预训练模型进行半监督训练，得到目标语音情绪识别模型。2.根据权利要求1所述的方法，其特征在于，所述基于所述初始语音情绪识别模型，对所述无标注语音数据集进行筛选，得到无标注训练数据集，包括：基于所述初始语音情绪识别模型，对所述无标注语音数据集的情绪进行分类，得到包含不同情绪的所述无标注语音数据，以相同的比例选取包含不同情绪种类的无标注语音数据，得到所述无标注训练数据集。3.根据权利要求1所述的方法，其特征在于，所述基于所述无标注训练数据集和所述有标注语音数据集对所述预训练模型进行半监督训练，得到目标语音情绪识别模型包括：对所述无标注训练数据集进行数据增强，得到增强数据集；基于所述有标注语音数据集、无标注训练数据集及增强数据集，对所述预训练模型进行训练，得到所述目标语音情绪识别模型。4.根据权利要求3所述的方法，其特征在于，所述基于所述有标注语音数据集、无标注训练数据集及增强数据集，对所述预训练模型进行训练，得到目标语音情绪识别模型，包括：将所述有标注语音数据集、无标注训练数据集及增强数据集输入所述预训练模型，计算得到所述有标注语音数据集输出概率、无标注训练数据集输出概率及增强数据集输出概率；基于所述有标注语音数据集输出概率、无标注训练数据集输出概率及增强数据集输出概率，计算得到有标注语音数据集损失及无标注训练数据集损失；基于所述有标注语音数据集损失及无标注训练数据集损失，对所述预训练模型进行训练，得到所述目标语音情绪识别模型。5.根据权利要求4所述的方法，其特征在于，所述基于所述有标注语音数据集输出概率、无标注训练数据集输出概率及增强数据集输出概率，计算得到所述有标注语音数据集损失及无标注训练数据集损失，包括：基于所述有标注语音数据集输出概率及所述有标注语音数据集对应的标注类别，计算得到所述有标注语音数据集的交叉熵损失作为所述有标注语音数据集损失；设定阈值，在所述无标注训练数据集输出概率大于所述阈值时，基于所述无标注训练数据集输出概率，计算得到所述无标注训练数据集的伪标签；基于所述无标注训练数据集的伪标签和增强数据集输出概率，计算得到所述增强数据集的交叉熵损失；
基于所述无标注训练数据集输出概率及增强数据集输出概率，计算得到所述无标注训练数据集与增强数据集的kl散度损失；基于所述增强数据集的交叉熵损失及所述无标注训练数据集与增强数据集的kl散度损失，得到所述无标注训练数据集损失。6.一种语音情绪识别方法，其特征在于，所述方法包括：获取待识别语音数据；将所述待识别语音数据输入语音情绪识别模型中，识别出所述待识别语音数据的情绪结果，其中所述语音情绪识别模型是利用权利要求1-5任意一项所述的语音情绪识别模型的训练方法训练得到的。7.一种语音情绪识别模型训练装置，其特征在于，所述装置包括：第一获取单元，用于获取无标注语音数据集及有标注语音数据集，所述有标注语音数据集中的标注为语音对应的情绪；第一训练单元，用于基于所述无标注语音数据集进行自监督训练，得到预训练模型；第二训练单元，用于基于所述有标注语音数据集对所述预训练模型进行训练，得到初始语音情绪识别模型；筛选单元，用于基于所述初始语音情绪识别模型，对所述无标注语音数据集进行筛选，得到无标注训练数据集；第三训练单元，用于基于所述无标注训练数据集和所述有标注语音数据集对所述预训练模型进行半监督训练，得到目标语音情绪识别模型。8.一种语音情绪识别装置，其特征在于，所述装置包括：第二获取单元，用于获取待识别语音数据；识别单元，用于将所述待识别语音数据输入语音情绪识别模型中，识别出所述待识别语音数据的情绪结果，其中所述语音情绪识别模型是利用权利要求1-5任意一项所述的语音情绪识别模型的训练方法训练得到的。9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1-5中任一项所述的语音情绪识别模型训练方法或者执行权利要求6所述的语音情绪识别方法。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的语音情绪识别模型训练方法或者执行权利要求6所述的语音情绪识别方法。

技术总结
本发明提供语音情绪识别模型训练方法、语音情绪识别方法及装置，该方法包括：获取无标注语音数据集及有标注语音数据集；基于无标注语音数据集进行自监督训练，得到预训练模型；基于有标注语音数据集对预训练模型进行训练，得到初始语音情绪识别模型；基于初始语音情绪识别模型，对无标注语音数据集进行筛选，得到无标注训练数据集；基于无标注训练数据集和有标注语音数据集对预训练模型进行半监督训练，得到目标语音情绪识别模型。通过本发明，能够利用很少的标注语音数据，通过自监督学习及半监督学习，训练得到语音情绪识别模型，大幅度降低了对有标注语音的依赖性，训练得到的语音情绪识别模型具备鲁棒性高、泛化能力强、可跨领域使用的特点。领域使用的特点。领域使用的特点。

技术研发人员：李蒙
受保护的技术使用者：镁佳(北京)科技有限公司
技术研发日：2022.11.23
技术公布日：2023/3/31

完整全部详细技术资料下载

当前第2页1 2