本申请涉及数据处理,特别是涉及一种情感识别模型的训练方法、装置、电子设备和存储介质。
背景技术:
1、随着物联网、人工智能等技术的发展,音频(如,音乐)情感识别技术被应用于各个领域。目前,情感识别模型的训练一般采用有监督的方式,由于带有情感标注的数据稀缺,所以有监督方法训练的情感识别模型的情感识别精度不够。
技术实现思路
1、本申请主要解决的技术问题是提供一种情感识别模型的训练方法、装置、电子设备和存储介质,能够提高情感识别模型的泛化能力和情感识别能力。
2、为解决上述技术问题,本申请采用的一个技术方案是:提供一种情感识别模型的训练方法,该方法包括:获取未标注真实情感信息的第一样本音频和标注有真实情感信息的第二样本音频;对第一样本音频进行屏蔽处理,得到第三样本音频;利用第一样本音频和第三样本音频对初始情感识别模型进行训练,得到第一情感识别模型;利用第二样本音频对第一情感识别模型进行训练,得到第二情感识别模型。
3、其中,对第一样本音频进行屏蔽处理,得到第三样本音频,包括:对第一样本音频进行声学特征提取,得到第一样本声学信息;在至少一种维度下,对第一样本声学信息进行屏蔽处理,得到第三样本声学信息;利用第三样本音频对初始情感识别模型进行训练,得到第一情感识别模型,包括:利用第一样本声学信息和第三样本声学信息对初始情感识别模型进行训练,得到第一情感识别模型。
4、其中,声学信息为二维的梅尔频谱图,至少一种维度包括时间维度和频率维度。
5、其中,样本梅尔频谱图由若干频谱点构成;对第一样本声学信息进行至少一种维度下的屏蔽处理,得到第三样本声学信息,包括:对于各维度,以维度对应的预设区域中的任一频谱点为起点,将从起点开始连续的预设数量频谱点进行屏蔽处理,得到第三样本声学信息;其中,预设数量频谱点沿维度对应的第一方向分布,预设区域为样本梅尔频谱图中的区域,时间维度对应的预设区域基于时间维度的维数确定,频率维度对应的预设区域基于频率维度的维数确定。
6、其中,频率维度对应的预设区域为纵坐标在0与第一差值之间的区域,时间维度对应的预设区域为横坐标在0与第二差值之间的区域;其中,第一差值为频率维度对应的维数与频率维度对应的预设数量之间的差值,第二差值为时间维度对应的维数与时间维度对应的预设数量之间的差值,时间维度为梅尔频谱图的x轴,频率维度为梅尔频谱图的y轴,频率维度对应的第一方向为x轴的正方向,时间维度对应的第一方向为y轴的正方向;和/或,将从起点开始连续的预设数量所述频谱点进行屏蔽处理,得到第三样本声学信息,包括:将从起点开始连续的预设数量所述频谱点,赋第一预设值。
7、其中,初始情感识别模型包括特征提取网络和情感识别网络;利用第三样本声学信息对初始情感识别模型进行训练,得到第一情感识别模型,包括:利用特征提取网络分别对第一样本声学信息和第三样本声学信息进行特征提取,得到第一样本声学特征和第二样本声学特征;利用情感识别网络对第一样本声学特征和第二样本声学特征进行情感识别,对应得到第一样本情感识别结果和第二样本情感识别结果;至少基于第一样本情感识别结果与第二样本情感识别结果之间的第一差异,调整情感识别网络的网络参数,得到第一情感识别模型。
8、其中,特征提取网络包括相互连接的深层卷积层和多头自注意力层;利用特征提取网络分别对第一样本声学信息和第三样本声学信息进行特征提取,得到第一样本声学特征和第二样本声学特征,包括:利用多头自注意力层分别对第一样本声学信息和第三样本声学信息进行特征提取,得到第一样本全局声学特征和第二样本全局声学特征;以及,利用深层卷积层分别对第一样本声学信息和第三样本声学信息进行特征提取,得到第一样本局部声学特征和第二样本局部声学特征;利用情感识别网络对第一样本声学特征进行情感识别,对应得到第一样本情感识别结果,包括:利用情感识别网络,基于第一样本全局声学特征和第一样本局部声学特征进行情感识别,得到第一样本情感识别结果;利用情感识别网络对第二样本声学特征进行情感识别,对应得到第二样本情感识别结果,包括:利用情感识别网络,基于第二样本全局声学特征和第二样本局部声学特征进行情感识别,得到第二样本情感识别结果。
9、其中,利用第二样本音频对第一情感识别模型进行训练,得到第二情感识别模型,包括:利用第一情感识别模型对第二样本音频进行情感识别,得到第三样本情感识别结果;至少基于第三样本情感识别结果与真实情感信息之间的第二差异,调整第一情感识别模型的网络参数,得到第二情感识别模型;和/或,初始情感识别模型为卷积-注意力机制混合结构模型。
10、为解决上述技术问题,本申请采用的另一个技术方案是:提供一种情感识别模型的训练装置,该装置包括获取模块、屏蔽模块、第一训练模块和第二训练模块;获取模块用于获取未标注真实情感信息的第一样本音频和标注有真实情感信息的第二样本音频;屏蔽模块用于对第一样本音频进行屏蔽处理,得到第三样本音频;第一训练模块用于利用第一样本音频和第三样本音频对初始情感识别模型进行训练,得到第一情感识别模型;第二训练模块用于利用第二样本音频对第一情感识别模型进行训练,得到第二情感识别模型。
11、为解决上述技术问题,本申请采用的另一个技术方案是:提供一种电子设备,该电子设备包括互相耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述的情感识别模型的训练方法。
12、为解决上述技术问题,本申请采用的另一个技术方案是:提供一种计算机可读存储介质,该计算机可读存储介质存储有能够被处理器运行的程序指令,程序指令用于实现上述的情感识别模型的训练方法。
13、上述技术方案。利用第二样本音频对第一情感识别模型进行训练而得到第二情感识别模型,使得第二情感识别模型具有较好的情感识别效果。另外,由于第一情感识别模型是利用大量不带有真实情感信息标注的样本音频数据训练得到的,第一情感识别模型具有较好的泛化能力,所以利用带有真实情感信息标注的样本音频数据对第一情感识别模型训练得到第二情感识别模型,同样也具有较好的泛化能力;因此,即便是在带有真实情感信息标注的样本音频数据较少时,第二情感识别模型也具有较好的泛化能力。故,本申请提供的情感识别模型的训练方法,是结合了无监督预训练和带有标签数据训练两个阶段对情感识别模型进行训练的,一方面,能够使得训练完成的情感识别模型具有较好的情感识别效果;另一方面,实现在带有真实情感信息标注的样本音频数据稀缺的情况下,也能够训练得到泛化能力较好的情感识别模型
1.一种情感识别模型的训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述对所述第一样本音频进行屏蔽处理,得到第三样本音频,包括:
3.根据权利要求2所述的方法,其特征在于,
4.根据权利要求3所述的方法,其特征在于,样本梅尔频谱图由若干频谱点构成;所述对所述第一样本声学信息进行至少一种维度下的屏蔽处理,得到所述第三样本声学信息,包括:
5.根据权利要求4所述的方法,其特征在于,
6.根据权利要求2所述的方法,其特征在于,所述初始情感识别模型包括特征提取网络和情感识别网络;所述利用所述第三样本声学信息对初始情感识别模型进行训练,得到所述第一情感识别模型,包括:
7.根据权利要求6所述的方法,其特征在于,所述特征提取网络包括相互连接的深层卷积层和多头自注意力层;所述利用所述特征提取网络分别对所述第一样本声学信息和所述第三样本声学信息进行特征提取,得到第一样本声学特征和第二样本声学特征,包括:
8.根据权利要求1所述的方法,其特征在于,所述利用所述第二样本音频对所述第一情感识别模型进行训练,得到第二情感识别模型,包括:
9.一种情感识别模型的训练装置,其特征在于,该装置包括:
10.一种电子设备,其特征在于,所述电子设备包括互相耦接的存储器和处理器,所述存储器中存储有程序指令,所述处理器用于执行所述程序指令以实现如权利要求1-8任一项所述的情感识别模型的训练方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有能够被处理器运行的程序指令,所述程序指令用于实现如权利要求1-8任一项所述的情感识别模型的训练方法。