本申请涉及人工智能,特别是涉及一种语音情感识别方法、装置、设备和介质。
背景技术:
1、随着人工智能技术的快速发展,语音情感识别在人机交互、智能客服和心理咨询等多个领域展现出了巨大的应用潜力。以智能客服为例,通过识别用户的情感状态,有利于智能客服系统提供更加贴心和个性化的服务,从而提升用户体验。
2、然而,传统的语音情感识别方法主要依赖于人工设计的特征提取(即手工设计特征)和分类算法,存在特征提取不全面和识别精度低的问题。
技术实现思路
1、鉴于上述问题,本申请实施例提供了一种语音情感识别方法、装置、设备和介质,以便克服上述问题或者至少部分地解决上述问题。
2、本申请实施例的第一方面,提供了一种语音情感识别方法,所述方法包括:
3、获取来自于用户的语音信号;
4、将所述语音信号转换为时间序列数据,并从所述语音信号中提取多个维度的声学特征,所述声学特征用于反映语音信号的物理属性;
5、通过预先训练好的卷积神经网络cnn模型,对所述时间序列数据和所述多个维度的声学特征进行特征提取,得到目标特征;
6、通过预先训练好的循环神经网络rnn模型,根据所述目标特征确定情感类型的识别结果。
7、作为一种可能的实施方式,所述方法还包括:
8、获取多个语音信号样本;
9、对于每个所述语音信号样本,对所述语音信号样本的语言表达进行分析,确定所述语言表达与各个预设情感类型之间的第一匹配情况,所述各个预设情感类型包括:喜悦、悲伤、愤怒、惊讶、恐惧、平静、厌恶、爱、焦虑、尴尬、困惑、轻蔑、渴望、宽慰和期待;
10、对于每个所述语音信号样本,对所述语音信号样本的声音属性进行分析,确定所述声音属性与所述各个预设情感类型之间的第二匹配情况;
11、根据所述多个语音信号样本各自所对应的第一匹配情况和第二匹配情况,从所述各个预设情感类型中确定所述多个语音信号样本各自所对应的情感类型标签;
12、使用所述多个语音信号样本及其各自所对应的情感类型标签,对所述cnn模型和所述rnn模型进行训练。
13、作为一种可能的实施方式,所述对所述语音信号样本的语言表达进行分析,确定所述语言表达与各个预设情感类型之间的第一匹配情况,包括:
14、根据所述各个预设情感类型各自所关联的词汇各自在所述语言表达中的出现次数,确定所述语言表达与所述各个预设情感类型之间的第一匹配情况。
15、作为一种可能的实施方式,所述对所述语音信号样本的声音属性进行分析,确定所述声音属性与所述各个预设情感类型之间的第二匹配情况,包括:
16、将所述各个预设情感类型各自所关联的声音属性的属性特征,分别与所述语音信号样本的声音属性的属性特征进行匹配,得到所述声音属性与所述各个预设情感类型之间的第二匹配情况,所述声音属性包括:语调和语速。
17、作为一种可能的实施方式,所述cnn模型包括:
18、输入层,用于接收所述时间序列数据和所述多个维度的声学特征所构成的特征图;
19、卷积单元,用于对所述特征图进行由浅层特征至深层特征的逐层特征提取;
20、一个或多个全连接层,用于对所述卷积单元提取出的特征进行处理,得到所述目标特征;
21、输出层,用于输出所述目标特征。
22、作为一种可能的实施方式,所述卷积单元包括:通过激活函数层和池化层进行连接的多个卷积层。
23、作为一种可能的实施方式,所述将所述语音信号转换为时间序列数据,并从所述语音信号中提取多个维度的声学特征,包括:
24、对所述语音信号进行预处理,并将预处理后的所述语音信号转换为时间序列数据,所述预处理包括:去噪、音频格式标准化和采样率统一;
25、从预处理后的所述语音信号中提取多个维度的声学特征,所述多个维度的声学特征包括:频谱特征、梅尔频率倒谱系数和声谱图。
26、本申请实施例的第二方面,提供了一种语音情感识别装置,所述装置包括:
27、信号获取模块,用于获取来自于用户的语音信号;
28、信号处理模块,用于将所述语音信号转换为时间序列数据,并从所述语音信号中提取多个维度的声学特征,所述声学特征用于反映语音信号的物理属性;
29、特征提取模块,用于通过预先训练好的卷积神经网络cnn模型,对所述时间序列数据和所述多个维度的声学特征进行特征提取,得到目标特征;
30、情感识别模块,用于通过预先训练好的循环神经网络rnn模型,根据所述目标特征确定情感类型的识别结果。
31、本申请实施例的第三方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的语音情感识别方法的步骤。
32、本申请实施例的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现如第一方面所述的语音情感识别方法的步骤。
33、本申请实施例包括以下优点:通过引入cnn模型,对所述时间序列数据和所述多个维度的声学特征进一步提取深层次特征(即目标特征),可以避免传统方法中人工设计的特征提取所存在的主观性和不全面性问题;再通过引入rnn模型,根据所述cnn模型提取出的目标特征,自动确定情感类型的识别结果,由此以混合模型的方式实现语音情感识别,可以避免使用单一模型的局限性,且借助于模型的适应性和泛化能力能够提高情感分类的鲁棒性;如此,可以实现对语音情感识别精度的有效提高。
1.一种语音情感识别方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述对所述语音信号样本的语言表达进行分析,确定所述语言表达与各个预设情感类型之间的第一匹配情况,包括:
4.根据权利要求2所述的方法,其特征在于,所述对所述语音信号样本的声音属性进行分析,确定所述声音属性与所述各个预设情感类型之间的第二匹配情况,包括:
5.根据权利要求1所述的方法,其特征在于,所述cnn模型包括:
6.根据权利要求5所述的方法,其特征在于,所述卷积单元包括:通过激活函数层和池化层进行连接的多个卷积层。
7.根据权利要求1-6任一所述的方法,其特征在于,所述将所述语音信号转换为时间序列数据,并从所述语音信号中提取多个维度的声学特征,包括:
8.一种语音情感识别装置,其特征在于,所述装置包括:
9.一种电子设备,包括存储器、处理器及存储在所述存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现如权利要求1至7中任一项所述的语音情感识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现如权利要求1至7中任一项所述的语音情感识别方法。