本申请实施例涉及语音处理。更具体地讲,涉及一种语音信号的处理设备及方法。
背景技术:
1、目前,在语音识别领域,随着基于transformer(一种神经网络)模型的深度学习语音识别架构的发展,可以对原始语音信号进行变换与分析提取语音的韵律学信息、频谱信息,进而从语音信号中提取出具有语义、情感的语音特征,但在在提取语音特征时,由于低级的语音描述符或统计值的描述能力有限,不能保证系统的良好性能,不能很好的提取全局的语音信息,导致提取的语音特征表达能力不足。
技术实现思路
1、本申请示例性的实施方式提供一种语音信号的处理方法,用于获得更加丰富且具有表达能力的语音特征。
2、本申请实施例提供技术方案如下:
3、第一方面,本申请实施例提供了一种语音信号的处理设备,包括:
4、检测器,被配置为获取语音信号;
5、控制器,被配置为:
6、提取所述语音信号的各个音频帧的语义特征和情绪特征;
7、对所述语音信号的各个语音帧的语义特征和情绪特征进行多模态双线性池化,获取所述语音信号的各个语音帧的融合特征;
8、对所述语音信号的各个语音帧的融合特征进行合并,得到所述语音信号的声学特征。
9、第二方面,本申请实施例提供了一种语音信号的处理方法,包括:
10、获取语音信号;
11、提取所述语音信号的各个音频帧的语义特征和情绪特征;
12、对所述语音信号的各个语音帧的语义特征和情绪特征进行多模态双线性池化,获取所述语音信号的各个语音帧的融合特征;
13、对所述语音信号的各个语音帧的融合特征进行合并,得到所述语音信号的声学特征。
14、第三方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,当所述计算机程序被计算设备执行时,使得所述计算设备实现第一方面任一实施例项所述的语音信号的处理方法。
15、第四方面,本申请提供了一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机实现如第二方面所示的语音信号的处理方法。
16、由以上技术方案可知,本申请实施例提供的语音信号的处理方法,首先,通过检测器获取语音信号,然后控制器提取所述语音信号的各个音频帧的语义特征和情绪特征,并对所述语音信号的各个语音帧的语义特征和情绪特征进行多模态双线性池化,获取所述语音信号的各个语音帧的融合特征,最终对所述语音信号的各个语音帧的融合特征进行合并,得到所述语音信号的声学特征。与现有技术相比,从语音信号中提取到的全局的声学特征表达能力不强,本申请的技术方案,通过将语音帧的语义特征和情绪特征进行融合以及合并,充分融合局部细节信息与全局语义信息,进而在语音信号中获得更加丰富的语音语义内容和情绪内容,因此,本申请能够提取更加丰富的语音特征,有效提高后续语音特征的表达能力。
1.一种语音信号的处理设备,其特征在于,包括:
2.根据权利要求1所述的语音信号的处理设备,其特征在于,所述控制器具体被配置为:
3.根据权利要求2所述的语音信号的处理设备,其特征在于,所述控制器具体被配置为:
4.根据权利要求1所述的语音信号的处理设备,其特征在于,所述控制器还被配置为:
5.根据权利要求4所述的语音信号的处理设备,其特征在于,所述编码器组件,包括:
6.根据权利要求4所述的语音信号的处理设备,其特征在于,所述解码器组件,包括:多级解码器;任一解码器包括:
7.根据权利要求4所述的语音信号的处理设备,其特征在于,所述控制器还被配置为:
8.根据权利要求7所述的语音信号的处理设备,其特征在于,所述基于样本数据集合对包括所述编码器组件和所述解码器组件的机器学习模型进行训练时采用的损失函数包括:
9.根据权利要求7所述的语音信号的处理设备,其特征在于,所述控制器还被配置为:
10.一种语音信号的处理方法,其特征在于,包括: