本技术涉及语音,尤其涉及一种语音增强方法、训练方法及设备。
背景技术:
1、语音增强(se,speech enhancement)是一种广泛应用于语音处理领域的技术,用于去除语音信号中的干扰噪声(如环境噪声、设备噪声、混响等),以提高语音的可懂度(stoi,short-time objective intelligibility)和信噪比(snr,signal-to-noiseratio)。语音增强技术广泛用于语音识别、语音翻译、智能音箱、通话降噪等多个领域,尤其在多噪声混合环境和低信噪比场景下,它的作用尤为显著。
2、现有的语音增强方法主要分为传统信号处理方法和基于深度学习的方法。传统方法,如谱减法和维纳滤波,尽管在处理简单噪声时具有一定效果,但在低信噪比和复杂噪声环境下,其性能显著下降,难以有效应对。与之相比,基于深度学习的语音增强技术,特别是神经网络模型,在处理非平稳噪声、多噪声混合场景等复杂条件时,表现出更好的去噪声效果。
3、然而,这类深度学习模型通常伴随高计算复杂度和大规模参数量,给嵌入式设备等资源有限的硬件平台部署带来巨大挑战。此外,现有的神经网络模型多聚焦于噪声处理,尽管在去噪声方面有所突破,但在混响去除上仍存在较大局限,特别是在同步实现去噪声和去混响的任务中,模型训练难度增加,且效果难以平衡。去噪声和去混响是两个复杂的子任务,通常对信号的不同方面进行处理,而同时解决这两个问题则更为复杂,现有模型在这方面的表现普遍较为不足。另一方面,现有模型训练通常依赖于提前制作好的数据集,这些数据的表示空间有限,容易导致模型在训练中过拟合,无法很好地适应不同环境下的变化。
技术实现思路
1、本技术提出一种语音增强方法、训练方法及设备,能够解决背景技术中所存在问题之一。
2、为达到上述目的,本技术采用如下技术方案:
3、第一方面,提供了一种语音增强模型的训练方法,所述训练方法包括:
4、获得训练数据,所述训练数据包括:第一语音数据、第二语音数据以及第三语音数据,所述第一语音数据带有噪声和全混响,所述第二语音数据带有全混响,所述第三语音数据带有早期混响,所述早期混响是从所述全混响中截取得来;以及
5、利用所述训练数据,对语音增强模型进行训练,
6、所述语音增强模型包括:用于获得去除所述噪声的第一阶段模型及用于仅保留所述早期混响的第二阶段模型,
7、所述第一阶段模型包括依次设置的:用于将训练数据进行时频域转换得到第一谱图的第一时频域转换模块、用于对所述第一谱图进行编码得到第一频域特征的第一编码器、用于对所述第一频域特征进行解码得到掩码的第一解码器,以及用于由所述第一谱图与所述掩码得到第二谱图的第一点乘模块,
8、所述第二阶段模型包括依次设置的:用于对所述第二谱图进行编码得到第二频域特征的第二编码器、用于对所述第二频域特征进行解码得到第三谱图的第二解码器,以及用于将所述第三谱图进行频时转换得到增强语音的第二时频转换模块。
9、基于上述技术方案,所构建的语音增强模型包括:用于获得去除所述噪声的第一阶段模型及用于仅保留所述早期混响的第二阶段模型,实现了对去噪和去除除早期混响外的其他混响的解耦,使得每个阶段的网络都能专注于去噪声或者去混响,在保证效果的同时,缩小了模型参数量,减低了模型复杂度。
10、在第一方面的一种可能的设计方式中,获得训练数据具体包括:
11、获得干净语音、噪声音频及冲击响应信号;
12、利用所述干净语音及所述冲击响应信号,随机生成若干所述第二语音数据及所述第三语音数据;以及
13、利用所述第二语音数据及所述噪声音频,随机生成若干所述第一语音数据。
14、在第一方面的一种可能的设计方式中,获得训练数据还包括:对所述第一语音数据、所述第二语音数据及所述第三语音数据进行长度调整、音量调整和/或信噪比调整。
15、基于上述技术方案,可合成更多的数据,扩大数据空间,避免模型过拟合,提高泛化能力。
16、在第一方面的一种可能的设计方式中,所述第一阶段模型还包括:设置于所述第一编码器与所述第一解码器之间的、用于利用所捕获特征之间的前后文关系对所述第一频域特征进行增强的第一增强器,所述第二阶段模型还包括:设置于所述第二编码器与所述第二解码器之间的、用于利用所捕获特征之间的前后文关系对所述第二频域特征进行增强的第二增强器。
17、在第一方面的一种可能的设计方式中,所述第一增强器与所述第二增强器采用双路径循环语音分离神经网络。
18、基于上述技术方案,利用捕获特征之间的前后文关系,可利用相邻的频率成分辅助修复,使得模型更加稳定。
19、在第一方面的一种可能的设计方式中,所述第一编码器与所述第二编码器采用如下相同的结构:第一支路、第二支路以及第二点乘模块,所述第一支路包括依次设置的:第一卷积神经网络层、第一归一层及第一激活层,所述第二支路包括依次设置的:第二卷积神经网络层及第二归一层,所述第一卷积神经网络层与所述第二卷积神经网络层一侧作为输入,所述第一激活层与所述第二归一层的输出作为所述第二点乘模块的输入。
20、在第一方面的一种可能的设计方式中,所述第一解码器与所述第二解码器采用如下相同的且依次设置的结构:第三卷积神经网络层以及若干输入输出方向一致的堆叠层,所述堆叠层包括:第三归一层、第二激活层及上采样层。
21、基于上述技术方案,提出了运算复杂度低的编解码器,减低了模型参数量和运行负荷。
22、在第一方面的一种可能的设计方式中,所述第一阶段模型及所述第二阶段模型采用相同的损失函数l如下:
23、
24、l=0.7×lmag+0.3×lri
25、其中,表示每一阶段输出,s表示每一阶段的训练目标,real(·)表示求实部运算,imag(·)表示求虚部运算,‖·‖2表示l2范数,‖·‖表示l1范数。
26、第二方面,提供了一种语音增强方法,所述语音增强方法包括:
27、获得待增强语音数据;以及
28、利用如上训练所得所述语音增强模型对所述待增强语音数据进行处理,得到语音增强结果。
29、第三方面,提供了一种电子设备,所述电子设备包括:处理器,以及与所述处理器耦合的存储器,所述存储器,用于存储计算机程序;所述处理器,用于执行所述存储器中存储的所述计算机程序,以使得所述电子设备执行如第一方面中任一种可能实现方式的所述训练方法,或执行如第二方面所述语音增强方法。
30、在本技术中,第三方面所述的电子设备可以为终端设备或网络设备,或者,设置于终端设备或网络设备内的芯片(系统)或其他部件或组件。
31、第四方面,提供了一种计算机可读存储介质,包括计算机程序或指令,当所述计算机程序或指令在计算机上运行时,使得计算机执行如第一方面中任一种可能实现方式的所述训练方法,或执行如第二方面所述语音增强方法。
32、第五方面,提供了一种计算机程序产品,包括:计算机程序或指令,当所述计算机程序或指令在计算机上运行时,使得所述计算机执行如第一方面中任一种可能实现方式的所述训练方法,或执行如第二方面所述语音增强方法。