一种基于级联模型的语音带宽扩展方法

文档序号:42645919发布日期:2025-08-05 18:31阅读:36来源:国知局

本发明属于语音信号处理,尤其涉及一种基于级联模型的语音带宽扩展方法。


背景技术:

1、语音带宽扩展为通过在语音通信接收端恢复或合成缺失的高频成分来提升语音质量,由于该技术可以直接在终端设备上部署,无需对传输网络进行任何改造,因此受到广泛关注。然而在实际应用场景中,噪声干扰普遍存在且难以避免,这对语音带宽扩展技术提出了严峻的挑战。目前,大多数语音带宽扩展研究主要基于理想化的干净语音环境进行模型训练与推理。在噪声环境下,原本在干净语音上表现优异的带宽扩展模型会出现显著的性能下降情况。更为严重的是,噪声在带宽扩展过程中可能会被进一步放大,导致扩展语音的清晰度和可懂度急剧降低,从而严重影响用户体验。

2、目前噪声环境下的语音带宽扩展研究主要基于深度学习,主要分为两类:端到端的多任务学习框架和分阶段的降噪-扩展双模块处理方法。端到端的多任务学习框架通过单一模型同时优化噪声抑制和带宽扩展任务,一定程度上简化了网络结构。分阶段的降噪-扩展双模块处理方法使用两个模块分别专注于处理噪声抑制任务和带宽扩展任务,进一步提升了综合性能。

3、hao等人在“aneural network approach for speech enhancement and noise-robust bandwidth extension”中提出了一种基于caunet的新型网络架构,来解决噪声环境下的语音带宽扩展问题。caunet是一种最先进的噪声抑制方法。该方法引入了多尺度损失,并实现了坐标嵌入式上采样块,以促进带宽扩展,同时保持噪声抑制的能力。然而,使用单一网络框架同时处理两个任务会出现以下问题:1、对带噪窄带语音进行带宽扩展时,噪声部分与语音部分会同时被扩展;2、对带噪窄带语音进行噪声抑制时,需要扩展的高频部分会影响与频率相关的降噪效果。

4、chen等人在“aero:audio super resolution in the spectral domain”中采用unet+afilm作为带宽扩展模块对带噪窄带语音进行带宽扩展,随后使用i-dtln作为噪声抑制模块对已经完成带宽扩展的语音进行噪声抑制。该方法将两个深度学习模型集成到一个系统中,可以有效去除语音通信中的噪声,扩展语音的带宽以增强语音识别的效果。然而,该两阶段方法忽略相位的估计,从而影响综合性能,此外,该方法没有考虑实时性。


技术实现思路

1、有鉴于现有技术的上述缺陷,本发明提出一种基于级联模型的语音带宽扩展方法,本发明设计的技术方案步骤包括:

2、第一阶段:采用基于gcrn架构的噪声抑制网络对带噪窄带语音进行训练,保存噪声抑制网络的最优权重,输出估计干净窄带语音信号;

3、第二阶段:采用基于aero架构的带宽扩展网络对估计干净窄带语音训练,输出干净宽带语音;

4、其中,带噪窄带语音信号和估计干净窄带语音均为语音的复数谱表示。

5、优选地,所述语音的复数谱表示通过以下方式获得,包括:

6、对输入时域波形进行短时傅里叶变换得到复数谱,将复数谱的实部和虚部在通道维度上堆叠形成网络输入特征。

7、优选地,所述噪声抑制网络,包括:

8、采用编码器-解码器架构;

9、编码器部分由五个对称的转置卷积层组成,每个卷积层采用填充策略保持特征图空间分辨率;

10、两个独立解码器分别预测复数谱的实部和虚部掩膜;

11、编码器和解码器之间设置两个分组lstm模块用于建模时间依赖性,采用密集跳跃连接机制将每个编码器层输出与对应解码器层输入相连。

12、优选地,所述噪声抑制网络,还包括:

13、采用门控卷积作为核心构建单元,门控卷积的输出表示为:

14、y=(wf*x)⊙σ(wg*x)

15、式中,wf和wg分别表示特征卷积核和门控卷积核,x为门控卷积的输入,σ(·)表示门控分支的sigmoid激活函数,⊙表示逐元素相乘。

16、优选地,所述带宽扩展网络,包括:

17、采用u-net结构;

18、对称的四层编码器和四层解码器,通过跳跃连接实现多层次特征的融合;

19、编码器层包含两个压缩残差分支并使用snake激活函数;

20、每个编码器层前设置频率变换块用于建模频率轴全局相关性。

21、优选地,所述频率变换块,包括:

22、t-f注意模块和freq-fc层,估计干净窄带语音作为输入特征首先通过t-f注意模块预测注意力图,然后将注意力图逐点乘以输入特征得到中间特征,将中间特征输入到freq-fc层中得到变换后的特征图,并且将变换后的特征图与输入特征concat在一起,通过2维的1×1卷积转换通道数得到干净宽带语音;

23、所述得到中间特征,公式如下:

24、sa=fattn(si)

25、所述得到变换后的特征图,公式如下:

26、str=freqfc(sa)

27、优选地,所述得到干净宽带语音的输出,公式如下:

28、so=conv(concat(str,si))

29、式中,sa为中间特征,si为输入特征,str为变换后的特征图,so为干净宽带语音的输出。

30、优选地,所述第一阶段和第二阶段训练使用的损失函数,包括:

31、第一阶段损失函数为估计干净窄带语音信号和目标干净窄带语音信号的复数谱和幅度谱之间的mse损失的相加;

32、第二阶段将带宽扩展网络和噪声抑制网络一起训练同时更新各自的权重,将带宽扩展网络和噪声抑制网络作为生成对抗网络的生成器,并引入鉴别器进行对抗训练;

33、第一阶段损失函数,公式如下:

34、

35、式中,和分别为估计干净窄带语音和目标干净窄带语音信号的复数谱和幅度谱之间的mse损失;

36、生成器的损失函数以及鉴别器的损失函数公式如下:

37、

38、式中,和分别为干净宽带语音与估计干净窄带语音之间的时域波形mse损失、多分辨率stft损失和鉴别器输出的特征损失,λwav、λstft和λfm分别为对应损失的超参数,为对抗损失,g为生成器的输出,dk为第k个鉴别器的输出,k为鉴别器的数目。

39、优选地,所述包括:

40、使用扩展语音波形和真实宽带语音波形之间的均方误差来匹配语音波形的整体形状和相位,公式如下:

41、

42、式中,n为信号总点数,y为干净宽带语音,为估计干净宽带语音。

43、优选地,所述包括:

44、使用多分辨率stft损失,包括扩展语音和宽带语音之间的频谱收敛损失,以及具有不同fft分析参数的对数幅度谱图的l1损失,公式如下:

45、

46、式中,s(x;θ)代表x的幅度谱,m是分辨率的数量,θi是每个分辨率的stft参数,||·||f和||·||1分别是frobenius范数和l1范数,t为幅度谱的总点数。

47、优选地,所述包括:

48、定义为干净宽带语音波形和估计宽带语音波形的鉴别器特征图之间的l1损失,公式如下:

49、

50、式中,t表示鉴别器中的层数,表示第k个鉴别器块的第i层特征图输出,g(x)表示生成器的输出,ni表示每层中的单元数。

51、有益效果:

52、本技术提供一种噪声环境下的语音带宽扩展方法,通过将语音信号复数谱作为模型输入特征,更全面地描述语音信号的时频特性,为神经网络提供更丰富的特征信息,使得模型能够更准确地重建语音信号。

当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!