基于改进CRN和CBAM注意力机制的实时语音增强方法

文档序号:37928508发布日期:2024-05-11 00:07阅读:11来源:国知局
基于改进CRN和CBAM注意力机制的实时语音增强方法

本发明涉及深度学习,具体为基于改进crn和cbam注意力机制的实时语音增强方法。


背景技术:

1、语音交流是人类的主要交流方式之一。电话、手机等通信设备的发明,使得人们的生活更加便捷。城市在不断变化,人们所处的通话环境也变得更加复杂,因此有必要对不同环境下的含噪语音进行有效降噪。语音增强作为语音处理技术的重要部分之一,具有较高的研究价值。

2、在手机、电话等设备中,语音通信属于基础功能。日常通话可能发生在喧嚣的广场、拥挤的街道、嘈杂的宴会等周围环境比较吵闹的地方。而面对不同场景,需要高鲁棒性的语音降噪算法。随着智能手机的不断进步及5g时代的来临,人们对语音通话的质量也有着更高的要求。此外,助听器对于听障人士来说是很重要的产品,而一款功能较强的助听器也应具有良好的降噪能力。面对复杂多变的场景,助听器能否有效的过滤噪声,消除混响效果,将有用的信息传递给用户,将对用户的生活质量产生很大影响。同时,一些重工业产业中,进行具体的生产时设备可能会产生巨大的噪音,采用普通耳塞虽在一定程度上缓解噪声干扰,但同时给人们之间的交流造成阻碍,而进行有选择的降噪则能有效提高工作环境的舒适度。

3、传统的语音增强算法对简单的平稳噪声具有可观的降噪效果,但对于复杂噪声的鲁棒性仍不足,有的方法还会产生音乐噪声等负面效果,语音增强算法本身也需要不断进步。


技术实现思路

1、本发明的目的在于克服现有的缺陷而提供的基于改进crn(全称:cbam dilatedresnet u-net,结合注意力机制和空洞卷积的卷积神经网络)和cbam注意力机制的实时语音增强方法,有效增强干净语音特征。

2、实现上述目的的技术方案是:

3、基于改进crn和cbam注意力机制的实时语音增强方法,包括:

4、步骤s1,获取语音数据集,并对获取的数据集进行预处理;

5、步骤s2,将预处理好的语音信号的频谱图特征分为训练集、验证集以及测试集;

6、步骤s3,构建基于改进crn和cbam的实时语音增强算法模型;

7、步骤s4,使用训练集的数据对构建的基于改进crn和cbam的实时语音增强算法模型进行训练;

8、步骤s5,使用验证集的数据对训练好的基于改进crn和cbam的实时语音增强算法模型进行验证;

9、步骤s6,将测试集的数据输入到验证好的基于改进crn和cbam的实时语音增强算法模型,得到降噪后的语音结果。

10、优选的,所述步骤s1中,数据集为timit干净语音数据集和noisex-92噪声数据集。

11、优选的,所述步骤s2中,预处理方式有数据混合、数据标注。

12、优选的,所述步骤s3包括:

13、步骤s31,使用u-net网络作为基础网络构建语音增强算法模型;

14、步骤s32,将u-net网络与空洞卷积和cbam注意力模块进行结合;

15、步骤s33,根据损失值与各评估指标对模型参数进行调整,完成基于改进crn和cbam的实时语音增强算法模型的构建。

16、优选的,所述步骤s32包括:

17、步骤s321,去除编码器的卷积模块中的最大池化层;

18、步骤s322,将编码器的卷积模块中的普通卷积替换成空洞卷积,并添加残差结构至空洞卷积中,并得到空洞残差模块;

19、步骤s323,将cbam注意力模块嵌入跳跃连接中,完成u-net网络与空洞卷积和cbam注意力模块的结合。

20、优选的,所述步骤s322中,将编码器的卷积模块中的普通卷积替换成空洞卷积,其感受野n大小的计算公式如下:

21、n=k+(k―1)×(d―1);

22、式中,k为卷积核大小,d为扩张率。

23、优选的,所述步骤s323中,cbam注意力模块包括通道注意力模块和空间注意力模块,先进行通道注意力模块处理,再进行空间注意力模块处理,得到特征数据。

24、优选的,所述步骤s4中,在训练阶段增加感知对比度拉伸结构,具体包括:

25、步骤s41,对语音信号的频谱图特征进行伽马校正以增强对比度;

26、步骤s42,用对比度拉伸对训练数据上的标签获取特征进行感知增强;

27、其中,所述步骤s41中,伽马校正方程为:

28、yt,f=a(mt,f)γ;

29、其中,yt,f、f、a、γ和mt,f分别表示修改后的增强特征、缩放函数、参数和输入的频谱特征,mt,f的值从[0,m]开始;

30、缩放函数a公式为:

31、a(1+1/mt,f)γ―(1/mt,f)γ;

32、所述步骤s42包括:

33、步骤s421,通过短时傅立叶变换对波形进行处理;

34、步骤s422,将对比度拉伸应用于增强特征yt,f;

35、步骤s423,通过增强特征获得loglp特征,得到损失值。

36、优选的,所述步骤s423中,损失值的计算公式为:

37、l=d(se(loglp(xt,f)),loglp(mt,f));

38、其中,d(·)表示目标函数,se(·)表示语音增强模型,xt,f表示输出特征,mt,f表示输入的频谱特征。

39、优选的,所述步骤s5中,通过在验证集中测试所述步骤s41中的参数γ,得到最佳感知等分时,得到最佳参数γ值。

40、本发明的有益效果是:本发明通过在u-net网络的基础上,去除编码器,即下采样层的卷积模块中的最大池化层,防止丢失频谱信息和降低频谱分辨率,并将编码器的卷积模块中的普通卷积替换成空洞卷积,并添加残差结构至空洞卷积中,并得到空洞残差模块,从而提高网络的特征提取能力且使其更具有泛化性能力,将cbam注意力模块嵌入跳跃连接中,完成u-net网络与空洞卷积和cbam注意力模块的结合,将加强后的原始语音特征跨越多个层级传递,在解码层还原语音信号的细节提高网络的泛化能力,进行构建成改进crn和cbam的实时语音增强算法模型,并通过感知对比度拉伸结构训练此模型,突出语音信号相对重要的中频域,使得模型在训练时更加关注中频域,具有相对强的泛化能力和鲁棒性。



技术特征:

1.基于改进crn和cbam注意力机制的实时语音增强方法,其特征在于,包括:

2.根据权利要求1所述的基于改进crn和cbam注意力机制的实时语音增强方法,其特征在于,所述步骤s1中,数据集为timit干净语音数据集和noisex-92噪声数据集。

3.根据权利要求1所述的基于改进crn和cbam注意力机制的实时语音增强方法,其特征在于,所述步骤s2中,预处理方式有数据混合、数据标注。

4.根据权利要求1所述的基于改进crn和cbam注意力机制的实时语音增强方法,其特征在于,所述步骤s3包括:

5.根据权利要求4所述的基于改进crn和cbam注意力机制的实时语音增强方法,其特征在于,所述步骤s32包括:

6.根据权利要求5所述的基于改进crn和cbam注意力机制的实时语音增强方法,其特征在于,所述步骤s322中,将编码器的卷积模块中的普通卷积替换成空洞卷积,其感受野n大小的计算公式如下:

7.根据权利要求5所述的基于改进crn和cbam注意力机制的实时语音增强方法,其特征在于,所述步骤s323中,cbam注意力模块包括通道注意力模块和空间注意力模块,先进行通道注意力模块处理,再进行空间注意力模块处理,得到特征数据。

8.根据权利要求1所述的基于改进crn和cbam注意力机制的实时语音增强方法,其特征在于,所述步骤s4中,在训练阶段增加感知对比度拉伸结构,具体包括:

9.根据权利要求8所述的基于改进crn和cbam注意力机制的实时语音增强方法,其特征在于,所述步骤s423中,损失值的计算公式为:

10.根据权利要求8所述的基于改进crn和cbam注意力机制的实时语音增强方法,其特征在于,所述步骤s5中,通过在验证集中测试所述步骤s41中的参数γ,得到最佳感知等分时,得到最佳参数γ值。


技术总结
本发明公开了基于改进CRN和CBAM注意力机制的实时语音增强方法,包括:步骤S1,获取语音数据集,并对获取的数据集进行预处理;步骤S2,将预处理好的语音信号的频谱图特征分为训练集、验证集以及测试集;步骤S3,构建基于改进CRN和CBAM的实时语音增强算法模型;步骤S4,使用训练集的数据对构建的基于改进CRN和CBAM的实时语音增强算法模型进行训练;步骤S5,使用验证集的数据对训练好的基于改进CRN和CBAM的实时语音增强算法模型进行验证;步骤S6,将测试集的数据输入到验证好的基于改进CRN和CBAM的实时语音增强算法模型,得到降噪后的语音结果。本发明有效增强干净语音特征。

技术研发人员:张宇,潘奕岐
受保护的技术使用者:华南农业大学
技术研发日:
技术公布日:2024/5/10
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1