基于改进CRN和CBAM注意力机制的实时语音增强方法

文档序号：37928508发布日期：2024-05-11 00:07阅读：11来源：国知局

本发明涉及深度学习，具体为基于改进crn和cbam注意力机制的实时语音增强方法。

背景技术：

1、语音交流是人类的主要交流方式之一。电话、手机等通信设备的发明，使得人们的生活更加便捷。城市在不断变化，人们所处的通话环境也变得更加复杂，因此有必要对不同环境下的含噪语音进行有效降噪。语音增强作为语音处理技术的重要部分之一，具有较高的研究价值。

2、在手机、电话等设备中，语音通信属于基础功能。日常通话可能发生在喧嚣的广场、拥挤的街道、嘈杂的宴会等周围环境比较吵闹的地方。而面对不同场景，需要高鲁棒性的语音降噪算法。随着智能手机的不断进步及5g时代的来临，人们对语音通话的质量也有着更高的要求。此外，助听器对于听障人士来说是很重要的产品，而一款功能较强的助听器也应具有良好的降噪能力。面对复杂多变的场景，助听器能否有效的过滤噪声，消除混响效果，将有用的信息传递给用户，将对用户的生活质量产生很大影响。同时，一些重工业产业中，进行具体的生产时设备可能会产生巨大的噪音，采用普通耳塞虽在一定程度上缓解噪声干扰，但同时给人们之间的交流造成阻碍，而进行有选择的降噪则能有效提高工作环境的舒适度。

3、传统的语音增强算法对简单的平稳噪声具有可观的降噪效果，但对于复杂噪声的鲁棒性仍不足，有的方法还会产生音乐噪声等负面效果，语音增强算法本身也需要不断进步。

技术实现思路

1、本发明的目的在于克服现有的缺陷而提供的基于改进crn(全称：cbam dilatedresnet u-net，结合注意力机制和空洞卷积的卷积神经网络)和cbam注意力机制的实时语音增强方法，有效增强干净语音特征。

2、实现上述目的的技术方案是：

3、基于改进crn和cbam注意力机制的实时语音增强方法，包括：

4、步骤s1，获取语音数据集，并对获取的数据集进行预处理；

5、步骤s2，将预处理好的语音信号的频谱图特征分为训练集、验证集以及测试集；

6、步骤s3，构建基于改进crn和cbam的实时语音增强算法模型；

7、步骤s4，使用训练集的数据对构建的基于改进crn和cbam的实时语音增强算法模型进行训练；

8、步骤s5，使用验证集的数据对训练好的基于改进crn和cbam的实时语音增强算法模型进行验证；

9、步骤s6，将测试集的数据输入到验证好的基于改进crn和cbam的实时语音增强算法模型，得到降噪后的语音结果。

10、优选的，所述步骤s1中，数据集为timit干净语音数据集和noisex-92噪声数据集。

11、优选的，所述步骤s2中，预处理方式有数据混合、数据标注。

12、优选的，所述步骤s3包括：

13、步骤s31，使用u-net网络作为基础网络构建语音增强算法模型；

14、步骤s32，将u-net网络与空洞卷积和cbam注意力模块进行结合；

15、步骤s33，根据损失值与各评估指标对模型参数进行调整,完成基于改进crn和cbam的实时语音增强算法模型的构建。

16、优选的，所述步骤s32包括：

17、步骤s321，去除编码器的卷积模块中的最大池化层；

18、步骤s322，将编码器的卷积模块中的普通卷积替换成空洞卷积，并添加残差结构至空洞卷积中，并得到空洞残差模块；

19、步骤s323，将cbam注意力模块嵌入跳跃连接中，完成u-net网络与空洞卷积和cbam注意力模块的结合。

20、优选的，所述步骤s322中，将编码器的卷积模块中的普通卷积替换成空洞卷积，其感受野n大小的计算公式如下：

21、n＝k+(k―1)×(d―1)；

22、式中，k为卷积核大小，d为扩张率。

23、优选的，所述步骤s323中，cbam注意力模块包括通道注意力模块和空间注意力模块，先进行通道注意力模块处理，再进行空间注意力模块处理，得到特征数据。

24、优选的，所述步骤s4中，在训练阶段增加感知对比度拉伸结构，具体包括：

25、步骤s41，对语音信号的频谱图特征进行伽马校正以增强对比度；

26、步骤s42，用对比度拉伸对训练数据上的标签获取特征进行感知增强；

27、其中，所述步骤s41中，伽马校正方程为：

28、yt,f＝a(mt,f)γ；

29、其中，yt,f、f、a、γ和mt,f分别表示修改后的增强特征、缩放函数、参数和输入的频谱特征，mt,f的值从[0，m]开始；

30、缩放函数a公式为：

31、a(1+1/mt,f)γ―(1/mt,f)γ；

32、所述步骤s42包括：

33、步骤s421，通过短时傅立叶变换对波形进行处理；

34、步骤s422，将对比度拉伸应用于增强特征yt,f；

35、步骤s423，通过增强特征获得loglp特征，得到损失值。

36、优选的，所述步骤s423中，损失值的计算公式为：

37、l＝d(se(loglp(xt,f)),loglp(mt,f))；

38、其中，d(·)表示目标函数，se(·)表示语音增强模型，xt,f表示输出特征，mt,f表示输入的频谱特征。

39、优选的，所述步骤s5中，通过在验证集中测试所述步骤s41中的参数γ，得到最佳感知等分时，得到最佳参数γ值。

40、本发明的有益效果是：本发明通过在u-net网络的基础上，去除编码器，即下采样层的卷积模块中的最大池化层，防止丢失频谱信息和降低频谱分辨率，并将编码器的卷积模块中的普通卷积替换成空洞卷积，并添加残差结构至空洞卷积中，并得到空洞残差模块，从而提高网络的特征提取能力且使其更具有泛化性能力，将cbam注意力模块嵌入跳跃连接中，完成u-net网络与空洞卷积和cbam注意力模块的结合，将加强后的原始语音特征跨越多个层级传递，在解码层还原语音信号的细节提高网络的泛化能力，进行构建成改进crn和cbam的实时语音增强算法模型，并通过感知对比度拉伸结构训练此模型，突出语音信号相对重要的中频域，使得模型在训练时更加关注中频域，具有相对强的泛化能力和鲁棒性。

技术特征：

1.基于改进crn和cbam注意力机制的实时语音增强方法，其特征在于，包括：

2.根据权利要求1所述的基于改进crn和cbam注意力机制的实时语音增强方法，其特征在于，所述步骤s1中，数据集为timit干净语音数据集和noisex-92噪声数据集。

3.根据权利要求1所述的基于改进crn和cbam注意力机制的实时语音增强方法，其特征在于，所述步骤s2中，预处理方式有数据混合、数据标注。

4.根据权利要求1所述的基于改进crn和cbam注意力机制的实时语音增强方法，其特征在于，所述步骤s3包括：

5.根据权利要求4所述的基于改进crn和cbam注意力机制的实时语音增强方法，其特征在于，所述步骤s32包括：

6.根据权利要求5所述的基于改进crn和cbam注意力机制的实时语音增强方法，其特征在于，所述步骤s322中，将编码器的卷积模块中的普通卷积替换成空洞卷积，其感受野n大小的计算公式如下：

7.根据权利要求5所述的基于改进crn和cbam注意力机制的实时语音增强方法，其特征在于，所述步骤s323中，cbam注意力模块包括通道注意力模块和空间注意力模块，先进行通道注意力模块处理，再进行空间注意力模块处理，得到特征数据。

8.根据权利要求1所述的基于改进crn和cbam注意力机制的实时语音增强方法，其特征在于，所述步骤s4中，在训练阶段增加感知对比度拉伸结构，具体包括：

9.根据权利要求8所述的基于改进crn和cbam注意力机制的实时语音增强方法，其特征在于，所述步骤s423中，损失值的计算公式为：

10.根据权利要求8所述的基于改进crn和cbam注意力机制的实时语音增强方法，其特征在于，所述步骤s5中，通过在验证集中测试所述步骤s41中的参数γ，得到最佳感知等分时，得到最佳参数γ值。

技术总结
本发明公开了基于改进CRN和CBAM注意力机制的实时语音增强方法，包括：步骤S1，获取语音数据集，并对获取的数据集进行预处理；步骤S2，将预处理好的语音信号的频谱图特征分为训练集、验证集以及测试集；步骤S3，构建基于改进CRN和CBAM的实时语音增强算法模型；步骤S4，使用训练集的数据对构建的基于改进CRN和CBAM的实时语音增强算法模型进行训练；步骤S5，使用验证集的数据对训练好的基于改进CRN和CBAM的实时语音增强算法模型进行验证；步骤S6，将测试集的数据输入到验证好的基于改进CRN和CBAM的实时语音增强算法模型，得到降噪后的语音结果。本发明有效增强干净语音特征。

技术研发人员：张宇,潘奕岐
受保护的技术使用者：华南农业大学
技术研发日：
技术公布日：2024/5/10

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张宇,潘奕岐
技术所有人：华南农业大学
我是此专利的发明人

上一篇：一种门窗型材无尘自动切割设备的制作方法
上一篇：带取暖功能的智能马桶盖及智能马桶的制作方法