一种单通道语音降噪方法和装置与流程

文档序号：34239298发布日期：2023-05-25 00:16阅读：115来源：国知局

技术简介：
本专利针对现有深度神经网络语音降噪模型存在模型规模大、功耗高、无法实时运行的问题，提出基于编码-解码框架结合子频带处理和GRU模型的优化方案。通过子频带划分与特征拼接、轻量化卷积结构设计，实现模型参数减少、实时性提升，在保证降噪效果的同时满足本地设备低功耗运行需求。
关键词：单通道语音降噪,实时降噪模型

本说明书涉及音频处理，尤其涉及一种单通道语音降噪方法、装置、电子设备和存储介质。

背景技术：

1、在远程音视频通讯过程中，由于环境中普遍存在不同类型的噪声，噪声严重影响语音通讯质量，对噪声进行抑制处理并同时保证不影响语音的质量对于远程会议系统具有重要作用。噪声抑制技术可以减少语音信号中的稳态和非稳态噪声，从而提高信噪比，改善语音清晰度并减少听力疲劳。基于传统信号处理的降噪算法不适合处理在实际应用场景中普遍存在的非稳态噪声；而目前公开的基于深度神经网络的噪声抑制方法，存在模型结构不适合实时推理以及模型规模过大而导致无法在设备本地低功耗运行的问题。因此，在深度神经网络的基础上，如何实现性能消耗低、模型规模小、可实时运行于本地设备的语音降噪技术，是亟待解决的技术问题。

技术实现思路

1、本说明书实施例的目的是针对上述问题，提供一种单通道语音降噪方法、装置、电子设备和存储介质。

2、为解决上述技术问题，本说明书实施例是这样实现的：

3、第一方面，提出一种单通道语音降噪方法，包括：

4、对采集的语音时域信号进行傅里叶变换获得频域信号并提取对应的信号特征，所述语音时域信号包括纯净语音时域信号和噪声语音时域信号；

5、将所述信号特征输入至编码模型，所述编码模型依次包括一维常规卷积层、第一深度可分离卷积层和第二深度可分离卷积层；

6、将所述编码模型输出的所述信号特征分别划分子频带和输入至频率gru模型，并将经过子频带划分的所述信号特征与所述频率gru模型输出的所述信号特征进行拼接后输入至子频带处理模型，所述子频带处理模型依次包括1组gru层、1组线性层和1组所述一维常规卷积层；

7、将所述子频带处理模型输出的所述信号特征经过时间gru模型后输入至解码模型，所述解码模型包括3组一维转置卷积层；

8、对所述解码模型输出的所述信号特征进行优化计算后输出语音时域信号。

9、进一步地，所述傅里叶变换点数为512以及依据所述频域信号的幅度计算输出所述信号特征，所述信号特征包括257个频点；和/或，

10、所述一维常规卷积层、所述第一深度可分离卷积层和所述第二深度可分离卷积层的卷积核分别为5、3和5以及对应步长分别为2、1和2；和/或，

11、3组所述一维转置卷积层的卷积核分别为5、3和5以及对应步长分别为2、1和2，以及每组所述一维常规卷积层输出连接批正则化层和relu层；和/或，

12、所述编码模型与所述解码模型之间使用跳跃连接进行信息交互。

13、进一步地，所述编码模型依次还包括：

14、连接于所述一维常规卷积层输出和所述第一深度可分离卷积层输入的所述正则化层和所述relu层；和/或，

15、所述第一深度可分离卷积层和所述第二深度可分离卷积层均包括一维depthwise卷积层和一维pointwise卷积层，以及，连接于所述一维depthwise卷积层输出和连接于所述一维pointwise卷积层输出的所述批正则化层和所述relu层。

16、进一步地，将所述编码模型输出的所述信号特征划分子频带的过程，包括：

17、在当前频点前后分别选取连续个频点，构成长度为的子频带；

18、若当前频点前后频点数不足个时，采用环形循环方式选取频点构成子频带；

19、将对应于全部频点的所述子频带构成频域子频带频点矩阵。

20、进一步地，所述频率gru模型和所述时间gru模型均包括1组所述gru层以及与所述gru层输出相连的1组所述一维常规卷积层。

21、进一步地，对所述解码模型输出结果进行优化计算后输出语音时域信号的过程，包括：

22、依据所述解码模型输出的所述信号特征获得对应复数理想比率掩膜；

23、将所述复数理想比率掩膜的实部和虚部分别作用于所述频域信号的实部和虚部，计算得到优化后的纯净语音频域信号估计值的实部=-和虚部=+；

24、对所述纯净语音频域信号估计值进行傅里叶逆变换输出时域信号。

25、进一步地，还包括在语音降噪过程进行神经网络训练，使用损失函数为，其中，，；和/或，

26、使用学习率为0.001的adam优化器，所述学习率依据优化预设轮次和/或优化验证结果进行调整。

27、第二方面，提出一种单通道语音降噪装置，包括：

28、第一模块，用于对采集的语音时域信号进行傅里叶变换获得频域信号并提取对应的信号特征，所述语音时域信号包括纯净语音时域信号和噪声语音时域信号；

29、第二模块，用于将所述信号特征输入至编码模型，所述编码模型依次包括一维常规卷积层、第一深度可分离卷积层和第二深度可分离卷积层；

30、第三模块，用于将所述编码模型输出的所述信号特征分别划分子频带和输入至频率gru模型，并将经过子频带划分的所述信号特征与所述频率gru模型输出的所述信号特征进行拼接后输入至子频带处理模型，所述子频带处理模型依次包括1组gru层、1组线性层和1组所述一维常规卷积层；

31、第四模块，用于将所述子频带处理模型输出的所述信号特征经过时间gru模型后输入至解码模型，所述解码模型包括3组一维转置卷积层；

32、第五模块，用于对所述解码模型输出的所述信号特征进行优化计算后输出语音时域信号。

33、第三方面，提出一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行第一方面所述的单通道语音降噪方法。

34、第四方面，提出一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行第一方面所述的单通道语音降噪方法。

35、本说明书至少可以达到以下技术效果：

36、本发明方案基于编码-解码框架的u型网络结构，充分利用了频点间的相关性、循环神经网络在时序处理方面和卷积神经网络对特征提取方面的优势，同时结合了子频带处理技术，实现了模型规模小、参数量较少、性能消耗低且可以实时运行于本地设备的语音降噪效果。

技术特征：

1.一种单通道语音降噪方法，其特征在于，包括：

2.根据权利要求1所述的单通道语音降噪方法，其特征在于，所述傅里叶变换点数为512以及依据所述频域信号的幅度计算输出所述信号特征，所述信号特征包括257个频点；和/或，

3.根据权利要求2所述的单通道语音降噪方法，其特征在于，所述编码模型依次还包括：

4.根据权利要求3所述的单通道语音降噪方法，其特征在于，将所述编码模型输出的所述信号特征划分子频带的过程，包括：

5.根据权利要求4所述的单通道语音降噪方法，其特征在于，所述频率gru模型和所述时间gru模型均包括1组所述gru层以及与所述gru层输出相连的1组所述一维常规卷积层。

6.根据权利要求5所述的单通道语音降噪方法，其特征在于，对所述解码模型输出结果进行优化计算后输出语音时域信号的过程，包括：

7.根据权利要求1至6任一项所述的单通道语音降噪方法，其特征在于，还包括在语音降噪过程进行神经网络训练，使用损失函数为，其中，，；和/或，

8.一种单通道语音降噪装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行权利要求1至7任一项所述的单通道语音降噪方法。

技术总结
本发明公开了一种单通道语音降噪方法和装置，所述方法包括：对语音时域信号提取信号特征并输入至编码模型；将编码模型输出的信号特征分别划分子频带和输入至频率GRU模型，并将经过子频带划分的信号特征与频率GRU模型输出的信号特征拼接后输入至子频带处理模型，所述子频带处理模型依次包括GRU层线性层和一维常规卷积层；将子频带处理模型输出的信号特征经过时间GRU模型后输入至解码模型；对解码模型输出的信号特征进行优化计算后输出语音时域信号。本发明利用编码‑解码框架和频点间相关性，结合循环神经网络模型，实现语音降噪性能优化，可实时运行于本地设备，达到较好的语音降噪效果。

技术研发人员：杨亮
受保护的技术使用者：全时云商务服务股份有限公司
技术研发日：
技术公布日：2024/1/12

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨亮
技术所有人：全时云商务服务股份有限公司
我是此专利的发明人

上一篇：一种提高钢包使用寿命的方法与流程
下一篇：一种起重机超起张紧方法、系统及起重机与流程

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！