音频降噪方法和装置、存储介质及电子装置与流程

文档序号:34137941发布日期:2023-05-12 19:36阅读:85来源:国知局
技术简介:
本专利针对传统音频降噪模型因使用纯净音频训练导致实际降噪效果差的问题,提出采用带噪音频数据训练神经网络的方案。通过融合当前与历史时刻的音频特征,结合编码-解码结构及跨层连接模块,提升模型对非稳态噪声的抑制能力,显著提高降噪准确度和通话质量。
关键词:音频降噪,神经网络训练

本发明实施例涉及音频降噪,具体而言,涉及一种音频降噪方法和装置、存储介质及电子装置。


背景技术:

1、在现实生活中,当人们使用手机开启免提电话或是视频会议终端进行视频会议时,由于环境的随机性,设备在采集到目标人声的同时还会采集到环境的各种噪声,而这些噪声会严重影响人们对目标人声的获取,因此需要采用音频降噪对环境的各种噪声进行抑制,一般来说,噪声分为稳态噪声和非稳态噪声,对于稳态噪声,目前有许多经典的降噪算法可以对其进行降噪处理,如维纳滤波等,而对于非稳态噪声,经典的降噪算法无法对其进行处理,而随着神经网络的兴起,凭借神经网络强大的非线性拟合能力,非稳态噪声可以通过该方案进行有效的去除;但是现有技术中的神经网络都是使用理想情况下的语音数据作为纯净数据进行训练,使得神经网络的音频降噪效果比较差。

2、针对相关技术中通过纯净音频信号对降噪模型进行训练,导致降噪模型的降噪的准确度比较低的问题,目前尚未提出有效的解决方案。


技术实现思路

1、本发明实施例提供了一种音频降噪方法和装置、存储介质及电子装置,以至少解决相关技术中通过纯净音频信号对降噪模型进行训练,导致降噪模型的降噪的准确度比较低的问题。

2、根据本发明的一个实施例,提供了一种音频降噪方法,包括:获取当前时刻的第一带噪音频数据和历史时刻的第二带噪音频数据;依据所述第一带噪音频数据和所述第二带噪音频数据进行特征提取,得到目标特征信息;将所述目标特征信息输入到目标神经网络结构中,得到所述第一带噪音频数据对应的目标音频信号,其中,所述目标神经网络结构由带噪音频训练样本集训练得到的,所述带噪音频训练样本集由多个带噪音频训练样本和每个带噪音频训练样本对应的预设音频信号组成,每个带噪音频训练样本通过所述预设音频信号和目标噪声信号得到。

3、在一个示例性实施例中,所述目标神经网络结构由编码模块、时序传递模块、跨层连接模块和解码模块组成,其中,所述跨层连接模块用于连接所述编码模块中的卷积层和所述解码模块中的转置卷积层,所述跨层连接模块中的卷积核由所述编码模块输出的数据的层数决定。

4、在一个示例性实施例中,依据所述第一带噪音频数据和所述第二带噪音频数据进行特征提取,得到目标特征信息包括:对所述第一带噪音频数据中的每帧信号进行短时傅里叶变换,得到所述第一带噪音频数据对应的第一时频域信息;对所述第二带噪音频数据中的每帧信号进行短时傅里叶变换,得到所述第二带噪音频数据对应的第二时频域信息;对所述第一时频域信息和所述第二时频域信息进行拼接处理,得到所述目标特征信息。

5、在一个示例性实施例中,将所述目标特征信息输入到目标神经网络结构中,得到所述第一带噪音频数据对应的目标音频信号包括:通过所述编码模块对所述目标特征信息进行编码处理,得到目标特征矩阵;通过所述时序传递模块将所述目标特征矩阵传递到所述解码模块中;通过所述跨层连接模块将所述编码模块中的每个卷积层的输出特征矩阵传递到所述解码模块的每个转置卷积层中;通过所述解码模块对所述目标特征矩阵和所述输出特征矩阵进行解码处理,得到所述第一带噪音频数据对应的目标音频信号。

6、在一个示例性实施例中,所述目标神经网络结构采用以下步骤训练得到:获取所述带噪音频训练样本集;对所述带噪音频训练样本集中的带噪音频训练样本进行特征提取,得到训练特征集;依据所述训练特征集对初始目标神经网络结构进行训练,得到所述目标神经网络结构。

7、在一个示例性实施例中,获取所述带噪音频训练样本集包括:获取所述预设音频信号;获取所述目标噪声信号;对所述预设音频信号和所述目标噪声信号进行混合和构造处理,得到所述带噪音频训练样本;依据所述带噪音频训练样本和所述预设音频信号确定所述带噪音频训练样本集。

8、在一个示例性实施例中,获取所述预设音频信号包括:在目标环境下采集得到第三带噪音频数据,并将所述第三带噪音频数据进行降噪处理,得到处理后的第三带噪音频数据;对所述处理后的第三带噪音频数据进行评分,得到第一目标分数;若所述第一目标分数大于第一阈值,则确定所述处理后的第三带噪音频数据为所述预设音频信号。

9、在一个示例性实施例中,获取所述目标噪声信号包括:在目标环境下采集得到初始噪声数据;对所述初始噪声数据进行评分,得到第二目标分数;若所述第二目标分数大于第二阈值,则确定所述初始噪声数据为所述目标噪声信号。

10、在一个示例性实施例中,依据所述训练特征集对初始目标神经网络结构进行训练,得到所述目标神经网络结构包括:将所述训练特征集输入到所述初始目标神经网络结构中,得到每个带噪音频训练样本对应的预测音频信号;依据所述预测音频信号和所述预设音频信号进行损失函数计算,得到目标损失函数;依据所述目标损失函数对所述初始目标神经网络结构进行训练,得到所述目标神经网络结构。

11、根据本发明的另一个实施例,提供了一种音频降噪装置,包括:第一获取单元,用于获取当前时刻的第一带噪音频数据和历史时刻的第二带噪音频数据;第一提取单元,用于依据所述第一带噪音频数据和所述第二带噪音频数据进行特征提取,得到目标特征信息;输入单元,用于将所述目标特征信息输入到目标神经网络结构中,得到所述第一带噪音频数据对应的目标音频信号,其中,所述目标神经网络结构由带噪音频训练样本集训练得到的,所述带噪音频训练样本集由多个带噪音频训练样本和每个带噪音频训练样本对应的预设音频信号组成,每个带噪音频训练样本通过所述预设音频信号和目标噪声信号得到。

12、在一个示例性实施例中,所述目标神经网络结构由编码模块、时序传递模块、跨层连接模块和解码模块组成,其中,所述跨层连接模块用于连接所述编码模块中的卷积层和所述解码模块中的转置卷积层,所述跨层连接模块中的卷积核由所述编码模块输出的数据的层数决定。

13、在一个示例性实施例中,第一提取单元包括:第一变换模块,用于对所述第一带噪音频数据中的每帧信号进行短时傅里叶变换,得到所述第一带噪音频数据对应的第一时频域信息;第二变换模块,用于对所述第二带噪音频数据中的每帧信号进行短时傅里叶变换,得到所述第二带噪音频数据对应的第二时频域信息;拼接模块,用于对所述第一时频域信息和所述第二时频域信息进行拼接处理,得到所述目标特征信息。

14、在一个示例性实施例中,所述输入单元包括:编码模块,用于通过所述编码模块对所述目标特征信息进行编码处理,得到目标特征矩阵;第一传递模块,用于通过所述时序传递模块将所述目标特征矩阵传递到所述解码模块中;第二传递模块,用于通过所述跨层连接模块将所述编码模块中的每个卷积层的输出特征矩阵传递到所述解码模块的每个转置卷积层中;解码模块,用于通过所述解码模块对所述目标特征矩阵和所述输出特征矩阵进行解码处理,得到所述第一带噪音频数据对应的目标音频信号。

15、在一个示例性实施例中,所述目标神经网络结构采用以下步骤训练得到:第二获取单元,用于获取所述带噪音频训练样本集;第二提取单元,用于对所述带噪音频训练样本集中的带噪音频训练样本进行特征提取,得到训练特征集;训练单元,用于依据所述训练特征集对初始目标神经网络结构进行训练,得到所述目标神经网络结构。

16、在一个示例性实施例中,所述第二获取单元包括:第一获取模块,用于获取所述预设音频信号;第二获取模块,用于获取所述目标噪声信号;处理模块,用于对所述预设音频信号和所述目标噪声信号进行混合和构造处理,得到所述带噪音频训练样本;确定模块,用于依据所述带噪音频训练样本和所述预设音频信号确定所述带噪音频训练样本集。

17、在一个示例性实施例中,所述第一获取模块包括:降噪子模块,用于在目标环境下采集得到第三带噪音频数据,并将所述第三带噪音频数据进行降噪处理,得到处理后的第三带噪音频数据;第一评分子模块,用于对所述处理后的第三带噪音频数据进行评分,得到第一目标分数;第一确定子模块,用于若所述第一目标分数大于第一阈值,则确定所述处理后的第三带噪音频数据为所述预设音频信号。

18、在一个示例性实施例中,所述第二获取模块包括:采集子模块,用于在目标环境下采集得到初始噪声数据;第二评分子模块,用于对所述初始噪声数据进行评分,得到第二目标分数;第二确定子模块,用于若所述第二目标分数大于第二阈值,则确定所述初始噪声数据为所述目标噪声信号。

19、在一个示例性实施例中,所述训练单元包括:输入模块,用于将所述训练特征集输入到所述初始目标神经网络结构中,得到每个带噪音频训练样本对应的预测音频信号;计算模块,用于依据所述预测音频信号和所述预设音频信号进行损失函数计算,得到目标损失函数;训练模块,用于依据所述目标损失函数对所述初始目标神经网络结构进行训练,得到所述目标神经网络结构。

20、根据本发明的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

21、根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

22、在本发明中,通过对当前时刻的第一带噪音频数据和历史时刻的第二带噪音频数据的进行特征提取,既获取到了当前时刻的音频特征,又融合历史时刻的音频特征,将目标特征信息输入到目标神经网络结构中,通过目标神经网络结构进行降噪处理,得到对应的目标音频信号。由于目标神经网络结构是通过预设音频信号和目标噪声信号训练得到,相较于现有技术中的神经网络模型直接使用消声室得到的数据作为纯净数据具有更好的贴近实际场景数据的优点,因此,可以解决相关技术中通过纯净音频信号对降噪模型进行训练,导致降噪模型的降噪的准确度比较低问题,达到了提高目标神经网络结构的降噪的准确度的效果,进而能够有效提升语音通话的通话质量。

当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!