音频降噪方法、降噪模型的训练方法及装置与流程

文档序号：37595094发布日期：2024-04-18 12:31阅读：5来源：国知局

本技术涉及音频处理，特别是涉及一种音频降噪方法、降噪模型的训练方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术：

1、音频降噪一般是指当音频信号被各种各样的噪声干扰、甚至淹没后，从噪声背景中提取有用的音频信号，抑制、降低噪声干扰的技术。目前的音频降噪方法，多是采用传统数字信号处理，使用各种有效的频域转换和时域变换估计原始带噪音频中的噪声频谱，然后通过估计的噪声频谱从录制的信号中预测降噪后的音频信号。

2、然而，这种基于频域转换和时域变换的降噪方法通常假设噪声是稳态的，即噪声的统计特性在整个信号中是不变的，在该假设下，该降噪方法才有一定的降噪作用。在唱歌状态下，会出现伴奏外放的情况，周边的环境也比较复杂（比如在路边，有路人的声音；在家里k歌，也有家人朋友的交流声等。甚至，k歌场景下的伴奏，可能还有和声等人声存在），收音时会将伴奏，和环境声音全部收集，从而使后期处理人声变得更困难。

技术实现思路

1、基于此，有必要针对上述方法对后期人声的处理较为困难的技术问题，提供一种音频降噪方法、降噪模型的训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

2、第一方面，本技术提供了一种音频降噪方法。所述方法包括：

3、获取用户的带噪音频；

4、通过降噪模型中的第一空洞卷积模块，对所述带噪音频进行信息提取处理，得到所述带噪音频的时频信息；所述第一空洞卷积模块包括频域轴的空洞卷积网络和时域轴的空洞卷积网络，所述时频信息包含所述带噪音频在时域上和频域上的信息；

5、将所述带噪音频的所述时频信息，输入所述降噪模型中的自适应声纹模块，得到所述用户的声纹特征；

6、将所述用户的声纹特征以及所述带噪音频的所述时频信息，输入所述降噪模型中的第二空洞卷积模块，得到所述带噪音频对应的降噪音频。

7、在其中一个实施例中，所述将所述带噪音频的所述时频信息，输入所述降噪模型中的自适应声纹模块，得到所述用户的声纹特征，包括：

8、通过所述自适应声纹模块，对所述带噪音频的所述时频信息进行声纹提取，得到所述用户的当前声纹特征，以及确定所述时频信息的干净程度值；

9、在预存有所述用户的历史声纹特征的情况下，基于所述干净程度值、所述用户的所述当前声纹特征和所述历史声纹特征，确定所述用户的声纹特征。

10、在其中一个实施例中，所述基于所述干净程度值、所述用户的所述当前声纹特征和所述历史声纹特征，确定所述用户的声纹特征，包括：

11、在所述干净程度值大于或等于阈值的情况下，基于所述当前声纹特征，对所述用户的历史声纹特征进行更新，得到所述用户的声纹特征；

12、在所述干净程度值小于所述阈值的情况下，将所述用户的历史声纹特征，确定为所述用户的声纹特征。

13、在其中一个实施例中，所述基于所述当前声纹特征，对所述用户的历史声纹特征进行更新，得到所述用户的声纹特征，包括：

14、获取针对所述用户的历史声纹特征预设的第一权重；

15、基于所述第一权重，确定所述当前声纹特征的第二权重；

16、根据所述第一权重和所述第二权重，对所述当前声纹特征和所述历史声纹特征进行融合处理，得到所述用户的声纹特征。

17、在其中一个实施例中，所述通过降噪模型中的第一空洞卷积模块，对所述带噪音频进行信息提取处理，得到所述带噪音频的时频信息之前，还包括：

18、对所述带噪音频进行子带分解处理，得到所述带噪音频的多个子带；

19、分别对各个子带进行时频变换处理，得到所述各个子带的音频特征；

20、所述通过降噪模型中的第一空洞卷积模块，对所述带噪音频进行信息提取处理，得到所述带噪音频的时频信息，包括：

21、通过所述降噪模型中的第一空洞卷积模块，分别对所述带噪音频的各个子带的音频特征进行信息提取处理，得到所述各个子带的时频信息。

22、在其中一个实施例中，所述用户的声纹特征包括所述各个子带对应的所述用户的声纹特征；

23、所述将所述用户的声纹特征以及所述带噪音频的所述时频信息，输入所述降噪模型中的第二空洞卷积模块，得到所述带噪音频对应的降噪音频，包括：

24、分别将每个子带对应的声纹特征及所述每个子带的时频信息，输入所述降噪模型中的第二空洞卷积模块，得到所述每个子带对应的降噪音频频谱；

25、对所述每个子带对应的降噪音频频谱进行时频变换的逆变换，得到所述每个子带的降噪音频片段；

26、对所述每个子带对应的降噪音频片段进行合成处理，得到所述带噪音频对应的降噪音频。

27、第二方面，本技术提供了一种降噪模型的训练方法。所述方法包括：

28、生成样本用户的样本带噪音频集，所述样本带噪音频集包括样本带噪音频和所述样本带噪音频对应的干净音频，其中，所述样本带噪音频通过在干净音频的基础上，叠加不同信噪比的噪声音频和/或伴奏音频得到；

29、通过待训练降噪模型中的第一空洞卷积模块，对所述样本带噪音频进行信息提取处理，得到所述样本带噪音频的时频信息；所述第一空洞卷积模块包括频域轴的空洞卷积网络和时域轴的空洞卷积网络，所述时频信息包含所述样本带噪音频在时域上和频域上的信息；

30、将所述样本带噪音频的所述时频信息，输入所述待训练降噪模型中的自适应声纹模块，得到所述样本用户的声纹特征；

31、将所述样本用户的声纹特征以及所述样本带噪音频的所述时频信息，输入所述待训练降噪模型中的第二空洞卷积模块，得到所述样本带噪音频对应的预测降噪音频；

32、基于所述预测降噪音频与所述干净音频之间的差异信息，对所述待训练降噪模型进行训练，得到训练完成的降噪模型。

33、在其中一个实施例中，所述样本带噪音频集包括第一带噪音频集和第二带噪音频集；所述第一带噪音频集中的每个第一样本带噪音频包含目标干净音频和至少一种噪声；所述第二带噪音频集中的每个第二样本带噪音频包含目标干净音频、干扰干净音频和至少一种噪声；所述目标干净音频为所述样本用户的人声；

34、所述方法还包括：

35、基于所述第一带噪音频集，对所述待训练降噪模型中的第一空洞卷积模块进行训练，得到第一训练后降噪模型；

36、保持所述第一空洞卷积模块的参数不变，基于所述第二带噪音频集，对所述待训练降噪模型中的自适应声纹模块和第二空洞卷积网络进行训练，得到第二训练后降噪模型，作为训练完成的降噪模型。

37、第三方面，本技术还提供了一种音频降噪装置。所述装置包括：

38、音频获取模块，用于获取用户的带噪音频；

39、信息提取模块，用于通过降噪模型中的第一空洞卷积模块，对所述带噪音频进行信息提取处理，得到所述带噪音频的时频信息；所述第一空洞卷积模块包括频域轴的空洞卷积网络和时域轴的空洞卷积网络，所述时频信息包含所述带噪音频在时域上和频域上的信息；

40、声纹提取模块，用于将所述带噪音频的所述时频信息，输入所述降噪模型中的自适应声纹模块，得到所述用户的声纹特征；

41、音频降噪模块，用于将所述用户的声纹特征以及所述带噪音频的所述时频信息，输入所述降噪模型中的第二空洞卷积模块，得到所述带噪音频对应的降噪音频。

42、第四方面，本技术提供了一种降噪模型的训练装置。所述装置包括：

43、样本获取模块，用于生成样本用户的样本带噪音频集，所述样本带噪音频集包括样本带噪音频和所述样本带噪音频对应的干净音频，其中，所述样本带噪音频通过在干净音频的基础上，叠加不同信噪比的噪声音频和/或伴奏音频得到；

44、信息提取模块，用于通过待训练降噪模型中的第一空洞卷积模块，对所述样本带噪音频进行信息提取处理，得到所述样本带噪音频的时频信息；所述第一空洞卷积模块包括频域轴的空洞卷积网络和时域轴的空洞卷积网络，所述时频信息包含所述样本带噪音频在时域上和频域上的信息；

45、声纹提取模块，用于将所述样本带噪音频的所述时频信息，输入所述待训练降噪模型中的自适应声纹模块，得到所述样本用户的声纹特征；

46、音频预测模块，用于将所述样本用户的声纹特征以及所述样本带噪音频的所述时频信息，输入所述待训练降噪模型中的第二空洞卷积模块，得到所述样本带噪音频对应的预测降噪音频；

47、模型训练模块，用于基于所述预测降噪音频与所述干净音频之间的差异信息，对所述待训练降噪模型进行训练，得到训练完成的降噪模型。

48、第五方面，本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上任一项所述的音频降噪方法或降噪模型的训练方法。

49、第六方面，本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述的音频降噪方法或降噪模型的训练方法。

50、第七方面，本技术还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如上任一项所述的音频降噪方法或降噪模型的训练方法。

51、上述音频降噪方法、降噪模型的训练方法、装置、计算机设备、存储介质和计算机程序产品，通过构建频域轴的空洞卷积网络和时域轴的空洞卷积网络，作为第一空洞卷积模块，以提取带噪音频在时域上和频域上的时频信息，进一步通过自适应声纹模块，基于时频信息提取到用户的声纹特征，最后利用第二空洞卷积模块，根据用户的声纹特征，对带噪音频进行降噪，从而得到降噪音频。该方法通过先提取用户的声纹特征，以用户的声纹特征为依据进行降噪，相对于传统的以带噪音频中的噪声频谱进行去噪，可以无需考虑噪声是否为稳态噪声，从而可以实现对含有非稳态噪声的带噪音频的有效降噪。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈洲旋
技术所有人：腾讯音乐娱乐科技（深圳）有限公司
我是此专利的发明人