音频处理方法、装置、电子设备及存储介质与流程

文档序号:37977449发布日期:2024-05-13 12:32阅读:9来源:国知局
音频处理方法、装置、电子设备及存储介质与流程

本公开涉及音频处理,尤其涉及一种音频处理方法、装置、电子设备、存储介质及程序产品。


背景技术:

1、带宽扩展(bwe,bandwidth extension)(也称为音频超分)是一种将音频信号中缺失的高频信号恢复出来,以提高音频信号分辨率和清晰度的技术。例如,在实时通信(rtc)场景中,由于音频采集设备和传输系统的限制,音频信号往往会出现高频信号缺失的情况,从而导致音频信号的分辨率降低,影响音频的自然度和清晰度,这种情况下,则可以采用带宽扩展技术处理音频信号。

2、近年来,在带宽扩展领域采用的方法逐渐由基于信号处理的传统带宽扩展方法发展为深度学习方法。虽然由深度学习方法训练的深度带宽扩展(deep bwe)模型,相对于基于信号处理的传统方法,在音频高频补充和音质提升等方面表现出更优异的性能。但是由于深度带宽扩展模型在训练完成后,其针对频宽的扩展方案就会固定下来,例如,从8 khz到16 khz,从16 khz到48 khz等,无法将10khz的音频信号扩展到16khz。因此,现有方法将无法处理实时通信(rtc)场景中音频有效频宽会经常波动的情况。


技术实现思路

1、本公开提供一种音频处理方法、装置、电子设备、存储介质及程序产品,以至少解决相关技术中无法处理实时通信(rtc)场景中音频有效频宽会经常波动的情况的问题。本公开的技术方案如下:

2、根据本公开实施例的第一方面,提供一种音频处理方法,包括:

3、将待处理音频信号预处理为目标频宽的音频信号;

4、对所述音频信号进行特征提取处理,得到所述音频信号的原始幅度谱和原始相位信息;

5、通过与所述目标频宽对应的音频处理模型,对所述原始幅度谱的频率进行增高处理,得到所述音频信号的处理后幅度谱;以及,对所述原始相位信息进行修正处理,得到修正相位信息;

6、对所述处理后幅度谱和所述修正相位信息进行融合处理,得到处理后音频信号。

7、在一示例性实施例中,所述音频处理模型包括幅度谱修复网络和相位修正网络;所述通过与所述目标频宽对应的音频处理模型,对所述原始幅度谱的频率进行增高处理,得到所述音频信号的处理后幅度谱;以及,对所述原始相位信息进行修正处理,得到修正相位信息,包括:

8、通过所述音频处理模型中的所述幅度谱修复网络,对所述原始幅度谱的频率进行增高处理,得到所述音频信号的处理后幅度谱;

9、以及,通过所述音频处理模型中的所述相位修正网络和所述幅度谱修复网络,对所述原始相位信息进行修正处理,得到修正相位信息。

10、在一示例性实施例中,所述通过所述音频处理模型中的所述幅度谱修复网络,对所述原始幅度谱的频率进行增高处理,得到所述音频信号的处理后幅度谱,包括:

11、通过所述幅度谱修复网络,对所述原始幅度谱的频率进行增高处理,得到所述音频信号的初始处理后幅度谱;

12、基于所述原始幅度谱,对所述初始处理后幅度谱进行掩蔽处理,得到掩蔽后的幅度谱;

13、对所述掩蔽后的幅度谱与所述原始幅度谱进行叠加处理,得到所述处理后幅度谱。

14、在一示例性实施例中,所述基于所述原始幅度谱,对所述初始处理后幅度谱进行掩蔽处理,得到掩蔽后的幅度谱,包括:

15、对比所述原始幅度谱和所述初始处理后幅度谱,基于对比结果,确定掩蔽模型;

16、通过所述掩蔽模型对所述初始处理后幅度谱进行掩蔽处理,得到所述掩蔽后的幅度谱。

17、在一示例性实施例中,所述幅度谱修复网络包括多个第一采样层;所述相位修正网络包括多个第二采样层以及多个信息交互模块,每个信息交互模块与一个第一采样层和一个第二采样层相连接;所述通过所述音频处理模型中的所述相位修正网络和所述幅度谱修复网络,对所述原始相位信息进行修正处理,得到修正相位信息,包括:

18、在所述相位修正网络中的每个信息交互模块中,对所述幅度谱修复网络中的第一采样层的第一输出特征,和所述相位修正网络中的第二采样层的第二输出特征进行融合处理,得到掩蔽参数;通过所述掩蔽参数,对所述第二输出特征进行修正处理,得到修正特征;

19、基于所述相位修正网络中最后一个信息交互模块输出的修正特征,得到所述修正相位信息。

20、在一示例性实施例中,所述对所述处理后幅度谱和所述修正相位信息进行融合处理,得到处理后音频信号,包括:

21、对所述处理后幅度谱和所述原始相位信息对应的翻折相位进行融合处理,得到所述目标频宽的初始复数谱;

22、对所述目标频宽对应的初始复数谱和所述修正相位信息进行融合处理,得到所述目标频宽的目标复数谱;

23、对所述目标频宽的目标复数谱进行反傅里叶变换处理,得到所述音频信号在所述目标频宽下的处理后音频信号。

24、在一示例性实施例中,所述将待处理音频信号预处理为目标频宽的音频信号,包括:

25、基于所述待处理音频信号的当前频宽,确定所述待处理音频信号与所述目标频宽相差的频宽;

26、在所述待处理音频信号中,对所述相差的频宽对应的频率范围插入零值样本,得到频宽与目标频宽相同的音频信号。

27、根据本公开实施例的第二方面,提供一种音频处理装置,包括:

28、预处理单元,被配置为执行将待处理音频信号预处理为目标频宽的音频信号;

29、提取单元,被配置为执行对所述音频信号进行特征提取处理,得到所述音频信号的原始幅度谱和原始相位信息;

30、处理单元,被配置为执行通过与所述目标频宽对应的音频处理模型,对所述原始幅度谱的频率进行增高处理,得到所述音频信号的处理后幅度谱;以及,对所述原始相位信息进行修正处理,得到修正相位信息;

31、融合单元,被配置为执行对所述处理后幅度谱和所述修正相位信息进行融合处理,得到处理后音频信号。

32、在一示例性实施例中,所述音频处理模型包括幅度谱修复网络和相位修正网络;所述处理单元,还包括:

33、幅度处理子单元,被配置为执行通过所述音频处理模型中的所述幅度谱修复网络,对所述原始幅度谱的频率进行增高处理,得到所述音频信号的处理后幅度谱;所述处理后幅度谱的频率高于所述原始幅度谱;

34、相位修正单元,被配置为执行通过所述音频处理模型中的所述相位修正网络和所述幅度谱修复网络,对所述原始相位信息进行修正处理,得到修正相位信息。

35、在一示例性实施例中,幅度处理子单元,还被配置为执行通过所述幅度谱修复网络,对所述原始幅度谱的频率进行增高处理,得到所述音频信号的初始处理后幅度谱;基于所述原始幅度谱,对所述初始处理后幅度谱进行掩蔽处理,得到掩蔽后的幅度谱;对所述掩蔽后的幅度谱与所述原始幅度谱进行叠加处理,得到所述处理后幅度谱。

36、在一示例性实施例中,幅度处理子单元,还被配置为执行对比所述原始幅度谱和所述初始处理后幅度谱,基于对比结果,确定掩蔽模型;通过所述掩蔽模型对所述初始处理后幅度谱进行掩蔽处理,得到所述掩蔽后的幅度谱。

37、在一示例性实施例中,所述幅度谱修复网络包括多个第一采样层;所述相位修正网络包括多个第二采样层以及多个信息交互模块,每个信息交互模块与一个第一采样层和一个第二采样层相连接;相位修正单元,还被配置为执行在所述相位修正网络中的每个信息交互模块中,对所述幅度谱修复网络中的第一采样层的第一输出特征,和所述相位修正网络中的第二采样层的第二输出特征进行融合处理,得到掩蔽参数;通过所述掩蔽参数,对所述第二输出特征进行修正处理,得到修正特征;基于所述相位修正网络中最后一个信息交互模块输出的修正特征,得到所述修正相位信息。

38、在一示例性实施例中,融合单元,还被配置为执行对所述处理后幅度谱和所述原始相位信息对应的翻折相位进行融合处理,得到所述目标频宽的初始复数谱;对所述目标频宽对应的初始复数谱和所述修正相位信息进行融合处理,得到所述目标频宽的目标复数谱;对所述目标频宽的目标复数谱进行反傅里叶变换处理,得到所述音频信号在所述目标频宽下的处理后音频信号。

39、在一示例性实施例中,预处理单元,还被配置为执行基于所述待处理音频信号的当前频宽,确定所述待处理音频信号与所述目标频宽相差的频宽;在所述待处理音频信号中,对所述相差的频宽对应的频率范围插入零值样本,得到频宽与目标频宽相同的音频信号。

40、根据本公开实施例的第三方面,提供一种电子设备,包括:

41、处理器;

42、用于存储所述处理器可执行指令的存储器;

43、其中,所述处理器被配置为执行所述指令,以实现如上任一项所述的方法。

44、根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如上任一项所述的方法。

45、根据本公开实施例的第五方面,提供一种计算机程序产品,所述计算机程序产品中包括指令,所述指令被电子设备的处理器执行时,使得所述电子设备能够执行如上任一项所述的方法。

46、本公开的实施例提供的技术方案至少带来以下有益效果:

47、上述音频处理方法中,先对待处理音频信号进行预处理,将其转换为目标频宽的音频信号。在转换后,再对转换后的音频信号进行原始幅度谱和原始相位信息等时频域特征的提取,然后通过音频处理模型对原始幅度谱进行处理,得到处理后幅度谱,以及,对原始相位信息进行修正处理,得到修正相位信息;最后基于处理后幅度谱和所述修正相位信息,融合得到处理后音频信号。其中,进行预处理的转换过程可以应用于频宽小于目标频宽的任意频宽的音频信号,即频宽不固定的音频信号,即本方案可以将任意频宽的音频信号自适应扩展出其所缺失的高频部分的幅度和相位,从而重构出高分辨率音频信号。因此,本方案可以实现针对音频的有效频宽会经常波动的实时通信(rtc)场景的音频处理,克服现有音频处理方案只能针对固定频宽的音频信号进行扩展的缺陷。

48、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1