音频的带宽扩展方法、装置、存储介质及计算机程序产品与流程

文档序号:36509383发布日期:2023-12-29 05:37阅读:82来源:国知局
音频的带宽扩展方法与流程

本技术涉及音频处理,特别涉及一种音频的带宽扩展方法、装置、存储介质及计算机程序产品。


背景技术:

1、音频的带宽越宽,所包含的信号分量越丰富,音质也就越好。然而由于数据传输、存储等大小限制,通常需要对音频进行数据压缩,即编码。而编码会导致音频的高频成分丢失,音质有所降低,解码出的音频的听感较差。所以,为了提升音质,需要对音频进行带宽扩展来增加音频的高频成分。

2、在相关技术中,通过频带复制(spectral band replication,sbr)技术,对音频进行带宽扩展来增加音频的高频成分。例如,通过平移或翻转音频的改进余弦变换(modifieddiscrete cosine transform,mdct)谱,并对平移或翻转得到的mdct谱进行包络整形和噪声填充,以得到音频的高频成分。

3、然而,通过频带复制技术对音频进行带宽扩展后得到的高频成分往往带有明显的复制痕迹,导致最终音频的音质仍不够好,听感不够自然。另外,对mdct谱进行包络整形的复杂度较高,降低了音频的带宽扩展效率。


技术实现思路

1、本技术提供了一种音频的带宽扩展方法、装置、存储介质及计算机程序产品,能够通过带宽扩展提高音频的音质,听感更加自然,且降低复杂度,提高效率。所述技术方案如下:

2、第一方面,提供了一种音频的带宽扩展方法,所述方法包括:

3、根据第一带宽占比确定第一高通滤波参数,第一带宽占比用于指示第一截止频率在第一频带中的位置,第一截止频率为待进行带宽扩展的第一音频信号的截止频率,第一音频信号包含第一频率成分,第一频率成分包括第一频带中不大于第一截止频率的频率成分,第一频带是基于第一音频信号的采样率确定;将第一音频信号输入第一超分网络,以得到第一超分信号,第一超分信号包含第一频率成分中的部分频率成分和第二频率成分,第二频率成分包括第一频带中大于第一截止频率的频率成分;按照第一高通滤波参数,对第一超分信号进行高通滤波,以得到第二音频信号,第二音频信号包含第二频率成分;将第一音频信号与第二音频信号进行叠加,以得到经带宽扩展的音频信号。

4、本方案通过超分网络所扩展出的高频成分使得最终音频的听感更加和谐自然,且复杂度更低,提高了带宽扩展效率。另外,本方案将超分网络与高通滤波相结合,高通滤波参数是根据待进行带宽扩展的音频信号的截止频率确定的,可见本方案能够自适应不同的截止频率,超分网络也能够处理各种截止频率的音频信号。在待进行带宽扩展的音频信号是解码过程中所得到的音频信号的情况下,由于截止频率与码率相关,因此,本方案能够自适应不同的码率。此外,本方案通过高通滤波使得最终音频信号的低频成分基本不变,即低频成分不受损。

5、可选地,根据第一带宽占比确定第一高通滤波参数,包括:从多个带宽占比范围中确定第一带宽占比所在的第一带宽占比范围;从该多个带宽占比范围对应的多组高通滤波参数中,选择出与第一带宽占比范围对应的一组高通滤波参数,作为第一高通滤波参数。其中,该多个带宽占比范围与该多组高通滤波参数一一对应,且该多个带宽占比范围不存在重叠。

6、本方案可以应用于解码过程中,例如应用于解码端。基于此,根据第一带宽占比确定第一高通滤波参数之前,还包括:对码流进行解析和反量化,以得到mdct谱;对该mdct谱进行带宽检测,以得到第一截止频率;将第一截止频率除以第一频带的频带宽度,以得到第一带宽占比。相应地,将第一音频信号输入第一超分网络,以得到第一超分信号之前,还包括:基于该mdct谱,确定第一音频信号。

7、其中,码流是编码端对待压缩的音频信号进行编码后得到的,编码过程采用了mdct。待压缩的音频信号的带宽大于第一音频信号的带宽。例如,待压缩的音频信号的带宽等于第一频带的带宽,即,待压缩的音频信号为满频带信号。另外,音频信号的带宽是指音频信号的实际带宽,或者说有效带宽,上述带宽检测是指有效带宽检测,带宽占比是指有效带宽占相应频带的比例,带宽占比可以称为有效带宽占比。

8、在本技术实施例的编码过程中,编码端对待压缩的音频信号进行分帧,以得到多个音频帧的待压缩信号。编码端对该多个音频帧的待压缩信号分别进行加窗,以得到多帧带窗的待压缩信号。编码端将第j个和第j+1个音频帧划分为一个音频段,对该音频段对应的带窗的待压缩信号进行mdct以及量化,以得到码流中该音频段对应的编码比特流。其中,j为不小于0的整数。

9、可选地,基于该mdct谱,确定第一音频信号,包括:对该mdct谱进行改进余弦逆变换(inverse-mdct,imdct),以得到第一音频信号;其中,经带宽扩展的音频信号包括第i个音频帧和第i+1个音频帧,i为不小于1的整数;将第一音频信号与第二音频信号进行叠加,以得到经带宽扩展的音频信号之后,还包括:对经带宽扩展的音频信号和经带宽扩展的参考音频信号进行交叠相加(overlap and addition,ola),以得到第i个音频帧的重建信号,该参考音频信号包括第i-1个音频帧和第i个音频帧,第i个音频帧的重建信号包含第一频率成分和第二频率成分。需要说明的是,第一音频信号、经带宽扩展的音频信号以及参考音频信号都是带窗信号,ola操作能够用于去窗使得重建信号为去窗后的信号。另外,依次进行imdct、超分和ola使得解码过程不会引入额外的延迟。

10、本方案也可以应用于任意设备中,以对这些设备中存储的带宽较窄的音频信号进行带宽扩展。基于此,将第一音频信号输入第一超分网络,以得到第一超分信号之前,还包括:按照第一上采样参数,对目标音频信号进行上采样,以得到第一音频信号,该目标音频信号是指第二频带中均具有频率成分的音频信号,第二频带是基于该目标音频信号的采样率确定。相应地,根据第一带宽占比确定第一高通滤波参数之前,还包括:基于第一上采样参数确定第一带宽占比。简单来说,先对满频带但音质较差的目标音频信号进行上采样,以得到未满频带的第一音频信号,进而将第一音频信号扩展为满频带的音频信号,从而增强音质。

11、可选地,第一超分网络包括第一处理模块、第二处理模块和第三处理模块,第二处理模块包括第一卷积子模块、第二卷积子模块和相加子模块,第一卷积子模块和第二卷积子模块中卷积层的扩张率均大于1;将第一音频信号输入第一超分网络,以得到第一超分信号,包括:将第一音频信号输入第一处理模块,以得到第一数据,第一数据包含第一频率成分和第二频率成分;将第一数据输入第一卷积子模块,以得到第二数据;将第二数据输入第二卷积子模块,以得到第三数据;将第二数据和第三数据输入相加子模块,以得到第四数据,第四数据包含第二频率成分,或者,第四数据包含第一频率成分中的部分频率成分和第二频率成分;将第四数据输入第三处理模块,以得到第一超分信号。

12、可选地,第一处理模块包括非线性激活层,第二频率成分是通过非线性激活层所扩展出的频率成分。

13、应当理解的是,第一处理模式用于扩展高频成分(如第二频率成分)。在本技术实施例中,第一处理模块包括非线性激活层,第二频率成分是通过非线性激活层所扩展出的频率成分。非线性激活层具有非线性滤波功能,非线性滤波能够产生倍频效应,使得第一处理模块能够扩展出高频成分,且扩展出的高频成分的谱结构与第一音频信号所包含的频率成分的谱结构具有良好的一致性。第一处理模块在扩展出高频成分的同时,还可能会扩展出一些低频成分(如第一频率成分中的一部分)。第二处理模块用于尽可能地减少所扩展出的低频成分。具体来讲,由于第二处理模块中卷积层的扩张率大于1,因此这些卷积层隐式地具备下采样功能,再加上相加子模块的作用,使得第二处理模块能够减少所扩展出的低频成分。

14、可选地,将第一音频信号输入第一超分网络,以得到第一超分信号之前,还包括:从多个采样率对应的多个超分网络中,选择出与第一音频信号的采样率对应的超分网络,作为第一超分网络。应当理解的是,电子设备中部署有多个超分网络,该多个超分网络与该多个采样率一一对应,即一个超分网络对应一个采样率,不同的超分网络对应不同的采样率,各个超分网络用于对相应采样率的音频信号进行带宽扩展。

15、可选地,从该多个采样率对应的多个超分网络中,选择出与第一音频信号的采样率对应的超分网络,作为第一超分网络之前,还包括:获取多组音频样本集,每组音频样本集包括多个音频样本信号,不同音频样本集中的音频样本信号的采样率不同,同一音频样本集中的各个音频样本信号的采样率相同;基于该多组音频样本集,分别确定多个超分网络。其中,该多组音频样本集与该多个超分网络一一对应,一组音频样本集用于确定一个超分网络,不同组的音频样本集用于确定不同的超分网络。

16、可选地,基于该多组音频样本集,分别确定多个超分网络,包括:该从多组音频样本集中选择一组音频样本信号作为第一音频样本集,对第一音频样本集执行如下操作,直至对该多组音频样本集均执行如下操作为止:

17、对第一音频样本集中的多个音频样本信号添加噪声,以得到多个第一样本信号;按照一组或多组低通滤波参数,对该多个第一样本信号进行低通滤波,以得到多个第二样本信号;将该多个第二样本信号作为初始超分网络的输入,将该多个第一样本信号作为初始超分网络的输出,对初始超分网络进行训练,以得到一个超分网络。

18、其中,电子设备按照一组低通滤波参数,对该多个第一样本信号进行低通滤波。或者,电子设备对该多个第一样本信号分进行分组,以得到多组第一样本信号,该多组第一样本信号与该多组低通滤波参数一一对应,每组低通滤波参数用于对相应一组第一样本信号进行低通滤波。电子设备按照该多组低通滤波参数,分别对该多组第一样本信号进行低通滤波,以得到多组第二样本信号。即,电子设备按照该多组低通滤波参数中的各组低通滤波参数,对相应一组第一样本信号进行低通滤波。该多组第二样本信号中不同组的第二样本信号的截止频率不同,这样更有利于训练出能够自适应不同截止频率的超分网络。

19、另外,通过对音频样本信号添加噪声,能够使得训练得到的超分网络对噪声信号敏感,对于音频信号中的类噪声成分同样具有较高的增益,即,训练后的超分网络能够对音频信号中的类噪声成分也具有带宽扩展的效果。上述多组音频样本集可以包括不用风格的音乐样本信号和/或语音样本信号,这样能够使得本方案对于语音信号和音乐信号都具有良好的鲁棒性。

20、可选地,本方案还可以进行二次带宽扩展以进一步提高音频品质。在一种实现方式中,将第一音频信号与第二音频信号进行叠加,以得到经带宽扩展的音频信号之后,还包括:按照第二上采样参数,对经带宽扩展的音频信号进行上采样,以得到第三音频信号,第三音频信号为待进行二次带宽扩展的音频信号;将第三音频信号输入第二超分网络,以得到第二超分信号,第二超分信号包含第三频率成分,第三频率成分包括第三频带中大于第二截止频率的频率成分,第二截止频率为第三音频信号的截止频率,第三频带是基于第三音频信号的采样率确定;基于第二上采样参数确定第二带宽占比,第二带宽占比用于指示第二截止频率在第三频带中的位置;基于第二带宽占比确定第二高通滤波参数;按照第二高通滤波参数对第二超分信号进行高通滤波,以得到第四音频信号,第四音频信号包含第三频率成分;将第三音频信号与第四音频信号进行叠加,以得到经二次带宽扩展的音频信号。

21、可以看出,第二次带宽扩展的过程与第一次带宽扩展的过程是相类似的。不同的地方在于,在应用于音频解码的场景中,第一次带宽扩展中的第一带宽占比是通过带宽检测确定的,第二次带宽扩展中的第二带宽占比是基于第二上采样参数确定的,即第二次带宽扩展中无需进行带宽检测。

22、第二方面,提供了一种音频的带宽扩展装置,所述音频的带宽扩展装置具有实现上述第一方面中音频的带宽扩展方法行为的功能。所述音频的带宽扩展装置包括一个或多个模块,该一个或多个模块用于实现上述第一方面所提供的音频的带宽扩展方法。

23、也即是,提供了一种音频的带宽扩展装置,该装置包括:

24、第一确定模块,用于根据第一带宽占比确定第一高通滤波参数,第一带宽占比用于指示第一截止频率在第一频带中的位置,第一截止频率为待进行带宽扩展的第一音频信号的截止频率,第一音频信号包含第一频率成分,第一频率成分包括第一频带中不大于第一截止频率的频率成分,第一频带是基于第一音频信号的采样率确定;

25、第一超分模块,用于将第一音频信号输入第一超分网络,以得到第一超分信号,第一超分信号包含第一频率成分中的部分频率成分和第二频率成分,第二频率成分包括第一频带中大于第一截止频率的频率成分;

26、第一高通滤波模块,用于按照第一高通滤波参数,对第一超分信号进行高通滤波,以得到第二音频信号,第二音频信号包含第二频率成分;

27、第一叠加模块,用于将第一音频信号与第二音频信号进行叠加,以得到经带宽扩展的音频信号。

28、可选地,该装置还包括:

29、解码模块,用于对码流进行解析和反量化,以得到mdct谱;

30、带宽检测模块,用于对该mdct谱进行带宽检测,以得到第一截止频率;

31、第二确定模块,用于将第一截止频率除以第一频带的频带宽度,以得到第一带宽占比;

32、第三确定模块,用于基于该mdct谱,确定第一音频信号。

33、可选地,第三确定模块包括:

34、逆变换子模块,用于对该mdct谱进行改进余弦逆变换imdct,以得到第一音频信号;

35、经带宽扩展的音频信号包括第i个音频帧和第i+1个音频帧,i为不小于1的整数;该装置还包括:

36、交叠相加子模块,用于对经带宽扩展的音频信号和经带宽扩展的参考音频信号进行交叠相加ola,以得到第i个音频帧的重建信号,该参考音频信号包括第i-1个音频帧和第i个音频帧,第i个音频帧的重建信号包含第一频率成分和第二频率成分。

37、可选地,该装置还包括:

38、第一上采样模块,用于按照第一上采样参数,对目标音频信号进行上采样,以得到第一音频信号,该目标音频信号是指第二频带中均具有频率成分的音频信号,第二频带是基于该目标音频信号的采样率确定;

39、第四确定模块,用于基于第一上采样参数确定第一带宽占比。

40、可选地,该装置还包括:

41、第二上采样模块,用于按照第二上采样参数,对经带宽扩展的音频信号进行上采样,以得到第三音频信号,第三音频信号为待进行二次带宽扩展的音频信号;

42、第二超分模块,用于将第三音频信号输入第二超分网络,以得到第二超分信号,第二超分信号包含第三频率成分,第三频率成分包括第三频带中大于第二截止频率的频率成分,第二截止频率为第三音频信号的截止频率,第三频带是基于第三音频信号的采样率确定;

43、第五确定模块,用于基于第二上采样参数确定第二带宽占比,第二带宽占比用于指示第二截止频率在第三频带中的位置;

44、第六确定模块,用于基于第二带宽占比确定第二高通滤波参数;

45、第二高通滤波模块,用于按照第二高通滤波参数对第二超分信号进行高通滤波,以得到第四音频信号,第四音频信号包含第三频率成分;

46、第二叠加模块,用于将第三音频信号与第四音频信号进行叠加,以得到经二次带宽扩展的音频信号。

47、可选地,第一确定模块包括:

48、第一确定子模块,用于从多个带宽占比范围中确定第一带宽占比所在的第一带宽占比范围;

49、第一选择子模块,用于从该多个带宽占比范围对应的多组高通滤波参数中,选择出与第一带宽占比范围对应的一组高通滤波参数,作为第一高通滤波参数。

50、可选地,该装置还包括:

51、选择模块,用于从多个采样率对应的多个超分网络中,选择出与第一音频信号的采样率对应的超分网络,作为第一超分网络。

52、可选地,该装置还包括:

53、获取模块,用于获取多组音频样本集,每组音频样本集包括多个音频样本信号,不同音频样本集中的音频样本信号的采样率不同,同一音频样本集中的各个音频样本信号的采样率相同;

54、第七确定模块,用于基于该多组音频样本集,分别确定该多个超分网络。

55、可选地,第七确定模块包括:

56、训练子模块,用于从该多组音频样本集中选择一组音频样本信号作为第一音频样本集,对第一音频样本集执行如下操作,直至对多组音频样本集均执行如下操作为止:

57、对第一音频样本集中的多个音频样本信号添加噪声,以得到多个第一样本信号;

58、按照一组或多组低通滤波参数,对该多个第一样本信号进行低通滤波,以得到多个第二样本信号;

59、将该多个第二样本信号作为初始超分网络的输入,将该多个第一样本信号作为初始超分网络的输出,对初始超分网络进行训练,以得到一个超分网络。

60、可选地,第一超分网络包括第一处理模块、第二处理模块和第三处理模块,第二处理模块包括第一卷积子模块、第二卷积子模块和相加子模块,第一卷积子模块和第二卷积子模块中卷积层的扩张率均大于1;

61、第一超分模块具体用于:

62、将第一音频信号输入第一处理模块,以得到第一数据,第一数据包含第一频率成分和第二频率成分;

63、将第一数据输入第一卷积子模块,以得到第二数据;

64、将第二数据输入第二卷积子模块,以得到第三数据;

65、将第二数据和第三数据输入相加子模块,以得到第四数据,第四数据包含第二频率成分,或者,第四数据包含第一频率成分中的部分频率成分和第二频率成分;

66、将第四数据输入第三处理模块,以得到第一超分信号。

67、可选地,第一处理模块包括非线性激活层,第二频率成分是通过非线性激活层所扩展出的频率成分。

68、第三方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器用于存储执行上述第一方面所提供的音频的带宽扩展方法的程序,以及存储用于实现上述第一方面所提供的音频的带宽扩展方法所涉及的数据。所述处理器被配置为用于执行所述存储器中存储的程序。所述电子设备还可以包括通信总线,该通信总线用于该处理器与存储器之间建立连接。

69、第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面所述的音频的带宽扩展方法。

70、第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面所述的音频的带宽扩展方法。

71、上述第二方面、第三方面、第四方面和第五方面所获得的技术效果与第一方面中对应的技术手段获得的技术效果近似,在这里不再赘述。

72、本技术提供的技术方案至少能够带来以下有益效果:

73、相比于频带复制的方案,本方案通过超分网络所扩展出的高频成分能够使得最终音频信号的听感更加和谐自然。相比于需要对mdct谱进行包络整形的方案,本方案的复杂度更低,提高了带宽扩展效率。另外,本方案将超分网络与高通滤波相结合,高通滤波参数是根据待进行带宽扩展的音频信号的截止频率确定的,可见本方案能够自适应不同的截止频率,本方案中的超分网络能够处理各种截止频率的音频信号。在待进行带宽扩展的音频信号是解码过程中所得到的音频信号的情况下,截止频率是与编码的码率相关的,码率越低,截止频率相对越小,这种情况下,本方案实质上能够自适应不同的码率。此外,本方案通过高通滤波使得最终音频信号的低频成分基本不变,即低频成分不受损。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1