用于对音频信号进行编码的音频编码器以及方法与流程

文档序号:36422208发布日期:2023-12-20 14:00阅读:60来源:国知局
用于对音频信号进行编码的音频编码器以及方法与流程

本发明涉及音频编码,并且优选地涉及用于控制evs编译码器中的基于mdct的tcx的频谱系数的量化的方法、装置或计算机程序。


背景技术:

1、evs编译码器的参考文档为:3gpp ts24.445v13.1.0(2016-03),第三代合作伙伴计划;技术规范小组服务及系统方面;用于增强型语音服务(evs)的编译码器;详细算法描述(第13版)。

2、然而,本发明额外地适用于例如由除第13版之外的其他版本限定的其他evs版本,并且附加地,本发明额外地适用于不同于evs然而依赖于例如在权利要求中所限定的检测器、整形器以及量化器和编码器级的所有其他音频编码器。

3、额外地,应注意,不仅由独立权利要求限定而且由从属权利要求限定的所有实施例可以彼此分离地使用,或者如由权利要求的相互从属性所概述的或如随后在优选示例下所论述的那样一起使用。

4、如3gpp中所指定的,evs编译码器[1]是用于窄带(nb)、宽带(wb)、超宽带(swb)或全频带(fb)语音及音频内容的现代混合型编译码器,其可以基于信号分类而在若干编码方法之间切换。

5、图1示出了evs中的公共处理和不同编码方案。具体地,图1中的编码器的公共处理部分包括信号重新采样块101和信号分析块102。音频输入信号在音频信号输入103处被输入到公共处理部分中,并且具体地,被输入到信号重新采样块101中。信号重新采样块101额外地具有用于接收命令行参数的命令行输入。如图1中可见,公共处理级的输出被输入到不同的元件中。具体地,图1包括基于线性预测的编码块(基于lp的编码)110、频域编码块120,以及非活动信号编码/cng块130。块110、120、130连接至比特流多路复用器140。此外,提供切换器150用于根据分类器决策来将公共处理级的输出切换到基于lp的编码块110、频域编码块120或非活动信号编码/cng(舒适噪声生成)块130。此外,比特流多路复用器140接收分类器信息,即,是否使用块110、120、130中的任一者来对在块103处输入并且由公共处理部分处理的输入信号的某一当前部分进行编码。

6、-诸如celp编码之类的基于lp(基于线性预测)的编码主要用于语音内容或语音主导内容以及具有高时间波动的一般音频内容。

7、-频域编码用于所有其他一般音频内容,诸如音乐或背景噪声。

8、为了为低比特率和中等比特率提供最大质量,基于公共处理模块中的信号分析来执行基于lp的编码与频域编码之间的频繁切换。为了节省复杂度,编译码器被优化以在后续模块中还重新使用信号分析级的元件。例如:信号分析模块以lp分析级为特征。所产生的lp滤波器系数(lpc)及残差信号首先被用于若干信号分析步骤,诸如话音活动检测器(vad)或语音/音乐分类器。其次,lpc也是基于lp的编码方案和频域编码方案的基本部分。为了节省复杂度,以celp编码器的内部采样率(srcelp)来执行lp分析。

9、celp编码器在12.8khz或16khz内部采样率(srcelp)下操作,并且因此可以直接表示高达6.4khz或8khz音频带宽的信号。对于在wb、swb或fb下超出该带宽的音频内容,用带宽扩展机制对高于celp的频率表示的音频内容进行编码。

10、基于mdct的tcx是频域编码的子模式。如对于基于lp的编码方法,基于lp滤波器来执行tcx中的噪声整形。通过将从经加权经量化的lp滤波器系数中计算的增益因子应用于mdct频谱(译码器侧)来在mdct域中执行该lpc整形。在编码器侧,在速率循环(rate loop)之前应用逆增益因子。这因此被称作lpc整形增益的应用。tcx在输入采样率(srinp)上进行操作。这被用来直接在mdct域中对完整的频谱进行编码,而无需额外的带宽扩展。输入采样率srinp(按其执行mdct变换)可以高于celp采样率srcelp(针对其计算lp系数)。因此,可以仅针对mdct频谱中与celp频率范围(fcelp)相对应的部分来计算lpc整形增益。针对频谱的剩余部分(若存在),使用最高频带的整形增益。

11、图2在高层次上并且针对基于mdct的tcx示出了lpc整形增益的应用。具体地,图2示出了在编码器侧上的图1的tcx或频域编码块120中的噪声整形和编码的原理。

12、具体地,图2示出了编码器的示意性框图。输入信号103被输入到重新采样块201中,以便执行信号的重新采样,以重新采样为celp采样率srcelp,即,由图1的基于lp的编码块110所要求的采样率。此外,提供计算lpc参数的lpc计算器203,并且在块205中,执行基于lpc的加权以便具有由图1中的基于lp的编码块110进一步处理的信号,即,使用acelp处理器编码的lpc残差信号。

13、此外,在不进行任何重新采样的情况下,输入信号103被输入到示例性地示为mdct变换的时间频谱转换器207。此外,在块209中,在一些计算之后应用由块203计算的lpc参数。具体地,块209经由线213接收从块203中计算的lpc参数,或者备选地或额外地从块205接收lpc参数,并且随后导出mdct(或一般地,导出频谱域加权因子),以便应用对应的逆lpc整形增益。然后,在块211中,执行一般的量化器/编码器操作,该操作例如可以是速率循环,其调整全局增益并且额外地优选使用如熟知的evs编码器规范中所示的算术编码来执行频谱系数的量化/编码以最终获得比特流。

14、与celp编码方法(其组合srcelp下的核心编码器与运行在较高采样率下的带宽扩展机制)形成对比,基于mdct的编码方法直接在输入采样率srinp上进行操作,并且在mdct域中对全频谱的内容进行编码。

15、基于mdct的tcx在低比特率(诸如9.6或13.2kbit/s)swb下对高至16khz的音频内容进行编码。因为在这种低比特率下仅可以借助于算术编码器直接对频谱系数的小的子集进行编码,所以所产生的频谱中的间隙(零值区域)用两种机制来掩盖:

16、-噪声填充,其将随机噪声插入在经译码的频谱中。噪声的能量由增益因子控制,该增益因子在比特流中被传送。

17、-智能间隙填充(igf),其插入来自频谱的下频率部分的信号部分。这种被插入的频率部分的特性由参数控制,该参数在比特流中被传送。

18、噪声填充用于高至最高频率的下频率部分,该最高频率可以由所传送的lpc(fcelp)控制。高于该频率则使用igf工具,该igf工具提供用于控制所插入的频率部分的等级的其他机制。

19、存在用于确定哪些频谱系数在编码过程中存留或哪些频谱系数将由噪声填充或igf替换的两种机制:

20、1)速率循环

21、在应用逆lpc整形增益之后,应用速率循环。对此,估计全局增益。随后,对频谱系数进行量化,并且利用算术编码器对经量化的频谱系数进行编码。基于算术编码器的真实的或估计的比特需求并且基于量化误差,增大或减小全局增益。这影响量化器的精确度。精确度越低,越多的频谱系数被量化成零。通过在速率循环之前使用经加权的lpc来应用逆lpc整形增益,确保了感知上相关的行以比感知上不相关的内容显著更高的机率存留。

22、2)igf音调屏蔽

23、在高于fcelp处,即没有lpc可用的情况下,使用用以识别感知上相关的频谱分量的不同机制:将行能量与igf区域中的平均能量进行比较。保留与感知上相关的信号部分对应的主要频谱行,所有其他行被设置为零。利用igf音调屏蔽进行了预处理的mdct频谱随后被馈送到速率循环中。

24、经加权的lpc遵循信号的频谱包络。通过使用经加权的lpc来应用逆lpc整形增益,频谱的感知白化被执行。这在编码循环之前显著地减小mdct频谱的动态,并且因此也控制编码循环中的mdct频谱系数之间的比特分布。

25、如上文所解释,经加权的lpc不可用于高于fcelp的频率。对于这些mdct系数,应用低于fcelp的最高频带的整形增益。这在低于fcelp的最高频带的整形增益与高于fcelp的系数的能量粗略地对应的情况下(由于频谱倾斜通常为这种情况,并且可以在大部分音频信号中观测到这种情况)很好地起作用。因此,该过程是有利的,因为不必计算或传送上频带的整形信息。

26、然而,假如存在高于fcelp的强频谱分量并且低于fcelp的最高频带的整形增益非常低,则这会引起失配。该失配严重地影响速率循环的效果,该速率循环专注于具有最高振幅的频谱系数。这将在低比特率下零化剩余的信号分量(在低频带中尤其如此),并且产生感知上不良的质量。

27、图3至图6示出了该问题。图3示出了应用逆lpc整形增益之前的绝对mdct频谱,图4示出了对应的lpc整形增益。存在可见的高于fcelp的强尖峰,这些强尖峰位于与低于fcelp的最高尖峰相同的数量级。高于fcelp的频谱分量是使用igf音调屏蔽进行预处理的结果。图5示出了应用逆lpc增益之后仍在量化之前的绝对mdct频谱。现在高于fcelp的尖峰显著地超过低于fcelp的尖峰,其效果是速率循环将主要专注于这些尖峰。图6示出了速率循环在低比特率下的结果:除了高于fcelp的尖峰之外的所有频谱分量都被量化为0。这在完整的译码过程之后产生感知上非常不良的结果,这是因为心理声学上非常相关的低频率下的信号部分完全缺失。

28、图3示出了应用逆lpc整形增益之前的关键帧的mdct频谱。

29、图4示出了所应用的lpc整形增益。在编码器侧上,频谱利用逆增益倍增。最后的增益值被用于高于fcelp的所有mdct系数。图4在右边界处指示fcelp。

30、图5示出了应用逆lpc整形增益之后的关键帧的mdct频谱。高于fcelp的高尖峰清楚地可见。

31、图6示出了量化之后的关键帧的mdct频谱。所显示的频谱包括全局增益的应用,但不具有lpc整形增益的应用。可以看出,除了高于fcelp的尖峰之外,所有频谱系数都被量化为0。


技术实现思路

1、本发明的目标是提供一种改进的音频编码概念。

2、通过本文所述的音频编码器、用于对音频信号进行编码的方法或计算机程序来实现该目标。

3、本发明基于以下发现:可以通过根据音频编码器中所包括的量化器和编码器级的具体特性对要编码的音频信号进行预处理,来解决这种现有技术问题。为此目的,检测音频信号的上频带中的尖峰频谱区域。接着,使用整形器,该整形器用于使用下频带的整形信息来对该下频带进行整形,并且用于使用下频带的整形信息的至少一部分来对上频带进行整形。具体地,该整形器被额外地配置为对检测到的尖峰频谱区域(即,由检测器在音频信号的上频带中检测到的尖峰频谱区域)中的频谱值进行衰减。接着,对经整形的下频带和经衰减的上频带进行量化和熵编码。

4、由于已经选择性地(即,在检测到的尖峰频谱区域内)衰减上频带这一事实,该检测到的尖峰频谱区域不再能够完全地主控量化器和编码器级的行为。

5、替代地,由于已经在音频信号的上频带中形成衰减这一事实,编码操作的结果的整体感知质量得到提高。具体地,在其中极低比特率是量化器和编码器级的主目标的低比特率下,上频带中的高频谱尖峰将消耗该量化器和编码器级所需的所有比特,因为编码器将由该高的上频率部分引导,并且因此在这些部分中使用大部分可用比特。这自动地产生在感知上更重要的下频率范围中不再有任何可用比特的情形。因此,这种过程将产生仅具有经编码的高频部分而较低频率部分完全未被编码或仅被非常粗略地编码的信号。然而,已经发现,这种过程与以下情形相比在感知上不太令人满意:检测这种具有主要高频谱区域的有问题的情况并且在执行包括量化器和熵编码器级在内的编码器过程之前衰减较高频率范围中的尖峰。

6、优选地,在mdct频谱的上频带中检测该尖峰频谱区域。然而,也可以使用其他时间频谱转换器,例如滤波器组、qmf滤波器组、dft、fft或任何其他时间频率转换。

7、此外,本发明是有用的,因为对于上频带,不需要计算整形信息。替代地,最初针对下频带计算的整形信息被用于对上频带进行整形。因此,本发明因为低频带整形信息也可用于对高频带进行整形而提供一种在计算上非常有效的编码器,因为可能起因于这种情形(即,上频带中的高频谱值)的问题除了通常基于该低频带信号的频谱包络进行直接整形以外还通过由整形器额外地应用的额外衰减来解决,该低频带信号的频谱包络可以例如通过该低频带信号的lpc参数来表征。但是该频谱包络也可以由可用于在频谱域中执行整形的任何其他对应的度量来表示。

8、该量化器和编码器级对经整形的信号(即,对经整形的低频带信号并且对经整形的高频带信号)执行量化和编码操作,但是该经整形的高频带信号已经额外地接受了额外衰减。

9、尽管检测到的尖峰频谱区域中的高频带的衰减是不再能够由译码器恢复的预处理操作,然而相比于未应用额外衰减的情形,该译码器的结果仍然是更令人满意的,因为该衰减产生了以下事实:对于在感知上更重要的下频带,仍剩余有比特。因此,在具有尖峰的高频谱区将主控整个编码结果的有问题的情形下,本发明提供对这种尖峰的额外衰减,从而使得最后编码器“看到”具有经衰减的高频部分的信号,并且因此,经编码的信号仍然具有有用的并且在感知上令人满意的低频信息。关于高频谱带的“牺牲”不会或几乎不会被收听者注意到,因为收听者通常并不清楚了解信号的高频内容,而是更有可能具有关于低频内容的期望。换句话说,具有极低等级的低频率内容但是具有显著高等级频率内容的信号通常是被察觉为不自然的信号。

10、本发明的优选实施例包括线性预测分析器,其用于导出时间帧的线性预测系数,并且这些线性预测系数表示整形信息,或者从这些线性预测系数中导出整形信息。

11、在另外的实施例中,为下频带的若干子频带计算若干整形因子,并且对于上频带中的加权,使用针对低频带的最高子频带计算的整形因子。

12、在另外的实施例中,当一组条件中的至少一个为真时,检测器确定上频带中的尖峰频谱区域,其中该组条件至少包括低频带振幅条件、尖峰距离条件以及尖峰振幅条件。甚至更优选地,仅当两个条件同时为真时检测到尖峰频谱区域,并且甚至更优选地,仅当三个条件都为真时检测到尖峰频谱区域。

13、在另外的实施例中,检测器在带有或不带有额外衰减的整形操作之前或之后确定用于检查这些条件的若干值。

14、在实施例中,整形器使用衰减因子来额外地衰减这些频谱值,其中该衰减因子根据下频带中的最大频谱振幅乘以大于或等于1的预定数字并且除以上频带中的最大频谱振幅来导出。

15、此外,可以以若干种不同的方式来完成关于如何应用额外衰减的具体方式。一种方式是整形器首先使用下频带的整形信息的至少一部分来执行加权信息,以便对检测到的尖峰频谱区域中的频谱值进行整形。接着,使用衰减信息来执行后续的加权操作。

16、一种备选过程是:首先使用衰减信息来应用加权操作,并且接着使用与下频带的整形信息的至少一部分对应的加权信息来执行后续的加权。另外的备选方案是:使用组合加权信息来应用单个加权操作,该组合加权信息一方面从衰减中导出,另一方面从下频带的整形信息的一部分中导出。

17、在使用乘法来执行加权的情形中,衰减信息是衰减因子并且整形信息是整形因子,并且实际组合加权信息是加权因子,即,用于单个加权信息的单个加权因子,其中通过使衰减信息与该下频带的整形信息相乘来导出该单个加权因子。因此,清楚的是,可以以许多不同的方式来实现该整形器,但尽管如此,该结果仍是使用下频带的整形信息和额外衰减进行高频带的整形。

18、在实施例中,量化器和编码器级包括速率循环处理器,该速率循环处理器用于估计量化器特性以使得获得经熵编码的音频信号的预定比特率。在实施例中,该量化器特性是全局增益,即,应用于整个频率范围(即,应用于要量化和编码的所有频谱值)的增益值。当出现所需比特率低于使用某一全局增益获得的比特率时,则增大该全局增益并且确定实际比特率现在是否与要求一致(即,现在小于或等于所需比特率)。当在量化之前以使得频谱值除以全局增益的方式来在编码器中使用该全局增益时,执行该过程。然而,当以不同方式(即,在执行该量化之前使频谱值乘以全局增益)来使用该全局增益时,则在实际比特率过高时减小该全局增益,或者可以在该实际比特率低于可容许比特率时增大该全局增益。

19、然而,其他编码器级特性也可以在某一速率循环条件中使用。例如,一种方式将是频率选择性增益。另一过程将是根据所需比特率来调整音频信号的带宽。总体上,不同量化器特性可能受到影响,以使得最后获得与所需比特率(通常为低比特率)一致的比特率。

20、优选地,该过程尤其良好地适用于与智能间隙填充处理(igf处理)组合。在该过程中,应用音调屏蔽处理器,其用于在上频带中确定待量化和熵编码的第一组频谱值和要由间隙填充过程参数化编码的第二组频谱值。音调屏蔽处理器将第二组频谱值设置为0值,以使得这些值不消耗量化器/编码器级中的许多比特。另一方面,显现的是通常属于要量化和熵编码的第一组频谱值中的值是尖峰频谱区域的值,这些值在某些情形下可以被检测并且在量化器/编码器级的有问题情形的情况下被额外地衰减。因此,智能间隙填充框架内的音调屏蔽处理器与所检测的尖峰频谱区域的额外衰减的组合产生非常有效的编码器过程,该过程额外地后向兼容并且甚至在极低的比特率下仍然产生良好的感知质量。

21、实施例优于用以处理该问题的可能的解决方案,这些解决方案包括用于扩展lpc的频率范围的方法,或包括用于使应用于高于fcelp的频率的增益更好地适合实际mdct频谱系数的其他装置。然而,当写译码器已经被部署于市场中时,该过程破坏后向兼容性,并且上述方法将阻碍与现有实现方式的互操作性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1