用于编码音频信号的方法、用于编码音频信号的装置、用于解码音频信号的方法和用于解...的制作方法

文档序号:9510212阅读:372来源:国知局
用于编码音频信号的方法、用于编码音频信号的装置、用于解码音频信号的方法和用于解 ...的制作方法
【技术领域】
[0001]本发明涉及用于编码音频信号的方法、用于编码音频信号的装置、用于解码音频信号的方法和用于解码音频信号的装置。
【背景技术】
[0002]对高阶高保真度立体声响复制(Higher-Order Ambisonics,Η0Α)内容的压缩尚未在科学文献中被深入地研究。因此,本节内容将介绍用于Η0Α内容的自包含压缩的示例性当前技术的整体架构。通过广泛的测试已经验证了此架构使能以中级(例如,256kbit/s)到高级(例如,1.5Mbit/s)数据速率对高分辨率空间声音场景的高质量编码。本节所提供的背景信息对于理解在此架构上建立的分层概念来说是必要的。
[0003]图1从编码器的角度示出了自包含Η0Α压缩的概念。应当注意的是图中所提供的数字和参数是示例性的。例如,这里所示出的编解码器架构用于编码4阶Η0Α内容(N =4),其需要(N+l)2= 25个等效的音频通道来进行全3D表现。相同的概念可被用于从N =
1向上的任何Η0Α阶数的编码。同样地,在维度降低之后所提取的“音频通道”的数字8是应当突出数量级的示例性数字一一然而,当编码阶数为N = 4的Η0Α内容时,已经发现此数字8(平均来说)是适当的。
[0004]编码过程被分为两个级,这两个级在一定程度上彼此独立。第一级10是维度降低级。维度降低级10分析输入Η0Α内容,并且通过将信号重组为更低数量的主导声音组分来降低信号维度。有点抽象的术语“声音组分”之所以被使用是因为所产生的信号不一定对应于声音对象、特定的空间方向或环绕感(ambience)—一尽管在特殊情况下它们实际上也可以这样对应。
[0005]从信息论可知,至少对于复杂音频场景来说,在此级10的输出处所提供的信息系统地少于输入信息。维度降低级10以这样的方式操作:(1)通过尽可能多地利用输入音频场景的固有冗余使信息丢失被最小化,以及(2)不相干度被降低,即输出信号仍携带足够的信息从而经重建的音频场景与输入内容相比的感知差异被最小化。此级10采用时变和信号自适应的信号处理。取决于参数化和信号特征,其输出信号的数量也可以是自适应的。
[0006]第二编码级11包括针对单声道音频信号的若干并行感知编码器(在此例中为8个)组成的组。这些编码器使用时频编码的原理来操作和编码独立的主导声音组分,时频编码原理自1990年代已经被很好地建立起来。例如,MPEG-4高级音频编码(AAC)编码器组可在第二编码级11被使用。编码器实施方式需要被稍加修改以使全局代码器控制块能够影响这些核心编解码器的某些参数,诸如,平均比特率、窗口切换行为、比特池大小、频带复制行为等等。这种架构已经被选择,因为其通过在可能的最大程度上促进对现有编解码器实施方式和相应的优化方式的重复使用来将实施Η0Α编解码器所需的设计工作减少到最低限度。
[0007]整个解码器的操作由代码器控制级12控制。这里执行了确定驱动和控制其他信号处理级所需的参数的感知音频场景分析。具体来说,这种控制实例负责数据速率资源的全局优化,并且对于实现强大的总体率失真性能是非常重要的。最后,第二编码级11的结果比特流和来自代码器控制级12的边信息(side informat1n)被多路复用13至单个输出比特流中。

【发明内容】

[0008]所期望的是通过允许与其他/环绕立体声格式的至少基本的兼容性的方式来编码Η0Α。图1所示的架构的一个问题在于其仅适用于Η0Α格式的信号。本发明介绍了用于对Η0Α内容进行分层编码的新的概念、方法和装置,其产生了可向后兼容的环绕立体声格式的比特流。
[0009]具体来说,本发明公开了用于在分层比特流中编码高分辨率空间音频内容的解决方案,该分层比特流向后兼容其他现有的环绕立体声解码器。如果使用了常规环绕立体声解码器,则结果比特流解码为常规环绕立体声,而根据本发明的一个实施例的新的、增强的解码器能够将非常相似的比特流解码为全3D音频(即,不止是环绕立体声)。原则上,比特流包括基础层和增强层。在编码和解码两者期间,来自环绕立体声表现的信息被用于编码/解码增强层的高质量音频信号。
[0010]权利要求1公开了用于解码分层音频比特流的方法。
[0011]权利要求2公开了用于编码分层音频比特流的方法。
[0012]权利要求3公开了用于解码分层音频比特流的装置,以及权利要求5公开了用于编码分层音频比特流的装置。
[0013]在一个实施例中,本发明涉及存储有可执行指令的计算机可读存储介质,当在计算机上被执行时,该指令导致计算机执行根据权利要求1的用于解码的方法。在一个实施例中,本发明涉及存储有可执行指令的计算机可读存储介质,当在计算机上被执行时,该指令导致计算机执行根据权利要求2的用于解码的方法。
[0014]在一个实施例中,本发明涉及包括处理器和存储器的设备,存储器存储有可执行指令,当在处理器上被执行时,该指令导致处理器执行根据权利要求1的用于解码的方法。在一个实施例中,本发明涉及包括处理器和存储器的设备,存储器存储有可执行指令,当在处理器上被执行时,该指令导致处理器执行根据权利要求2的用于解码的方法。
[0015]在一个实施例中,用于解码分层音频比特流的方法包括以下各步骤:解复用分层音频比特流以获得嵌入式环绕立体声比特流和第2层Η0Α比特流,其中第2层Η0Α比特流包括第一和第二边信息以及经编码的残差信号;解码嵌入式环绕立体声比特流以获得经解码的环绕立体声比特流;以及解码第2层比特流。在解码第2层比特流时,经重建的Η0Α信号通过以下操作获得:使用经解码的环绕立体声比特流和第一边信息来预测声音组分,将所预测的声音组分与经解码的残差信号叠加以获得经重建的声音组分,并且通过将经重建的声音组分与第二边信息重组来重建Η0Α内容。
[0016]本发明的一个优势在于其通过允许对其他格式(包括环绕立体声格式)的至少基本兼容性的方式来实现编码Η0Α内容。
[0017]应当注意的是对根据本发明的分层编解码的完整实现可以依赖于用于核心编解码器组的任何可用、可修改的编码器和解码器块,并且可以使用与下文描述的不同的核心编解码器。
[0018]在相关的权利要求、下面的说明以及附图中公开了本发明的有益实施例。
【附图说明】
[0019]本发明的示例性实施例参考附图进行了描述,这些附图示出了以下内容:
[0020]图1是用于Η0Α压缩的已知编码器架构的结构;
[0021]图2是编码有嵌入式环绕立体声编解码器比特流的分层Η0Α编码的示例性架构;
[0022]图3是利用预测和残差编码进行的分层Η0Α编码;
[0023]图4是对感知核心编解码器的心理声学控制的修改;
[0024]图5是针对示例性Η0Α信号(“Bumblebee” )的预测增益的依赖时间的行为;
[0025]图6是针对不同类型的Η0Α内容的全局预测增益的直方图;
[0026]图7是环绕立体声数据可用情况下的分层Η0Α编码的示例性架构;
[0027]图8是用于分层Η0Α解码的示例性解码器架构;
[0028]图9是用于编码的方法的流程图;以及
[0029]图10是用于解码的方法的流程图。
【具体实施方式】
[0030]本发明提供了用于高阶高保真立体声响复制(Η0Α)内容的嵌入式编码方案方法。对这种方案的非常有吸引力的应用是通过对现有的环绕立体声(surround sound)解码器向后兼容的比特流来分发/广播高分辨率空间音频内容。如果利用现有的环绕立体声解码器,则这种比特流解码为常规的环绕立体声,而新的、增强型解码器能够从同样的比特流中解码出全3D音频。因此,通常使大规模部署的新的单片(或自包含)内容格式和相应的解码器实施方式被显著减速的“先有鸡还是先有蛋的问题”可被规避。内容提供商可以开始分发新的质量的内容,该新的质量的内容仍有利地享有领域内(即,在潜在的客户处)所安装的大量解码器的基本支持。
[0031]上述应用通过分层编码技术被有效地解决:通常嵌入式环绕立体声比特流是自包含的,但是充当了还携带有全3D音频场景所需的“额外信息”的比特流容器。在这些限制条件下,全音频场景的高效压缩的关键在于从现有的环绕立体声表现中利用最大量的信息,以便于最小化为了传输给定质量水平的全3D音频场景所需的总比特率。
[0032]本发明介绍了关于这种压缩技术可以怎样工作的概念和评估,重点关注于对Η0Α内容的压缩。Η0Α表现(representat1n)在要求成本效益生产工作流的应用中格外具有吸引力。此外,因其对记录或扬声器配置的独立性和固有的可扩展性,Η0Α技术使对家庭的高效递送和对各种现实生活中的、可在消费者的家庭中出现的扬声器配置的灵活呈现成为可會泛。
[0033]作为具体示例,我们可以考虑TV播放,其中比特流的音频部分的总比特率的大小约为128kbit/s (立体声(stereo))至384kbit/s (环绕声(surround))
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1