对音频场景的编码的制作方法

文档序号：9493768阅读：698来源：国知局

对音频场景的编码的制作方法
【专利说明】对首频场景的编码
[0001]相关申请的交叉引用
[0002]本申请要求于2013年5月24日提交的美国临时专利申请第61/827，246号的优先权，通过引用将该申请整体地合并到本文中。
技术领域
[0003]本文所公开的发明总体上涉及音频编码和解码领域。特别地，本发明涉及对包括音频对象的音频场景的编码和解码。
【背景技术】
[0004]存在用于参数空间音频编码的音频编码系统。例如，MPEG Surround描述了一种用于多声道音频的参数空间编码的系统。MPEG SAOC (空间音频对象编码)描述了一种用于音频对象的参数编码的系统。
[0005]在编码器侧，这些系统通常将声道/对象下混成下混，下混通常为单声道(一个声道)或立体声(两个声道)下混，并且提取通过如电平差和互相关来描述声道/对象的性质的边信息。然后对下混和边信息进行编码并且将其发送解码器侧。在解码器侧，在边信息的参数的控制下根据下混来重构即近似估计声道/对象。
[0006]这些系统的缺点在于重构通常在数学上是复杂的并且经常需要依赖于对由作为边信息发送的参数未明确描述的音频内容的性质的假设。这种假设例如可以是:除非发送了互相关参数，否则声道/对象被认为是不相关的；或者以特定方式生成声道/对象的下混。此外，当下混的声道的数目增加时，数学复杂度和对额外的假设的需要会显著增加。
[0007]此外，在应用在解码器侧的处理的算法细节中内在地反映出所需要的假设。这意味着在解码器侧必须包括相当多的智能。这是个缺点，因为当解码器被设置在例如很难或甚至不可能升级的消费者装置中时，很难升级和改进算法。
【附图说明】
[0008]在下文中，将参考附图并且更加详细地描述示例实施例，其中:
[0009]图1是根据不例实施例的首频编码/解码系统的不意图；
[0010]图2是根据示例实施例的具有遗留解码器的音频编码/解码系统的示意图；
[0011]图3是根据不例实施例的首频编码/解码系统的编码侧的不意图；
[0012]图4是根据示例实施例的编码方法的流程图；
[0013]图5是根据示例实施例的编码器的示意图；
[0014]图6是根据示例实施例的音频编码/解码系统的解码器侧的示意图；
[0015]图7是根据示例实施例的解码方法的流程图；
[0016]图8是根据不例实施例的首频编码/解码系统的解码器侧的不意图；以及
[0017]图9是在根据示例实施例的音频编码/解码系统的解码器侧执行的时频变换的示意图。
[0018]所有附图都是示意性的，并且一般仅示出为阐明本发明所必须的部分，而可以省略或仅暗示其它部分。除非另有说明，否则相同附图标记在不同附图中的指示相同部件。
【具体实施方式】
[0019]考虑到上述内容，目的是提供编码器和解码器，以及提供音频对象的较不复杂的且更灵活的重构的相关方法。
[0020]1.概述一一编码器
[0021]根据第一方面，示例实施例提出了编码方法、编码器以及用于编码的计算机程序产品。所提出的方法、编码器和计算机程序产品一般可以具有相同特征和优势。
[0022]根据示例实施例，提供了一种对至少包括N个音频对象的音频场景的时频块进行编码的方法。该方法包括:接收N个音频对象；基于至少N个音频对象生成M个下混信号；用矩阵元素生成重构矩阵，重构矩阵使得能够根据M个下混信号重构至少N个音频对象；以及生成包括M个下混信号以及重构矩阵的矩阵元素中的至少一些矩阵元素的比特流。
[0023]音频对象的数目N可以等于或大于I。下混信号的数目M可以等于或大于I。
[0024]通过该方法，从而生成了比特流，该比特流包括作为边信息的重构矩阵的矩阵元素中的至少一些矩阵元素以及M个下混信号。通过将重构矩阵的各个矩阵元素包括在比特流中，在解码器侧需要非常少的智能。例如，在解码器侧不需要基于所传输的对象参数和额外的假设对重构矩阵进行复杂计算。因此，显著降低了解码器侧的数学复杂度。此外，因为该方法的复杂度不依赖于所使用的下混信号的数目，所以与现有技术方法相比，增加了关于下混信号的数目的灵活性。
[0025]如本文中所使用的，音频场景一般指如下三维音频环境:其包括与可以被呈现以在音频系统上回放的三维空间中的位置相关联的音频单元。
[0026]如本文中所使用的，音频对象指音频场景的单元。音频对象通常包括音频信号以及诸如对象在三位空间中的位置的附加信息。附加信息通常被用于在给定的回放系统上最优地呈现音频对象。
[0027]如本文中所使用的，下混信号指是作为至少N个音频对象的组合的信号。诸如音床声道(将在下文中描述)的音频场景的其它信号也可以被组合到下混信号中。例如，M个下混信号可以对应于对给定扬声器配置，例如标准5.1配置的音频场景的呈现。在本文中由M表示的下混信号的数目通常(但不必须地)少于音频对象和音床声道的数目之和，这解释了为什么M个下混信号称为下混。
[0028]音频编码/解码系统通常例如通过将适合的滤波器组应用于输入音频信号而将时频空间划分成时频块。时频块的一般意思是对应于时间间隔和频率子带的时频空间的一部分。时间间隔可以通常对应于用在音频编码/解码系统中的时间帧的持续时间。频率子带可以通常对应于由用在编码/解码系统中的滤波器组所定义的一个或若干相邻频率子带。在频率子带对应于由滤波器组定义的若干相邻频率子带的情形下，这允许在音频信号的解码过程中存在不均匀的频率子带，例如，更宽的频率子带用于音频信号的较高频率。在音频编码/解码系统对整个频率范围进行操作的宽波段的情形下，时频块的频率子带可以对应于整个频率范围。上述方法公开了用于在一个这样的时频块期间对音频场景进行编码的编码步骤。然而，要理解的是，可以针对音频编码/解码系统的每个时频块重复该方法。并且，还要理解的是，可以同时对若干时频块进行编码。通常，相邻的时频块可以在时间和/或频率上稍稍重叠。例如，时间上的重叠可以相当于重构矩阵的元素在时间上，即从一个时间间隔到下一个时间间隔的线性插值。然而，本公开内容的目标在于编码/解码系统的其它部件，而相邻的时频块之间的时间和/或频率上的任何重叠留给本领域技术人员去实现。
[0029]根据示例实施例，使用第一格式将M个下混信号布置在比特流的第一字段中，并且使用第二格式将矩阵元素布置在比特流的第二字段中，从而允许仅支持第一格式的解码器解码和回放第一字段中的M个下混信号并且丢弃第二子段中的矩阵元素。这样做的优势在于比特流中的M个下混信号与不用于实现音频对象重构的遗留解码器后向兼容。换言之，遗留解码器仍然可以例如通过将每个下混信号映射到解码器的声道输出来解码和回放比特流的M个下混信号。
[0030]根据示例实施例，该方法还可以包括步骤:接收对应于N个音频对象中的每个音频对象的位置数据，其中，基于位置数据生成M个下混信号。位置数据通常将每个音频对象与三位空间中的位置相关联。音频对象的位置可以随时间而变化。通过在对音频对象进行下混时使用位置数据，将通过以下方式将音频对象混合到M个下混信号中:例如如果在具有M个输出声道的系统上听M个下混信号，则音频对象听起来就像它们近似地位于其各自的位置。这例如在M个下混信号要与遗留解码器后向兼容的情况下是有利的。
[0031]根据示例实施例，重构矩阵的矩阵元素是时变的和频变的。换言之，重构矩阵的矩阵元素可以对于不同的时频块而不同。以这样的方式，实现了音频对象的重构的极好的灵活性。
[0032]根据示例实施例，音频场景还包括多个音床声道。这例如在音频内容除了包括音频对象以外还包括音床声道的影院音频应用中是常见的。在这种情形下，可以基于至少N个音频对象和多个音床声道生成M个下混信号。音床声道的一般意思是对应于三维空间中的固定位置的音频信号。例如，音床声道可以对应于音频编码/解码系统的输出声道之一。这样，音床声道可以被解释为具有三维空间中与音频编码/解码系统的输出扬声器之一的位置相同的相关位置。因此，音床声道可以与仅指示相应输出扬声器的位置的标签相关联。
[0033]当音频场景包括音床声道时，重构矩阵可以包括使得能够根据M个下混信号重构音床声道的矩阵元素。
[0034]在某些情况下，音频场景可以包括大量的对象。为了降低表现音频场景所需要的复杂度和数据量，可以通过减少音频对象的数量来简化音频场景。因此，如果音频场景初始包括K个音频对象，其中K>N，则该方法还可以包括步骤:接收K个音频对象，并且通过将K个音频对象聚类成N个聚类并将每个聚类用一个音频对象表示，来将K个音频对象减少到N个音频对象。
[0035]为了简化场景，该方法还可以包括步骤:接收对应于K个音频对象中的每个音频对象的位置数据，其中，将K个对象聚类成N个聚类基于由K个音频对象的位置数据所给出的K个对象之间的位置距离。例如，三维空间中位置彼此靠近的音频对象可以被聚

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：海科·普尔哈根;拉尔斯·维尔默斯;利夫·约纳什·萨穆埃尔松;托尼·希尔沃宁;
技术所有人：杜比国际公司;
我是此专利的发明人

上一篇：相对于球面谐波系数执行空间掩蔽的制作方法
上一篇：编码装置和方法、解码装置和方法以及程序的制作方法