音频对象编码和解码的制作方法

文档序号:2825829阅读:202来源:国知局
音频对象编码和解码的制作方法
【专利摘要】一种音频对象编码器包括接收N个音频对象的接收器(701)。下混合器(703)将所述N个音频对象下混合到M个音频通道,并且通道电路(707)从所述M个音频通道得到K个音频通道,K=1,2并且K<M。参数电路(709)相对于所述K个音频通道为所述N个音频对象中的每一个的至少一部分生成音频对象上混合参数,并且输出电路(705,711)生成包括所述音频对象上混合参数和所述M个音频通道的输出数据流。音频对象解码器接收所述数据流并且包括:通道电路(805),其从M通道下混合得到K个音频通道;以及对象解码器(807),其用于通过基于所述音频对象上混合参数对所述K个音频通道进行上混合来生成所述N个音频对象中的每一个的至少一部分。本发明可以允许改进的对象编码同时维持向后兼容性。
【专利说明】音频对象编码和解码
【技术领域】
[0001]本发明涉及音频对象编码和解码,并且特别地,但不排他地,涉及与MPEG SAOC(空间音频对象编码)标准兼容的音频对象编码和/或解码。
【背景技术】
[0002]多通道音频对于包括家庭影院和多通道音乐系统的许多不同应用是普遍的并且已变得流行。音频编码常常被用来生成提供音频信号的高效数据表示的数据流。这样的音频编码允许音频信号的高效存储和分布。许多不同的音频编码标准已被开发以用于传统单声道和立体声音频信号二者的编码和解码,以及用于多通道音频信号的编码和解码。术语多通道此后被用来指两个以上的通道。专用音频标准的使用允许许多不同的系统、设备及应用之间的互工作和兼容性,并且因此遵守高效标准是关键的。然而,当新的标准被开发或者现有标准被修改时会出现一个重要问题。具体地,对标准的修改不仅可能实施起来费时且棘手而且还可能导致现有装备不适合于新的标准或实际上不适合于现有标准。为了促进新的标准或标准修改的引入,期望要求对现有标准做尽可能少的修改。在一些情况下甚至可能做出与现有标准完全兼容的修改,即能够在对现有标准规范没有任何改变的情况下应用修改。这个的示例是比特流水印。在比特流水印中特定比特流元素以兼容的方式被修改使得仍然能够根据标准规范解码比特流。尽管输出已改变,但是质量中的差异一般不可听。
[0003]MPEG环绕是多通道音频编码中的主要进展之一并且最近由运动图像专家组在IS0/IEC 23003-1中标准化。MPEG环绕是允许现有基于单声道或立体声的服务被扩展到多通道应用的多通道音频编码工具。图1示出了扩展有MPEG环绕的立体声核心编码器的框图。首先MPEG环绕编码器从多通道输入信号创建立体声下混合。接下来,从多通道输入信号估计空间参数。这些参数被编码到MPEG环绕比特流中。立体声下混合使用核心编码器(例如HE-AAC)而被编码成比特流。结果得到的核心编码器比特流和空间比特流被合并以创建总体比特流。典型地,空间比特流被包含在核心编码器比特流的辅助数据或用户数据部分中。在解码器侧核心比特流和空间比特流被分离。立体声核心比特流被解码以便重现立体声下混合。该下混合连同空间比特流一起被输入到MPEG环绕解码器。空间比特流被解码来提供空间参数。空间参数然后被用来对立体声下混合进行上混合以便获得多通道输出信号。
[0004]因为多通道输入信号的空间图像被参数化,所以MPEG环绕允许将相同的多通道比特流解码到除多通道扬声器装置以外的再现设备上。示例是耳机上的虚拟环绕重现,其被称为MPEG环绕双耳式解码过程。在这种模式下,能够使用常见的耳机提供逼真的环绕体验。图2示出了扩展有其中输出被解码为双耳式的MPEG环绕的立体声核心编解码器的框图。编码器过程与图1的编码器过程相同。在该系统中,空间参数与头部相关传递函数(HRTF)组合并且结果被用来产生所谓的双耳输出。
[0005]建立在MPEG环绕的构思之上,MPEG已标准化了用于各个音频对象的编码的系统。这个标准被称为“空间音频对象编码”(MPEG-D SAOC) IS0/IEC 23003-2。从高层角度看,SAOC高效地对声音对象而不是音频通道进行编码,其中每个声音对象可以典型地可以对应于声像中的单个声源。在MPEG环绕中,每个扬声器通道都能够被认为源自声音对象的不同混合,而在SAOC中数据是针对各个声音对象来提供的。类似于MPEG环绕,在SAOC中同样创建了单声道或立体声下混合。特别地,SAOC还生成使用诸如HE-AAC之类的标准下混合编码器编码的单声道或立体声下混合。以这种方式,传统回放设备将忽视参数数据并且播放单声道或立体声下混合,而SAOC解码器能够对信号进行上混合以便找回原始声音对象或者以便允许它们以期望的输出配置而被再现。对象和下混合参数被嵌入在下混合编码比特流的辅助数据部分中以便为各个SAOC对象提供相对电平和增益信息,典型地将这些的下混合反映到立体声/单声道下混合中。在解码器侧,用户能够通过操纵这些参数来控制各个对象的各种特征(诸如空间位置、放大以及均衡),或者用户能够对各个对象应用诸如混响之类的效果。
[0006]图3示出了针对常见SAOC编码的框图。SAOC编码器能够被认为是位于常规单声道或立体声编码器之前的预处理模块。预处理包括从数目N的对象信号生成立体声(或单声道)下混合。此外,对象参数被提取并且连同关于下混合矩阵M的信息一起存储在SAOC比特流中。在两种类型的参数中编码SAOC下混合信息。第一种DMG(下混合增益)参数指示应用于对象的增益。DCLD(下混合通道电平差)参数用信号发送对象在立体声下混合中的两个通道之上的分布。对每个对象都定义了这两个参数。
[0007]SAOC解码器可以执行相反操作。所接收到的单声道或立体声下混合可以被解码并且上混合到期望的输出配置。上混合操作包括对单声道或立体声下混合进行上混合以生成音频对象以及其后的这些音频对象基于如图4中所图示的再现矩阵而映射到所期望的输出配置的组合操作,其中单声道或立体声输入下混合基于SAOC参数被首先上混合为N个音频对象。结果得到的N个音频对象然后使用定义各个对象所被定位在的地方的再现矩阵而被下混合到P个输出通道。图4图示了概念性的SAOC解码。然而,典型地上混合矩阵和再现矩阵被组合成单个矩阵并且输出通道从单声道或立体声下混合的生成作为单个操作被执行。其示例在图5中被示出,图5示出了其中P等于一或二的特定示例,并且其中特别地对于P=2输出可以是双耳空间输出通道。因此,使用被应用于各个对象的HRTF参数生成两个输出通道以生成所期望的双耳空间图像。图9图示了其中P>2并且MPEG环绕(MPS)解码/处理被用来生成P个输出通道的示例。
[0008]然而,与SAOC相关联的问题是该规范仅支持单声道和立体声下混合,然而存在许多应用和用例,其中多通道混合被使用或甚至有时是必需的,例如DVD和蓝光。因此将期望SAOC支持这样的多通道应用,即多通道下混合,但这将需要对SAOC标准规范的大量修正,这将是棘手的、不切实际的,增加复杂性并且导致降低的向后兼容性。
[0009]特别地,如果能够再使用针对SAOC编码和解码所开发的现有算法、功能单元、专用硬件等并且同时允许对多通道音频的改进的支持,则这将是有利的。
[0010]从而,用于对象编码和/或解码(诸如,例如SAOC编码/解码)的改进的方式将是有利的,并且特别地允许增加的灵活性、对标准化方式降低的影响、增加的或易化的向后兼容性,允许编码和/或解码功能性的增加的再使用、易化的实现、对象编码中的多通道支持和/或改进的性能的方式将是有利的。
【发明内容】

[0011]因此,本发明寻求单独地或以任何组合优选地缓和、减轻或者消除上面提到的缺点中的一个或多个。
[0012]根据本发明的一个方面提供了音频对象编码器,其包括:接收器,其用于接收N个音频对象;混合器,其用于将N个音频对象混合到M个音频通道;通道电路,其用于从M个音频通道得到K个音频通道,其中K=I或2并且K〈M ;参数电路,其相对于K个音频通道为N个音频对象中的每一个的至少一部分生成音频对象上混合参数;输出电路,其用于生成包括音频对象上混合参数和M个音频通道的输出数据流。
[0013]本发明可以允许能够为多通道再现系统提供改进的性能同时支持音频对象编码的音频编码。所述系统可以在一些场景中允许改进的多通道再现并且可以在一些场景中允许改进的音频对象功能性。低数据速率能够通过将M个音频通道与涉及K个音频通道的音频对象上混合参数组合使得不必将用于K个音频通道的编码数据包括在输出数据流中来实现。
[0014]本发明可以在基于仅单声道和立体声信号提供音频对象编码(和/或解码)的音频对象编码系统中允许多通道支持(具有两个以上的通道)。编码可以生成其中多通道信号连同关联的音频对象数据一起被提供的输出数据流,然而所述音频对象数据不是相对于多通道信号而是相对于能够得自多通道信号的单声道或立体声信号来定义的。
[0015]本发明可以在许多应用中允许带有现有音频对象编码和/或解码功能性的改进的再使用和/或向后兼容性。
[0016]音频对象可以是与音频环境中的单个声源相对应的音频信号分量。具体地,音频对象可以包括来自音频环境中的仅一个位置的音频。音频对象可以具有关联的位置但不与任何特定再现声源配置相关联,并且可以具体地不与任何特定扬声器配置相关联。
[0017]输出数据流可以不包括K个音频通道的任何编码数据。在一些实施例中,N个音频对象中的一个、多个或全部中的全部都是从K个音频通道生成的。
[0018]可以在每段中执行K个通道的得到,并且特定得到可以动态地例如在段之间改变。在许多实施例和/或场景中M可以小于N。
[0019]依照本发明的可选特征,通道电路被设置成通过对M个音频通道进行下混合来得到K个通道。
[0020]这可以在许多场景和应用中提供特别有利的系统。特别是,它可以允许功能性的再使用并且可以允许高效音频对象编码和解码。具体地,该方式可以允许所生成的下混合在K个音频通道中为同样在M个音频通道中表示的所有音频对象提供适合的分量。
[0021]在一些实施例中,下混合可以是使得M个音频通道中的每一个都被表示在K个通道中的至少一个中,并且在一些实施例中被表示在K个通道中的全部中。
[0022]依照本发明的可选特征,通道电路被设置成通过选择M个音频通道的K通道子集来得到K个通道。
[0023]这可以在许多场景和应用中提供特别有利的系统。特别是,它可以允许功能性的再使用并且可以允许高效音频对象编码和解码。在许多实施例中它可以降低复杂性和/或增加灵活性。可以动态地变化K个通道的选择,从而允许不同的K个通道在不同的时间段中被选择。[0024]依照本发明的可选特征,输出数据流包括用于M个音频通道的多通道编码的数据流,并且音频对象上混合参数被包括在该多通道编码的数据流的一部分中。
[0025]这可以在许多实施例中提供特别有利的输出数据流。特别地,它可以允许直接地支持多通道音频和基于单声道和/或立体声信号的音频对象编码的组合数据流从而允许向后兼容性。因此可以提供包含多通道信号和音频对象上混合参数的多通道编码的数据流,所述音频对象上混合参数不是相对于编码的多通道信号来提供的然而其仍然允许基于编码的多通道信号的对象解码。
[0026]依照本发明的可选特征,输出电路被设置成将表示N个音频对象到M个音频通道的混合的混合数据包括在输出数据流中。
[0027]这可以在许多实施例中允许改进的性能,并且可以特别地在许多实施例中允许改进的音频对象解码和功能性在解码器处被提供。例如可以在时间频域中定义混合数据。
[0028]依照本发明的一个方面,存在音频对象解码器,其包括:接收器,其用于接收包括用于N个音频对象的M通道混合的音频数据和相对于K个音频通道的用于N个音频对象的音频对象混合参数的数据流,其中K=I或2并且K〈M ;通道电路,其从M通道混合得到K个音频通道;以及对象解码器,其用于从至少部分地通过基于音频对象上混合参数对K个音频通道进行上混合所生成的N个音频对象生成P个音频信号。
[0029]本发明可以允许音频对象解码,并且可以特别地允许基于直接地支持多通道再现系统的信号的高效音频对象解码。音频对象解码器可以在不用为K个音频通道接收任何音频编码数据的情况下生成P个音频信号。
[0030]本发明可以在许多应用中允许带有现有音频编码和/或解码功能性的改进的再使用和/或向后兼容性。
[0031 ] 对象解码器可以被设置成通过将K个通道上混合到N个音频对象以及然后将N个音频对象映射到P个音频通道来生成P个音频信号。映射可以由再现矩阵来表示。K个通道到N个音频对象的上混合以及N个音频对象到P个输出通道的映射可以作为单个集成操作被执行。具体地,K到N上混合矩阵可以与N到P矩阵组合以生成被直接地应用于K个通道来生成P个输出信号的K到P矩阵。因此,对象解码器可以被设置成基于用于N个音频对象的音频对象上混合参数和用于P个输出通道的再现矩阵来生成P个输出通道。在一些实施例中,可以显式地生成N个音频对象,并且特别P个音频信号中的每一个都可以对应于N个音频对象的单个音频对象。在一些场景中N可以等于P。
[0032]依照本发明的可选特征,通道电路被设置成通过对M个音频通道进行下混合来得到K个通道。
[0033]这可以在许多场景和应用中提供特别有利的系统。特别是,它可以允许高效音频对象编码和解码。具体地,该方式可以允许所生成的下混合在K个音频通道中为同样在M个音频通道中表示的所有音频对象提供适合的分量。在一些实施例中,对象解码器可以被设置成通过基于音频对象上混合参数对K个音频通道进行上混合来生成N个音频对象的每一个。
[0034]在一些实施例中,下混合可以是使得M个音频通道中的每一个都被表示在K个通道中的至少一个中,并且在一些实施例中被表示在K个通道中的全部中。
[0035]依照本发明的可选特征,数据流进一步包括指示从M到K个通道的编码器下混合的下混合数据,并且其中通道电路被设置成响应于该下混合数据来适配下混合。
[0036]这可以在许多实施例中允许增加的灵活性和/或改进的性能。例如,它可以允许下混合对特定信号特性的适配,并且可以例如允许下混合适配于N个音频对象以提供所有N个音频对象的适合的信号分量来允许在对象在解码器中的生成。
[0037]在一些实施例中,可以在编码器和解码器中使用从M个通道到K个通道的固定或预定下混合。这可以降低复杂性并且可以具体地消除将指示下混合的数据包括在数据流中的需要,从而潜在地允许降低的数据速率。
[0038]依照本发明的可选特征,通道电路被设置成通过选择M个音频通道的K通道子集来得到K个通道。
[0039]这可以在许多实施例中允许改进的和/或易化的音频对象编码。它可以在许多实施例中允许降低的复杂性。
[0040]依照本发明的可选特征,数据流进一步包括相对于L个音频信道的用于N个音频对象的附加的音频对象上混合参数,其中L=I或2并且L〈M,并且L个音频通道和K个音频通道是M个音频通道的不同子集,并且其中对象解码器被进一步设置成从至少部分地通过基于附加的音频对象上混合参数对L个音频通道进行上混合所生成N个音频对象来生成P个通道。
[0041]这可以在许多实施例中允许改进的音频对象解码。特别地它可以允许在K个以上(以及特别地所有M)的音频通道中的每个音频对象的信号分量在生成音频对象时被使用。
[0042]子集可以是不相交的。在一些实施例中,进一步上混合可以是基于具有关联的音频对象上混合参数的音频通道的一个或多个附加子集的。在一些实施例中,子集的组合可以包括所有M个音频通道。
[0043]依照本发明的可选特征,P个通道中的至少一个通过组合来自K个音频通道基于音频对象上混合参数的上混合与L个音频通道基于附加的音频对象上混合参数的上混合两者的贡献来生成。
[0044]这可以在许多实施例中允许改进的音频对象解码。特别地它可以允许在K个以上(以及特别地所有M)的音频通道中的每个音频对象的信号分量在生成音频对象时被使用。
[0045]依照本发明的可选特征,数据流包括表示N个音频对象到M个音频通道的混合的混合数据,并且其中对象解码器被设置成响应于混合数据和音频对象上混合参数而为N个音频对象的至少一个子集生成残差数据(residual data),以及响应于该残差数据生成P个音频信号。
[0046]这可以在许多实施例中提供解码的音频对象中的一个、一些或全部的改进质量。在许多实施例中它可以允许与能够接收残差数据的标准化音频对象解码算法(诸如例如SAOC标准)的兼容性。残差数据具体地可以指示从K个通道和音频对象上混合参数所生成的音频对象与在M个音频通道和下混合数据的基础上所生成的对应音频对象之间的差异。
[0047]依照本发明的一个方面,提供了音频对象编码的方法,其包括:接收N个音频对象;将N个音频对象混合到M个音频通道;从M个音频通道得到K个音频通道,其中K=I或2并且K〈M ;相对于K个音频通道为N个音频对象中的每一个的至少一部分生成音频对象上混合参数;以及生成包括音频对象上混合参数和M个音频通道的输出数据流。
[0048]依照本发明的可选特征,提供了音频对象解码的方法,其包括:接收包括用于N个音频对象的M通道混合的音频数据和相对于K个音频通道的用于N个音频对象的音频对象上混合参数的数据流,其中K=I或2并且K〈M ;从M通道混合得到K个音频通道;以及从至少部分地通过基于音频对象上混合参数对K个音频通道进行上混合所生成的N个音频对象生成P个音频信号。
[0049]本发明的这些和其他方面、特征以及优点从在下文中所描述的(一个或多个)实施例将是显而易见的,并且参考在下文中所描述的(一个或多个)实施例而被阐明。
【专利附图】

【附图说明】
[0050]将参考附图仅通过示例来描述本发明的实施例,在附图中 图1是依照现有技术的MPEG环绕系统的图示;
图2是依照现有技术的MPEG双耳环绕系统的图示;
图3是依照现有技术的MPEG SAOC编码器的图示;
图4-6图示了依照现有技术的MPEG SAOC解码器的示例;
图7图示了依照本发明的一些实施例的音频对象编码器的元件的示例;
图8图示了依照本发明的一些实施例的音频对象解码器的元件的示例;
图9图示了依照本发明的一些实施例的音频对象编码器的元件的示例;
图10图示了依照本发明的一些实施例的编码器输出数据流的示例;
图11图示了依照本发明的一些实施例的音频对象解码器的元件的示例;以及 图12图示了依照本发明的一些实施例的音频对象解码器的元件的示例。
【具体实施方式】
[0051]以下描述集中于对象编码器和解码器系统,其中N个音频对象被下混合到M个音频通道,即其中M〈N。然而,将了解的是,可以使用其他混合并且M可以在一些实施例和场景中等于或大于N。
[0052]图7图示了依照本发明的一些实施例的音频对象编码器的元件。
[0053]该编码器包括接收N个音频对象的接收器701。每个音频对象典型地对应于单个声源。因此,和音频通道以及特别是常规空间多通道信号的音频通道对比,该音频对象不包括来自可以具有基本上不同的位置的多个声源的分量。类似地,每个音频对象提供声源的完整表示而且。每个音频对象因此与仅单个声源的空间位置数据相关联。具体地,每个音频对象可以被认为是声源的单个且完全的表示,并且可以与单个空间位置相关联。
[0054]此外,音频对象不与任何特定再现配置相关联并且具体地不与声换能器的任何特定空间配置相关联。因此,和典型地与诸如特别是环绕声装置之类的特定空间扬声器装置相关联的传统空间通道对比,音频对象不是关于任何特定空间再现配置来定义的。
[0055]N个音频对象被馈送到将N个音频对象下混合到M个音频通道的N到M下混合器703。在该示例中,M〈N但将了解的是,在一些场景中N可以等于或甚至小于M。在图7的特定示例中,M等于5但将了解的是,在其他实施例中可以使用其他数目的通道,包括例如M=7或 M=9。
[0056]因此,N到M下混合器703生成其中音频对象遍布通道的M通道多通道信号。和N个音频对象对比,M个音频通道是典型地包括来自多个音频对象以及因此来自具有不同位置的多个声源的数据的传统音频通道。此外,各个音频对象一般地遍布M个音频通道并且常常M个音频通道中的每一个都包括来自给定音频对象的分量,虽然在一些场景中一些音频对象可以仅被表示在M个音频通道的子集中。
[0057]N到M下混合器703生成可以直接地被再现为多通道信号的多通道信号(此后被用来标注由M个音频通道所提供的信号)。具体地,由M个音频通道所形成的多通道信号可以是空间环绕信号,并且在特定示例中M个音频通道可以分别是五通道系统(并且因此M=5)的左前、右前、中央、左环绕以及右环绕通道。因此,由M个音频通道所形成的多通道信号与特定再现配置相关联,并且具体地每个音频通道是与再现位置相关联的音频通道。
[0058]N到M下混合器703能够执行下混合使得各个音频对象按照需要定位在由M个音频通道所提供的环绕图像中。例如,一个音频对象能够被直接地定位到前边,另一对象能够被定位在标称聆听位置的左边等。N到M下混合具体地可以被手动地控制,使得当多通道信号被直接地再现时结果得到的M个音频通道的环绕声信号提供所期望的空间分布。N到M下混合具体地可以是基于由人手动地生成来从M个音频通道提供所期望的环绕信号的N到M下混合矩阵。
[0059]M个音频通道被馈送到M通道编码器705,所述M通道编码器705进而依照任何适合的编码算法对M个音频通道进行编码。M通道编码器705典型地采用常规多通道编码方案来提供对应环绕信号的高效表示。
[0060]将了解的是,在所有实施例中M个音频通道的编码典型地是优选的但不是必要的。例如,N到M下混合器703可以直接地生成能够被直接地使用的信号的频域或时域表示。例如,使用未编码的PCM数据将M个音频通道发送到对象解码器是可能的。然而,高效编码可以大幅降低数据速率并且因此典型地被使用。
[0061]编码的多通道信号可以具体地对应于常规多通道信号并且接收多通道信号的常规音频设备因此能够直接地再现多通道信号。
[0062]图7的编码器此外包括用于提供允许原始N个音频对象在适当地装配的对象解码设备处再生的音频对象上混合参数的功能性。然而,音频对象上混合参数不是相对于M个音频通道来提供的而是替代地相对于K个音频通道提供的,其中K是一或二。因此,编码器相对于单声道或立体声信号生成音频对象上混合参数。这允许与仅允许基于来自原始音频对象的单声道或立体声下混合信号的对象编码和解码的标准的兼容性。这可以在许多场景中允许用于单声道或立体声信号的标准音频对象编码器或解码器功能性在多通道支持的情况下被再使用。例如,该方式可以被用来允许与SAOC的改进的兼容性。
[0063]编码器包括M到K通道缩减器707,所述M到K通道缩减器707从N到M下混合器703接收M个音频通道并且然后进而从M个音频通道得到K个音频通道,其中K为I或2。
[0064]M到K通道缩减器707被耦合到同样从接收器接收原始N个音频对象的参数电路709。M到K通道缩减器707被设置成相对于K个音频通道为N个音频对象中的每一个的至少一部分生成音频对象上混合参数。因此,生成了音频对象上混合参数,其描述如何能够由从M到K通道缩减器707所接收的单声道或立体声信号生成N个音频对象(的一部分或全部)。
[0065]M通道编码器705和参数电路709被耦合到输出电路711,所述输出电路711生成包括从参数电路709所接收的音频对象上混合参数和从M通道编码器705所接收的编码的M个音频通道的输出数据流。然而,输出数据流不包括K个音频通道的任何数据(无论编码与否)。因此,生成了包括即使无胜任的音频对象解码或处理也能够被传统多通道设备直接再现的编码的多通道信号的输出数据流。此外,提供了能够允许原始N个音频对象在解码器侧被再生的音频对象上混合参数。然而,音频对象上混合参数不是相对于在数据流中包括的信号而是替代地相对于未被包括在输出数据流中的立体声或单声道信号来提供的。这允许操作与限于单声道和立体声信号的音频对象编码和解码方式兼容。例如,可以再使用现有的SAOC编码或解码单元同时允许多通道支持。
[0066]此外,尽管K个音频通道未被包括在输出数据流中,但是能够通过解码器从多通道信号得到它们。因此,适当地装配的解码器可以得到K个音频通道并且然后基于音频对象上混合参数来生成N个音频对象。这具体地能够基于基础立体声或单声道信号使用现有上混合功能性来实现。因此该方式可以允许单个输出数据流提供能够被多通道设备直接再现的多通道信号,以及与未包括在输出数据流中的单声道或立体声信号相关的仍然允许原始音频对象被生成的音频对象数据。
[0067]输出数据流可以具体地包括用于M个音频通道的多通道编码的数据流,其中该多通道编码的数据流同样包括音频对象上混合参数。因此,可以提供多通道编码的数据流,其包括多通道信号它本身外加用于生成在多通道信号中包括的各个音频对象的数据,但其中这个数据不涉及多通道信号它本身而是涉及未被包括在多通道编码的数据流中的单声道或立体声信号。音频对象上混合参数可以具体地被包括在多通道编码的数据流的辅助的、备用的或可选的数据字段中。
[0068]图8图示了依照本发明的一些实施例的解码器的示例。
[0069]解码器包括用于从图7的编码器接收输出数据流的接收器801。因此,接收器接收包括用于N个音频对象的M通道下混合的音频数据以及相对于K个音频通道的用于N个音频对象的音频对象上混合参数的数据流,其中K=I或2并且K〈M。在该示例中用于M通道下混合的音频数据是编码的音频数据。
[0070]用于M通道下混合的编码的音频数据被馈送到从编码的音频数据生成M个音频通道的多通道解码器803。M个音频通道被馈送到从M个音频通道得到K个音频通道的M到K通道处理器805。M到K通道处理器805具体地执行与图7的编码器的M到K通道缩减器707相同的操作。结果得到的K个音频通道被馈送到通过基于音频对象上混合参数对K个音频通道进行上混合来生成N个音频对象的对象解码器807。对象解码器807具体地执行图7的参数电路709的相反操作。
[0071]将了解的是在图8的示例中,对象解码器807再生N个音频对象,所述N个音频对象能够然后被单独地处理和/或映射到特定扬声器配置。因此,在该示例中,生成了 P个输出信号,其中P=N并且每个输出信号对应于N个音频对象中的一个。
[0072]在一些实施例中,例如通过应用其中矩阵系数反映K个音频通道到N个音频对象的映射的组合矩阵乘法和N个音频对象到扬声器配置的通道的映射的矩阵乘法的单个矩阵乘法,到给定扬声器配置的映射可以与对象解码器807的上混合组合。
[0073]具体地,可以生成P个音频信号,其中P个音频信号中的每一个都可以对应于给定P-通道再现配置的空间输出通道。这可以通过对象解码器807应用将N个音频对象映射到P个音频信号的再现矩阵来实现。典型地,从K个音频通道生成N个音频对象的对象上混合矩阵与将N个音频对象映射到P个音频信号的再现矩阵组合。因此,单个组合的对象上混合与再现矩阵被应用于K个音频通道来生成P个音频信号。经组合的对象上混合与再现矩阵能够具体地通过使对象上混合矩阵和再现矩阵相乘来生成。
[0074]在一些实施例中,M到K通道处理器805和M到K通道缩减器707可以被设置成通过对M个音频通道进行下混合来生成K个通道。特别地,可以生成下混合来使得所有音频对象在该下混合中具有有效信号分量从而允许基于K个通道的上混合对于所有N个音频对象都是闻效的。
[0075]这种方式的示例在图9中被图示。在特定示例中,对象编码与SAOC标准兼容,并且因此SAOC编码器被特别地使用。在该特定示例中M=5并且K=2。
[0076]此外,应当注意的是在图9的示例中,K个音频通道的生成通过将从N个音频对象生成M个音频通道的操作和从M个音频通道生成K个音频通道的操作组合成单个操作来执行。
[0077]具体地,M个音频通道可以通过对N个音频对象应用编码器再现矩阵MNt()5以提供M个音频通道来生成(可以像将为本领域的技术人员所获知的那样针对每个频率时间拼贴块执行矩阵乘法)。类似地,K个音频通道可以通过对M个音频通道应用再现矩阵M5to2以提供K个音频通道来生成(可以像将为本领域的技术人员所获知的那样针对每个频率时间拼贴块执行矩阵乘法)。这两个矩阵操作的顺序操作可以由执行组合操作的单个矩阵操作代替。具体地,单个矩阵乘以单个矩阵
【权利要求】
1.一种音频对象编码器,其包括: 接收器(701),其用于接收N个音频对象; 混合器(703),其用于将所述N个音频对象混合到M个音频通道; 通道电路(707),其用于从所述M个音频通道得到K个音频通道,其中K=I或2并且K〈M ; 参数电路(709),其用于相对于所述K个音频通道为所述N个音频对象中的每一个的至少一部分生成音频对象上混合参数; 输出电路(705,711),其用于生成包括所述音频对象上混合参数和所述M个音频通道的输出数据流。
2.权利要求1的音频对象编码器,其中所述通道电路(707)被设置成通过对所述M个音频通道进行下混合来得到K个通道。
3.权利要求1的音频对象编码器,其中所述通道电路(707)被设置成通过选择所述M个音频通道的K通道子集来得到所述K个通道。
4.权利要求1的音频对象编码器,其中所述输出数据流包括用于所述M个音频通道的多通道编码的数据流,并且所述音频对象上混合参数被包括在所述多通道编码的数据流的一部分中。
5.权利要求1的音频对象编码器,其中所述输出电路(705,711)被设置成将表示所述N个音频对象到所述M个音频通道的混合的混合数据包括在所述输出数据流中。
6.一种音频对象解码器,其`包括: 接收器(801,803),其用于接收包括用于N个音频对象的M通道混合的音频数据和相对于K个音频通道的用于所述N个音频对象的音频对象混合参数的数据流,其中K=I或2并且K〈M ; 通道电路(805),其从所述M通道混合得到K个音频通道;以及 对象解码器(807),其用于从至少部分地通过基于音频对象上混合参数对所述K个音频通道进行上混合所生成的N个音频对象生成P个音频信号。
7.权利要求6的音频对象解码器,其中所述通道电路(805)被设置成通过对所述M个音频通道进行下混合来得到K个通道。
8.权利要求7的音频对象解码器,其中所述数据流进一步包括指示从M到K个通道的编码器下混合的下混合数据,并且其中所述通道电路(805)被设置成响应于所述下混合数据来适配所述下混合。
9.权利要求7的音频对象解码器,其中所述通道电路(805)被设置成通过选择所述M个音频通道的K通道子集来得到所述K个通道。
10.权利要求9的音频对象解码器,其中所述数据流进一步包括相对于L个音频通道的用于所述N个音频对象的附加的音频对象上混合参数,其中L=I或2并且L〈M,并且所述L个音频通道和所述K个音频通道是所述M个音频通道的不同子集,并且其中所述对象解码器(807)被进一步设置成从至少部分地通过基于所述附加的音频对象上混合参数对所述L个音频通道进行上混合所生成的N个音频对象生成P个通道。
11.权利要求10的音频对象解码器,其中所述P个通道中的至少一个通过组合来自所述K个音频通道基于所述音频对象上混合参数的上混合与所述L个音频通道基于所述附加的音频对象上混合参数的上混合两者的贡献来生成。
12.权利要求6的音频对象解码器,其中所述数据流包括表示所述N个音频对象到所述M个音频通道的混合的混合数据,并且其中所述对象解码器(807)被设置成响应于所述混合数据和所述音频对象上混合参数为所述N个音频对象的至少一个子集生成残差数据,并且被设置成响应于所述残差数据生成所述P个音频信号。
13.一种音频对象编码的方法,其包括: 接收N个音频对象; 将所述N个音频对象混合到M个音频通道; 从所述M个音频通道得到K个音频通道,其中K=I或2并且K〈M ; 相对于所述K个音 频通道为所述N个音频对象中的每一个的至少一部分生成音频对象上混合参数;以及 生成包括所述音频对象上混合参数和所述M个音频通道的输出数据流。
14.一种音频对象解码的方法,其包括: 接收包括用于N个音频对象的M通道混合的音频数据和相对于K个音频通道的用于所述N个音频对象的音频对象上混合参数的数据流,其中K=I或2并且K〈M ; 从所述M通道混合得到K个音频通道;以及 从至少部分地通过基于所述音频对象上混合参数对所述K个音频通道进行上混合所生成的N个音频对象生成P个音频信号。
15.一种包括计算机程序代码工具的计算机程序产品,所述计算机程序代码工具被适配成当所述程序在计算机上运行时执行权利要求13或14的所有步骤。
【文档编号】G10L19/008GK103890841SQ201280053631
【公开日】2014年6月25日 申请日期:2012年10月29日 优先权日:2011年11月1日
【发明者】J.G.H.科彭斯, A.W.J.奧门, L.M.范德科霍夫 申请人:皇家飞利浦有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1