用于解码编码音频信号以获取修改后的输出信号的装置和方法

文档序号：9673124阅读：405来源：国知局

用于解码编码音频信号以获取修改后的输出信号的装置和方法
【技术领域】
[0001] 本发明涉及音频对象编码，特别地涉及一种使用母带处理后(mastered)的降混作为传输声道的音频对象编码。
【背景技术】
[0002] 近来，在音频编码[BCC，JSC，SA0C，SA0C1，SA0C2]领域和知情源分离[ISS1，ISS2， ISS3，ISS4，ISS5，ISS6 ]领域中，已经提出了包含多个音频对象的音频场景的比特率有效传输/存储的参数技术。这些技术旨在基于描述音频场景中被传输/存储的音频场景和/或源对象的附加的边信息，重建期望的输出音频场景或者音频源对象。在解码器中，使用参数知情源分离方案进行重建。
[0003] 这里，我们将主要集中在对MPEG空间音频对象编码（SA0C) [SA0C]的操作，但是同样的原理也适用于其他系统。SA0C系统的主要操作参见图5。不失一般性，为了提高等式的可读性，在本文档中省略所有表示时间和频率相关性的引入变量，除非另有说明。该系统接收N个输入音频对象Si,...，Sn和如何混合这些对象的指令，例如，以降混矩阵D的形式。输入对象可以被表示为大小为NXNSamples的矩阵S。编码器提取描述该对象的参数化边信息并且可能还提取基于波形的边信息。在SA0C中，边信息主要包括对象级差异(OLD)参数化的相关对象能量信息和对象间相关性（I0C)参数化的相关性信息。SA0C中的可选的基于波形的边信息描述参数模型的重建误差。除了提取边信息之外，编码器还提供Μ个声道的降混信号 Xl...，Χμ，其使用大小为ΜΧΝ的降混矩阵D内的信息生成。降混信号可以被表示为大小为Μ XNSampies的矩阵X，与输入对象之间的关系为:X=DS。通常，关系Μ<Ν成立，但这并不是严格的要求。降混信号和边信息被传输或存储，例如，在音频编解码器MPEG-2/4AAC的帮助下。 SA0C解码器接收降混信号、边信息、以及附加渲染信息，该附加渲染信息往往为大小为ΚΧΝ 的渲染矩阵Μ的形式，描述Κ个声道的输出Yi，...，ΥΚ如何与原始输入对象相关。
[0004] SA0C解码器的主要操作块在图6中示出，并将在下面进行简要讨论。首先，对边信息进行适当解码和解释。（虚拟)对象分离块使用边信息并尝试(虚拟地)重建输入音频对象。该操作被称为"虚拟"的概念因为通常没有必要明确地重建对象，但是以下渲染阶段可以与这个步骤组合。（虚拟)对象重建免...,?可能会仍然包含重建误差。（虚拟)对象重建可以表示为大小为NXNSampies的矩阵§。系统从外部，例如，从用户交互，接收渲染信息。在 SA0C的背景下，植染信息被描述为渲染矩阵M，定义对象重建$,...,?应当被组合以产生输出信号Yl, . . .，Υκ的方式。输出信号可以表不为大小为KXNsamples的矩阵Y，是通过Y__=MS将渲染矩阵Μ应用于重建对象§的结果。
[0005] SA0C中的（虚拟）对象分离主要通过使用参数边信息进行操作，用于确定解混系数，然后将所述解混系数应用于降混信号上，从而获取(虚拟)对象重建。需要注意的是，以这种方式获得的感知质量可能会在某些应用中有所不足。为此，SAOC还为多达四个原始输入音频对象提供增强的质量模式。这些对象，被称为增强音频对象(EA0)，与最小化(虚拟）对象重建和原始输入音频对象之间的差的时域校正信号相关联。EA0可以被重建为与原始输入音频对象具有非常小的波形差。
[0006] SA0C系统的一个主要特性是，降混信号h，...，XM可以以它们可以被收听并且它们构成语义上有意义的音频场景的方式进行设计。这允许没有能够解码SA0C信息的接收器的用户仍然可以享受主音频内容，在没有可能的SA0C增强的情况下。例如，可以以向后兼容的方式将如上所述的SA0C系统应用于无线电或TV广播中。仅为了增加一些非关键功能而更换所有部署的接收机是几乎不可能的。SA0C边信息通常相当紧凑，并且可以被嵌入降混信号传输流中。遗留接收器简单地忽略SA0C边信息并输出降混信号，包括SA0C解码器的接收器可以解码边信息并提供一些额外的功能。
[0007] 然而，特别是在作为广播用途的情况下，出于美观或技术原因，由SA0C编码器产生的降混信号在被传送之前将进一步由广播站进行后处理。这可能是音响师想要调整音频场景从而更符合他的艺术视觉，或者必须操作信号以匹配广播员的商标声音形象，或者应该操作信号以满足一些技术法规，如关于音频响度的建议和规定。当操作降混信号时，图5的信号流图被改变为图7所示。这里，假设降混母带处理(mastering)的原始降混操作将一些函数f( ·)应用于每个降混信号Xi，l<iSM，产生操作后的降混信号f(Xi)，l<iSM。还可能的是实际传送的降混信号不是来自于SA0C编码器产生的降混信号，而是由外部作为一个整体提供的，但这种情况包括在也作为编码器产生的降混的操作的讨论中。
[0008] 降混信号的操作可能会导致SA0C解码器中（虚拟)对象分离的问题，因为解码器中的降混信号可以不必匹配通过边信息传输的模型。特别地，当预测误差的波形边信息被传输用于ΕΑ0时，对于降混信号中的波形变化来说非常敏感。
[0009] 应当注意的是，MPEGSA0C[SA0C]最大定义为两个降混信号和一个或两个输出信号，8卩，1 <Μ< 2和1 <K< 2。然而，维度在此被扩展到一般的情况下，因为该扩展是相当平常的并且帮助说明。
[0010] 在[PDG，SA0C]中已经提出的是，将操作后的降混信号也路由到SA0C编码器，提取一些附加的边信息，并在解码器中使用这个边信息以减少遵守SA0C混合模型的降混信号和解码器中可用的操作后的降混信号之间的差。路由的基本思路如图8Α所示，具有从降混操作到SA0C编码器的附加反馈连接。当前的用于SAOC[SA0C]的MPEG标准包括主要集中在参数补偿的提案[PDG]的一部分。补偿参数的估计这里没有描述，但读者可参考MPEGSA0C标准 [SA0C]的信息附件D. 8。
[0011]校正边信息被打包到边信息流并被一起传输和/或存储。SA0C解码器解码边信息，并使用降混修改边信息来补偿主SA0C处理之前的操作。这在图8B中示出。MPEGSA0C标准定义补偿边信息包括每个降混信号的增益因子。这些由PDGi表示，其中，1 <i是降混信号索引。各个信号参数可以被集合到矩阵
中。当操作后的降混信号以矩阵Xpostprc^ssed表示时，将被用于主SA0C处理的补偿的降混信号可以通过X= WXpostprocessed丫守至I]〇
[0012] 在[PDG]中，还提出包括描述被参数补偿的操作后的降混信号和由SA0C编码器产生的降混信号之间的差的波形残留信号。然而，这些都不是MPEGSA0C标准[SA0C]的一部分。
[0013] 补偿的好处是，由SA0C(虚拟)对象分离块接收的降混信号更接近于由SA0C编码器所产生的降混信号并且与被传输的边信息匹配得更好。通常，这导致在(虚拟)对象重建中减小伪象。
[0014] (虚拟)对象分离使用的降混信号近似于SA0C编码器中产生的未被操作的降混信号。结果是，渲染后的输出近似于通过将经常由用户定义的渲染指令应用在原始输入音频对象时获得的结果。如果渲染信息被定义为与降混信息相同或非常接近，换言之，M?D，则输出信号将类似编码器产生的降混信号:Y*X。请记住，降混信号操作可能由于充分根据的原因发生，相反，可能可取的是，输出将类似操作后的降混，Y?f(X)。
[0015] 让我们对此通过广播中对话增强的潜在应用的更具体示例进行说明。
[0016]原始输入音频对象S包括(可能是多声道的）背景信号，例如，体育广播中听众和环境噪声，和(可能是多声道的)前景信号，例如，解说员。
[0017]降混信号X包含背景和前景的混合。
[0018] 降混信号由f(X)操作，f(X)在实际情况下包括，例如，多频带均衡器、动态范围压缩器、和限制器(此处进行的任何操作在后面被称为"母带处理"）。
[0019] 在解码器中，渲染信息与降混信息类似。唯一的区别是，背景信号和前景信号之间的相对水平平衡可以由终端用户来调整。换言之，用户可以削弱听众噪声以使解说员更可被听见，例如，改进的清晰度。举个反例，终端用户可以削弱解说员的声音，以便能够更专注于比赛现场的声音。
[0020] 如果没有使用降混操作的补偿，（虚拟)对象重建可能包含因被接收的降混信号的真实属性和作为边信息被传输的属性之间的差而导致的伪象。
[0021] 如果使用了降混操作的补偿，则输出将具有被移除的母带

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：约尼·鲍卢斯;哈拉尔德·福斯;奥立夫·赫尔穆特;艾德里安·穆尔塔扎;法尔科·里德布施;里昂·特伦蒂夫;
技术所有人：弗朗霍夫应用科学研究促进协会;
我是此专利的发明人