用于解码编码音频信号以获取修改后的输出信号的装置和方法

文档序号:9673124阅读:405来源:国知局
用于解码编码音频信号以获取修改后的输出信号的装置和方法
【技术领域】
[0001] 本发明涉及音频对象编码,特别地涉及一种使用母带处理后(mastered)的降混作 为传输声道的音频对象编码。
【背景技术】
[0002] 近来,在音频编码[BCC,JSC,SA0C,SA0C1,SA0C2]领域和知情源分离[ISS1,ISS2, ISS3,ISS4,ISS5,ISS6 ]领域中,已经提出了包含多个音频对象的音频场景的比特率有效传 输/存储的参数技术。这些技术旨在基于描述音频场景中被传输/存储的音频场景和/或源 对象的附加的边信息,重建期望的输出音频场景或者音频源对象。在解码器中,使用参数知 情源分离方案进行重建。
[0003] 这里,我们将主要集中在对MPEG空间音频对象编码(SA0C) [SA0C]的操作,但是同 样的原理也适用于其他系统。SA0C系统的主要操作参见图5。不失一般性,为了提高等式的 可读性,在本文档中省略所有表示时间和频率相关性的引入变量,除非另有说明。该系统接 收N个输入音频对象Si,...,Sn和如何混合这些对象的指令,例如,以降混矩阵D的形式。输入 对象可以被表示为大小为NXNSamples的矩阵S。编码器提取描述该对象的参数化边信息并且 可能还提取基于波形的边信息。在SA0C中,边信息主要包括对象级差异(OLD)参数化的相关 对象能量信息和对象间相关性(I0C)参数化的相关性信息。SA0C中的可选的基于波形的边 信息描述参数模型的重建误差。除了提取边信息之外,编码器还提供Μ个声道的降混信号 Xl...,Χμ,其使用大小为ΜΧΝ的降混矩阵D内的信息生成。降混信号可以被表示为大小为Μ XNSampies的矩阵X,与输入对象之间的关系为:X=DS。通常,关系Μ<Ν成立,但这并不是严格 的要求。降混信号和边信息被传输或存储,例如,在音频编解码器MPEG-2/4AAC的帮助下。 SA0C解码器接收降混信号、边信息、以及附加渲染信息,该附加渲染信息往往为大小为ΚΧΝ 的渲染矩阵Μ的形式,描述Κ个声道的输出Yi,...,ΥΚ如何与原始输入对象相关。
[0004] SA0C解码器的主要操作块在图6中示出,并将在下面进行简要讨论。首先,对边信 息进行适当解码和解释。(虚拟)对象分离块使用边信息并尝试(虚拟地)重建输入音频对 象。该操作被称为"虚拟"的概念因为通常没有必要明确地重建对象,但是以下渲染阶段可 以与这个步骤组合。(虚拟)对象重建免...,?可能会仍然包含重建误差。(虚拟)对象重建可 以表示为大小为NXNSampies的矩阵§。系统从外部,例如,从用户交互,接收渲染信息。在 SA0C的背景下,植染信息被描述为渲染矩阵M,定义对象重建$,...,?应当被组合以产生输 出信号Yl, . . .,Υκ的方式。输出信号可以表不为大小为KXNsamples的矩阵Y,是通过Y__=MS将 渲染矩阵Μ应用于重建对象§的结果。
[0005] SA0C中的(虚拟)对象分离主要通过使用参数边信息进行操作,用于确定解混系 数,然后将所述解混系数应用于降混信号上,从而获取(虚拟)对象重建。需要注意的是,以 这种方式获得的感知质量可能会在某些应用中有所不足。为此,SAOC还为多达四个原始输 入音频对象提供增强的质量模式。这些对象,被称为增强音频对象(EA0),与最小化(虚拟) 对象重建和原始输入音频对象之间的差的时域校正信号相关联。EA0可以被重建为与原始 输入音频对象具有非常小的波形差。
[0006] SA0C系统的一个主要特性是,降混信号h,...,XM可以以它们可以被收听并且它们 构成语义上有意义的音频场景的方式进行设计。这允许没有能够解码SA0C信息的接收器的 用户仍然可以享受主音频内容,在没有可能的SA0C增强的情况下。例如,可以以向后兼容的 方式将如上所述的SA0C系统应用于无线电或TV广播中。仅为了增加一些非关键功能而更换 所有部署的接收机是几乎不可能的。SA0C边信息通常相当紧凑,并且可以被嵌入降混信号 传输流中。遗留接收器简单地忽略SA0C边信息并输出降混信号,包括SA0C解码器的接收器 可以解码边信息并提供一些额外的功能。
[0007] 然而,特别是在作为广播用途的情况下,出于美观或技术原因,由SA0C编码器产生 的降混信号在被传送之前将进一步由广播站进行后处理。这可能是音响师想要调整音频场 景从而更符合他的艺术视觉,或者必须操作信号以匹配广播员的商标声音形象,或者应该 操作信号以满足一些技术法规,如关于音频响度的建议和规定。当操作降混信号时,图5的 信号流图被改变为图7所示。这里,假设降混母带处理(mastering)的原始降混操作将一些 函数f( ·)应用于每个降混信号Xi,l<iSM,产生操作后的降混信号f(Xi),l<iSM。还可能 的是实际传送的降混信号不是来自于SA0C编码器产生的降混信号,而是由外部作为一个整 体提供的,但这种情况包括在也作为编码器产生的降混的操作的讨论中。
[0008] 降混信号的操作可能会导致SA0C解码器中(虚拟)对象分离的问题,因为解码器中 的降混信号可以不必匹配通过边信息传输的模型。特别地,当预测误差的波形边信息被传 输用于ΕΑ0时,对于降混信号中的波形变化来说非常敏感。
[0009] 应当注意的是,MPEGSA0C[SA0C]最大定义为两个降混信号和一个或两个输出信 号,8卩,1 <Μ< 2和1 <K< 2。然而,维度在此被扩展到一般的情况下,因为该扩展是相当平常 的并且帮助说明。
[0010] 在[PDG,SA0C]中已经提出的是,将操作后的降混信号也路由到SA0C编码器,提取 一些附加的边信息,并在解码器中使用这个边信息以减少遵守SA0C混合模型的降混信号和 解码器中可用的操作后的降混信号之间的差。路由的基本思路如图8Α所示,具有从降混操 作到SA0C编码器的附加反馈连接。当前的用于SAOC[SA0C]的MPEG标准包括主要集中在参数 补偿的提案[PDG]的一部分。补偿参数的估计这里没有描述,但读者可参考MPEGSA0C标准 [SA0C]的信息附件D. 8。
[0011]校正边信息被打包到边信息流并被一起传输和/或存储。SA0C解码器解码边信息, 并使用降混修改边信息来补偿主SA0C处理之前的操作。这在图8B中示出。MPEGSA0C标准定 义补偿边信息包括每个降混信号的增益因子。这些由PDGi表示,其中,1 <i是降混信号 索引。各个信号参数可以被集合到矩阵
中。当操作后的降混信 号以矩阵Xpostprc^ssed表示时,将被用于主SA0C处理的补偿的降混信号可以通过X= WXpostprocessed丫守至I]〇
[0012] 在[PDG]中,还提出包括描述被参数补偿的操作后的降混信号和由SA0C编码器产 生的降混信号之间的差的波形残留信号。然而,这些都不是MPEGSA0C标准[SA0C]的一部 分。
[0013] 补偿的好处是,由SA0C(虚拟)对象分离块接收的降混信号更接近于由SA0C编码器 所产生的降混信号并且与被传输的边信息匹配得更好。通常,这导致在(虚拟)对象重建中 减小伪象。
[0014] (虚拟)对象分离使用的降混信号近似于SA0C编码器中产生的未被操作的降混信 号。结果是,渲染后的输出近似于通过将经常由用户定义的渲染指令应用在原始输入音频 对象时获得的结果。如果渲染信息被定义为与降混信息相同或非常接近,换言之,M?D,则 输出信号将类似编码器产生的降混信号:Y*X。请记住,降混信号操作可能由于充分根据的 原因发生,相反,可能可取的是,输出将类似操作后的降混,Y?f(X)。
[0015] 让我们对此通过广播中对话增强的潜在应用的更具体示例进行说明。
[0016]原始输入音频对象S包括(可能是多声道的)背景信号,例如,体育广播中听众和环 境噪声,和(可能是多声道的)前景信号,例如,解说员。
[0017]降混信号X包含背景和前景的混合。
[0018] 降混信号由f(X)操作,f(X)在实际情况下包括,例如,多频带均衡器、动态范围压 缩器、和限制器(此处进行的任何操作在后面被称为"母带处理")。
[0019] 在解码器中,渲染信息与降混信息类似。唯一的区别是,背景信号和前景信号之间 的相对水平平衡可以由终端用户来调整。换言之,用户可以削弱听众噪声以使解说员更可 被听见,例如,改进的清晰度。举个反例,终端用户可以削弱解说员的声音,以便能够更专注 于比赛现场的声音。
[0020] 如果没有使用降混操作的补偿,(虚拟)对象重建可能包含因被接收的降混信号的 真实属性和作为边信息被传输的属性之间的差而导致的伪象。
[0021] 如果使用了降混操作的补偿,则输出将具有被移除的母带
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1