用于多信道环绕声音的解码器的方法和装置的制作方法

文档序号:7676100阅读:289来源:国知局
专利名称:用于多信道环绕声音的解码器的方法和装置的制作方法
技术领域
本发明涉及解码多信道环绕音频比特流。本发明尤其涉及使用空间 协方差矩阵外推法进行信号解码的方法和装置。
背景技术
在全世界的电影院中,很久以来,多信道环绕音频系统就将电影观 众的位置安排在电影场景音频空间的中心,电影场景在观众前面播放并 给予观众真实可信的"身临其境"之感。这种音频技术作为家庭环绕声 影院系统已经进入普通人的家庭,现在正为人们在他们自己的起居室中 提供"身临其境"的感觉。
该音频技术将会被用到的下一个领域包括移动无线单元或终端,特
别是诸如蜂窝电话、mp3播放器(包括类似的音乐播放器)和PDA (个 人数字助理)的小型单元。这里,由于屏幕尺寸小,环绕声音的沉浸感 特性就更加重要。然而,将这项技术移用到移动终端中不是个小问题。 主要的障碍包括
在无线移动信道中,可用比特率在很多情况下较低。
移动终端的处理能力有点有限。
小型移动终端通常只有两个微型扬声器和耳塞或耳机。
这意味着,特别是对诸如蜂窝电话的移动终端来说,移动终端上的 环绕声音解决方案必须使用比在杜比(Dolby)数字5.1系统中使用的 384千比特/秒低得多的比特率。由于有限的处理能力,移动终端的解码 器必须在计算上被优化,并且由于移动终端的扬声器配置,环绕声音必 须通过耳塞或耳机来传递。
通过耳机或耳塞来传递多信道环绕声音的标准方式是实施多信道 环绕声音的3D音频或立体声(binaural )再现。
通常,在3D音频再现中,使用音频场景模型,并且每个进入的单 信道信号被通过一组滤波器滤波,该组滤波器对人头部、躯千和耳朵所 产生的变换建模。这些滤波器被称为具有头部相关转移函数(HRTF)的 头部相关滤波器(HRF),如果被恰当地设计,它们会给出良好的3D音步贞场景感头口。
图1的图示出了多信道5.1音频信号的完整3D音频再现方法。六 信道的多信道信号是
环绕右(SR)、右(R)、中心(C)、低频元(LFE)、左(L) 和环绕左(SL)。
在图l所示的例子中,中心和低频信号被组合为一个信号。然后, 为了实现该头部相关滤波方法,需要五个不同的滤波器,表示为//f 、 、 //、 /^和//;。 SR信号被输入到滤波器/Z/和/^, R信号被输入到滤波 器/^和//。 C和LFE信号被共同输入到滤波器//、 L信号被输入到滤 波器7/r和/^,而SL信号被输入到滤波器/^和〃纟。从滤波器//,、 //、 //f和/^输出的信号在右边的求和元件1R中进行求和,给出要提 供给右边耳机(未示出)的信号。从滤波器〃f、 //CB、 W、 //f和〃;输 出的信号在左边的求和元件1L中求和,给出要提供给左边耳机(未示 出)的信号。在这种情况下,假设头部是对称的,因此假设用于左耳和 右耳的滤波器是相似的。在这种再现的3D感知方面的质量依赖于当他/她正在收听时,HRF 多么接近地建模或表示收听者本身的头部相关滤波。因此,如果想获得 优秀或非常好的质量,如果HRF可以为每个听者自适应调整和个性化则 将是有益的。该自适应调整和个性化步骤可包括建模、测量和通常依赖 于用户的调谐,以便改进所感知的3D音频场景的质量。
当前本领域标准化的多信道音频编解码器需要大量带宽,以便达到 可接受的质量,这样它们就妨碍了为诸如无线移动流传输的服务使用这 种编解码器。
例如,即使杜比数字5.1 ( AC - 3编解码器)与AAC (高级音频编 码)多信道编解码器相比具有非常低的复杂度,但是为达到相似的质量 它需要多得多的比特率。AAC多信道编解码器和AC-3编解码器这两 种编解码器直到今天仍不能被用在无线移动领域,是因为它们对计算复
杂度和比特率的要求很高。
基于立体声线索(cue)编码的新的参量多信道编解码器已经被开
发。最近标准化的MPEG参量(parametric)立体声工具是用于对立体声声 音进行编码的低复杂度/高质量参数技术的好例子。将参量立体声扩展到 多信道编码是当前正在进行的MPEG中的标准化,名为空间音频编码,还叫称为MPEG环绕。
通过示出通常情况的图2中的框图,可以解释和理解参量多信道编 码的原理。
还被称作多信道参量环绕编码器的参量环绕编码器3接收多信道音 频信号,所述多信道音频信号包括单独的信号x,(w)到^(n),其中N是输 入信道的数目。编码器3然后在下混合单元5中形成下混合信号,所述 下混合信号包括单独的下混合信号^(w)到^(力。下混合信道数M<N依 赖于所需的比特率、质量和M信道音频编码器7的可用性。编码过程的 一个关键方面是,从多信道输入信号导出通常是立体声信号但也可能是 单信道信号的下混合信号,并且在音频编码器7中对该下混合信号而不 是原始多信道信号进行压缩以便通过无线信道11传输。另外,参量环 绕编码器还包括空间参数估计单元9,其根据输入信号x,(")到xj")计算 空间线索或空间参数,诸如信道间水平差、时间差和相干性。从M信道 音频编码器输出的压缩音频信号(主信号)与构成辅助信息(side information)的空间参数一起被发送到接收端,在这里所考虑的情况下, 所述接收端通常是移动终端。
在所述接收端,参量环绕解码器13包括M信道音频解码器15。音 频解码器15产生z,(")到^(w)的编码版本的信号^(")到L(w)。这些与空 间参数一起被输入到空间合成单元17,其产生输出信号A(w)到K")。因 为解码过程本质上是参量的,所以解码信号i,(")到^(")在客观上不 一定 接近于原始的多信道信号x,(")到,但主观上是多信道音频场景的忠 实再现。
很明显,依赖于通过接口 11发射信道的通常相对低的带宽,将会 丢失信息并因此在接收端上的信号 4 (")到^ (")和i,(")到^ (")无法与它 们在发射端上的相对应部分相同。即使它们不是其相对应部分的真实等 同物,它们也是足够好的等同物。
通常,这种环绕编码过程独立于图2中的单元编码器7 (核心编码 器)和音频解码器15 (核心解码器)中所使用的压缩算法。核心编码过 程可利用任意数目的高性能压缩算法,诸如AMR-WB十(扩展自适应多 速率宽带)、MPEG-1层III(移动图片专家组)、MPEG-4 AAC或MPEG-4 高效AAC,并且它甚至还可利用PCM (脉沖编码调制)。
通常,上面的操作是在诸如傅立叶变换的变换信号域中完成,并通常在一些时频分解上完成。如果单元9和17中的空间参数估计和合成 使用的变换类型与音频编码器7中使用的变换类型相同,这是特别有益的。
图3是高效参量音频编码器的详细框图。以向量形式表示为、.(")的 N信道离散时间输入信号首先在变换单元21中被变换到频域,该变换 单元21给出信号^(yt,w)。索引A是变换系数的索引,或频率子带。索 引m表示抽取的时域索引,其还与可能通过重叠帧的输入信号相关。
所述信号此后在下混合单元5中被下混合,以生成M信道的下混合 信号^,(A,w),其中M<N。在估计单元9中估计空间模块参数向量^从w) 的序列。这可以在开环方式下完成,或可在闭环方式下完成。
空间参数包括代表环绕声音感觉的心理声学线索。例如,这些参数 包括信道间水平差(ILD)、时间差(ITD)和相干性(IC),以捕获多 信道音频信号相对于所传送的下混合信号^ w)的空间图像(或者如果 在闭环中,解码信号^(、m))。可以以非常紧凑的形式对线索^^,w)进 行编码,诸如在产生信号^(、w)的空间参数量化单元23中,之后为空 间参数编码器25。 M信道音频编码器7产生主比特流,其在多路复用器 27中与参数编码器所产生的空间辅助信息多路复用。经多路复用的信号 从多路复用器传送到接收端上的多路分解器29,辅助信息和主比特流在 所述多路分解器29中被恢复,如图4的框图所示。
在接收端,对主比特流进行解码以利用所接收的空间参数合成高质 量的多信道表示。首先在M信道音频解码器31中对主比特流进行解码, 解码的信号^Ot,—从M信道音频解码器31输入到空间合成单元17。多 路分解器29提取持有空间参数的空间辅助信息并将其提供给空间参数 解码器33,所述空间参数解码器33产生解码参数^(yt,w)并将它们传送 到合成单元17。所述空间合成单元产生信号^(yt,m),该信号被提供给信 号频时变换单元35以产生信号^(yt,m),即多信道解码信号。
多信道环绕声音的个性化3D音频再现可通过使用高效的参量环绕 解码器以首先获得多个环绕信道,使用例如上面参照图4描述的多信道 解码器而被传递到移动终端用户。因此,图1中所示的系统被用于合成 立体声3D音频再现的多信道信号。该操作被示于图5的示意图中。
已经对在子带域中实施空间或3D音频滤波进行了工作。在C.A. Lanciani和R.W. Schafer "Application of Head-related Transfer Functionsto MPEG Audio Signals" , Proc. 31st Symposium on System Theory, March 21-23,1999,Auburn,AL,U.S.A.中公开了如何通过在子带域中实施HR滤 波才喿作而将MPEG编码的单信道信号空间化。在A.B.Touimi,M.Ement 禾口 J.M.Pernaux, "Efficient Method for Multiple Compressed Audio Streams Spatialization" , Proc. 3rd International Conference on Mobile and Ubiquitous Multimedia,229-235页,10月27-29号,2004, College Park, Maryland, U.S.A中公开了如何通过在子带域中进行头部相关(HR )滤 波操作而将大量单独的MPEG编码单信道信号空间化。该解决方案基于 HR滤波器的特殊实现,其中所有HR滤波器都被建模为几个预先定义 的基本滤波器的线性组合》
有多种3D音频再现的应用,并且包括利用诸如3GPP MBMS或 DVB-H等标准的聊天(gamming)、移动TV秀,收听音乐会、看电影 和通常包含多信道音频分量的多媒体服务。
尽管上述再现多信道环绕声音的方法由于它们允许向无线移动单 元提供一整套新的服务而引人入胜,但是这些方法具有很多缺点
首先,这种再现的计算要求过高,因为解码和3D再现都必须并行 和实时地实施。即使与全波形多信道解码器相比较参量多信道解码器的 复杂度低,但参量多信道解码器的复杂度还是相当高,且至少高于简单 的立体声解码器的复杂度。空间解码的合成步骤具有至少与编码信道的
数目成比例的复杂度。另外,3D再现的滤波操作也与信道的数目成比例。
第二个缺点在于需要临时存储器以便存储中间解码信道。事实上, 它们被緩存,因为在3D再现的第二步骤中需要它们。
最后,其中一个主要缺点在于由于可以取消信道间的相关性,因此 这种3D音频再现的质量可能非常有限。由于参量多信道编码合成信号 的方式,信道间相关性是必要的。
例如,在MPEG环绕中,仅在信道对之间估计相关性(ICC)和信 道级别差(CLD)。对ICC和CLD参数进行编码并发送到解码器。在 所迷解码器中,所接收的参数被用在如图7所示的合成树中,用于一种 5-1-5配置(该情况下,5-l-5!配置)。图6示出了具有5-l-5参数化的 环绕系统配置。从图6可以看出,仅在信道对之间估计5-l-5^己置中的 CLD和ICC参数。由于仅在信道对之间估计相关性(ICC)和信道级别差(CLD), 所以不是所有相关性都可以获得。这继而禁止了单独的信道处理和再利 用,例如3D再现。事实上,如果例如两个未编码的信道(例如RF和 RS)是非相关的,并通过使用5-l-5i配置对它们进行编码,则由于相关 性只是没有被同样发送到解码器,因此对它们相关性的控制是不可获得 的,而仅提供了该树第二级上的相关性。在解码器端,这继而会导致两 个相关的解码信道。事实上,解码器没有访问也没有控制特定的单独信 道之间的相关性。这些信道属于不同的第三级方框(box)。在图6的 例子中,这些是属于不同扬声器分组的所有信道对。这也可以从图7中 看出。信道对是属于5-1-5,配置中不同的第三级树方框(OTT3、 OTT4 OTT2)的信道对。当在扬声器环境中收听时这不是问题;然而如果信 道被组合在一起,比如在3D再现中,这就成为问题,可能导致不希望 的信道消除或过度放大。

发明内容
本发明的目的是克服参量多信道解码器中与可能不希望的某些信 道取消和成放大有关的缺点。这是通过将部分已知的协方差外推到所有 信道的整个协方差矩阵,并基于外推的协方差合成任意线性组合的估 计,再现解码多信道信号的任意线性组合来实现的。
根据本发明的第 一 方面,提供了 一种用于合成多信道环绕音频信号 的任意预先确定的线性组合的方法。该方法包括如下步骤接收任意预 先确定的线性组合的描述H,接收多信道环绕音频信号的解码下混合信 号,接收包括多信道音频信号的相关性和信道级别差的空间参数,基于 所接收的包括多信道音频信号的相关性和信道级别差的空间参数获得 部分已知的空间协方差,外推部分已知的空间协方差以获得完整的空间 协方差,根据保真度准则,至少基于外推的完整空间协方差、接收的解 码下混合信号和任意预先确定的线性组合的所述描述,形成多信道环绕 音频信号的所述任意预先确定的线性组合的估计,并基于多信道环绕音 频信号的任意预先确定的线性组合的所述估计,合成多信道环绕音频信 号的所迷任意预先确定的线性组合。
根据第二方面,提供了一种用于合成多信道环绕音频信号的任意预 先确定的线性组合的装置。该装置包括相关器,其用于基于所接收的包括多信道音频信号的相关性和信道级别差的空间参数获得部分已知
的空间协方差;外推器,其用于外推部分已知的空间协方差以获得完整 的空间协方差;估计器,其用于根据保真度准则,至少基于外推的完整 空间协方差、接收的解码下混合信号m和给出任意预先确定的线性组合 的系数的描述,形成多信道环绕音频信号的所述任意预先确定的线性组 合的估计;和合成器,其用于基于多信道环绕音频信号的任意预先确定 的线性组合的所述估计,合成多信道环绕音频信号的所述任意预先确定 的线性组合。
因此,本发明可以以简单和高效的方式再现在移动设备上参量编码 器所编码的环绕声音。优点包括与通过在多信道信号上直接使用3D再 现而获得的复杂度和质量相比,复杂度有所降低且质量有所提高。 特别地,本发明可以对多信道环绕声音进行任意的双信道解码。 进一步的优点是在频域进行操作,因此降低了系统的复杂度。 进一步的优点是不需要緩存信号样本,原因在于直接在单个解码步 骤中获得输出。


图1是示出了可能的3D音频或5.1音频信号的立体声再现的框图, 图2是参量多信道编码和解码系统的原理的高级别描述, 图3是参量多信道音频编码器的详细描述, 图4是参量多信道音频解码器的详细描述, 图5是所解码的多信道信号的3D音频再现, 图6是用于5-l-5!配置的空间音频处理的参数化视图, 图7是用于5-l-5!配置的空间音频处理的树型结构视图, 图8示出了子带A与混合子带w之间的关系和时隙"与下采样时隙 l之间的关系,
图9a示出了图7所示的OTT方框,并且图9b示出了相对应的 R-OTT方框,
图10a示出了根据本发明的装置,图10b示出了本发明的实施例, 图11是示出根据本发明实施例的方法的流程图。
具体实施方式
本发明的基本概念是基于所接收的空间参数获得多信道环绕音频 信号的部分已知的空间协方差,并外推所获得的部分已知的空间协方差 以获得完整的空间协方差。然后,根据保真度准则,至少基于外推的完
整空间协方差、接收的解码下混合信号m和预先确定的任意线性组合的 描述H来估计多信道环绕音频信号的预先确定的任意线性组合,以能够 基于所述估计合成多信道环绕音频信号的预先确定的线性组合。多信道 环绕音频信号的预先确定的任意线性组合能够在概念上代表多信道信 号的滤波,例如头部相关滤波和立体声再现。它还可以代表其它声音效 果,诸如混响。
因此,本发明涉及用于解码器的方法和用于解码器的装置。该装置 被示于图10a中,其包括相关器卯2a、外推器902b、估计器903和合成 器904。相关器902a被配置为基于所接收的空间参数901获得部分已知 的空间协方差矩阵911,所述所接收的空间参数901包括多信道环绕音 频信号的相关性ICC和信道级别差CLD。外推器902b被配置为使用适 当的外推方法外推部分已知的空间协方差矩阵,以获得完整的空间协方 差矩阵。并且,估计器903被配置为根据保真度准则,通过使用外推的 完整空间协方差矩阵912结合所接收的解码下混合信号以及代表预先确 定的任意线性组合的描述的系数矩阵/^来估计多信道环绕音频信号的 线性组合。最后,合成器904被配置为基于多信道环绕音频信号线性组 合的所述估计913合成多信道环绕音频信号的线性组合914。
现在将关于MPEG环绕解码器来描述本发明的优选实施例。应当意 识到,尽管本发明的优选实施例是参照MPEG环绕解码器所描述的,但 是其它参数解码器和系统也适于与本发明 一起使用。
为了简单的目的并不脱离本发明的实质,考虑如图7所示的5-l-5j MPEG环绕配置。该配置包括多个连接的OTT ( —对二 )方框。诸如res 的辅助信息和被称作信道级别差(CLD)和相关性(ICC)的空间参数 被输入到OTT方框。m是多信道信号的下混合信号。
对多信道信号的合成是在混合频率域中完成的。该频率划分是非线 性的,其努力在某种程度上模拟对人耳的时频分析。
下面,每个混合子带用A来索引,而每个时隙用索引w来索引。为 了降低比特率要求,MPEG环绕空间参数只被定义在被称作参数时隙1 的下采样时隙上以及被称作处理频带m的下采样混合频域上。n与1之间的关系和w与A之间的关系示于图8。因此,频带m0包才舌频带kl和 kl,并且频带ml包括频带k2和k3。此外,时隙/是时隙n的下采样版 本。CLD和ICC参数因此对于该参数时隙和处理频带有效。所有处理参 数为每个处理频带计算,并接下来被映射到每个混合频带。此后,这些 被从参数时隙内插到每个时隙w。
图7中所示的解码器的OTT方框可以如图9a所示被可视化。 基于该图示,任意OTT方框的输出努力将两个原始信道乂"和少"之 间的相关性恢复为两个估计的信道乂"和j)「m 。
通过检查编码器中完成的估计部分,这可以得到更好的理解。编码 器包括R-OTT方框,其是如图9b所示的逆OTT方框。R-OTT方框将 立体声信号变换为与参数提取相结合的单信道信号,所述参数提取代表 各个输入信号之间的空间线索。对这些R-OTT方框每一个的输入信号 是原始信道乂"和乂 每个R-OTT方框计算输入信号相应的时间/频率 斜率(time/frequency tile)的功率比(其将4皮表示"信道级别差,,或CLD ), 其通过如下7>式给出
L少o少0
=ioi。g,
以及输入信号相应的时间/频率斜率的相似性测量(其将^皮表示"信道间
相关性"或ICC),其通过互相关给出
<formula>formula see original document page 14</formula>
另外,R-OTT方框生成单信道信号,其写作
其中g。、 g,是适当的增益。利用&=&=1/2, 择包括选择g。、 gl,以使得
生成单信道信号。另一选4x'、'., 其可通过使用如下公式实现
<formula>formula see original document page 15</formula>
下面,假设上面的是真且R-OTTx方框的输出能量等于输入能量之和。
被输入到R-OTT方框的任何两个信道之间的相关性(ICC)以及信 道级别差(CLD)被量化编码并被传送到解码器。
为了建立空间协方差矩阵,本发明的该实施例使用对应于每个 (R)-OTT方框的CLD和ICC,然而也可以使用相关性和信道级别差的其
它度量。
在概念上,任意两个信道的协方差矩阵被写作
—4y义
由于只有真实的相关性可以在MP E G环绕解码器处获得,所以可以 假设真实相关性矩阵而不失去一般性。这样,OTT方框(其被输入到 R-OTT方框)的每个输出信道可被示为具有如下协方差矩阵
其中《m表示OTTx的输入能量(或可替换地为R-OTTx的输出) 方框,为了简化表示,示出方程右边第二项。
如果对应于OTT3和OTT4的输出的信道向量被表示为《
则根据这些表示,可利用块矩阵写出5-1-5! MPEG环绕情况下的 方差矩阵,该矩阵部分未知,如下所示
间协
orr, 7
用"?"标记未知的2x2矩阵。因此,基于空间参数CLD和ICC
获得部分已知的空间协方差矩阵。
此外,OTT3和OT丁4的输出相互关,并用协方差矩阵c。巧表示。在
这种情况下,很容易将两个能量即CT"和(T"相关,如下
"or 4 二 ^2,077;
因此,用于前四个信道的协方差矩阵可以写作<formula>formula see original document page 16</formula>
在MPEG环绕标准中,p^/cc;的值不存在,并在概念上假设等于 1,即除了尺度因子之外,中心和LFE是相同的。然而,为了一般性研 发的目的,将不会进行这种假设。
最后的矩阵方程表示出现了多个未知空间信道间的相关性。即~,。、 浙、~,c.、 &浙,然而已经知道,到OT丁3和OTT4的两个输入的互相 关等于/cc, =A。这样,根据前面的矩阵方程
Re£
cu (cu + 2cuc2 3 a + c2 3) 7^ c + 浙+ & c + &浙 V.c +《"> +1 +
凡'"+1 w。 + L +1 c22, (c,24 + 2c, 4c2 4p4 + c22 4)这样,立刻看出缺少的量必须满足
还很清楚,该约束不能单独确定所有缺少的空间变量。
为了处理进 一 步的单独信道,本发明的该实施例外推缺少的相关量 而保持相关和约束。应当注意到,这种矩阵的外推还必须使得所得到的 外推矩阵是对称和正定的。事实上,这是对将要容许成为协方差矩阵的 任何矩阵的要求。
为了外推部分已知的协方差矩阵以获得完整的协方差矩阵,使用文 献中的几个技术。使用 一种或另 一种方法处于本发明的范围之内。
根据优选实施例,最大墒原理被用作外推方法。这带来简单的实施 方式,并已经在音频质量方面显示了非常好的性能。
因此,选择外推相关量以使得它们最大化协方差矩阵的行列式,即<formula>formula see original document page 17</formula>
C2,1C1,4 C2,1C1,4C2,4A C2,1C1,4C2,4A) C2,1C2,4
受到如下约束
Af,c +W《.C = A 'Ci,iCuV(c'23 +2cuc2,.3A +《3)(《4 +2cl4c24p4 +c22 4 )
这是凸优化问题并存在闭合式(closed form)的解。为了简化表示, 我们将为 一般协方差矩阵导出解,
<formula>formula see original document page 17</formula>
首先应到注意到,最大化行列式r还等同于最大化如下矩阵的行列
式<formula>formula see original document page 18</formula><formula>formula see original document page 19</formula>
通过使用相同的方法,即将信道转化为虚拟单信道和侧信道,非常 容易为外推的协方差矩阵导出闭合式公式。
到目前为止,已经给出的是两个步骤的方法,其中首先外推信道[lf
rfclfe]的部分协方差矩阵,然后外推全部信道的总协方差矩阵。然而,
另一种方法可以用于计算总的不完整协方差矩阵,然后全局外推所有相
关。这两种方法在概念上是等同的。然而,第二种方法更加有效,因为
其全局外推所有可能的相关,而前者意味着两个步骤的方法。
两种方法在实现上相似,且都基于最大墒(即行列式最大化)方法。 应当注意到,所有量都依赖于时间和频率。
为了清楚省略了索引。时间索引对应于参数时隙/,而频率则用处 理频带索引m索引。最后应当指出,将相对于单信道下混合信号的能量 (其用(7^。表示)来定义所有得到的相关。事实上,由于存在《77项,
这对于任何on;方框都是真的。
下面,为了简化表示,单信道下混合能量归一化的外推协方差矩阵 被定义为
<formula>formula see original document page 19</formula>基于外推协方差矩阵,估计和合成任意信道在下面进行描述。 假设被定义为原始信道预先确定的任意线性组合的任意信道要被 解码/合成,例如or
其中矩阵//*表示协方差矩阵,代表预先确定的任意线性组合的描 述,而""是所需的线性组合,即所需的输出信号。现有的直接技术将直 接计算5"作为解码器输出的简单线性组合,即将频域中的矩阵应用
到解码的信道/,'"、 r,'"、 /V'"、 /y'",通常这可写作
这会限制输出的质量并可能造成不想要的信道相关性以及可能的消除。
正如前面所述,每个R-OTT方框的输出引起线性组合。因此,很
容易看出下混合信号事实上是所有信道的线性组合。
因此,用m"表示的下混合信号可被写作
协方差矩阵『"是已知的,且只依赖于所接收的CLDx参数。在单 个信道下混合的情况下,即下混合信号只包括单信道信号,矩阵『"实 际上是如上面公式中所示的行向量。这个问题可以在最小均方问题的方 面上陈述,或者通常作为加权的最小二乘问题。
给定单信道下混合信号w".、可以按照如下方法构成信道的线性估计
5"其中e"是需要被优化的矩阵,例如当其被应用到下 混合信道(在该情况下为单信道w"M时,其可以提供与利用原始的线 性组合获得的结果浐 一样闭合的结果。
因此,目标是使关于某些保真度准则(在该例子中是均方误差准则)
的误差e"=""》-S"最小化。这样SI起如下的最小化<formula>formula see original document page 21</formula>假设矩阵是静止的,即它们可以是平均运算符的析出因子,则可以 容易地关于e"而解出该问题的均方解,得到
<formula>formula see original document page 21</formula>
矩阵c"表示信道的协方差矩阵,即<formula>formula see original document page 21</formula>
如前面所讨论,其可能无法在解码器得到,但是可以根据前面所迷 的技术对其进行外推。这里,所示协方差矩阵是复数的。然而,由于只 使用实相关,所以可以容易地示出,该结果通过实的协方差矩阵仍然是
有效的。
到目前为止已经示出了为每个混合子带A和每个时隙"估计最小均 方。实际上,通过在一定数量的时隙上计算均方估计可以大大降低复杂 度,并且接着使用内插以便将其扩展到所有时隙。例如,将估计映射到与用于参数的时隙相同的时隙上,即只为参数时隙、索引/计算协方差
矩阵是有益的。可以通过映射将只为参数带、索引m计算的均方估计来 使用用于降4氐复杂度的相同技术。然而,这通常不如针对时间索引那么 直接,因为可能需要一定数量的频率分辨率以便高效地表示矩阵/T的行 为。下面考虑次采样的参数域,即/, w。
正如前面已经指出的,协方差矩阵C'"只相对于单信道下混合信号 (即cr:。(/,m))是已知的。由于该约束,对于所有/, m,可以容易地示 出r'"'C咖『w =^7^ (/,m)。最小均方估计因此可被写作
应当注意到,e'"只依赖于可以在解码器中获得的已知量。事实上,
/T是描述理想线性组合的外部输入矩阵,而^"和『'"由包含在接收的 比特流中的空间参数导出。
最小二乘估计固有地带来能量丢失,这会对合成信道的质量带来不 利影响。能量丢失是由于当被应用到解码信号和实信号时模型之间的失 配所造成的。在最小二乘技术中,这被称作噪声子空间。在空间听觉中, 该术语被称作扩射声场,即多信道信号不相关或扩散的部分。为了防止 这样,使用多个解相关信号,以便填充噪声子空间和扩散声部分,并因 此得到在心理声学上与所需信号相近似的估计信号。
由于最小均方的正交特性,理想信号的能量可被表示为
这样,/, m域中误差的归一化协方差矩阵可表示为
为了生成具有与理想信号a"相同的心理声学特征的估计信号3", 生成独立于3"的误差信号。所述误差信号必须具有接近于真实误差信
号的协方差矩阵4々'"的协方差矩阵,并且其还必须与均方估计a"不相关。
接着,由f"表示的伪像误差信号被添加到均方误差估计,以便形 成最终估计3"-a"'、 ^。一种生成与误差信号近似的信号的方式是通过使用净皮应用到单信 道下混合信号的解相关。这确保了误差信号与均方估计不相关,原因在
于a"直接依赖于单信道下混合信号。然而这本身是不够的,解相关器 需要被空间整形以使得它们的协方差矩阵与真实误差信号的相关v" 1匹配。
这样做的一种简单方式是迫使所生成的解相关信号在它们本身之 间也不相关,并接着应用被称作z"的相关整形矩阵。如果^"被表示为 解相关器的向量输出,则整形矩阵z"必须满足
然而,由于^々'"l只被定义为归一化协方差矩阵,(相对于单信道
下混合信号的能量)解相关器还必须具有相对于单信道下混合能量的协 方差矩阵定义的协方差矩阵。
根据现有技术,保证这一点的简单方式是使用全通滤波解相关,由 此得到归一化(相对于单信道信号能量)协方差矩阵,写作4 1", 即单位矩阵,然后应用整形矩阵z"。
可以容易地看出,4"V"1-z"W的简单cholesky因数分解可以产生 适当的矩阵Z"。当然,也可以用其它的因数分解,例如通过使用归一 化误差协方差矩阵的特征向量和特征值。另外,通过只在参数域,即/, w中估计矩阵Z"可以获得益处。
最后,总的合成可以写作
其中,通过在时域(即从/到")中内插矩阵e 二/zf 并通 过将子带参数带映射到混合带(即从m到yO获得矩阵『'、
并且相似地,通过内插和映射矩阵z'"获得矩阵z",由下列方程定

Z^Z"'" =〃f'T* - 0'卞'f'f ,m* 使用的装置。附图标记对应于图10a的附图标记。在该实施例中,估计器903包括单元905,其4皮配置为通过最小化所估计的多信道环绕音频 信号的线性组合与多信道环绕音频信号的任意预先确定的线性组合之 间的均方误差(即e"^""-确定矩阵Q。应当注意到,人们不必 访问多信道环绕声音信号的任意预先确定的线性组合,为了形成多信道 环绕声音信号所述线性组合的估计,具有原始多信道信号的协方差矩阵 的知识就足够了 。后者由所接收的比特流通过形成部分已知的协方差矩 阵并接着通过使用诸如最大墒原理之类的原理对其进行外推而获得。
此外,估计器903包括另一单元907,其被配置为用G"乘以下混合 信号以获得多信道环绕音频信号的线性组合的估计913。估计器913进 一步包括单元905,其适用于确定表示解相关信号量的解相关信号整形 矩阵Z"。在该实施例中,合成器904被配置为通过计算908、909Z勺", 以及接下来3" 二2"、"+Z"""来合成线性组合,其中d"是用于每个频 带和每个时隙的"解相关信号"以补偿能量损失。并且,该装置还包括 内插和映射单元906。该单元可被配置为在时域中内插矩阵0',将下采 样频带m映射到混合带L并在时域中内插矩阵Z'",并将下采样频带w 映射到混合带t如上述的,外推器902b能够通过选择外推的相关量而 使用最大墒原理,以使得它们在预先确定的约束下最大化协方差矩阵的 行列式。
现在转向示出本发明实施例流程图的图11。该方法包括如下步骤
1000. 接收任意预先确定的线性组合的描迷H。
1001. 接收多信道环绕音频信号的解码下混合信号。
1002. 接收包括多信道音频信号的相关性和信道级别差的空间参数。
1003. 基于所接收的包括多信道音频信号的相关性和信道级别差的 空间参数获得部分已知的空间协方差矩阵。
1004. 外推部分已知的空间协方差矩阵以获得完整的空间协方差矩阵。
1005. 根据保真度准则,至少基于外推的完整空间协方差矩阵、所接 收的解码下混合信号和任意预先确定的线性组合的所述描述,形成多信 道环绕音频信号的所述任意预先确定的线性组合。
1006. 基于多信道环绕音频信号的任意预先确定的线性组合的所述 估计,合成多信道环绕音频信号的所述任意预先确定的线性组合。
步骤1005可进一步包括如下步骤1005a.通过最小化多信道环绕音频信号的所估计的线性组合与多信 道环绕音频信号的任意预先确定的线性组合之间的均方误差,确定矩阵 Q。
1005b.用Q乘以下混合信号以获得多信道环绕音频信号的任意预先 确定的线性组合的估计。
1005c.确定表示解相关信号量的解相关信号整形矩阵Z。 1005d.在时域中内插Q和Z。 1005e.将下采样频带w映射到混合带k。 该方法可以在移动终端的解码器中实现。
本发明并不局限于上述优选实施例。可以使用各种替换、修改和等 效。因此,上面的实施例不应被认为限制本发明的范围,本发明的范围 由所附权利要求来限定。
缩略语
AAC高级音频编码
AMR-WB+扩展的自适应多速率宽带
C中心
CLD信道级别差
HR头相关
HRF头相关滤波器
HRTF头相关转移函数
IC信道间相干性
ICC相关性
ILD信道间级别差
ITD信道间时间差

LFEj氐频元
MPEG移动图片专家组
OTT一到二
PCM脉沖编码调制
PDA个人数字助理
R右R-OTT 逆向一到 SL 环绕左 SR 环绕右
权利要求
1、一种用于合成多信道环绕音频信号的任意预先确定的线性组合的方法,该方法包括如下步骤-接收所述任意预先确定的线性组合的描述H,-接收所述多信道环绕音频信号的解码下混合信号,-接收包括多信道音频信号的相关性和信道级别差的空间参数,其特征在于-基于所接收的包括多信道音频信号的相关性和信道级别差的空间参数获得部分已知的空间协方差,-外推所述部分已知的空间协方差以获得完整的空间协方差,-根据保真度准则,至少基于外推的完整空间协方差、所接收的解码下混合信号和任意预先确定的线性组合的所述描述来形成多信道环绕音频信号的所述任意预先确定的线性组合的估计,-基于多信道环绕音频信号的任意预先确定的线性组合的所述估计合成多信道环绕音频信号的所述任意预先确定的线性组合。
2、 根据权利要求1所述的方法,其特征在于所述估计步骤进一步 包括如下步骤-通过最小化所估计的多信道环绕音频信号的线性组合与多信道环 绕音频信号的任意预先确定的线性组合之间的均方误差确定Q,-将Q乘以下混合信号以获得多信道环绕音频信号的任意预先确定 的线性组合的估计。
3、 根据权利要求2所述的方法,其特征在于所述估计步骤进一步 包括如下步骤-确定表示解相关信号量的解相关信号整形Z。
4、 根据权利要求3所述的方法,其特征在于所述合成步骤包括如 下步骤为每个频带和每个时隙执行Q*w+Z* "解相关信号"以对能量损失 进行补偿。
5、 根据权利要求4所述的方法,其特征在于在下采样时隙/和下采 样频带m上外推部分已知的协方差。
6、 根据权利要求2-3中任意一项所述的方法,其特征在于在下采样 时隙/和下采样频带m上外推部分已知的协方差。
7、 根据权利要求5所述的方法,其特征在于如下步骤 -在时域中内插Q,和-将下采样频带w映射到混合带yt
8、 根据权利要求6所述的方法,其特征在于如下步骤 -在时域中内插Z,和-将下采样频带m映射到混合带t
9、 根据前述任意一项权利要求所述的方法,其特征在于外推步骤 通过使用最大墒原理通过如下步骤来执行-选择外推的相关量以使得它们在预先确定的约束下最大化协方差 的4亍列式。
10、 根据前述任意一项权利要求所述的方法,其特征在于其在移动 终端的解码器中实施。
11、 一种用于合成多信道环绕音频信号的任意预先确定的线性组合 的装置,其特征在于相关器,其用于基于所接收的包括多信道音频信号的相关性和信道 级别差的空间参数获得部分已知的空间协方差,外推器,其用于外推部分已知的空间协方差以获得完整的空间协方差,估计器,其用于根据保真度准则,至少基于外推的完整空间协方差、 所接收的解码下混合信号和表示给出任意预先确定的线性组合的系数 的描述的H来形成多信道环绕音频信号的所述任意预先确定的线性组 合的估计,和合成器,其用于基于多信道环绕音频信号的任意预先确定的线性组 合的所述估计合成多信道环绕音频信号的所述任意预先确定的线性组合。
12、 根据权利要求11所述的装置,其特征在于估计器进一步包括 -通过最小化所估计的多信道环绕音频信号的线性组合与多信道环绕音频信号的任意预先确定的线性组合之间的均方误差来确定Q的装 置,-将Q乘以下混合信号以获得多信道环绕音频信号的任意预先确定 的线性组合的估计的装置。
13、 根据权利要求12所述的装置,其特征在于估计器进一步包括 -用于确定表示解相关信号量的解相关信号整形Z的装置。
14、 根据权利要求13所述的装置,其特征在于合成器进一步包括 这样的装置用于为每个频带和每个时隙执行Q*m+Z* "解相关信号,,以对能量 损失进行补偿。
15、 根据权利要求14所述的装置,其特征在于外推器包括用于将 部分已知的协方差在下采样时隙/和下采样频带m上外推的装置。
16、 根据权利要求12-13中任意一项所述的装置,其特征在于外推 器包括将部分已知的协方差在下采样时隙/和下釆样频带m上外推的装置。
17、 根据权利要求15所述的装置,其特征在于估计器进一步包括 用于在时域中内插Q并将下采样频带m映射到混合带A的装置。
18、 根据权利要求16所述的装置,其特征在于估计器进一步包括 用于在时域中内插Z并将下采样频带m映射到混合带A的装置。
19、 根据权利要求11-18中任意一项所述的装置,其特征在于外推 器包括这样的装置,用于通过使用最大墒原理通过如下步骤来执行外 推-选择外推相关量,使得它们在预先确定的约束下最大化协方差的 行列式。
20、 根据权利要求11-19中任意一项所述的装置,其特征在于其在 移动终端的解码器中执行。
全文摘要
本发明的基本概念是在参数域中外推多信道信号的部分已知的空间协方差矩阵。所外推的协方差矩阵与下编码的下混合信号一起使用以便高效地生成多信道信号的线性组合的估计。
文档编号H04S3/00GK101411214SQ200780011012
公开日2009年4月15日 申请日期2007年3月28日 优先权日2006年3月28日
发明者A·塔莱布 申请人:艾利森电话股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1