音源的参数联合编码的制作方法

文档序号:2830007阅读:305来源:国知局
专利名称:音源的参数联合编码的制作方法
音源的参数联合编码l.介绍在一般的编码问题中,我们有许多(单)音源信号Si(w)(l舀/^M) 和景物描述矢量S("),其中w是时间指数。景物描述矢量包含诸如(虚 拟)音源位置、音源宽度和声音参数例如(虛拟)室参数这些参数。 景物描述可以是非时间变量或者随着时间而改变。将音源信号和景物 描述编码并传输到解码器。所编码的音源信号Si(")连续混合成景物描 述的函数§( ),从而生成作为景物描述矢量的函数的波场合成、多通 道或立体声信号。将解码器输出信号表示成ii(")(0刍/^7V)。注意,景 物描述矢量S(/i)可以不传输,但是可以在解码器确定。在本文中,术 语"立体声信号,,通常是指二通道立体声信号。ISO/IEC MPEG-4意指所描述的编码场景。它定义景物描述并使 用单独的单音频编码器(例如AAC音频编码器)用于每个("天然,,) 音源信号。然而,当带有许多音源的复合景物进行混合时,比特率就 变高了,即比特率随音源的数目按比例增大。高质量地编码一个音源 信号需要约60-90kb/s。以前,我们用表示灵活演奏的双声道线索编码(BCC)的方案致力于解决所描述的编码问题[1I[21的特殊情形。通过仅仅传输给定音源 信号与〗氐比特率辅助信息(side information )相加的和,而获得4氐比 特率。然而,音源信号在解码器不能恢复,并且该方案局限于立体声 和多通道环绕信号的生成。而且,根据振幅和延迟相移,只使用过分 简单化的混合。由此,音源的方向得到控制,但是没有其它听觉空间 图像产生。这种方案的另一个局限性是,其声音质量不高。特别是, 声音质量随着音源信号数目的增大下降得更严重。文件[l(双声道线索编码,参数立体声,MPEG环绕)涉及了 对N个音频通道进行编码、解码具有类似线索的N个音频通道、随
即解码原始音频通道的情况。所传输的辅助信息包括与输入通道间差 异相关的通道间线索参数。立体声和多通道音频信号的信道包含音源信号的混合,并由此在 本质上不同于纯音源信号。使立体声和多通道音频信号进行混合,由 此当在合适的重放系统上进行重放时听者就将感觉到听觉空间图像 ("声基宽"),这正如由录音装备所捕获或者由录影师在混合过程中 所设计的。以前提出了许多对立体声或多通道音频信号的信道进行联 合编码的方案。发明内容本发明的目的是,提供一种在利用最小带宽的同时传输多个音源信号的方法。在大多数公知方法中,重放形式(例如立体声5.1)是 预定的,并且对编码场景有直接影响。解码器那一侧上的音频流应该 仅采用这种预定的重放形式,因此将使用者与预定的重放场景(例如 立体声)结合起来。本发明对N个音源信号进行编码,这些音源信号典型地并非立 体声或多通道信号的通道,而是例如不同语音或乐器信号等的独立信 号。所传输的辅助信息包括与输入的音源信号相关的统计信息。本发明利用与原始音源信号不同的线索对M个音频通道进行解 码。这些不同的线索或者通过对所接收的和信号应用混合器而被隐含 地合成。所述混合器作为所接收的统计音源信息和所接收的(或本地 确定的)音频格式参数和混合参数的函数而被控制。可替换地,这些 不同的线索作为所接收的统计音源信息和所接收的(或本地确定的) 音频格式参数和混合参数的函数被明确地计算。这些计算得到的线索 被用来控制现有技术中用于在已知所接收和信号的情况下合成输出 和通道的解码器(双声道线索编码,参数立体声,MPEG环绕)。所提出的这种联合编码音源信号方案居于首位。这种方案是用于 联合编码音源信号的。音源信号通常是不适合在立体声或多通道音频系统上重放的单音频信号。为简便起见,以下,音源信号经常是指信号。音源信号在重放之前首先需要混合成立体声、多通道或波场合成 音频信号。音源信号可以是单个仪器或讲话者,或者是许多仪器和讲 话者之和。另一种音源信号是用点式传声器在会议期间捕获的单音频 信号。音源信号经常储存在多磁道录音机或硬盘记录系统中。所要求保护的这种联合编码音源信号的方案,是基于仅仅传输音 源信号之和,s(n)- S s洲 (1)或者是音源信号的加权和。任选地,加权和可以用不同子带的不 同加权来完成,并且加权可以按时改变。也可以应用均衡的总和,如 [ll中的第3.3.2章所描述的。下面,当我们称和或和信号时,我们总 是指由(1)产生的或者如所描述的那样产生的信号。除了和信号之 外,还传输辅助信息。上述和与辅助信息一起代表所输出的音频流。 任选地,利用常规单音频编码器来编码和信号。此音频流可储存在文 件(CD、 DVD、硬盘)中或者向接收器重放。辅助信息代表音源信 号的统计特性,这些性质是确定混合器输出信号的感知空间线索的最 重要因素。将要表明,这些特性正在暂时展开频谱包络和自相关功能。 每个音源信号传输约3kb/s的辅助信息。在接收器,音源信号 "的)用前面提到的近似于原始音源信号及和信号的相应 特性的统计特性来恢复。


借助于附图将更好地理解本发明,其中图1示出单独传输每个音源信号以便进一步处理的方案,图2示出作为和信号加辅助信息来传输的许多音源,图3是双声道线索编码(BCC)方案的方框图,图4示出基于几个音源信号产生立体声信号的混合器,图5示出ICTD、 ICLD和ICC与音源信号子带功率之间的依存关系, 图6示出辅助信息生成的过程, 图7示出评算每个音源信号的LPC参数的过程, 图8示出由和信号重建音源信号的过程, 图9示出由和信号产生每个信号的替换型方案, 图IO示出基于和信号生成立体声信号的混合器, 图11示出防止音源级取决于混合参数的幅值相移算法, 图12示出波场合成重放系统的扬声器阵列, 图13示出如何通过处理传输通道的下混合而在接收器恢复音源 信号的估算,图14示出如何通过处理传输通道而在接收器恢复音源信号的估算。II.定义、标记和变量本文采用以下标i己和变量w时间指数;/音^"遞道或音源指数;J延迟指数;M编码器输入音源信号的数目; 7V解码器输出通道的数目; 混合的原始音源信号; 4")混合的解码器输出信号;编码器输入音源信号;也称作伪音源信号的传输音源信号;传输的和信号; 力(")L-通道音频信号;(待重新混合的音频信号); i(k)s,(")的一个子带信号(对于其它信号采用相同的定义);E{"(")} ^(")的短时估算(对于其它信号采用相同的定义); ICLD信道间的级差; ICTD信道间的时间差;7 ICC信道间的相干性;估算的子带的ICLD; t(")估算的子带的ICTD; "w)估算的子带的ICC;相对音源子带功率; a;,&混合器比例因子;混合器延迟; AZVr(")混合器级和时间差; Gi混合器音源增益; III.音源信号的联合编码首先,描述双声道线索编码(BCC)即参数多通道音频编码技术。 然后表明,利用与BCC相同的原理,能够为编码场景设计出用于联 合编码音源信号的算法。A. 双声道线索编码(BCC)用于多通道音频编码的BCC方案[1[2在下图中示出。输入的多 通道音频信号下混合成单个信道。与编码和传输有关所有信道波形的 信息相反,仅仅对下混合信号进行编码(利用常规单音频编码器)和 传输。此外,估算原始通道之间的由感知推动的"音频通道差",并且 还将其传输到解码器。解码器产生输出音频通道,从而该音频通道差 近似于原始音频信号的相应音频通道差。本地求和意味着,扬声器信号信道对的感知相关音频通道差是信 道间的时间差(ICTD)和信道间的级差(ICLD) 。 ICTD和ICLD 可与听觉事件感知的方向有关。其它听觉空间图^^属性诸如表观音源 宽度和听者环境,与听觉间的相干性(IC)有关。对于听者前面或背 后的扬声器对,听觉间的相干性经常与通道间的相干性(ICC)直接 有关,ICC由此被认为是用BCC测定的第三音频通道差。将ICTD、 ICLD和ICC作为时间的函数在子带中进行估算。所用的频镨解析和 时间解析都是由感知激发的。B. 音源的参数联合编码 BCC解码器通过采集单信号并且在正规时间间隔合成每个子带 和通道对的单个特殊ICTD、 ICLD和ICC线索,能够用任何听觉空 间图像产生多通道音频信号。大范围音频材料[参见l!的BCC方案的 良好性能意味着,所感知的听觉空间图像主要是由ICTD、 ICLD和 ICC确定的。因此,与图1中要求"干净"音源信号&(w)作为混合器的 输入相反的是,对于将真实音源信号提供给混合器的情形来说,我们 只需要具有在混合器输出导致类似ICTD、 ICLD和ICC的性质的伪 音源信号Si(")。为了产生§"")有三个目标 如果将Si(w)提供给混合器,混合器输出信道将具有近似相同的 空间线索(ICTD、 ICLD和ICC),就仿佛是s,(w)提供给混合器。*所生成的Si(w)具有尽量少的有关原始音源信号s(w)的信息(因 为该目标是具有低比特辅助信息)。*由传输的和信号s(M)产生Si("),从而引入最少量的信号失真。为了导出所提出的方案,我们考虑立体声混合器(M-2)。比普 通情形进一步简化的是,仅应用幅值和延迟相移进行混合。如果离散 的音源信号在解码器是可用的,那么立体声信号如图4所示进行混合, 即=》A("一。) x2(")= S6,'""-《) (2)i=l ,'=1在这种情形中,景物描述矢量s(")恰恰包含确定混合参数的音源方向,= (a, , a2.....aM, b, , b2,…,b似-Cf, c2,…,Cm, df, d2, ... , cW)r (3)在此处r是矢量的转置。注意,对于混合参数,我们忽略了时间指数,以便于用符号表示。用于控制混合器的更便利的参数是与",.,&、 c,^《有关的时间 差和级差r,和A丄;,";、&、 c;斧《用下式表示a, = j 1U Jb, = 1 。(一)'20。, c, - max {- 7}, 0} 4 - max {7], 0} (4)在此处G,是以dB为单位的音源增益因子。 下面,我们将立体声混合器输出的ICTD、 ICLD和ICC作为输 入音源信号s,(")的函数来计算。所获得的表达式将给出这样的指示 音源信号特性确定了 ICTD、 ICLD和ICC (与混合参数一起)。然 后产生§j(W),从而所识别的音源信号特性近似于原始音源信号的相应 特性。B.l混合器输出的ICTD、 ICLD和ICC在子带中并作为时间的函数来估算线索。下面,假设,音源信号 s,(w)是零平均值并且互相是独立的。将混合器输出(2)的一对子带信号表示成;^(")和^(")。注意,为了筒化符号,对于时域和子带域信号, 我们使用相同的时间指数n。而且,不使用子带指数,且将所描述的 分析/处理单独应用于每个子带。两个混合器输出信号的子带功率是<formula>formula see original document page 10</formula> (5)/□I '。1在此处,?i(w)是音源s,(w)的一个子带信号,EU表示短时表达式,例如E -去(6)在此处,K确定移动平均的长度。注意,子带功率值E"^"M对于每个音源信号是代表作为时间函数的频谱包络。ICLD即A丄(w)是X,,, ("))}为了估算ICTD和ICC,估算归一化交叉相关函数, 维《=卿" (8)按照下式计算ICC即 c(n〗=max o(n,d) (9)为了计算ICTD即r(w),计算延迟轴上的最高峰的位置 T(n)-arg max d>(n,d) (10)现在,问题是如何能够将归 一化交叉相关函数作为混合参数的函
回路中的时间常数选为足够的大,以确保电流Iint为所需的值。校准机制确保负载电容上的电压达到正确的值,而不需要对像素 驱动电压电平向时间值的转换有任何变化。因此,对此可以使用公用 映射,将其实现为单个LUT (或不同IC中相同的LUT,以减小IC 间所需的互连)。如上所述的校准机制的有效性取决于将显示屏上的像素写为黑 色(或其它所选的校准透光级别)的频率。在帧时间中,显示屏上越 多的像素被写为黑色,校准机制就越有效。然而,可能发生在很长一 段时间中没有像素被写为黑色(该实施例)的情形。在该情形中,采 用专用的校准像素,可以采用显示屏边界处的行或列。连续将该像素、 行或列写为校准透光级别。因此,简单地将输入LUT的"透光列y" 作为校准电平,S&H放大器120继续保持启动。同时可以省略输入 单元126的"透光列y"。校准回路的运行保持不变。定义专用校准像素会牺牲LCD显示屏上的一个像素、 一行或一 列。当该像素、行或列被写为黑色,如上述实例,且位于靠显示屏的 边界处,不需要采取特别的措施,因为显示屏边界处的黒线或列不会 影响用户。边界处的电极比边界处倒数第二电极对显示屏的影响更 小,因为它在每一侧具有相邻电极。因此,假像素可以在边界上或靠 近边界处。对与其它校准透光级别有关的其它颜色来说,可以将专用 校准像素隐藏在LCD显示屏的机壳后。图12中所示的基本原理具有多种具体实施例。以下将说明三个 不同的设计方面。当然,可以包括与这些方面所述特征的各种组合。不同方面涉及通常的实施方法(受控电流源的数目、专用校准像 素的可能用法等)、控制回路的具体实施(模拟或数字)和校准算法 的具体考虑(校准电平的数目、单极或双极电流源等)。可以包括用于实现图12的基本操作的许多可能的不同通用方法。(0不采用专用校准像素的方法 对不需要专用校准像素的方法而言,可将图12中所示的包括 S&H、釆样计时、校准控制逻辑电路和控制回路的校准电路增加到每
值在m^7^"m狄im.的范围内。对于混合参数^ =《,_ "的音源 /,所需的音源信号子带特性^…,^的相应范围是<formula>formula see original document page 12</formula> (14)由于ICTD、 ICLD和ICC线索取决于范围(14)内的音源信号 子带特性E化、""和^("'e),因此主要是这些音源信号子带特性需要 作为辅助信息来传输。我们假设,任何种类的混合器(例如有效的混 合器、波场合成混合器/巻积器等等)都具有相似特性,由此该辅助信 息在用所述混合器之外的其它混合器时也是有用的。为了减少辅助信 息量,在解码器中储存一组预定的自相关函数,并仅仅传输用于选择 与音源信号特性最密切匹配的指数。第一版本算法假设,在范围(14) 内巾'仇e)-l,由此仅利用子带功率值(6)作为辅助信息计算(12)。 假设A仏,e) = i计算图5所示的数据。为了减少辅助信息量,相对动态范围的音源信息受到限制。在每 一刻,为每个子带选择最强音源的功率。我们发现,将所有其它音源 的相应子带功率的下限降低到比最强子带功率低24dB的值处,是充 分的。由此将量化器的动态范围限制到24dB。假设音源信号是独立的,解码器能够计算所有音源子带功率的和E"2(")}。由此,原则上足以仅将M-1音源的子带功率值传输给解码 器,而剩余音源的子带功率就地进行计算。给出这个概念,就能够通 过相对于第一音源功率传输指数为2^ '、 M的音源子带功率,而稍 稍减少辅助信息,<formula>formula see original document page 12</formula>注意,如前所述的动态范围限制是在(15)之前完成的。作为一 种替换形式,与相对于一个音源子带功率的归一化(15)相反的是, 子带功率值相对于和信号子带功率进行归一化。对于44.1kHz的取样频率,我们用20个子带并且大约每12亳秒就为每个子带传输 ^'WM" " /w)。 20个子带对应于听觉系统的半个频谱分辨率(一个子带等于两个"临界带宽,,那么宽)。非正式的实验显示,通过使用多于
20个的子带例如40个子带,仅仅得到轻微的改善。根据听觉系统的 时间和频率分辨率,来选择子带的数目和子带带宽。低质量地实施该 方案需要至少三个子带(低频、中间频率、高频)。按照一个具体实施例,子带具有不同的带宽,低频子带具有比高 频子带更小的带宽。用类似于[2中所述的ICLD量化器的方案来量化相对功率值,结果导致大约3(M _1) kb"比特率的产生。图6表示出辅助信息生成 过程(对应于图2中的"辅助信息生成"框)。通过分析每个音源信号的活动并且如果音源信号是活动的就仅 传输有关该音源信号的辅助信息,这样能够额外减小辅助信息率。与将子带功率值E("(""作为统计信息来传输相反的是,可传输 表示音源信号频谙包络的其它信息。例如,可传输线性预测编码 (LPC)参数,或者是相应的其它参数例如网格滤波器参数或线频语 对(LSP)参数。每个音源信号的LPC参数的估算过程如图7所示。B.3计算§"")图8表示出用来(在已知和信号(1)的情况下)重新创建音源 信号的过程。此过程是图2中的部分"合成,,框。通过用g/w)度量和信 号的每个子带以及通过施加具有脉冲响应A,(^的去相关滤波器,而^f吏 各个音源信号得到恢复,<formula>formula see original document page 13</formula>(16)在此处,*是线性巻积操作器,E"2(""通过以下公式用辅助信 息来计算<formula>formula see original document page 13</formula> (17)可使用互补梳形滤波器、全通滤波器、延迟或具有随机脉冲响应的滤波器作为去相关滤波器Zm^)。去相关过程的目的是减少信号之间的相关性,同时不会更改感知各个波形的方式。不同的去相关技术导 致不同的失真现象。互补梳形滤波器导致相关性。所有描述的技术都
按时传播瞬时能量,从而导致诸如"前回波,,之类的失真现象。已知失 真现象的可能性,应该尽可能地少应用去相关技术。下一部分描述需要的去相关处理比独立信号Si(")的简单生成更少的技术和策略。生成信号Sj(w)的一种替换方案如图9所示。通过计算线性预测误 差^"人而首先将s(w)的频镨削平。然后,已知在编码器估算的LPC 滤波器,,将相应的全极点滤波器作为以下公式的反z-变换来计算所得到的全极点滤波器乂代表音源信号的频镨包络。如果传输 LPC参数之外的其它辅助信息,那么LPC参数首先需要作为辅助信 息的函数来计算。正如在另一方案中那样,利用去相关滤波器/i,.使音 源信号独立。IV.考虑实际限制的实施方式在此节的第一部分,利用BCC合成方案作为立体声或多通道混 合器,给出一个实施例。这尤其有趣,因为这样的BCC型合成方案 是即将实行的ISO/IEC MPEG标准的一部分,被称作"空间音频编 码"。在此情形下没有明确计算音源信号§;("),从而导致计算的复杂 性减小。而且,此方案提供了使声音质量更好的可能性,因为相比于 明确计算音源信号Si(w)的情形,其需要的去相关性明显更小。此节的第二部分探讨的是提出的方案使用任何混合器并且根本 不采用去相关处理时的问题。这样的方案相比于釆用去相关处理的方 案,复杂性更低,但是具有其它缺陷(将在后面讨论)。理想的是,采用去相关处理,从而认为所生成的Si(w)是独立的。 然而,由于去相关处理考虑到失真现象是有问题的,因此又尽可能地 少用去相关处理。此节的第三部分讨论在得到似乎所生成的l(")是独 立的的好处的同时,如何减少有问题的去相关处理的量。A.没有明确计算&(")的实施方式将混合直接应用于所传输的和信号(1),而没有明确计算Si(w)。 BCC合成方案用于此目的。下面,我们考虑立体声情形,但是所有描 述的原理都可用于多通道音频信号的生成。
用于处理和信号(1)的立体声BCC合成方案(或者"参数立体 声"方案)在图10中示出。期望BCC合成方案产生作为如图4所示 的混合器输出信号一样被同样感知的信号。当BCC合成方案输出通 道之间的ICTD、 ICLD和ICC在混合器输出(4 )信号通道之间出现 相应线索时相似的情况下,同样如此。使用与以前所述更通用的方案相同的辅助信息,使解码器计算音源的短时子带功率值E "2(")}。已知""(""',图10中的增益因子^ 和&是用以下公式计算的 )"^^1井J^^1 (18)从而输出子带功率和ICLD (7)与图4中的混合器相同。按照 (10)计算ICTD 7Y"),从而确定图10中的延迟1>7和"2:D"n) = max{ - ,, o} D2(n) = max{柳,0} (19)按照(9)计算ICCc(H),以确定图10中的去相关处理。去相关 处理(ICC合成)在[1中有所描述。将去相关处理应用于混合器输出 通道相比于其用于产生独立§;( )的优点是參通常,音源信号的数目Af大于音频输出通道的数目7V。由此, 与使M个音源信号去相关相反的是,需要生成的独立音频通道的数目 在使7V个输出通道去相关时更小。*经常,7V个音频输出通道是相关的(ICC>0),并且比生成 独立的A/或7V个通道所需更少的去相关处理。由于更少地采用去相关处理,因此期望更好的声音质量。当混合器参数受到限制从而a'2 +6'2 =1即G' = 0 dB时,期望最佳 的声音质量。在这种情形下,所传输的和信号(1)中的每个音源之 功率与混合解码器输出信号中的相同音源之功率一样。解码器输出信 号(图10)是相同的,就仿佛混合器输出信号(图4)在这种情形下 由BCC编码器/解码器来编码和解码一样。由此,也期望相似的质量。解码器不仅能够确定每个音源出现的方向,而且每个音源的增益 还能够改变。通过选择^+6'2>1 (G')0dB)而使增益增大,通过选择 。W<1 (G,OdB)而使增益减小。B.不采用去相关处理前述技术的局限性是,混合是用BCC合成方案完成的。人们设 想执行的不仅有ICTD、 ICLD和ICC合成,而且还有BCC合成之内 的额外效果处理。然而,期望能够使用现存的混合器和效果处理器。这也包括波场 合成混合器(经常称作"巻积器,,)。由于使用现存混合器和效果处理 器,因此Si(")可明确计算并使用,就如同它们是原始音源信号一样。当不采用去相关处理(16)中的^州-5(n)时,也能够获得好的 声音质量。这是由于去相关处理而引入的失真现象与由于使音源信号 Si(w)相关而导致的失真现象之间的折衷。当不采用非去相关处理时, 所得到的听觉空间图像可遭受不稳定性[1。但是当采用反射器或其它 效果时混合器本身可引入一些去相关性,并由此对去相关处理的需要 更少。如果无需去相关处理而产生Si("),那么音源级取决于它们相对于 其它音源进行混合的方向。通过用补偿此级依存性的算法代替现存混 合器中的幅值相移算法,能够抵消超过响度对混合参数依存的副作 用。级补偿幅值算法在图11中示出,其有助于补充音源级对混合参 数的依存性。已知常规幅值相移算法(例如图4)的增益因子fl,和6,-, 用以下公式计算图11中的重量5和6:# F:,("" 一jig^: (20)注意,计算^和5,以便输出子带功率相同,就仿佛Si(w)在每个子带中都是独立的一样。c.减少去相关处理的量如前所述,独立Si(")的生成是有问题的。在此处描述应用更少去相关处理的策略,同时有效得到相似的效果,就仿佛Si(W)是独立的一样。
诸如考虑如图12所示的波场合成系统。表示出s"s2.......&(3/=6)所需的虚拟音源位置。无需产生M个充分独立信号就能计算Si(")(16) 的策略是1. 产生与彼此接近的音源相对应的音源指数组。例如,在图8中, 这些是{1}、 {2, 5}、 {3}和{4, 6}。2. 在每一时刻于每个子带中选择最强音源的音源指数, /max= max五^(w)) (21)不将去相关处理应用于含有"ax即W〃) = S(〃)那一组的音源指数部分。3. 为了每个其它组在这一组内选择相同的/|/ 」。 所述算法至少修正最强的信号分量。此外,所用的不同A,(^)的数目也减少了。这是有益的,因为去相关更容易,需要产生的独立通 道更少。当立体声或多通道音频信号混合时所述技术也可应用。V. 就质量和比特率而言的可量测性所提出的方案仅传输所有音源信号之和,该信号能够用常规单音 频编码器进行编码。当不需要单后向兼容性并且容量可用于传输/储存 多于一个的音频波形时,所提出的方案与多于一个的传输通道一起标 度。通过用不同的给定音源信号亚組产生几个和信号来实施这一点, 即对每个音源信号亚组单独应用所提出的编码方案。当传输的音频通道的数目增大时期望声音质量能够改善,因为通过去相关从每个传输 通道所产生的独立通道更少(相比于一个传输通道的情形)。VI. 对现存立体声环绕音频格式的后向兼容性 考虑以下的音频传送场景。消费者得到最大质量的立体声或多通道环绕信号(例如通过音频CD、 DVD或在线音乐储存等)。目的是 任选地将灵活性传递给消费者,以产生所获得的音频内容的定制混 合,而无需向标准的立体声/环绕放音质量妥协。通过将一比特流的辅助信息传递给消费者(例如作为在在线音乐 储存中任意的买入选择)来实施这一点,该辅助信息允许将Sj(")作为
给定立体声或多通道音频信号的函数来计算。将消费者的混合算法然后应用于Si(w)。下面,描述计算给定立体声或多通道音频信号的 的两种可能性。A. 估算接收器处的音源信号之和利用具有立体声或多通道音频传输的所提出的编码方案的最简 明的方式,在图13中示出,其中W")Os " /_)是给定立体声或多通道音频信号的£个通道。通过将传输通道下混合到单个音频通道中来 估算音源的和信号。下混合是通过计算通道W")(1^ is "的和来完成 的,或者可应用更多的先进技术。为了获得最佳性能,建议在E",("h估算(6)之前采用这一级 的音源信号,以便音源信号之间的功率比近似于给定立体声或多通道 信号中所包含的音源的功率比。在这种情形下,传输通道的下混合是 音源(1)之和的相当好的估算(或者其测量版本)。在计算辅助信息之前,可利用自动过程来调整编码器音源信号输 入s,W的能级。此过程按时适当估算给定立体声或多通道信号中所包 含的每个音源信号的能级。在辅助信息计算之前,将每个音源信息的 能级然后按时进行适当调整,以使其等于立体声或多通道音频信号中 所包含的音源的能级。B. 单独利用传输通道图14表示出具有立体声或多通道环绕信号传输的所提出方案的 一种不同实施方式。在此处,传输通道没有进行下混合,但是单独用 于生成Si(w)。最通用的是,Si(w)的此频带信号用以下公式计算= W")K")之w,(") ,(")) (22)其中,W/(")是确定传输通道的子带的具体线性结合的权重。选 择这种线性结合,以使Si(")已经尽可能多地去相关。由此,没有或者 仅有少量的去相关处理需要得到应用,如上所讨论的,这是有益的。VII.应用前面我们已经提到所提出的编码方案的许多应用。此处,我们总
结这些应用并提出一些更多的应用。A. 用于混合的音频编码在将音源信号混合到立体声、多通道或波场合成音频信号中之 前,无论何时需要对其进行储存或传输,都可应用所提出的方案。在 已有技术中,单音频编码器可单独应用于每个音源信号,从而导致用 音源数目度量的比特率的产生。所提出的编码方案能够用单个单音频 编码器加上相当低的比特率辅助信息来编码大量的音频信号。如在第 V节中所述,通过利用多于一个的传输通道,能够改善声音质量,如 果如此做的存储器/容量是有用的话。B. 与元数据的重新混合如在第VI节中所述,现存的立体声和多通道音频信号能够借助 附加辅助信息(即"元数据,,)重新混合。与仅仅出售优化立体声和多 通道混合音频内容相反的是,元数据能够出售,以允许用户重新混合 他的立体声和多通道音乐。这诸如也可用于减弱卡拉OK歌的声乐作 品,或者用于减弱弹奏音乐的具体乐器。即使储存器不是问题,所述的方案对于音乐的定制混合是非常有 吸引力的。也就是说,因为很可能音乐业从来就不愿意放弃多磁道录 音。具有太多的滥用危险。所提出的方案可实现重新混合容量,而无 需放弃多磁道录音。而且,立体声或多通道信号一旦重新混合,就会出现一定程度的 质量下降,从而使重新混合的非法传播吸引力更小。C. 立体声/多通道-波场合成版本下面描述第VI节中所述方案的另 一个应用。通过加入辅助信息, 伴随电影画面的立体声和多通道(例如5.1环绕)音频可扩展到用于 波场合成重现。例如,杜比AC-3 (DVD上的音频)可扩展到用于波 场合成系统的5.1后向兼容编码音频,即常规后继播放器的DVD后向 5.1环绕声音以及支持辅助信息处理的新一代播放器的波场合成声音。VII.主观评估我们执行在第IV-A和IV-B节提出的算法的实时解码器。使用 基于FFT的STFT滤波器组。使用1024点FFT和768的STFT窗口 尺寸(具有零字符)。将频谱系数聚集在一起,以便每一组代表具有 两倍带宽于等同矩形带宽(ERB)的信号。非正式的倾听揭示,当选 择更高频率的分辨率时,音频质量并没有显著提高。更低频率的分辨 率是有益的,因为它使得待传输的参数更少。对于每个音源,幅值/延迟相移和增益可单独进行调整。算法用 于对具有12 — 14磁道的几个多磁道音频记录进行编码。解码器允许利用基于矢量的幅值相移(VBAP)混合器进行5.1 环绕混合。可调整每个音源信号的方向和增益。软件允许在混合编码 音源信号与混合原始离散音源信号之间进行快速切换。偶然倾听通常揭示,如果对于每个音源使用0dB的增益C ,.,那 么混合编码音源信号或混合原始音源信号之间就没有或具有很小的 差别。音源增益改变得越多,失真现象出现得就越多。音源的轻微放 大或衰减(例如高达士6dB)发出的声音仍然还是好听的。临界场景是 当所有音源都混合到一侧并且仅有一个音源混合到相反的另 一侧时。 在这种情形下,音频质量可降低,这取决于具体混合以及音源信号。IX.结论以上提出了音源信号(例如多磁道记录通道)的联合编码的编码 方案。目的不是高质量地编码音源信号波形,在这种情形下联合编码 给出极小的编码增益,因为音源通常是独立的。目的是,当编码音源 信号混合时获得高质量的音频信号。通过考虑音源信号的统计特性、 混合方案特性和空间听力,显示出,通过对音源信号进行联合编码可使编码增益明显提高。编码增益的改进是由于只有一个音频波形被传输的结果。此外也传输代表音源信号统计特性的辅助信息,所述特性是确定 最终混合信号的空间感知的相关因素。辅助信息率是每个音源信号约3 kbs。任何混合器都可用于所编 码的音源信号,例如立体声、多通道或波场合成混合器。简明的是,通过传输多于一个的音频通道来度量所提出的用于更
高比特率和更高质量的方案。而且,所提出的一个变型方案是,允许 给定的立体声或多通道音频信号重新混合(甚至改变音频格式,例如 将立体声改为多通道或波形合成)。所提出的方案的应用是多方面的。例如,在多于一个的"天然音频对象"(音源信号)需要传输时,MPEG-4可与所提出的方案扩展 到用于减小比特率。而且,所提出的方案为波场合成系统提供压缩形 式的内容。如上所述,现存立体声或多通道信号可与辅助信息互补, 以允许用户将信号重新混合成他喜欢的形式。参考文献[1C.Faller, Parametric Coding of Spatial Audio, Ph. D. thesis, Swiss Federal Institute of Technology Lausanne(EPFL), 2004, Ph. D. Thesis No.3062.[2C.Faller and F. Baumgarte, "Binaural Cue Coding-Part II: Schemes and applications,,,IEEE Trans. On Speech and Audio Proc" vol. 11, no.6, Nov. 2003.
权利要求
1.一种合成多个音频通道的方法,包括以下步骤从音频流中检索出代表音源信号之和的至少一个和信号,从音频流中检索出有关一个或多个音源信号的音频流统计信息,从音频流中接收或者在本地确定描述输出音频格式的参数和混合参数,从所述和信号以及所接收的统计信息中计算伪音源信号,使用被施加了所接收音频格式参数和混合参数的混合器,从所述伪音源信号合成多个音频通道。
2. —种合成多个音频通道的方法,包括以下步骤 从音频流中检索出代表音源信号之和的至少一个和信号, 从音频流中检索出有关一个或多个音源信号的音频流统计信息, 从音频流中接收或者在本地确定描述输出音频格式的参数和混合参数,从所接收的统计信息、所述音频格式参数和所述混合参数计算输 出信号线索,基于所计算的线索,从所述和信号合成多个音频通道。
3. 如权利要求1或2所述的方法,其特征在于,所述统计信息 代表音源信号的频谱包络。
4. 如权利要求1或2所述的方法,其特征在于,所述统计信息 代表作为多个音源信号的频率和时间之函数的相对功率。
5. 如权利要求1所述的方法,其特征在于,所述伪音源信号是 在滤波器组的子带域中计算得到的。
6. 如权利要求2所述的方法,其特征在于,所述音频通道是在 滤波器组的子带域中合成的。
7. 如权利要求5或6所述的方法,其特征在于,所述子带数及 带宽是根据人耳听觉系统的频谱和时间分辨率来确定的。
8. 如权利要求5-7之一所述的方法,其特征在于,子带数包括 在3和40之间。
9. 如权利要求5-8之一所述的方法,其特征在于,子带具有不 同的带宽,其中低频子带的带宽小于高频子带的带宽。
10. 如权利要求5-9之一所述的方法,其中使用基于短时傅立叶 变换(STFT)的滤波器组,并且组合频傳系数以使每组频镨系数形 成一个子带。
11. 如权利要求1或2所述的方法,其特征在于,所述统计信息 还包括自相关函数。
12. 如权利要求3所述的方法,其特征在于,将所述频镨包络表 示成线性预测编码(LPC)参数。
13. 如权利要求2所述的方法,其特征在于,所述和信号被分为 多个子带,所述统计信息被用于针对每一伪音源信号确定每个子带的 功率。
14. 如权利要求2所述的方法,其特征在于,计算所述和信号的 线性预测误差,随后进行全极点滤波,以便为每一伪音源信号施用通 过所述统计信息确定的频镨包络。
15. 如权利要求13或14所述的方法,其特征在于,利用诸如全 通滤波之类的去相关技术使输出的伪音源信号独立。
16. 如权利要求2所述的方法,其特征在于,所计算的线索是作 为不同频率和时间常数之函数的级差、时间差或相干性。
17. 如权利要求l所述的方法,其特征在于,所述混合器是补偿 音源级对混合参数的依存性的幅值相移算法。
18. 如权利要求l所述的方法,其特征在于,所述混合器是波场 合成混合器。
19. 如权利要求l所述的方法,其特征在于,所述混合器是双声 道混合器。
20. 如权利要求l所述的方法,其特征在于,所述混合器是3D 音频混合器。
全文摘要
涉及以下的编码场景为了在将音源信号解码之后混合波场合成、多通道环绕或立体声信号而需要传输或储存的许多音源信号。与对音源信号单独进行编码相比,所提出的技术在将音源信号联合编码时提供了显著的编码增益,甚至在音源信号之间没有呈现冗余的时候。通过考虑音源信号的统计特性、混合技术特性和空间听力,这是可能的。传输音源信号之和,加上音源信号的统计特性,这些统计特性最能确定最终混合的通道的感知重要空间线索。音源信号在接收器得到恢复,以便它们的统计特色近似于原始音源信号的相应特性。主观评估表明利用所提出的方案获得了较高的声音质量。
文档编号G10L19/008GK101133441SQ200680004728
公开日2008年2月27日 申请日期2006年2月13日 优先权日2005年2月14日
发明者克里斯多夫·法勒 申请人:弗劳恩霍夫应用研究促进协会
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1