用于空间音频参数编码的紧凑辅助信息的制作方法

文档序号:2829264阅读:447来源:国知局
专利名称:用于空间音频参数编码的紧凑辅助信息的制作方法
技术领域
本发明涉及音频信号的编码以及根据编码后的音频数据对听觉场景的后续合成。

背景技术
当人听到由特定音源所生成的音频信号(即,声音)时,典型地,音频信号在两个不同的时间以两个不同的音频(例如,分贝)等级到达人的左右耳,其中,不同的时间和等级分别是音频信号传播到达左右耳所通过的路径之差的函数。人的大脑对时间和等级差异进行解译,以给予人这样的感知所接收到的音频信号正由位于相对于该人的特定位置(例如,方向和距离)的音源生成。听觉场景是人同时听到由位于相对于该人的一个或多个不同位置的一个或多个不同音源所生成的音频信号的净效应。
由大脑进行的这种处理可以用于合成听觉场景,其中,有目的地修改来自一个或多个不同音源的音频信号,以生成左右音频信号,这些左右音频信号给出了不同音源位于相对于收听者的不同位置处的感知。
图1示出了传统双声道信号合成器100的高级结构框图,该双声道信号合成器将单音源信号(例如,单声道信号)转换为双声道信号的左右音频信号,其中,将双声道信号定义为在收听者的耳膜处接收到的两个信号。除了音源信号之外,合成器100还接收到与相对于收听者的音源期望位置相对应的空间提示组。在典型的实施方式中,该空间提示组包括通道间等级差(LCLD)值(该值标识了分别在左右耳接收到的左右音频信号之间的音频等级差)、以及通道间时间差(ICTD)值(该值标识了分别在左右耳接收到的左右音频信号之间的到达时间差)。此外或作为可选项,一些合成技术包括对从信号源至耳膜的声音的方向相关传递函数的建模,也称为头相关传递函数(HRTF)。见例如J.Blauert,The Psychophysics of Human SoundLocalization,MIT Press,1983,将其示教一并引入作为参考。
使用图1的双声道信号合成器,可以对由单个音源生成的单声道音频信号进行处理,从而,在通过头戴式耳机进行收听时,通过应用适合的空间提示(例如,ICLD,ICTD,和/或HRTF)组,在空间上放置音源,以针对每只耳朵生成音频信号。见例如D.R.Begault,3-DSound for Virtual Reality and Multimedia,Academic Press,Cambridge,Mass.,1994。
图1的双声道信号合成器100生成类型最简单的听觉场景相对于收听者来定位的单个音源的那些听觉场景。可以利用实质上使用双声道信号合成器的多个实例实现的听觉场景合成器,生成位于相对于收听者的不同位置处的两个或多个音源的更加复杂的听觉场景,其中,每个双声道信号合成器实例生成与不同音源相对应的双声道信号。由于每个不同的音源具有相对于收听者不同的位置,所以使用不同的空间提示组来生成每个不同音源的双声道音频信号。


发明内容
根据一个实施例,本发明是用于对音频通道进行编码的方法、设备和机器可读介质。针对两个或多个音频通道生成一个或多个提示编码,其中,至少一个提示编码是通过将两个或多个估计提示编码组合而生成的组合提示编码,以及根据音频通道中的两个或多个的组来估计每个估计提示编码。
根据另一实施例,本发明是用于对C个输入音频通道进行编码以生成E个传输音频通道的设备。所述设备包括编码估计器和下混器。编码估计器针对两个或多个音频通道生成一个或多个提示编码,其中,至少一个提示编码是通过将两个或多个估计提示编码组合而生成的组合提示编码,以及根据音频通道中的两个或多个的组来估计每个估计提示编码。下混器将C个输入通道进行下混以生成E个传输通道(C>E≥1),其中,所述设备适于传输与提示编码有关的信息,以使解码器能够在E个传输通道的解码期间执行合成处理。
根据另一实施例,本发明是通过对音频通道进行编码而生成的编码音频比特流,其中,一个或多个提示编码是针对两个或多个音频通道而生成的,至少一个提示编码是通过将两个或多个估计提示编码组合而生成的组合提示编码,以及根据音频通道中的两个或多个的组来估计每个估计提示编码。将所述一个或多个提示编码和与两个或多个音频通道相对应的E个传输音频通道(E≥1)编码为编码音频比特流。
根据一个实施例,本发明是包括一个或多个提示编码和E个传输音频通道的编码音频比特流。一个或多个提示编码是针对两个或多个音频通道而生成的,其中,至少一个提示编码是通过将两个或多个估计提示编码组合而生成的组合提示编码,以及根据音频通道中的两个或多个的组来估计每个估计提示编码。E个传输音频通道与所述两个或多个音频通道相对应。
根据另一实施例,本发明是用于对E个传输音频通道进行解码以生成C个回放音频通道的方法、设备和机器可读介质,其中,C>E≥1。接收到与E个传输通道相对应的提示编码,其中,至少一个提示编码是通过将两个或多个估计提示编码组合而生成的组合提示编码,以及根据于E个传输通道相对应的两个或多个音频通道的组来估计每个估计提示编码。对E个传输通道中的一个或多个进行上混以生成一个或多个上混通道。通过将提示编码应用于所述一个或多个上混通道来合成C个回放通道中的一个或多个,其中,从组合提示编码中推导出两个或多个导出提示编码,以及应用每个导出提示编码以生成两个或多个合成通道。



本发明的其它方面、特征和优点将从以下详细描述、所附权利要求以及附图中变得更加明显,在附图中,类似的参考数字表示类似或相同的元件。
图1示出了传统双声道信号合成器的高级结构框图; 图2示出了普通双声道提示编码(BCC)音频处理系统的结构框图; 图3示出了可用于图2的下混器的下混器结构框图; 图4示出了可用于图2的解码器的BCC合成器的结构框图; 图5示出了根据本发明一个实施例的图2 BCC估计器的结构框图; 图6示出了针对五通道音频的ICTD和ICLD数据的生成; 图7示出了针对五通道音频的ICC数据的生成; 图8示出了可用于BCC解码器以生成赋予了单个传输和信号s(n)加空间提示的立体声或多通道音频信号的图4的BCC合成器实施方式的结构框图; 图9示出了ICTD和ICLD如何在子带内作为频率函数而变化; 图10示出了可用于针对5至2 BCC方案的图2解码器的BCC合成器的结构框图;以及 图11示出了与本发明一个实施例相关的、对如图2所示的BCC系统进行处理的流程图。

具体实施例方式 在双声道提示编码中,编码器对C个输入音频通道进行编码,以生成E个传输音频通道,其中,C>E≥1。具体地,在频域中提供C个输入通道中的两个或多个,以及在频域的两个或多个输入通道中,为一个或多个不同频带的每个生成一个或多个提示编码。此外,对C个输入通道进行下混,以生成E个传输通道。在一些下混实施方式中,E个传输通道中的至少一个是基于C个输入通道中的两个或多个的,以及E个传输通道中的至少一个是仅基于C个输入通道中的一个的。
在一个实施例中,BCC编码器具有两个或多个滤波器组、编码估计器和下混器。两个或多个滤波器组将C个输入通道中的两个或多个从时域转换至频域。在所述两个或多个转换后的输入通道中,编码估计器针对一个或多个不同频带的每个,生成一个或多个提示编码。下混器对C个输入通道进行下混以生成E个传输通道,其中C>E≥1。
在BCC解码中,对E个传输音频通道进行解码,以生成C个回放音频通道。具体地,对于一个或多个不同频带的每个,在频域中对E个传输通道中的一个或多个进行上混,以在频域中生成C个回放通道中的两个或多个,其中C>E≥1。将一个或多个提示编码应用于频域中所述两个或多个回放通道中的所述一个或多个不同频带中的每个,以生成两个或多个修改后的通道,以及将所述两个或多个修改后的通道从频域转换至时域。在一些上混实施方式中,C个回放通道中的至少一个是基于E个传输通道中的至少一个和至少一个提示编码的,以及C个回放通道中的至少一个是仅基于E个传输通道中的一个的,与任何提示编码无关。
在一个实施例中,BCC解码器具有上混器、合成器和一个或多个逆滤波器组。对于一个或多个不同频带中的每个,上混器在频域中对E个传输通道的一个或多个进行上混,以在频域中生成C个回放通道中的两个或多个,其中C>E≥1。合成器将一个或多个提示编码应用于频域中所述两个或多个回放通道中的所述一个或多个不同频带中的每个,以生成两个或多个修改后的通道。所述一个或多个逆滤波器组将所述两个或多个修改后的通道从频域转换至时域。
依据特定实施方式,给定的回放通道不是基于两个或多个传输通道的组合,而是基于单个传输通道的。例如,当仅有一个传输通道时,C个回放通道中的每个基于一个传输通道。在这些情况下,上混与相应传输通道的复制相对应。这样,对于仅有一个传输通道的应用,可以使用为每个回放通道复制传输通道的复制器来实现上混器。
BCC编码器和/或解码器可以结合到多个系统或应用中,包括例如数字视频记录器/播放器、数字音频记录器/播放器、计算机、卫星发射机/接收机、有线电视发射机/接收机、地面广播发射机/接收机、家庭娱乐系统、以及影院系统。
普通BCC处理 图2是包括编码器202和解码器204的普通双声道提示编码(BCC)音频处理系统的结构框图。编码器202包括下混器206和BCC估计器208。
下混器206将C个输入音频通道xi(n)转换为E个传输音频通道yi(n),其中C>E≥1。在本说明中,使用变量n表示的信号是时域信号,而使用变量k表示的信号是频域信号。依据特定实施方式,可以在时域或频域中实现下混。BCC估计器208从C个输入音频通道中生成BCC编码,并将这些BCC编码作为相对于E个传输音频通道的带内或带外辅助信息进行传输。典型的BCC编码包括作为频率和时间的函数、在特定输入通道对之间估计的通道间时间差(ICTD)、通道间等级差(ICLD)和通道内相关(ICC)数据中的一种或多种。特定实施方式将决定在哪些特定的输入通道对之间对BCC编码进行估计。
ICC数据与双声道信号的相干性相对应,该相干性与音源的感知宽度相关。音源越宽,所产生的双声道信号的左右通道之间的相干性越低。例如,典型地,与在礼堂舞台上散开的管弦乐队相对应的双声道信号的相干性低于与单个小提琴独奏相对应的双声道信号的相干性。一般而言,具有较低相干性的音频信号通常感知为在听觉空间中散布得更宽。这样,ICC数据典型地与表观源宽度和收听者包围程度相关。见J.Blauert,The Psychophysics of Human Sound Localization,MIT Press,1983。
依据特定应用,可以将E个传输音频通道和相应的BCC编码直接传输至解码器204,或存储于一些适合类型的存储设备中以用于解码器204的后续存取。依据情况,术语“传输”可以指至解码器的直接传输或用于向解码器的后续提供的存储。在任何一种情况下,解码器204接收传输音频通道和辅助信息,并使用BCC编码来执行上混和BCC合成,以将E个传输音频通道转换为多于E(典型但不必需地,C)个回放音频通道

用于音频回放。依据特定实施方式,可以在时域或频域中执行上混。
除了图2中示出的BCC处理之外,普通BCC音频处理系统可以包括附加编码和解码级,以分别在编码器处对音频信号进行进一步压缩并接着在解码器处对音频信号进行解压缩。这些音频编解码可以基于传统的音频压缩/解压缩技术,如基于脉冲编码调制(PCM)、差分PCM(DPCM)或自适应DPCM(ADPCM)的那些技术。
当下混器206生成单个和信号(即,E=1)时,BCC编码能够以仅略比表示单声道音频信号所需的比特率高的比特率来表示多通道音频信号。这是由于通道对之间的估计ICTD、ICLD和ICC数据包含大约比音频波形少两个幅度量级的信息。
不但BCC编码的低比特率、而且BCC编码的后向兼容性方面也是令人感兴趣。单个传输和信号与原始立体声或多通道信号的单声道下混相对应。对于不支持立体声或多通道声音再现的接收机,收听传输和信号是在低档(low-profile)单声道再现设备上呈现音频素材的有效方法。因此,BCC编码还可以用于增强包括单声道音频素材传递至多通道音频的现有服务。例如,如果可以将BCC辅助信息嵌入到现有的传输通道中,则可以针对立体声或多通道回放来增强现有的单声道音频无线电广播系统。在将多通道音频下混为与立体声音频相对应的两个和信号时,存在类似功能。
BCC以特定时间和频率分辨率来处理音频信号。所使用的频率分辨率大体上是由人类听觉系统的频率分辨率激发的。心理声学提出,空间感知最大可能是基于声音输入信号的临界频带表示的。通过使用可逆滤波器组(例如,基于快速傅立叶变换(FFT)或正交镜像滤波器(QMF))并且其子带带宽等于人类听觉系统的临界带宽或与该临界带宽成比例,来考虑该频率分辨率。
普通下混 在优选实施方式中,传输和信号包含输入音频信号的所有信号分量。目标是完全保持每个信号分量。音频输入通道的简单求和通常导致了信号分量的放大或衰减。换言之,“简单”和中的信号分量的功率通常大于或小于每个通道相应信号分量的功率之和。可以使用对和信号进行均衡的下混技术,以使和信号中信号分量的功率与所有输入通道中的相应功率大致相同。
图3示出了根据BCC系统200的特定实施方式、可用于图2下混器206的下混器300的结构框图。下混器300具有针对每个输入通道xi(n)的滤波器组(FB)302、下混块304、可选的缩放/时延块306、以及针对每个编码通道yi(n)的逆FB(IFB)308。
每个滤波器组302将时域中相应数字输入通道xi(n)的每一帧(例如,20ms)转换为频域中的输入系数

组。下混块304将C个相应输入系数的每个子带下混为E个下混频域系数的相应子带。以下的等式(1)表示输入系数

的第k子带的下混,以生成下混系数

的第k子带 其中,DCE是实数值的C×E(C-by-E)下混矩阵。
可选的缩放/时延块306包括乘法器310组,每个乘法器310将相应的下混系数

乘以缩放因子ei(k),以生成相应的缩放系数

缩放操作的激发等效于针对利用每个通道的任意加权因子进行下混而广义化的均衡。如果输入通道是独立的,则由以下的等式(2)给出每个子带中下混信号的功率
其中,

是通过对C×E下混矩阵DCE中的每个矩阵元素进行平方而推导出的,以及

是输入通道i的子带k的功率。
如果子带不是独立的,则由于在信号分量同相或异相时分别发生信号放大或抵消,下混信号的功率值

将大于或小于使用等式(2)所计算的功率值。为了防止这一问题,在乘法器310的缩放操作之前的子带中应用等式(1)的下混操作。可以使用以下的等式(3)推导出缩放因子ei(k)(1≤i≤E) 其中,

是由等式(2)计算出的子带功率,以及

是相应的下混子带信号

的功率。
除了提供可选缩放之外、或者作为提供可选缩放的替代,缩放/时延块306可以可选地向信号施加时延。
每个逆滤波器组308将频域中相应缩放系数

组转换为相应的数字传输通道yi(n)帧。
尽管图3示出了为后续下混而转换为频域的所有C个输入通道,在可选实施方式中,C个输入通道中的一个或多个(但小于C-1)可以绕过图3中示出的处理中的一些或所有,并作为等同数量的未修改音频通道进行传输。依据特定实施方式,这些未修改的音频通道可以或可以不被图2的BCC估计器208用于生成传输BCC编码。
在生成单个和信号y(n)的下混器300的实施方式中,根据以下的等式(4),E=1,并且将每个输入通道c的每个子带的信号

相加,然后乘以因子e(k) 通过以下的等式(5)给出因子e(k) 其中,

是时间索引k处

功率的短时估计,以及



功率的短时估计。将均衡后的子带变换回到时域,从而产生传输至BCC解码器的和信号y(n)。
普通BCC合成 图4示出了根据BCC系统200的特定实施方式、可用于图2解码器204的BCC合成器400的结构框图。BCC合成器400具有针对每个传输通道yi(n)的滤波器组402、上混器404、时延406、乘法器408、相关块410、以及针对每个回放通道

的逆滤波器组412。
每个滤波器组402将时域中相应数字传输通道yi(n)的每一帧转换为频域中的输入系数

组。上混块404将E个相应传输通道系数的每个子带上混为C个上混频域系数的相应子带。等式(4)表示传输通道系数

的第k子带的上混,以生成如下的上混系数

的第k子带 其中,UEC是实数值的E×C(E-by-C)上混矩阵。在频域中执行上混使得能够在每个不同的子带中单独地应用上混。
每个时延406基于ICTD数据的相应BCC编码来应用时延值di(k),以确保所期望的ICTD值出现在特定的回放通道对之间。每个乘法器408基于ICLD数据的相应BCC编码来应用缩放因子ai(k),以确保所期望的ICLD值出现在特定的回放通道对之间。相关块410基于ICC数据的相应BCC编码来执行去相关操作A,以确保所期望的ICC值出现在特定的回放通道对之间。可以在提交于2002年5月24日的美国专利申请序列号No.10/155,437(Baumgarte 2-10)中找到对相关块410操作的进一步描述。
由于ICLD合成仅包括子带信号的缩放,所以ICLD值的合成没有ICTD和ICC值的合成那么麻烦。由于ICLD提示是最普遍使用的方向提示,所以ICLD值与原始音频信号的ICLD值近似通常是更加重要的。这样,可以在所有通道对之间对ICLD数据进行估计。优选地,选择针对每个子带的缩放因子ai(k)(1≤i≤C),从而每个回放通道的子带功率与原始输入音频通道的相应功率近似。
一个目标可以是应用相对较少的信号修改,以合成ICTD和ICC值。这样,BCC数据可以不包括所有通道对的ICTD和ICC值。在这种情况下,BCC合成器400将只在特定通道对之间合成ICTD和ICC值。
每个逆滤波器组412将频域中相应的合成系数

组转换为相应的数字回放通道

帧。
尽管图4示出了转换到频域以用于后续上混和BCC处理的所有E个传输通道,但是在可选实施方式中,E个传输通道中的一个或多个(但不是全部)可以绕过图4中示出的处理的一些或全部。例如,传输通道的一个或多个可以是未受到任何上混的未修改通道。除了作为C个回放通道中的一个或多个之外,这些未修改的通道可以但并不必须地用作应用BCC处理以合成其它回放通道中的一个或多个的参考通道。在任何一种情况下,这种未修改的通道可以经历时延,以补偿在用于生成其余回放通道的上混和/或BCC处理所花费的处理时间。
应当注意,尽管图4示出了根据E个传输通道来合成的C个回放通道(其中,C也是原始输入通道的个数),但是BCC合成并不限于回放通道的个数。通常,回放通道的个数可以是包括大于或小于C、以及可能甚至在回放通道个数等于或小于传输通道个数的情况下的任何通道个数。
音频通道之间的“感知相关差” 假设单个和信号,BCC合成立体声或多通道音频信号,以使ICTD、ICLD和ICC与原始音频信号的相应提示近似。以下,对与听觉空间图像属性相关的ICTD、ICLD和ICC的角色进行讨论。
与空间听力有关的知识意味着对于一个听觉事件知识,ICTD和ICLD与所感知的方向相关。当考虑一个源的双声道房间脉冲响应(BRIR)时,听觉事件的宽度和收听者环境与针对BRIR的早晚部分而估计的ICC数据之间存在关系。然而,一般信号(并不只是BRIR)的ICC和这些属性之间的关系并不是直接明显的。
立体声和多通道音频信号通常包含并发活跃的源信号的复杂混合(complex mix),其中,所述源信号受到由封闭空间中的记录产生的、或为人为创建空间印象而由记录工程人员添加的反射信号分量的叠加。不同的源信号和它们的反射占据了时频平面中的不同区域。这通过作为时间和频率的函数而变化的ICTD、ICLD和ICC来反映。在这种情况下,瞬时ICTD、ICLD和ICC与听觉事件方向和空间印象之间的关系并不明显。BCC的特定实施例的策略是对这些提示进行盲合成,以使这些提示接近于原始音频信号的相应提示。
使用具有带宽等于等效矩形宽度(ERB)两倍的子带的滤波器组。非正式的收听揭示了在选择较高的频率分辨率时,BCC的音频质量并不会显著地改善。由于较低的频率分辨率使需要传输至解码器的ICTD、ICLD和ICC值较少、从而比特率较低,所以可能期望较低的频率分辨率。
对于时间分辨率,典型地,以规则的时间间隔来考虑ICTD、ICLD和ICC。在以大约每4至16ms考虑ICTD、ICLD和ICC时,获得较高性能。应当注意,除非以非常短的时间间隔考虑提示,否则不直接考虑优先效应(precedence effect)。采用经典的声音激励超前滞后对,如果超前和滞后落入仅合成一组提示的时间间隔内,则不考虑超前的局部化优势。无论如何,BCC实现了在平均大约87(即,“优良的”音频质量)的平均MUSHRA值和对于特定音频信号高达近100的平均MUSHRA值中所反映的音频质量。
在参考信号和合成信号之间通常达到的感知上的小差异意味着通过以规则的时间间隔来合成ICTD、ICLD和ICC,隐含地考虑了与较宽范围的听觉空间图像属性相关的提示。以下,针对ICTD、ICLD和ICC可以如何与一定范围的听觉空间图像属性相关,给出了一些讨论。
空间提示的估计 以下,描述了如何估计ICTD、ICLD和ICC。这些(量化和编码后的)空间提示传输的比特率可以只是几个kb/s,因而利用BCC,可以以接近于单个音频通道所需的比特率来传输立体声和多通道音频信号。
图5示出了根据本发明一个实施例的图2的BCC估计器208的结构框图。BCC估计器208包括可以与图3的滤波器组302相同的滤波器组(FB)502、以及针对滤波器组502产生的每个不同频率子带而产生ICTD、ICLD和ICC空间提示的估计块504。
立体声信号的ICTD、ICLD和ICC估计 以下措施用于两个(例如,立体声)音频通道的相应子带信号



的ICTD、ICLD和ICC ·ICTD[采样] 由以下的等式(8)给出归一化互相关函数的短时估计 其中, d1=max{-d,0}(9) d2=max{d,0}, 以及



的均值的短时估计。
·ICLD[dB] ·ICC 应当注意,考虑归一化互相关的绝对值,并且c12(k)的范围是

多通道音频信号的ICTD、ICLD和ICC的估计 当存在多于两个的输入通道时,典型地,定义参考通道(例如,通道号1)和另一通道之间的ICTD和ICLD就足够了,如对于图6所示的C=5通道的情况,其中,τ1c(k)和ΔL1c(k)分别表示参考通道1与通道c之间的ICTD和ICLD。
与ICTD和ICLD相反,典型地,ICC具有更大的自由度。在所有可能输入通道对之间,所定义的ICC可以具有不同值。对于C个通道,存在C(C-1)/2个可能的通道对;例如,对于5个通道,存在如图7(a)所示的10个通道对。然而,这种方案要求对于每个时间索引处的每个子带,对C(C-1)/2个ICC值进行估计和传输,这导致了较高计算复杂度和较高比特率。
可选地,对于每个子带,ICTD和ICLD确定子带中相应信号分量的听觉事件的呈现方向。然后,每子带单个ICC参数可以用来描述所有音频通道之间的整体相干性。通过仅对每个时间索引处、每个子带上具有最高能量的两个通道之间的ICC提示进行估计和传输,可以获得良好的结果。这在图7(b)中示出,其中,对于时刻k-1和k,通道对(3,4)和(1,2)分别是最强的。可以使用启发式的规则来确定其它通道对之间的ICC。
空间提示合成 图8示出了可用于BCC解码器以生成赋予了单个传输和信号s(n)加空间提示的立体声或多通道音频信号的图4的BCC合成器400的实施方式的结构框图。将和信号s(n)分解为子带,其中,

表示一个这样的子带。为了生成每个输出通道的相应子带,将时延dc、缩放因子ac和滤波器hc应用于和信号的相应子带(为了注释的简单,在时延、缩放因子和滤波器中忽略时间索引k)。通过施加时延来合成ICTD,通过缩放来合成ICLD,以及通过应用去相关滤波器来合成ICC。将图8中示出的处理独立地应用于每个子带。
ICTD合成 根据以下的等式(12),依据ICTDτ1c(k)来确定时延dc dc=τ1l(k)+d1,for 2≤c≤C. 计算参考通道的时延d1,从而将时延dc的最大幅度最小化。对子带信号的修改越少,出现伪像(artifact)的危险越小。如果子带采样速率没有为ICTD合成提供足够高的时间分辨率,则可以通过使用适合的全通滤波器来更精确地施加时延。
ICLD合成 为了使输出子带信号具有所期望的通道c与参考通道1之间的ICLD ΔL12(k),增益因子ac应当满足以下等式(13) 此外,优选地,对输出子带进行归一化,以使所有输出通道的功率之和等于输入和信号的功率。由于在和信号中保留每个子带中的原始信号总功率,所以该归一化使每个输出通道的绝对子带功率与原始编码器输入音频信号的相应功率近似。给定了这些限制,由以下等式(14)给出缩放因子ac 其它(c≠1). ICC合成 在特定实施例中,ICC合成的目的是在不影响ICTD和ICLD的情况下,减小应用了时延和缩放之后的子带之间的相关性。这可以通过设计图8中的滤波器hc来实现,以使ICTD和ICLD作为频率的函数而有效地变化,从而每个子带(听觉临界频带)中的平均变化是零。
图9示出了ICTD和ICLD如何在子带内作为频率的函数而变化。ICTD和ICLD变化的幅度确定去相关的程度,并且作为ICC的函数而受到控制。应当注意,ICTD平滑地变化(如图9(a)所示),而ICLD随机变化(如图9(b)所示)。可以将ICLD改变未像ICTD一样平滑,但是这将会导致所产生的音频信号的更多着色(coloration)。
在C.Faller,″Parametric multi-channel audio codingSynthesis ofcoherence cues,″IEEE Trans.on Speech and Audio Proc.,2003中更加详细地描述了用于合成ICC(尤其是适于多通道ICC合成)的另一方法,将其示教一并引入作为参考。作为时间和频率的函数,将特定量的人工后期混响添加给每个输出通道,以实现所期望的ICC。此外,可以应用频谱修改,从而所产生的信号的频谱包络接近于原始音频信号的频谱包络。
在E.Schuijers,W.Oomen,B.den Brinker,和J.Breebaart,″Advances in parametric coding for high-quality audio,″in Preprint 114thCony.Aud.Eng.Soc.,2003年3月,以及J.Engdegard,H.Purnhagen,J.Roden,和L.Liljeryd,″Synthetic ambience in parametric stereo coding,″in Preprint117th Conv.Aud.Eng.Soc.,2004年5月中,已经提出了用于立体声信号(或音频通道对)的其它相关的和不相关的ICC合成技术,将其示教一并引入作为参考。
C至E BCC 如先前所述,可以利用多于一个传输通道来实现BCC。已经描述了BCC的变化,其中并不将C个音频通道表示为单个(传输)通道,而是作为E个通道,这种变化称为C至E BCC。针对C至E BCC,有(至少)两个动机。
·利用一个传输通道的BCC提供了用于升级现有单声道系统的后向兼容路径,以用于立体声或多通道音频回放。升级系统通过现有的单声道基础结构来传输BCC下混和信号,同时附加地传输BCC辅助信息。C至E BCC可应用于C通道音频的E通道后向兼容编码。
·C至E BCC根据传输通道个数减少的不同程度而引入可缩放性。可期望的是,传输的音频通道越多,音频质量越好。在提交于2004年1月20日的美国申请序列号No.10/762,100(Faller 13-1)中描述了C至E BCC的信号处理细节,例如,如何定义ICTD、ICLD和ICC提示。
紧凑辅助信息 如上所述,在典型的BCC系统中,除了(例如,单声道或立体声)下混信号之外,编码器将在不同音频通道对或组之间估计的LCTD、ICLD和/或ICC编码传输至解码器,以在BCC解码之后获得多通道音频信号。因此,期望将辅助信息量最小化,却不降低解码后声音的主观质量。
由于ICLD和ICTD值典型与一个参考通道相关,所以C-1个LCLD和ICTD值足以描述C个编码通道的特性。另一方面,在任意通道对之间定义ICC。这样,对于C个编码通道,存在C(C-1)/2个可能的ICC对。实际上,为了限制所传输的ICC信息量,仅传输特定对的ICC信息。
图10描述了针对5至2 BCC方案可以用于图2的解码器204的BCC合成器1000的结构框图。如图10所示,BCC合成器1000接收两个输入信号y1(n)和y2(n)、以及BCC辅助信息(未示出),并生成五个合成输出信号

,...,

,其中,第一、第二、第三、第四和第五输出信号分别与图6和7中所示的左、右、中、左后和右后环绕信号相对应。
分别在元件1004、1006和1008处应用从所传输的ICTD、ICLD和ICC辅助信息中推导出来时延、缩放和去相关参数,以从上混元件1 002生成的五个“上混”信

中合成五个输出信号

。如图10所示,仅在左和左后通道(即,通道1和4)之间和右和右后通道(即,通道2和5)之间执行去相关。这样,只需要将不多于两组的ICC数据传输至BCC合成器1000,其中,这两组表现了每个子带的两个通道对之间的ICC值的特征。尽管ICC辅助信息量已经有了显著的降低,但是期望更进一步的降低。
根据本发明的一个实施例,在图10的5至2方案的情况下,对于每个子带,相应的BCC编码器将针对“左/左后”通道对而估计的ICC值与针对“右/右后”通道对而估计的ICC值组合,以生成单个组合ICC值,该值有效地指示了全局量的前/后去相关,并且作为ICC辅助信息传输至BCC解码器。非正式实验指示该简化实质上未造成音频质量的任何损失,却以因子2减少了所传输的ICC信息。
一般而言,本发明的实施例是针对BCC方案的,其中,如以下的等式(15)所指示,将在不同通道对或通道组之间估计的两个或多个不同的ICC组合,以用于传输 ICC传输=f(ICC1,ICC2,...,ICCN), (15) 其中,f是组合N个不同ICC的函数。
为了获得表示空间图像的组合ICC测量,有利地,使用考虑了单独通道的重要性的函数f的加权平均,其中,通道重要性可以基于通道功率,如由以下的等式(16)所表示
其中,pi是子带中相应通道对的功率。在这种情况下,根据较强通道对估计的ICC的加权多于根据较弱通道对估计的ICC的加权。通道对的组合功率pi可以计算为每个子带的单独通道功率之和。
在解码器中,给定ICC传输,可以推导出每个通道对的ICC。在一个可能的实施方式中,解码器简单地使用ICC传输作为每个通道对的导出ICC编码。例如,在图10的5至2方案的情况下,可以直接将ICC传输用于左/左后通道对和右/右后通道对的去相关。
在另一可能的实施方式中,如果解码器根据合成信号来估计通道对功率,则可以估计等式(16)的加权,以及解码器过程可以可选地使用该信息和其他感知和信号统计量自变量,来生成推导出两个单独的、在感知上优化的ICC编码的规则。
尽管已经在特定的5至2方案的情况下描述了ICC值的组合,但是本发明可以在任何C至E BCC方案的情况下实现,包括E=1的那些BCC方案。
图11示出了与本发明一个实施例相关的、图2中所示的BCC系统的处理流程图。图11仅示出了与ICC相关处理相关联的那些步骤。
具体地,BCC编码器对两个或多个通道组之间的ICC值进行估计(步骤1102),将那些所估计的ICC值的两个或多个组合以生成一个或多个组合ICC值(步骤1104),并将组合ICC值(可能与一个或多个“未组合的”ICC值一起)作为BCC辅助信息传输至BCC解码器(步骤1106)。BCC解码器从所接收的组合ICC值中推导出两个或多个ICC值(步骤1108),并使用导出ICC值(以及可能的一个或多个所接收的未组合的ICC值)对通道组进行去相关(步骤1110)。
其它可选实施例 已经在图10的5至2方案的情况下,描述了本发明。在该示例中,BCC编码器进行如下处理(1)针对包括四个不同通道(即,左/左后和右/右后)的两个通道对,估计两个ICC编码;以及(2)对两个ICC编码进行平均,以生成组合ICC编码,将该组合ICC编码传输至BCC解码器。BCC解码器进行如下处理(1)从所传输的组合ICC编码中推导出两个ICC编码(注意,可以将组合ICC编码简单地用于导出ICC编码);以及(2)将两个导出ICC编码中的每个应用于不同的合成通道对,以生成四个去相关通道(即,合成左、左后、右和右后通道)。
还可以在其它情况下实现本发明,例如,BCC编码器可以根据三个输入通道A、B和C来估计两个ICC编码,其中,一个估计ICC编码与通道A和B相对应,以及另一估计ICC编码与通道A和C相对应。在这种情况下,可以说编码器根据两个输入通道对来估计两个ICC编码,其中,两个输入通道对共享公共通道(即,输入通道A)。然后,编码器可以基于两个估计ICC编码来生成并传输单个组合ICC编码。接着,BCC解码器可以从所传输的组合ICC编码中推导出两个ICC编码,并将这两个导出ICC编码用于合成三个去相关通道(即,合成通道A、B和C)。在这种情况下,可以说将每个导出ICC编码用于生成去相关通道对,其中,两个去相关通道对共享公共通道(即,合成通道A)。
尽管已经在采用组合ICC编码的BCC编码方案的情况下描述了本发明,但是可以不采用组合ICC编码或除了采用组合ICC编码之外,而采用通过将不同于ICC编码的两个或多个BCC提示编码(如,ICTD编码和/或ICLD编码)组合而生成的组合BCC提示编码的情况下,实现本发明。
尽管已经在包括ICTD、ICLD和ICC编码的BCC编码方案的情况下描述了本发明,但是还可以在仅包括这三种类型编码中的一个或两个(例如,ICLD和ICC,而没有ICTD)、和/或一个或多个附加类型的编码的其它BCC编码方案的情况下实现本发明。
在图10中表示的5至2 BCC方案中,典型地,通过将特定一级(one-stage)下混方案应用于图6和7中示出的五个通道,生成两个传输通道y1(n)和y2(n),其中,将通道y1生成为通道1、3和4的加权和,以及将通道y2生成为通道2、3和5的加权和,例如,在每个加权和中,通道3的权重因子是用于其他两个通道中的每个权重因子的一半。在该一级BCC方案中,估计的BCC提示编码与原始的五个输入通道的不同对相对应。例如,一组估计ICC编码基于通道1和4,以及另一组估计ICC编码基于通道2和5。
在可选多级BCC方案中,对通道依次地进行下混,BCC提示编码潜在地与下混序列中每一级的不同通道对相对应。例如,对于图6和7中的五个通道,在BCC编码器处,可以对原始的左和左后通道进行下混,以形成第一下混左通道,并且与这两个原始通道相对应地生成第一组BCC提示编码。类似地,可以对原始的右和右后通道进行下混,以形成第一下混右通道,并且与这两个原始通道相对应地生成第二组BCC提示编码。在第二下混级中,可以将第一下混左通道与原始中心通道下混,以形成第二下混左通道,并且与第一下混左通道和原始中心通道相对应地生成第三组BCC提示编码。类似地,可以将第一下混右通道与原始中心通道下混,以形成第二下混右通道,并且与第一下混右通道和原始中心通道相对应地生成第四组BCC提示编码。然后,可以将作为辅助信息的所有四组BCC提示编码与第二下混左和右通道一起传输。以类似的方式,相应的BCC解码器可以在两级顺序上混方案的不同级上依次应用这四组BCC提示编码,以根据两个传输“立体声”通道来合成五个输出通道。
尽管已经在与一个或多个音频通道(即,E个传输通道)和其它BCC编码一起传输组合ICC提示编码的BCC编码方案的情况下描述了本发明,但是在可选实施例中,可以将组合ICC提示编码单独或与其它BCC编码一起传输至已经具有传输通道并可能具有其它BCC编码的地点(例如,解码器或存储设备)。
尽管已经在BCC编码方案的情况下描述了本发明,但是还可以在将音频信号去相关的其它音频处理系统、或需要对信号进行去相关的其它音频处理的情况下实现本发明。
尽管已经在编码器在时域接收输入音频信号、并在时域生成传输音频信号、以及解码器在时域接收传输音频信号、并在时域生成回放音频信号的实施方式的情况下描述了本发明,但是本发明并不限于此。例如,在其它实施方式中,可以在频域中表示输入、传输和回放音频信号中的任何一个或多个。
BCC编码器和/或解码器可以结合或并入多个不同的应用或系统,包括用于电视或电子音乐分发、电影院、广播、流和/或接收的系统。这些包括经由例如地面、卫星、电缆、因特网、内联网或物理介质(例如,压缩盘、数字通用盘、半导体芯片、硬盘驱动、存储卡等)的编码/解码传输的系统。BCC编码器和/解码器还可以用于游戏和游戏系统中,包括例如针对可以对于多个机器、平台或媒体公开的娱乐(动作、角色扮演、策略、冒险、模拟、竞赛、体育、游戏机、纸牌和棋盘游戏)和/或教育而用于与用户交互的交互式软件产品。此外,BCC编码器和/或解码器可以结合到音频记录器/播放器或CD-ROM/DVD系统中。BCC编码器和/或解码器还可以结合到结合了数字解码(例如,播放器、解码器)的PC软件应用程序、以及结合了数字编码功能的软件应用程序中。
还可以将本发明实现为基于电路的过程,包括作为单个集成电路(如ASIC或FPGA)、多芯片模块、单卡或多卡电路封装的可能实现方式。正如对于本领域技术人员显而易见的,可以将电路元件的各种功能实现为软件程序中的处理步骤。可以在例如数字信号处理器、微控制器或通用计算机中采用这种软件。
本发明可以采用实践这些方法的方法和装置的形式来具体实现。本发明还可以采用在有形介质(如软盘、CD-ROM、硬盘驱动或任何其它机器可读存储介质)中具体化的程序代码的形式来实现,其中,当由机器(如,计算机)载入并执行程序代码时,该机器成为实践本发明的设备。本发明还可以采用例如存储于存储介质中、由机器载入和/或执行、或是在一些传输介质或载体上传输(如在电线或电缆上、通过光纤或经由电磁辐射)的程序代码的形式来具体实现,其中,在由机器(如,计算机)载入并执行程序代码时,该机器成为实践本发明的设备。当在通用处理器上实现时,程序代码段与处理器相组合,以提供与特定逻辑电路操作类似的专有设备。
将会理解,在不偏离权利要求中所表达的本发明范围的情况下,本领域技术人员可以对为解释本发明的实质而描述并示出的部分进行细节、素材和设置方面的各种改变。
尽管以具有相应标记的特定顺序陈述了方法权利要求中的步骤(如果有),但是,除非权利要求陈述隐含实现这些步骤中的一些或全部的特定顺序,否则这些步骤并不必是要限制为按照该特定顺序而实现。
权利要求
1.一种用于对音频通道进行编码的方法,所述方法包括
针对两个或多个音频通道,生成一个或多个提示编码,其中,至少一个提示编码是通过将两个或多个估计提示编码组合而生成的组合提示编码;以及
根据音频通道中的两个或多个的组来估计每个估计提示编码;以及
传输所述一个或多个提示编码。
2.如权利要求1所述的方法,还包括传输与所述两个或多个音频通道相对应的E个传输音频通道,其中E≥1。
3.如权利要求2所述的方法,其中
所述两个或多个音频通道包括C个输入音频通道,其中C>E;以及
对C个输入通道进行下混以生成E个传输通道。
4.如权利要求1所述的方法,其中,传输所述一个或多个提示编码,使解码器能够基于所述组合提示编码,在E个传输通道的解码期间执行合成处理,其中,所述E个传输音频通道与所述两个或多个音频通道相对应,其中E≥1。
5.如权利要求1所述的方法,其中,所述一个或多个提示编码包括组合通道间相关(ICC)编码、组合通道间等级差(ICLD)编码和组合通道间时间差(ICTD)编码中的一个或多个。
6.如权利要求1所述的方法,其中,将所述组合提示编码生成为所述两个或多个估计提示编码的平均。
7.如权利要求6所述的方法,其中,将所述组合提示编码生成为所述两个或多个估计提示编码的加权平均。
8.如权利要求7所述的方法,其中
用于生成组合提示编码的每个估计提示编码与用于生成加权平均的权重因子相关联;以及
每个估计提示编码的权重因子基于与所述估计提示编码相对应的通道组中的功率。
9.如权利要求1所述的方法,其中,所述组合提示编码是组合ICC编码。
10.如权利要求9所述的方法,其中
所述两个或多个音频通道包括左通道、左后通道、右通道和右后通道;
根据所述左通道和左后通道生成第一估计ICC编码;
根据所述右通道和右后通道生成第二估计ICC编码;以及
通过将所述第一和第二估计ICC编码组合,生成组合ICC编码。
11.一种用于对音频通道进行解码的设备,所述设备包括
用于针对两个或多个音频通道生成一个或多个提示编码的装置,其中
至少一个提示编码是通过将两个或多个估计提示编码组合而生成的组合提示编码;以及
根据音频通道中的两个或多个的组来估计每个估计提示编码;以及
用于传输所述一个或多个提示编码的装置。
12.一种设备,用于对C个输入音频通道进行编码以生成E个传输音频通道,所述设备包括
编码估计器,适于针对两个或多个音频通道生成一个或多个提示编码,其中,
至少一个提示编码是通过将两个或多个估计提示编码组合而生成的组合提示编码,以及
根据音频通道中的两个或多个的组来估计每个估计提示编码;以及
下混器,适于对C个输入通道进行下混,以生成E个传输通道,其中C>E≥1,所述设备适于传输与提示编码有关的信息,以使解码器能够在E个传输通道的解码期间执行合成处理。
13.如权利要求12所述的设备,其中
所述设备是从包括如下对象的组中选择的系统数字视频记录器、数字音频记录器、计算机、卫星发射机、有线电视发射机、地面广播发射机、家庭娱乐系统和影院系统;以及
所述系统包括编码估计器和下混器。
14.一种机器可读介质,其上编码有程序代码,其中,当由机器执行所述程序代码时,所述机器实现用于对音频通道进行编码的方法,所述方法包括
针对两个或多个音频通道生成一个或多个提示编码,其中,至少一个提示编码是通过将两个或多个估计提示编码组合而生成的组合提示编码;以及
根据音频通道中的两个或多个的组来估计每个估计提示编码;以及
传输所述一个或多个提示编码。
15.一种由编码音频通道生成的编码音频比特流,其中
一个或多个提示编码是针对两个或多个音频通道而生成,其中,至少一个提示编码是通过将两个或多个估计提示编码组合而生成的组合提示编码;以及
根据音频通道中的两个或多个的组来估计每个估计提示编码;以及
将所述一个或多个提示编码和与所述两个或多个音频通道相对应的E个传输音频通道编码为编码音频比特流,其中E≥1。
16.一种包括一个或多个提示编码和E个传输音频通道的编码音频比特流,其中
所述一个或多个提示编码是针对两个或多个音频通道而生成,其中,
至少一个提示编码是通过将两个或多个估计提示编码组合而生成的组合提示编码;以及
根据音频通道中的两个或多个的组来估计每个估计提示编码;以及
所述E个传输音频通道与所述两个或多个音频通道相对应。
17.一种方法,用于对E个传输音频通道进行解码以生成C个回放音频通道,其中C>E≥1,所述方法包括
接收与所述E个传输通道相对应的提示编码,其中
至少一个提示编码是通过将两个或多个估计提示编码组合而生成的组合提示编码;以及
根据与所述E个传输通道相对应的两个或多个音频通道的组来估计每个估计提示编码;
对所述E个传输通道中的一个或多个进行上混,以生成一个或多个上混通道;以及
通过将所述提示编码应用于所述一个或多个上混通道来合成C个回放通道中的一个或多个,其中
根据所述组合提示编码推导出两个或多个导出提示编码;以及
应用每个导出提示编码,以生成两个或多个合成通道。
18.如权利要求17所述的方法,其中,所述提示编码包括组合ICC编码、组合ICLD编码和组合ICTD编码中的一个或多个。
19.如权利要求17所述的方法,其中,所述组合提示编码是所述两个或多个估计提示编码的平均。
20.如权利要求19所述的方法,其中,所述组合提示编码是所述两个或多个估计提示编码的加权平均。
21.如权利要求20所述的方法,其中
用于生成组合提示编码的每个估计提示编码与用于生成加权平均的权重因子相关联;以及
每个估计提示编码的权重因子基于与所述估计提示编码相对应的通道组中的功率。
22.如权利要求17所述的方法,其中,所述两个或多个导出提示编码通过以下推导得出
推导出与估计提示编码相关联的两个或多个通道的每一组的权重因子;以及
作为组合提示编码和两个或多个导出权重因子的函数,推导出所述两个或多个导出提示编码。
23.如权利要求22所述的方法,其中,每个导出权重因子由以下推导得出
估计与估计提示编码相对应的通道组中的功率;以及
基于与不同估计提示编码相对应的不同通道组的估计功率,推导出权重因子。
24.如权利要求17所述的方法,其中,所述组合提示编码是组合ICC编码。
25.如权利要求24所述的方法,其中
所述两个或多个音频通道包括左通道、左后通道、右通道和右后通道;
根据所述左通道和左后通道生成第一估计ICC编码;
根据所述右通道和右后通道生成第二估计ICC编码;以及
通过将所述第一和第二估计ICC编码组合来生成组合ICC编码。
26.如权利要求25所述的方法,其中
所述组合ICC编码用于对合成的左和左后通道进行去相关;以及
所述组合ICC编码用于对合成的右和右后通道进行去相关。
27.一种设备,用于对E个传输音频通道进行解码以生成C个回放音频通道,其中C>E≥1,所述设备包括
用于接收与所述E个传输通道相对应的提示编码的装置,其中
至少一个提示编码是通过将两个或多个估计提示编码组合而生成的组合提示编码;以及
根据与所述E个传输通道相对应的两个或多个音频通道的组来估计每个估计提示编码;
用于对所述E个传输通道中的一个或多个进行上混以生成一个或多个上混通道的装置;以及
用于通过将提示编码应用于所述一个或多个上混通道来合成C个回放通道中的一个或多个的装置,其中
从所述组合提示编码中推导出两个或多个导出提示编码;以及
应用每个导出提示编码,以生成两个或多个合成通道。
28.一种设备,用于对E个传输音频通道进行解码以生成C个回放音频通道,其中C>E≥1,所述设备包括
接收机,适于接收与所述E个传输通道相对应的提示编码,其中
至少一个提示编码是通过将两个或多个估计提示编码组合而生成的组合提示编码;以及
根据与所述E个传输通道相对应的两个或多个音频通道的组来估计每个估计提示编码;
上混器,适于对所述E个传输通道中的一个或多个进行上混以生成一个或多个上混通道;以及
合成器,适于通过将提示编码应用于所述一个或多个上混通道来合成C个回放通道中的一个或多个,其中
从所述组合提示编码中推导出两个或多个导出提示编码;以及
应用每个导出提示编码,以生成两个或多个合成通道。
29.如权利要求28所述的设备,其中
所述设备是从包括如下对象的组中选择的系统数字视频记录器、数字音频记录器、计算机、卫星发射机、有线电视发射机、地面广播发射机、家庭娱乐系统和影院系统;以及
所述系统包括接收机、上混器和合成器。
30.一种机器可读介质,其上编码有程序代码,其中,当由机器执行所述程序代码时,所述机器实现用于对E个传输音频通道进行解码以生成C个回放音频通道的方法,其中C>E≥1,所述方法包括
接收与所述E个传输通道相对应的提示编码,其中
至少一个提示编码是通过将两个或多个估计提示编码组合而生成的组合提示编码;以及
根据与所述E个传输通道相对应的两个或多个音频通道的组来估计每个估计提示编码;
对所述E个传输通道中的一个或多个进行上混以生成一个或多个上混通道;以及
通过将提示编码应用于所述一个或多个上混通道来合成C个回放通道中的一个或多个,其中
从所述组合提示编码中推导出两个或多个导出提示编码;以及
应用每个导出提示编码,以生成两个或多个合成通道。
全文摘要
在音频编码器处,针对一个或多个音频通道生成提示编码,其中,通过将两个或多个估计提示编码组合而生成组合提示编码(例如,组合通道间相关(ICC)编码),根据音频通道中的两个或多个的组来估计每个估计提示编码。在音频解码器处,对E个传输音频通道进行解码,以生成C个回放音频通道。所接收的提示编码包括组合提示编码(例如,组合ICC编码)。对一个或多个传输通道进行上混,以生成一个或多个上混通道。通过将提示编码应用于一个或多个上混通道来合成一个或多个回放通道,其中,从组合提示编码中推导出两个或多个导出提示编码;以及应用每个导出提示编码,以生成两个或多个合成通道。
文档编号G10L19/00GK101160618SQ200580046256
公开日2008年4月9日 申请日期2005年9月30日 优先权日2005年1月10日
发明者于尔根·赫勒, 克里斯托夫·法勒 申请人:弗劳恩霍夫应用研究促进协会, 杰尔系统有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1