双声道音频信号的解码的制作方法

文档序号:2830406阅读:511来源:国知局

专利名称::双声道音频信号的解码的制作方法
技术领域
:本发明涉及空间音频编码,并且更具体地涉及对双声道音频信号的解码。
背景技术
:在空间音频编码中,对双信道/多信道音频信号进行处理,以使得在互不相同的不同音频信道上重现音频信号,从而为收听者提供围绕音频源的空间效果的印象。该空间效果可以通过将音频直接记录成用于多信道或者双声道重现的适当格式来生成,或者可以以任意双信道/多信道音频信号来模拟产生,其称为空间化。通常已知的是,对于头戴受话器,重现模拟空间化可以通过HRTF(头部相关传输函数)滤波来执行,该HRTF滤波产生用于收听者左耳和右耳的双声道信号。利用根据对应于声源信号的来源方向的HRTF导出的滤波器对这些声源信号进行滤波。HRTF是从自由场中的声源至人耳或者模拟头部测量的传输函数除以从声源至放置在头中部用于代替头部的麦克风的传输函数。可以将模拟的房间效果(例如早期反射和/或晚期混响)添加到空间化的信号中,以改善声源的形象化和自然性。随着音频收听和交互设备多样性的增加,兼容性变得更加重要。在空间音频格式中,通过上升混合和下降混合技术来力求兼容性。通常已知的是,存在将多信道音频信号转换成立体声格式(例如,杜比数码DolbyDighta^和杜比环绕DolbySurround)以及进一步将立体声格式转换成双声道信号的算法。然而,在这种处理中,不能完全重现原始多信道音频信号的空间图像。对于头戴收听而言用于转换多信道音频信号的更好的方式是通过利用HRTF滤波使用虚拟扬声器来替换原始扬声器以及通过那些虚拟扬声器(例如,杜比头戴受话器Dolbyheadphone)来播放该扬声器信道信号。然而,该处理的缺点在于,为了产生双声道信号,首先总是需要多信道混合。即,首先对多信道(例如5+1个信道)信号进行解码以及合成,然后将HRTF应用于每个信号,用来形成双声道信号。与直接从压缩的多信道格式解码成双声道格式相比,这是一种计算繁重的方法。双耳线索编码(BCC)是高度发展的参数化空间音频编码方法。BCC将空间多信道信号表示为单个(或若干)下降混合的音频信道以及根据频率和时间由原信号估计的一组感性相关信道间差值。该方法允许将针对任意扬声器布局混合的空间音频信号转换为用于任意其他扬声器布局,包括相同或者不同数量的扬声器。因此,BCC是针对多信道扬声器系统而设计的。然而,由BCC处理的单声道信号及其边信息生成双声道信号要求首先基于单声道信号及其边信息对多信道表示进行合成,且仅在那时才有可能由多信道表示生成用于空间头戴受话器播放的双声道信号。很明显,该方法在生成双声道信号方面也未优化。
发明内容现在,此处发明了一种改进的方法以及实现该方法的技术设备,其支持直接从参数化编码的音频信号生成双声道信号。本发明的各个方面包括解码方法、解码器、装置以及计算机程序,它们的特征在于下面详细地一般性公开的内容。也公开了本发明的各种实施方式。根据本发明的第一方面,根据本发明的方法基于这样的想法,即合成双声道音频信号,以使得首先输入参数化编码的音频信号,该音频信号包括多个音频信道的至少一个组合信号以及描述多信道声音图像的边信息的一个或多个对应集合。将该至少一个组合信号划分到多个子带,根据边信息的所述集合来确定子带的参数值。然后,以所述参数值确定的比例,将头部相关传输函数滤波器的预定集合应用于至少一个组合信号,以便合成双声道音频信号。根据实施方式,所述参数值通过根据由所述边信息的集合所提供的下一个和前一个参数值对与特定子带对应的参数值进行插值来确定。根据实施方式,可以根据头部相关传输函数滤波器的预定集合,选择将要应用的与原多信道扬声器布局的每个扬声器方向相对应的一对左右头部相关传输函数滤波器。根据实施方式,边信息的所述集合包括用于描述原声音图像的多信道音频的信道信号的增益估计的集合。根据实施方式,原多信道音频的增益估计根据时间和频率来确定;以及对每个扬声器信道的增益进行调整以使得每个增益值平方之和等于1。根据实施方式,至少一个组合信号被划分到下列子带类型之一多个QMF子带;多个等效矩形带宽(ERB)子带;或者多个心理声学激发的频带。根据实施方式,所述参数值是至少一个子带的增益值。根据实施方式,确定子带的增益值的步骤进一步包括确定描述原声音图像的多信道音频的每个信道信号的增益值;以及根据每个信道信号的所述增益值对子带的单个增益值进行插值。根据实施方式,通过将所述至少一个组合信号与至少一个增益值和预定头部相关传输函数滤波器相乘来确定子带的双声道信号的频域表示。根据本发明的装置提供了显著的优势。主要优势是解码过程的简单化和低计算复杂度。从解码器完全基于由编码器给定的空间和编码参数来执行双声道合成的意义上讲,该解码器也是灵活的。另外,在转换中,维持了与原信号的相等空间性。对于边信息,原混合的增益估计的集合就足以了。最重要的是,本发明支持对参数化音频编码中提供的压缩中间状态的增强利用,从而提高了传输以及存储音频时的效率。如果根据边信息来确定用于子带的增益值,则双声道输出信号的质量可以通过引入更加平滑的频带间增益值变化而得以改进。滤波也可以得到显著简化。本发明的其他方面包括各种装置,其布置用于实现上述方法的本发明步骤。在下文中,将参考附图对本发明的各种实施方式进行更加详细的描述。图1示出了根据现有技术的一般双耳线索编码(BCC)方案;图2示出了根据现有技术的BCC合成方案的一般结构;图3示出了根据本发明的实施方式的双声道解码器的方框图;图4以简化图示出了根据本发明的实施方式的电子设备。具体实施例方式在下文中,将通过参考双耳线索编码(BCC)作为用于实现根据实施方式的解码方法的示例性平台来说明本发明。然而,应当注意的是,本发明并非仅局限于BCC型空间音频编码方法,而是还可以利用提供由一个或多个音频信道的原集合组合的至少一个音频信号以及适当空间边信息的任意音频编码方案来实现。双耳线索编码(BCC)是空间音频的参数化表示的一般原理,用于根据单个音频信道加上一些边信息来递送具有任意数量信道的多信道输出。图1示出了该原理。通过下降混合过程将若干(M)输入音频信道组合成单个输出(S:"求和")信号。并行地,从输入信道提取描述该多信道声音图像的最突出的信道间线索,并将其密实地编码为BCC边信息。然后将求和信号和边信息都传送到接收方,可以使用适当的低比特率音频编码方案来编码该求和信号。最后,BCC解码器通过重新合成携带了相关信道间线索(诸如信道间时间差ICTD,信道间声级差ICLD,以及信道间相干性ICC)的信道输出信号,根据传送的求和信号和空间线索信息生成用于扬声器的多信道(N)输出信号。因此依据对于特别用于扬声器播放的多信道音频信号的重建的优化来选择BCC边信息,即信道间线索。有两种BCC方案,即用于灵活呈现的BCC(类型IBCC)以及用于自然呈现的BCC(类型IIBCC),灵活呈现的BCC意在为了在接收方一侧呈现而进行的大量独立的源信号的传送,自然呈现的BCC意在立体声或者环绕信号的大量音频信道的传输。灵活呈现的BCC采用独立的音频源信号(例如,语音信号,独立记录的仪器,多音轨记录)作为输入。而自然呈现的BCC采用"最终混合"立体声或者多信道信号作为输入(例如,CD音频,或者DVD环绕)。如果通过传统的编码技术来执行这些过程,则比特率与音频信道的数量成比例或者至少接近比例的缩放,例如传送5.1多信道系统的六个音频信道需要接近一个音频信道的6倍的比特率。然而,由于BCC边信息仅需要非常低的比特率(例如2kb/s),所以两种BCC方案都产生了比传输一个音频信道所需的比特率略微高点的比特率。图2示出了BCC合成方案的一般结构。首先在时域中对所传送的单声道信号("求和")加窗到帧中,然后通过FFT过程(快速傅立叶变换)和滤波器组FB将其映射到适当子带的频谱表示上。在播放信道的一般情况中,在信道对之间的每个子带中,即对于相对于参考信道的每个信道,考虑ICLD和ICTD。选择该子带以使得实现足够高的频率分辨率,例如子带带宽等于ERB等级(等效矩形带宽)的二倍通常被认为是适当的。针对将要产生的每个输出信道,将单独的时间延迟ICTD和声级差ICLD强加在频谱系数上,其后是相干性合成过程,其重新引入了合成音频信道之间的相干性和/或相关(ICC)的最有关的方面。最后通过IFFT过程(逆FFT)将所有合成的输出信道转换回时域表示,结果得到多信道输出。要获得BCC方法的更力o详细的描述,请参考F.Baumgarte和C.Faller的"BinauralCueCoding-PartI:PsychoacousticFundamentalsandDesignPrinciples",IEEETransactionsonSpeechandAudioProcessing,Vol.11,No.6,2003年11月,以及请参考C.Faller和F.Baumgarte的"BinauralCueCoding-PartII:SchemesandApplications",IEEETransactionsonSpeechandAudioProcessing,Vol.11,No.6,2003年11月。BCC是提供执行根据实施方式的解码方案的适当平台的编码方案的一个实例。根据一种实施方式的双声道解码器接收单声道信号和边信息作为输入。该想法是要利用与收听位置相关的扬声器的方向相对应的HRTF对替换在原混合中的每个扬声器。按照由增益值的集合指示的比例将单声道信号的每个频率信道馈送到实现HRTF的每对滤波器,其中该增益值可以根据边信息计算。因此,该处理可被认为是在双声道音频场合下,实现与原扬声器对应的一组虚拟扬声器。相应地,通过除了虑及用于各种扬声器布局的多信道音频信号以外还虑及双声道音频信号直接由参数化编码空间音频信号导出而无需任何中间BCC合成过程,本发明将值添加到BCC。在下面参考图3示出了本发明的一些实施方式,该图3示出了根据本发明的一个方面的双声道解码器的方框图。解码器300包括用于单声道信号的第一输入302和用于边信息的第二输入304。出于对本发明进行说明的目的,将输入302和304示出为不同的输入,但是本领域技术人员将会理解,在实际实现中,可以经由同一输入来提供单声道信号和边信息。根据一种实施方式,该边信息并不必包括如BCC方案中的信道间线索(即信道间时间差(ICTD),信道间声级差(ICLD),以及信道间相干性(ICC)),而是仅仅包括用于在每个频带定义原混合信道间的声压分布的增益估计集合就足够了。除了增益估计之外,边信息优选地包括原混合中与收听位置相关的扬声器的数量和位置,以及所利用的帧长度。根据一种实施方式,不是将增益估计作为来自编码器的边信息的一部分发送,而是在解码器中根据BCC方案的信道间线索,例如ICLD,来计算增益估计。解码器300进一步包括加窗单元306,其中首先将单声道化的信号划分到所使用帧长度的时间帧,然后对帧适当地加窗,例如加正弦窗。应当调整合适的帧长度,以使得帧足够长以用于离散傅立叶变换(DFT),同时又足够短以管理信号中的快速变化。试验已经表明,适当的帧长度大约是50ms。因此,如果使用了44.1KHz的采样频率(通常在各种音频编码方案中使用),则帧可以包括例如2048个采样,其产生了46.4ms的帧长度。优选地执行该加窗以使得相邻窗口重叠50%,以便平滑因频i普修改(等级和延迟)而导致的转变。此后,在FFT单元308中将经过加窗的单声道信号转换到频域。在频域中以效率计算为目标来执行该处理,本领域技术人员应当理解,前面的信号处理步骤可以在实际的解码器300之外执行,即加窗单元306和FFT单元308可以实现在其中包括有解码器的装置中,当把将要处理的单声道信号提供至解码器时,该将要处理的单声道信号已经加窗且已经转换到频域。出于高效计算频域信号的目的,将信号馈送到滤波器组310,该滤波器组将信号划分到心理声学激发的频带上。根据一种实施方式,对滤波器组310进行设计,把该滤波器组布置为将信号划分到遵照公认的等效矩形带宽(ERB)等级(scale)的32个频带中,结果产生了所述32个频带上的信号分量X。,…,X31。解码器300包括一组HRTF312、314作为预存储的信息,根据该预存信息来选择对应于每个扬声器方向的左右对HRTF。出于说明的目的,在图3中示出了两组HRTF312、314,—组用于左侧信号,一组用于右侧信号。但是显而易见的是,在实际实现中,一组HRTF就足够了。为了调节所选择的左右对HRTF以对应于每个扬声器信道声音等级,优选地估计增益值G。正如前面提及的那样,增益估计可以包括在从编码器接收的边信息内,或者可以在解码器中基于BCC边信息来计算增益估计。因此,针对每个扬声器信道,根据时间和频率来估计增益,并且为了保持原混合的增益等级,优选地调节每个扬声器信道的增益,使得每个增益值平方之和等于1。这提供了如下优势如果N是实际将产生的信道的数量,则仅需要从编码器传送N-l个增益估计,并且可以基于该N-l个增益值来计算缺少的增益值。然而,本领域技术人员应当理解,本发明的操作并非必须将每个增益值平方之和调节为等于1,而是该解码器可以缩放该增益值的平方,以使得其和等于l。然后按照增益G的集合所指示的比例对每对左右对HRTF滤波器312、314进行调节,结果得到经过调节的HRTF滤波器312,、314,。再次需要说明的是,在实践中,原HRTF滤波器幅值312、314仅仅根据增益值进行缩放,但是出于对实施方式进行说明的目的,在图3中示出了HRTF312,、314,的"附加"集合。对于每个频带,将单声道信号分量Xo,...,Xn馈送到经过调节的HRTF滤波器312,、314,的每对左右对。然后在求和单元316、318中,针对两个双声道信道,对用于左侧信号和用于右侧信号的滤波器输出进行求和。再次对该求和的双声道信号加正弦窗,并通过在IFFT单元320、332中执行的逆FFT处理将其变换回时域。在分析滤波器并未求和到1或者分析滤波器的相位响应为非线性的情况下,则优选地使用适当的合成滤波器组,以避免在最终双声道信号Br和B^上的失真。根据一实施方式,为了提高双声道信号的形象化,即头部外定位,可以将适中的房间响应添加到双声道信号。出于该目的,解码器可以包括混响单元,优选地位于求和单元316、318和IFFT单元320、322之间。所添加的房间响应指示了在扬声器收听情形中的房间效果。然而,要求混响时间足够短以使得没有显著增加计算复杂度。图3中示出的双声道解码器300还支持立体声下降混合解码的特定情况,其中使空间图像变窄。对解码器300的操作进行修改,以使得以预定增益来替代每个可调HRTF滤波器312、314,而在前面的实施方式中每个可调HRTF滤波器312、314只是根据增益值进行缩放。因此,通过恒定HRTF滤波器对单声道信号进行处理,该HRTF滤波器由乘以基于边信息而计算的增益值集合的单个增益构成。结果,将空间音频下降混合成立体声信号。该特定的情况提供如下优势,即可以使用空间边信息根据组合信号来生成立体声信号,而无需解码该空间音频,藉此立体声解码的过程与传统BCC合成中的过程相比更为简单。双声道解码器300的结构在其他方面与图3相同,仅仅可调HRTF滤波器312、314被具有用于立体声下降混合的预定增益的下降混合滤波器所代替。如果双声道解码器包括HRTF滤波器,例如,对于5.1环绕音频配置,那么对于立体声下降混合解码的特定情况,HRTF滤波器的恒定增益例如可以如下表1所定义。<table>tableseeoriginaldocumentpage16</column></row><table>表l用于立体声下降混合的HRTF滤波器根据本发明的布置提供了显著的优势。主要优势是解码过程的简单化和低计算复杂度。从解码器完全基于由编码器给定的空间和编码参数来执行双声道上升混合的意义上讲,该解码器也是灵活的。另外,在转换中,维持了与原信号的相等空间性。对于边信息,原混合的增益估计的集合就足以了。从传输和存储音频的角度来讲,当利用在参数化音频编码中提供的压缩中间状态时,通过提高的效率获得了最显著的优势。本领域技术人员应当理解,由于HRTF高度独立且进行平均是不可能的,所以理想的再空间化仅可以通过测量收听者自己唯一的HRTF集合来实现。因此,HRTF的使用必然使信号变为彩色,使得经过处理的音频的质量与原始音频不相等。然而,由于测量每个收听者的HRTF是一种不现实的选择,因此当使用仿制的集合或者从具有平均尺寸和显著对称性的头部的人或头部模型测量的集合时,可以得到最佳的可能结果。如前所述,根据一种实施方式,增益估计可以包括在从编码器接收的边信息中。因此,本发明的一方面涉及一种用于多信道空间音频信号的编码器,其用于根据频率和时间来估计每个扬声器信道的增益,并且将该增益估计包括在将沿着一个(或多个)组合信道传输的边信息中。该编码器例如可以是公知的BCC编码器,该编码器进一步被布置成附加在或代替计算描述多信道声音图像的信道间线索ICTD、ICLD和ICC来计算增益估计。然后,将至少包括增益估计的边信息和求和信号都传送到接收方一侧,优选地使用适当低的比特率音频编码方案来对求和信号进行编码。根据一种实施方式,如果在编码器中计算增益估计,则通过将每个单独信道的增益等级与组合信道的累积增益等级相比较来执行该计算。即,如果我们以X来指示增益等级,原扬声器布局的各个信道以"m"来表示,采样以"k"来表示,则对于每个信道,将增益估计计算为IXm(k)|/|XSUM(k)|。因此,增益估计确定了每个单独信道与所有信道的总增益幅值相比较的比例增益幅值。根据一种实施方式,如果基于BCC边信息在解码器中计算增益估计,则该计算可以例如基于信道间声级差ICLD的值来执行。因此,如果N是将实际生成的"扬声器"的数量,则首先基于ICLD值来组成包括N-1个未知变量的N-l个方程。然后将每个扬声器方程平方之和设置为等于l,藉此,可以求解出一个单独信道的增益估计,并且基于该求解出的增益估计,可以从N-1个方程求解出余下的增益估计。例如,如果实际将要生成的信道数量是5(N=5),则N-l个方程可以如下形成L2=U+ICLD1,L3=L1+ICLD2,L4=L1+ICLD3,L5=U+ICLD4。则其平方之和被设置为等于1:Ll2+(L1+ICLD1)2+(L1+ICLD2)2+(L1+ICLD3)2+(L1+ICLD4)2=1。然后可以求解L1的值,并且基于L1的值,可以求解出余下的增益等级值L2-L5。根据另一实施方式,本发明的基本想法(即,直接从参数化编码的音频信号中生成双声道信号而无需首先将其解码成多信道格式)可以以这样的方式来实现,即,不是使用增益估计集合并将其应用至每个频率子带,而是仅仅将边信息比特流中的信道等级信息(ICLD)部分与求和信号一起使用来构造双声道信号。因此,不是在解码器中定义增益估计集合或在编码器处将增益估计包括在BCC边信息中,而是在解码器中根据时间和频率对每个原信道的传统BCC边信息的信道等级信息(ICLD)部分进行适当地处理。将原始求和信号划分到适当的频率块(frequencybin),以及根据信道等级信息导出频率块的增益。该处理支持通过引入更加平滑的频带间增益值变化而进一步改善双声道输出信号的质量。在此实施方式中,处理的预备步骤类似于前面描述的步骤将求和信号(单声道或者立体声)以及边信息输入到解码器中,将求和信号划分到所使用帧长度的时间帧,然后对其进行适当地加窗,例如加正弦窗。另外,在分析中使用50%重叠的正弦窗,并使用FFT将时域信号有效地变换到频域。现在,如果分析窗的长度是N个采样且该窗口是50%重叠,则在频域中具有N/2个频率块。在该实施方式中,不是将信号划分到心理声学激发的频带,诸如根据ERB等级的子带,而是将该处理应用于这些频率块。如上所述,BCC编码器的边信息提供了关于应该如何对求和信号进行缩放以得到每个单独信道的信息。增益信息一般仅仅提供用于受限制的时间和频率位置。在时间方向中,例如在具有2048个采样的一帧中给予一次增益值。对于本实施方式的实现,需要在每个正弦窗口中间的以及用于每个频率块的增益值(即,位于每个正弦窗中间的N/2个增益值)。这可以利用插值来有效地实现。可替代地,可以在边信息中所确定的时刻中提供该增益信息,并且也可以在边信息中提供一帧内时刻的数量。在此可替代的实现中,当更新增益值时,基于时刻和时刻的数量的知识对增益值进行插值。假设BCC多信道编码器在时刻tm(m=0,1,2,...)提供Ng增益值。相对于当前时刻tw(当前正弦窗的中心),搜索由BCC多信道编码器所提供的下一个和前一个增益值集合,并以tpw和tnext来表示下一个和前一个增益值集合。使用例如线性插值,将Ng增益值插值到时刻tw,以使得在插值中使用从W到tpre和tnext的距离作为缩放因子。根据另一实施方式,简单地选择与时刻W更接近的增益值(Ve或t皿t),其提供了用以确定最近似增益值的较为直接的方案。在已经确定了当前时刻的Ng增益值的集合后,需要在频率方向上对其进行插值,以获得每N/2个频率块的单个增益值。可以使用简单的线性插值来完成该任务,然而也可以4吏用例如sine插值。通常在低频率处给予Ng增益值较高的分辨率(该分辨率可以遵照例如ERB等级),这在插值时必须考虑。插值可以在线性或者对数域来执行。经过插值的增益集合的总数等于多信道解码器中输出信道的数量乘以求和信号的数量。另外,需要将原扬声器方向的HRTF构造成双声道信号。同样将HRTF转换到频域。为了使频域处理更加简单明了,在转换时使用的帧长度(N个采样)与用于将时域求和信号转换到频域(N/2个频率块)的帧长度相同。另YKn)和Y2(n)分别为双声道左、右信号的频域表示。在一个求和信号的情况下(即,单声道求和信号Xsuml(n)),双声道输出如下构造<formula>formulaseeoriginaldocumentpage19</formula>〖("))其中,0=n<N/2。C为BCC多信道编码器中信道的总数(例如,5.1音频信号包括6个信道),并且gj(n)是针对单声道求和信号的经过插值的增益值,用于在当前时刻tw构造信道c。Hj(n)和H2c(n)是针对多信道编码器输出信道c的用于左耳和右耳HRTF的DFT域表示,即每个原始信道的方向必需是已知的。当存在由BCC多信道编码器提供的两个求和信号(立体声求和信号)时,两个求和信号(Xsuw(n)和Xsum2(n))对两个双声道输出的作用如下<formula>formulaseeoriginaldocumentpage20</formula>其中0=n<N/2。现在gj(n)和g2e(n)是代表在多信道编码器中左、右求和信号的增益,用于将输出信道C构造为它们之和。此外,该处理的后面阶段与上述类似利用IFFT过程将Y^n)和Y2(n)变换回时域,再一次对信号加正弦窗,并将重叠窗相加。上述实施方式的主要优势在于增益并未在频率块彼此之间迅速改变,而这在使用ERB(或者其他)子带的情况下可能会发生。因此,双声道输出信号的质量通常更好。另外,通过使用用于左耳和右耳的HRTF(!V(n)和H2e(n))的求和信号DFT域表示来代替用于多信道音频的每个信道的特定左右HRTF对,可以显著简化滤波。在上述实施方式中,在DFT域中构造双声道信号,并且省去了利用滤波器组将信号划分到根据ERB等级的子带。尽管该实施有利地并不需要任何滤波器组,但本领域技术人员将理解,也可以使用除DFT之外的任何其他相关变换或者具有足够高频率分辨率的适当滤波器组结构。在那些情况下,必需修改上述构造等式Y!(n)和Y2(n),使得HRTF滤波基于由所讨论的变换或者滤波器组所设置的属性而执行。因此,如果应用了例如QMF滤波器组,那么该频率分辨率由QMF子带来限定。如果Ng增益值的集合小于QMF子带的数量,则对增益值进行插值以得到用于每个子带的单个增益。例如,通过非线性或线性插值,将与28个频带对应的用于边信息中可用的给定时刻的28个增益值映射到105个QMF子带,以避免相邻狭窄子带之间的突然改变。此后,也可以应用上述双声道左、右信号(Y^n)和Y2(n))的频域表示等式,除了Hj(n)和H2e(n)是QMF域中矩阵形式的HRTF滤波器以及X隱"n)是单声道信号的块之外。在立体声求和信号的情况下,HRTF滤波器是巻积矩阵形式,Xsum!(n)和Xsum2(n)分别是两个求和信号的块。在文档IEEE0-7803-5041-3/99,LancianiC.A.等人的"SubbanddomainfilteringofMPEGaudiosignals"中,描述了QMF域中的实际滤波实现的实例。出于简单的原因,将前面的多数实例描述成在编码器中对输入信道(M)进行下降混合,以形成单个组合(例如单声道)信号。然而,这些实施方式同样可以在替代的实施方式中实现,其中根据特定的音频处理应用,对多个输入信道(M)进行下降混合,以便形成两个或更多独立的组合信号(S)。如果下降混合生成了多个组合信道,则可以使用传统音频传输技术来传输組合信道数据。例如,如果生成了两个组合信道,则可以使用传统的立体声传输技术。在这种情况下,BCC解码器可以从这两个组合信道中提取BCC代码并使用该BCC代码来合成双声道信号,这在结合上面的最后一个实施方式中进行了说明。根据一个实施方式,根据特定的应用,在合成双声道信号中实际产生的"扬声器,,的数量(N)可以与输入信道的数量(M)不同(大于或者小于)。例如,输入音频可以对应于7.1环绕声,并且可以合成双声道输出音频对应于5.1环绕声,或者输入音频对应于5.1环绕声,而合成双声道输出音频对应于7.1环绕声。上述实施方式总结如下本发明的实施方式允许将M个输入音频信道转换成S个组合音频信道以及一个或多个对应的边信息集合,其中M>S,并允许乂人S个组合音频信道和对应的边信息集合生成N个输出音频信道,其中N〉S,N可以等于M或者与M不同。由于传输一个组合信道和必需的边信息所需的比特率非常低,所以在可用带宽是稀缺资源的系统中,诸如在无线通讯系统中,尤其可以较好地应用本发明。因此,在通常缺乏高质扬声器的移动终端或者其他便携设备中尤其可以利用这些实施方式,其中可以根据本发明的实施方式,通过头戴受话器收听双声道音频信号而引入多信道环绕声的特征。可行应用的另一领域包括电话会议服务,其中可以通过给收听者会议呼叫参与方位于会议室中的不同位置的印象来容易地辨别电话会议的参与者。图4示出了数据处理设备(TE)的简化结构,在其中可以实现根据本发明的双声道解码系统。数据处理设备(TE)可以例如是移动终端、MP3播放器、PDA设备或者个人计算机(PC)等。该数据处理单元(TE)包括I/0装置(I/O)、中央处理单元(CPU)和存储器(MEM)。存储器(MEM)包括只读存储器ROM部分和诸如随机存取存储器RAM和闪速(FLASH)存储器的可重写部分。用于与不同的外部各方(例如CD-ROM,其他设备和用户)通信的信息通过I/O装置(I/O)从中央处理单元(CPU)传出或者传入到中央处理单元(CPU)。如果该数据处理设备实现为移动台,则其典型地包括收发信机(Tx/Rx),该收发信机与无线网络通信,通常通过天线(ANT)与基站收发信台(BTS)通信。用户接口(UI)设备通常包括显示器、键区、麦克风和用于头戴受话器的连接装置。该数据处理系统可以进一步包括连接装置MMC,诸如用于各种硬件模块的标准形式的插槽或者作为集成电路IC,其可以提供在数据处理设备中运行的各种应用。因此,根据本发明的双声道解码系统可以在中央处理单元CPU中执行,或者在数据处理设备的专用数字信号处理器DSP(参数化代码处理器)中执行,藉此数据处理设备接收参数化编码音频信号,该音频信号包括多个音频信道的至少一个组合信号以及描述多信道声音图像的边信息的一个或多个对应集合。该参数化编码音频信号可以从例如CD-ROM的存储器装置接收,或者经由天线和收发信机Tx/Rx从无线网络接收。该数据处理设备进一步包括适当的滤波器组和头部相关传输函数滤波器的预定集合,藉此,该数据处理设备将组合信号变换到频域,并按照边信息的对应集合所确定的比例,将适合的一对左右头部相关传输函数滤波器应用于组合信号,以合成双声道音频信号,然后将其通过头戴受话器重现。同样,根据本发明的编码系统也可以在中央处理单元CPU中执行,或者在数据处理设备的专用数字信号处理器DSP中执行,藉此数据处理设备产生参数化编码音频信号,该音频信号包括多个音频信道的至少一个组合信号以及包括用于多信道音频的信道信号的增益评估的边信息的一个或多个对应集合。本发明的功能性可以在终端设备中实现,诸如移动台,也可以作为计算机程序来实现,当在中央处理单元CPU或者专用数字信号处理器DSP中执行时,该计算机程序影响该终端设备以便实现本发明的过程。计算机程序SW的功能可以分布到彼此通信的若干独立的程序部分。该计算机软件可以存储在任何存储器装置中,诸如PC的硬盘或者CD-ROM盘,从其可以将计算机软件载入到移动终端的存储器中。该计算机软件还可以通过网络来装载,例如使用TCP/IP协议栈。还可能的是,使用硬件方案或者硬件和软件方案的组合以实现本发明的装置。因此,上述计算程序产品可以至少部分地在包括用于将模块连接到电子设备的硬件模块中作为硬件方案来实施,例如作为ASIC或者FPGA电路来实现,或者可以作为一个或多个集成电路IC来实现,该硬件模块或者IC可以进一步包括用于执行所述计算机程序代码任务的各种装置,所述装置作为硬件和/或软件来实现。对于本领域技术人员而言明显的是,本发明并非仅仅局限于上面介绍的实施方式,而是可以在所附权利要求书的范围内改变。权利要求1.一种用于合成双声道音频信号的方法,所述方法包括输入参数化编码音频信号,该音频信号包括多个音频信道的至少一个组合信号以及描述多信道声音图像的边信息的一个或多个对应集合;将该至少一个组合信号划分到多个子带中;根据所述边信息的集合确定用于子带的参数值;按照由所述参数值确定的比例,将头部相关传输函数滤波器的预定集合应用于该至少一个组合信号,以合成双声道音频信号。2.根据权利要求1所述的方法,其中所述参数值通过根据由所述边信息的集合所提供的下一个和前一个参数值对与特定子带相对应的参数值进行插值来确定。3.根据权利要求1或2所述的方法,进一步包括根据头部相关传输函数滤波器的所述预定集合,对应于原始多信道音频的每个扬声器方向应用一对左右头部相关传输函数滤波器。4.根据前面权利要求任一项所述的方法,其中所述边信息的集合包括描述原始声音图像的多信道音频的信道信号的增益估计的集合。5.根据权利要求4所述的方法,其中所述边信息的集合进一步包括原始多信道声音图像的与收听位置相关的扬声器的位置和数量以及所采用的帧长度。6.根据权利要求3所述的方法,其中所述边信息的集合包括在双耳线索编码(BCC)方案中所使用的信道间线索,诸如信道间时间差(ICTD)、信道间声级差(ICLD)以及信道间相干性(ICC),该方法进一步包括基于该BCC方案的所述信道间线索其中至少之一,计算原始多信道音频的增益估计的集合。7.根据权利要求4-6任一项所述的方法,进一步包括根据时间和频率来确定原始多信道音频的增益估计的集合;以及调节每个扬声器信道的增益,使得每个增益值平方之和等于1。8.根据权利要求1所述的方法,进一步包括将所述至少一个组合信号划分到以下子带类型之一多个QMF子带;多个等效矩形带宽(ERB)子带;或者多个心理声学激发的频带。9.根据权利要求8所述的方法,进一步包括在频域中将所述至少一个组合信号划分到遵照等效矩形带宽(ERB)等级的32个频带。10.根据权利要求9所述的方法,进一步包括独立地对用于左侧信号和右侧信号的每个所述频带的头部相关传输函数滤波器的输出进行求和;以及将求和的左侧信号和求和的右侧信号变换到时域,以生成双声道音频信号的左侧分量和右侧分量。11.根据权利要求1所述的方法,其中所述参数值是用于至少一个子带的增益值。12.根据权利要求11所述的方法,其中所述增益值通过选择由所述边信息的集合提供的最接近的增益值来确定。13.根据权利要求11或12所述的方法,其中将所述至少一个组合信号划分到多个子带的步骤进一步包括将所述至少一个组合信号划分到包括预定数量的采样的时间帧中,然后对该帧加窗;以及将所述至少一个组合信号变换到频域,以生成多个频率子带。14.根据权利要求11-13任一项所述的方法,其中确定子带的增益值的步骤进一步包括确定描述原始声音图像的多信道音频的每个信道信号的增益值;以及根据每个信道信号的所述增益值对子带的单个增益值进行插值。15.根据权利要求11-14任一项所述的方法,进一步包括通过将所述至少一个组合信号与至少一个增益值和预定头部相关传输函数滤波器相乘来确定子带的双声道信号的频域表示。16.根据权利要求15所述的方法,其中每个频率块的双声道信号的所述频域表示根据下式由单声道求和信号Xsumi(n)确定X(")=u(")£(")w("))&(")=lml(")f(//2c(w)g〖("))其中Y"n)和Y2(n)分别为双声道左、右信号的频域表示,c为编码器信道的数量,gj(n)是单声道求和信号的经过插值的增益值,用于在特定时刻W构造信道c,Hj(n)和H/(n)是针对编码器输出信道c的用于左耳和右耳的头部相关传输函数滤波器的子带域表示。17.根据权利要求15所述的方法,其中每个频率块的双声道信号的所述频域表示根据下式由立体声求和信号Xsum"n)和Xsum2(n)确定,)=u")f;few("))+x画2(")ffe(")"(")),=x』)£>2K("))+u")|;(//2c(")g2c("))其中YKn)和Y2(n)分别为双声道左、右信号的频域表示,c为编码器信道的数量,gj(n)是单声道求和信号的经过插值的增益值,用于在特定时刻tw构造信道c,Hj(n)和H2e(n)是针对编码器输出信道c的用于左耳和右耳的头部相关传输函数滤波器的子带域表示。18.根据权利要求11所述的方法,其中所述增益值通过根据由所述边信息的集合提供的相邻频率子带的增益值对与特定频率子带相对应的每个增益值进行插值来确定。19.一种参数化音频解码器,包括参数化编码处理器,用于处理参数化编码的音频信号,该音频信号包括多个音频信道的至少一个组合信号以及描述多信道声音图像的边信息的一个或多个对应集合;用于将所述至少一个组合信号划分到多个子带中的装置;用于根据所述边信息的集合确定子带的参数值的装置;以及合成器,用于按照由所述参数值确定的比例,将头部相关传输函数滤波器的预定集合应用于该至少一个组合信号,以合成双声道音频信号。20.根据权利要求19所述的解码器,其中所述参数值通过根据由所述边信息的集合所提供的下一个和前一个参数值对与特定子带相对应的每个参数值进行插值来确定。21.根据权利要求19或20所述的解码器,其中所述合成器布置用于根据头部相关传输函数滤波器的预定集合,应用与原始多信道音频的每个扬声器方向相对应的一对左右头部相关传输函数滤波器。22.根据权利要求19-21任一项所述的解码器,其中所述边信息的集合包括描述原始声音图像的多信道音频的信道信号的增益估计的集合。23.根据权利要求21所述的解码器,其中所述边信息的集合包括在双耳线索编码(BCC)方案中所使用的信道间线索,诸如信道间时间差(ICTD)、信道间声级差(ICLD)以及信道间相干性(ICC),该解码器进一步布置用于基于该BCC方案的所述信道间线索其中至少之一,计算原始多信道音频的增益估计的集合。24.根据权利要求19所述的解码器,进一步包括用于将所述至少一个组合信号划分到以下子带类型之一的装置多个QMF子带;多个等效矩形带宽(ERB)子带;或者多个心理声学激发的频带。25.根据权利要求24所述的解码器,其中所述用于在频域中将所述至少一个组合信号进行划分的装置包括滤波器组,该滤波器组布置为用于将该至少一个組合信号划分5ij遵照等效矩形带宽(ERB)等级的32个频带。26.根据权利要求25所述的解码器,进一步包括求和单元,其用于独立地对用于左侧信号和右侧信号的每个所述频带的头部相关传输函数滤波器的输出进行求和;以及变换单元,用于将求和的左侧信号和求和的右侧信号变换到时域,以生成双声道音频信号的左侧分量和右侧分量。27.根据权利要求19所述的解码器,其中所述参数值是用于至少一个子带的增益值。28.根据权利要求27所述的解码器,其中所述增益值通过选择由所述边信息的集合提供的最接近的增益值来确定。29.根据权利要求27或28所述的解码器,其中所述用于确定至少一个子带的增益值的装置布置用于确定描述原始声音图像的多信道音频的每个信道信号的增益值;以及根据每个信道的所述增益值对至少一个子带的单个增益值进行插值。30.根据权利要求27-29任一项所述的解码器,其中所述解码器布置用于通过将所述至少一个组合信号与至少一个增益值和预定头部相关传输函数滤波器相乘来确定至少一个子带的双声道信号的频域表示。31.—种计算机程序产品,其存储在计算机可读介质上,并且可频信号包括多个音频信道的至少一个组合信号以及描述多信道声音图像的边信息的一个或多个对应集合,该计算机程序产品包括用于将该至少一个组合信号划分到多个子带中的计算机程序代码部分;用于根据所述边信息的集合确定至少一个子带的参数值的计算机程序代码部分;用于按照由所述参数值确定的比例,将头部相关传输函数滤波器的预定集合应用于该至少一个组合信号,以合成双声道音频信号的计算机程序代码部分。32.—种用于合成双声道音频信号的装置,该装置包括用于输入参数化编码的音频信号的装置,该音频信号包括多个音频信道的至少一个组合信号以及描述多信道声音图像的边信息的一个或多个对应集合;用于将该至少一个組合信号划分到多个子带中的装置;用于根据所述边信息的集合确定至少一个子带的参数值的装置;用于按照由所述参数值确定的比例,将头部相关传输函数滤波器的预定集合应用于该至少一个组合信号,以合成双声道音频信号的装置;以及用于在音频重现装置中提供该双声道音频信号的装置。33.根据权利要求32所述的装置,所述装置是移动终端、PDA设备或者个人计算机。全文摘要一种用于合成双声道音频信号的方法,该方法包括输入参数化编码的音频信号,其包括多个音频信道的至少一个组合信号以及描述多信道声音图像的边信息的一个或多个对应集合;以及将头部相关传输函数滤波器的预定集合应用于通过边信息的所述对应集合按比例确定的至少一个组合信号,以便合成双声道音频信号。文档编号G10L19/02GK101366081SQ200780002068公开日2009年2月11日申请日期2007年1月4日优先权日2006年1月9日发明者J·蒂尔屈,M·塔米,M·瓦阿纳南,P·奥雅拉申请人:诺基亚公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1