对立体声音频信号的动态解码的制作方法

文档序号：2830507阅读：315来源：国知局

专利名称：对立体声音频信号的动态解码的制作方法
技术领域：
本发明涉及空间音频编码，以及更具体地，涉及控制对立体声音频信号的动态解码。
背景技术：
在空间音频编码中，处理两通道/多通道音频信号，使得在彼此不同的音频通道上重放音频信号，借以，向倾听者提供围绕音频源的空间效果的印象。可通过将音频直接记录为用于多通道或立体声重》文的合适的格式而创建空间效果，或者可以在任何两通道/多通道
音频信号中人工地创建空间效果，其作为空间化(spatialization)而为人所知。
一^L地已经知道对于耳冲几重;^文，可通过HRTF (与头部相关的传输函数)滤波而执行人工空间化，其产生用于收听者的左右耳的立体声信号。用从对应于声音源的原始方向的HRTF导出的滤波器来对声音源(sound source )信号进行滤波。HRTF是从在自由场中的声音源到人或人工头的耳朵而测量的传输函数除以到麦克风的传输函数，所述麦克风替代了所述头，并放置在所述头的中部。可将人工房间效果(例如早期反射和/或晚期混响)添加到空间化的信号，来提高源的形象性和自然性。
立体声提示编码(BCC, Binaural Cue Coding )是得到高度发展的为多通道扬声器系统而设计的参数化空间音频编码方法。BCC将空间多通道信号编码为单一 (或若干)缩混(downmix)音频通道，以及被估计为来自原始信号的频率和时间的函数的一组感知相关的通道间差别。该方法允许将用于任意扩音器布局而被混合的空间音频信号转换为用于包括相同或不同数量的扩音器的任何其他扩音器
9布局。BCC也允许转换用于耳机倾听的多通道音频信号，借以通过
利用HRTF滤波来将原始扩音器用虛拟扩音器替换，以及通过HRTF 滤波器播放扩音器通道信号。
文献ISO/IEC JTC 1/SC 29/WG 11/M13233, Ojala P., Jakka J. "Further information on binaural decoder functionality", April 2006, Montreux，公开了为立体声解码器(例如，为BCC解码器)而设计的音像(audio image )演奏(rendering )系统，其中解码器包括用来代表每个可能的扩音器位置的充足数量的HRTF滤波器对。根据选择了哪些HRTF滤波器对，基于作为旁信息(side information )而向解码器传送的音像控制比特流而实现音像演奏，音像控制比特流可由差分声音源地点和绝对声音源(诸如扩音器)地点构成。因而，与用于具有物理固定的扩音器位置的扩音器展现相比，内容创建者有更多的灵活性来设计用于立体声内容的动态音像。
在解码器包括足够数量的HRTF滤波器对的条件下，上述设计提供了用于音像演奏的非常灵活和通用的变化。然而，立体声解码器标准没有指定(mandate)任何特定HRTF组。因此，内容创建不了解关于在立体声解码器中的可用HRTF滤波器数据库的任何知识。因而，随音像控制比特流所携带的声音源地点信息可超过在立体声解码器中的可用HRTF滤波器组的解析度，或者与在立体声解码器中的可用HRTF滤波器组的解析度不精确匹配。结果，由于不兼容的HRTF滤波器组，解码器可能忽略音像控制，借以所感知的音像可与内容创建者想要的音像显著不同。

发明内容
现在，发明了一种改进的方法和实现该方法的技术装备，借以，即使解码器仅包含HRTF滤波器的有限的组，动态立体声控制也是可行的。本发明的多种方面包括方法、器件、解码器、编码器、计算机程序产品和模块，通过在独立权利要求中陈述的内容而对其加以表征。在从属权利要求中公开了本发明的多种实施方式。
10根据第一方面，根据本发明的一种方法基于这样的想法输入
经参数化编码的音频信号，所述音频信号包括多个音频通道的至少
一种组合信号，以及描述了多通道声像(sound image)的旁信息的一个或多个对应组，也包括通道配置信息；从所述通道配置信息导出描述了在立体声音频信号中的音频源(audio source )的水平和/或垂直位置的音频源地点数据；从与头部相关的传输函数滤波器的预定组中选择最紧密(closest)匹配于音频源地点数据的与头部相关联的传输函数滤波器的左-右对，其中，在空间音像中搜索与头部相关的传输函数滤波器的左-右对；以及根据旁信息和所述通道配置信息而从至少一种经处理的信号合成立体声音频信号。
才艮据一个实施方式，以在水平面中的步进(stepwise)运动搜索与头部相关的传输函数滤波器的左-右对。
根据一个实施方式，在对最紧密匹配于音频源地点数据的与头部相关的传输函数滤波器的左-右对的搜索期间，将所述声音源移动的角速度保持为常量。
才艮据一个实施方式，在多种仰角(elevation)上的水平面中，用 10度或20度步幅实现所述步进运动。
根据一个实施方式，该方法进一步包括监视音频源地点数据是否意味着声音源移动跨过了在声像中的奇点(singular)位置(顶点)；以及如果是肯定的，在跨过奇点位置之后，以计算上的180 度来旋转声音源地点的水平角。
根据本发明的布置，提供了显著的优点。一种主要的优点在于，由于在水平面中的声音源移动的恒定的角速度，可以最小化控制信息的比特率。而且，即使解码器仅包含HRTF滤波器的有限的组，动态立体声控制也是可用的。从内容创建的观点看，由于总是能够获得对音像的最可能近似，因而能够可靠地利用动态控制。
第二方面提供了一种用于生成经参数化编码的音频信号的方法，所述方法包括输入包括多个音频通道的多通道音频信号；生成多个音频通道的至少一种组合的信号；以及生成包括用于在对立200780025803.0
体声音频信号的合成中控制音频源地点的通道配置信息的旁信息的一个或多个对应组，所述通道配置信息包括用于在对所述立体声音频信号的所述合成期间，从与头部相关的传输函数滤波器的预定组中搜索，最紧密匹配于在空间音像中的所述音频源地点数据的与头部相关的传输函数滤波器的左-右对的信息。
根据一个实施方式，所述通道配置信息包括用于以步进运动搜索所述最紧密匹配于所述音频源地点数据的与头部相关的传输函数滤波器的左-右对的信息。
因而，此方面向内容创建者提供了可能性来至少在一些场合控制在立体声缩混中对增量步幅的使用，借以在编码器中将期望的增量步幅和它们的方向包括在比特流的通道配置信息内。
由于下面对实施方式的详细公开，本发明的这些以及其他方面，以及其相关的实施方式将变得显然。

下面，参考附图，更加详细地描述了本发明的多种实施方式，
附图中
图1示出了根据现有技术的普通立体声提示编码(BCC)方案；
图2示出了根据现有技术的BCC合成方案的通用结构；
图3示出了具有通道配置信息的增强型立体声提示编码(BCC)
方案；
图4示出了具有经适当选择的HRTF滤波的立体声解码方案；图5a、图5b示出了在水平面中的空间音像的声音源的位置的改变(alternations )的例子；
图6示出了在水平面和垂直面二者中可能的声音源位置的投影；图7用流程图示出了根据本发明的实施方式的方法；以及图8用简化框图示出了根据本发明的实施方式的器件。
具体实施例方式
12为使实施方式更加切实，这里简要地解释在上面提及的文献
Ojala P., Jakka J.的"Further information on binaural decoder functionality"中公开的立体声解码器及其操作。作为用于立体声解码器的背景信息，首先，简要地引入立体声提示编码(BCC)概念，作为用于实现根据这些实施方式的编码和解码方案的示例性平台。然而，注意到本发明并非只限制于BCC类型的空间音频编码方法，而是，可将其用提供从一个或多个音频通道的原始组中组合出的至少一种音频信号和恰当的空间旁信息的任何音频编码方案实现。例如，可在MPEG环绕编码方案中利用本发明，其同样地利用了BCC 方案的优点，但对其进一步扩展。
立体声提示编码(BCC)是用于空间音频的参数展现的一般概念，其交付了来自单一音频通道加一些旁信息的具有任意数量的通道的多通道输出。图l示出了此概念。通过缩混过程，将若干(M 个)输入音频通道组成为单一的输出(S;"和(sum)")信号。并行地，从输入通道提取以及作为BCC旁信息而紧密地编码描述了多通道声像的最突出通道间提示。继而，可以使用用于编码和信号的适当的低比特率音频编码方案将和信号及旁信息二者传送到接收机侧。在接收机侧，由于用户输入，BCC解码器知晓扩音器的数量 (N个)。最后，通过重新合成通道输出信号，BCC解码器从所传输的和信号和空间提示信息中生成用于扩音器的多通道(N个)输出信号，所传输的空间提示信息携带相关的通道间提示，诸如通道间时间差别(ICTD, Inter-channel Time Difference)、通道间水准差别(ICLD, Inter-channel Level Difference )和通道间一致性(ICC, Inter-channel Coherence)。因而，考虑优化对特定于扩音器播放的多通道音频信号的重建而选择BCC旁信息，即通道间提示。由于 BCC旁信息仅需要非常低的比特率(例如，2kb/s) , BCC方案导致仅稍微高于为传输一个音频通道所需要的比特率的比特率。
图2示出了 BCC合成方案的一般结构。首先，将所传输的单声道信号("sum")在时间域窗口化为帧，以及，接着，由FFT过程(快速傅立叶变换)和滤波器组FB将所传输的单声道信号("sum") 映射到恰当子带的频语表示。可选地，可例如用QMF分析来完成时 -频分析。在回》丈通道的一般情况下，在通道对(即，对于相对于参考通道的每个通道)之间的每个子带中考虑ICLD和ICTD。选择子带，使得实现充分高的频率分辨率，例如，典型地，认为等于ERB
(等价矩形带宽，Equivalent Rectangular Bandwidth)比例(scale ) 的两倍的子带宽是适当的。对于将被生成的每个输出通道，单个的时间延迟ICTD和水准差别ICLD对频i普系数施加影响，接着是一致性合成过程，其重新引入在经合成的音频通道之间的一致性和/或相关性(ICC)的最有关方面。最后，通过IFFT过程(逆FFT)或可选地用逆QMF滤波，将所有经合成的输出通道转换回时间域展现，得到多通道输出。对于BCC方式的更详细的描述，参考F. Baumgarte 和C. Faller的 "Binaural Cue Coding - Part 1: Psychoacoustic Fundamentals and Design Principles"; IEEE Transactions on Speech and Audio Processing, Vol. 11， No. 6， 2003年11月，以及参考:C. Faller和 F. Baumgarte的"Binaural Cue Coding - Part II: Schemes and Applications", IEEE Transactions on Speech and Audio Processing, Vol. 11, No. 6， 2003年11月。
在上面l是到的文献Ojala P., Jakka J.的"Further information on binaural decoder functionality"中引入的立体声解码器是基于BCC方式。由编码器创建解码器输入信号，其将多个输入音频通道(M个) 组合为一个或多个组合信号(S),以及并发地将多通道声像解码为具有可应用HRTF参数的BCC旁信息(SI),如图3所示。
然而，与多通道扩音器重现相反，立体声重现允许在音像的创建中更多的灵活性。例如，完全的3-D空间对声音源定位可用，然而，诸如5.1环绕的多声道扩音器配置的音像被限制于稀疏(sparse) 分辨率的方位角(水平)平面。为了利用立体声重放的附加可能性的优点，需要覆盖比默认的扩音器位置更多方向的HRTF组，以及需要用于控制音像的系统。
14因而，编码器进一步创建了通道配置信息(CC)，即，音频源地点信息，当选择了立体声重现时，通道配置信息允许对音像的操纵。内容创建器生成此操纵信息，将其添加到比特流中。贯穿整个音频展现，音频源地点信息可以是静态的，因而，在音频流的开始处仅需要单一信息块作为头部信息。可选地，音频场面可以是动态的，因而，在所传输的比特流中包括地点更新。源地点更新本来就是变速率的。因此，利用算术编码，可将信息有效地编码用于传输, 这是重要的，因为要将比特率保持得尽可能低。
图4更详细地示出了解码过程。首先，将包括一个或两个缩混
音频通道(和信号(sum signal))的输入信号变形为QMF (正交镜像滤波器，Quadrature Mirror Filter)域，随后，将空间旁信息参数连同HRTF参数一起施加来构建立体声音频。接着，令立体声音频信号经历立体声缩混过程，接下来，由通道配置信息(CC)控制立体声缩混过程。在立体声缩混过程中，替代对应于静态扩音器位置的HRTF滤波器，基于通道配置信息(CC)而选择用于每个音频源的滤波器对，使得根据通道配置信息(CC)来改变所使用的HRTF 对，这些改变移动了由耳机倾听者所感知的声音源在空间音像中的地点。实际上，在水平面中的IO度通道角解析度和在垂直方向(仰角)中的30度通道角解析度，对于允许声音源在完全的3D音频场面内的平滑移动是充分的。在选择了 HRTF滤波器对之后，根据图4 中的指示而实现滤波。继而，应用QMF合成来将立体声信号变换到时间域。
在图5a和图5b中示出了在空间音像中的声音源的地点的水平 (方位角)改变。在图5a中，创建用于耳机倾听者的作为立体声音频信号的空间音像，其中，根据传统的5.1扩音器配置创建仿真扩音器位置(即，声音源)。将在倾听者前面的扩音器(FL和FR)布置在相对于中心扬声器(C)成30度。将后面的扬声器(RL和RR) 布置为相对于中心而计算的IIO度。由于立体声效果，声音源似乎是处于用耳机在与实际的5,1回放中相同的地点上的立体声回放中。
15在图5b中，通过在立体声域中演奏音像而改变空间音像，使得
前声音源FL和FR (仿真扩音器)移动到更远处，来创建增强的空间像。根据通道配置信息，通过选择用于FL和FR通道信号的不同的HRTF对来实现移动。可选地，即4吏在回放中，也可将声音源的任何一些或全部移动到不同位置。因此，当演奏立体声音频内容时，
内容创建者有更大的灵活性来设计动态音像。
图6示出了在水平面和垂直面二者中的可能的声音源位置的投影。所假定的倾听者处于投影的原点(origin of the projection)。在此情况下，水平面(0度仰角)以及具有30度仰角的下一水平具有 20度角解析度。当将声音源地点高度提升到60度仰角时，解析度降到60度。最后，在倾听者的直接上方的顶点上，只有一个位置。应当指出，在图中没有示出半球的左侧半边，但是，其是对在图6中的投影的简单镜像复制。
在图5a、图5b和图6中的例子清晰地示出了一些优点，用上面描述的立体声解码器获得这些优点。现在，内容创建者能够控制在解码器中的立体声缩混过程，使得对于立体声内容可设计比用于具有物理上固定的扩音器位置的扩音器展现更加动态的音像。可例如通过在水平面或垂直面中移动声音源(即，虚拟扬声器)来增强空间效果。甚至在回放期间，也可以移动声音源，因而，支持特殊音频效果。
然而，为了允许对声音源的平滑移动，解码器必须包含足够数量的HRTF对，来自由地在水平面和垂直面二者中改变在空间音像中的声音源的地点。对于上面描述的立体声解码器，已经推断出连续的音像控制需要在上半球体中的64个HRTF对。
然而，现在，从当创建立体声演奏控制时，解码器可能没有HRTF 滤波器对的全范围来横跨整个球体(或半球)，或者解析度可能比内容创建者所想要的更加粗糙的事实中，问题可能出现。立体声解码器标准没有指定任何特定HRTF组。因此，内容创建不具有关于在立体声解码器中的可用HRTF滤波器^:据库的^f壬何知识，由此，
16可能无法充分地荻得由比特流语法定义的解析度。
如果在比特流中的通道配置信息包括在声音源的地点上的突然的改变，即，移动，进一步的问题出现了。如同上面所提到的，应当将控制信息的比特率保持在尽可能低。在声音源地点上的任何突然的改变，需要将附加的码字包括在比特流中，该码字向解码器指示了所期待的移动。由于对码字的差分编码的本性，典型地跟着发生的是移动越大，为指示该改变所需要的码字越长。因此，在声音源的位置中的任何突然改变，增加了控制信息的比特率。
现在，可用一种实施方式来避免这些问题，根据该实施方式，布置解码器来以步进运动搜索最接近于在通道配置信息中指示的声
音源地点的HRTF滤波器对，借以，无论解码器中的实际源地点解析度，而将声音源移动的角速度保持为常量。由于不需要在比特流的控制信息中指示突然的改变(即，长的码字)，可将控制信息的比特率有益地最小化。例如，可通过略去特别为指示突然的移动的
长代码字而保留的比特，而简化控制信,l的语法。
根据一个实施方式，按照在所有可能的仰角的水平面中的10度步进来实现搜索最紧密接近于所指示的声音源地点的HRTF滤波器对的步进运动。如同在图6中所指出的，声音源地点的解析度随着更高的仰角(例如，超过45度)，而不可避免地比在方位角平面上更加粗糙。现在，如果由控制信息指示的声音源移动仅在垂直方向上，可能发生的是，在对应的水平角中没有"更高，，的声音源地点可用。因而，必须搜索在特定仰角上可用的最接近的HRTF滤波器对，对其按照在水平面中的增加的步幅(优选地，按照IO度的步幅) 来执行是有利的。而且，能够确保找到对所期待的声音源地点的最可能的近似，而无需任何附加的控制信息。
本领域技术人员意识到，上面提到的IO度步幅仅是对能在对最佳HRTF滤波器对的搜索中使用的合适的增量步幅的举例。依赖于解码器结构，例如20度可以是合适的增量步幅。因而，可将任何合适的值用作增量步幅，优选地，是在5度和30度之间的任何值。上面的实施方式提供了显著的优点。由于声音源在水平面中的移动的恒定的角速度，可以最小化控制信息的比特率。而且，即使
解码器仅包含HRTF滤波器的有限的组，动态立体声控制也是可用的。从内容创建的观点看，由于总是能够获得对音像的最可能近似, 因而能够可靠地利用动态控制。
当声音源在半球的"顶点"的直接上方或紧邻上方移动时，特殊情况发生，借以，所需要的角速度接近无穷大。例如，当声音源位于45度的角方向上，以及将仰角逐步增加到最终跨越90度(在顶点)时，需要将角方向改变为45+180=225度。对于有限的差分编码，180度的改变并非必然可用。
根据一个实施方式，布置解码器来监视在声音源的移动中是否跨越了奇点位置(顶点)，以及如果是肯定的，布置解码器以计算上的180度将声音源地点的水平角旋转，即，在跨过奇点位置之后，解码器向所期待的源角度上增加180度。此计算操作允许对增量的步进运动的平滑延续。
根据一个实施方式，将此计算操作实现为对解码器软件的微小添加。在差分位置编码中，可用例如如下的实施解码器实现
/* Read differential motion from the bit stream */ Angular—step = decode—angular(bit一stream) /* step in degrees */ Elevation—step = decode—elevation(bit_stream) /* step in degrees "
Update the vertical angle */ Elevation—angle += Elevation—step;
/* Check crossing of singular position (zenith) */ If (Elevation—angle > 90) /* sound crosses singularity */ Angular_angle—correction = 180;
18Else
Angular_angle—correction = 0; /* Update the horizontal angle */
Angular—angle += Angular—step + Angular—angle—correction;
因而，无需180度的绝对源地点更新，而用直接的计算操作操纵处理奇点位置的问题。
本领域技术人员意识到，可将上面描述的任意实施方式实现为连同一个或多个其他实施方式的组合，除非明示地或暗示地声明特定多个实施方式彼此仅为替代方案。
在图7的流程图中进一步示出了实施方式的一些，从解码器操作的视角对其进行描绘。操作的起点是将经参数化编码的音频信号输入(700)解码器，经参数化编码的音频信号包含多个音频通道的至少一种组合信号和旁信息的一个或多个对应组，以及旁信息也包
括通道配置信息。如同上面所描述的，通道配置信息包括音频源地点数据，其描述了在立体声音频信号中的音频源的水平和/或垂直位
置。从通道配置信息导出(702)此音频源地点数据。
根据一个实施方式，接下来，检查对奇点位置可能的跨越。因而，解码器监视(704 )音频源地点数据是否意味着此类声音源移动，该声音源移动跨越了在声像中的奇点位置(顶点)。如果在音频源地点数据中指示了此类声音源移动，在跨越了奇点位置之后，以计算上的180度来旋转(706)声音源地点的水平角。
无论是否需要操控奇点位置，解码器继续以步进运动在水平面中从与头部相关的传输函数滤波器的预定组中搜索(708 ) HRTF滤波器的左-右对。接着，选择(710)最紧密匹配音频源地点数据的 HRTF滤波器的左-右对。最后，根据旁信息和通道配置信息，从至少一种经处理的信号合成(712)立体声音频信号，使得根据音频源地点数据的指示，至少在近似于声音源的正确位置处重现声音源。上面的用增量的步幅搜索最佳HRTF滤波器对以及处理奇点位
置的实施方式，可以实现为专用于解码器的特征，借以，在用预定
步幅搜索最佳HRTF滤波器对之后，布置解码器来自动地选择最佳 HRTF滤波器对，而无需来自编码器的任何指令。然而，在一些场合, 内容创建者可控制至少对增量步幅的使用，借以，可在从编码器接收的比特流的通道配置信息(CC)中包括所期待的增量步幅和它们的方向。也可能的是，内容创建者将对绝对源地点的180度更新包括在比特流中，以及因而，直接控制对声音源地点的水平角的旋转, 而无需解码器干预。然而，这需要增加足够长以能够指示180度改变的码字(即，增加控制信息的比特率)。
因此，本发明的一方面涉及用于从包括多个音频通道的多通道音频信号中生成经参数化编码音频信号的参数化音频编码器。解码器生成多个音频通道的至少一种组合的信号。此外，编码器生成包括通道配置信息的旁信息的一个或多个对应组，用于在对立体声音频信号的合成中控制音频源地点。接下来，通道配置信息包括用于在对立体声音频信号的合成期间，以步进运动搜索最紧密匹配音频源地点数据的HRTF滤波器的左-右对的信息。因此，内容创建者能够控制立体声缩混过程，以及在解码器中对增量步幅的使用。例如，通过将声音源(虚拟扬声器)进一步地移动以远离中心(中央)轴，能够增强空间效果。此外，在回放期间，能够移动一个或多个声音源，因而支持特殊音频效果。因此，与用于具有(物理上)固定的扩音器位置的扩音器展现相比，内容创建者在设计用于立体声内容的音像中有更多的自由度和灵活性。
解码器可以是例如被同样地为人所知的BCC编码器，将其进一步布置来计算附加于或者替代了描述多通道声像的通道间提示 ICTD、 ICLD和ICC的通道配置信息。在静态通道配置的情况下，或者如果使用动态配置更新，编码器可在临时地被包含在所传送的比特流内的单独的字段内，将通道配置信息编码在增益估计内，或者作为单一的信息块而编码在音频流的开始。继而，可以优选地^吏
20用用于编码和信号的适当的低比特率音频编码方案将和信号及旁信息二者附加通道配置信息传送到接收机侧。
由于为对一种组合的通道和必要的旁信息的传输所需要的比特率非常低，本发明尤其可应用于这样的系统中，其中可用的带宽是稀缺资源，诸如无线通信系统。因而，这些实施方式尤其可应用于移动终端中或其他典型地缺乏高质量扩音器的便携设备中，其中根据这些实施方式，通过倾听立体声音频信号的耳机，可引入多通道环绕声响的特征。可行的应用的进一步的领域包括电话会议服务，其中，通过向倾听者给出会议呼叫参与者处于会议室的不同地点的印象而能够容易地区分电话会议的参与者。
图8示出了数据处理设备(TE)的简化的结构，其中能够实现根据本发明的立体声解码系统。数据处理设备(TE)可以是例如移动终端、PDA设备或个人计算机(PC)。数据处理单元(TE)包括 1/0装置(I/O)、中央处理单元(CPU)和存储器(MEM)。存储器(MEM)包括只读存储器ROM部分和可重写部分，诸如随机存取存储器RAM和FLASH存储器。通过I/O装置(I/O )传送来往于中央处理单元(CPU)的用来与例如CD-ROM、其他i殳备和用户的不同的外部方通信的信息。如果将数据处理设备实现为移动站，则其典型地包括收发机Tx/Rx，其通过天线典型地通过基站收发机台 (BTS)与无线网络通信。用户接口 (UI)装备典型地包括显示器、键区、麦克风和用于耳机的连接装置。数据处理设备可进一步地包括用于多种硬件模块或作为集成电路IC的诸如标准形式槽的连接装置MMC,其可提供将运行于数据处理设备中的多种应用。
因而，可将根据本发明的立体声解码系统执行于数据处理设备的中央处理单元CPU中或专用数字信号处理器DSP (参数化编码处理器)中，借以，数据处理设备接收经参数化编码的音频信号，所述音频信号包括多个音频通道的至少一种组合的信号和描述了多通道声像的旁信息的一个或多个对应组，以及也包括用于在对立体声音频信号的合成中控制音频源地点的通道配置信息。可从例如CD-ROM的存储器装置或者经由天线和收发机Tx/Rx而从无线网络接收经参数化编码的音频信号。处理单元(DSP或CPU)从通道配置信息导出在立体声音频信号中的描述了音频源的水平和/或垂直位置的音频源地点数据。数据处理设备进一步包括与头部相关的传输函数滤波器的预定组，从中选择最紧密匹配于音频源地,泉数据的与头部相关的传输函数滤波器的左-右对，使得在水平面中以步进运动搜索与头部相关的传输函数滤波器的左-右对。最后，数据处理设备进一步包括用于根据旁信息和所述通道配置信息而从至少一种经处理的信号合成立体声音频信号的合成器。继而，经由耳机重现立体声音频信号。
可将解码器作为数据处理设备TE的集成部分(即，作为嵌入的结构)而实现于数据处理设备TE中，或者解码器可以是单独的模块，其包括所需要的解码功能，以及可附着于多种数据处理设备。可将所需要的解码功能实现为芯片组，即集成电路和用于将该集成电路连接到数据处理设备的必要的连接装置。
信号处理器DSP中执行根据本发明的编码系统，借以，数据处理设
备生成经参数化编码的音频信号，所述音频信号包括多个音频通道
的至少一种组合的信号和旁信息的一个或多个对应组，包括在合成立体声音频信号中用于控制音频源地点的通道配置信息，所述通道
配置信息包括在对立体声音频信号的合成期间，用于从与头部相关联的传输函数滤波器的预定组中以步进运动而搜索最紧密匹配于音频源地点数据的与头部相关联的传输函数滤波器的左-右对。
可在诸如移动站的终端设备中实现本发明的功能，也可将本发明的功能实现为计算机程序，当在中央处理单元CPU中或在专用数字信号处理器DSP中执行时，所述计算机程序影响所述终端设备来实现本发明的过程。可将计算机程序(软件(SW))的功能分布于彼此通信的若干单独的程序组件。可将计算机软件存储于任何存储器装置，诸如PC的硬盘或DVD或CD-ROM盘、Flash存储器等，从中，可将计算机程序加载到移动终端的存储器中。例如使用TCP/IP 协议栈，也可通过网络加载计算机软件。
也可以使用硬件解决方案或硬件解决方案和软件解决方案的组合来实现本发明的装置。因而，可将上面的计算机程序产品至少部
分地实现为在硬件才莫块中的例如ASIC或FPGA电路的硬件解决方案或者一个或多个集成电路IC，所述硬件模块包括用于将该模块连接到电子设备的连接装置，所述硬件模块或IC进一步包括用于执行所述程序代码任务的多种装置，所述装置可由硬件和/或软件实现。
应当理解，本发明不仅限于上面展现的实施方式，而是可将其在所附的权利要求的范围内进行修改。
权利要求
1. 一种方法，包括输入经参数化编码的音频信号，所述音频信号包括多个音频通道的至少一种组合信号，和描述了多通道声像的旁信息的一个或多个对应组，也包括通道配置信息；从所述通道配置信息导出音频源地点数据，所述音频源地点数据描述了在所述音频信号中的音频源的水平位置和垂直位置的至少一个；从与头部相关的传输函数滤波器的预定组中选择最紧密匹配于音频源地点数据的与头部相关的传输函数滤波器的左-右对，其中在空间音像中搜索与头部相关的传输函数滤波器的左-右对；以及根据旁信息和所述通道配置信息，从至少一种经处理的信号合成立体声音频信号。
2. 根据权利要求1所述的方法，进一步包括在水平面内以步进运动搜索与头部相关的传输函数滤波器的左-右对。
3. 根据权利要求1或2所述的方法，进一步包括将所述声音源移动的角速度控制保持为常量；以及搜索最紧密匹配于所述音频源地点数据的与头部相关的传输函数滤波器的左-右对。
4. 根据权利要求2所述的方法，其中在多个仰角上的水平面中，用10度或20度步幅实现所述步进运动。
5. 根据前述任何一个权利要求所述的方法，进一步包括监视所述音频源地点数据是否意味着声音源的移动跨越了所述声像中的奇点位置；以及如果是肯定的，在跨过所述奇点位置之后，以计算上的180度旋转声音源地点的水平角。
6. 根据前述任何一个权利要求所述的方法，其中所述旁信息的组进一步包括在立体声提示编码(BCC)方案中使用的通道间^是示，诸如通道间时间差别(ICTD)、通道间水准差别 (ICLD)以及通道间一致性(ICC)。
7. 根据权利要求6所述的方法，其中合成立体声音频信号的所述步骤进一步包括在立体声提示编码(BCC)合成过程中，从至少一种组合的信号中，合成所述多个音频通道的多个音频信号，其是根据所述旁信息的一个或多个对应组来控制的；以及将所述多个经合成的音频信号应用于立体声缩混过程。
8. —种器件，包括用于处理经参数化编码的音频信号的参数化代码处理器，所述音频信号包括多个音频通道的至少一种组合的信号，和描述了多通道声像的旁信息的一个或多个对应组，也包括通道配置信息，其中从所述通道配置信息导出描述了在所述音频信号中的音频源的水平位置和垂直位置的至少一个的音频源地点数据；与头部相关的传输函数滤波器的预定组，从与头部相关的传输函数滤波器的预定组中，布置最紧密匹配所述音频源地点数据的与头部相关的传输函数滤波器的左-右对来选择，使得在空间音像中搜索与头部相关的传输函数滤波器的左-右对；以及合成器，用于根据旁信息和所述通道配置信息，从至少一种经处理的信号合成立体声音频信号。
9. 根据权利要求8所述的器件，其中布置以在水平面中以步进运动搜索与头部相关的传输函数滤波器的最紧密匹配的左-右对。
10. 根据权利要求9所述的器件，其中在多个仰角上的水平面中，用10度或20度步幅实现所述步进运动。
11. 根据权利要求8到10的任何一个所述的器件，进一步包括用于将对所述声音源移动的角速度控制保持为常量，以及用于搜索最紧密匹配于所述音频源地点数据的与头部相关的传输函数滤波器的左-右对的处理单元。
12. 根据权利要求11所述的器件，其中布置所述处理单元来监视所述音频源地点数据是否意味着声音源移动跨过了在所述声像中的奇点位置(顶点)；以及如果是肯定的，在跨过所述奇点位置之后，以计算上的180度旋转声音源地点的水平角。
13. 根据权利要求8到12的任何一个所述的器件，其中所述旁信息的组进一步包括在立体声提示编码(BCC)方案中使用的通道间提示，诸如通道间时间差别(ICTD)、通道间水准差别(ICLD)以及通道间一致性(ICC)。
14. 根据权利要求13所述的器件，其中布置所述合成器，来在立体声提示编码(BCC)合成过程中，从至少一种组合的信号中，合成所述多个音频通道的多个音频信号，其是根据所述旁信息的一个或多个对应组来控制的；以及所述器件进一步包括立体声缩混单元，向所述立体声缩混单元应用所述多个经合成的音频信号，用来根据所述通道配置信息合成立体声音频信号。
15. 根据权利要求8到14的任何一个所述的器件，所述器件是移动终端、个人数字助理设备或个人计算机。
16. —种计算机程序产品，存储在计算机可读介质中，并在数据处理设备中可执行，用于处理经参数化编码的音频信号，所述经参数化编码的音频信号包括多个音频通道的至少一种组合的信号，以及描述了多通道声像的旁信息的一个或多个对应组，也包括通道配置信息，所述计算机程序产品包括用于从所述通道配置信息导出音频源地点数据的计算机程序代码段，所述音频源地点数据描述了在所述音频信号中的音频源的水平位置和垂直位置的至少一个；用于从与头部相关的传输函数滤波器的预定组中选择最紧密匹配于音频源地点数据的与头部相关的传输函数滤波器的左-右对的计算机程序代码段，其中在空间音像中搜索与头部相关的传输函数滤波器的左-右对；以及用于根据旁信息和所述通道配置信息，从至少一种经处理的信号合成立体声音频信号的计算机程序代码段。
17. 根据权利要求16所述的计算机程序产品，进一步包括用于在水平面上以步进运动搜索与头部相关的传输函数滤波器的左-右对的计算机程序代码段。
18. —种模块，可附着于数据处理设备，以及包括音频编码器，所述音频编码器包括用于处理经参数化编码的音频信号的参数化代码处理器，所述音频信号包括多个音频通道的至少一种组合的信号，和描述了多通道声像的旁信息的一个或多个对应组，也包括通道配置信息，其中从所述通道配置信息导出描述了在所述立体声音频信号中的音频源的水平位置和垂直位置的至少一个的音频源地,泉数据；与头部相关的传输函数滤波器的预定组，从与头部相关的传输函数滤波器的预定组中，布置来选择最紧密匹配所述音频源地点数据的与头部相关的传输函数滤波器的左-右对，使得在空间音像中搜索与头部相关的传输函数滤波器的左-右对；以及合成器，用于根据旁信息和所述通道配置信息，从至少一种经处理的信号合成立体声音频信号。
19. 根据权利要求18所述的模块，其中布置以在水平面中以步进运动搜索与头部相关的传输函数滤波器的最紧密匹配的左-右对。
20. 根据权利要求18或19所述的模块，其中将所述模块实现为芯片组。
21. —种用于生成经参数化编码的音频信号的方法，所述方法包括输入包括多个音频通道的多通道音频信号；生成所述多个音频通道的至少一种组合的信号；以及生成包括用于在对立体声音频信号的合成中控制音频源地点的通道配置信息的旁信息的一个或多个对应组，所述通道配置信息包括用于在对所述立体声音频信号的所述合成中从与头部相关的传输函数滤波器的预定组中搜索最紧密匹配于在空间音像中的所述音频源地点数据的与头部相关的传输函数滤波器的左-右对的信息。
22. 根据权利要求21所述的方法，其中所述通道配置信息包括用于以步进运动搜索最紧密临近于所述音频源地点数据的与头部相关的传输函数滤波器的左-右对的信息。
23. 根据权利要求21或22所述的方法，其中贯穿立体声音频信号序列，所述音频源地点是静态的，所述方法进一步包括将所述通道配置信息作为信息字段包括在对应于所述立体声音频信号序列的所述旁信息的一个或多个对应组中。
24. 根据权利要求21或22所述的方法，其中所述音频源地点是可变的，所述方法进一步包括将所述通道配置信息作为反映了在所述音频源地点中的变化的多个信息字段包括在所述旁信息的一个或多个对应组中。
25. 根据权利要求21到24的任何一个所述的方法，其中所述旁信息的组进一步包括在立体声提示编码(BCC)方案中使用的通道间提示，诸如通道间时间差别(ICTD)、通道间水准差别(ICLD)以及通道间一致性(ICC)。
26. —种用于生成经参数化编码的音频信号的参数化音频编码器，所述编码器包括用于输入包括多个音频通道的多通道音频信号的装置；用于生成所述多个音频通道的至少一种组合的信号的装置；以及用于生成包括用于在对立体声音频信号的合成中控制音频源地点的通道配置信息的旁信息的一个或多个对应組的装置，所述通道配置信息包括用于在对所述立体声音频信号的所述合成中从与头部相关的传输函数滤波器的预定组中搜索最紧密匹配于在空间音像中的音频源地点数据的与头部相关的传输函数滤波器的左-右对的信自
27. 根据权利要求26所述的编码器，其中所述通道配置信息包括用于以步进运动搜索最紧密临近于所述音频源地点数据的与头部相关的传输函数滤波器的左-右对的信息。
28. 根据权利要求26或27所述的编码器，进一步包括用于当贯穿所述立体声音频信号序列所述音频源地点静止时，将所述通道配置信息作为信息字段包括在所述对应于立体声音频信号序列的旁信息的一个或多个对应组中的装置。
29. 根据权利要求26或27所述的编码器，进一步包括用于当所述音频源地点可变时，将所述通道配置信息作为反映了在所述音频源地点中的变化的多个信息字段包括在所述旁信息的一个或多个对应组中的装置。
30. —种计算机程序产品，存储于计算机可读介质中，并且在数据处理设备中可执行，用于生成经参数化编码的音频信号，所述计算机程序产品包括用于输入包括多个音频通道的多通道音频信号的计算机程序代码段；用于生成所述多个音频通道的至少一种组合的信号的计算机程序代码段；以及用于生成包括用于在对立体声音频信号的合成中控制音频源地点的通道配置信息的旁信息的一个或多个对应组的计算机程序代码段，所述通道配置信息包括用于在对所述立体声音频信号的所述合成期间从与头部相关的传输函数滤波器的预定组中搜索最紧密匹配于在空间音像中的音频源地点数据的与头部相关的传输函数滤波器的左-右对的信息。
31. 根据权利要求30所述的计算机程序产品，进一步包括用于生成通道配置信息的计算机程序代码段，所述通道配置信,l包括用于以步进运动搜索最紧密临近于所述音频源地点数据的与头部相关的传输函数滤波器的左-右对的信息。
全文摘要
一种方法，包括输入经参数化编码的音频信号，所述音频信号包括多个音频通道的至少一种组合的信号，以及描述了多通道声像的旁信息的一个或多个对应组，也包括通道配置信息；从所述通道配置信息中，导出描述在立体声音频信号中的音频源的水平位置和垂直位置的至少一个的音频源地点数据；从与头部相关的传输函数滤波器的预定组中选择最紧密匹配于音频源地点数据的与头部相关的传输函数滤波器的左-右对，其中优选地在水平面中以步进运动搜索与头部相关的传输函数滤波器的左-右对；以及根据旁信息和所述通道配置信息，从至少一种经处理的信号合成立体声音频信号。
文档编号G10L19/00GK101490743SQ200780025803
公开日2009年7月22日申请日期2007年6月18日优先权日2006年7月8日
发明者J·蒂尔屈, P·奥雅拉申请人:诺基亚公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：P.奥雅拉;J.蒂尔屈
技术所有人：诺基亚公司
我是此专利的发明人