使用相位值平滑对下混频音频信号进行上混频的装置、方法和计算机程序的制作方法

文档序号：2824713阅读：455来源：国知局

专利名称：使用相位值平滑对下混频音频信号进行上混频的装置、方法和计算机程序的制作方法
技术领域：
根据本发明的实施例涉及一种用于对下混频音频信号进行上混频的装置、方法和计算机程序。根据本发明的一些实施例涉及参数多声道音频编码的自适应相位参数平滑。
背景技术：
下面将描述本发明的背景。参数音频编码领域中的新近发展发表了将多声道音频 (例如，5. 1)信号联合编码成一个(或一个以上)下混频声道加辅助信息流的技术。这些技术被称为双耳提示编码(Binaural CueCoding)、参数立体声、及MPEG环绕等等。许多出版物描述了所谓的“双耳提示编码”参数多声道编码方法，例如见参考文献 [1][2] [3] [4] [5]。“参数立体声」”是一种基于传输的单声道信号加参数辅助信息的双声道立体声信号的参数编码的相关技术，例如见参考文献[6] [7]。"MPEG环绕”是参数多声道编码的ISO标准，例如见参考文献[8]。上面提及的技术是基于将压缩形式的人类空间听觉的相关感知提示以及相关联的单声道或立体声下混频信号传输至接收器。典型的提示可以是声道间级差(ILD)、声道间相关或相干(ICC)、以及声道间时间差(ITD)、声道间相位差(IPD)、及总相位差(OPD)。这些参数在一些情况中以适合于人类听觉分辨率的频率与时间分辨率来传输。对该传输而言，典型地对这些参数进行量化(或在一些情况中甚至必须被量化)，其中经常(尤其是对低比特率情境)使用相当粗略的量化。时间上的更新间隔由编码器根据信号特性确定。这意味着，并非对下混频信号的每个采样都传输参数。换言之，在一些情况中，描述上面提及的提示的参数的传输速率(或传输频率，或更新速率)可以小于音频采样(或诸组音频采样)的传输速率(或传输频率，或更新速率)。代替传输声道间相位差(IPD)及总相位差(OPD)，仅传输声道间相位差(IPD)并估计解码器中总相位差(OPD)也是可能的。由于解码器在一些情况中可能必须以无隙方式随时间将参数连续应用于例如每个采样(或音频采样)，因此可能需要在解码器侧处得到中间参数，典型地是通过过去与当前参数集的间的内插。然而，一些传统内插方法导致不良的音频质量。下面参考图7将描述通用双耳提示编码方案。图7示出了双耳提示编码传输系统 800的示意框图，该双耳提示编码传输系统800包含双耳提示编码编码器810及双耳提示编码解码器820。双耳提示编码编码器810可以例如接收多个音频信号81加、81沘及812c。进一步地，双耳提示编码编码器810被配置为利用下混频器814来对音频输入信号81h-812c 进行下混频以获得下混频信号816，该下混频信号816例如可以是和信号且可被用“AS”或“X”表示。进一步地，双耳提示编码编码器810被配置为利用分析器818来分析音频输入信号812a-812c以获得辅助信息信号819 (“Si”)。和信号816及辅助信息信号819自双耳提示编码编码器810传输至双耳提示编码解码器820。双耳提示编码解码器820可被配置为基于和信号816及声道间提示拟4合成多声道音频输出信号，该多声道音频输入信号例如包含音频声道yl、y2，...yN。为此目的，双耳提示编码解码器820可以包含双耳提示编码合成器822，该双耳提示编码合成器822接收和信号816及声道间提示拟4并提供音频信双耳提示编码解码器820进一步包含辅助信息处理器826，该辅助信息处理器拟6 被配置为接收辅助信息819，以及可选地接收使用者输入827。该辅助信息处理器拟6被配置为基于辅助信息819和可选使用者输入827来提供声道间提示824。总之，对音频输入信号进行分析且下混频。和信号与辅助信息被传输至解码器。声道间提示是由辅助信息及本地使用者输入来产生的。双耳提示编码合成产生多声道音频输出信号。至于详情请参考C. Faller 与 F. Baumgarte 所著文章“Binaural CueCoding Part II Schemes and applications,"(出版于2003年11月第11卷语音与音频处理的IEEE 学报)。然而，已得知的是，如果辅助信息被粗略量化或分辨率不足，许多传统双耳提示编码解码器提供质量劣化的多声道输出音频信号。鉴于此问题，需要一种将下混频音频信号上混频成上混频的音频信号的改进构思，这在描述上混频信号不同声道中之间的相位关系的辅助信息以相对低分辨率被量化的情况下，减少了听觉印象的降级。

发明内容
根据本发明的实施例建立一种用于将描述了一个或一个以上下混频音频声道的下混频音频信号上混频成描述了多个上混频音频声道的上混频音频信号的装置。该装置包含上混频器，该上混频器被配置为应用时变上混频参数来对下混频信号进行上混频，以便获得上混频音频信号。该时变上混频参数包含时变平滑的相位值。该装置进一步包含参数确定器，该参数确定器被配置为基于量化的上混频参数输入信息来获得一个或一个以上时间平滑的上混频参数，以由该上混频器使用。该参数确定器被配置为利用相位改变限制算法，来将前一平滑的相位值的缩放版本与输入相位信息的缩放版本相组合，以基于该前一平滑的相位值及该输入相位信息来确定当前平滑的相位值。根据本发明的该实施例是基于下述发现上混频信号中的可听伪像可以通过利用相位改变限制算法来将前一平滑的相位值的缩放版本与输入相位信息的缩放版本相组合来减少或甚至避免，因为结合相位改变限制算法考虑前一平滑的相位值允许将平滑的相位值的不连续性保持适度地小。后续平滑的相位值的间(例如，前一平滑的相位值与当前平滑的相位值)不连续性的减小相应地有助于避免(或保持足够小)应用了后续相位值(例如，前一平滑的相位值与当前平滑的相位值)的音频信号的部分之间的过渡的可听频率变化。综上所述，本发明建立参数多声道音频编码的自适应相位处理的一般性概念。根据本发明的实施例通过减少由粗略量化或快速改变相位参数而引起的输出信号中的伪像取代其它技术。在优选实施例中，参数确定器被配置为将前一平滑的相位值的缩放版本与输入相位信息的缩放版本相组合，使得当前平滑的相位值在第一角度区域与一第二角度区域中的较小角度区域中，其中第一角度区域沿着数学正方向从前一平滑的相位值所定义的第一开始方向延伸至相位输入信息所定义的第一结束方向，其中第二角度区域沿着数学正方向从输入相位信息所定义的一第二开始方向延伸至前一平滑的相位值所定义的第二结束方向。因此，在本发明的一些实施例中，由相位值的递归(无限脉冲响应型)平滑而引入的相位变化保持尽可能小。因此，可听伪像保持尽可能小。例如，装置可以被配置为确保当前平滑的相位值置于两角度范围中的较小角度范围中，其中该两角度范围中的第一角度范围覆盖大于180°及其中该角度范围中的第二角度范围覆盖小于180°，两个角度范围共同覆盖 360°。因此，相位改变限制算法确保了前一平滑化的相位值与当前平滑的相位值之间的相位差小于180°，优选地甚至小于90°。这有助于保持可听伪像尽可能小。在优选实施例中，参数确定器被配置为根据相位输入信息与前一平滑的相位值之间的差值，从多个不同组合规则中选择组合规则，并利用选定的组合规则来确定该当前平滑的相位值。因此，可以实现的是选择适当的组合规则，这确保了前一平滑化相位值与当前平滑的相位值之间的相位改变小于预定阈值、或更概括而言足够地小或尽可能小。因此，本发明装置胜过类似具有固定组合规则的类似装置。在优选实施例中，参数确定器被配置为如果相位输入信息与前一平滑的相位值之间的差值在-η与+ η的范围内，则选择基本组合规则，否则选择一个或一个以上不同的相位适应组合规则。基本组合规则定义了相位输入信息的缩放版本与前一平滑化相位值的缩放版本的线性组合，而无需恒定被加数。一个或一个以上相位适应组合规则考虑了恒定相位适应被加数，定义了输入相位信息的缩放版本与前一平滑的相位值的缩放版本线性组合。因此，可以执行前一平滑的相位值与输入相位信息的有利且易于实施的线性组合，其中如果前一平滑的相位值与输入相位信息之间的差值取相对大的值(大于η或小于-η)，则可以选择性地应用附加的被加数。因此，前一平滑的相位值与输入相位信息之间的差值大的问题情况可用特定适宜的相位适应组合规则来处理，该特定适宜的相位适应组合规则允许保持后续平滑的相位值之间的相位改变足够小。在优选实施例中，该参数确定器包含平滑控制器，其中该平滑控制器被配置为，在平滑的相位量与对应的输入相位量之间的差值大于预定阈值的情况下，选择性地禁用相位值平滑功能。因此，如果存在较大的输入相位信息改变，则可以禁用相位值平滑功能。典型地，输入相位信息的极大改变表示的是，确实期望执行非平滑的相位改变，因为输入相位信息的相当大的改变(显著大于量化步骤)通常与音频信号内的特定声音事件有关。因此，在大部分情况下改进听觉印象的对相位值的平滑在此特定情况中是有害的。因此，该听觉印象甚至可以通过选择性地禁用相位值平滑功能来改进。在优选实施例中，平滑控制器被配置为对两个平滑的相位值之间的差值进行评估作为该平滑的相位量，并且对与这两个平滑的相位值相对应的两个输入相位值之间的差值进行评估，作为对应的输入相位量。已经发现，在一些情况中，与多声道音频信号的不同 (上混频)声道相关联的相位值之间的差值是判定应当启用还是禁用相位值平滑功能的特别有意义的量。在优选实施例中，上混频器被配置为，如果平滑化功能(或相位值平滑功能)被启用，则对于指定时间部分应用由不同平滑的相位值定义的不同时间上平滑的相位旋转，来获得具有声道间相位差的上混频音频声道的信号，并且如果平滑功能(或相位值平滑功能)被禁用，则应用由不同非平滑相位值定义的时间上非平滑的相位旋转，来获得具有声道间相位差的不同上混频音频声道的信号。在此情况中，参数确定器包含平滑控制器，平滑控制器被配置为，如果平滑的相位值之间的差值与非平滑的声道间相位差值存在差异且该差异超过预定阈值，则选择性地禁用相位值平滑功能，平滑的相位值被应用于获得不同上混频音频声道的信号，非平滑的声道间相位差值由所述装置接收或由所述装置从接收到的信息中导出。已经发现，如果声道间相位差值被评估为用于激活和去激活相位值平滑功能的准则，则相位值平滑功能的选择性去激活就提高听觉印象而言是特别有用的。在优选实施例中，参数确定器被配置为，根据平滑的相位值与对应的输入相位值之间的当前差值，来调整滤波器时间常数，以确定平滑相位值序列。通过调整滤波器时间常数可以实现的是，非常大的输入相位值改变获得足够小的稳定时间(settling time)，而对输入相位值的较低或中等改变保持充分良好的平滑特性。此功能带来了特别的好处，因为输入相位值的相当小的(或至多中等规模的)改变通常是由量化粒度引起。换言之，由量化粒度引起的输入相位值的逐步改变可以造成有效的平滑操作。在这种情况中，平滑功能特别有利，其中，相对长的滤波器时间常数带来良好结果。相反，显著大于量化步骤的非常大的输入相位值改变典型地对应于期望的较大相位值改变。在此情况中，相对短的滤波器时间常数带来良好结果。因此，通过根据平滑的相位值与对应的输入相位值之间的当前差值，来调整滤波器时间常数可达到的是，输入相位值的有意较大改变造成平滑的相位值的快速改变，而取量化步骤的规模的输入相位值的相对小的改变造成平滑相位值的相对慢且平滑的过渡。因此，对于期望相位值的有意、较大改变以及对于期望相位值的较小改变(然而可以由一个量化步骤引起该输入相位值的改变)皆达到良好的听觉印象。在优选实施例中，参数确定器被配置为根据平滑声道间相位差与非平滑声道相位差之间的差值，来调整滤波器时间常数以确定平滑相位值序列，平滑声道间相位差由与上混频音频信号的不同声道相关联的两个平滑的相位值之间的差值来定义，非平滑声道相位差由非平滑声道间相位差信息来定义。已经发现，选择性地调整滤波器时间常数的构想可以有利地结合声道间相位差的处理来使用。在优选实施例中，用于上混频的装置被配置为根据从音频比特流中提取的信息，选择性地启用或禁用相位值平滑功能。已经发现，听觉印象的改进可以通过在音频编码器的控制下提供选择性启用或禁用音频解码器内的相位值平滑功能的可能性来获得。根据本发明的实施例建立一种实施上面所讨论用于将下混频音频信号上混频成上混频音频信号的装置的功能的方法。所述方法基于与所讨论装置的相同构想。此外，根据本发明的实施例建立一种用于执行所述方法的计算机程序。

参考附图随后将描述根据本发明的实施例，在附图中图1示出了根据本发明实施例的用于对下混频音频信号进行上混频的装置示意框图；图加和2b示出了根据本发明另一实施例的用于对下混频音频信号进行上混频的装置的示意框图；图3示出了总相位差0PD1、0PD2和声道间相位差IPD的示意图；图如和4b示出了相位改变限制算法的第一种情况的相位关系的图示；图fe和恥示出了相位改变限制算法的第二种情况的相位关系的图示；图6示出了根据本发明实施例的用于将下混频音频信号上混频成上混频音频信号的方法的流程图；图7示出了表示通用双耳提示编码方案的示意框图。
具体实施例方式1.根据图1的实施例图1示出了根据本发明实施例的用于对下混频音频信号进行上混频的装置100的示意框图。装置100被配置为接收对一个或一个以上下混频音频声道加以描述的下混频音频信号110，并且提供对多个上混频音频声道加以描述的上混频音频信号120。装置100包含上混频器130，该上混频器130被配置为应用时变上混频参数来对下混频音频信号进行上混频，以便获得上混频的音频信号120。装置100还包含参数确定器140，该参数确定器 140被配置为接收量化的上混频参数输入信息142。参数确定器140被配置为基于量化的上混频参数输入信息142来获得一个或一个以上时间上平滑的上混频参数144以供上混频器130使用。参数确定器140被配置为利用相位改变限制算法146，将前一平滑的相位值的缩放版本与包括在量化的上混频参数输入信息142中的输入相位信息14 的缩放版本相组合，以基于前一平滑的相位值和该输入相位信息142来确定当前平滑的相位值IMa。该当前平滑的相位值14 包括在时变平滑的上混频参数144中。下面将说明有关装置100的功能的一些细节。下混频音频信号110例如以复值集合序列的形式被输入至上混频器130中，该复值集合序列表示时频域(描述在由此处未示出的编码器确定的更新速率下的交叠与非交叠频带或频率子带)中的下混频音频信号。上混频器130被配置为根据时变、平滑的上混频参数来将下混频音频信号110的多个声道线性组合，及/或将下混频音频信号110的声道与辅助信号(例如，去相关信号)线性组合 (其中该辅助信号可以从下混频音频信号110的当前音频声道、下混频音频信号110的一个或一个以上其它音频声道、或下混频音频信号110的音频声道的组合中获得)。因此，上混频器130可以使用时变平滑的上混频参数144，基于下混频音频信号110来判定在产生上混频音频信号120(或其声道)中所使用的幅度缩放和/或相位旋转(或时间延迟)。参数确定器140典型地被配置为以等于(或在一些情况中高于)量化的上混频参数输入信息142所描述的辅助信息的更新速率来提供时变、平滑的上混频参数144。参数确定器140可以被配置为避免(或至少减小)由量化的上混频参数输入信息142的粗略(比特率节省)量化而引起的伪像。为此目的，参数确定器140可以对例如描述声道间相位差的相位信息应用平滑。该对包括在量化的上混频参数输入信息142中的输入相位信息14 的平滑是利用相位改变限制算法143来执行的，使得避免了会造成可听伪像的相位的较大且突然的改变(或至少被限制到可容忍的程度)。优选地，通过将前一平滑的相位值与输入相位信息14 的值相结合来执行平滑，使得当前平滑化的相位值依赖于前一平滑的相位值和输入相位信息14 的当前值。如此，可以利用简单结构的平滑算法来获得特定的平滑过渡。换言之，有限脉冲响应平滑的缺点可以通过提供考虑了前一平滑化相位值的无限脉冲响应型平滑来避免。可选地，参数确定器140可以包含附加的内插功能，如果量化的上混频参数输入信息142以相对长的时间间隔来传输(例如，每组下混频音频信号110的频谱值不到一次)，则该内插功能是有利的。总之，装置100允许基于量化的上混频参数输入信息142提供时变平滑的相位值 144a，使得时变平滑的相位值14 非常适合于利用上混频器130从下混频音频信号中导出上混频音频信号120。利用上面讨论构思来提供平滑的相位值144减小了(或甚至消除)可听伪像，其中对前一平滑的相位值的考虑与相位改变限制结合。因此，实现上混频音频信号120的良好听觉效果。2.根据图2的实施例2. 1.图2的实施例的概述参考图加和2b将描述有关用于对音频信号进行上混频的装置的结构和操作的进一步细节。图加和2b示出了根据本发明另一实施例的用于对下混频音频信号进行混频的装置200的详细示意性框图。装置200可以被视作用于基于下混频音频信号210和辅助信息SI产生多声道(例如，5. 1)音频信号的解码器。装置200实现了关于装置100而描述的功能。装置200可以例如服务对根据所谓的“双耳提示编码”、所谓的“参数立体声”或所谓的“MPEG环绕”而编码的多声道音频信号。自然地，装置200可以类似地用于对根据其它利用空间提示的系统而编码的多声道音频信号进行上混频。为简明起见，装置200被描述为对单一声道下混频音频信号执行一上混频成为双声道信号。然而，这里说明的构想易于扩展至下混频音频信号包含一个以上声道的情况，且也易于扩展至上混频音频信号包含两个以上声道的情况。2.2.图2实施例的输入信号与输入时序装置200被配置为接收下混频音频信号210及辅助信息212。此外，装置200被配置为提供包含例如多个声道的上混频音频信号214。下混频音频信号210例如可以是由编码器(例如，图7所示的BCC编码器810) 产生的和信号。例如，下混频音频信号210可以例如以复值频率分解的形式在时频域中表示。例如，音频信号的多个频率子带(可以交叠或非交叠)的音频内容可以用对应的复值表示。对于指定频带，下混频音频信号可以由对考虑了后续(交叠与非交叠)时间间隔的频率子带中的音频内容加以描述的复值序列来表示。后续时间间隔的后续复值可以在装置 100(其可以是多声道音频信号解码器的部分)或耦接至装置100的附加装置中例如利用滤波器组(例如，QMF滤波器组)、快速傅立叶变换或其它同等物来获得。然而，本文所予以描述的下混频音频信号210的表示通常不等同于用于从多声道音频信号编码器传输至多声道音频信号解码器或装置100的下混频信号的表示。因此，下混频音频信号210可以由复值集合或向量组成的流来表示。下面假定，下混频音频信号210的后续时间间隔用整数值索引k标示。还假定的是，装置200在下混频音频信号210的每一间隔k及每一声道接收一个复值集合或向量。因此，在时间索引k描述的每一个音频采样更新间隔内接收一个采样(复值集合或向量)。换言之，下混频音频信号210的音频采样(“AS”)由装置210接收，使得单一音频采样AS与每个音频采样更新间隔k相关联。装置200还接收对上混频参数加以描述的辅助信息。例如，辅助信息212可以描述下列上混频参数中的一个或多个声道间级差(ILD)、声道间相关(或相干)(ICC)、声道间时间差(ITD)、声道间相位差(IPD)、及总相位差(OPD)。典型地，辅助信息212包含ILD 参数及参数ICC、ITD、IPD、0PD中的至少一个。然而，为了节省频宽，在一些实施例中辅助信息212在下混频音频信号210的每倍数音频采样更新间隔k内仅朝装置200传输或由装置 200接收一次(或单一辅助信息集合的传输可以在时间上覆盖多个音频采样更新间隔k)。因此，在一些情况中，对于多个音频采样更新间隔k仅有一个辅助信息参数集合。然而，在其它情况中，对于每个音频采样更新间隔k可以有一组辅助信息参数。辅助信息更新的间隔以索引η表示，其中仅为简单起见，下面将假定，用整数值索引k表示的下混频音频信号210的后续时间间隔等于更新辅助信息SI212的时间间隔，使得关系k = η成立。然而，如果在下混频音频信号210的每多个后续时间间隔k内仅执行一次辅助信息SI212更新，则例如可以在后续输入相位信息值α η或后续平滑的相位值之间执行内插。例如，辅助信息可以以音频采样更新间隔k = 4、k = 8&k=16被传输至装置 200(或由装置200接收)。相反，在音频采样更新间隔之间不向装置200传输(或由装置 200接收)辅助信息212。因此，辅助信息212的更新间隔可以随时间变化，因为编码器可以例如仅在当需要时(例如，当解码器认识到辅助信息的改变大于预定值时)才确定提供辅助信息更新。例如，装置200在音频采样更新间隔k = 4接收到的辅助信息可以与音频采样更新间隔k = 3、4、5相关联。类似地，装置200在音频采样更新间隔k = 8接收到的辅助信息可以与音频采样更新间隔k = 6、7、8、9、10相关联，以此类推。然而，不同关联自然是可能的，且针对辅助信息的更新间隔自然地也可以大于或小于所讨论的间隔。2.3.图2实施例的输出信号与输出时序然而，装置200服务于在复值频率组成中提供上混频音频信号。例如，装置200可以被配置为提供上混频音频信号214，使得该上混频音频信号包含与下混频音频信号210 相同的音频采样更新间隔或音频信号更新速率。换言之，对于下混频音频信号210的每一采样(或音频采样更新间隔k)，在一些实施例中产生上混频音频信号214的采样。2. 4.上混频下面将详细描述对于每一音频采样间隔k如何获得用于对下混频音频信号210进行上混频的上混频参数的更新，即便在一些实施例中解码器输入辅助信息212仅可以以较大更新间隔来更新。下面，将说明对单个子带的处理，但是此构思自然地可以扩展至多个子
市ο装置200可以包含上混频器230作为关键组件，该上混频器230被配置为作为复值线性组合器进行操作。上混频器230被配置为接收与音频采样更新间隔k相关联的下混频音频信号210(例如，表示特定频带)的采样x(t)或x(k)。信号x(t)或x(k)有时也表示为“干信号”。另外，上混频器230被配置为接收表示下混频音频信号的去相关版本的采样 q(t)或 q(k)。此外，装置200包含去相关器(例如，延迟器或混响器)MO，去相关器240被配置为接收下混频音频信号的采样X(k)并基于此下混频音频信号的采样X(k)提供下混频音频信号(用x(k)表示)的去相关版本的采样q(k)。下混频音频信号(采样X(k))的去相关版本(采样q(k))可以被表示为“湿信号”。上混频器230包含例如矩阵向量乘法器232，该矩阵向量乘法器232被配置为执行 “干信号”(用x(k)表示)与“湿信号”(用q(k)表示)的实值(或在一些情况中，多个值) 线性组合，以获得第一上混频声道信号(用采样丫工仏)表示)与第二上混频声道信号(用采样y2(k)表示)。矩阵向量乘法器232可以例如被配置为执行下列矩阵向量乘法来获得上混频声道信号的采样力仏)%y2(k)卜叫矩阵向量乘法器232或复值线性组合器230还可以包含相位调整器233，该相位调整器233被配置为调整表示上混频声道信号的采样yi(k)与％(10的相位。例如，相位调整器233可以被配置为获得相位调整的第一上混频声道信号，该相位调整的第一上混频信号根据下式由采样3^l(k)表示并获得相位调整的第二上混频声道信号，该相位调整的第二上混频声道信号根据下式由采样歹2(k)表示因此，上混频音频信号214(其采样用3^(k)与2(k)表示)是由复值线性组合器 230基于干信号与湿信号利用时变上混频参数而获得的。时变平滑的相位值5n用于确定上混频音频信号〒l(k)与y2(k)的相位(或声道间相位差)。例如，相位调整器232可以被配置为应用时变平滑的相位值。然而，备选地，时变平滑的相位值可能已被矩阵向量乘法器232 使用(或甚至在矩阵H的项的产生中)。在此情况中，可以完全忽略相位调整器233。2. 5上混频参数的更新如由上述方程式可见，期望在每一音频采样更新间隔k内更新上混频参数矩阵 H(k)与上混频声道相位值ai(k)、a2(k)。在每一音频采样更新间隔k内更新上混频参数矩阵带来该上混频参数矩阵始终良好适应于实际声学环境的优点。因为上混频参数矩阵的改变分布于多个音频采样更新间隔上，即使仅在音频采样的每倍数更新间隔k内更新一次辅助信息212，在每一音频采样更新间隔k内更新上混频参数矩阵也允许保持后续音频采样间隔k之间的上混频参数矩阵H(或其项)的逐步改变较小。同样，期望平滑化由对辅助信息SI212的量化而引起的上混频参数矩阵H的任何改变。类似地，期望频繁地更新上混频声道相位值Ci1GO与α 2(k)，以便至少在连续音频信号期间避免所述上混频声道相位值的逐步改变。再者，期望在时间上平滑上混频声道相位值以便减小或避免可能由对辅助信息SI212的量化而引起的伪像。
装置200包含辅助信息处理单元250，该辅助信息处理单元250被配置为基于辅助信息212提供时变上混频参数沈2，例如，矩阵H(k)的项HijGO与上混频声道相位值 α i (k)、α 2 (k)。辅助信息处理单元250例如被配置为在每一音频采样更新间隔k内提供更新的上混频参数组，即使仅在音频采样的每倍数更新间隔k内更新一次辅助信息212。然而，在一些实施例中辅助信息处理单元250可以被配置为不经常提供更新的时变平滑上混频参数组，例如辅助信息SI 212的每次更新仅提供一次。辅助信息处理单元250包含上混频参数输入信息确定器252，该上混频参数输入信息确定器252被配置为接收辅助信息212并基于此辅助信息212而获得一个或多个上混频参数(例如，以上混频参数的幅值序列2M和上混频参数的相位值序列256的形式)，一个或多个上混频参数可以被视作上混频参数输入信息(包含例如，输入幅度信息2M及输入相位信息256)。例如，上混频参数输入信息确定器252可以组合多个提示(例如，ILD、 ICC、ITD、IPD、0PD)来获得上混频参数输入信息254、256或可以单独评估提示中的一个或多个。上混频参数输入信息确定器252被配置为以输入幅值(也表示为输入幅度信息)序列2M和分离的输入相位值(也表示为输入相位信息)序列256的形式来描述上混频参数。输入相位值序列256的元素可被视作输入相位信息αη。序列254的输入幅值可以例如代表复数的绝对值，及序列256的输入相位值可以例如代表该复数的角度值(或相位值)(例如相对于实部虚部正交坐标系中的实部轴而测量的)。因此，上混频参数输入信息确定器252可以提供上混频参数的输入幅值序列2Μ 和上混频参数的输入相位值序列256。上混频参数输入信息确定器252可以被配置为从辅助信息集合中获得完整的上混频参数集合(例如，矩阵H的完整矩阵元素集合和相位值 QpQ2的完整集合)。辅助信息集合212与输入上混频参数集合254、256之间存在关联。因此，上混频参数输入信息确定器252可以被配置为在每一上混频参数更新间隔内更新一次序列254、256的输入上混频参数，即每次更新该辅助信息集合时更新一次。辅助信息处理单元还包含参数平滑器(有时也被简单表示为“参数确定器”060，该参数平滑器260将在下面详细说明。参数平滑器260被配置为接收上混频参数(或矩阵元素)的(实数值)输入幅值序列2Μ与上混频参数(或矩阵元素)的(实数值)输入相位值序列256，上混频参数(或矩阵元素)的(实数值)输入相位值序列256可以被视作输入相位信息αη。此外，参数平滑器被配置为基于对序列邪4与序列256的平滑来提供时变平滑的上混频参数序列沈2。参数平滑器260包含幅值平滑器270与相位值平滑器272。幅值平滑器被配置为接收序列2Μ并基于序列2Μ提供上混频参数(或矩阵Hn 的矩阵元素)的平滑幅值序列274。幅值平滑器270可以例如被配置为执行幅值平滑，这将在下面详细讨论。类似地，相位值平滑器272可以被配置为接收序列256并基于序列256提供上混频参数(或矩阵值)的时变平滑的相位值序列276。相位值平滑器272可以例如被配置为执行平滑化算法，这将在下面被详细讨论。在一些实施例中，幅值平滑器270和相位值平滑器被配置为分开或独立地执行幅值平滑和相位值平滑。因此，序列2Μ的幅值并不影响相位值平滑，且序列256的相位值并不影响幅值平滑。然而，假定的是，量值平滑器270与相位值平滑器272以时间同步方式进=HX入β_
行操作，使得序列274、276包含上混频参数的对应的成对的平滑幅值和平滑相位值。通常，参数平滑器260分别用作不同的上混频参数或矩阵元素。因此，参数平滑器 260可以针对每一上混频参数(出自多个上混频参数)或矩阵H的矩阵元素接收一个幅值序列254。类似地，参数平滑器260可以接收输入相位值Cin序列256供每一上混频音频声道的相位调整。2. 6有关参数平滑的细节下面将说明有关本发明的一实施例的细节，该实施例减小了解码器中由IPD/0PD 的量化和/或OPD的估计而引擎的相位处理伪像。为了简明起见，下面描述仅限为自一个至两个声道的上混频，并不限制可应用相同技术的自m至η个声道的上混频的一般情况。解码器的例如自一个至两个声道的上混频过程由向量与上混频矩阵H的矩阵乘法来执行，该向量包括被称为干信号的下混频信号χ(也用X(k)表示)和被称为湿信号的下混频信号q (也用q(k)表示)的去相关版本。湿信号q由通过去相关滤波器240馈送下混频信号χ而产生。上混频信号y是包含输出的第一及第二声道的向量(例如，Y1 (k)与 y2(k))。所有信号x、q、y在幅值频率分解(例如，时频域表示)中是可用的。此矩阵运算是针对每一频带的所有子带采样(或至少针对一些频带的一些子带采样)而执行(例如，单独地)。例如，矩阵运算可根据下列方程式来执行上混频矩阵H的系数是从空间提示(典型地，ILD和ICC)中导出，获得基本上对于每一声道基于ICC执行干信号与湿信号混合的实值矩阵元素，并依ILD确定调整两个输出声道的输出级。对于空间提示(例如，ILD、ICC、ITD、IPD和/或0PD)的传输，期望在编码器中量化一些或所有类型的参数。特别地对于低比特率情形，经常期望(或甚至必需)利用相当粗略的量化来减少传输的数据量。然而，对于特定类型的信号，粗略量化可以导致可听伪像。为了减小这些伪像，平滑操作可以应用于上混频矩阵H的元素来平滑引起伪像的相邻量化器步骤之间的过渡。该平滑例如可由对矩阵元素的简单低通滤波来执行Hn = δ Ηη+(1- δ) Hn-I此平滑例如可由幅值平滑器270来执行，其中当前输入幅度信息Ηη(例如，由上混频参数输入信息确定器252提供并且用2Μ表示)可以与前一平滑的幅值(或幅度矩阵)Hw相组合，以便获得当前平滑的幅值(或幅度矩阵)Ηη。因为平滑可以对信号部分有一负面影响，其中空间参数快速改变，平滑可以由从编码器传输的附加辅助信息来控制。下面将详细描述相位值的应用和确定。如果使用IPD和/或0PD，则可以将附加的相移应用于输出信号(例如，采样Y1 (k)和^(10定义的信号)。IPD描述两个声道(例如，由采样3^1 (k)定义的相位调整后的第一上混频声道信号与采样(k)定义的相位调整后的第二上混频声道信号)之间的相位差，而OPD描述一个声道与下混频之间的相位差。下面参考图3将简要阐述IPD与OPD的定义，图3示出了下混频信号与多个声道信号之间相位关系的示意图。现在参考图3，下混频信号(或其频谱系数x(k))的相位由第一指针310表示。相位调整后的第一上混频声道信号(或其一频谱系数3^1 (k))的相位由第二指针320表示。下混频信号(或其频谱值或系数)与相位调整后的第一上混频声道信号(或其频谱系数)之间的相位差用OPDl来表示。相位调整后的第二上混频声道信号 (或其频谱系数3 (k))由第三指针330表示。下混频信号(或其频谱系数)与相位调整后的第二上混频声道信号(或其频谱系数)之间的相位差用0PD2来表示。相位调整后的第一上混频声道信号(或其频谱系数)与相位调整后的第二上混频声道信号(或其频谱系数)之间的相位差用IPD表示。为重构原始信号的相位属性(基于干信号提供具有适当相位的相位调整后的第一上混频声道信号与相位调整后的第二上混频声道信号)，应知晓这两个声道的0PD。通常，IPD连同OPD —起传输(第二 OPD接着可由此计算)。为减少传输的数据量，利用包含在下混频信号中的相位信息连同传输的ILD和IPD，在解码器中仅传输IPD并估计OPD也是可能的。此处理可例如由上混频参数输入信息确定器252来执行。解码器(例如，装置200)中的相位重构是根据下列方程式由输出子带信号(例如，由频谱系数Y1 (k)、y2 (k)所描述的信号)的复旋转来执行
权利要求
1.一种用于将描述一个或多个下混频音频声道的下混频音频信号(110;210)上混频成描述多个上混频音频声道的上混频音频信号(120;214)的装置(100;200)，所述装置 (100 ；200)包括上混频器(130 ；230)，被配置为应用时变上混频参数(114 ；262)来对下混频音频信号进行上混频，以便获得上混频音频信号，其中时变上混频参数包括时变平滑的相位值 (144a ；270)；参数确定器(140 ；250)，其中所述参数确定器被配置为基于量化的上混频参数输入信息(142 ；212)，来获得一个或多个时间平滑的上混频参数(Cin)以供上混频器(130 ；230)使用，其中参数确定器(140 ；250)被配置为使用相位改变限制算法将前一平滑的相位值 (‘-！！的缩放版本沿而‘-！！与输入相位信息…》的缩放版本(δ α η)相组合，以基于前一平滑的相位值和输入相位信息来确定当前平滑的相位值η)。
2.如权利要求1所述的装置(100；200)，其中参数确定器(140 ；250)被配置为将前一平滑的相位值(《η-l)的缩放版本((Ι-δΜη-Ο与输入相位信息(Cin)的缩放版本(δ αη) 相组合，使得当前平滑的相位值在第一角度区域和第二角度区域之中的较小角度区域中，其中第一角度区域沿着数学正方向从前一平滑的相位值(Sn-I)所定义的第一开始方向延伸至输入相位信息(αη)所定义的第一结束方向，以及第二角度区域沿着数学正方向从输入相位信息(αη)所定义的第二开始方向延伸至前一平滑的相位值所定义的第二结束方向。
3.如权利要求1或2所述的装置(100；200)，其中参数确定器(140 ；250)被配置为根据输入相位信息(αη)与前一平滑的相位值(5η-ι)之间的差值(αη-沒^)，从多个不同组合规则中选择组合规则，并且使用选定的组合规则来确定当前平滑的相位值(5η)。
4.如权利要求3所述的装置(100；200)，其中参数确定器(140 ；250)被配置为在输入相位信息(αη)与前一平滑的相位值(5η- )之间的差值在-π与+π之间的范围中的情况下，选择基本相位组合规则，否则选择一个或多个不同的相位适应组合规则；其中基本相位组合规则定义了输入相位信息的缩放版本(S αη)与前一平滑的相位值的缩放版本((1 -δ)‘-0的线性组合，其中无恒定被加数；以及其中一个或多个相位适应组合规则定义了输入相位信息的缩放版本与前一平滑的相位值的缩放版本的线性组合，其中考虑了恒定相位适应被加数(+ η，- η )。
5.如权利要求1至4中任一项所述的装置(100；200)，其中参数确定器被配置为根据以下方程获得当前平滑的相位值(δ(αη - 2π) + (1- 5)an_j) mod 2π an = I (δ(αη + 2π) + (1- δ)αη_!) mod 2π . δαη+(1-5) ^如果(αη -δ^ρ-π其他其中S 表示前一平滑的相位值； a n表示输入相位信息； “mod”表示模运算符；以及δ表示平滑参数，平滑参数的值在0与1之间的区间中，不包括区间的边界以外。
6.如权利要求1至5中任一项所述的装置(100；200)，其中参数确定器(140 ；250)包括平滑控制器，其中平滑控制器被配置为在平滑的相位量与对应的输入相位量(α η)之间的差值大于预定阈值的情况下，选择性地禁用相位值平滑功能。
7.如权利要求6所述的装置(100;200)，其中平滑控制器被配置为评估两个平滑的相位值(α ρ α 2)之间的差值作为平滑的相位量，以及评估与两个平滑的相位值(α ρ α 2)相对应的两个输入相位值(256)之间的差值作为对应的输入相位量。
8.如权利要求1至7中任一项所述的装置(100；200)，其中上混频器(130 ；230)被配置为，在平滑功能被启用的情况下，在给定时间部分内，应用由不同的平滑的相位值(α” α 2)所定义的不同的时间平滑的相位旋转(α ρ α 2)，来获得具有声道间相位差的不同上混频音频声道的信号( ㈨冱㈨)，以及在平滑功能被禁用的情况下，应用由不同的非平滑的相位值所定义的时间非平滑的相位旋转056)，来获得具有声道间相位差的不同上混频音频声道的信号；其中参数确定器(140 ；250)包括平滑控制器；以及其中平滑控制器被配置为，如果平滑的相位值(α” α2)之间的差值与非平滑的声道间相位差值(21 存在差异且该差异超过预定阈值，则选择性地禁用相位值平滑功能，平滑的相位值(α ρ α 2)被应用于获得不同上混频音频声道的信号(灭@)，兌@))，非平滑的声道间相位差值012)由所述装置(100 ；200)接收或由所述装置从接收到的信息012)中导出ο
9.如权利要求1至8中任一项所述的装置(100；200)，其中参数确定器(140 ；250)被配置为根据平滑的相位值与对应的输入相位值(αη)之间的当前差值，来调整滤波器时间常数(S )，以确定平滑相位值(沒η)的序列(沈2)。
10.如权利要求1至9中任一项所述之装置(100；200)，其中参数确定器(140 ；250)被配置为根据平滑的声道间相位差与非平滑的声道间相位差之间的差值，来调整滤波器时间常数(S)，以确定平滑相位值(沒η)的序列062)，平滑的声道间相位差由与上混频音频信号的不同声道相关联的两个平滑的相位值(αρ α2)之间的差值定义，非平滑的声道间相位差由非平滑的声道间相位差信息(212)定义。
11.如权利要求1至10中任一项所述的装置(100；200)，其中用于上混频的所述装置被配置为，根据从音频比特流中提取的信息来选择性地启用和禁用相位值平滑功能。
12.一种用于将描述一个或多个下混频音频声道的下混频音频信号上混频成描述多个上混频音频声道的上混频音频信号的方法(700)，所述方法包括使用相位改变限制算法将前一平滑的相位值的缩放版本与当前相位输入信息的缩放版本相组合(710)，以基于前一平滑的相位值和输入相位信息来确定当前时间平滑的相位值；以及应用(720)时变上混频参数来对下混频音频信号进行上混频，以便获得上混频音频信号，其中时变上混频参数包括时间平滑的相位值。
13.一种计算机程序，当所述计算机程序运行在计算机上时用于执行权利要求12所述的方法。
全文摘要
一种用于将描述一个或多个下混频音频声道的下混频音频信号上混频成描述多个上混频音频声道的上混频音频信号的装置包括上混频器和参数确定器。上混频器被配置为应用时变上混频参数来对下混频音频信号进行上混频，以便获得上混频音频信号，其中时变上混频参数包括时变平滑的相位值。参数确定器被配置为基于量化上混频参数输入信息，来获得一个或多个时间平滑的上混频参数以供上混频器使用。参数确定器被配置为使用相位改变限制算法将前一平滑的相位值的缩放版本与输入相位信息的缩放版本相组合，以基于前一平滑的相位值和输入相位信息来确定当前平滑的相位值。
文档编号G10L19/00GK102257563SQ201080003595
公开日2011年11月23日申请日期2010年4月1日优先权日2009年4月8日
发明者朱利安·罗比亚尔, 约翰内斯·希尔珀特, 马蒂亚斯·诺伊辛格申请人:弗劳恩霍夫应用研究促进协会

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马蒂亚斯·诺伊辛格
技术所有人：弗劳恩霍夫应用研究促进协会
我是此专利的发明人

上一篇：音频编码装置、解码装置、方法、电路及程序的制作方法
上一篇：肩托的制作方法