降混器及降混方法与流程

文档序号:27066821发布日期:2021-10-24 09:32阅读:395来源:国知局
降混器及降混方法与流程
降混器及降混方法
1.本发明针对音频信号处理,尤其针对多声道信号的降混或音频信号的频谱分辨率转换。
2.尽管立体声编码比特流通常将被解码以在立体声系统上回放,但并非能够接收立体声比特流的所有装置都将始终能够输出立体声信号。一种可能的场景是在仅具备单声道扬声器的手机上回放立体声信号。随着新兴的3gpp ivas标准支持的多声道移动通信场景的到来,因此需要尽可能高效的免于额外延迟及复杂性的立体声至单声道降混,同时还要提供超越简单被动降混可实现的感知质量的最佳可能感知质量。
3.存在将立体声信号转换成单声道信号的多种方法。最直接的实现方法是在时间域中通过被动降混[1],其通过添加左与右声道以及将结果缩放来产生中间信号:
[0004][0005]
基于时间域的其他更复杂(即主动)的降混方法包括能量缩放企图保持信号的整体能量[2][3],相位对准以避免抵消效应[4],以及防止由相干抑制(coherence suppression)引起的梳状滤波效应[5]。
[0006]
另一种方法是通过对于多个频谱带计算独立的加权因子,以频率相依方式进行能量校正。例如,这作为mpeg

h格式转换器[6]的部分被完成,其中在声道的额外先验相位对准的情况下对混合qmf子频带表示或经stft滤波器的信号执行降混。在ivas的上下文中,类似的频带式(band

wise)降混(包括相位及时间对准)已被用于参数化低比特率模式的dft立体声,其中加权及混合被应用于dft域中[7]。
[0007]
在对立体声信号进行解码后,在时间域中的被动立体声至单声道降混的简单解决方案并不是理想的,因为众所周知的是,纯粹被动降混会带来某些缺点,例如相位抵消效应或能量的一般性损失(这可能取决于项目)而严重降低质量。
[0008]
纯粹基于时间域的其他主动降混方法可以缓解被动降混的某些问题,但是由于缺少频率相依加权,因此仍然不是最佳选择。
[0009]
由于像ivas这样的移动通信编解码器在延迟及复杂性方面的隐式约束,具有像mpeg

h格式转换器这样的专用后处理级对于应用频带式降混而言也非一选项,因为至频率域并返回的必要变换将不可避免地导致复杂性及延迟的增加。
[0010]
对于像[8]中那样利用tcx变换编码与块切换的立体声编解码器模式,可以使用不同的模式:例如,以20ms的块大小每帧一块(tcx20),及以10毫秒的块大小每帧两个子块(tcx10)。每个子块是10ms的整个tcx10块,或是又被细分为两个5ms的块(tcx5)。对于每个声道都独立于另一个声道做出使用哪种模式的决策。这意味着可以在声道之间具有不同决策。由于各个频谱域表示的时间频率分辨率不同,这使得不可能使用与[7]中描述的在基于dft的立体声编码器处所使用的完全相同的降混方法(声道的频带式加权,然后的单声道降混均在dft域中)。
[0011]
本发明的目的是提供一种用于音频信号处理的改进概念。
[0012]
此目的由权利要求1或35的降混器、权利要求46或47降混方法或权利要求48的计
算机程序实现。
[0013]
根据本发明的第一方面,降混器包括加权值估计器、频谱加权器、转换器及随后连接的混合器。在第一声道的频谱域表示的频谱加权和第二声道的频谱域表示的加权以及视情况而定可以有其他声道的频谱域表示的频谱加权之后,执行从频谱域到时间域的转换。经加权的频谱域表示从频谱域表示被转换成相应声道的时间表示。在时间域中,执行混合以便获得降混信号作为降混器的输出。此过程允许在频谱域中执行有用且高效而仍为高音质的加权,但仍然允许在频谱域中对个别声道进行个别(individual)处理,相较于在单个操作中执行频谱域加权及降混的情况,在这种情况下,不再可能执行个别声道处理,因为在频谱加权及降混之后,存在单个降混信号。因此,根据本发明的此方面,仍然可以在频谱域中执行个别声道处理,但此频谱域中的个别处理是在频谱加权之后执行的。
[0014]
在至少两个声道具有不同的时间或频率分辨率的情况下,为至少两个声道计算频带式加权值需要对于个别频带将至少两个声道的一个或两个频谱域表示转换成具有相同时间或频率分辨率的相应表示。频带式加权值可以被计算。然而,在此方面,频带式加权值不被应用于转换的频谱域表示或者两个或更多个组合频谱表示。相反,频谱加权被应用于已从中得出组合频谱域表示的原始频谱域表示。因此,确保的是,经加权的频谱域表示依赖于原始频谱域表示且仅加权值从一个或多个组合频谱域表示得出,加权值无论如何都基于对能量(优选地使用在降混之前用于声道中的频带的目标能量和用于降混信号的频带的目标能量)的特定估计,而一个或多个组合频谱域表示至少在某些方面与原始频谱域表示不同。
[0015]
优选地,用于将经加权的频谱域表示转换成时间表示的转换器具有若干个部件。一个部件是实际的频率时间转换器,另一个部件是使用参数的时间域中的声道式(channel

wise)后处理,参数已例如以多声道信号经由边信息(side information)被传输,频谱域表示来自该多声道信号。替代地,在实际的频率时间转换之前应用后处理器。控制参数操控个别声道的频谱域处理。然而,优选首先具有频率时间转换器,并且具有后处理器用于使用声道式控制参数对至少两个声道的时间域表示进行后处理,声道式控制参数得自多声道信号的边信息或者实际上是在降混器处经由用户输入或任何其他参数生成而被生成或输入的。在进行此时间域后处理之后,实际上生成降混信号的混合器在此。
[0016]
由于将频带式加权值应用于原始频谱域表示,并且由于无论如何都基于某种功率或图像估计的频带式加权值得自一个或多个(人工创建的)组合频谱域表示的事实,此过程提供高质量的音频信号处理。另一方面,由于个别声道的任何可能需要的时间域或频率域处理仍然可被执行的事实实现了高处理灵活性,因为实际的混合步骤是在处理链中的最后一步,当所有所需的个别声道处理均已被应用时出现。此外,此过程是高效的,因为此过程不需要控制参数的任何降混,而这在当实际的降混操作将是处理链中的第一个处理操作时将是需要的。
[0017]
根据本发明的第二方面,一种用于转换频谱分辨率的装置包括频谱值计算器,频谱值计算器用于以第一方式组合来自一个或多个频谱域表示的多个子帧中的每个子帧的属于相同频率仓的频谱值以获得第一组组合频谱值,并且用于以第二方式组合来自频谱域表示的每个子帧的属于相同频率仓的频谱值以获得第二组组合频谱值。第二方式不同于第一方式,并且第一组组合频谱值和第二组组合频谱值表示具有不同时间仓大小和不同频率
仓大小的组合频谱域表示。当存在来自短时间频率变换的成对频谱表示时,此频谱分辨率转换特别有用,其中短时间频率变换显示高时间分辨率但低频率分辨率。
[0018]
根据本发明的第二方面,该成对短频谱域表示被转换成具有高频谱分辨率但具有低时间分辨率的单个长频谱域表示。这种从一个时间/频率分辨率(高时间分辨率且低频率分辨率)到另一时间/频率分辨率(低时间分辨率且高频率分辨率)的转换发生而无需在时间域表示之间的任何实际计算。因此,本发明仅以两种不同方式应用属于相同频率仓的频谱值的频谱域组合,而不是将由两个短频谱域表示转换成时间域并将结果再次转换成频谱域所组成的常规过程。因此,与执行效率极低并且产生显著延迟的两个频率时间转换和一个时间频率转换相比,本发明仅提供基本算术组合运算的需求,诸如将两个值相加或将两个值彼此相减,以便从两个低频率分辨率频谱域表示获得高频谱域表示。优选地,第一组合规则是低通滤波,或者换句话说,属于相同低分辨率频率仓的两个频谱值的加法或加权加法,而根据第二方式的频谱值的组合是高通滤波或两个频谱值之间的差异的计算。相应的两个相邻的系列频谱值被转换成两个频率相邻的频谱值,其中两个频率相邻的频谱值中的一个是来自低通滤波操作的较低频率频谱值,而下一个是来自高通操作的较高频率频谱值。
[0019]
下一个过程是再次以相同过程计算下一对高频谱分辨率频谱值,即,通常对于较低频率频谱值执行表示低通特性的第一组合,并且对于较高频率频谱值执行表示针对该对频谱值中的较高频率频谱值的高通操作的另一组合。
[0020]
根据本发明的第二方面所生成的组合频谱域表示可以被用于不同目的。在本发明的第一方面中,组合频谱域表示被用于得出频带式加权值。当至少两个声道中的第一声道频谱域表示具有低时间分辨率且高频谱分辨率,以及至少两个声道中的第二声道具有两个均具有低频谱分辨率的高时间分辨率频谱域表示被转换时,这是特别有用的,并且从通过转换所生成的组合频谱域表示可得出频带式加权值。在进一步的使用中,通过任何有用的进一步处理,诸如在时间域中进行转换以及将转换的频谱用于再次播放或储存或音频信号压缩的目的,组合频谱域表示可以被进一步处理。另一过程将对组合频谱域表示与具有相同频谱分辨率的另一频谱表示一起执行频谱处理,例如,出于频谱域降混的目的。
[0021]
根据本发明的第三方面,使用频谱加权执行降混作业,其中基于每频带的目标能量值计算频带式加权值,使得降混信号的频带中的能量与至少两个声道的相同频带中的两个能量呈预定关系,诸如与其中的较高值相等或在较高值+/

30%的容差范围内与其相等。能量驱动的频带式加权值被应用于至少两个声道的频谱域表示,并且在如本发明第一方面的时间域中或根据需要在频谱域中,使用至少两个声道的经加权的频谱域表示计算降混信号。
[0022]
在一种情况下,其中频谱域表示是纯实数的诸如在mdct变换中,或频谱域表示是纯虚数的时诸如在应用mdst(修正离散正弦变换)时,加权值估计器被配置为从纯实数的或者纯虚数的现有频谱域表示中估计其他频谱域表示。因此,当实数值的频谱域表示存在时,估计虚数的频谱域表示,并且当虚数的频谱域表示存在时,估计实数值的频谱域表示。这些估计值被用于计算频带中的第一声道的能量、计算频带中的第二声道的能量、以及计算声道之间的混合项(mixed terms),混合项取决于来自频带中的至少两个声道的频谱值的乘积或线性组合。
[0023]
在降混的上下文中计算用于频谱加权的频带式加权值的过程可以被应用在第一方面中,其中在频谱加权与降混之间发生频率时间变换及一些时间域后处理。关于本发明的第二方面,从原始频谱域表示或从如已由关于本发明的第二方面示出的或关于第一方面示出的频谱分辨率转换所生成的一个或两个组合频谱域表示得出被用于根据目标能量特征计算频谱域加权值的一个或两个声道的频谱域表示。
[0024]
在一方面,由于频谱加权可以通过对频带中的每个频谱值应用一个且相同的加权值而轻易地执行的事实,使用将基于每频带的目标能量值所得出的频带式加权值用于频谱加权的降混是高效的,特别是当应用从处于低频的小带宽增大至处于高频的高带宽的心理声学激励带宽时。例如,当高频带被考虑为具有例如100个或更多个频谱值时,计算用于此频带的仅单个加权值,并且此单个加权值被应用于每个单独的频谱值。对于此过程,仅需要适度的计算资源,因为例如通过乘法进行的加权是一种低资源且低延迟的过程,并且,与此同时,将相同加权值应用于频带中的每个频谱值的此过程具有较高潜力以由特定并行硬件处理器并行化。另一方面,当待被降混的两个声道彼此之间呈在降混方面是有问题的相位关系时,即,当两个声道彼此高度相关并且具有特定相位关系时,可以获得降混信号的高音频质量,而不会发生信号抵消或其他伪声。
[0025]
随后参考随附的附图讨论本发明的优选实施例,其中:
[0026]
图1示出根据第一方面的降混器;
[0027]
图2示出根据第一方面的降混器的另一实施例;
[0028]
图3a示出加权值估计器的优选实现方式;
[0029]
图3b示出对于第三方面也是优选的加权值估计器的优选施例;
[0030]
图4a示出不同声道中的不同时间/频率分辨率;
[0031]
图4b示出显示高频谱分辨率、中频谱分辨率和低频谱分辨率的频谱表示;
[0032]
图5a示出导致低频率分辨率且低时间分辨率的根据第一实施例的加权值估计;
[0033]
图5b示出导致高频率分辨率且低时间分辨率的根据第二实施例加权值估计器所执行的过程,其也根据第二方面被应用。
[0034]
图5c示出导致低频率分辨率且高时间分辨率的根据第三实施例的加权值估计的实现方式;
[0035]
图5d示出导致高频率分辨率且高时间分辨率的加权值估计器的另一过程;
[0036]
图6示出根据第二方面的用于转换频谱分辨率的装置的实施例;
[0037]
图7示出根据第二方面的用于转换频谱分辨率的装置的另一实现方式;
[0038]
图8示出根据第三方面的降混器的实施例;及
[0039]
图9示出根据第三方面的降混器的另一实施例。
[0040]
图1示出用于本发明的第一方面的降混器的实施例。降混器包括加权值估计器100、频谱加权器200及输入部,频谱加权器200与加权值估计器100连接,输入部用于第一或左声道以及第二或右声道。频谱加权器200连接到转换器300,转换器300用于将至少两个声道的经加权的频谱域表示转换成至少两个声道的时间表示。这些时间表示被输出至混合器,混合器用于混合至少两个声道的时间表示以获得时间域降混信号。优选地,转换器300包括频率时间转换器310及随后连接的后处理器320。频率时间转换器310实际上执行经加权的频谱域表示在时间域中的转换,并且作为可选特征的后处理器320分别使用用于左声
道和右声道的控制参数对已经呈现在时间域中的第一声道和第二声道执行声道独立处理。转换器300被配置为通过频率时间转换器310使用频谱时间转换算法生成原始时间表示,并且附加地,转换器300被配置为通过后处理器320对原始时间表示个别地,并且特别地,在信号处理方向上在混合器进行混合之前使用用于声道的单独控制信息进行后处理,以获得至少两个声道的时间表示。
[0041]
优选地,后处理器320被配置为执行低音后滤波、tcx

ltp(变化编码激励长期预测)处理或lpc(线性预测编码)合成,作为后处理操作。在经频谱加权的声道上运行但在实际上混合成降混信号之前运行后处理器的优点是在没有任何参数降混的情况下仍可以使用可用作用于左声道和右声道或者通常用于多声道信号的两个或更多个声道中的个别声道的单独参数的参数。否则,当将降混与频谱加权一起执行使得频率时间转换器310的输出处已存在时间域降混信号时,这样的过程将是必需的。
[0042]
通常地,多声道信号可以包括两个声道,即,左声道及右声道,或者多声道信号包括多于两个声道,诸如三个或更多个声道。在这种情况下,加权值估计器100被配置为对于至少两个声道中的第一声道的多个频带计算多个第一频带式加权值,并且对于至少两个声道中的第二声道的多个频带计算多个第二频带式加权值。此外,加权值估计器100被配置为对于具有两个以上声道的多声道信号的第一声道的多个频带计算多个第一频带式加权值,对于两个以上声道中的第二声道的多个频带计算多个第二频带式加权值,以及对于两个以上声道中的第三声道或甚至另一声道的多个频带计算多个另外的频带式加权值。
[0043]
特别地,至少两个声道的频谱域表示各自包括频率仓(frequency bins)的集合,其中频谱值与频率仓相关联。特别地,加权值估计器100被配置为对于频带计算频带加权值,其中每个频带包括一个、两个或更多个频谱值,并且优选地,每频带的频率仓的数量随着频带具有更高的中心频率而增加,以便获得频谱域表示细分成具有不均匀带宽的频带的心理声学动机细分。
[0044]
降混器的优选实现方式如图2所示。多声道信号可用作立体声比特流并且被馈送到立体声解码器500,立体声解码器500优选地被实现为mdct立体声解码器。此外,加权值估计器包括左值计算器110、右值计算器112,以及附加地,用于左声道的虚部估计器120及用于右声道的虚部估计器122。在图2的实施例中,立体声解码器500是mdct立体声解码器,这意味着经解码的左和右声道频谱表示具有纯实数的频谱值,即mdct值。虚部估计器120、122将生成纯虚数的频谱值,即mdst(修正离散正弦变换)值。从这些信息条目,即频谱域表示及估计频谱值,计算加权因子并将加权因子转发到频谱加权器200以执行如图2所指示的频带式加权。经加权的频谱域表示被转发到相应的频率时间转换器310,频率时间转换器310被实现为用于每个声道的imdct转换器。此外,可选的后处理器320还被示出用于每个声道,并且,变换的且可选后处理的数据被输入到降混器dmx 400中以生成时间域降混信号,即,在图2的实施例中的单声道输出信号,但也可以是多声道信号,只要降混信号的一个或多个声道的数量低于降混之前的多声道信号的声道的数量。
[0045]
替代地,当多声道解码器或立体声解码器500被实现为虚数值的解码器诸如mdst解码器时,块120、122将估计纯实数的数据诸如mdct值。因此,通常地,加权值估计器100被配置为当频谱域表示是纯实数的时估计虚数的频谱表示,或当原始频谱域表示是纯虚数的时估计实数的频谱表示。此外,加权值估计器110被配置为使用所估计的虚数的频谱表示或
所估计的实数的频谱表示(视情况而定)来估计加权值。这对于基于每频带的目标能量值的频谱频带式加权值的计算特别有用,从而降混信号的频带中的能量与至少两个声道的相同频带中的能量呈预定关系。优选地,预定关系为降混信号的频带中的能量是至少两个声道中的相同频带的能量之和。但是,其他预定关系也是有用的。示例性地,预定关系可以跨从两个声道的和的75%至125%,作为降混信号的相应频带的能量。然而,在最优选的实施例中,预定关系是相等性或在+/

10%的容差范围内的相等性。
[0046]
图3a示出加权值估计器100的优选实现方式。特别地,此实现方式对于当至少两个声道的频谱域表示具有不同的时间或频率分辨率时计算加权值是有用的。如块或步骤130所示,加权值估计器100被配置为检查第一声道及第二声道的频谱域表示的时间/频率分辨率是否彼此不同。在相等的时间或频率分辨率的情况下,加权值估计器100被配置为计算用于第一或左声道由w
l
所指示及用于第二或右声道由w
r
所指示的频带式加权因子或频带式加权值。
[0047]
替代地,当在块130中由加权值估计器100确定特定时间段内在左声道与右声道或第一声道与第二声道之间时间或频率分辨率不相等时,如稍后关于图4a所示,加权值估计器100被配置为计算132一个或两个组合频谱域表示。特别地,至少两个声道中的第一声道的第一频谱域表示具有第一时间分辨率或第一频率分辨率,并且至少两个声道中的第二声道的第二频谱域表示具有第二时间分辨率或第二频率分辨率,其中第二时间分辨率不同于第一时间分辨率,或者其中第二频率分辨率不同于第一频率分辨率。加权值估计器100被配置为将第一频谱域表示转换或计算132为具有第二时间分辨率或第二频率分辨率的组合频谱域表示,并且使用组合频谱域表示和第二频谱域表示计算频带式加权值。替代地,第二频谱域表示被转换成具有第一时间分辨率或第一频率分辨率的组合频谱域表示,并且使用组合频谱域表示和第一频谱域表示计算频带式加权值。替代地,当第一声道的第一频谱域表示具有第一时间分辨率或第一频率分辨率,并且至少两个声道的第二声道的第二频谱域表示具有第二时间分辨率或第二频率分辨率时,其中第二时间分辨率不同于第一时间分辨率,或者第二频率分辨率不同于第一时间分辨率,加权值估计器100被配置为将第一频谱域表示转换或计算132为具有第三时间分辨率或第三频率分辨率的第一组合频谱域表示,其中第三时间分辨率不同于第一时间分辨率或第二时间分辨率,并且其中第三频率分辨率不同于第一频率分辨率和/或第二频率分辨率。此外,第二频谱域表示也被转换成具有第三时间分辨率或第三频率分辨率的第二组合频谱域表示,并且使用第一组合频谱域表示和第二频谱域表示计算频带式加权值。取决于如稍后关于图5a至图5d所描述的实际情况,还可能存在以下情况,由块134所计算的频带式加权值或因子未被用于实际频谱加权,而是如图3a中的136处所示的计算所得频带式加权因子。
[0048]
通常地,假设第一声道具有低第一时间分辨率且高第一频率分辨率,并且还假设第二声道具有高第二时间分辨率且低第二频率分辨率,则加权值估计器100的功能可以选择四种不同方式中的一种用以在频谱域中进行第一与第二声道之间的分辨率之间的匹配,以便对于这些声道计算频谱域加权值。
[0049]
图5a示出第一实施例,其中从两个组合频谱域表示计算频带式加权值,其中两个组合频谱域表示均具有低频率分辨率且低时间分辨率。
[0050]
在图5b所示的第二实施例中,从低频率分辨率表示计算仅单个组合频谱域表示,
使得从均具有高频率分辨率且低时间分辨率的一对频谱域表示计算频带式加权值。
[0051]
图5c示出另一第三实施例,其中单个组合表示被计算并且被用于使用均具有低频率分辨率且高时间分辨率的两个频谱域表示计算频谱域频带式加权值。
[0052]
在图5d所示的第四实施例中,加权值估计器被配置为使用两个组合表示计算频带式加权值,两个组合表示均呈显示高频率分辨率且高时间分辨率的格式。
[0053]
图4a示出在第一声道及第二声道中存在两种不同的分辨率(时间和/或频率)的情况。图4a中的第一部分显示帧,该帧在第一声道中具有长块并且在第二声道中具有两个相继短块(subsequent short blocks)。长块可以例如是tcx20块。短块可以是两个相继tcx10块。此外,图4a示出另一帧,其被细分为两个子帧a、b,其中在第一声道中,子帧a具有短块,而在第二声道中,该子帧也具有短块。然而,在图4a的第二帧的子帧b中,第一声道具有短块并且第二声道具有两个非常短块,即,对于每个子子帧有一个非常短块。非常短块例如可以是tcx5块。通常地,长块比短块更长,并且短块比非常短块更长,当然,非常短块比长块更短。自然地,非必要的是,一个长块具有与两个短块相同的长度。替代地,可以存在三个短块具有组合长度等于一个长块的长度,或者可以存在四个短块诸如非常短块用于每个子子帧。其他细分也可存在,即,第一声道中的两个长块具有组合长度等于第二声道中的三个短块的长度。长块、短块及非常短块的长度不必要是彼此成整数关系。此外,甚至可以存在三个以上不同的块长度,诸如三个以上块长度,或仅两个不同的块长度。
[0054]
图4b在第一行中示出具备高频谱分辨率的频谱表示。频谱值沿频率线以整数编号指示,并且图4b示出三个相继频带b1、b2、b3,其中每个表示较高频率的频带比每个表示较低频率的频带更宽。在高频谱分辨率的情况下,诸如在tcx20频谱中,最低频带b1具有四个频谱线或频谱值或频谱仓(spectral bins)。在该实施例中,第二频带b2具有八个频谱值,并且第三频谱带b3具有十二个频谱仓。将高频谱分辨率转移或转换成中频谱分辨率表示导致的事实是,从高分辨率频谱表示组合(或抽取)频谱值,以便中频谱分辨率诸如tcx10分辨率具有两个频谱仓用于第一频带、四个频谱仓用于第二频带b2以及六个频谱仓用于第三频带b3。再一次,将此中频谱分辨率与诸如出现在tcx5块中的低频谱分辨率表示进行比较,第一频带将仅具有单个频率仓,第二频带b2将具有两个频率仓,并且第三频谱带b3将具有三个频谱仓。通过组合两条或更多个相邻频谱线或通过抽取操作(decimation operation),中频谱分辨率可以被转换成低频谱分辨率。
[0055]
另一方面,低频谱分辨率表示可以通过内插、复制或复制及滤波的方式被转换成较高分辨率表示,从而例如从中频谱分辨率的第一频带b1中的两个频谱仓,可以计算出如图4b所示的四个高分辨率频谱仓1、2、3、4。
[0056]
这种新颖的方法旨在为立体声至单声道转换提供一种无延迟的、主动的、频带式降混方法,其中两个声道的频谱带的仅频带式加权在频率域中完成,而至单声道信号的实际降混在变换到时间域后通过将两个经频谱加权的信号进行求和和缩放来完成。
[0057]
在两个信号的频谱域表示具有不同的时间频率分辨率(即,对于一个信号的块大小更短)的情况下,通过在时间上及频谱上组合邻近的频谱仓来适应加权计算,以便可以在相同的时间频率区域上完成互频谱运算(cross

spectra computation)。
[0058]
以这种方法,两个立体声声道的时间频率分辨率无需被一致化,因为声道的频带式加权在声道在此方面有所不同的情况下仍然可以完成,而稍后当两个经频谱加权的声道
都已经被变换回时间域时临界性立体声至单声道转换(critical stereo

to

mono conversion)被完成。
[0059]
实施例在解码器侧提供优化的、无延迟的立体声至单声道降混。
[0060]
优选方面涉及主动降混,主动降混具备频带式加权,频带式加权具备分离的加权(频率域)及混合阶段(时间域)。
[0061]
其他优选方面涉及在具有不同频谱域表示的声道的情况下用于互频谱相关性的频率仓的时间/频谱组合,其中这些方面可以与降混方面分开使用,或者与降混方面一起使用。
[0062]
不同于像[7]这样的参数化立体声编解码器,其中仅已被降混的核心信号随着表示立体声图像的若干个边参数(side parameters)被发送,对于基于mdct的离散立体声应用,在解码器处无降混可用,其中两个声道始终直接以tcx编码器被编码。因此,降混需在解码器侧被完全地生成。
[0063]
图3b示出图1中所示的加权值估计器100的优选实现方式。在步骤140中,加权值估计器从第一声道及第二声道或者替代地从第一声道及组合频谱域表示或者从第二声道及组合频谱域表示或者从第一组合频谱域表示及第二组合频谱域表示估计每频率仓的相应的虚数或实数值的频谱值。通常地,加权值估计器被配置为使用第一声道在频带中的能量、第二声道在频带中的能量及取决于来自至少两个声道在频带中的频谱值的乘积或线性组合的混合项计算第一加权值及第二加权值。在图3b中,第一声道的能量及第二声道的能量在块140中被示例性地计算。此外,取决于乘积的混合项在块148中被计算,以及取决于线性组合的另一混合项在块146中被计算。此外,与每频带的频谱仓的功率的平方根对应的每频带的“振幅(amplitude)”在块144中被计算。
[0064]
因此,如图3b所示,第一加权值w
l
计算自用于两个声道的每频带的振幅且取决于混合项,并且优选地,混合项取决于在块146中所示的线性组合。此外,优选的是,每频带的加权向量w
l
使用每频带的加权值w
r
(即用于其他声道的)来计算。用于其他声道的值,即每频带的w
r
,优选地基于混合项及每频带的“振幅”来计算,混合项取决于在148处所示的乘积,每频带的“振幅”通过块144得自如块142中所确定的相应声道中的每频带的功率。
[0065]
因此,优选地,来自至少两个声道的频谱域表示的频带中彼此相加的频谱值的能量的平方根被使用作“振幅”,但是其他“振幅”也可以被使用,诸如从指数小于1且不同于1/2的幂所得出的“振幅”。来自频带的频谱值被线性组合,即彼此相加,并且结果值取平方根或以小于1的指数的任何其他幂(exponentiation),其中优选地,额外地使用均用于频带中的声道的功率。
[0066]
作为表示乘积的混合项,也可以确定第一声道的频带中的频谱值与第二声道的频带中的频谱值之间的复数点积(complex dot product)的绝对值,例如,在块148的计算中。优选地,将由频谱加权器200所确定的相同权重应用于至少两个声道中的一个的频带中的每个频谱值,并且将另一权重应用于至少两个声道中的另一声道的频带中的每个频谱值。
[0067]
随后,示出可以被加权值估计器100使用的每频带的加权因子的计算的优选实现方式。
[0068]
由于使用被动降混具有如上所述缺点,因此使用主动降混方案致使对许多项目的显著改善。由于复杂性及延迟的缘故,在进行立体声解码后对两个声道添加包括dft变换的
另一解码器阶段是不可行的,因此,降混过程被完成为mdct域及时间域处理的组合。
[0069]
首先,频带式权重被计算且被应用于两个声道的mdct表示。这发生在立体声处理(例如逆ms等)之后,并且恰好在imcct反变换之前。权重以在[7]中所述的基于dft的立体声编码器所使用的相同方案来计算,以相位旋转的中间声道的能量的为目标:
[0070][0071]
其中l及r分别表示左声道及右声道频谱大小(magnitude)。然后,基于此目标能量,用于声道的权重可以对于每个频谱带计算如下:
[0072][0073]

[0074][0075]
这些权重或频带式加权值w
r
及w
l
是每频谱带地计算的,其中每个频带涵括若干个mdct仓,若干个mdct仓始于用于最低频带的低编号例如4的仓,然后朝向更高的频率增加,直到用于最高频带的例如160的若干个或许多仓。
[0076]
由于所传输的mdct系数仅为实数值的,通过估计[9],可以为每个声道获得用于保能加权(energy

preserving weighting)所需的互补mdst值:
[0077]
mdst
i
=mdct
i+1

mdct
i
‑1[0078]
其中i指定频谱仓编号。
[0079]
对每个频带b,使用此估计计算|l|及|r|:
[0080][0081]
|l+r|被计算为:
[0082][0083]
并且,|<l,r>|被计算为复数点积的大小或绝对值:
[0084][0085]
其中i指定在频谱带b内的仓编号。
[0086]
尽管有不同转换以及仅估计能量,但是所得到的权重仍致使与[7]中类似的降混。
[0087]
在第二步骤中,通过对两个经频谱加权的声道进行简单求和与缩放,使两个经加权的声道然后在时间域中被降混。
[0088]
参考图2。
[0089]
采用此组合方法的原因有两方面:一方面,通过将两个声道均转换回时间域,也在时间域中操作的后滤波例如tcx

ltp可以使用从个别声道的核心编码中提取的参数(例如音高)运行在两个声道上,从而避免需要尝试并寻找适合降混的平均参数。第二,更为关键的是,mdct立体声被配置为允许不同的核心编码器和/或重叠决策用于两个声道。具体而言,这意味着一个声道能够以例如一个tcx20长块(20ms的帧,较高频率分辨率,较低时间分辨率)被编码,而另一个声道以例如两个tcx10短块(2x 10ms的子帧,较低频率分辨率,较高时间分辨率)被编码,其中一个或两个短块可以再次被分成两个tcx5的子帧(2x 5ms)。这使得完整的频谱域降混几乎是不可能的。然而,频带式加权可以独自在mdct域中被直接完成。
[0090]
图5a中所示的一个实施例工作如下:对于两个声道中的不同核心的特殊情况,作为权重计算的部分的互频谱相关性的运算需被稍加调整。由于tcx20及tcx10的频率和时间分辨率不同,因此左与右之间的点积无法被直接计算。相反,mdct仓需要被合并,以使它们覆盖相同的时间频率区域。对于tcx20来说,这意味着始终组合两个邻近的仓,而对于tcx10来说,第一子帧的每个仓需与其后子帧中的相同仓合并,例如:
[0091]
mdct
i,l,组合
=mdct
2i,l
+mdct
2i+1,l
[0092]

[0093]
mdct
i,r,组合
=mdct
i,k0,r
+mdct
i,k1,r
[0094]
如果mdct
l
是tcx20的mdct频谱以及mdct
r
是具备2个子帧的tcx10的mdct频谱,其中i指定频谱仓编号,以及k0与k1指定tcx10子帧。所估计的mdst频谱也完成相同的组合。
[0095]
然后,以所得到的组合仓计算互频谱相关性|<l,r>|和/或|l+r|的值。这导致稍粗略的相关性估计,但已被发现是完全足够的。
[0096]
在图5b中所示的另一实施例工作如下:对于两个声道中的不同核心的特殊情况,作为权重计算的部分的互频谱相关性计算需被稍加调整。由于tcx20及tcx10的频率和时间分辨率不同,因此左与右之间的点积无法被直接计算。为了使其成为可能,具有较低频谱分辨率的(子)帧的频谱通过以下公式被转换成具有两倍频谱分辨率的频谱的近似值:
[0097][0098]

[0099][0100]
其中i指定频谱仓编号以及k0与k1指定具有较低分辨率的子帧。这些加法及减法可以被视为高通滤波操作及低通滤波操作,它们将一个较低分辨率仓拆分成两个较高分辨率仓,其中滤波取决于仓编号i是偶数还是奇数(始于i=0,用于最低仓)。
[0101]
这意味着,如果一个声道是tcx20,则其他声道被转换成相同的频谱分辨率。如果将其他声道的一个或两个子帧再次细分为两个tcx5的“子子帧”,则这些先通过相同的滤被转换成tcx10分辨率,然后再次拆分以达成最终的tcx20表示。
[0102]
即使声道中没有一个是tcx20,在一个声道中有tcx10且其他声道中有tcx5的情况下,对于一个或两个子帧,仍需要向较高分辨率的转换。作为示例,如果左声道在子帧a中为tcx10且在子帧b中为2x tcx5,而右声道在子帧a中为2x tcx5且在子帧b中为tcx10,则两个
声道都将被转换成在两个子帧中均具有tcx10分辨率(对于左声道转换子帧b,对于右声道转换子帧a)。如果在同一示例中,右声道也是tcx10用于子帧a且2x tcx5用于子帧b,则不进行转换;即,子帧a将以tcx10分辨率被降混,子帧b将以tcx5被降混。
[0103]
然后,使用这些经转换的频谱,计算mdst估计和最终声道权重。权重本身被应用于原始输入频谱,这意味着在转换的情况下,对于每个子帧,每个所计算出的权重被应用于处于原始较低分辨率的覆盖相同频率范围的所有仓。
[0104]
通过将主动频带式降混的加权阶段与实际混合阶段分离,新方法能够输出具有主动降混的优势的单声道信号,但没有额外延迟或复杂性,并且独立于个别声道的所选时间频率分辨率。
[0105]
还允许在两个声道上使用另一时间域后处理(例如使用音高信息的tcx

ltp后滤波器),而无需专用参数降混。
[0106]
图5a示出第一替代方案,其中生成两个组合频谱域表示。通过将图5a的左侧所示的高分辨率频谱域表示的两个邻近的仓相加来计算第一组合频谱域表示,以获得第一组合频谱域表示。
[0107]
此外,在图5a的中间的tcx10处所示的两个低频谱分辨率表示彼此组合,以便获得第二组合频谱域表示。加权值估计器100被配置为从这两个组合频谱域表示计算左加权因子w
l
及右加权因子w
r

[0108]
关于由频谱加权器200所执行的实际执行的频谱加权,用于左声道的加权因子被应用于原始左声道表示,即,图5a的左侧所示的tcx20表示。此外,用于由两个时间相继(time

subsequent)的tcx10块所表示的右声道的频带式加权值被应用于两个tcx10块。相同的频带式加权值被应用于图5a的中间所示的两个时间相继的tcx10块的相应频带。
[0109]
在图5b所示的第二替代方案中,如对于若干种不同情况所示,仅单个组合频谱域表示被计算。例如,当在第一声道中的子帧具有两个非常短的诸如tcx5帧,而下一子帧具有单个tcx10帧时,并且当第二声道具有例如两个tcx10帧时,组合频谱域表示被计算用于第一子子帧,而对于第二子子帧,第一声道和第二声道已经处于tcx10表示。
[0110]
在此示例中,频谱加权器200被配置为将高频谱分辨率加权因子应用于例如各自表示五毫秒的子帧中的相应频带。此外,例如,高分辨率加权因子被应用于第一子帧a中具有短的tcx10帧的其他声道的相应原始频谱域表示。
[0111]
替代地,情况是使得第一声道具有在图5b中的左侧所示的表示,并且第二声道具有在图5b中的右侧所示的表示,第一声道的表示经由从图5b中的左侧到中间以及从图5b中的中间到右侧的两个步骤被转换成单个组合频谱域表示。频率分辨率被用于计算加权因子,并且相应的加权因子被应用于第二声道的高频率分辨率且低时间分辨率表示,其将具有在图5b中的右侧所示的分辨率,并且对于频带的相同值将被应用于所有各个子帧a、b,以及图5b中由d及c所示的下一子帧。
[0112]
图5c示出另一替代方案,其中从低频率分辨率且高时间分辨率表示计算实际域加权值。第一声道是例如tcx20表示,并且第二声道是例如两个tcx10表示的序列。与图5b所示的替代方案相反,组合表示现在是图5c的右上角所示的高时间分辨率且低频分辨率表示。,频谱域加权因子计算自一方面的组合表示以及图5c的左下角所示的第二声道的原始频谱域表示。
[0113]
获得频带式加权值的两个集合,即,每个子帧一个集合。这些值被应用于第二声道的相应子帧。然而,由于对整个帧第一声道仅具有单个频谱域表示的事实,如图3a中的块136所示地计算所得频谱域加权值。用于计算所得频谱域加权值的一个过程是对两个(或更多个)子帧的一个且相同频带的相应加权值执行加权加法,其中每个加权值例如通过加权加法中的0.5被加权,致使平均运算。另一替代方案将是计算两个子帧的加权值的算术或几何平均值或者任何其他过程,以从帧中的用于频带的两个加权值获得单个加权值。选项可以是简单地选择两个值中的一个而忽略另一个,等等。
[0114]
此外,为了从第一声道计算组合频谱域表示,可以使用如先前关于图5a所讨论的过程,即,两个邻近的频谱值可以被相加在一起以减小频谱分辨率。这也在图4b中示出,其中在频带中具有一定数量的频谱值的高频谱分辨率可以被降低为在相同频带中具有较少数量的频谱值的中频谱分辨率。此外,为了使图5c右上角中所示的两个子帧的频谱值翻倍,视情况而定,可以例如对于两个子帧中的频带使用相同的(低频谱分辨率)频谱值,或者可以使用较早或较晚的值执行某种加权抽取。
[0115]
图5d示出另一实现方案,其中第一声道具有高频率且低时间分辨率表示诸如tcx20表示,并且第二声道具有低频率且高时间分辨率表示诸如两个短帧的序列,诸如两个tcx10帧。第一组合频谱域表示是高频率分辨率且高时间分辨率表示,并且第二组合频谱域表示额外地为高频率分辨率且高时间分辨率。在图5d中所示的过程例如可以通过以下方式执行:从第一声道,通过采用相同的频谱值计算第一组合频谱域表示,但是现在用于两个相继的由tcx10所示的时间帧。替代地,还可以执行某种内插处理等以使帧的数量翻倍,以便从tcx20帧计算两个相继的tcx10帧。此外,第二声道已经处于恰好的时间分辨率,但是频率分辨率需被翻倍。为此,从图4b中的较低行到较高行的过程可被执行,即,在tcx10表示的频率仓中的频谱值可以被处理,以具有相同频谱值用于成对的频率仓。为了拥有恰好的能量,某种加权可被执行。替代地或附加地,某种进阶内插可被执行,使得在第二组合频谱域表示中彼此相邻的频率仓不一定具有完全相同的频谱值而具有不同值。加权值估计器100从第一组合频谱域表示和第二组合频谱域表示计算频谱域加权值,第一组合频谱域表示和第二组合频谱域表示得自高频率分辨率且高时间分辨率数据。
[0116]
频谱加权器200被配置为将相应的频谱域加权值应用于第二声道,其中对于每个子帧,存在频带式加权值的集合。为了对第一声道tcx20数据进行加权,加权值估计器100被配置为再一次计算所得频带式加权因子136,因为仅需要频谱域加权因子的一个集合用于对第一声道高频率分辨率且时间分辨率(tcx20)频谱域表示进行加权。例如,用于计算所得频带式加权值的组合过程可以是平均化。
[0117]
图6示出本发明的另一方面,即,一种用于转换声道的频谱域表示的频谱分辨率的装置,声道包括至少两个子帧,其中每个子帧包括多个频谱值,多个频谱值表示时间仓大小(time bin size)及频率仓大小(frequency bin size)。根据第二方面,包括在用于转换的装置中的频谱值计算器160包括第一方式组合器170和第二方式组合器180。优选地,第一方式组合器被操作为低通处理器,并且第二方式组合器被操作为高通处理器。频谱值计算器通过第一方式组合器组合来自频谱域表示的每个子帧的属于相同频率仓的频谱值以获得第一组组合频谱值,并且第二方式组合器180以第二方式组合来自频谱域表示的每个子帧的属于相同频率仓的频谱值以获得第二组组合频谱值,其中第二方式不同于第一方式,并
且其中第一组组合频谱值和第二组组合频谱值表示具有不同时间仓大小和不同频率仓大小的组合频谱域表示。关于图5b描述并示出此计算的优选实现方式,其中在一个图示中,a2、a1及b2、b1的序列被转换成高频谱分辨率表示,但是现在具有低时间分辨率,如一方面由f2、e2且另一方面由f1、e1所示。
[0118]
替代地,图5b还示出这样的情况,其中至少两个子帧在图5b的中间被示出为两个时间相继的10ms的子帧,以及其中高频谱分辨率且低时间分辨率表示被示出在图5b的右侧。优选地,以第一方式执行加法,并且以第二方式执行减法。此外,优选的是,两个过程还包括平均函数。此外,图6中的频谱值计算器160被配置为应用第一方式或第二方式,包括使用加权符号(weighting sign)的加权,其中频谱值计算器被配置为根据相同频率仓的频率仓编号设置加权符号。此外,频谱值计算器如图5b中所示被配置为将较低分辨率仓转换成两个较高分辨率仓,其中第一方式被用于偶数仓编号,并且第二方式被用于奇数仓编号。
[0119]
图7示出用于转换频谱分辨率的装置的另一实现方式。除了频谱分辨率组合器160之外,用于转换频谱分辨率的装置可以包括另外的元件。另外的元件例如是频谱处理器500和/或处理数据计算器190和/或另一频谱处理器220。在具有频谱处理器500的实现方式中,已经被转换而未经受任何逆向和正向变换操作并且因此已经以低运算资源和低延迟所生成的经转换的频谱域表示可被单独地或例如与具有相同第二频谱分辨率的另一个频谱表示一起被进一步处理。例如,这可以被执行用于某种降混。图5b的右侧所示的高频率分辨率低时间分辨率表示不仅可以被用于计算处理数据,而且实际上还可以被进一步处理用于附加的或其他替代用途,诸如例如在稍后处理阶段中进行降混或任何形式的音频渲染。
[0120]
另一方面,先前的关于图1和图5b所讨论的过程是具有第二频谱分辨率的频谱域表示(即“组合频谱域表示”)仅被用于计算某种处理数据,诸如用于左声道和右声道的加权值,或者一般来说,用于多声道信号的第一声道和第二声道的加权值。使用已被转换成高频谱分辨率的频谱域表示所生成的处理数据仅被用于计算处理数据,但此频谱域表示本身未被进一步处理。替代地,使用处理数据诸如加权值,具有第一频谱分辨率的原始输入频谱域表示被频谱化处理(spectrally processed),如由块220所示。为此,优选例如使用具有第一分辨率的另一频谱域表示,诸如用于降混操作,例如发生在频谱域中。
[0121]
图8示出本发明操作为降混器的第三方面的实施例,降混器用于对具有至少两个声道的多声道信号进行降混。降混器包括加权值估计器100,加权值估计器100用于为至少两个声道估计频带式加权值,其中加权值估计器被配置为基于每频带的目标能量值计算频带式加权值,以使降混信号的频带中的能量与两个声道的相同频带中的能量呈预定关系。优选地,加权值估计器100如图3b所示地并且如图3b的上下文中所讨论地实现。降混器附加地包括频谱加权器200及随后连接的混合器400,以使用至少两个声道的经加权的频谱域表示计算降混信号。
[0122]
图9示出图8的降混器的另一实现方式。频谱加权器200优选地被配置为接收用于第一声道和/或第二声道的控制数据。此外,频谱加权器被配置为将控制数据应用于四对不同的输入数据中的一对。第一对输入数据可以是第一声道频谱域表示和第二声道频谱域表示,如图9的左侧所示。第二替代方案可以为第一声道频谱域表示和如例如关于图5b、5c所讨论地得出的组合频谱域表示。此外,其他替代方案可以是表示第二声道频谱域表示和单个组合频谱域表示一对数据,也如先前关于图5b、5c所讨论。另一个替代方案可以是,频谱
加权器200将频谱权重应用于第一组合频谱域表示和第二组合频谱表示,如关于图5a或5d所示。用于第一和/或第二声道的控制数据例如可以是加权值,一方面是w
l
,另一方面是w
r
,但是也可以是被用于执行任何形式的频谱加权的任何其他控制数据。
[0123]
在实施例中,降混器的另一元件是加法器480,该加法器480计算相加频谱域表示,即,频谱域中的降混频谱域表示。单声道信号处理器490可以被使用,单声道信号处理器490例如由任何数据控制或者例如被实现为频率时间转换器,如先前关于图1或图2的块310所讨论。
[0124]
要被强调的是,三个方面可以彼此分离地使用,但是也可以被有利地彼此组合。特别地,根据图8的加权值估计器的实现方式可以被应用于图1中所示的第一方面的加权值估计器100。此外,在图5b中所示的从两个高时间分辨率且低频谱分辨率子帧生成高分辨率/低分辨率频谱域表示的替代方案中,图6中所示的频谱分辨率转换器优选地通过图1的加权值估计器100实现。此外,图1职工所示的第一方面的功能,特别是关于处理数据的计算,可以通过图7中所示的处理数据计算器190及另一频谱处理器220实现,以及本发明第三方面的混合器400可以以如下方式被实现为图9的替代方案,用于计算降混信号的混合器400在执行实际时间域逐样本式加法之前应用图1所示的转换器300的功能。因此,用于三个方面中的一个的从属权利要求中所定义的所有特定实施例在相应从属权利要求的定义中也可以被应用于三个方面中的任何其他方面。
[0125]
因此,变得清楚的是,取决于实现方式,三个方面可以被分别地应用或通过组合三个方面中的任何两个或通过组合所有三个方面而彼此组合地应用。
[0126]
随后,给出发明性方面的另外示例:
[0127]
1.一种用于对具有至少两个声道的多声道信号进行降混的降混器,包括:
[0128]
加权值估计器(100),用于为至少两个声道估计频带式加权值;
[0129]
频谱加权器(200),用于使用频带式加权值对至少两个声道的频谱域表示进行加权;
[0130]
转换器(300),用于将至少两个声道的经加权的频谱域表示转换成至少两个声道的时间表示;及
[0131]
混合器(400),用于将至少两个声道的时间表示进行混合以获得降混信号。
[0132]
2.示例1的降混器,其中加权值估计器(100)被配置为对于至少两个声道中的第一声道的多个频带计算多个第一频带式加权值,并且对于至少两个声道中的第二声道的多个频带计算多个第二频带式加权值,或者
[0133]
其中多声道信号具有两个以上声道,以及其中加权值估计器(100)被配置为对于两个以上声道中的第一声道的多个频带计算多个第一频带式加权值、对于两个以上声道中的第二声道的多个频带计算多个第二频带式加权值,及对于两个以上声道中的另一声道的多个频带计算多个另外的频带式加权值。
[0134]
3.示例1或2的降混器,
[0135]
其中至少两个声道的频谱域表示各自包括频率仓的集合,其中频谱值与频率仓相关联,
[0136]
其中加权值估计器(100)被配置为对于频带计算频带式加权值,其中每个频带包括一个、两个或更多个频率仓,或者
[0137]
其中每频带的频率仓的数量随着频带具有更高的中心频率而增加。
[0138]
4.前述示例中的一个的降混器,
[0139]
其中加权值估计器(100)被配置为基于每频带的目标能量值计算频带式加权值,使得降混信号的频带中的能量与至少两个声道的相同频带中的能量呈预定关系。
[0140]
5.前述示例中的一个的降混器,还包括:
[0141]
核心解码器(500),用于解码经编码的信号,经编码的信号具有至少两个原始声道的经编码的频谱域表示,其中核心解码器被配置为从经编码的频谱域表示生成频谱域表示。
[0142]
6.前述示例中的一个的降混器,
[0143]
其中频谱域表示是纯实数的或纯虚数的,
[0144]
其中加权值估计器(100)被配置为当频谱域表示是纯实数的时估计(120,122)虚数的频谱域表示,或当频谱域表示为纯虚数的时估计(120,122)实数的频谱域表示,以及
[0145]
其中加权值估计器(100)被配置为使用所估计的虚数的频谱域表示或所估计的实数的频谱域表示估计频带式加权值。
[0146]
7.前述示例中的一个的降混器,其中加权值估计器(100)被配置为对于至少两个声道中的第一声道的频带计算第一加权值,
[0147]
其中加权值估计器(100)被配置为对于至少两个声道中的第二声道的频带计算第二加权值,以及
[0148]
其中加权值估计器(100)被配置为使用第一声道在频带中的能量、第二声道在频带中的能量及混合项计算第一加权值及第二加权值,混合项取决于来自频带中的至少两个声道的频谱值的乘积或线性组合。
[0149]
8.前述示例中的一个的降混器,
[0150]
其中加权值估计器(100)被配置为计算来自至少两个声道的频谱域表示的频带中彼此相加的频谱值的能量的平方根作为表示线性组合的混合项,其中频带包括多个频谱值,或者计算至少两个声道中的第一声道的频带中的频谱值与第二声道的频带中的频谱值之间的复数点积的绝对值作为表示乘积的混合项。
[0151]
9.前述示例中的一个的降混器,
[0152]
其中至少两个声道中的多个声道中的第一声道及一第二声道的每个频带具有多个频谱值,其中频谱加权器(200)被配置为将相同权重应用于至少两个声道中的一个声道的频带中的每个频谱值,并且将另一权重应用于至少两个声道中的另一声道的频带中的每个频谱值。
[0153]
10.前述示例中的一个的降混器,
[0154]
其中经加权的频谱域表示是mdct(修正离散余弦变换)频谱,及
[0155]
其中转换器(300)被配置为使用合成窗化操作及重叠相加操作对多个声道中的每个声道执行逆mdct变换。
[0156]
11.前述示例中的一个的降混器,
[0157]
其中混合器(400)被配置为应用至少两个声道的时间表示的逐样本式加法,或者
[0158]
其中混合器(400)被配置为应用至少两个声道的时间表示的逐样本式加法,并且将缩放操作应用于逐样本式加法的结果或应用于进入逐样本式加法的输入。
[0159]
12.前述示例中的一个的降混器,
[0160]
其中转换器(300)被配置为使用频谱时间算法生成(310)原始时间表示,以及
[0161]
在由混合器(400)进行混合之前的信号处理方向上,使用用于声道的分离控制信息对原始时间表示单独地进行后处理(320),以获取时间表示。
[0162]
13.示例12的降混器,
[0163]
其中转换器(300)被配置为对于每个时间表示单独地执行低音后滤波、变换编码激励长期预测(tcx

ltp)处理或线性预测编码(lpc)合成作为后处理(320)。
[0164]
14.前述示例中的一个的降混器,
[0165]
其中至少两个声道中的第一声道的第一频谱域表示具有第一时间分辨率或第一频率分辨率,
[0166]
其中至少两个声道中的第二声道的第二频谱域表示具有第二时间分辨率或第二频率分辨率,其中第二时间分辨率或第二频率分辨率不同于第一时间分辨率或第一频率分辨率,以及
[0167]
其中加权值估计器(100)被配置为计算频带式加权值,使得与频带式加权值相关联的频带的频率分辨率低于第一频率分辨率及第二频率分辨率或者等于第一频率分辨率和第二频率分辨率中较低一个。
[0168]
15.前述示例中的一个的降混器,
[0169]
其中第一频谱域表示具有频带中的第一多数的频谱值,
[0170]
其中第二频谱域表示具有频带中的第二多数的频谱值,第二多数高于第一多数,以及
[0171]
其中加权值估计器(100)被配置为:
[0172]
组合第二多数的频谱值中的两个或更多个频谱值,或者从第二多数的频谱值选择频谱值的子集,
[0173]
使用组合两个或更多个频谱值的结果或使用频谱值的子集计算混合项,混合项取决于来自频带中的至少两个声道的频谱值的乘积或线性组合;以及
[0174]
使用混合项计算频带式加权值。
[0175]
16.根据前述示例中的一个的降混器,
[0176]
其中第一频谱域表示包括表示第一时间仓大小及第一频率仓大小的多个第一频谱值,
[0177]
其中第二频谱域表示包括表示第二时间仓大小及第二频率仓大小的多个频谱值,
[0178]
其中第一时间仓大小大于第二时间仓大小,或其中第一频率仓大小小于第二频率仓大小,
[0179]
其中加权值估计器(100)被配置为组合来自第一频谱域表示的多个频谱值以获得第一组合频谱域表示,其中组合频率仓大小等于第二频率仓大小;或者组合来自第二频谱域表示的多个频谱值以获得第一组合频谱域表示,其中组合时间仓大小等于第一时间仓大小。
[0180]
17.示例16的降混器,
[0181]
其中加权值估计器(100)被配置为使用第一组合频谱域表示或第二组合频谱域表示,为至少两个声道中的第一声道及第二声道计算频带式加权值,该计算包括计算频带中
的混合项以及计算频带中的能量,以及
[0182]
其中频谱加权器(200)被配置为将用于至少两个声道中的第一声道的频带式加权值应用于相应频带中的第一频谱域表示的频谱值,并且将用于至少两个声道中的第二声道的频带式加权值应用于相应频带中的第二频谱域表示的频谱值。
[0183]
18.根据示例1至15中的一个的降混器,
[0184]
其中第一声道的第一频谱域表示包括表示第一时间仓大小及第一频率仓大小的多个第一频谱值,
[0185]
其中第二声道的第二频谱域表示包括至少两个子帧,其中每个子帧包括表示第二时间仓大小及第二频率仓大小的多个频谱值,
[0186]
其中第一时间仓大小大于第二时间仓大小,或者其中第一频率仓大小小于第二频率仓大小,
[0187]
其中加权值估计器(100)被配置为:
[0188]
以第一方式组合来自第二频谱域表示的每个子帧的属于相同频率仓的频谱值,以获得第一组组合频谱值,以及
[0189]
以第二方式组合来自第二频谱域表示的每个子帧的属于相同频率仓的频谱值,以获得第二组组合频谱值,第二方式不同于第一方式,
[0190]
其中第一组组合频谱值及第二组组合频谱值表示具有第一时间仓大小及第一频率仓大小的组合频谱域表示,以及
[0191]
使用组合频谱域表示及第一频谱域表示的频谱值计算频带式加权值。
[0192]
19.根据示例18的降混器,
[0193]
其中加权值估计器(100)被配置为以第一方式执行加法及减法中的一种,并且以第二方式执行加法及减法中的另一种。
[0194]
20.根据示例18或19的降混器,其中加权值估计器(100)被配置为以第一方式及第二方式执行平均函数。
[0195]
21.根据示例18至20中的一个的降混器,其中加权值估计器(100)被配置为应用第一方式或第二方式,包括使用加权符号的加权,其中加权值估计器(100)被配置为根据相同频率仓的频率仓编号设置加权符号。
[0196]
21.根据示例18至21中的一个的降混器,其中加权值估计器(100)被配置为应用高通滤波及低通滤波中的一种作为第一方式,以及应用高通滤波及低通滤波中的另一种作为第二方式。
[0197]
22.根据示例18至22中的一个的降混器,其中加权值估计器(100)被配置为将较低分辨率仓转换成两个较高分辨率仓,其中第一方式被用于两个较高分辨率仓中的偶数仓编号的第一较高分辨率仓,以及第二方式被用于两个较高分辨率仓中的奇数仓编号的第二较高分辨率仓。
[0198]
23.根据示例18至22中的一个的降混器,
[0199]
其中第一声道的第一频谱域表示包括tcx20帧,其中第二声道的第二频谱域表示包括两个tcx10子帧,其中加权值估计器(100)被配置为从两个tcx10子帧计算组合tcx20频谱域表示,或者
[0200]
其中第一声道的第一频谱域表示包括tcx20帧,其中第二声道的第二频谱域表示
包括tcx10子帧及两个tcx5子帧,其中加权值估计器(100)被配置为从两个tcx5子帧计算第一组合tcx10频谱域表示,并从第一组合tcx10频谱域表示及tcx10子帧计算第二组合tcx20子帧,或者
[0201]
其中第一声道的第一频谱域表示包括tcx10子帧,其中第二声道的第二频谱域表示包括两个tcx5子帧,及其中加权值估计器(100)被配置为从两个tcx5子帧计算组合tcx10频谱域表示,
[0202]
其中表述tcx20指示具有第一时间长度的第一部分,其中表述tcx10指示具有第二时间长度的第二部分,以及其中表述tcx5指示具有第三时间长度的第三部分,其中第一时间长度比第二时间长度或第三时间长度更长,或者其中第二时间长度比第一时间长度更短或比第二时间长度更长,以及其中第三时间长度比第一时间长度更短或比第二时间长度更短。
[0203]
24.根据示例18至23中的一个的降混器,其中加权值估计器(100)被配置为基于以下方程式应用第一方式:
[0204]
或者
[0205]
其中加权值估计器(100)被配置为基于以下方程式应用第二方式:
[0206][0207]
其中,i指定频谱仓编号以及k0及k1指定第二声道的第二频谱域表示的子帧,以及
[0208]
其中,mdct
2i,k0
及mdct
2i+1,k0
分别指示组合频谱域表示的频谱值,并且mdct
i,k1
及mdct
i,k0
分别指示来自第二子帧k1及第一子帧k0的频谱值。
[0209]
25.根据示例1的降混器,
[0210]
其中至少两个声道中的第一声道的第一频谱域表示具有第一时间分辨率或第一频率分辨率,其中至少两个声道中的第二声道的第二频谱域表示具有第二时间分辨率或第二频率分辨率,其中第二时间分辨率不同于第一时间分辨率,或者其中第二频率分辨率不同于第一频率分辨率,以及
[0211]
其中加权值估计器(100)被配置为将第一频谱域表示转换(132)成具有第二时间分辨率或第二频率分辨率的组合频谱域表示,并且使用组合频谱域表示及第二频谱域表示计算频带式加权值;或者将第二频谱域表示转换成具有第一时间分辨率或第一频率分辨率的组合频谱域表示,并且使用组合频谱域表示及第一频谱域表示计算频带式加权值;
[0212]
或者
[0213]
其中至少两个声道中的第一声道的第一频谱域表示具有第一时间分辨率或第一频率分辨率,其中至少两个声道中的第二声道的第二频谱域表示具有第二时间分辨率或第二频率分辨率,其中第二时间分辨率不同于第一时间分辨率,或者其中第二频率分辨率不同于第一频率分辨率,以及
[0214]
其中加权值估计器(100)被配置为:
[0215]
将第一频谱域表示转换(132)成具有第三时间分辨率或第三频率分辨率的第一组合频谱域表示,
[0216]
其中第三时间分辨率不同于第一时间分辨率或第二时间分辨率,及其中第三频率
分辨率不同于第一频率分辨率或第二频率分辨率,
[0217]
将第二频谱域表示转换(132)成具有第三时间分辨率或第三频率分辨率的第二组合频谱域表示,以及
[0218]
使用第一组合频谱域表示及第二组合频谱域表示计算(134)频带式加权值。
[0219]
26.根据示例25的降混器,
[0220]
其中对于特定时间部分(tcx20),第二声道包括第二频谱域表示,
[0221]
其中对于特定时间部分(2xtcx10),第一声道包括第一频谱域表示中的两个或更多个,
[0222]
其中加权值估计器(100)被配置为将两个或更多个第一频谱域表示转换成具有相同于第二频谱域表示的时间分辨率及频率分辨率的组合频谱域表示,并且使用组合频谱域表示及第二频谱域表示计算频带式加权值,以及
[0223]
其中频谱加权器(200)被配置为使用频带式加权值对第二频谱域表示进行加权,以及使用相同的频带式加权值对两个或更多个第一频谱域表示中的每个第一频谱域表示进行加权。
[0224]
27.根据示例26的降混器,
[0225]
其中加权值估计器(100)被配置将用于两个或更多个第一频谱域表示的相同频率的频谱值进行相加以获得组合频谱域表示的第一频谱值,并且将用于两个或更多个第一频谱域表示的相同频率的频谱值进行相减以获得组合频谱域表示的第二频谱值,组合频谱域表示的第二频谱值在频率上高于且相邻于组合频谱域表示的第一频谱值,以及
[0226]
其中频谱加权器(200)被配置为使用相同的频带式加权值对两个或更多个第一频谱域表示中的每个第一频谱域表示中的具有相同频率的频带进行加权。
[0227]
28.根据示例25的降混器,
[0228]
其中对于特定时间部分(tcx20),第二声道包括第二频谱域表示,
[0229]
其中对于特定时间部分(2xtcx10),第一声道包括两个或更多个第一频谱域表示,
[0230]
其中加权值估计器(100)被配置为:
[0231]
将第二频谱域表示转换成两个或更多个组合频谱域表示,两个或更多个组合频谱域表示具有相同于两个或更多个第一频谱域表示的时间分辨率及频率分辨率,
[0232]
使用两个或更多个组合频谱域表示中的第一个组合频谱域表示及两个或更多个第一频谱域表示中的第一个第一频谱域表示计算第一频带式加权值,
[0233]
使用两个或更多个组合频谱域表示中的第二个组合频谱域表示及两个或更多个第一频谱域表示中的第二个第一频谱域表示计算第二频带式加权值,以及
[0234]
其中频谱加权器(200)被配置为:
[0235]
使用从第一频带式加权值及第二频带式加权值得出(136)的所得频带式加权值对第二频谱域表示进行加权,
[0236]
使用第一频带式加权值对两个或更多个第一频谱域表示中的第一个第一频谱域表示进行加权,及
[0237]
使用第二频带式加权值对两个或更多个第一频谱域表示中的第二个第一频谱域表示进行加权。
[0238]
29.根据示例28的降混器,
[0239]
其中加权值估计器(100)被配置为将用于第二频谱域表示的成对频率的频谱值进行相加以获得相加频谱值,并且复制相加频谱值以获得用于两个或更多个组合频谱域表示中的每个的组合频谱值,以及
[0240]
其中频谱加权器(200)被配置为将第一频带式加权值的用于特定频带的加权值与第二频带式加权值的用于特定频带的加权值进行组合(136),以获得所得频带式加权值的用于所述特定频带的所得加权值。
[0241]
30.根据示例25的降混器,
[0242]
其中对于特定时间部分(tcx20),第二声道包括第二频谱域表示,
[0243]
其中对于特定时间部分(2xtcx10),第一声道包括两个或更多个第一频谱域表示,
[0244]
其中加权值估计器(100)被配置为:
[0245]
将第二频谱域表示转换成两个或更多个组合频谱域表示,两个或更多个组合频谱域表示具有相同于两个或更多个第一频谱域表示的时间分辨率且具有相同于第二频谱域表示的频率分辨率,
[0246]
使用两个或更多个组合频谱域表示中的第一个组合频谱域表示及两个或更多个第一频谱域表示中的第一个第一频谱域表示计算第一频带式加权值,
[0247]
使用两个或更多个组合频谱域表示中的第二个组合频谱域表示及两个或更多个第一频谱域表示中的第二个第一频谱域表示计算第二频带式加权值,以及
[0248]
其中频谱加权器(200)被配置为:
[0249]
使用从第一频带式加权值及第二频带式加权值得出(136)的频带式加权值对第二频谱域表示进行加权,
[0250]
使用第一频带式加权值对两个或更多个第一频谱域表示中的第一个第一频谱域表示进行加权,以及
[0251]
使用第二频带式加权值对两个或更多个第一频谱域表示中的第二个第一频谱域表示进行加权。
[0252]
31.根据示例30的降混器,
[0253]
其中加权值估计器(100)被配置为将一个或更多个频谱值进行升取样以获得用于第二频谱域表示的相邻频率的升取样频谱值,并且复制升取样频谱值以获得用于两个或更多个组合频谱域表示中的每个的组合频谱值,以及
[0254]
其中频谱加权器(200)被配置为将第一频带式加权值的用于特定频带的加权值与第二频带式加权值的用于特定频带的加权值进行组合(136),以获得所得频带式加权值的用于所述特定频带的所得加权值。
[0255]
32.根据示例25的降混器,
[0256]
其中对于特定时间部分(tcx20),第二声道包括第二频谱域表示,
[0257]
其中对于特定时间部分(2xtcx10),第一声道包括第一频谱域表示中的两个或更多个,
[0258]
其中加权值估计器(100)被配置为:
[0259]
将两个或更多个第一频谱域表示转换成第一组合频谱域表示,第一组合频谱域表示具有相同于第二频谱域表示的时间分辨率,
[0260]
将第二频谱域表示转换成第二组合频谱域表示,第二组合频谱域表示具有相同于
两个或更多个第一频谱域表示的频率分辨率,以及
[0261]
使用第一组合频谱域表示及第二组合频谱域表示计算频带式加权值,以及
[0262]
其中频谱加权器(200)被配置为使用频带式加权值对第二频谱域表示进行加权,并且使用相同的频带式加权值对两个或更多个第一频谱域表示中的每个第一频谱域表示进行加权。
[0263]
33.根据示例32的降混器,
[0264]
其中加权值估计器(100)被配置为将用于第二频谱域表示的成对频率的频谱值进行相加以获得第二组合频谱域表示,以及将两个或更多个第一频谱域表示的相同频率的频谱值进行相加以获得第一组合频谱域表示,以及
[0265]
其中频谱加权器(200)被配置为使用相同的频带式加权值对两个或更多个第一频谱域表示中的每个第一频谱域表示中的具有相同频率的频带进行加权。
[0266]
34.根据前述示例中的一个的降混器,
[0267]
其中加权值估计器(100)被配置为依据以下中的至少两者使用第一计算规则对于至少两个声道中的第一声道的多个频带计算多个第一频带式加权值:第一声道的第一频谱域表示的频谱值、第二声道的第二频谱域表示的频谱值、从第一频谱域表示或第二频谱域表示的频谱值得出的单个组合频谱域表示的频谱值、从第一频谱域表示的频谱值得出的第一组合频谱域表示的频谱值,及从第二频谱域表示的频谱值得出的第二组合频谱域表示的频谱值,以及
[0268]
其中加权值估计器(100)被配置为依据以下中的至少两者使用第二计算规则对于至少两个声道中的第一声道的多个频带计算多个第二频带式加权值:多个第一频带式加权值、第一声道的第一频谱域表示的频谱值、第二声道的第二频谱域表示的频谱值、从第一频谱域表示或第二频谱域表示的频谱值得出的单个组合频谱域表示的频谱值、从第一频谱域表示的频谱值得出的第一组合频谱域表示的频谱值,及从第二频谱域表示的频谱值得出的第二组合频谱域表示的频谱值,其中第二计算规则不同于第一计算规则。
[0269]
35.一种用于转换声道的频谱域表示的频谱分辨率的装置,声道包括至少两个子帧,其中每个子帧包括表示时间仓大小及频率仓大小的多个频谱值,该装置包括:
[0270]
频谱值计算器(160),用于以第一方式组合(170)来自频谱域表示的每个子帧的属于相同频率仓的频谱值以获得第一组组合频谱值,以及以第二方式组合(180)来自频谱值表示的每个子帧的属于相同频率仓的频谱值以获得第二组组合频谱值,第二方式不同于第一方式,其中第一组组合频谱值及第二组组合频谱值表示具有不同时间仓大小及不同频率仓大小的组合频谱域表示。
[0271]
36.根据示例35的装置,
[0272]
其中频谱值计算器(160)被配置为以第一方式执行加法及减法中的一个,并且以第二方式执行加法及减法中的另一个。
[0273]
37.根据示例35或36的装置,其中频谱值计算器(160)被配置为以第一方式及第二方式执行平均函数。
[0274]
38.根据示例35至37中的一个的装置,其中频谱值计算器(160)被配置为应用第一方式或第二方式,包括使用加权符号的加权,其中频谱值计算器(160)被配置为根据相同频率仓的频率仓编号设置加权符号。
[0275]
39.根据示例35至38中的一个的装置,其中频谱值计算器(160)被配置为应用高通滤波及低通滤波中的一个作为第一方式,并且应用高通滤波及低通滤波中的另一个作为第二方式。
[0276]
40.根据示例35至39中的一个的装置,其中频谱值计算器(160)被配置为将较低分辨率仓变换成两个较高分辨率仓,其中第一方式被用于偶数仓编号,并且第二方式被用于奇数仓编号。
[0277]
41.根据示例35至40中的一个的装置,
[0278]
其中第一声道的第一频谱域表示包括tcx20帧,其中声道的频谱域表示包括两个tcx10子帧,其中频谱值计算器被配置为从两个tcx10子帧计算组合tcx20频谱域表示,或者
[0279]
其中第一声道的第一频谱域表示包括tcx20帧,其中声道的频谱域表示包括tcx10子帧及两个tcx5子帧,其中频谱值计算器(160)被配置从两个tcx5子帧计算第一组合tcx10频谱域表示,并且从第一组合tcx10频谱域表示及tcx10子帧计算第二组合tcx20子帧,或者
[0280]
其中第一声道的第一频谱域表示包括tcx10子帧,其中声道的频谱域表示包括两个tcx5子帧,以及其中频谱值计算器(160)被配置为从两个tcx5子帧计算组合tcx10频谱域表示,
[0281]
其中表述tcx20指示具有第一时间长度的第一部分,其中表述tcx10表示具有第二时间长度的第二部分,以及其中表述tcx5指示具有第三时间长度的第三部分,其中第一时间长度比第二时间长度或第三时间长度更长,或者其中第二时间长度比第一时间长度更短或比第二时间长度更长,以及其中第三时间长度比第一时间长度更短或比第二时间长度更短。
[0282]
42.根据示例35至41中的一个的装置,其中频谱值计算器(160)被配置为基于以下方程式应用第一方式:
[0283]
或者
[0284]
其中,频谱值计算器被配置为基于以下方程式应用第二方式:
[0285][0286]
其中i指定频谱仓编号,以及k0及k1指定声道的频谱域表示的子帧,以及
[0287]
其中mdct
2i,k0
及mdct
2i+1,k0
分别指示组合频谱域表示的频谱值,并且mdct
i,k1
及mdct
i,k0
分别指示来自第二子帧k1及第一子帧k0的频谱值。
[0288]
43.根据示例35至42中的一个的装置,还包括信号计算器(500,190,220),用于在经编码或经解码或经处理的音频信号的计算中使用组合频谱域表示,组合频谱域表示具有不同时间仓大小及不同频率仓大小。
[0289]
44.根据示例35至43中的任何一个的装置,其中频谱值计算器(160)被配置为接收具有第一频谱分辨率的频谱域表示并生成具有第二频谱分辨率的经转换的频谱域表示,第二频谱分辨率不同于第一频谱分辨率,
[0290]
其中,该装置还包括:
[0291]
第一频谱处理器(500),用于处理经转换的频谱域表示,以获得具有第二分辨率的经处理的频谱域表示,或者
[0292]
处理数据计算器(190),用于从经转换的频谱域表示计算处理数据,以及
[0293]
第二频谱处理器(220),用于处理频谱域表示,以获得具有第一分辨率的经处理的频谱域表示。
[0294]
45.根据示例44的装置,其中第一频谱处理器(500)被配置为在处理中使用另一频谱域表示,该另一频谱域表示具有第二频谱分辨率,或者
[0295]
其中第二频谱处理器(220)被配置为在处理中使用另一频谱域表示,该另一频谱域表示具有第一频谱分辨率。
[0296]
46.一种用于对具有至少两个声道的多声道信号进行降混的降混器,包括:
[0297]
加权值估计器(100),用于为至少两个声道估计频带式加权值,其中加权值估计器(100)被配置为基于每频带的目标能量值计算频带式加权值,以使降混信号的频带中的能量与至少两个声道的相同频带中的能量呈预定关系;
[0298]
频谱加权器(200),用于使用频带式加权值对至少两个声道的频谱域表示进行加权,以获得经加权的频谱域表示;及
[0299]
混合器(400),用于使用至少两个声道的经加权的频谱域表示计算降混信号。
[0300]
47.示例46的降混器,
[0301]
其中频谱域表示是纯实数的或纯虚数的,
[0302]
其中加权值估计器(100)被配置为当频谱域表示是纯实数的时估计(140)虚数的频谱域表示,或当频谱域表示是纯虚数的时估计(140)实数的频谱域表示,以及
[0303]
其中加权值估计器(100)被配置为使用所估计的虚数的频谱域表示或所估计的实数的频谱域表示估计频带式加权值。
[0304]
48.示例46或47中的一个的降混器,其中加权值估计器(100)被配置为对于至少两个声道中的第一声道的频带计算第一加权值,对于至少两个声道中的第二声道的频带计算第二加权值,及使用(142)第一声道在频带中的能量、第二声道在频带中的能量及混合项计算第一加权值及第二加权值,混合项取决于来自频带中的至少两个声道的频谱值的乘积(148)或线性组合(146)。
[0305]
49.示例46到48中的一个的降混器,
[0306]
其中加权值估计器(100)被配置为计算来自至少两个声道的频谱域表示的频带中彼此相加的频谱值的能量的平方根作为表示线性组合(146)的混合项,其中该频带包括多个频谱值;或计算至少两个声道中的第一声道的频带中的频谱值与第二声道的该频带中的频谱值之间的复数点积的绝对值作为表示乘积(148)的混合项。
[0307]
50.示例46到49中的一个的降混器,
[0308]
其中至少两个声道中的第一声道及第二声道的每个频带具有多个频谱值,其中频谱加权器(200)被配置为将相同权重应用于至少两个声道中的一个的频带中的每个频谱值,并且将另一权重应用于至少两个声道中的另一声道的该频带中的每个频谱值。
[0309]
51.示例46至示例50中的一个的降混器,其中加权值估计器(100)被配置为基于以下方程式为至少两个声道中的第一声道计算(150)频带式加权值:
[0310]
[0311]
其中w
r
是对于频带用于第一声道的加权因子,其中|l|2是用于第二声道的估计功率,其中|r|2是在该频带中用于第一声道的估计功率,其中2|<l,r>|是在该频带中声道之间的估计点积,其中|l|是在该频带中用于第二声道的估计振幅,其中|r|是在该频带中用于第一声道的估计振幅。
[0312]
52.示例51的降混器,其中加权值估计器(100)被配置为基于以下方程式为至少两个声道中的第二声道计算(152)频带式加权值:
[0313][0314]
其中w
l
是对于频带用于第二声道的加权因子,以及其中|l+r|是在该频带中用于第一声道及第二声道的估计振幅的估计线性组合。
[0315]
53.示例50至52中的一个的降混器,其中加权值估计器(100)被配置为基于以下方程式计算(144)在该频带中用于第二声道的估计振幅,并计算在该频带中用于第一声道的估计振幅:
[0316]
或者
[0317]
其中加权值估计器(100)被配置为基于以下方程式计算(146)在该频带中用于第一声道及第二声道该的估计振幅的估计线性组合:
[0318]
或者
[0319]
其中加权值估计器(100)被配置为基于以下方程式计算(148)在该频带中声道之间的估计点积:
[0320][0321]
或者
[0322]
其中加权值估计器(100)被配置为基于以下方程式计算(142)在该频带中第二声道的估计功率或在该频带中第一声道的估计功率:
[0323][0324]
其中i指定频谱带b内的仓编号,其中mdst
i
表示mdct仓i的估计虚部,其中mdct
i
表示包含在第一声道或第二声道的频谱域表示中的mdct仓i的实部,其中r表示第一声道,其中l表示第二声道。
[0325]
54.示例46至53中的一个的降混器,
[0326]
其中至少两个声道中的第一声道的第一频谱域表示具有第一时间分辨率或第一频率分辨率,其中至少两个声道中的第二声道的第二频谱域表示具有第二时间分辨率或第二频率分辨率,其中第二时间分辨率不同于第一时间分辨率,并且其中第二频率分辨率不同于第一频率分辨率(130),以及
[0327]
其中加权值估计器(100)被配置为将第一频谱域表示转换(132)成具有第二时间
分辨率或第二频率分辨率的组合频谱域表示,并且使用组合频谱域表示及第二频谱域表示计算频带式加权值(134),或者将第二频谱域表示转换(132)成具有第一时间分辨率或第一频率分辨率的组合频谱域表示,并且使用组合频谱域表示及第一频谱域表示计算(134)频带式加权值,或者
[0328]
其中至少两个声道中的第一声道的第一频谱域表示具有第一时间分辨率或第一频率分辨率,其中至少两个声道中的第二声道的第二频谱域表示具有第二时间分辨率或第二频率分辨率,其中第二时间分辨率不同于第一时间分辨率,并且其中第二频率分辨率不同于第一频率分辨率(130),以及
[0329]
其中加权值估计器(100)被配置为:
[0330]
将第一频谱域表示转换(132)成具有第三时间分辨率或第三频率分辨率的第一组合频谱域表示,
[0331]
其中第三时间分辨率不同于第一时间分辨率或第二时间分辨率,并且其中第三频率分辨率不同于第一频率分辨率或第二频率分辨率,
[0332]
将第二频谱域表示转换(132)成具有第三时间分辨率或第三频率分辨率的第二组合频谱域表示,以及
[0333]
使用第一组合频谱域表示及第二组合频谱域表示计算(134)频带式加权值。
[0334]
55.示例54的降混器,其中频谱加权器(200)被配置对组合频谱域表示与第二频谱域表示、组合频谱域表示与第一频谱域表示,及第一组合频谱域表示与第二组合频谱域表示中的一者进行加权,以获得第一经加权的频谱域表示及第二经加权的频谱域表示作为至少两个声道的频谱域表示。
[0335]
56.示例55的降混器,其中混合器(400)被配置为将第一经加权的频谱域表示及第二经加权的频谱域表示进行相加以获得频谱域降混表示,并且将频谱域降混表示转换到时间域以获得降混信号;或者将第一经加权的频谱域表示及第二经加权的频谱域表示转换到时间域以获得至少两个声道的时间表示,并且将至少两个声道的时间表示进行相加以获得降混信号。
[0336]
57.一种用于对具有至少两个声道的多声道信号进行降混的方法,包括:
[0337]
为至少两个声道估计频带式加权值;
[0338]
使用频带式加权值对至少两个声道的频谱域表示进行加权;
[0339]
将至少两个声道的经加权的频谱域表示转换成至少两个声道的时间表示;及
[0340]
将至少两个声道的时间表示进行混合以获得降混信号。
[0341]
58.一种用于转换声道的频谱域表示的频谱分辨率的方法,声道包括至少两个子帧,其中每个子帧包括表示时间仓大小及频率仓大小的多个频谱值,该方法包括:
[0342]
以第一方式组合来自频谱域表示的每个子帧的属于相同频率仓的频谱值,以得到第一组组合频谱值;及
[0343]
以第二方式组合来自频谱域表示的每个子帧的属于相同频率仓的频谱值,以得到第二组组合频谱值,第二方式不同于第一方式,其中第一组组合频谱值及第二组组合频谱值表示具有不同时间仓大小及不同频率仓大小的组合频谱域表示。
[0344]
59.一种对具有至少两个声道的多声道信号进行降混的方法,包括:
[0345]
为至少两个声道估计频带式加权值,包括:基于每频带的目标能量值计算频带式
加权值,以使降混信号的频带中的能量与至少两个声道的相同频带中的能量呈预定关系;
[0346]
使用频带式加权值对至少两个声道的频谱域表示进行加权,以获得经加权的频谱域表示;以及
[0347]
使用至少两个声道的经加权的频谱域表示计算降混信号。
[0348]
60.一种计算机程序,用于当在计算机或处理器上运行时,执行示例57或58或59的方法。
[0349]
这里要被提到的是,如前所述的所有替代方案或方面以及由所附权利要求中的独立权利要求所限定的所有方面可以被单独地使用,即,除了预期的替代方案、目的或独立权利要求外,没有任何其他替代方案或目的。然而,在其他实施例中,两个或更多个替代方案或方面或独立权利要求可以彼此组合,并且在其他实施例中,所有方面或替代方案及所有独立权利要求可以彼此组合。
[0350]
本发明的经编码的音频信号可以被储存在数字存储介质或非暂时性存储介质上,或者可以在传输介质诸如无线传输介质或有线传输介质诸如因特网上被传输。
[0351]
尽管已经在装置的上下文中描述一些方面,但是明显的是,这些方面也表示相应方法的描述,其中块或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方面也表示对相应装置的相应块或项目或特征的描述。
[0352]
取决于某些实施要求,本发明的实施例可以被实现在硬件或软件中。该实现可以使用数字存储介质进行,例如:磁盘、dvd、cd、rom、prom、eprom、eeprom或flash内存,其上存储有电子可读控制信号,这些信号与可编程计算机系统协作(或能够协作),以便执行相应的方法。
[0353]
根据本发明的一些实施例包括数据载体,该数据载体具有电子可读控制信号,该电子可读控制信号能够与可编程计算机系统协作,使得本文所描述的方法中的一个被执行。
[0354]
通常地,本发明的实施例可以被实现为具备程序代码的计算机程序产品,当计算机程序产品在计算机上运行时,该程序代码可操作用于执行方法中的一个。程序代码可以例如被存储在机器可读载体上。
[0355]
其他实施例包括计算机程序,被存储在机器可读载体或非暂时性存储介质上,用于执行本文描述的方法中的一个。
[0356]
换句话说,因此,本发明方法的实施例是一种计算机程序,该计算机程序具有当计算机程序在计算机上运行时用于执行本文描述的方法任一个的程序代码。
[0357]
因此,本发明方法的另一实施例是一种数据载体(或数字存储介质,或计算机可读介质),其包括记录在其上的用于执行本文所述方法之一的计算机程序。
[0358]
因此,本发明方法的另一实施例是表示用于执行本文所述方法中一个的计算机程序的数据流或信号序列。数据流或信号序列可以例如被配置为经由数据通信连接例如经由因特网被传输。
[0359]
另一实施例包括处理装置,例如,计算机或可编程逻辑器件,被配置为或适于执行本文所描述的方法中的一个。
[0360]
另一实施例包括一种计算机,在其上安装计算机程序,计算机程序用于执行本文所描述的方法中的一个。
[0361]
在一些实施例中,可编程逻辑器件(例如现场可编程逻辑门阵列)可以被用于执行本文描述的方法的一些或全部功能。在一些实施例中,现场可编程逻辑门阵列可以与微处理器协作,以便执行本文所描述的方法中的一个。通常地,方法优选地由任何硬件装置执行。
[0362]
如上所述的实施例仅用于说明本发明的原理。应当理解的是,本文描述的布置及细节的修改及变化对于本领域技术人员将是显而易见的。因此,本发明的意图仅由即将来临的权利要求的范围限制,而不受由本文的实施方式的描述及解释而给出的具体细节的限制。
[0363]
参考文献
[0364]
[1]itu

r bs.775

2,multichannel stereophonic sound system with and without accompanying picture,07/2006.
[0365]
[2]f.baumgarte,c.faller und p.kroon,,,audio coder enhancement using scalable binaural cue coding with equalized mixing,“aes第116届大会上,柏林,2004年。
[0366]
[3]g.stoll,j.groh,m.link,j.b.runow,m.keil,r.stoll,m.stoll and c.stoll,,,method for generating a downward

compatible sound format“.usa patent us 2012/0 014 526,2012年.
[0367]
[4]m.kim,e.oh and h.shim,,,stereo audio coding improved by phase parameters,“aes第129届大会上,旧金山,2010年。
[0368]
[5]a.adami,e.habets and j.herre,,,down

mixing using coherence suppression,“ieee国际声学、语音及信号处理会议上,佛罗伦萨,2014年。
[0369]
[6]iso/iec 23008

3:,information technology—high efficiency coding and media delivery in heterogeneous environments—第3部分:3d音讯,2019年。
[0370]
[7]s.bayer,c.borβ,j.b
ü
the,s.disch,b.edler,g.fuchs,f.ghido and m.multrus,,,downmixer and method for downmixing at least two channels and multichannel encoder and multichannel decoder“.wo2018086946.
[0371]
[8]3gpp ts 26.445,codec for enhanced voice services(evs);detailed algorithmic description.
[0372]
[9]s.chen,h.ruimin and s.zhang,,,estimating spatial cues for audio coding in mdct domain,“ieee多媒体及博览会国际会议,纽约,2009年.
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1