解码系统和解码方法与流程

文档序号:14947321发布日期:2018-07-17 21:48阅读:648来源:国知局

技术领域

本文中公开的发明总体上涉及立体声音频编码,更准确地涉及用于在频域中使用复数预测的立体声编码的技术。



背景技术:

与立体声信号的左(L)通道和右(R)通道的独立编码相比,立体声信号的左(L)通道和右(R)通道的联合编码使得能够进行更有效的编码。用于联合立体声编码的常用方法是中间/侧(M/S)编码。这里,中间(M)信号是通过将L信号和R信号相加而形成的,例如,M信号可具有M=(L+M)/2的形式。另外,侧(S)信号是通过将两个通道L和R相减而形成的,例如,S信号可具有S=(L-R)/2的形式。在M/S编码的情况下,对M和S信号而不是L和R信号进行编码。

在MPEG(运动图像专家组)AAC(高级音频编码)标准(参见标准文档ISO/IEC 13818-7)中,可以以时变方式或频变方式选择L/R立体声编码和M/S立体声编码。因此,立体声编码器可将L/R编码应用于立体声信号的一些频段,而将M/S编码用于对立体声信号的其它频段进行编码(频变)。另外,编码器可随着时间在L/R编码与M/S编码之间进行切换(时变)。在MPEG AAC中,在频域中、尤其是在MDCT(改进离散余弦变换)中实现立体声编码。这允许以频率可变方式和时间可变方式自适应地选择L/R编码或M/S编码。

参数立体声编码是用于将立体声音频信号有效地编码为单耳信号加立体声参数的少量侧信息的技术。它是MPEG-4音频标准(参见标准文档ISO/IEC 14496-3)的一部分。可使用任何音频编码器对单耳信号进行编码。可将立体声参数嵌入在单声道比特流的辅助部分中,因此实现完全的前向和后向兼容性。在解码器中,首先对单耳信号进行解码,其后借助于立体声参数重建立体声信号。通过去相关器,例如可包括一个或更多个延迟线的适当的全通滤波器,来生成解码后的单声道信号的去相关版本,去相关版本与单声道信号具有零交叉相关性。实质上,去相关的信号与单声道信号具有相同的频谱和时间能量分布。将单耳信号和去相关的信号一起输入到上混处理,该上混处理通过立体声参数来控制并且重建立体声信号。有关更多信息,参见论文“Low Complexity Parametric Stereo Coding in MPEG-4”,H.Purnhagen,第七届有关数字音频效果的国际会议的论文集(DAFx’04),意大利,那不勒斯,2004年10月5-8日,第163-168页。

MPEG环绕(MPS;参见ISO/IEC 23003-1和论文“MPEG Surround-The ISO/MPEG Standard for Efficient and Compatible Multi-Channel Audio Coding”,J.Herre等,音频工程会议论文7084,第122次会议,2007年5月5-8日)允许将参数立体声编码的原理与残余编码的原理进行组合,用所发送的残余来替代去相关的信号,从而提高感知质量。残余编码可通过对多通道信号进行下混并且可选地通过提取空间线索(spatial cues)来实现。在下混处理期间,表示误差信号的残余信号被计算,然后被编码并且被发送。它们可在解码器中代替去相关的信号。在混合方法中,它们可在某些频带中,尤其是在相对低的带中代替去相关的信号。

根据当前的MPEG统一语音和音频编码(USAC)系统(图1中示出其两个示例),解码器包括位于核心解码器下游的复数值的正交镜像滤波器(QMF)组。作为滤波器组的输出获得的QMF表示是复数的—因此通

过因子2进行过采样—并且可被布置为下混信号(或者等同地,中间信号)M和残余信号D,其中,对下混信号M和残余信号D应用具有复数条目的上混矩阵。L和R信号(在QMF域中)被获得为:

其中,g是实数增益因子,而α是复数预测系数。优选地,α被选择为使得残余信号D的能量最小化。增益因子可通过规一化来确定,即确保和信号的能量等于左信号和右信号的能量之和。L信号和R信号中的每个的实部和虚部相互冗余—基本上,L信号和R信号中的每个可以根据另一个来计算—但是有益于使得随后能够应用频带复制(SBR)解码器而不会产生音频失真伪像。出于类似的原因,也可以以防止与其它时间或频率自适应信号处理(未示出)(例如单声道至立体声上混)有关的伪像为目的,来选择过采样信号表示的使用。逆QMF滤波是解码器中的最后处理步骤。注意,信号的带限QMF表示允许可集成到这种类型的解码器中的带限残余技术和“残余填充”技术。

关于计算复杂度,以上编码结构非常适合于低比特率,通常为80kb/s以下,但是对于更高比特率来说不是最优的。更准确地,在更高的比特率,通常不采用SBR工具(由于其不会提高编码效率)。于是,在没有SBR级的解码器中,只有复数值的上混矩阵对QMF滤波器组的存在进行激励,这需要大量计算并且引入延迟(在1024个样本的帧长度,QMF分析/合成滤波器组引入961个样本的延迟)。这清楚地指示需要更有效的编码结构。



技术实现要素:

本发明的目的是提供在高比特率范围内计算效率也高的用于立体声编码的方法和设备。

本发明通过分别提供编码器和解码器、编码方法和解码方法以及用于编码和解码的计算机程序产品来实现该目的。

在第一方面,本发明提供了一种用于提供通过复数预测立体声编码的立体声信号的解码器系统,该解码器系统包括:

上混,被适配为根据下混信号(M)和残余信号(D)的第一频域表示生成立体声信号,第一频域表示中的每个包括第一频谱分量,第一频谱分量表示在多维空间的第一子空间中表示的对应信号的频谱内容,该上混级包括:

用于根据下混信号的第一频域表示来计算下混信号的第二频域表示的模块,第二频域表示包括第二频谱分量,第二频谱分量表示在多维空间的第二子空间中表示的信号的频谱内容,该第二子空间包括多维空间的未包括在第一子空间中的部分;

加权求和器,用于根据下混信号的第一频域表示和第二频域表示、残余信号的第一频域表示和编码在比特流信号中的复数预测系数(α)来计算侧信号(S);以及

和与差级,用于根据侧信号和下混信号的第一频域表示计算立体声信号,

其中,上混级还能够在直通模式下操作,在直通模式下,将所述下混信号和残余信号直接供应到和与差。

在第二方面,本发明提供了一种用于通过复数预测立体声编码利用比特流信号对立体声信号进行编码的编码器系统,包括:

估计器,用于估计复数预测系数;

编码级,能够操作用于:

(a)以由复数预测系数的值确定的关系,将立体声信号变换为下混信号和残余信号的频域表示,

以及

多路复用器,用于从编码级和估计器接收输出,并且用所述比特流信号对该输出进行编码。

在本发明的第三方面和第四方面,提供了用于将立体声信号编码为比特流的方法和用于将比特流解码为至少一个立体声信号的方法。每个方法的技术特征分别类似于编码器系统和解码器系统的技术特征。在第五方面和第六方面,本发明还提供了包含用于在计算机上执行方法中的每个的指令的计算机程序产品。

本发明得益于MPEG USAC系统中的统一立体声编码的优点。这些优点在更高比特率时也被保持,而没有会伴随基于QMF的方法的计算复杂度的显著增加,其中,在更高比特率时通常不采用SBR。至少在下混通道和残余通道的代码音频带宽相同并且上混处理不包括去相关的情况下,这是可能的,因为作为MPEG USAC变换编码系统的基础的临界采样MDCT变换可用于如本发明提供的复数预测立体声编码。这意味着再也不需要额外的QMF变换了。与传统的L/R或M/S立体声相比,QMF域中的复数预测立体声编码的代表性实现方式实际上会显著增加每单位时间的操作的数目。因此,根据本发明的编码设备在这样的比特率上显得有竞争力,从而以适中的计算代价提供高的音频质量。

如本领域技术人员所认识到的,上混级还能在直通模式下操作的事实使得解码器能够根据编码侧所确定的传统的直接或联合编码、以及复数预测编码来自适应地进行解码。因此,在解码器无法肯定地增加超出传统的直接L/R立体声编码或联合M/S立体声编码的质量等级之上的质量等级的那些情况下,解码器至少可以保证相同的等级被保持。因此,从功能性的角度来看,根据本发明的该方面的解码器可被认为是关于背景技术的超集。

作为优于基于QMF的预测编码的立体声的优点,信号的完美重建是可能的(除了量化误差以外,其中可使量化误差任意小)。

因此,本发明提供了用于通过复数预测进行基于变换的立体声编码的编码设备。优选地,根据本发明的设备不限于复数预测立体声编码,而是还能够在根据背景技术的直接L/R立体声编码或联合M/S立体声编码方式下操作,使得可以为特定的应用或者在特定的时间区间期间选择最适合的编码方法。

包括所述第一频谱分量和所述第二频谱分量的信号过采样(例如复数)表示用作根据本发明的复数预测的基础,因此用于计算这样的过采样表示的模块被布置在根据本发明的编码器系统和解码器系统中。频谱分量指的是多维空间的第一子空间和第二子空间,其可以是以有限采样频率采样的在给定长度的时间区间(例如,预定的时间帧长度)上的时间依赖函数的集合。公知的是,可通过基函数的有限加权求和来近似该特定多维空间中的这些函数。

如本领域技术人员会想到的,被适配为与解码器协作的编码器配备有用于提供预测编码所基于的过采样表示的等效模块,从而使得能够进行编码信号的可靠再现。这样的等效模块可为相同或类似的模块,或具有相同或类似的传输特性的模块。特别地,编码器和解码器中的模块分别可为执行相应的计算机程序的类似的或不同的处理单元,其中计算机程序执行等效的数学操作集合。

在解码器系统或编码器系统的一些实施例中,第一频谱分量具有在第一子空间中表示的实数值,而第二频谱分量具有在第二子空间中表示的虚数值。第一频谱分量和第二频谱分量共同形成信号的复数频谱表示。第一子空间可为第一基函数集合的线性扩展(linear span),而第二子空间可为第二基函数集合的线性扩展,其中,第二基函数集合中的一些线性地独立于第一基函数集合。

在一个实施例中,用于计算复数表示的模块是实数至虚数变换,即用于根据信号的实数频谱表示来计算离散时间信号的频谱的虚部的模块。变换可基于精确的或近似的数学关系,例如根据谐波分析的公式;或启发式关系。

在解码器系统或编码器系统的一些实施例中,第一频谱分量可通过离散时域信号的时域至频域变换(优选地为傅立叶变换)来获得,例如离散余弦变换(DCT)、改进离散余弦变换(MDCT)、离散正弦变换(DST)、改进离散正弦变换(MDST)、快速傅立叶变换(FFT)、基于主因子的傅立叶算法等。在最初的四个情况中,第二频谱分量于是可分别通过DST、MDST、DCT和MDCT来获得。如所公知的,在单位时间区间上周期性的余弦线性扩展形成这样的子空间,该子空间没有被完全包含于在相同的时间区间上周期性的正弦线性扩展中。优选地,第一频谱分量可通过MDCT来获得,而第二频谱分量可通过MDST来获得。

在一个实施例中,解码器系统包括被布置在上混级的上游的至少一个时域噪声整形模块(TNS模块或TNS滤波器)。一般而言,TNS的使用增加了具有类似于瞬时分量的信号的感知到的音频质量,并且这也应用于以TNS为特征的创新性的解码器系统的实施例。在传统的L/R和M/S立体声编码中,TNS滤波器可被应用为正好在逆变换之前的、频域中的最后处理步骤。然而,在复数预测立体声编码的情况下,经常有利的是对下混信号和残余信号应用TNS滤波器,即在上混矩阵之前。不同地(put differently),将TNS应用于左通道和右通道的线性组合,这具有若干优点。首先,例如在TNS仅有益于下混信号的给定情形下可将其关掉。针对残余信号,可抑制或省略TNS滤波,这可意味着对可用带宽的更节省的使用,仅需要针对下混信号传送TNS滤波器系数。第二,复数预测编码中所需要的下混信号的过采样表示的计算(例如,从MDCT数据导出MDST数据,从而形成复数频域表示)可能要求下混信号的时域表示是可计算的。而这意味着,作为以统一方式获得的MDCT频谱的时间序列,下混信号是优选地可利用的。如果TNS滤波器被应用于将下混/残余表示转换为左/右表示的上混矩阵之后的解码器中,则只有下混信号的TNS残余MDCT频谱的序列将是可利用的。这将非常有挑战性地对对应的MDST频谱进行高效的计算,尤其是如果左通道和右通道正使用具有不同特性的TNS滤波器。

要强调的是,MDCT频谱的时间序列的可用性不是为了获得适合于用作复数预测编码的基础的MDST表示的绝对标准。除了实验证据以外,本事实还可通过如下内容来说明:TNS通常仅应用于较高频率(例如几千赫兹以上),使得通过TNS滤波的残余信号对应于较低频率的未经滤波的残余信号。因此,如下所述,本发明可被实施为用于复数预测立体声编码的解码器,其中,TNS滤波器具有与在上混级的上游不同的布置。

在一个实施例中,解码器系统包括位于上混级的下游的至少一个其它TNS模块。通过选择器布置,TNS模块在上混级的上游,或者TNS模块在上混级的下游。在特定情形下,复数频域表示的计算不要求下混信号的时域表示是可计算的。另外,如上所述,解码器可以选择性地在直接或联合编码模式下操作,而不应用复数预测编码,于是可能更适合的是应用TNS模块的传统定位,即作为频域中的最后处理步骤之一。

在一个实施例中,解码器系统被适配为:在不需要下混信号的第二频域表示时,通过去激活用于计算下混信号的第二频域表示的模块,来节省处理资源和可能的能量。假设下混信号被划分为连续的时间块,时间块中的每个与复数预测系数的值相关联。该值可通过由与解码器协作的编码器针对每个时间块所采取的判定来确定。另外,在本实施例中,用于计算下混信号的第二频域表示的模块被适配为:如果针对给定的时间块,复数预测系数的虚部的绝对值为零或小于预定的公差,则去激活该模块本身。模块的去激活可暗示没有针对该时间块计算下混信号的第二频域表示。如果去激活没有发生,则将第二频域表示(例如,MDST系数集合)乘以零、或乘以与解码器的机器精度(舍入单位)或某个其它适合的阈值基本上相同的数量级的数目。

在先前实施例的进一步改进中,在下混信号被划分成的时间块的子等级上实现了处理资源的节省。例如,时间块内的这样的子等级可以为频带,其中,编码器确定时间块内的每个频带的复数预测系数的值。类似地,用于产生第二频域表示的模块被适配为抑制对复数预测系数为零或具有小于公差的大小的时间块中的频带的操作。

在一个实施例中,第一频谱分量为布置在变换系数的一个或更多个时间块中的变换系数,每个块是通过对时域信号的时间片段应用变换而生成的。另外,用于计算下混信号的第二频域表示的模块被适配为:

●从第一频谱分量中的至少一些导出一个或更多个第一中间分量;

●根据一个或更多个脉冲响应中的至少一部分形成所述一个或更多个第一频谱分量的组合,以获得一个或更多个第二中间分量;以及

●从所述一个或更多个第二中间分量导出所述一个或更多个第二频谱分量。

如US 6,980,933 B2中更详细描述的,特别是其中的第8-28列,尤其是等式41,该过程直接根据第一频域表示实现了第二频域表示的计算。如本领域技术人员所认识到的,例如与继之以不同变换的逆变换相反,不经由时域执行计算。

关于根据本发明的复数预测立体声编码的例示性实现方式,已估计的是,与传统的L/R或M/S立体声相比,计算复杂度仅稍微增加(显著小于由QMF域中的复数预测立体声编码所导致的增加)。包括第二频谱分量的精确计算的这种类型的实施例引入了通常仅比由基于QMF的实现方式引入的延迟长几个百分点的延迟(假设时间块长度为1024个样本,并且与混合QMF分析/合成滤波器组的延迟(其为961个样本)相比)。

适合地,在先前实施例中的至少一些中,脉冲响应被适配到这样的变换,通过该变换,并且更精确地是根据该变换的频率响应特性,第一频域表示是可获得的。

在一些实施例中,通过连同一个或更多个分析窗口函数(或截断函数,例如矩形窗口、正弦窗口、凯泽-贝塞尔衍生(Kaiser-Bessel-derived)窗口等)而应用的变换,来获得下混信号的第一频域表示,其一个目标是实现时间片段而不会引入有害的噪声量或以不期望的方式改变频谱。可能地,这样的窗口函数部分地交叠。于是,优选地,变换的频率响应特性取决于所述一个或更多个分析窗口函数的特性。

还参考以频域内的第二频域表示的计算为特征的实施例,可以通过使用近似的第二频域表示来减少所涉及的计算负载。可通过不要求该计算所基于的完整信息,来实现这样的近似。例如,通过US6,980,933B2的教导,一个块中的下混信号的第二频域表示的精确计算要求来自三个时间块的第一频域数据,即与输出块同时的块、先前块和后续块。为了根据本发明的复数预测编码的目的,可通过省略发源自后续块和/或先前块的数据—或者用零进行替换—来获得适合的近似(由此模块的操作可变为必然的,即不贡献延迟),使得第二频域表示的计算仅基于来自一个或两个时间块的数据。注意,如上所述,即使输入数据的省略可暗示第二频域表示的尺度改变(rescaling)—在这样的意义上,例如再也不表示相等的功率—其也仍可用作复数预测编码的基础,只要其在编码器端和解码器端均以等同的方式来计算即可。实际上,将通过预测系数值的对应改变来补偿这种类型的可能的尺度改变。

用于计算组成下混信号的第二频域表示的一部分的频谱分量的又一近似方法可包括来自第一频域表示的至少两个分量的组合。第一频域表示的分量可关于时间和/或频率相邻。作为替换的,可以通过具有相对少的抽头的有限脉冲响应(FIR)滤波对第一频域表示的分量进行组合。例如,在应用1024的时间块大小的系统中,这样的FIR滤波器可包括2个、3个、4个等抽头。例如可在US 2005/0197831A1中发现这种类型的近似计算方法的说明。如果使用将相对较小的权重给予每个时间块边界的邻居的窗口函数,例如非矩形函数,则可能有利的是,使得时间块中的第二频谱分量仅基于相同时间块中的第一频谱分量的组合,从而暗示不是相同量的信息可用于最外面的分量。通过窗口函数的形状,在一定程度上抑制或隐藏可能由这样的实践引入的近似误差。

在被设计为输出时域立体声信号的解码器的一个实施例中,包括有在直接或联合立体声编码、与复数预测器编码之间进行切换的概率。这可通过以下各项的设置来实现:

●开关,其可选择地进行操作以作为直通级(不修改信号)、或和与差变换;

●逆变换级,用于执行频率至时间变换;以及

●选择器布置,用于向逆变换级供应直接(或联合)编码的信号、或通过复数预测进行编码的信号。

如本领域技术人员所认识到的,关于解码器部分的这样的灵活性给了编码器在传统的直接或联合编码、与复数预测编码之间进行选择的自由。因此,在无法超越传统的直接L/R立体声编码或联合M/S编码的质量等级的情况下,本实施例至少可以保证相同的等级被保持。因此,根据本实施例的解码器可被认为是关于相关技术的超集。

解码器系统的另一组实施例经由时间域实现第二频域表示中的第二频谱分量的计算。更精确地,逆变换被应用并且继之以将第二频谱分量作为输出的不同变换,其中,通过逆变换获得(或可获得)第一频谱分量。特别地,逆MDCT可继之以MDST。在这样的实施例中,为了减少变换和逆变换的数目,逆MDCT的输出可被供应到解码系统的输出端子和MDST两者(可能之前有其它的处理步骤)。

对于根据本发明的复数预测立体声编码的例示性的实现方式,已估计的是,与传统的L/R或M/S立体声相比,计算复杂度仅稍微增加(仍然显著小于由QMF域中的复数预测立体声编码所导致的增加)。

作为先前段落所提及的实施例的进一步改进,上混级可包括用于处理侧信号的其它逆变换级。于是,向和与差级被供应由所述其它逆变换级生成的侧信号的时域表示、以及由已经提及的逆变换级生成的下混信号的时域表示。可以回顾,从计算复杂度的角度来看有利的是,将后一种信号供应到和与差级、和以上提及的所述不同变换级两者。

在一个实施例中,被设计为输出时域立体声信号的解码器包括在直接L/R立体声编码或联合M/S立体声编码、与复数预测立体声编码之间进行切换的概率。这通过以下各项的设置来实现:

●开关,可操作用于作为直通级、或和与差级;

●其它逆变换级,用于计算侧信号的时域表示;

●选择器布置,用于将逆变换级连接到其它和与差级(优选地当开关已被致动为用作通过滤波器时,如在对由复数预测编码生成的立体声信号进行解码时的情况)、或者来自开关的下混信号与来自加权求和器的侧信号的组合(优选地当开关已被致动为用作和与差级时,如在对直接编码的立体声信号进行解码时的情况),其中,其它和与差级连接到在开关的下游和上混级的上游的点。

如本领域技术人员所认识到的,这给予编码器在传统的直接或联合编码、与复数预测编码之间进行选择的自由,这意味着可以保证至少与直接或联合立体声编码的质量等级等同的质量等级。

在一个实施例中,根据本发明的第二方面的编码器系统可包括估计器,该估计器用于以减少或最小化残余信号的信号功率或平均信号功率为目的来估计复数预测系数。最小化可在时间区间上进行,其中,时间区间优选地为要编码的信号的时间片段、或时间块、或时间帧。幅度的平方可被作为瞬时信号功率的度量,而平方的幅度(波形)在时间区间上的积分可被作为在该区间上的平均信号功率的度量。合适地,在时间块或频带的基础上确定复数预测系数,即以这样的方式设定复数预测系数的值,从而减少在该时间块或频带中的残余信号的平均功率(即总能量)。特别地,用于估计诸如IID、ICC和IPD或类似的参数立体声编码参数的模块可提供如下输出:可基于该输出根据本领域技术人员公知的数学关系来计算复数预测系数。

在一个实施例中,编码器系统的编码级还可操作用于作为直通级,从而使得能够进行直接立体声编码。通过在期望提供更高质量的情形下选择直接立体声编码,编码器系统可保证编码的立体声信号具有至少与直接编码中的质量相同的质量。类似地,在显著的质量增加没有激发由复数预测编码导致的更大的计算工作量的情形下,因此节省计算资源的选项很容易可用于编码器系统。编码器中的联合编码、直接编码、实数预测编码和复数预测编码之间的判定一般基于速率/失真优化基本原理。

在一个实施例中,编码器系统可包括用于根据第一频谱分量直接计算第二频域表示的模块(即,不将逆变换应用到时域,并且不使用信号的时域数据)。关于上述解码器系统的对应实施例,该模块可具有类似的结构,即包括类似的处理操作,但是以不同的顺序,使得编码器被适配为输出适合作为解码器侧的输入的数据。为了说明该实施例的目的,假设要编码的立体声信号包括中间通道和侧通道,或者已被变换为该结构,并且编码级被适配为接收第一频域表示。编码级包括用于计算中间通道的第二频域表示的模块。(这里提及的第一频域表示和第二频域表示被如上地定义;特别地,第一频域表示可为MDCT表示,而第二频域表示可为MDST表示。)编码级还包括用于计算残余信号的加权求和器,残余信号是由分别通过复数预测系数的实部和虚部进行加权的侧信号与中间信号的两个频域表示所形成的线性组合。中间信号或其适合的第一频域表示可直接用作下混信号。另外,在该实施例中,估计器以使残余信号的功率或平均功率最小化为目的来确定复数预测系数的值。最后操作(最优化)可通过反馈控制来实现,其中,估计器可接收通过若需要则进一步调整的当前预测系数值而获得的残余信号;或者,最后操作(最优化)可以以前馈方式通过直接对原始立体声信号的左/右通道或中间/侧通道实施的计算来实现。前馈方法是优选的,通过前馈方法,直接根据中间信号的第一频域表示和第二频域表示、以及侧信号的第一频域表示来确定复数预测系数(特别地,以非迭代的或非反馈的方式)。注意,复数预测系数的确定可继之以是否应用直接编码、联合编码、实数预测编码或复数预测编码的判定,其中,考虑每个可利用的选项的作为结果的质量(优选地为感知到的质量,例如考虑信号屏蔽效应);因此,以上表述不应被解释为在编码器中不存在反馈机构的实现。

在一个实施例中,编码器系统包括用于经由时域计算中间(或下混)信号的第二频域表示的模块。应当理解,与该实施例有关的实现细节,至少就第二频域表示的计算而言,类似于对应的解码器实施例,或者可与对应的解码器实施例类似地实现。在本实施例中,编码级包括:

●和与差级,用于将立体声信号转换为包括中间通道和侧通道的形式;

●变换级,用于提供侧通道的频域表示和中间通道的复数值(因此为过采样的)频域表示;以及

●加权求和器,用于计算残余信号,其中,将复数预测系数用作权重。

这里,估计器可接收残余信号,以及可能以反馈控制方式确定复数预测系数,以便减少或最小化残余信号的功率或平均。然而,优选地,估计器接收要编码的立体声信号,并且根据要编码的立体声信号确定预测系数。从节省计算的角度来看,有利的是使用侧通道的临界采样的频域表示,因为后者在本实施例中不会经受与复数相乘。合适地,变换级可包括并联地布置的MDCT级和MDST级,两者均将中间通道的时域表示作为输入。因此,产生中间通道的过采样的频域表示和侧通道的临界采样的频域表示。

注意,在本领域技术人员的包括常规实验的能力之内进行适当的修改之后,本部分中公开的方法和设备可应用于具有多于两个通道的信号的编码。例如,可根据以上引用的J.Herre等的论文中的第4节和第5节的方式进行这样的多通道操作能力的修改。

在其它实施例中可组合来自以上概述的两个或更多个实施例的特征,除非它们是明确互补的。两个特征被记载在不同实施例中的事实不排除其可被组合以产生有利的效果。同样地,还可提供如下的其它实施例:其中,省略对期望的目的来说不需要或不必要的某些特征。作为一个示例,在要处理的编码信号未被量化或已经以适合于上混级的处理的形式可利用的情况下,可在没有去量化级的情况下实施根据本发明的解码系统。

附图说明

参考附图,现在将通过下一部分中描述的实施例来进一步描述本发明,在附图中:

图1由示出根据背景技术的基于QMF的解码器的两个一般化的框图组成;

图2是根据本发明实施例的具有复数预测的基于MDCT的立体声解码器系统的一般化的框图,其中,在频域中计算要解码的信号的通道的复数表示;

图3是根据本发明实施例的具有复数预测的基于MDCT立体声解码器系统的一般化的框图,其中,在时域中计算要解码的信号的通道的复数表示;

图4示出图2的解码器系统的替选实施例,其中,活动TNS级的位置是可选的;

图5包括示出根据本发明另一方面的实施例的具有复数预测的基于MDCT的立体声编码器系统的一般化的框图;

图6是根据本发明实施例的具有复数预测的基于MDCT的立体声编码器的一般化的框图,其中,根据要编码的信号的通道的时域表示来计算要编码的信号的通道的复数表示;

图7示出图6的编码器系统的替选实施例,其还能够在直接L/R编码模式下操作;

图8是根据本发明实施例的具有复数预测的基于MDCT的立体声编码器系统的一般化的框图,其中,根据要编码的信号的通道的第一频域表示来计算要编码的信号的通道的复数表示,该解码器系统还能够在直接L/R编码模式下操作;

图9示出图7的编码器系统的替选实施例,其还包括布置在编码级的下游的TNS级;

图10示出图2和图8中用A标注的部分的替选实施例;

图11示出图8的编码器系统的替选实施例,其还包括分别布置在编码级的下游和上游的两个频域改进装置;

图12是来自六个对象的以96kb/s进行的听力测试结果的图形表示,这六个对象示出对于MDST频谱的计算或近似的不同的复杂度与质量折衷选项,其中,用“+”标注的数据点表示隐藏的参考,用“×”标注的数据点表示3.5kHz带限锚(band-limited anchor),用“*”标注的数据点表示USAC传统立体声(M/S或L/R),用“□”标注的数据点表示通过具有无效预测系数虚部的复数预测的MDCT域统一立体声编码(即,实数预测,不需要MDST),用“■”标注的数据点表示通过使用当前MDCT帧计算MDST近似的复数预测的MDCT域统一立体声编码,用“○”标注的数据点表示通过使用当前和先前MDCT帧计算MDST近似的复数预测的MDCT域统一立体声编码,而用“●”标注的数据点表示通过使用当前、前一和下一MDCT帧计算MDST的复数预测的MDCT域统一立体声编码;

图13呈现图12的数据,然而作为相对于通过使用当前MDCT帧计算MDST近似的复数预测的MDCT域统一立体声编码的差分得分;

图14包括示出根据本发明实施例的解码器系统的三个实施例的一般化的框图;

图15是示出根据本发明实施例的解码方法的流程图;以及

图16是示出根据本发明实施例的编码方法的流程图。

具体实施方式

I.解码器系统

图2以一般化的框图的形式示出用于对比特流进行解码的解码器系统,该比特流包括复数预测系数α=αR+iαI的至少一个值和具有下混通道M和残余通道D的立体声信号的MDCT表示。可以对预测系数的实部和虚部αR、αI进行了量化和/或联合编码。然而,优选地,通常以0.1(无量纲数)的步长,独立地和统一地对实部和虚部进行量化。根据MPEG标准,用于复数预测系数的频带解析度不必与比例因子带(sfb;即正使用相同MDCT量化步长和量化范围的一组MDCT方式)的解析度相同。特别地,预测系数的频带解析度可为经心理声学调整的频带解析度,例如Bark尺度。多路信号分离器201被适配为从提供给多路信号分离器201的比特流中提取这些MDCT表示和预测系数(如图中所示的控制信息的一部分)。实际上,比仅仅复数预测系数更多的控制信息可编码在比特流中,例如,是否要以预测模式或非预测模式对比特流进行解码的指令、TNS信息等。TNS信息可包括要由解码器系统的TNS(合成)滤波器应用的TNS参数的值。如果将相同的TNS参数集合用于若干个TNS滤波器,例如用于通道两者,则节省的是,以指示参数集合的这样的相同性的比特的形式接收该信息,而不是独立地接收两个参数集合。例如,也可包括是否适当地根据两个可用选项的心理声学评估在上混级前后应用TNS的信息。另外,控制信息可分别指示下混信号和残余信号的有限带宽。对于每个通道,带宽界限以上的频带将不被解码,而是将被设定为零。在特定情况下,最高频带具有小的能量内容,以致最高频带已经被下量化为零。一般的实践(cf.:MPEG标准中的参数max_sfb)是将相同的带宽界限用于下混信号和残余信号两者。然而,残余信号比下混信号在更大程度上将其能量内容局限于较低频带。所以,通过对残余信号设置专用的带宽上限,可以在没有显著的质量损失的情况下减小比特速率。例如,这可通过编码在比特流中的两个独立的max_sfb参数来进行控制,一个max_sfb参数用于下混信号,而一个max_sfb参数用于残余信号。

在本实施例中,立体声信号的MDCT表示被分割为连续的时间帧(或时间块),其中,连续的时间帧(或时间块)包括固定数目的数据点(例如1024个点)、一些固定数目的数据点(例如128个点或1024个点)或可变数目的点之一。如本领域技术人员所公知的,对MDCT进行临界采样。图的右部分所表示的解码器系统的输出是具有左通道L和右通道R的时域立体声信号。去量化模块202被适配为处理输入到解码器系统的比特流,或者在适当的地方,处理如下两个比特流:这两个比特流是在原始比特流的多路分离之后获得的,并且对应于下混通道和残余通道中的每个。将去量化通道信号提供给开关组件203,开关组件203能够在对应于相应的变换矩阵的直通模式、或和与差模式下操作:

如将在下一段中进一步描述的,解码器系统包括第二开关组件205。与本实施例和要描述的实施例中的大多数其它开关和开关组件相同,开关组件203、205两者均能够以频率可选择的方式进行操作。如相关技术中已知的,这使得能够进行各种解码模式的解码,例如对频率相关L/R或M/S解码进行解码。因此,根据本发明的解码器可被认为是关于相关技术的超集。

现在假设开关组件203处于直通模式,在本实施例中,去量化的通道信号从相应的TNS滤波器204直通。TNS滤波器204对解码系统的操作来说不是必须的,并且可被直通部件替代。此后,将信号供应到与位于上游的开关组件203具有相同功能的第二开关组件205。利用先前描述的输入信号并且利用设定在直通模式的第二开关组件205,前者的输出是下混通道信号和残余通道信号。将仍然由时间连续MDCT频谱所表示的下混信号供应到实数至虚数变换器206,其中,实数至虚数变换器206被适配为根据下混信号计算下混信号的MDST频谱。在本实施例中,一个MDST帧基于三个MDCT帧:一个先前帧、一个当前(或当时)帧和一个后续帧。(Z-1,Z)象征性地表示实数至虚数变换器206的输入侧包括延迟部件。

从实数至虚数变换器206获得的下混信号的MDST表示用预测系数的虚部αI进行加权,并且加到用预测系数的实部αR加权的下混信号的MDCT表示和残余信号的MDCT表示。两个加法和乘法由共同(在功能上)形成加权加法器的乘法器和加法器210、211来执行,其被供应以编码在由解码器系统初始接收到的比特流中的复数预测系数α的值。每次可以针对每个时间帧确定复数预测系数。也可以更经常地,例如每次针对帧内的每个频带确定复数预测系数,其中,频带是在心理声学上激发的部分。如以下将连同根据本发明的编码系统所描述的,也可以较不经常地确定复数预测系数。实数至虚数变换器206与加权加法器同步,使得下混通道信号的当前MDST帧与下混通道信号和残余通道信号中的每个信号的一个当时MDCT帧相组合。这三个信号的和为侧信号S=Re{αM}+D。在该表达式中,M包括下混信号的MDCT表示和MDST表示两者,即M=MMDCT–iMMDST,而D=DMDCT是实数值。因此,获得具有下混通道和侧通道的立体声信号,根据立体声信号,和与差变换器207如下地恢复左通道和右通道:

这些信号被表示在MDCT域中。解码系统的最后步骤是将逆MDCT209应用于通道中的每个,由此获得左/右立体声信号的时域表示。

如上所述,申请人的专利US 6,980,933 B2中进一步描述了实数至虚数变换器206的可能实现方式。通过其中的公式41,例如针对偶数点,变换器可被表示为有限脉冲响应滤波器:

其中,S(2V)是第2v个MDST数据点,XI、XII、XIII是来自每个帧的MDCT数据,而N为帧长。另外,hI,III、hII是取决于所应用的窗口函数的脉冲响应,所以针对窗口函数(例如矩形、正弦和凯泽-贝塞尔衍生的)的每个选择以及针对每个帧长来确定。可通过省略具有相对较小的能量内容并且对MDST数据贡献相对较少的那些脉冲响应,来减少该计算的复杂度。作为该简化的替代或扩展,脉冲响应本身例如可从完全帧长N缩短到较少的点数。作为示例,脉冲响应长度可从1024个点(抽头)减少到10个点。仍然可被认为有意义的最极端的截断是:

S(V)=XII(v+1)-XII(v-1)。

可在US 2005/0197831 A1中发现其它的简单明了的方式。

还可以减少计算所基于的输入数据的数量。为了说明,图上被表示为用“A”表示的部分的实数至虚数变换器206及其上游连接可被简化的变型替代,图10示出了其中的两个A’和A”。变型A’提供了信号的近似虚数表示。这里,MDST计算仅考虑当前帧和先前帧。参考本段中的以上公式,这可通过针对p=0,…,N-1设定XIII(p)=0(指标III表示后续时间帧)来实现。因为变型A’不需要后续帧的MDCT频谱作为输入,所以MDST计算不会导致任何时间延迟。清楚地,该近似稍微减少了所获得的MDST信号的准确度,但是也可暗示该信号的能量变得减小;后者的事实可通过作为预测编码的特性的结果的αI的增加来完全地进行补偿。

图10中还示出了变型A”,其仅使用当前时间帧的MDCT数据作为输入。变型A”可以说产生比变型A’准确度更小的MDST表示。另一方面,正如变型A’一样,变型A”以零延迟进行操作,并且具有更低的计算复杂度。如已经提及的,只要在编码器系统和解码器中使用相同的近似,波形编码属性就不受影响。

应当注意,不管使用变型A、A’、还是A”、还是其任何进一步改进,需要计算的仅是复数预测系数的虚部不为零(αI≠0)的MDST频谱的那些部分。在实际情形下,这将意味着系数的虚部的绝对值|αI|大于预定的阈值,该阈值可能与所使用的硬件的舍入单位有关。在时间帧内的所有频带的系数的虚部为零的情况下,不需要针对该帧计算任何MDST数据。因此,合适地,实数至虚数变换器206被适配为通过不生成MDST输出来响应于非常小的|αI|值的出现,由此可以节省计算资源。然而,在使用比当前帧更多的帧来产生一帧MDST数据的实施例中,即使不需要任何MDST频谱,在变换器206上游的任何单元也应当合适地继续进行操作—特别地,第二开关组件205应当保持转发MDCT频谱—使得当已经出现与非零预测系数相关联的下一时间帧时,充足的输入数据已经可用于实数至虚数变换器206;这当然可以是下一时间块。

返回到图2,已经在开关组件203、205两者均设定在其相应的直通模式的假设下描述了解码系统的功能。如现在将描述的,解码器系统还可以对不是预测编码的信号进行解码。针对该用途,第二开关组件205将被设定在其和与差模式,并且合适地,如图上所表示的,选择器布置208将被设定在其下部位置,从而确保将信号从TNS滤波器204与第二开关组件205之间的源点直接馈送到逆变换器209。为了确保正确的解码,信号在源点处合适地具有L/R形式。所以,为了确保在所有时间向实数至虚数变换器供应正确的中间(即下混)信号(而不是,比方说,间歇地通过左信号),在非预测编码立体声信号的解码期间,优选地将第二开关组件205设定在其和与差模式。如以上所述的,针对例如基于数据速率至音频质量判定的某些帧,可以用传统的直接或联合编码来替换预测编码。可以以各种方式,例如通过每帧内的专用指示符比特的值,或者通过预测系数的值的不存在或存在,将这样的判定的结果从编码器传送到解码器。通过建立这些事实,可以容易地实现第一开关组件203的功能。实际上,在非预测编码模式中,解码器系统可以处理根据直接(L/R)立体声编码或联合(M/S)编码的信号两者,并且通过在直通模式、或和与差模式下操作第一开关组件203,可以确保已经向源点提供了直接编码的信号。清楚地,开关组件203在用作和与差级时会将M/S形式的输入信号转换为L/R形式的输出信号(被供应到可选的TNS滤波器204)。

解码器系统接收是否要由解码器以预测编码或非预测编码模式对特定的时间帧进行解码的信号。可通过每帧内的专用指示符比特、或通过预测系数的不存在(或零值)来用信号表示非预测模式。可类似地传送预测模式。使得能够进行回退而没有任何开销的特别有利的实现方式使用两比特字段ms_mask_present的预留的第四值(参见MPEG-2AAC,文档ISO/IEC 13818-7),其中,两比特字段ms_mask_present在每个时间帧被发送并且被定义如下:

通过将值11重新定义为表示“复数预测编码”,解码器系统可在所有传统模式下操作,尤其是M/S和L/S编码,而没有任何比特速率损失,并且还能够接收用于指示相关帧的复数预测编码模式的信号。

然而,图4示出与图2所示的解码器系统相同的一般结构的解码器系统,但是包括至少两个不同结构。首先,图4的系统包括开关404、411,开关404、411使得能够应用涉及在上混级的上游和/或下游的频域改进的一些处理步骤。一方面,这通过与第一开关404一起设置的第一频域改进器集合403(在本图中被绘制为TNS合成滤波器)来实现,其中,第一开关404在去量化模块401和第一开关组件402的下游,但是在第二开关组件405的上游,第二开关组件405正好被布置在上混级406、407、408、409的上游。另一方面,解码器系统包括与第二开关411一起设置的第二频域改进器集合410,其中,第二开关411在上混级406、407、408、409的下游,但是在逆变换级412的上游。有利地,如图上所表示的,每个频域改进器与直通线并联布置,其中,直通线在上游连接到频域改进器的输入侧,并且在下游连接到相关联的开关。通过该结构,频域改进器在所有时间被供应以信号数据,使得能够根据比仅有当前时间帧更多的时间帧在频域中进行处理。是应用第一频域改进器集合403还是第二频域改进器集合410的判定可由编码器来进行(并且在比特流中传达),或者可根据是否应用预测来进行,或者可根据在实际情形中被发现为适合的一些其它标准来进行。作为示例,如果频域改进器为TNS滤波器,则第一集合403可有利地用于一些类型的信号,而第二集合410可有利地用于其它类型的信号。如果该选择的结果被编码在比特流中,则解码器系统将相应地激活相应的TNS滤波器集合。

为了帮助对图4所示的解码器系统的理解,应当明确地注意到,当α=0(暗示伪L/R和L/R相同并且侧通道和残余通道没有不同)时,发生直接(L/R)编码信号的解码,第一开关组件402处于通过模式,第二开关组件处于和与差模式,由此使得信号在上混级的和与差级409、与第二开关组件405之间具有M/S形式。然后,因为上混级实际上将为直通步骤,所以(使用相应的开关404、411)激活第一频域改进器集合还是第二频域改进器集合是无关紧要的。

图3图示根据本发明的实施例的解码器系统,与图2和图4所示的那些解码器系统相比,该解码器系统表示用于提供上混所需要的MDST数据的不同方式。与已经描述的解码器系统相同,图3的系统包括去量化模块301、在直通模式或和与差模式下可操作的第一开关组件302、和TNS(合成)滤波器303,这些都从解码器系统的输入端串联地布置。如图所示,在该点下游的模块通过两个第二开关305、310被选择性地采用,这些优选地联合进行操作,使得两者在其上部位置或下部位置。在解码器系统的输出端,具有和与差级312、以及正好位于其上游的两个逆MDCT模块306、311,逆MDCT模块306、311用于将每个通道的MDCT域表示变换为时域表示。

在复数预测解码中,解码器系统被供应以对下混/残余立体声信号和复数预测系数的值进行编码的比特流,第一开关组件302被设定在其直通模式,而第二开关305、310被设定在上部位置。在TNS滤波器的下游,以不同的方式处理立体声信号(去量化的、TNS滤波的、MDCT)的两个通道。下混通道在一方面被提供到乘法器和求和器308,而在另一方面被提供到逆MDCT变换模块之一306,其中,乘法器和求和器308将通过预测系数的实部αR加权的下混通道的MDCT表示加到残余通道的MDCT表示。从逆MDCT变换模块306输出的下混通道M的时域表示被供应到最后的和与差级312和MDST变换模块307两者。从计算复杂度的角度来看,下混通道的时域表示的这种双重使用是有利的。如此获得的下混通道的MDST表示被供应到其它乘法器和求和器309,其在通过预测系数的虚部αI进行加权之后将该信号加到从求和器308输出的线性组合;因此,求和器309的输出为侧通道信号S=Re{αM}+D。类似于图2所示的解码器系统,可容易地将乘法器和求和器308、309进行组合以形成加权多信号求和器,该加权多信号求和器具有如下输入:下混信号的MDCT和MDST表示、残余信号的MDCT表示和复数预测系数的值。在本实施例中的该点的下游,在侧通道信号被供应到最后的和与差级312之前,仅保持通过逆MDCT变换模块311的通路。

如已经是频率选择性的M/S和L/S编码中的实践一样,解码器系统中需要的同步性可通过在逆MDCT变换模块306、311两者处应用相同的变换长度和窗口形状来实现。通过逆MDCT模块306的某些实施例和MDST模块307的实施例的组合引入了一个帧的延迟。所以,设置了五个可选的延迟模块313(或在计算机实现方式中等同的软件指令),使得在需要时可以使位于虚线右边的系统部分与左边部分相比延迟一个帧。明显地,除了逆MDCT模块306与MDST变换模块307之间的连接线(这是产生需要补偿的延迟的地方)以外,虚线与连接线之间的所有交叉均设置有延迟块。

一个时间帧的MDST数据的计算需要来自时域表示的一个帧的数据。然而,逆MDCT变换基于一个(当前)、两个(优选地:先前和当前)或三个(优选地:先前、当前和后续)连续帧。通过与MDCT相关联的已知的时域混叠取消(TDAC),至少在包含时域混叠的帧中,三个帧的选项实现了输入帧的完全交叠,因此提供了最佳的(并且可能是完美的)准确度。清楚地,三个帧的逆MDCT以一个帧的延迟进行操作。通过接受将近似的时域表示用作MDST变换的输入,可以防止该延迟,由此可以防止对解码器系统的不同部分之间的延迟进行补偿的需要。在两个帧的选项中,在帧的前半部分发生交叠/相加使能的TDAC,而混叠可仅出现在后半部分。在一个帧的选项中,TDAC的不存在暗示了混叠可发生在整个帧中;然而,以这种方式获得的、并且用作复数预测编码中的中间信号的MDST表示仍然可以提供满意的质量。

图3中图示的解码系统也可以在两个非预测解码模式下操作。为了对直接L/R编码的立体声信号进行解码,第二开关305、310被设定在下部位置,而第一开关组件302被设定在直通模式。因此,信号在和与差级304的上游具有L/R形式,和与差级304将L/R形式转换为M/S形式,对M/S形式进行逆MDCT变换和最后的和与差操作。为了对以联合M/S编码形式提供的立体声信号进行解码,第一开关组件302替换地被设定在其和与差模式,使得信号在第一开关组件302、与和与差级304之间具有L/R形式,其中,从TNS滤波的角度来看,L/R形式经常比M/S形式更适合。在和与差级304的下游的处理与在直接L/R解码的情况下的处理相同。

图14由根据本发明的实施例的解码器的三个一般化的框图组成。与本申请所附的若干其它框图相反,图14中的连接线可用符号表示多通道信号。特别地,这样的连接线可被布置为传送立体声信号,该立体声信号包括左/右、中间/侧、上混/残余、伪左/伪右通道和其它组合。

图14A示出用于对输入信号的频域表示(为了本图的目的,被表示为MDCT表示)进行解码的解码器系统。解码器系统被适配为将根据输入信号生成的立体声信号的时域表示供应为解码器系统的输出。为了能够对通过复数预测立体声编码进行编码的输入信号进行解码,解码器系统设置有上混级1410。然而,也能够处理以其它格式编码的输入信号,并且输入信号可以随着时间在若干编码格式之间进行交替,例如通过复数预测编码进行编码的时间帧序列可继之以通过直接左/右编码进行编码的时间部分。通过设置与所述上混级1410并联布置的连接线(直通)来实现解码器系统的处理不同编码格式的能力。通过开关1411,可以选择要将来自上混级1410(图中的下部开关位置)的输出还是连接线(图中的上部开关位置)上可用的未处理信号供应到进一步布置在下游的解码器系统。在本实施例中,逆MDCT模块1412布置在开关的下游,逆MDCT模块1412将信号的MDCT表示变换为时域表示。作为示例,供应到上混级1410的信号可为下混/残余形式的立体声信号。于是,上混级1410被适配为导出侧信号并且执行和与差操作,从而输出(在MDCT域中)左右立体声信号。

图14B示出类似于图14A的解码器系统。本系统被适配为接收比特流作为其输入信号。比特流初始地被组合的多路分离器和去量化器模块1420处理,如由与图14A的开关1411具有类似功能的开关1422的位置所确定的一样,这提供用于进一步处理的多通道立体声信号的MDCT表示作为第一输出信号。更准确地,开关1422确定来自多路分离器和去量化器的第一输出是要由上混级1421和逆MDCT模块1423(下部位置)来处理,还是要仅由逆MDCT模块1423(上部位置)来处理。组合的多路分离器和去量化器模块1420还输出控制信息。在本情况下,与立体声信号相关联的控制信息可包括指示开关1422的上部位置还是下部位置适合于对信号进行解码的数据,或者更概括地,要根据什么编码格式对立体声信号进行解码。控制信息也可包括用于调整上混级1421的属性的参数,例如以上已经描述的复数预测编码中所使用的复数预测系数α的值。

图14C示出这样的解码器系统,该解码器系统除了与图14B类似的实体以外,还包括分别布置在上混级1433的上游和下游的第一和第二频域改进装置1431、1435。为了本图的目的,通过TNS滤波器图示每个频域改进装置。然而,通过术语“频域改进装置”也可以理解除TNS滤波以外的能在上混级前后应用的处理。频域改进的示例包括预测、加噪、带宽扩展、和非线性处理。心理声学的考虑和类似的理由有时指示有利的是在上混级1433的上游而不是下游应用所述频域改进,其中,心理声学的考虑和类似的理由可能包括要处理的信号的属性和/或这样的频域改进装置的配置或设定。在其它情况下,通过类似的考虑可建立的是,频域改进的下游位置比上游位置更优选。通过开关1432、1436,频域改进装置1431、1435可选择性地被激活,使得解码器系统可响应于控制信息选择期望的配置。作为示例,图14C示出了这样的配置,在该配置中,来自组合的多路分离器和去量化器模块1430的立体声信号初始地被第一频域改进装置1431处理,然后被供应到上混级1433,以及最后被直接转发到逆MDCT模块1437而没有通过第二频域改进装置1435。如发明内容部分所说明的,该配置比在以复数预测编码进行上混之后执行TNS的选项更优选。

II.编码器系统

现在将参考图5描述根据本发明的编码器系统,图5是用于通过复数预测编码将左/右(L/R)立体声信号编码为输出比特流的编码器系统的一般化的框图。编码器系统接收信号的时域或频域表示,并且将其供应到下混级和预测系数估计器两者。预测系数的实部和虚部被提供到下混级,以控制左通道和右通道到下混通道和残余通道的转换,然后被供应到最终的多路复用器MUX。如果信号不是作为频域表示被供应到编码器,则在下混级或多路复用器中将该信号变换为这样的表示。

预测编码的原理之一是将左/右信号转换为中间/侧形式,即:

然后使用这些通道之间的剩余相关性,即通过设定:

S=Re{αM}+D

其中,α是要确定的复数预测系数,而D是残余信号。可以选择α,使得残余信号D=S–Re{αM}的能量最小化。能量最小化可关于瞬时功率、短期或长期能量(功率平均)来实现,其为在均方意义上进行优化的离散信号量的情况。

预测系数的实部和虚部αR、αI可被联合地量化和/或编码。然而,优选地,通常以0.1(无量纲数)的步长,独立地和统一地对实部和虚部进行量化。用于复数预测系数的频带解析度不必与根据MPEG标准的比例因子带(sfb;即使用相同的MDCT量化步长和量化范围的一组MDCT线)的解析度相同,特别地,预测系数的频带解析度可为经心理声学调整的频带解析度,例如Bark尺度。注意,在变换长度改变的情况下,频带解析度可改变。

如已经描述的,根据本发明的编码器系统可具有是否应用预测立体声编码的自由,后者的情况暗示了到L/R或M/S编码的回退。可在时间帧的基础上,或者更精细地,在时间帧内的频带的基础上进行这样的判定。如上所述,可以以各种方式,例如通过每帧内的专用指示符比特的值,或者通过预测系数的值的不存在(或零值),将判定的否定结果传送到解码实体。可类似地传送肯定的判定。使得能够进行回退而没有任何开销的特别有利的实现方式使用两比特字段ms_mask_present(参见MPEG-2AAC,文档ISO/IEC 131818-7)的预留的第四值,两比特字段ms_mask_present在每个时间帧被发送并且被定义如下:

通过将值11重新定义为表示“复数预测编码”,编码器系统可在所有传统的模式下进行操作,尤其是M/S和L/R编码,而没有任何比特速率损失,并且还能够在有利的情况下为那些帧用信号表示复数预测编码。

实质性的判定可基于数据速率与音频质量基本原理。作为质量测量,可以使用通过使用包括在编码器(如经常是可用的基于MDCT音频编码器的情况一样)中的心理声学模型所获得的数据。特别地,解码器的一些实施例提供了预测系数的速率失真优化的选择。因此,在这样的实施例中,如果预测增益的增加没有节省足够的用于残余信号的编码的比特,以调整对预测系数进行编码所需要的比特的消耗,则预测系数的虚部—并且可能地,还有实部—被设定为零。

编码器的实施例可对与比特流中的TNS有关的信息进行编码。这样的信息可包括要由TNS(合成)滤波器应用于编码器侧的TNS参数的值。如果将相同的TNS参数集合用于通道两者,则节省的是,包括用于指示参数集合的该相同性的信号比特,而不是独立地发送两个参数集合。例如,也可包括是否适当地根据两个可用选项的心理声学评估在上混级前后应用TNS的信息。

作为从复杂度和比特速率的角度来看潜在地有益的又一可选特征,编码器可被适配为将各自有限的带宽用于残余信号的编码。该界限以上的频带将不被发送到解码器,而是将被设定为零。在某些情况下,最高频带具有很小的能量内容,使得最高频带已经被下量化为零。一般实践(cf.:MPEG标准中的参数max_sfb)意味着将相同的带宽界限用于下混信号和残余信号两者。现在,发明人已经根据经验发现了残余信号比下混信号在更大程度上使其能量内容局限于较低频带。所以,通过对残余信号设置专用的带宽上限,可以在没有显著的质量损失的情况下减小比特速率。例如,这可通过发送两个独立的max_sfb参数来实现,一个max_sfb参数用于下混信号,而一个max_sfb参数用于残余信号。

应当指出的是,尽管参考图5所示的解码器系统描述了预测系数的优化确定、其量化和编码、到M/S或L/R模式的回退、TNS滤波和带宽上限等问题,但是相同的事实也可等同地应用于以下将参考后续图描述的实施例。

图6示出了被适配为执行复数预测立体声编码的根据本发明的另一编码器系统。系统接收被分割为连续、可能交叠的时间帧的并且包括左通道和右通道的立体声信号的时域表示作为输入。和与差级601将信号转换为中间通道和侧通道。中间通道被供应到MDCT模块602和MDST模块603两者,而侧通道仅被供应到MDCT模块604。预测系数估计器605为每个时间帧—并且可能地,为帧内的各个频带—估计如上所述的复数预测系数α的值。系数α的值被作为权重供应到加权求和器606、607,加权求和器606、607形成残余信号D,残余信号D为以下各项的线性组合:中间信号的MDCT表示和MDST表示、以及侧信号的MDCT表示。优选地,复数预测系数被供应到由相同的量化方案所表示的加权求和器606、607,其中,该量化方案是在复数预测系数被编码到比特流中时所使用的;由于编码器和解码器两者均应用相同的预测系数值,这明显地提供更可靠的重构。残余信号、中间信号(当中间信号与残余信号结合出现时,中间信号可被更适当地称为下混信号)和预测系数被供应到组合的量化和多路复用器级608,其将这些和可能的附加信息编码为输出比特流。

图7示出图6的编码器系统的变型。从图中的符号的相似性可以清楚地看出,其具有类似的结构,但是也具有在直接L/R编码回退模式下操作的添加功能。通过正好设置在组合的量化和多路复用器级709的上游的开关710,在复数预测编码模式与回退模式之间对编码器系统进行致动。如图所示,在其上部位置,开关710将使得编码器在回退模式下进行操作。从正好在MDCT模块702、704的下游的点,将中间/侧信号供应到和与差级705,和与差级705在将中间/侧信号转换为左/右形式之后将其传递到开关710,开关710将其连接到组合的量化和多路复用器级709。

图8示出根据本发明的编码器系统。与图6和图7的编码器系统相反,本实施例直接从MDCT数据导出复数预测编码所需要的MDST数据,即通过频域中的实数至虚数变换。实数至虚数变换应用关于图2和图4的解码器系统所描述的任意方式。重要的是,使解码器的计算方法与编码器的计算方法相匹配,从而可以实现可靠的解码;优选地,在编码器侧和解码器侧使用相同的实数至虚数变换方法。关于解码器实施例,由虚线包围的并且包括实数至虚数变换504的A部分可被近似的变型替换、或者使用较少的输入帧作为输入。类似地,可以使用上述其它近似方法中的任一个对编码进行简化。

在更高的层次上,图8的编码器系统具有与可能将继之以简单明了的动作的结构不同的结构,其中,该简单明了的动作是用(合适地连接的)实数至虚数模块替代图7中的MDST模块。本结构是干净的,并且实现了以健壮和节省计算的方式在预测编码和直接L/R编码之间进行切换的功能。输入立体声信号被馈送到MDCT变换模块801,MDCT变换模块801输出每个通道的频域表示。这被馈送到最后的开关808、以及和与差级802,其中,开关808用于在编码器系统的预测编码模式与直接编码模式之间对编码器系统进行致动。在直接L/R编码或联合M/S编码中—这在预测系数α被设定为零的时间帧中执行—本实施例使输入信号仅经受MDCT变换、量化和多路复用,其中,后面两个步骤由布置在供应比特流的系统输出端的组合的量化和多路复用器807来实现。在预测编码中,通道中的每个在和与差级802与开关808之间经历进一步的处理。实数至虚数变换器804从中间信号的MDCT表示导出MDST数据,并且将这些转发到预测系数估计器803和加权求和器806两者。与图6和图7中所示的编码器系统相同,使用其它加权求和器805将侧信号与中间信号的加权的MDCT表示和MDST表示进行组合以形成残余通道信号,组合的量化和多路复用器模块807将残余通道信号与中间(即下混)通道信号和预测系数一起进行编码。

现在转到图9,将描述的是,编码器系统的实施例中的每个可与一个或更多个TNS(分析)滤波器相组合。根据先前的描述,经常有利的是,将TNS滤波应用于下混形式的信号。因此,如图9所示,包括TNS的图7的编码器系统的适配是通过将TNS滤波器911正好增加在组合的量化和多路复用器模块909的上游来实现的。

替代右/残余TNS滤波器911b,可将两个分离的TNS滤波器(未示出)正好设置在开关910的部分的上游,其中开关910被适配为处理右通道或残余通道。因此,两个TNS滤波器中的每个在所有时间被供应以相应的通道信号数据,从而使得能够根据比只有当前时间帧更多的时间帧进行滤波。如已经说明的,TNS滤波器仅仅是频域改进装置的一个示例,尤其是将其处理基于比当前帧更多的帧的装置,这可从这样的布置获得与TNS滤波器一样多或比TNS滤波器更多的益处。

作为图9所示的实施例的可能替代方式,可针对每个通道将选择性激活的TNS滤波器布置在多于一个点处。这类似于图4所示的解码器系统的结构,其中可通过开关连接不同的TNS滤波器集合。这允许为每个时间帧选择用于TNS滤波的最适合的可用级。特别地,可能有利的是,连同在复数预测立体声编码与其它编码模式之间进行切换一起,在不同的TNS位置之间进行切换。

图11示出基于图8的编码器系统的变型,其中通过实数至虚数变换器1105导出下混信号的第二频域表示。类似于图4所示的解码器系统,该编码器系统也包括选择性可激活的频域改进器模块,一个频域改进器模块1102设置在下混级的上游,而一个频域改进器模块1109设置在下混级的下游。可使用四个开关1103a、1103b、1109a和1109b将频域改进器模块1102、1109(在本图中已通过TNS滤波器进行简化)连接到信号路径中的每个。

II.非装置实施例

图15和图16示出了本发明的第三和第四方面的实施例。图15示出用于将比特流解码为立体声信号的方法,包括以下步骤:

1.输入比特流。

2.将比特流去量化,由此获得立体声信号的下混通道和残余通道的第一频域表示。

3.计算下混通道的第二频域表示。

4.根据通道的三个频域表示计算侧通道信号。

5.根据侧通道和下混通道计算立体声信号,优选地为左/右形式的立体声信号。

6.输出如此获得的立体声信号。

步骤3至步骤5可被视为上混处理。步骤1至步骤6中的每个类似于本文先前部分中所公开的解码器系统中的每个的对应功能,并且可在相同部分中检索与其实现方式有关的进一步细节。

图16示出用于将立体声信号编码为比特流信号的方法,包括以下步骤:

1.输入立体声信号。

2.将立体声信号变换为第一频域表示。

3.确定复数预测系数。

4.对频域表示进行下混。

5.与复数预测系数一起将下混通道和残余通道编码为比特流。

6.输出比特流。

步骤1至步骤5中的每个类似于本文先前部分中所公开的编码器系统中的每个的对应功能,并且可在相同部分中检索与其实现方式有关的进一步细节。

方法两者可被表示为软件程序形式的计算机可读指令,并且可被计算机执行。本发明的保护范围扩展到这样的软件和用于分发这样的软件的计算机程序产品。

IV.经验性评估

已经经验性地评估了本文中公开的实施例中的一些。本子部分将概述该处理中获得的实验材料中最重要的部分。

用于实验的实施例具有以下特性:

(i)通过根据当前、先前和下一MDCT频谱的二维有限脉冲响应滤波来计算(每个时间帧的)每个MDST频谱。

(ii)使用来自USAC立体声编码器的心理声学模型。

(iii)替代PS参数ICC、CLD和IPD,发送复数预测系数α的实部和虚部。实部和虚部被独立地处理,局限于范围[-3.0,3.0]并且使用0.1的补偿进行量化。然后,使用USAC的比例因子码本对其进行时间差分编码并且最后进行霍夫曼编码。每隔第二比例因子带更新预测系数,这产生类似于MPEG环绕的频率解析度(例如参见ISO/IEC 23003-1)。在具有96kb/s的目标比特速率的典型配置中,该量化和编码方案针对该立体声侧信息产生大约2kb/s的平均比特速率。

(iv)由于两比特ms_mask_present比特流元素当前仅具有三个可能值,所以比特流格式被修改而没有打破当前的USAC比特流。通过使用第四个值指示复数预测允许基本的中间/侧编码的回退模式,而没有浪费任何比特(关于本主题的进一步细节,参考本公开内容的先前子部分)。

根据MUSHRA方法实现聆听测试,从而引起在头戴式耳机上的特定回放以及以48kHz的采样率对8个测试项目的使用。三个、五个或六个测试对象参与每个测试。

对不同的MDST近似的影响进行评估,以说明存在于这些选项目之间的实际的复杂度与质量折衷。结果存在于图12和图13中,前者示出所获得的绝对得分,而后者示出相对于96s USAC cp1f的差得分,即通过使用当前MDCT帧计算MDST的近似的复数预测所进行的MDCT域统一立体声编码。可见,当应用用于计算MDST频谱的计算复杂度更大的方法时,由基于MDCT的统一立体声编码实现的质量增益增加。考虑所有测试的平均,基于单帧的系统96s USAC cp1f提供了比传统立体声编码显著的编码效率的增加。相反,针对96s USAC cp3f,即通过使用当前、先前和下一MDCT帧计算MDST的复数预测所进行的MDCT域统一立体声编码,获得了甚至显著地更好的结果。

V.实施例

另外,本发明可被具体实施为一种用于通过复数预测立体声编码将比特流解码为立体声信号的解码器系统,该解码器系统包括:

去量化级(202;401),用于根据比特流信号提供下混信号(M)和残余信号(D)的第一频域表示,第一频域表示中的每个包括第一频谱分量,第一频谱分量表示在多维空间的第一子空间中表示的对应信号的频谱内容,其中,第一频谱分量是布置在变换系数的一个或更多个时间帧中的变换系数,每个块是通过对时间域信号的时间片段应用变换而生成的;以及

上混级(206,207,210,211;406,407,408,409),布置在去量化级的下游,被适配为根据下混信号和残余信号生成立体声信号,并且包括:

用于根据下混信号的第一频域表示计算下混信号的第二频域表示的模块(206;408),第二频域表示包括第二频谱分量,第二频谱分量表示在多维空间的第二子空间中表示的信号的频谱内容,第二子空间包括多维空间的未包括在第一子空间中的部分,所述模块被适配为:

从第一频谱分量的至少一些导出一个或更多个第一中间分量;

根据一个或更多个脉冲响应的至少一部分形成所述一个或更多个第一频谱分量的组合,以获得一个或更多个第二中间分量;以及

从所述一个或更多个第二中间分量导出一个或更多个第二频谱分量;

加权求和器(210,211;406,407),用于根据下混信号的第一和第二频域表示、残余信号的第一频域表示和编码在比特流信号中的复数预测系数(α)来计算侧信号(S);以及

和与差级(207;409),用于根据侧信号和下混信号的第一频域表示计算立体声信号。

另外,本发明可被具体实施为一种用于通过复数预测立体声编码将比特流信号解码为立体声信号的解码器系统,该解码器系统包括:

去量化级(301),用于根据比特流信号提供下混信号(M)和残余信号(D)的第一频域表示,第一频域表示中的每个包括第一频谱分量,第一频谱分量表示在多维空间的第一子空间中表示的对应信号的频谱内容;以及

上混级(306,307,308,309,312),布置在去量化级的下游,被适配为根据下混信号和残余信号生成立体声信号,并且包括:

用于根据下混信号的第一频域表示计算下混信号的第二频域表示的模块(306,307),第二频域表示包括第二频谱分量,第二频谱分量表示在多维空间的第二子空间中表示的信号的频谱内容,第二子空间包括多维空间的未包括在第一子空间中的部分,模块包括:

逆变换级(306),用于根据多维空间的第一子空间中的下混信号的第一频域表示计算下混信号的时域表示;以及

变换级(307),用于根据信号的时域表示计算下混信号的第二频域表示;

加权求和器(308,309),用于根据下混信号的第一和第二频域表示、残余信号的第一频域表示和编码在比特流信号中的复数预测系数(α)来计算侧信号(S);以及

和与差级(312),用于根据侧信号和下混信号的第一频域表示计算立体声信号。

另外,本发明可被具体实施为解码器系统,其中,用于计算下混信号的第二频域表示的模块包括:

逆变换级(306),用于根据多维空间的第一子空间中的各个信号的第一频域表示计算下混信号和/或侧信号的时域表示;以及

变换级(307),用于根据信号的时域表示计算各个信号的第二频域表示,

其中,优选地,逆变换级(306)执行逆改进离散余弦变换,而变换级执行改进离散正弦变换。

在以上解码器系统中,立体声信号可被表示在时域中,并且解码器系统还可包括:

开关组件(302),布置在所述去量化级与所述上混级之间,可操作用作:

(a)直通级,用在联合立体声编码中;或者

(b)和与差级,用在直接立体声编码中;

其它逆变换级(311),布置在上混级中,用于计算侧信号的时域表示;

选择器布置(306,301),被适配为选择性地将这些连接到:

(a)其它和与差级(304),其又连接到在开关组件(302)的下游和上混级的上游的点;或者

(b)从开关组件(302)获得的下混信号和从加权求和器(308,309)获得的侧信号。

VI.结束语

对本领域技术人员来说,在阅读了以上说明书之后,本发明的其它实施例将变得明显。尽管本说明书和附图公开了实施例和示例,但是本发明不限于这些特定的示例。在不偏离本发明的范围的情况下,可进行许多修改和变型。

注意,在本领域技术人员的包括常规实验的能力以内进行的适当修改之后,本申请中公开的方法和设备可应用于具有多于两个通道的信号的编码。特别需要强调的是,关于公开的实施例提及的任何信号、参数和矩阵可以是频率可变的或频率不变的、和/或时间可变的或时间不变的。所描述的计算步骤可以分频率地(frequency-wise)执行或者同时针对所有频带执行,并且所有实体可被具体实施为具有频率选择动作。为了应用的目的,可根据心理声学模式采用任意的量化方案。另外应注意,各种和与差变换,即从下混/残余形式到伪L/R形式的变换以及L/S至M/S变换和M/S至L/R变换均具有如下形式:

其中,只有增益因子g可变化。因此,通过分别调整增益因子,可以通过解码增益的适当选择来补偿特定的编码增益。另外,如本领域技术人员所认识到的,偶数个串联布置的和与差变换具有直通级的效果,可能具有非单位增益(non-unity gain)。

上文中公开的系统和方法可被实现为软件、固件、硬件或其组合。某些部件或所有部件可被实现为由数字信号处理器或微处理器执行的软件,或者可被实现为硬件或专用集成电路。这样的软件可分发在计算机可读介质上,计算机可读介质可包括计算机存储介质和通信介质。如本领域技术人员所公知的,计算机存储介质包括以任意方法或技术实现的易失性和非易失性、可移除和不可移除的介质,用于存储诸如计算机可读指令的信息、数据结构、程序模块或其它数据。计算机存储介质包括,但不限于,RAM、ROM、EEPROM、闪速存储器或其它存储器技术,CD-ROM、数字万用盘(DVD)或其它光盘存储器,磁盒、磁带、磁盘存储器或其它磁存储装置,或可用来存储期望的信息并且可被计算机访问的任何其它介质。另外,对本领域技术人员来说已知的是,通信介质通常将计算机可读指令、数据结构、程序模块或其它数据具体实施在调制的数据信号中,例如载波或其它传送机制,并且包括任何信息传递介质。

另外,本发明还包括以下实施方式:

(1)一种解码器系统,用于提供通过复数预测立体声编码的立体声信号,所述解码器系统包括:

上混级(206,207,210,211;306,307,308,309,312;406,407,408,409;1410;1421;1433),被适配为根据下混信号(M)和残余信号(D)的第一频域表示生成所述立体声信号,所述第一频域表示中的每个包括第一频谱分量,所述第一频谱分量表示在多维空间的第一子空间中表示的对应信号的频谱内容,所述上混级包括:

用于根据所述下混信号的所述第一频域表示计算所述下混信号的第二频域表示的模块(206;306,307;408),所述第二频域表示包括第二频谱分量,所述第二频谱分量表示在所述多维空间的第二子空间中表示的信号的频谱内容,所述第二子空间包括所述多维空间的未包括在所述第一子空间中的部分;

加权求和器(210,211;308,309;406,407),用于根据所述下混信号的所述第一频域表示和所述第二频域表示、所述残余信号的所述第一频域表示和编码在比特流信号中的复数预测系数(α)来计算侧信号(S);以及

和与差级(207;312;409),用于根据所述侧信号和所述下混信号的所述第一频域表示计算所述立体声信号,

其中,所述上混级还能够在直通模式下操作,在所述直通模式下将所述下混信号和残余信号直接供应到所述和与差级。

(2)如(1)所述的解码器系统,其中,所述下混信号和残余信号被分割为时间帧,

所述上混级还被适配为:针对每个时间帧,接收与该帧相关联的两比特数据字段,并且响应于所述数据字段的值,在所述上混级的活动模式或所述上混级的直通模式下操作。

(3)如(1)所述的解码器系统,其中,所述下混信号和残余信号被分割为时间帧,

所述上混级还被适配为:针对每个时间帧,在MPEG比特流中接收与该帧相关联的ms_mask_present字段,并且响应于所述ms_mask_present字段的值,在所述上混级的活动模式或所述上混级的直通模式下操作。

(4)如前述任一项所述的解码器系统,还包括:

布置在所述上混级的上游的去量化级(202;301;401),用于根据比特流信号提供所述下混信号(M)和残余信号(D)的所述第一频域表示。

(5)如前述任一项所述的解码器系统,其中:

所述第一频谱分量具有在所述第一子空间中表示的实数值;以及

所述第二频谱分量具有在所述第二子空间中表示的虚数值;

可选地,所述第一频谱分量能够通过以下各项之一获得:

离散余弦变换DCT,或

改进离散余弦变换MDCT,

以及,可选地,所述第二频谱分量能够通过以下各项之一获得:

离散正弦变换DST,或

改进离散正弦变换MDST。

(6)根据前述任一项所述的解码器系统,还包括布置在所述上混级的上游的至少一个时域噪声整形TNS模块(204;303;403);

布置在所述上混级的下游的至少一个其它TNS模块(410);以及

选择器布置(404,411),用于选择性地激活:

(a)在所述上混级的上游的所述TNS模块;或

(b)在所述上混级的下游的所述其它TNS模块。

(7)如(5)所述的解码器,其中:

所述下混信号被划分为连续的时间帧,每个时间帧与所述复数预测系数的值相关联;以及

用于计算所述下混信号的第二频域表示的模块被适配为:响应于所述复数预测系数的虚部的绝对值小于时间帧的预定公差,将其本身去激活,使得其针对该时间帧不产生任何输出。

(8)如(7)所述的解码器,其中,所述下混信号时间帧还被划分为频带,每个频带伴随有所述复数预测系数的值;以及

用于计算所述下混信号的第二频域表示的模块被适配为:响应于所述复数预测系数的虚部的绝对值小于时间帧的频带的预定公差,将其本身去激活,使得其针对该频带不产生任何输出。

(9)如前述任一项所述的解码器系统,其中:

所述第一频谱分量为布置在变换系数的一个或更多个时间帧中的变换系数,每个块是通过对时域信号的时间片段应用变换而生成的;以及

用于计算所述下混信号的第二频域表示的模块被适配为:

从所述第一频谱分量中的至少一些导出一个或更多个第一中间分量;

根据一个或更多个脉冲响应中的至少一部分形成所述一个或更多个第一频谱分量的组合,以获得一个或更多个第二中间分量;以及

从所述一个或更多个第二中间分量导出所述一个或更多个第二频谱分量。

(10)如(9)所述的解码器系统,其中,所述一个或更多个脉冲响应中的部分基于一个或更多个变换的频率响应特性,

其中,可选地,变换的频率响应特性取决于随着对信号的时间片段的变换而应用的一个或更多个分析窗口函数的特性。

(11)如(9)或(10)所述的解码器系统,其中,用于计算所述下混信号的第二频域表示的模块被适配为根据以下各项之一获得第二频谱分量的每个时间帧:

(a)第一频谱分量的当时时间帧;

(b)第一频谱分量的当时时间帧和先前时间帧;以及

(c)第一频谱分量的当时时间帧、先前时间帧和后续时间帧。

(12)如前述任一项所述的解码器系统,其中,用于计算所述下混信号的第二频域表示的模块被适配为计算近似的第二频谱表示,所述近似的第二频谱表示包括由至少两个时间相邻和/或频率相邻的第一频谱分量的组合所确定的近似的第二频谱分量。

(13)如前述任一项所述的解码器系统,所述立体声信号被表示在时域中,并且所述解码器系统还包括:

布置在所述去量化级与所述上混级之间的开关组件(203),能够操作用作:

(a)直通级,或

(b)和与差级,

由此使得能够在直接编码的立体声输入信号与联合编码的立体声输入信号之间进行切换;

逆变换级(209),被适配为计算所述立体声信号的时域表示;以及

布置在所述逆变换级的上游的选择器布置(208),被适配为选择性地将其连接到:

(a)在所述上混级的下游的点,由此将通过复数预测获得的立体声信号供应到所述逆变换级;或

(b)在所述开关组件(203)的下游和所述上混级的上游的点,由此将通过直接立体声编码获得的立体声信号供应到所述逆变换级。

(14)一种编码器系统,用于将使用复数预测的立体声信号编码为包括下混通道和残余通道以及复数预测系数的信号,所述系统包括:

估计器(605;708;803;908),用于估计复数预测系数(α);

编码级(601,602,603,604,606,607;701,702,703,704,706,707;801,802,804,805,806;901,902,903,904,906,907;1101,1104,1105,1106,1107),能够操作用于:

(a)按照由所述复数预测系数的值所确定的关系,将所述立体声信号变换为下混信号(M)和残余信号(D)的频域表示;以及

(b)用作直通级,从而将要编码的立体声信号直接供应到多路复用器。

(15)如(14)所述的编码器系统,被适配为通过复数预测立体声编码,利用比特流信号对立体声信号进行编码,并且还包括:

多路复用器(608;709;807;909;1111),用于从所述编码级和所述估计器接收输出,并且利用所述比特流信号对该输出进行编码。

(16)如(14)或(15)所述的编码器系统,其中,所述估计器被适配为通过在时间区间上最小化所述残余信号的功率或所述残余信号的平均功率来确定所述复数预测系数。

(17)如(14)-(16)中任一项所述的编码器系统,其中:

所述立体声信号包括下混通道(M)和侧通道(S);

所述编码级被适配为接收所述立体声信号的第一频域表示,所述第一频域表示包括第一频谱分量,所述第一频谱分量表示在多维空间的第一子空间中表示的对应信号的频谱内容;

所述编码级还包括:

用于根据所述下混通道的所述第一频域表示计算所述下混通道的第二频域表示的模块(903;703;804;903),所述第二频域表示包括第二频谱分量,所述第二频谱分量表示在所述多维空间的第二子空间中表示的信号的频谱内容,所述第二子空间包括所述多维空间的未包括在所述第一子空间中的部分;以及

加权求和器(606,607;706,707;805,806;906,907),用于根据所述下混通道的第一频域表示和第二频域表示、所述侧通道的第一频域表示和所述复数预测系数来计算残余信号(D);

以及,

所述估计器被适配为接收所述下混通道和侧通道,并且确定所述复数预测系数,以在时间区间上最小化所述残余信号的功率或最小化所述残余信号的平均功率。

(18)如(14)-(16)中任一项所述的编码器系统,其中:

所述编码级包括:

和与差级(601;701;901),用于将所述立体声信号转换为包括下混通道(M)和侧通道(S)的联合编码的立体声信号;

变换级(602,603;702,703;902,903),用于提供所述下混通道的过采样的频域表示和所述侧通道的临界采样的频域表示,其中,所述过采样的频域表示优选地包括复数频谱分量;以及

加权求和器(606,607;706,707;906,907),用于根据所述下混通道的所述过采样的频域表示、所述侧通道的所述临界采样的频域表示和所述复数预测系数来计算残余信号(D);

以及

所述估计器接收所述残余信号,并且确定所述复数预测系数,以最小化所述残余信号的功率或最小化所述残余信号的平均功率,

其中,优选地,所述变换级包括与改进离散正弦变换MDST级(607;707;907)并联地布置的改进离散余弦变换MDCT级(606;706;906),用于共同提供所述下混通道的所述过采样的频域表示。

(19)一种解码方法,用于提供通过复数预测立体声编码的立体声信号,所述方法包括步骤:

接收下混信号(M)和残余信号(D)的第一频域表示,所述第一频域表示中的每个包括第一频谱分量,所述第一频谱分量表示在多维空间的第一子空间中表示的对应信号的频谱内容;

接收控制信号;以及

响应于所述控制信号的值:

(a)通过执行以下子步骤,使用上混级对所述下混信号和残余信号进行上混,以获得所述立体声信号:

根据所述下混信号的所述第一频域表示计算所述下混信号的第二频域表示,所述第二频域表示包括第二频谱分量,所述第二频谱分量表示在所述多维空间的第二子空间中表示的信号的频谱内容,所述第二子空间包括所述多维空间的未包括在所述第一子空间中的部分;

根据所述下混信号的第一频域表示和第二频域表示、所述残余信号的第一频域表示和编码在比特流信号中的复数预测系数(α)来计算侧信号(S);以及

通过对所述下混信号的第一频域表示和所述侧信号应用和与差变换来计算所述立体声信号,

或者

(b)将上混挂起。

(20)如(19)所述的解码方法,其中:

所述第一频谱分量具有在所述第一子空间中表示的实数值;

所述第二频谱分量具有在所述第二子空间中表示的虚数值;

可选地,所述第一频谱分量能够通过以下各项之一获得:

离散余弦变换DCT,或

改进离散余弦变换MDCT,

以及,可选地,所述第二频谱分量能够通过以下各项之一获得:

离散正弦变换DST,或

改进离散正弦变换MDST。

(21)如(20)所述的解码方法,其中:

所述下混信号被划分为连续的时间帧,每个时间帧与所述复数预测系数的值相关联;以及

响应于所述复数预测系数的虚部的绝对值小于时间帧的预定公差,将所述计算所述下混信号的第二频域表示挂起,使得针对该时间帧不产生任何输出。

(22)如(21)所述的解码方法,其中:

所述下混信号时间帧还被划分为频带,每个频带伴随有所述复数预测系数的值;以及

响应于所述复数预测系数的虚部的绝对值小于时间帧的频带的预定公差,将所述计算所述下混信号的第二频域表示挂起,使得针对该频带不产生任何输出。

(23)如(20)所述的解码方法,其中:

所述第一频谱分量为布置在变换系数的一个或更多个时间帧中的变换系数,每个块是通过对时域信号的时间片段应用变换而生成的;以及

所述计算所述下混信号的第二频域表示包括子步骤:

从所述第一频谱分量中的至少一些导出一个或更多个第一中间分量;

根据一个或更多个脉冲响应中的至少一部分形成所述一个或更多个第一频谱分量的组合,以获得一个或更多个第二中间分量;以及

从所述一个或更多个第二中间分量导出所述一个或更多个第二频谱分量。

(24)如(23)所述的解码方法,其中,所述一个或更多个脉冲响应中的部分基于一个或更多个变换的频率响应特性,

其中,可选地,变换的频率响应特性取决于随着对信号的时间片段的变换而应用的一个或更多个分析窗口函数的特性。

(25)如(24)所述的解码方法,其中,所述计算第二频域表示使用以下各项之一作为输入以获得第二频谱分量的每个时间帧:

(a)第一频谱分量的当时时间帧;

(b)第一频谱分量的当时时间帧和先前时间帧;以及

(c)第一频谱分量的当时时间帧、先前时间帧和后续时间帧。

(26)如(19)-(25)中任一项所述的解码方法,其中,所述计算所述下混信号的第二频域表示包括计算近似的第二频谱表示,所述近似的第二频谱表示包括由至少两个时间相邻和/或频率相邻的第一频谱分量的组合所确定的近似的第二频谱分量。

(27)如(19)-(26)中任一项所述的解码方法,其中,所述立体声信号被表示在时域中,并且所述方法还包括:

响应于通过直接立体声编码或联合立体声编码对所述比特流信号进行编码,省略所述上混的步骤;以及

对所述比特流信号进行逆变换以获得所述立体声信号。

(28)如(27)所述的解码方法,还包括步骤:

响应于通过直接立体声编码或联合立体声编码对所述比特流信号进行编码,省略所述对所述下混信号的所述时域表示进行变换的步骤和所述计算侧信号的步骤;以及

对利用比特流信号编码的通道中的每个通道的频域表示进行逆变换,以获得所述立体声信号。

(29)一种编码方法,用于通过复数预测立体声编码利用比特流信号对立体声信号进行编码,所述方法包括步骤:

确定复数预测系数(α);

按照由复数预测系数所确定的关系,将所述立体声信号变换为下混通道(M)和残余通道(D)的第一频域表示,所述第一频域表示包括第一频谱分量,所述第一频谱分量表示在多维空间的第一子空间中表示的对应信号的频谱内容;以及

将所述下混通道和残余通道以及所述复数预测系数编码为所述比特流。

(30)如(29)所述的编码方法,其中,确定复数预测系数的步骤是以在时间区间上最小化所述残余信号的功率或所述残余信号的平均功率为目标来实现的。

(31)如(29)或(30)所述的编码方法,还包括:

将所述立体声信号的分段定义为或识别为时间帧;

针对每个时间片段,选择是否通过以下选项中的至少之一对该时间片段中的立体声信号进行编码:

直接立体声编码,

联合立体声编码,和

复数预测立体声编码,

其中,如果选择直接立体声编码,则将所述立体声信号变换为左通道(L)和右通道(R)的频域表示,所述左通道(L)和右通道(R)的频域表示被编码为所述比特流;

以及,其中,如果选择联合立体声编码,则将所述立体声信号变换为下混通道(M)和侧通道(S)的频域表示,所述下混通道(M)和侧通道(S)的频域表示被编码为所述比特流。

(32)如(31)所述的编码方法,其中,选择根据预定心理声学模型提供最高质量的选项。

(33)如(29)或(30)所述的编码方法,还包括将所述立体声信号的分段定义为或识别为时间帧的步骤,

其中:

所述立体声信号包括下混通道(M)和侧通道(S);以及

所述将所述立体声信号变换为下混通道(M)和残余通道的第一频域表示的步骤包括子步骤:

根据所述下混通道的所述第一频域表示计算所述下混通道的第二频域表示,所述第二频域表示包括第二频谱分量,所述第二频谱分量表示在所述多维空间的第二子空间中表示的信号的频谱内容,所述第二子空间包括所述多维空间的未包括在所述第一子空间中的部分;以及

根据所述下混通道的第一频域表示和第二频域表示、所述侧通道的第一频域表示和所述复数预测系数来形成残余信号;

以及

所述确定复数预测系数的步骤是每次针对一个时间帧通过最小化每个时间帧中的残余信号的功率或平均功率来实现的。

(34)如(29)-(33)中任一项所述的编码方法,还包括步骤:

将所述立体声信号转换为包括下混通道(M)和侧通道(S)的联合编码的立体声信号;

将所述下混通道变换为过采样的频域表示,所述过采样的频域表示优选地包括复数频谱分量;

将所述侧通道变换为临界采样的频域表示,所述临界采样的频域表示优选地为实数;以及

根据所述下混通道的所述过采样的频域表示、所述侧通道的所述临界采样的频域表示和所述复数预测系数来计算残余信号(D);

以及

其中,所述复数预测系数的确定是通过关于这样计算的残余信号的反馈控制并且最小化所述残余信号的功率或所述残余信号的平均功率来实现的。

(35)如(34)所述的编码方法,其中:

所述将下混通道变换为过采样的频域表示是通过应用MDCT和MDST以及连接来自这些的输出而实现的。

(36)一种计算机程序产品,包括存储指令的计算机可读介质,所述指令当被通用计算机执行时,执行(19)至(35)中任一项记载的所述方法。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1