解码器系统和解码方法

文档序号:9305375阅读:1022来源:国知局
解码器系统和解码方法
【专利说明】
[0001] 本申请为2011年4月6日递交的国际申请号为PCT/EP2011/055374(国家申请号 为201180025305. 2)、发明名称为"基于改进型离散余弦变换的复数预测立体声编码"的专 利申请的分案申请。
技术领域
[0002] 这里公开的本发明总的来说涉及立体声音频编码,更确切地,涉及在频域中使用 复数预测进行立体声编码的技术。
【背景技术】
[0003] 立体声信号左(L)和右(R)声道的联合编码与L和R的独立编码相比能够更有效 地编码。用于联合立体声编码的普通方法是中/侧(mid/side,M/S)编码。这里,中间(M) 信号通过将L和R信号相加而形成,例如,该M信号可具有如下形式:
[0004] M= (L+R) /2
[0005] 此外,侧边(side,S)信号通过将两声道L和R信号相减而形成,例如,该S信号可 具有如下形式:
[0006] S= (L-R) /2
[0007] 在M/S编码情况下,M和S彳目号而不是L和R彳目号被编码。
[0008] 在运动图像专家组(MovingPictureExpertsGroup,MPEG)高级音频编码 (AdvancedAudioCoding,AAC)标准中(见标准文件IS0/IEC13818-7),能够以时变和频变 方式选择L/R立体声编码和M/S立体声编码。因此,立体声编码器能够对立体声信号的某些 频带应用L/R编码,而M/S编码用于编码该立体声信号的其他频带(频变)。此外,该编码 器能够随时间在L/R和M/S编码之间切换(时变)。在MPEGAAC中,立体声编码在频域中 进行,更具体而言,在改进型离散余弦变换(modifieddiscretecosinetransform,MDCT) 域中进行。这允许以频率和时间可变的方式自适应地选择L/R或M/S编码。
[0009] 参数立体声编码是用于有效地将立体声音频信号编码为单耳听觉信号加少量用 于立体声参数的边信息的技术。其是MPEG-4音频标准(见标准文件IS0/IEC14496-3)的 一部分。能够使用任何音频编码器对单耳听觉信号编码。立体声参数可被嵌入单声道比 特流的辅助部分,从而实现完全的向前和向后兼容。在解码器中,首先解码的是单耳听觉 信号,在这之后,借助于立体声参数重建立体声信号。通过去相关器(例如,可包括一条或 更多条延迟线的适当的全通滤波器)来产生已解码单声道信号的去相关版本,其与单声道 信号零互相关。本质上,已去相关信号具有与单声道信号相同的频谱和时间能量分布。单 耳听觉信号连同已去相关信号被输入到通过立体声参数来控制并重建立体声信号的上混 (up-mix)处理。更多信息参见H.Purnhagen所著的论文:"LowcomplexityParametric StereoCodinginMPEG-4(MPEG-4中的低复杂度参数立体声编码)"(第七届数字音频影 响国际会议(DAFx' 04)会刊,意大利那不勒斯,2004年10月5-8日,第163至168页)。
[0010] MPEG环绕(MPS;见IS0/IEC23003-1 和J.Herre等人所著的论文〃MPEG Surround-TheISO/MPEGStandardforEfficientandCompatibleMulti-ChannelAudio Coding(MPEG环绕--用于有效且兼容的多声道音频编码的ISO/MPEG标准)〃(音频工程大 会论文7084,第122届大会,2007年5月5-8日))允许将参数立体声编码原理与残留编码 结合、用发送的残留信号代替去相关信号,从而提高感知质量。通过下混(down-mix)多声 道信号,并且可选地,通过提取空间线索,可实现残留编码。在下混处理期间,代表误差信号 的残留信号被计算,并且然后被编码和发送。在解码器中,它们可代替去相关信号。在混合 的方法中,在某些频带中(优选在相对低的频带中),它们可代替去相关信号。
[0011] 根据当前的MPEG统一语音和音频编码(UnifiedSpeechandAudioCoding, USAC)系统(其两个示例在图1中示出),解码器包括位于核心解码器下游的复数值的正交 镜像滤波器(quadraturemirrorfilter,QMF)组。作为滤波器组输出而获得的QMF表示是 复数(因此通过因子2过采样),并可被布置作为下混信号(或相当于中间信号)M和残留 信号D,带有复数条目的上混矩阵被施加到所述下混信号的残留信号。L和R信号(在QMF 域中)如下获得:
[0012]
[0013] 其中,g是实数值的增益因子,且a是复数值的预测系数。优选地,a被选择为 使得残留信号D的能量被最小化。该增益因子可通过归一化来确定,S卩,保证和信号的功率 等于左和右信号的功率和。L和R信号中的每一个的实部与虚部是互冗余的(原理上,它 们中的每一个可基于另一个来计算),但是有利于在不发生可听见的混叠假影(aliasing artifact)的情况下实现随后的谱带复制(spectralbandreplication,SBR)解码器的应 用。也可出于相似的原因选择使用过采样的信号表示,以防止与其他诸如单声道-带-立 体声的上混等时间或频率自适应信号处理(未示出)相关联的假影。逆QMF滤波是解码器 中的最后处理步骤。需要注意的是,信号的带限QMF表示允许使用带限残留技术和"残留 填充〃技术,这些技术可集成到该类解码器中。
[0014] 上述编码结构很适于低比特率(通常低于80kb/s),但是考虑到计算复杂性,对于 更高比特率,上述编码结构不是最优的。更确切地说,在更高比特率,通常不使用SBR工具 (因为它不会提高编码效率)。那么,在没有SBR级的解码器中,仅有复数值的上混矩阵促 动QMF滤波器组的存在,这在计算上是费力的,并且引入了延迟(在1024个采样的帧长下, QMF分析/合成滤波器组引入了 961个采样的延迟)。这清楚地表明需要更有效的编码结 构。

【发明内容】

[0015] 本发明的一个目的是提供在高比特率范围中也在计算上有效的立体声编码的方 法和装置。
[0016] 如独立权利要求所限定的,本发明通过提供分别用于编码和解码的编码器和解码 器、编码和解码方法以及计算机程序产品来达到此目的。从属权利要求限定本发明的实施 例。
[0017] 在第一方面中,本发明提供一种解码器系统,该解码器系统用于通过复数预测立 体声编码来提供立体声信号,其包括:
[0018] 上混,该上混适于:基于下混信号(M)和残留信号(D)的第一频域表示产生立体声 信号,其中每一个第一频域表示包括第一频谱分量,该第一频谱分量代表相应信号的在多 维空间的第一子空间中表示的频谱内容,该上混级包括:
[0019] 基于下混信号的第一频域表示来计算该下混信号的第二频域表示的模块,其中, 该第二频域表示包括第二频谱分量,该第二频谱分量代表信号的在多维空间的第二子空间 中表示的频谱内容,其中该多维空间的第二子空间包括多维空间的不含在第一子空间内的 部分。
[0020] 加权求和器,该加权求和器基于该下混信号的第一和第二频域表示、残留信号的 第一频域表示和编码在比特流信号中的复数预测系数(a)来计算侧边信号(S);和
[0021] 求和与求差级,该求和与求差级基于下混信号的第一频域表示和侧边信号计算立 体声信号,
[0022] 其中,上混级还可以工作于通过模式(pass-throughmode),其中所述下混和残留 信号被直接提供给求和与求差级。
[0023] 在第二方面中,本发明提供一种编码器系统,用于通过复数预测立体声编码、通过 比特流信号对立体声信号编码,该编码器系统包括:
[0024] 估计器,用于估计复数预测系数;
[0025] 编码级,可操作用于:(a)以通过该复数预测系数值而确定的关系,将立体声信号 变换成下混和残留信号的频域表示;以及
[0026] 复用器,用于从编码级和估计器接收输出,并通过所述比特流信号对其进行编码。
[0027] 在本发明的第三和第四方面中,提供用于将立体声信号编码成比特流和将比特流 解码成至少一个立体声信号的方法。每个方法的技术特征分别与所述编码器系统和解码器 系统相似。在第五和第六方面中,本发明还提供一种包含用于在计算机上执行每个方法的 指令的计算机程序产品。
[0028] 本发明受益于MPEGUSAC系统中的统一立体声编码的优点。在较高比特率(在这 样的比特率下通常SBR不被采用)下也可保持这些优点,而不明显地增加伴随着基于QMF 方法的计算复杂性。这可能是因为:至少在下混和残留声道的代码音频带宽相同且上混处 理不包括去相关的情况下,作为MPEGUSAC变换编码系统基础的临界采样的MDCT变换可被 用于本发明所提供的复数预测立体声编码。这意味着不再需要附加的QMF变换。与传统的 L/R或M/S立体声相比,QMF域中的复数预测立体声编码的代表性实现实际上显著增加了每 单位时间的操作数量。因此,根据本发明的编码装置在这样的比特率下显得有竞争力,以适 中的计算代价提供高音频质量。
[0029] 如本领域技术人员了解的,该上混级还可以操作于通过模式的事实使解码器能够 按照如编码器侧所确定的传统的直接或联合编码以及复数预测编码来自适应解码。因此, 在解码器不能肯定地将质量水平提高到超过常规的直接L/R立体声编码或联合M/S立体声 编码的质量水平的情况下,解码器至少能够保证保持相同水平。因此,从功能的角度看,根 据本发明的此方面的解码器可被认为是相对于【背景技术】的超集。
[0030] 作为与基于QMF的预测编码立体声相对比的优点,信号的完美重建是可能的(除 了量化误差之外,能够使量化误差任意小)。
[0031] 因此,本发明提供用于通过复数预测进行基于变换的立体声编码的编码装置。优 选地,根据本发明的装置不限于复数预测立体声编码,而还可操作于根据【背景技术】的L/R立体声编码或联合M/S立体声编码方式,使得可为特定应用或在特定时间间隔期间选择最 合适的编码方法。
[0032] 信号的过采样(例如,复数)表示(包括所述第一和所述第二频谱分量)作为基 础被用于本发明的复数预测,并因此,用于计算这种过采样表示的模块被布置在根据本发 明的编码器系统和解码器系统中。所述频谱分量涉及多维空间的第一和第二子空间,其可 为关于给定长度的时间间隔(例如,预设的时间帧长)的以有限采样频率采样的时间依赖 函数集。众所周知,在该特定多维空间中的函数可由基函数的有限加权和来近似。
[0033] 如本领域技术人员将理解的,为了能可靠地重新生成已编码信号,编码器适于与 配有用于提供预测编码所基于的过采样表示的对等模块的解码器配合。这种对等模块可为 相同或相似模块,或具有相同或相似的转移特性的模块。特别地,编码器和解码器中的模块 分别可为执行各自计算机程序的相似或不相似的处理单元,其中计算机程序执行对等的数 学运算集。
[0034] 在解码器系统或编码器系统的一些实施例中,第一频谱分量具有在第一子空间中 表示的实数值,且第二频谱分量具有在第二子空间中表示的虚值。第一和第二频谱分量 一起形成信号的复数频谱表示。第一子空间可为第一基函数集的线性生成空间(linear span),而第二子空间可为第二基函数集的线性生成空间,第二基函数中的一些与第一基函 数集线性无关。
[0035] 在一个实施例中,用于计算复数表示的模块为实到虚的变换,S卩,基于离散时间信 号的实数频谱表示计算该信号的频谱虚部的模块。该变换可基于诸如来自谐波分析的公式 或启发式(heuristic)关系等的精确或近似的数学关系。
[0036] 在解码器系统或编码器系统的一些实施例中,可通过对离散时间域信号进行 时-频域变换获得第一频谱分量,时-频域变换优选地为傅里叶变换,诸如离散余弦变换 (discretecosinetransform,DCT)、改进型离散余弦变换(modifieddiscretecosine transform,MDCT)、离散正弦变换(discretesinetransform,DST)、改进型离散正弦变换 (modifieddiscretesinetransform,MDST)、快速傅里叶变换(fastFouriertransform, FFT)、或基于质数因子的傅里叶算法等。在前四个例子中,然后可分别通过DST、MDST、DCT 和MDCT获得第二频谱分量。众所周知,以单位间隔为周期的余弦的线性生成空间形成不完 全包含在以相同间隔为周期的正弦的线性生成空间中的子空间。优选地,第一频谱分量可 通过MDCT获得,且第二频谱分量可通过MDST获得。
[0037] 在一个实施例中,解码器系统包括布置在上混级的上游的至少一个时域噪音成形 模块(TNS(TemporalNoiseShaping)模块或TNS滤波器)。一般说来,TNS的使用提高了 对具有类瞬态(transient-like)分量信号的感知音质,这也适用于本发明的以TNS为特征 的解码器系统的实施例。在传统L/R和M/S立体声编码中,TNS滤波器可直接在逆变换之前 作为频域中最后处理步骤被施加。然而,在复数预测立体声编码情况下,将TNS滤波器施加 在下混和残留信号上(即在上混矩阵前)常常是有利的。换句话说,TNS被施加到左右声 道的线性组合,这具有几个优点。首先,可被证实,在给定情况下TNS仅对比如下混信号有 利。然后,对于残留信号可抑制或省去TNS滤波,这可能意味着可用带宽的更经济的使用, TNS滤波器系数仅需为下混信号传输。其次,复数预测编码中所需的下混信号的过采样表示 的计算(例如,MDST数据被从MDCT数据中导出,以便形成复数频域表示)可要求在时域中 下混信号的表示是可计算的。这又意味着下混信号优选地作为以一致方式获得的MDCT频 谱的时间序列而得到。如果在将下混/残留表示转换成左/右表示的上混矩阵后在解码器 中施加TNS滤波,则仅下混信号的TNS残留MDCT谱的序列是可得到的。这会使对应的MDST 谱的有效计算非常困难,特别是在左右声道使用具有不同特性的TNS滤波器的情况下尤为 如此。
[0038] 需要强调的是,MDCT谱的时序的可得到性不是获得适合作为复数预测编码基础的 MDST表示的绝对标准。除实验证据外,该事实可
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1