使用mdct频谱的组合编码的可缩放的语音和音频编码的制作方法

文档序号：2829081阅读：317来源：国知局

专利名称：使用mdct频谱的组合编码的可缩放的语音和音频编码的制作方法
技术领域：
以下描述大体上涉及编码器和解码器，且具体来说，涉及一种作为可缩放的语音和音频编解码器的一部分而对修正型离散余弦变换(MDCT)频谱进行译码的有效方式。
背景技术：
音频译码的一个目标为将音频信号压缩成所要有限信息量，同时尽可能地保持原始声音质量。在编码过程中，将时域中的音频信号变换成频域。知觉音频译码技术(例如，MPEG层3 (MP3)、MPEG_2和MPEG-4)利用人耳的信号掩蔽特性，以便减少数据量。通过这样，以使量化噪声由占优势的总信号掩蔽(即，其保持为不可闻的)的方式而将量化噪声分布到频带。可观的存储尺寸的减少是可能的，伴随着很少或无可察觉的音频质量的损失。知觉音频译码技术通常为可缩放的且产生具有基本或核心层和至少一个增强层的分层位流。此允许位速率可缩放性，即，在解码器侧处以不同音频质量水平进行解码或在网络中通过业务成形或调节来减少位速率。码激励线性预测(CELP)为广泛地用于语音译码的一类算法，包括代数CELP (ACELP)、松驰CELP (RCELP)、低延迟(LD-CELP)和向量和激励线性预测(VSELP)。CELP所背后的一个原理被称作合成式分析(Analysis-by-Synthesis, AbS)且指通过在闭合回路中靠知觉优化经解码(合成)信号来执行编码(分析)。理论上，将通过尝试所有可能位的组合且选择产生最佳音效的经解码信号的位组合来产生最佳CELP流。此实际上出于以下两个原因而为明显不可能的非常难以实施，且“最佳音效”选择准则暗示着人类收听者。为了使用有限计算资源来实现实时编码，使用靠知觉加权的函数而将CELP搜索分解成较小的更易管理的顺序搜索。通常，编码包括(a)计算和/或量化(通常作为线频谱对)输入音频信号的线性预测译码系数、(b)使用码簿来搜索最佳匹配以产生经译码的信号、(c)产生作为经译码信号与真实输入信号之间的差异的误差信号，和(d)在一个或一个以上层中对此误差信号进行进一步编码(通常在MDCT频谱中)以改进经重建或经合成信号的质量。
许多不同技术可用于基于CELP算法来实施语音和音频编解码器。在这些技术中的一些中，产生误差信号，误差信号随后经变换(通常使用DCT、MDCT或类似变换)和经编码以进一步改进经编码信号的质量。然而，归因于许多移动装置和网络的处理和带宽限制，需要此MDCT频谱译码的有效实施，以减少经存储或发射的信息的大小。

发明内容
下文呈现对一个或一个以上实施例的简化概述，以便提供对一些实施例的基本理解。此概述不为对所有所涵盖实施例的广泛综述，且既不希望识别所有实施例的重要或关键元素，也不希望描绘任何或所有实施例的范围。其唯一目的是以简化形式来呈现一个或一个以上实施例的一些概念以作为稍后呈现的更详细描述的序言。提供一种用于以可缩放的语音和音频压缩算法对MDCT (或类似基于变换的)频谱进行编码/解码的有效技术。此技术利用靠知觉量化的MDCT频谱的稀疏特性来界定码的结构，其包括描述非零频谱线在经编码频带中的位置的元素，且使用组合列举技术来计算此元素。在一个实例中，提供一种用于在可缩放的语音和音频编解码器中对MDCT频谱进行编码的方法。对变换频谱的此编码可通过编码器硬件、编码软件和/或两者的组合来执行，且可在处理器、处理电路和/或机器可读媒体中实施。从基于码激励线性预测(CELP)的编码层获得残余信号，其中残余信号为原始音频信号与原始音频信号的经重建版本之间的差异。可通过以下操作来获得原始音频信号的经重建版本(a)合成来自基于CELP的编码层的原始音频信号的经编码版本以获得经合成信号、(b)重新强调经合成信号，和/或(c)对经重新强调信号进行上取样以获得原始音频信号的经重建版本。在离散余弦变换(DCT)型变换层处变换残余信号以获得具有多个频谱线的对应变换频谱。DCT型变换层可为修正型离散余弦变换(MDCT)层，且变换频谱为MDCT频谱。使用组合位置译码技术对变换频谱频谱线进行编码。对变换频谱频谱线的编码可包括基于针对非零频谱线位置使用组合位置译码技术来表示频谱线位置而对选定的频谱线子集的位置进行编码。在一些实施方案中，可在编码之前丢弃频谱线集合以减少频谱线的数目。在另一实例中，组合位置译码技术可包括针对选定的频谱线子集而产生词典式索引，其中每一词典式索引表示多个表示选定的频谱线子集的位置的可能二进制串中的一者。词典式索引可以比二进制串的长度少的位的二进制串来表示频谱线。在另一实例中，组合位置译码技术可包括产生表示频谱线在二进制串内的位置的索引，基于组合公式对频谱线的位置进行编码
权利要求
1.一种用于在可缩放的语音和音频编解码器中进行编码的方法，其包含从基于码激励线性预测(CELP)的编码层获得残余信号，其中所述残余信号为原始音频信号与所述原始音频信号的经重建版本之间的差异；在离散余弦变换(DCT)型变换层处变换所述残余信号以获得具有多个频谱线的对应变换频谱；以及使用组合位置译码技术对所述变换频谱频谱线进行编码，其中所述组合位置译码技术包括针对选定的频谱线子集而产生词典式索引，其中每一词典式索引表示多个表示所述选定的频谱线子集的所述位置的可能二进制串中的一者。
2.根据权利要求I所述的方法，其中所述DCT型变换层为修正型离散余弦变换(MDCT)层，且所述变换频谱为MDCT频谱。
3.根据权利要求I所述的方法，其中对所述变换频谱频谱线的编码包括基于针对非零频谱线位置使用所述组合位置译码技术来表示频谱线位置而对选定的频谱线子集的位置进行编码。
4.根据权利要求I所述的方法，其进一步包含将所述多个频谱线分裂成多个子带；以及将连续子带分组为若干区域。
5.根据权利要求4所述的方法，其进一步包含对选自所述区域中的所述子带中的每一者的多个频谱线的主脉冲进行编码。
6.根据权利要求4所述的方法，其进一步包含基于针对非零频谱线位置使用所述组合位置译码技术来表示频谱线位置而对选定的频谱线子集在一区域内的位置进行编码；其中对所述变换频谱频谱线的编码包括基于所述选定的频谱线子集的所述位置而产生等于所述区域中的所有位置的长度的所有可能二进制串的阵列。
7.根据权利要求4所述的方法，其中所述区域是重叠的且每一区域包括多个连续子带。
8.根据权利要求4所述的方法，其中所述频谱线子集包括第一频谱线子集，其包括来自子带群组中的每一子带的振幅最大的频谱线；以及第二附加频谱线子集，其基于其振幅选自所述子带群组。
9.根据权利要求I所述的方法，其中所述词典式索引以比所述二进制串的长度少的位的二进制串来表示非零频谱线。
10.根据权利要求I所述的方法，其中所述组合位置译码技术包括产生表示频谱线在二进制串内的位置的索引，基于组合公式对所述频谱线的所述位置进行编码
11.根据权利要求I所述的方法，其进一步包含在编码之前丢弃一非零频谱线集合以减少频谱线的数目。
12.根据权利要求I所述的方法，其中通过以下操作获得所述原始音频信号的所述经重建版本合成来自所述基于CELP的编码层的所述原始音频信号的经编码版本以获得经合成信号; 重新强调所述经合成信号；以及对所述经重新强调信号进行上取样以获得所述原始音频信号的所述经重建版本。
13.一种可缩放的语音和音频编码器装置，其包含实现离散余弦变换(DCT)型变换层模块的第一电路，其适于从基于码激励线性预测(CELP)的编码层模块获得残余信号，其中所述残余信号为原始音频信号与所述原始音频信号的经重建版本之间的差异；以及变换所述残余信号以获得具有多个频谱线的对应变换频谱；以及实现组合频谱编码器的第二电路，其适于使用组合位置译码技术对所述变换频谱频谱线进行编码，其中所述组合位置译码技术包括针对选定的频谱线子集而产生词典式索引，其中每一词典式索引表示多个表示所述选定的频谱线子集的所述位置的可能二进制串中的一者。
14.根据权利要求13所述的装置，其中所述DCT型变换层模块为修正型离散余弦变换(MDCT)层模块，且所述变换频谱为MDCT频谱。
15.根据权利要求13所述的装置，其中对所述变换频谱频谱线的编码包括基于针对非零频谱线位置使用所述组合位置译码技术来表示频谱线位置而对选定的频谱线子集的位置进行编码。
16.根据权利要求13所述的装置，其进一步包含实现子带产生器的第三电路，其适于将所述多个频谱线分裂成多个子带；以及实现区域产生器的第四电路，其适于将连续子带分组为若干区域。
17.根据权利要求16所述的装置，其进一步包含实现主脉冲编码器的第五电路，其适于对选自所述区域中的所述子带中的每一者的多个频谱线的主脉冲进行编码。
18.根据权利要求16所述的装置，其进一步包含实现子脉冲编码器的第五电路，其适于基于针对非零频谱线位置使用所述组合位置译码技术来表示频谱线位置而对选定的频谱线子集在一区域内的位置进行编码；其中对所述变换频谱频谱线的编码包括基于所述选定的频谱线子集的所述位置而产生等于所述区域中的所有位置的长度的所有可能二进制串的阵列。
19.根据权利要求16所述的装置，其中所述区域是重叠的且每一区域包括多个连续子带。
20.根据权利要求13所述的装置，其中所述词典式索引以比所述二进制串的长度少的位的二进制串来表示非零频谱线。
21.根据权利要求13所述的装置，其中所述组合频谱编码器适于产生表示频谱线在二进制串内的位置的索引，所述频谱线的所述位置基于组合公式而被编码
22.根据权利要求13所述的装置，其中所述原始音频信号的所述经重建版本是通过以下操作而获得合成来自所述基于CELP的编码层的所述原始音频信号的经编码版本以获得经合成信号; 重新强调所述经合成信号；以及对所述经重新强调信号进行上取样以获得所述原始音频信号的所述经重建版本。
23.一种可缩放的语音和音频编码器装置，其包含用于从基于码激励线性预测(CELP)的编码层获得残余信号的装置，其中所述残余信号为原始音频信号与所述原始音频信号的经重建版本之间的差异；用于在离散余弦变换(DCT)型变换层处变换所述残余信号以获得具有多个频谱线的对应变换频谱的装置；以及用于使用组合位置译码技术对所述变换频谱频谱线进行编码的装置，其中所述组合位置译码技术包括针对选定的频谱线子集而产生词典式索引，其中每一词典式索引表示多个表示所述选定的频谱线子集的所述位置的可能二进制串中的一者。
24.一种包括可缩放的语音和音频编码电路的处理器，其适于从基于码激励线性预测(CELP)的编码层获得残余信号，其中所述残余信号为原始音频信号与所述原始音频信号的经重建版本之间的差异；在离散余弦变换(DCT)型变换层处变换所述残余信号以获得具有多个频谱线的对应变换频谱；以及使用组合位置译码技术对所述变换频谱频谱线进行编码，其中所述组合位置译码技术包括针对选定的频谱线子集而产生词典式索引，其中每一词典式索引表示多个表示所述选定的频谱线子集的所述位置的可能二进制串中的一者。
25.一种包含针对可缩放的语音和音频编码而操作的指令的非易失性机器可读媒体，所述指令在由一个或一个以上处理器执行时致使所述处理器从基于码激励线性预测(CELP)的编码层获得残余信号，其中所述残余信号为原始音频信号与所述原始音频信号的经重建版本之间的差异；在离散余弦变换(DCT)型变换层处变换所述残余信号以获得具有多个频谱线的对应变换频谱；以及使用组合位置译码技术对所述变换频谱频谱线进行编码，其中所述组合位置译码技术包括针对选定的频谱线子集而产生词典式索引，其中每一词典式索引表示多个表示所述选定的频谱线子集的所述位置的可能二进制串中的一者。
26.一种用于可缩放的语音和音频解码的方法，其包含获得表示残余信号的多个变换频谱频谱线的索引，其中所述残余信号为原始音频信号与来自基于码激励线性预测(CELP)的编码层的所述原始音频信号的经重建版本之间的差巳升; 通过将用以对所述多个变换频谱频谱线进行编码的组合位置译码技术反向而对所述索引进行解码，其中所述组合位置译码技术包括针对选定的频谱线子集而产生词典式索弓丨，其中每一词典式索引表示多个表示所述选定的频谱线子集的所述位置的可能二进制串中的一者；以及在反离散余弦变换(IDCT)型反变换层处使用所述经解码的多个变换频谱频谱线来合成所述残余信号的版本。
27.根据权利要求26所述的方法，其进一步包含接收对所述原始音频信号进行编码的经CELP编码信号；对经CELP编码信号进行解码以产生经解码信号；以及将所述经解码信号与所述残余信号的所述经合成版本组合以获得所述原始音频信号的经重建版本。
28.根据权利要求26所述的方法，其中合成所述残余信号的版本包括将反DCT型变换应用于所述变换频谱频谱线以产生所述残余信号的时域版本。
29.根据权利要求26所述的方法，其中对所述变换频谱频谱线的解码包括基于针对非零频谱线位置使用所述组合位置译码技术来表示频谱线位置而对选定的频谱线子集的位置进行解码。
30.根据权利要求26所述的方法，其中所述索引以比所述二进制串的长度少的位的二进制串来表示非零频谱线。
31.根据权利要求26所述的方法，其中所述DCT型反变换层为反修正型离散余弦变换(IMDCT)层，且所述变换频谱为MDCT频谱。
32.根据权利要求26所述的方法，其中所述所获得的索引表示频谱线在二进制串内的位置，基于组合公式对所述频谱线的所述位置进行编码
33.根据权利要求26所述的方法，其中所述频谱线子集包括第一频谱线子集，其包括来自子带群组中的每一子带的振幅最大的频谱线；以及第二附加频谱线子集，其基于其振幅选自所述子带群组。
34.一种可缩放的语音和音频解码器装置，其包含实现组合频谱解码器的第一电路，其适于获得表示残余信号的多个变换频谱频谱线的索引，其中所述残余信号为原始音频信号与来自基于码激励线性预测(CELP)的编码层的所述原始音频信号的经重建版本之间的差巳升；通过将用以对所述多个变换频谱频谱线进行编码的组合位置译码技术反向而对所述索引进行解码，其中所述索引为针对选定的频谱线子集的词典式索引，其中每一词典式索引表示多个表示所述选定的频谱线子集的所述位置的可能二进制串中的一者；以及实现反离散余弦变换(IDCT)型反变换层模块的第二电路，其适于使用所述经解码的多个变换频谱频谱线来合成所述残余信号的版本。
35.根据权利要求34所述的装置，其进一步包含实现CELP解码器的第三电路，其适于接收对所述原始音频信号进行编码的经CELP编码信号；对经CELP编码信号进行解码以产生经解码信号；以及将所述经解码信号与所述残余信号的所述经合成版本组合以获得所述原始音频信号的经重建版本。
36.根据权利要求34所述的装置，其中在合成所述残余信号的版本时，所述(IDCT)型反变换层模块适于将反DCT型变换应用于所述变换频谱频谱线以产生所述残余信号的时域版本。
37.根据权利要求34所述的装置，其中所述索引以比所述二进制串的长度少的位的二进制串来表示非零频谱线。
38.一种可缩放的语音和音频解码器装置，其包含用于获得表示残余信号的多个变换频谱频谱线的索引的装置，其中所述残余信号为原始音频信号与来自基于码激励线性预测(CELP)的编码层的所述原始音频信号的经重建版本之间的差异；用于通过将用以对所述多个变换频谱频谱线进行编码的组合位置译码技术反向而对所述索引进行解码的装置，其中所述索引为针对选定的频谱线子集的词典式索引，其中每一词典式索引表示多个表示所述选定的频谱线子集的所述位置的可能二进制串中的一者；以及用于在反离散余弦变换(IDCT)型反变换层处使用所述经解码的多个变换频谱频谱线来合成所述残余信号的版本的装置。
39.一种包括可缩放的语音和音频解码电路的处理器，其适于获得表示残余信号的多个变换频谱频谱线的索引，其中所述残余信号为原始音频信号与来自基于码激励线性预测(CELP)的编码层的所述原始音频信号的经重建版本之间的差巳升；通过将用以对所述多个变换频谱频谱线进行编码的组合位置译码技术反向而对所述索引进行解码，其中所述索引为针对选定的频谱线子集的词典式索引，其中每一词典式索引表示多个表示所述选定的频谱线子集的所述位置的可能二进制串中的一者；以及在反离散余弦变换(IDCT)型反变换层处使用所述经解码的多个变换频谱频谱线来合成所述残余信号的版本。
40.一种包含针对可缩放的语音和音频解码而操作的指令的非易失性机器可读媒体，所述指令在由一个或一个以上处理器执行时致使所述处理器获得表示残余信号的多个变换频谱频谱线的索引，其中所述残余信号为原始音频信号与来自基于码激励线性预测(CELP)的编码层的所述原始音频信号的经重建版本之间的差巳升；通过将用以对所述多个变换频谱频谱线进行编码的组合位置译码技术反向而对所述索引进行解码，其中所述索引为针对选定的频谱线子集的词典式索引，其中每一词典式索引表示多个表示所述选定的频谱线子集的所述位置的可能二进制串中的一者；以及在反离散余弦变换(IDCT)型反变换层处使用所述经解码的多个变换频谱频谱线来合成所述残余信号的版本。
全文摘要
本发明提供一种实施组合频谱编码的可缩放的语音和音频编解码器。从基于码激励线性预测(CELP)的编码层获得残余信号，其中所述残余信号为原始音频信号与所述原始音频信号的经重建版本之间的差异。在离散余弦变换(DCT)型变换层处变换所述残余信号以获得具有多个频谱线的对应变换频谱。使用组合位置译码技术来变换所述变换频谱频谱线。所述组合位置译码技术包括针对选定的频谱线子集而产生词典式索引，其中每一词典式索引表示多个表示所述选定的频谱线子集的位置的可能二进制串中的一者。所述词典式索引以比所述二进制串的长度少的位的二进制串来表示非零频谱线。
文档编号G10L19/24GK102968998SQ20121040343
公开日2013年3月13日申请日期2008年10月22日优先权日2007年10月22日
发明者尤里·列兹尼克, 黄鹏军申请人:高通股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：尤里·列兹尼克;黄鹏军
技术所有人：高通股份有限公司
我是此专利的发明人

上一篇：一种基于快速卡尔曼滤波的鲁棒语音增强方法
上一篇：一种基于简化自适应内插加权谱模型的语音转换及重构方法