快变音频信号的编解码方法

文档序号:2829463阅读:113来源:国知局
专利名称:快变音频信号的编解码方法
技术领域
本发明涉及音频编解码方法,尤其是通过有效组织尺度因子带对音频信号进行编解码的方法。
背景技术
为得到高保真的数字音频信号,需对数字音频信号进行音频编码或音频压缩以便于存储和传输。对音频信号进行编码的目的是用尽可能少的比特数实现音频信号的透明表示,例如,原始输入的音频信号与经编码后输出的音频信号之间几乎没有差别。
专利ZL02122099.9,专利申请PCT/CN2004/001034、PCT/CN2005/000440、PCT/CN2005/000441、200410046153及200410046154均提出了基于一种新的多分辨率分析技术的音频编码方法和装置,并提出了一种对频率-调制域信号进行组织的编码方法。这些专利申请采用对修正离散余弦变换(ModifiedDiscrete Cosine Transform,简称MDCT)或快速傅里叶变换(Fast FourierTransform,简称FFT)等变换/滤波获得的频域系数进一步做多分辨率变换/滤波,例如采用小波变换、短MDCT或DCT等,获得一种新的二维数据结构。这种新的二维数据结构不同于已有的时间-频率二维数据结构,而是频率-调制域信号表示;将上述方法称为“伪小波”滤波,以区别于传统的小波滤波技术。
专利CN1141699“宽带数字信息信号的编码和解码”提供了以滤波子带(对信号的时间-频率表达形式)为单位,在时间顺序上自适应组织尺度因子带,进行量化编码的编码策略,但是在该专利中,时间-频率二维数据结构的组织顺序仅限于时间顺序。专利CN1100850“用于记录、再生、传输和/或接受压缩数据的方法及装置,以及采用的记录介质”提供了更广泛的在时间和频率上自适应对时间-频率二维数据结构进行组织的编码策略。但是,上述尺度因子带的技术主要针对信号的时间-频率表示,而在基于“伪小波”技术的音频编码器中,“伪小波”滤波所获得的调制域信号分布与以往的时域-频域系数分布存在本质的不同,需要根据频率-调制域系数分布特性重新设计相应的尺度因子组织和编码策略。

发明内容
本发明的目的在于针对现有技术所存在的缺陷,提供快变音频信号的编解码方法,通过更充分的组织尺度因子带,将性质相同或相似的系数组织在一起编码,从而有效提高快变信号的编码效率,显著提升编解码器的性能。
为了实现上述目的,本发明提供了一种快变音频信号的编码方法,该方法包括以下步骤步骤1、对快变音频信号进行时频映射处理,得到该音频信号的频域系数;步骤2、对该频域系数进行频域-调制域映射处理,得到调制域系数;步骤3、根据调制域系数得到调制窗,在每个调制窗内,根据频率顺序组织调制域系数;步骤4、在每个调制窗中,划分尺度因子带;步骤5、对各调制窗的尺度因子带进行重组,形成大尺度因子带;步骤6、对调制域系数进行量化和熵编码,得到编码后的音频码流。
所述步骤1中的时频映射处理为修正离散余弦变换或快速傅里叶变换。在所述步骤1和步骤2之间还包括按频率顺序组织所述频域系数。所述步骤2中的频域-调制域映射处理为短修正离散余弦变换或小波变换。所述步骤4可具体为在每个调制窗中,按照人耳听觉频率分辨率划分尺度因子带。所述步骤5可具体为将性质相同或相似的尺度因子带合并组织为大尺度因子带。所述步骤6中的量化可为标量量化,具体包括对所有尺度因子带中的调制域系数进行非线性压扩;再利用每个大尺度因子带的尺度因子对该大尺度因子带包含的各子带的调制域系数进行量化,得到整数表示的量化谱;选择每帧信号中的第一个尺度因子作为公共尺度因子;其它尺度因子与其前一个尺度因子进行差分处理;所述熵编码包括对量化谱和差分处理后的尺度因子进行熵编码,得到码书序号、尺度因子编码值及无损编码量化谱;对码书序号进行熵编码,得到码书序号编码值。
所述步骤6之后,将尺度因子带的组织方式、量化器参数及熵编码方式信息作为控制信息传输。
为了实现上述目的,本发明还提供了一种快变音频信号的解码方法,该方法包括以下步骤步骤1、根据音频码流控制信息中的尺度因子带组织方式及熵编码方式信息,对音频信号进行熵解码,得到调制域系数的量化值;步骤2、根据控制信息中的尺度因子带组织方式及尺度因子信息,对调制域系数的量化值进行逆量化,得到逆量化调制域系数;步骤3、对逆量化调制域系数在时频平面进行重组,然后进行调制域-频域映射处理,得到频域系数;步骤4、对频域系数进行频时映射处理,得到时域音频信号。
所述步骤3中的重组具体包括先将调制域系数在频率方向组织,每个频带中的系数在时间方向组织,然后将组织好的系数按照调制窗、尺度因子带的顺序排列。
本发明通过更充分的组织尺度因子带,将性质相同或相似的系数组织在一起编码,有效的提高了快变信号的编码效率并显著提升了编解码器的性能。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。


图1为本发明的快变音频信号的编码方法流程图。
图2为本发明的快变音频信号的编码方法中组织调制域系数示意图。
图3为本发明的快变音频信号的编码方法中划分尺度因子带示意图。
图4为本发明的快变音频信号的编码方法中重组尺度因子带示意图。
图5为本发明的快变音频信号的解码方法流程图。
具体实施例方式
本发明是对快变信号的编解码进行了改进,按照人耳听觉频率分辨率,将调制窗划分为多个尺度因子带,并根据编码信号的特性,对尺度因子带进行重组,形成大尺度因子带,在对调制域系数进行量化和熵编码时,同一大尺度因子带共用一个量化器和/或熵编码器,从而充分利用了信号的调制域特性,提高了压缩比率。
如图1所示,为本发明的快变音频信号编码方法流程图,该方法包括如下步骤步骤1、对快变音频信号进行时频映射处理,得到该音频信号的频域系数;步骤2、对该频域系数进行频域-调制域映射处理,得到调制域系数;步骤3、根据调制域系数得到调制窗,在每个调制窗内,根据频率顺序组织调制域系数;步骤4、在每个调制窗中,划分尺度因子带;步骤5、对各调制窗的尺度因子带进行重组,形成大尺度因子带;步骤6、对调制域系数进行量化和熵编码,得到编码后的音频码流。
下面对上述步骤的具体实现进行详细说明。
时频映射可采用MDCT、FFT、离散傅里叶变换(DFT)、小波变换等时域-频域变换方法。下面以MDCT为例,说明时频映射过程。
若每帧数据为1024点,则采用2048点的MDCT(包括1024点当前帧数据和1024点前一帧数据),将线性PCM信号变换到频域,获得1024点频域系数。2048点MDCT变换可定义为X(m)=Σk=02N-1w(k)x(k)cos(2k+1+N)(2m+1)π4N,m=0,…,N-1---(1)]]>式中N帧长=1024X(m)MDCT频谱系数m频谱系数索引x(k)输入序列k样本索引w(k)第k个窗函数系数,窗函数的公式如下w(k)=cos(π2×(k+0.5N-0.94×sin(2×πN×(k+0.5)))/(2×π)),k=0,1,L,N-1,w(k)=w(2N-1-k)]]>MDCT的输入序列和IMDCT的输出序列有50%的重叠(overlap),即N个样本。在IMDCT中,相邻输出块的重叠部分进行叠加。
然后对频域系数进行多分辨率分析,对输入的频域数据进行时-频域的重新组织,以频率精度的降低为代价提高频域数据的时间分辨率,从而自动适应快变类型信号的时频特性。
多分辨率分析包括频域系数变换和重组,其中通过频域-调制域映射将频域系数变换为调制域系数,该调制域系数为时频平面的系数;然后通过重组将调制域系数按照一定的规则进行分组。
频域-调制域映射可采用频域小波变换或频域短MDCT变换,下面以短MCDT变换说明频域-调制域映射过程。
先按频率顺序组织频域系数,然后按频率顺序采用128个16点(包括8个点的重叠)短MDCT进行频域多分辨率变换,获得1024个频率-调制域系数。在进行短MDCT时,以8为间隔进行16阶短MDCT变换,每次短MDCT变换的前8个谱系数为上一次变换输入的谱系数,每个短MDCT变换获得8个调制域系数。短MDCT的计算公式如下V_m(k)=Σn=0Ns-1win_m(n)*xm,ncos(2πNs(n+n0)(k+12)),0≤k≤Ns2-1---(2)]]>n0=(N/2+1)/2Ns=16其中n样本序号;m第m个MDCT;k该组系数的谱序号;Ns样本数;win_m(n)正弦窗系数,如下确定(1)win_m(n)=sin(pi/Ns*(n+0.5)) n=0...15,0<m<127(2)win_0(0...3)=0win_0(4...7)=1win_0(n)=sin(pi/Ns*(n+0.5)) n=8...15(3)win_127(n)=sin(pi/Ns*(n+0.5))n=0...7win_127(8...11)=1win_127(12...15)=0在计算调制域系数后,将调制域系数组织成调制窗,在每个调制窗内,根据频率顺序组织调制域系数。如图2所示,为组织调制域系数示意图,将上述的通过8点短MDCT获得的1024个调制域系数按8个调制窗进行组织,获得短MDCT变换的8个调制窗,每个调制窗内有128个调制域系数;在每个调制窗中,128个系数按频率顺序组织。
如图3所示,为划分尺度因子带示意图。在每个调制窗中,按照人耳听觉频率分辨率,如BARK刻度或ERB刻度,将频率划分为多个尺度因子带,每个尺度因子带为一个基本的编码单元,带中的系数共用一个量化器和熵编码器。
如图4所示,为重组尺度因子带示意图。在划分尺度因子带后,根据当前编码信号的特性,例如能量、方差和平稳度(也称峭度)等,对如上获得的尺度因子带进行重组,将性质相同或相似的尺度因子带组织在一起,形成一个或多个大尺度因子带,每个大尺度因子带中的各尺度因子带称为该大尺度因子带的子带。对调制域系数进行量化和熵编码时,每个大尺度因子带的各子带共用一个量化器和/或熵编码器。通过更充分的组织尺度因子带,将性质相同或相似的系数组织在一起编码,有效的提高了快变信号的编码效率并显著提升了编解码器的性能。
量化可以是标量量化或矢量量化。标量量化主要是利用尺度因子对调制域系数进行量化,每个大尺度因子带所包含的各子带采用同一尺度因子,标量量化包括以下步骤对所有尺度因子带中的调制域系数进行非线性压扩;再利用每个大尺度因子带的尺度因子对该大尺度因子带包含的各子带的调制域系数进行量化,得到整数表示的量化谱;选择每帧信号中的第一个尺度因子作为公共尺度因子;其它尺度因子与其前一个尺度因子进行差分处理。
矢量量化包括以下步骤将调制域系数构成多个多维矢量信号;对于每个矢量都根据平整因子进行谱平整;根据主观感知距离测度准则在码书中查找与待量化矢量距离最小的码字,获得其码字索引,属于同一大尺度因子带的各子带共用一个码字。
在经过上述量化处理后,利用熵编码技术进一步去除量化后的调制域系数统计冗余。熵编码是一种信源编码技术,其基本思想是对出现概率较大的符号给予较短长度的码字,而对出现概率小的符号给予较长的码字,这样平均码字的长度最短。根据Shannon的无噪声编码定理,如果传输的N个源消息的符号是独立的,那么使用适当的变长度编码,码字的平均长度n将满足[H(x)log2(D)]≤n-<[H(x)log2(D)+1N],]]>其中H(x)表示信源的熵,x表示符号变量。由于熵H(x)是平均码字长度的最短极限,上述公式表明此时码字的平均长度很接近于它的下限熵H(x),因此这种变长度编码技术又成为“熵编码”。
熵编码步骤包括对量化谱和差分处理后的尺度因子进行熵编码,得到码书序号、尺度因子编码值和无损编码量化谱;对码书序号进行熵编码,得到码书序号编码值。熵编码时,同一大尺度因子带内的量化谱采用同一码表,从而可以节约边带信息的比特占用。
或者是对码字索引进行一维或多维熵编码,得到码字索引的编码值。
上述的熵编码方法可采用现有的Huffman编码、算术编码或游程编码等方法中的任一种。
经过量化和熵编码处理后,得到编码后的音频码流;尺度因子带的组织方式、尺度因子及熵编码模式(如Huffman书序号)作为控制信息传输,将音频码流与控制信息一起进行复用得到压缩音频码流。
当采用上述方法对快速音频信号编码后,在解码时,对码流中的缓变信号还可按照专利申请PCT/CN2004/001034、PCT/CN2005/000440、PCT/CN2005/000441、200410046153及200410046154中的方法,对于快变信号需要按照本发明的快变信号解码方法进行解码。如图5所示,为本发明的快变信号解码方法流程图,该方法包括如下步骤步骤A、根据音频码流控制信息中的尺度因子带组织方式及熵编码方式信息,对音频信号进行熵解码,得到调制域系数的量化值;尺度因子带的组织方式、尺度因子和熵编码模式(如Huffman书序号)作为控制信息传输,在熵解码时,先根据尺度因子带的组织方式和熵编码模式确定熵解码方式,对码流进行熵解码。
步骤B、根据控制信息中的尺度因子带组织方式及尺度因子信息,对调制域系数的量化值进行逆量化,得到逆量化调制域系数;步骤C、对逆量化调制域系数在时频平面进行重组,然后进行调制域-频域映射处理,得到频域系数;当编码端提供多种频域-调制域映射处理方法时,解码端要采用相应的逆映射方法进行处理,可将编码时采用的频域-调制域映射处理方法编码到码流的控制信息中,解码端根据该控制信息选择相应的逆映射方法进行处理,得到频域系数。
先将调制域系数在时频平面按照一定的规则重组,再对调制域系数进行调制域-频域映射,得到频域系数。重组的方法可以包括先将调制域系数在频率方向组织,每个频带中的系数在时间方向组织,然后将组织好的系数按照调制窗、尺度因子带的顺序排列。当采用公式(2)进行频域-调制域映射处理时调制域-频域处理要采用短IMDCT方式,根据如下公式进行xm,n=2Nswin_m(n)Σk=0N2-1V_m(k)cos(2πNs(n+n0)(k+12)),0≤n≤Ns,n0=(N/2+1)/2,Ns=16---(4)]]>式中的各变量定义与公式(2)相同。
步骤D、对频域系数进行频时映射处理,得到时域音频信号。
当编码端提供多种时频映射处理方法时,解码端要采用相应的逆映射方法进行处理,可将编码时采用的时频映射处理方法编码到码流的控制信息中,解码端根据该控制信息选择相应的逆映射方法进行处理,得到时域信号。
当采用公式(1)进行时频映射时,频时映射要采用IMDCT方式,根据如下公式进行x(k)=w(k)2NΣm=0N-1X(m)cos(2k+1+N)(2m+1)π2N,k=0,…,2N-1---(3)]]>式中的各变量定义与公式(1)相同。
由于MDCT的输入序列有50%的重叠(overlap),因此IMDCT的输出序列也有50%重叠,即N个样本。在IMDCT中,相邻输出块的重叠部分进行叠加,以得到时域音频信号。
最后应当说明的是以上实施例仅用以说明本发明的技术方案而非对其限制;尽管参照较佳实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解,依然可以对本发明的具体实施方式
进行修改或者对部分技术特征进行等同替换;而不脱离本发明技术方案的精神,其均应涵盖在本发明请求保护的技术方案范围当中。
权利要求
1.一种快变音频信号的编码方法,其特征在于,该方法包括以下步骤步骤1、对快变音频信号进行时频映射处理,得到该音频信号的频域系数;步骤2、对该频域系数进行频域-调制域映射处理,得到调制域系数;步骤3、根据调制域系数得到调制窗,在每个调制窗内,根据频率顺序组织调制域系数;步骤4、在每个调制窗中,划分尺度因子带;步骤5、对各调制窗的尺度因子带进行重组,形成大尺度因子带;步骤6、对调制域系数进行量化和熵编码,得到编码后的音频码流。
2.根据权利要求1所述的方法,其特征在于,所述步骤1中的时频映射处理为修正离散余弦变换或快速傅里叶变换。
3.根据权利要求1-2任一所述的方法,其特征在于,在所述步骤1和步骤2之间还包括按频率顺序组织所述频域系数。
4.根据权利要求1-3任一所述的方法,其特征在于,所述的频域-调制域映射处理为短修正离散余弦变换或小波变换。
5.根据权利要求1-4任一所述的方法,其特征在于,所述步骤4具体为在每个调制窗中,按照人耳听觉频率分辨率划分尺度因子带。
6.根据权利要求1-5任一所述的方法,其特征在于,所述步骤5具体为将性质相同或相似的尺度因子带合并组织为大尺度因子带。
7.根据权利要求1-6任一所述的方法,其特征在于,所述步骤6中的量化是标量量化,具体包括对所有尺度因子带中的调制域系数进行非线性压扩;再利用每个大尺度因子带的尺度因子对该大尺度因子带包含的各子带的调制域系数进行量化,得到整数表示的量化谱;选择每帧信号中的第一个尺度因子作为公共尺度因子;其它尺度因子与其前一个尺度因子进行差分处理;所述熵编码包括对量化谱和差分处理后的尺度因子进行熵编码,得到码书序号、尺度因子编码值及无损编码量化谱熵编码时,同一大尺度因子带内的量化谱采用同一码表;对码书序号进行熵编码,得到码书序号编码值。
8.根据权利要求1-7任一所述的方法,其特征在于,所述步骤6之后,将尺度因子带的组织方式、尺度因子及熵编码模式信息作为控制信息传输。
9.一种快变音频信号的解码方法,其特征在于,该方法包括以下步骤步骤1、根据音频码流控制信息中的尺度因子带组织方式及熵编码方式信息,对音频信号进行熵解码,得到调制域系数的量化值;步骤2、根据控制信息中的尺度因子带组织方式及尺度因子信息,对调制域系数的量化值进行逆量化,得到逆量化调制域系数;步骤3、对逆量化调制域系数在时频平面进行重组,然后进行调制域-频域映射处理,得到频域系数;步骤4、对频域系数进行频时映射处理,得到时域音频信号。
10.根据权利要求9所述的方法,其特征在于,所述步骤3中的重组具体包括先将调制域系数在频率方向组织,每个频带中的系数在时间方向组织,然后将组织好的系数按照调制窗、尺度因子带的顺序排列。
全文摘要
本发明涉及一种快变音频信号的编码方法,对快变音频信号进行时频映射处理,得到频域系数;对频域系数进行频域-调制域映射处理,得到调制域系数;根据调制域系数得到调制窗,根据频率顺序组织调制域系数;在每个调制窗中划分尺度因子带;对尺度因子带进行重组形成大尺度因子带;对调制域系数量化和熵编码,得到编码后的音频码流。还涉及一种快变音频信号的解码方法,根据音频码流控制信息对音频信号进行熵解码及逆量化;对调制域系数进行重组,进行调制域-频域映射处理及频时映射处理,得到解码后的音频信号。本发明通过充分组织尺度因子带,将性质相同或相似的系数组织在一起编码,可有效提高快变信号的编码效率并可显著提升编解码器的性能。
文档编号G10L19/00GK1819022SQ20061006581
公开日2006年8月16日 申请日期2006年3月23日 优先权日2006年3月23日
发明者潘兴德, 王磊 申请人:北京东方利优科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1