自适应帧选择线谱频率参数量化方法

文档序号：2831328阅读：202来源：国知局

专利名称：自适应帧选择线谱频率参数量化方法
技术领域：
本发明属于低速率语音编码技术领域，特别涉及多帧联合处理低码率参数语音编码技术。
背景技术：
在低速率语音编码方法的研究中，线性预测模型是表示语音信号谱包络很有效的方法。很多中、低速率语音编码方法都基于线性预测模型，CELP(Code Excited LinearPredictive Coding)，WI(Waveform Interpolation)，MELP(Mixed Excitation LinearPrediction)等。其他一些参数编码方法如MBE(Multiband Excitation Coding)，STC(Sinusoidal Transform Coding)为了有效的表示谱包络也引入了线性预测模型。这些语音编码方法中谱包络参数的量化编码占有较多的比特数，并且谱包络参数的精细量化是产生高质量语音的基础。用线谱频率(LSF)参数表示谱包络有利于参数的量化，在语音的参数编码方法中多采用LSF参数表示谱包络。比特率越低，为了更加有效的表示语音的谱参数，采用多帧联合矩阵量化。传统量化方法如

图1所示，该方法包含以下步骤。
(1)对输入语音信号样点按时间顺序分帧，将连续的N子帧组成一个超帧，N为正整数；(2)对当前超帧中的每一子帧提取声道A参数；(3)将当前超帧中的每一子帧声道A参数转换成LSF参数；(4)N子帧LSF参数利用多级矩阵量化方法进行量化，得到LSF参数的量化标号；(5)在解码端得到量化后的N子帧LSF参数；(6)将当前超帧量化后的LSF参数转换成声道A参数，得到量化后的声道A参数。
为了提高语音编码的效率，Viswanathan等提出了一种变帧率传输谱包络参数的方法，量化LAR(Log Area Ratios)参数的平均帧率为27帧/秒，语音质量和每秒100帧固定帧率时相同。同时还指出谱包络参数的理论最小平均传输帧率为每秒24帧。这是自适应帧选择线谱频率参数量化(AFS-MQ)方法的理论基础。该方法应用于甚低速率语音编码方法有两个问题需要考虑，其一是对单帧谱包络参数量化，所需要的比特数仍然较多。另外由于语音信号的音节特性，得到的是变速率编码数据，转到固定速率需要较大延时。George提出了固定速率AFS方法，在较低延时情况下得到了较好的语音质量。但这种方法的平均帧率较高，仍然对单帧语音参数进行量化，所需要的编码比特率较高，对于甚低速率语音编码不能直接应用。

发明内容
本发明的目的是为了解决在极低比特率下高效率量化线谱频率(LSF)参数问题，提出一种自适应帧选择线谱频率参数量化方法，可在300bit/s量化LSF参数时，存储量是传统多级矩阵量化的一半，但谱失真更小。
本发明提出的自适应帧选择线谱频率(LSF)参数量化的方法，包含以下步骤(1)对输入语音信号样点按时间顺序分帧，将连续的N个子帧组成一个超帧，N为正整数；(2)对当前超帧中的每一子帧提取声道A参数；(3)将当前超帧中的每一子帧声道A参数转换成LSF参数；(4)从当前超帧N子帧LSF参数按最优准则选择M个子帧作为直接量化帧用于矩阵量化，其中M为正整数，且M＜N。并对这M个子帧的位置信息进行编码；(5)该M个直接量化帧利用多级矩阵量化方法进行量化，得到LSF参数的量化标号；(6)在解码端得到量化后M个子帧的LSF参数；(7)当前超帧中除去M个直接量化帧外其余未量化子帧的LSF参数由相邻的直接量化帧插值得到；(8)将当前超帧量化后的每个子帧LSF参数转换成声道A参数，得到量化后的声道A参数。
上述步骤(4)中以M个直接量化帧插值后得到的当前超帧N子帧LSF参数和原始提取参数距离最小作为最优准则，自适应选择M子帧作为直接量化帧进行矩阵量化。并对这M个子帧的位置信息进行编码。一般在一个音节内的参数变化较缓慢，而音节间的参数变化剧烈；选择M帧直接量化帧是为了在一个音节内参数变化缓慢的帧可以应用线性插值得到，而音节间参数变化剧烈的部分直接量化传输。
上述步骤(5)中多级矩阵量化方法，该方法对传统的多级矩阵方法进行了扩展，M直接量化帧LSF参数码本中的码字用来插值得到量化后的N子帧LSF参数，插值过程利用前一超帧最后子帧和第一个直接量化帧的LSF参数对第一个直接量化帧前面几帧LSF参数进行插值。本发明采用对M帧LSF参数码本插值计算得到N帧参数的码本，对提取得到的LSF参数矢量去除前一超级帧预测影响后再进行搜索的方法。这里对LSF参数的多级矩阵量化方法进行扩展，消除了前面预测帧的影响，考虑全部N帧LSF参数量化前后的距离。
本发明的特点及技术效果本发明结合自适应帧选择方法和矩阵量化给出了一种适用于甚低速率语音编码的LSF参数量化方法。LSF参数的变化趋势可以由稳定的部分和变化剧烈部分组成。在稳定部分，连续帧的LSF参数随时间呈线性变化，并且10个LSF系数的变化趋势相似。在变化部分LSF参数变化较剧烈。可以将LSF参数逐段分割，对于线性变化的帧只需要传输开始和结束点的LSF参数值，其余中间帧的LSF系数由线性插值得到；对于变化剧烈部分则需要直接量化每一子帧的参数。
本发明LSF参数量化方法利用语音信号相邻帧之间的相关性及语音的音节特性，从N帧中选择M(M＜N)帧进行矩阵量化，其余帧利用相邻直接量化帧线性插值得到。同时，提出了一种新的分级矩阵量化方法，改善了量化性能。经过实验测试比较，在应用300bit/s量化LSF时，采用AFS-MQ方法比直接矩阵量化(MQ)改善了谱失真性能，同时存储量减少了1/2。所以该方法对极低速率语音编码具有很大的实用价值。
具体实施例方式
本发明提出的LSF参数的自适应帧选择矩阵量化(AFS-MQ)方法结合附图及实施例进一步说明如下本发明的方法流程如图2所示，包括以下步骤(1)对输入语音信号样点按时间顺序分帧，将连续的N个子帧组成一个超帧，N为正整数；(2)对当前超帧中的每一子帧提取声道A参数；(3)将当前超帧中的每一子帧声道A参数转换成LSF参数；(4)从当前超帧N子帧LSF参数按最优准则选择M个子帧作为直接量化帧用于矩阵量化，其中M为正整数，且M＜N；并对这M个子帧的位置信息进行编码；(5)该M个直接量化帧利用多级矩阵量化方法进行量化，得到LSF参数的量化标号；(6)在解码端得到量化后M个子帧的LSF参数；(7)当前超帧中除去M个直接量化帧外其余未量化子帧的LSF参数由相邻的直接量化帧插值得到；(8)将当前超帧量化后的每个子帧LSF参数转换成声道A参数，得到量化后的声道A参数。
本发明上述方法各步骤的具体实施例分别详细说明如下上述方法步骤(1)对输入语音信号样点按时间顺序分帧，将连续的若干帧组成一个超帧的实施例是按8khz频率采样、已经过高通滤波去除工频干扰的语音样点。每20ms，也就是160个语音样点构成一帧，连续6帧组成一个超帧。
上述方法步骤(2)的实施例为按通常的方法对当前超帧中的每一帧都提取10阶声道A参数an＝[a1n，a2n，…，a10n](n＝1，2，…，6)。
上述方法步骤(3)的实施例为按通常的方法将当前超帧中的每一帧声道A参数转换成LSF参数fn＝[f1n，f2n，…，f10n]，(n＝1，2，…，6)。
上述方法步骤(4)的实施例为从当前超帧N帧LSF参数按最优准则选择M(M＜N)帧用于矩阵量化，具体包括以下步骤首先由所有可能被选择作为M个直接量化帧LSF参数插值得到相应的N子帧LSF参数；接着以插值得到的N子帧LSF参数和提取得到的N子帧LSF参数的距离最小作为准则，得到的直接量化帧标号。
首先介绍由M帧直接量化的LSF参数插值得到N子帧参数的过程。第一个直接量化帧前面子帧的参数利用前一超帧最后直接量化帧的LSF参数和本超帧第一个直接量化帧的LSF参数插值得到。其余未传输帧，由相邻两个直接量化帧插值得到。设M＝3，第一个直接量化的子帧为n1，第二个子帧为n2，第三个子帧为n3，插值公式为下式

f-1表示前一超帧最后一直接量化帧的LSF系数矢量，fn1，fn2，fn3、分别表示当前超帧直接量化帧的LSF矢量。
接着介绍得到直接量化帧标号的过程。为了减小延时，本发明采用了简化处理方法，即每一超帧的最后一子帧总是量化传输。现在要选择其余的M-1帧，使下面的距离测度最小。
D(F,F^)=Σn=0N-1ωnd(fn,f^n)---(2)]]>其中F＝{f0，f1，…，fN-1}表示从N帧语音中提取得到的LSF参数矩阵，fn表示第n子帧LSF矢量。F^={f^0,f^1,···,f^N-1}]]>表示插值和直接量化帧共同组成的LSF参数矩阵，

是插值计算后第n子帧LSF矢量，该矢量由式(1)求得。ωn表示对每一帧插值误差的加权系数，需要满足Σn=0N-1ωn=N.]]>为了运算简单假设每一帧具有相同的权重，ωn＝1。d(fn,f^n)]]>表示每一子帧的LSF系数插值计算前后的距离，表示为d(fnf^n)=Σi=110[win(fin-f^in)]2---(3)]]>

对M＝3直接量化帧的位置信息采用4比特编码，码表由表1给出表1

上述方法步骤(5)的实施例为得到的M个直接量化帧利用多级矩阵量化方法进行量化，得到LSF参数的量化标号。是利用M个直接量化帧LSF参数的码本量化超帧中N子帧LSF参数的方法。该方法对传统的多级矩阵方法进行了扩展，M直接量化帧LSF参数码本中的码字用来插值得到量化后的N子帧LSF参数，线性插值过程利用前一超帧最后子帧和第一个直接量化帧的LSF参数对第一个直接量化帧前面几帧LSF参数进行插值。本实施例采用对M帧LSF参数码本插值计算得到N帧参数的码本，对提取得到的LSF参数矢量去除前一超级帧预测影响后再进行搜索的方法。本方法对LSF参数的多级矩阵量化方法进行扩展，消除了前面预测帧的影响，考虑全部N帧LSF参数量化前后的距离。本实施例的扩展多级矩阵量化方法具体步骤如下(a)为了去除前一超帧预测参数的影响，在提取得到的LSF系数中减去前一超帧预测部分；计算如下式fn=fn-n1-nn1+1*f~-1,n<n1---(5)]]>

表示前一超帧最后一直接量化帧量化后的LSF参数；(b)根据得到的直接量化帧序号，利用码本中每一个码字矢量插值得到N帧LSF参数，相当于从包含M帧LSF参数码本得到包含N帧的码本；假设码本包含有K个码字C={Ck}k=0K-1;]]>第k个码字Ck={c0k,c1k,···,cM-1k},]]>其中cmk表示第k码字Ck第m子帧LSF系数的列矢量；把码字变换到包含N帧LSF参数矢量的新码字，使用类似(1)式的插值公式，只有n＜n1时不相同，其他部分和(1)式相同；因为(a)去除了前一超帧的影响，这里不考虑前一超帧的预测；当n＜n1有c^nk=(1-n1-nn1+1)*c1k,n<n1---(6)]]>

表示经过变换后得到新码本的第k个码字的第n子帧的LSF系数；得到新码本的第k个码字可以写成C^k={c^0k,c^1k,···,c^N-1k};]]>需要说明的是上述变换对于多级矩阵量化的每一级码本都要进行(c)利用去除前一超级帧影响的LSF矩阵F，在变换得到的码本C^={C^k}k=0K-1]]>上，应用(2)式定义的测度进行通常意义下的多级矩阵量化；得到最佳路径的每一级码字标号；(d)本发明的方法每一超帧直接量化帧是变化的，需要编码传送直接量化帧的信息，在本实施例中采用4比特对直接量化帧的信息编码。
上述方法步骤(6)的实施例为按通常的方法根据编码传输的码字利用查表的方法可以得到直接量化帧的LSF参数和直接量化帧的标号。
上述方法步骤(7)的实施例为根据得到的直接量化帧的标号及得到的直接量化帧的LSF参数值利用线性插值方法得到未量化的N-M帧LSF参数。
上述方法步骤(8)的实施例为按通常的方法将量化后的线谱对参数转换成声道A参数，即得到量化后的声道A参数。
上述的LSF参数的码本训练方法是将语音数据库的每一超帧被选择M帧用于直接量化的LSF参数输出，用于训练码本。为了减少运算量和存储量，采用分级矢量量化，码本训练用模拟退火方法，采用(2)式给出的距离测度。
权利要求
1.一种自适应帧选择线谱频率(LSF)参数量化的方法，其特征在于，该方法包括以下步骤(1)对输入语音信号样点按时间顺序分帧，将连续的N个子帧组成一个超帧，N为正整数；(2)对当前超帧中的每一子帧提取声道A参数；(3)将当前超帧中的每一子帧声道A参数转换成LSF参数；(4)从当前超帧的N子帧LSF参数按最优准则选择M个子帧作为直接量化帧用于矩阵量化，其中M为正整数，且M＜N，并对该M个子帧的位置信息进行编码；(5)该M个直接量化帧利用多级矩阵量化方法进行量化，得到LSF参数的量化标号；(6)在解码端得到量化后M个子帧的LSF参数；(7)当前超帧中除去M个直接量化帧外其余未量化子帧的LSF参数由相邻的直接量化帧插值得到；(8)将当前超帧量化后的每个子帧LSF参数转换成声道A参数，得到量化后的声道A参数。
2.按权利要求1所述的方法，其特征在于，所述步骤(4)中以M个直接量化帧插值后得到的当前超帧N子帧LSF参数和原始提取参数距离最小作为最优准则，自适应选择M个子帧作为直接量化帧进行矩阵量化。
3.按权利要求1所述的方法，其特征在于，所述步骤(5)中多级矩阵量化方法是采用M个直接量化帧LSF参数的码本量化超帧中N子帧LSF参数的方法。
4.按权利要求1所述的方法，其特征在于，所述步骤(7)中当前超帧中除去M个直接量化帧外其余未量化子帧的LSF参数的量化值采用与它前后相邻最近的两个直接量化帧量化后的LSF参数用线性插值或非线性插值得到。
全文摘要
本发明涉及超帧声道参数量化方法，属于低速率语音压缩编码技术领域。该方法先对输入语音信号样点按时间顺序分帧，将连续的N子帧组成一个超帧；对当前超帧中的每一帧提取声道A参数，再转换成LSF参数，从N子帧组成的超帧中选择M子帧作为直接量化帧；将M子帧LSF参数用多级矩阵量化方法进行量化；利用量化后直接量化帧的LSF参数插值得到当前超帧中除去M个直接量化帧外其余未量化子帧的LSF参数；将量化后的线谱频率参数转换成声道A参数。本发明方法可以提高声道参数的量化精度，同时自适应帧选择矩阵量化的存储量减小为普通矩阵量化方法的一半。能有效的解决矩阵量化存储量的问题，适用于300～600bps甚低速率语音编码。
文档编号G10L19/00GK1622198SQ20041010356
公开日2005年6月1日申请日期2004年12月31日优先权日2004年12月31日
发明者赵永刚, 崔慧娟, 唐昆申请人:清华大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵永刚;崔慧娟;唐昆
技术所有人：清华大学
我是此专利的发明人

上一篇：一种无线终端语音处理的方法及装置的制作方法
上一篇：具有琴皮的胡琴的制作方法