增益量化系统用于改进语音丢包修补质量的方法

文档序号：2837520阅读：352来源：国知局

专利名称：增益量化系统用于改进语音丢包修补质量的方法
技术领域：
本发明属于信号编码领域。具体讲是语音编码领域；尤其是专为改进在语音包传输时丢包后性能的补偿。
背景技术：
传统来讲，所有的参数化语音编码方法常常都是利用语音信号本身的冗余，来减少必须传输的信息量，并估算语音信号短时段内的参数。这种冗余首先起因于语音波形周期性的重复和频谱包络慢变过程。
不同形式语音波形的冗余对应于不同类型的语音信号，如浊声和清声。就浊声语音而言，
语音信号基本上是周期性的；然而，这种周期性在语音段中是变化的，且周期波形在语音段之间缓慢变化。低比特率的语音编码可以很大地受益于这种周期性。浊声周期称为基音周期 (pitch),这种基音周期性预测被命名为长项预测。至于清音，其信号更像一个随机噪声，周期性也较小。
在任何情况下，参数编码通过分割频谱包络和语音段的激励来减少语音段的冗余。频谱包络慢变过程被描述成线性预测(也称作短项预测)。低比特率的语音编码也同样受益于短项预测。这种编码的优点就来自于参数的慢速变化。然而，在几毫秒内这些参数值有很大变化的可能性很小。因此，在8kHz或16kHz采样时，语音编码算法是将10~30毫秒语音段作为一帧。而20毫秒是最常用的帧长。在较近期的知名国际标准中，诸如G723、 G729、 EFR、 AMR, 编码激励线性预测技术(CELP)已经被广泛采用；通常编码激励线性预测技术(CELP)被理解为是编码激励、长项预测和短项预测各技术的综合。利用编码激励线性预测技术(CELP) 的语音编码算法在语音压縮领域已经相当流行。
图1显示CELP初始语音编码器，利用综合分析法，综合语音102和原始语音101之间的加权误差109被减到最小，即最小化113。 W (z)是加权滤波器110。它对误差信号111 进行加权滤波处理。1/B(z)是长项预测滤波器105，1/A(z)是短项预测滤波器，标为103。编码激励108，又被称作固化码本(fixedcodebook)激励，在通过线性滤波器前乘于增益Gc (标为106)。短项预测线性滤波(标为103)通过分析原始信号101完成，并由一个线性预测系数集合表示=乞l + a,. z-' ,, = 1，2，—,i> (1)
加权滤波器(110 )涉及和用到上面的短项预测滤波。一个典型的加权滤波器可表示为
,)==， (2)
其中-<"， 0<"<l，0<a《l。长项预测(105)取决于基音周期和基音周期增益；对基音周期的估计基于原始信号、残留信号或者加权原始信号。长项预测函数可表示为
卿=1 - / -z掘 (3)
编码激励(108 )通常由类似脉冲的信号或类似噪音的信号构成，这些信号可用数学方法实时产生或者存到码本中。最后，将编码激励指数，量化的增益指数，量化的长项预测参数指数和量化的短项预测参数指数传到解码器中。
图2显示初始的语音解码器，在综合语音后添加后处理单元207。解码器由编码激励201、长项预测203、短项预测205、后期处理207等几个单元组成。除后期处理单元，其它都和图1中的编码器定义相同。后期处理单元由短项后期处理和长项后期处理组成。
图3显示基本的CELP编码器。它和图1的唯一不同之处在于用含有过去的综合激励 304的自适应码本307来实现长项预测。语音的基音周期信息用来产生相应的自适应激励分量。这一激励分量将乘于一增益G^ (标为305)(也称作周期增益)。两个由增益控制幅度的激励分量在通过短项预测滤波器(标为303)前被加到一起。这两个增益变量(G^和Ge306) 需量化，然后送到解码器。自适应码本307激励分量和固化码本308激励分量加在一起产生总的激励e 入
图4显示基本的CELP解码器，它完全对应于图3中的编码器，但在综合语音407后添加了后处理单元408。这个解码器除自适应码本外，其它类似于图2。解码器也由几个单元组成，包括编码激励402、自适应码本401、短项预测406和后期处理408。除了后期处理单元，每个单元都和图3中的编码器有相同的定义。
固化码本激励308的产生方式有一个很长历史。编码激励产生的设计受三个主要因素的影响。第一个是感性质量；第二个是计算的复杂性；第三个是所需存储空间的大小。激励的最初模型由随机的噪声激励组成。噪声激励可以产生高质量的清音语音，但浊音语音的质量却不尽人意。另一个流行的激励模型是脉冲激励，像多脉冲激励，其中每个可能脉冲的脉冲位置和幅度都需要编码并发送到解码器。该脉冲激励可以产生高质量的浊音语音。另一种变型的脉冲激励模型(ACELP激励模型或者二元激励模型)在工作时每个脉冲位置指数都需要发送到解码器；但除了需要发送到解码器的幅度符号(+1或-1)夕卜，所有幅度都赋予常数值 1。这是目前最流行的一种激励模型，应用于多个国际标准中。
增益量化系统可分类为标量量化(SQ)和矢量量化(VQ);也可分类为直接量化和非直接量化；还可分为预测量化和非预测量化；更进一步，可以将上述方法相互组合。标量量化(SQ) 意思是每个参数独立量化。矢量量化(VQ)意思是参数组联合量化，这需要参照先期存储的码本表，从参数表中选出最优的矢量量化参数，从而受益于参数间的相关性。直接量化系统是将两个增益(^305和6^306)直接量化。非直接量化是将两个增益参数转化为另一组参数，再将这组参数量化；量化指数要传给解码器；解码器再将这组参数变回到原来形式。预测性量化用以前的量化参数来预测当前的参数，并且仅仅对参数不可预测部分进行量化。这种预测可以减少量化这些参数所需的比特数；但是在传输中有比特流包丢失时会造成错误传播延长。

发明内容
本发明的目的是为了克服上述现有技术中的不足之处，提出一个改进的增益量化系统，它能够在丢包后快速地恢复到正确的激励能量，改进语音丢包后的修补质量，有效地减少错误传播的增益量化系统用于改进语音丢包修补质量的方法。
本发明的增益量化系统用于改进语音丢包修补质量的方法，可以为语音信号或普通信号
编解码，编码系统包含两个激励元或两个激励分量；一个激励元通过增益(标为ft)控制能
量，这一激励元称为自适应码本激励，基音周期激励或者称为由以前综合激励贡献的激励；另一个激励元通过增益(标为《)控制能量，这一激励元称为固化码本激励或者当前贡献的激励；其特征在于两个增益值(G和"。)首先被转化为另两个参数，一个表示全部的激励能量，另一个表示自适应激励的能量部分占全部激励能量的比重；这两个变换后的参数可标为
所述编码系统包含CELP技术。所述激励的总能量可以用激励的平均能量来表示；所述激励的总能量可以用激励的平均能量幅值来表示；所述激励的总能量可以用激励能量的和来表示；所述激励的能量比是指激励元之一的能量相对总能量的比值。所述激励的能量比是指激励元之一的能量幅值相对总能量幅值的比值。所述方法进一步包含以下几步在编码器中量化变换后的参数发送量化指数到解码器；在解码器将量化参数算回到原始增益(G和G)。本发明使用增益量化系统进行改进语音丢包修补质量的方法，主要是先将两个增益(Gp
和GC)转化为两个特殊的参数一个表示全部的激励能量，另一个表示自适应激励的能量部
分占全部激励能量的比值。然后，将转化后的参数量化，送到解码器。在解码端将这两个参
数恢复为原始增益形式(Gp和Gc)。具有能够在丢包后快速地恢复到正确的激励能量，改进
语音丢包后的修补质量，有效地减少错误传播等优点。

图1是初始CELP语音编码器方框图2是初始CELP语音解码器方框图3是基本的CELP编码器方框图4是基本的CELP解码器方框图；图5是一种比特流包丢失示例的示意图。
具体实施例方式
结合附图对本发明作进一步描述如下
以下的描述包括了相关的编码激励线性预测技术CELP的详细信息。同时，熟悉相关技
术的人会发现本方法可以实践于其它各种不同的语音编码技术算法中，而非只局限于本文所讨论的应用。此外，为了突出本发明的特性，本文对一些本技术领域内的一般性知识细节并没有讨论。
本文附图及其附带说明也只是针对本发明的一些举例。为了简明扼要，其它应用本发明的相关方法的实体将不一一详细叙述或给出图示。
图3举了一个能说明本发明的编码器示例。参照图3和图4，对短项预测滤波器303的总激励是由二个分量组成。一个来自于自适应码本307。另一个来自于编码激励108 ;编码激励又被称作固化码本(fixed codebook)激励。长项预测在浊音编码中扮演着重要角色，这是由于浊音的强周期性。同时，相邻的语音基音周期非常相似，这就导致下面表达式中激励的基音周期增益^ 305数值上很高。编码^t励分量无论对浊音还是清音都很重要。组合后的总激励可表达为
上式中& 是以n为取样序数的一个子帧，它从包含过去激励304的自适应码本307 得来；e。 6 J来自于作用于当前激励的编码激励码本308 (又叫固化码本fixed codebook)。对于浊音，e, "J的作用更显著，周期增益《305是一个1附近的值。一般情况下激励每一子帧更新一次。典型的帧长为20毫秒；子帧长为5毫秒。
固化码本激励308的产生方式有一个很长历史。编码激励产生的设计受三个主要因素的影响。第一个是感性质量；第二个是计算的复杂性；第三个是所需存储空间的大小。激励的最初模型由随机的噪声激励组成。噪声激励可以产生高质量的清音语音，但浊音语音的质量却不尽人意。另一个流行的激励模型是脉冲激励，像多脉冲激励，其中每个可能脉冲的脉冲位置和幅度都需要编码并发送到解码器。该脉冲激励可以产生高质量的浊音语音。另一种变型的脉冲激励模型(ACELP激励模型或者二元激励模型)在工作时每个脉冲位置指数都需要发送到解码器；但除了需要发送到解码器的幅度符号(+l或-l)外，所有幅度都赋予常数值 1。这是目前最流行的一种激励模型，应用于多个国际标准中。
增益量化系统可分类为标量量化(SQ)和矢量量化(VQ);也可分类为直接量化和非直接量化；还可分为预测量化和非预测量化；更进一步，可以将上述方法相互组合。标量量化(SQ) 意思是每个参数独立量化。矢量量化(VQ)意思是参数组联合量化，这需要参照先期存储的码本表，从参数表中选出最优的矢量量化参数，从而受益于参数间的相关性。直接量化系统是将两个增益(&305和& 306)直接量化。非直接量化是将两个增益参数转化为另一组参数，再将这组参数量化；量化指数要传给解码器；解码器再将这组参数变回到原来形式。预测性量化用以前的量化参数来预测当前的参数，并且仅仅对参数不可预测部分进行量化。这种预测可以减少量化这些参数所需的比特数；但是在传输中有比特流包丢失时会造成错误传播延长。
本发明将提出一个改进的量化系统，它能够在丢包后快速地恢复到正确的激励能量，有效地减少错误传播。
图3中显示，激励可以表示成(4)式。对于浊音语音，来自于自适应码本的ep 的
作用非常显著，所以，增益G是一个1附近的值，其能量比|^.^(")『/|卜(《)|2相对较高。对
于清音语音，来自于固化码本的& 679作用更显著，其能量比|^.^( )|2/|—( )|2也相对较高。
如果增益(G和是直接量化的，在前一个语音包发生丢失的情况下，尽管当前的包已经正常，当前直接量化增益(G和G)也正确，但当前激励e f"J的能量可能要大大偏离正确值。这是因为当前的自适应激励分量ep "J仍然是前一个丢包后激励的估计。而造成错误能量估计的另一个原因之一是& 6jJ和e。的对应关系在语音包丢失后发生了改变。在发生丢包后，为了快速恢复正确的激励能量和自适应激励的比重，先将两个增益(G和G)转化为两个特殊的参数一个表示全部的激励能量，另一个表示自适应激励的能量部分占全部激励能量的比重。
从等式(4)出发，e 是长为A一s"6的一个子帧激励，其总能量可以用相应的平均能量来表示<formula>formula see original document page 8</formula> (5)
其中，
<formula>formula see original document page 8</formula>
以上各式中a a c的值在增益量化以前已经确定。能量参数也可简单地定义为激励能量的和-
<formula>formula see original document page 8</formula>(6)
第二个转化了的参数表示两个激励元各自所占能量的比重，定义为
<formula>formula see original document page 8</formula> (7)
用方程组K5), (7)}或{(6)， (7)}，原始增益参数{^和《}被转化成另外两个参数{《，及"，
然后被量化并送到解码器。{玄"/^}的量化可基于SQ或VQ，在直接域或dB域量化。(g，及" 量化后，量化指数送到解码器在解码端，由(7)式回算《；由(5)式或(6)式回算6u 由于是变换后的参数(g，及"被量化并送到解码器，在丢包帧后紧跟的正确帧中，分别由参
数店，及"表示的激励能量和激励周期性能得到维持；因此一旦收到正确包后，将迅速恢复正确的激励能量(见图5)和周期性。图5中501为丢失帧；502为丢失帧的后继不丢失帧；正确的激励能量在502帧中迅速恢复正确。
下面是两个转化后参数的量化表示例
{0. 010000， 0. 066667, 0. 133333， 0. 200000， 0. 266667， 0. 333333， 0. 400000, 0. 466667， 0. 533333, 0. 600000， 0. 666667， 0. 733333， 0. 800000， 0. 866667, 0. 933333， 0. 980000};
fe: {0.100000, 0. 309747, 0. 715438， 1. 246790, 1. 942727, 2. 854229, 4. 048066, 5. 611690
,7. 659643,10. 341944, 13. 855080,18. 456401， 24. 482967, 32. 376247, 42. 714448, 56. 254879， 73. 989421, 97. 217189,127. 639694' 167. 485488, 219. 673407, 288. 026391, 377. 551525, 494. 8 06824， 648.381632， 849. 525815， 1112. 973860,1458. 024216,1909. 952975, 2501. 865431， 3277 .121151， 4292. 510210， 5622. 413252, 7364. 250123， 9645. 616199，12633.629177，16547.17099 9,21672. 921696， "..}.
本发明可以有其他具体的不偏离其精髓或本质特征的表现形式。文中所述的实例也只是具有说明性的而非严格限制性的意义。因此，较前面的叙述，后面的附加权利要求更明显地体现了本发明的范围。全部与权利要求的意义等价的变化都包含在这权利要求的范围内。
权利要求
1、一种增益量化系统用于改进语音丢包修补质量的方法，可以为语音信号或普通信号编解码，编码系统包含两个激励元或两个激励分量；一个激励元通过增益(标为Gp)控制能量，这一激励元称为自适应码本激励，基音周期激励或者称为由以前综合激励贡献的激励；另一个激励元通过增益(标为Gc)控制能量，这一激励元称为固化码本激励或者当前贡献的激励；其特征在于两个增益值(Gp和Gc)首先被转化为另两个参数，一个表示全部的激励能量，另一个表示自适应激励的能量部分占全部激励能量的比重；这两个变换后的参数可标为{Rp}。
2、如权利要求l所述的增益量化系统用于改进语音丢包修补质量的方法，其特征在于所述编码系统包含CELP技术。
3、如权利要求1所述的增益量化系统用于改进语音丢包修补质量的方法，其特征在于所述激励的总能量可以用激励的平均能量来表示；
4、如权利要求1所述的增益量化系统用于改进语音丢包修补质量的方法，其特征在于所述激励的总能量可以用激励的平均能量幅值来表示；
5、如权利要求1所述的增益量化系统用于改进语音丢包修补质量的方法，其特征在于所述激励的总能量可以用激励能量的和来表示；
6、如权利要求l所述的增益量化系统用于改进语音丢包修补质量的方法，其特征在于所述激励的能量比是指激励元之一的能量相对总能量的比值。
7、如权利要求1所述的增益量化系统用于改进语音丢包修补质量的方法，其特征在于所述激励的能量比是指激励元之一的能量幅值相对总能量幅值的比值。
8、如权利要求1中所述的增益量化系统用于改进语音丢包修补质量的方法，其特征在于该方法进一步包含以下几步在编码器中量化变换后的参数(g，/ ";发送量化指数到解码器；在解码器将量化参数算回到原始增益(G和G)。
全文摘要
本发明的增益量化系统用于改进语音丢包修补质量的方法，主要是先将两个激励元增益(Gp和Gc)转化为两个特殊的参数一个表示全部的激励能量，另一个表示自适应激励的能量部分占全部激励能量的比值。然后，将转化后的参数量化，送到解码器。在解码端将这两个参数恢复为原始增益形式(Gp和Gc)。具有能够在丢包后快速地恢复到正确的激励能量，改进语音丢包后的修补质量，有效地减少错误传播等优点。
文档编号G10L19/00GK101286320SQ20071019427
公开日2008年10月15日申请日期2007年12月12日优先权日2006年12月26日
发明者扬高申请人:扬高

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：高扬
技术所有人：高扬
我是此专利的发明人

上一篇：双脉冲激励的线性测编码的制作方法
上一篇：基于反模型的置信度估计方法及装置的制作方法