用于对语音信号lpc系数进行多级矢量量化的方法和系统的制作方法

文档序号:2833281阅读:329来源:国知局
专利名称:用于对语音信号lpc系数进行多级矢量量化的方法和系统的制作方法
技术领域
本发明涉及语音编码领域,更具体地,本发明涉及基于线性预测编码(LPC)类的语音编码技术。
背景技术
在语音编码压缩中,通常用LPC系数表征语音的短时谱包络,对其高效量化是语音编码中一个关键性问题。由于LPC系数的动态范围比较大,出于合成滤波器稳定性和量化效率的考虑,LPC系数通常被转换为在数学上完全等价的其它形式的参数后再量化,通常的表示形式为导抗谱频率系数(ISF)或线谱频率参数(LSF)。LSF作为LPC系数的一种频域参数,由于其具有更好的量化和插值特性,语音编码端常将LPC系数转换为LSF系数,然后再将LSF系数进行量化,语音解码端进行逆量化得到量化后的LSF参数,并将LSF参数再转换为LPC系数,因此LSF在基于LPC语音编码中得到了广泛的应用。
由于矢量量化在相同的编码比特数下能获得比标量量化更低的量化失真,因此对LSF系数量化的研究主要集中在矢量量化上,参见Gardner W R等人发表于IEEE Transactions on Speech and Audio Processing, 1995. 3 (5) :367 381 的论文 Theoretical analysis of the high-rate vector quantization of LPC parameters。目前LPCi吾音编码中的矢量量化技术主要存在以下缺陷第一,将高维LSF系数作为一个矢量进行整体量化的方法并不可行,其存在存储量大、搜索运算复杂、难以实现的问题。第二,对于其他次优矢量量化算法一般都基于LBG等聚类训练算法得到矢量量化器,虽然适合对任何概率分布的源信号进行高效量化,但其需要大量的存储空间存储矢量码本(一般随量化比特数和矢量的维数成指数增长),运算复杂度高、存储空间大。常见的次优矢量量化算法例如多级矢量量化(可参见 LeBlance W P 等人发表于 IEEE Transactions on Speech and Audio Processing, 1993.1 (4) : 373 385 的论文 Efficient search and design procedures for robust mult1-stage VQ of LPC parameters for4Kb/s speech coding.和周高洪等人发表于电子技术应用,2005. 6:4扩51的论文一种增强的LPC参数多级矢量量化技术)、分裂矢量量化(了参见 Paliwal K. K 等人发表于 IEEE Transactions on Speech and Audio Processing, 1993.1 (I) : 3 14 的论文Efficient vector quantization of LPC parameters at24bit/frame和李靓等人发表于北京工业大学学报,2005. 3,Vol. 31,No2:130^135的论文一种高效、低存储的线谱频率参数矢量量化器件)等。
2003年Subramaniam提出的基于GMM模型的线谱频率(LSF)参数量化算法 (具体可见 Subramaniam A. D 和 Rao B. D.发表于 IEEE Transactions on Speech and Audio Processing, 2003. 11 (2):130 142 的论文 PDF optimized parametric vector quantization of speech line spectral frequencies),其基本思想是利用高斯混合模型将输入的LSF矢量分成属于不同高斯分布的M个聚类,然后针对每个高斯聚类设计量化器实现对该高斯聚类信号的量化。但是,这种算法是基于标量量化器的,从理论上来说标量量化在相同的比特数的情况下,其量化性能是次于矢量量化的,而且其量化算法需要将输入的矢量通过KLT (Karhunen-Leove变换)转换为标准正态分布,随着输入矢量的维数增加, 其变换的运算复杂度将急剧增加。发明内容
本发明要解决的技术问题在于,针对现有技术的量化性能低、运算复杂度高、存储空间大等问题中的至少一些缺陷,提供以下技术方案。
根据本发明的第一方面,提供了用于对语音信号LPC系数进行多级矢量量化的方法,其包括通过等效变换,将LPC系数转换为一等价表达,并对该等价表达进行第一级矢量量化,得到相应的第一级量化索引和第一级量化残差;基于GMM模型,对第一级量化残差进行模型聚类分割,得到相应的GMM聚类索引;基于GMM聚类索引,对第一级量化残差进行第二级矢量量化,得到相应的第二级矢量索引;以及将经历进一步编码处理的第一级量化索引、GMM聚类索引、及第二级矢量索引传到解码端。
在一个优选实施例中,LPC系数的等价表达可以是LSF或者ISF系数中的一种。进一步地,第一级矢量量化可选自多级矢量量化、分裂矢量量化或混合矢量量化其中一种。优选地,第一级矢量量化进一步包含两次矢量量化,第一次矢量量化采用随机矢量码本对信号进行矢量量化,第二次矢量量化将第一次矢量量化的残差分裂为N维矢量,然后按照第一次矢量量化的量化方式处理N维矢量,得到第一级量化索引和第一级量化残差。
在一个优选实施例中,在模型聚类分割中,将第一级量化残差进行高斯格型量化, 得到针对GMM模型各种情况的多个格矢量,以及基于GMM模型及多个格矢量,将第一级量化残差聚类分割到某一 GMM聚类,并确定GMM聚类索引。进一步地,第一级量化残差聚类分割的方法包括全局搜索法。优选地,高斯格型量化包括归一化的步骤,并且归一化后的矢量量化为RE8、Z8、Z16、D8、D16格矢量中的一种。
在一个优选实施例中,所述高斯格型量化还包括归一化的步骤,通过下式实现所述归一化_ χ-μ;[麵]y=7T
其中X为高斯模型的输入矢量,Ui为第i个高斯模型的均值矢量,^为第1个高斯模型的方差矢量。
在优选实施例中,对第一级量化残差进行模型聚类分割的方法可选自全局搜索法、矢量量化法或后验概率计算法中的一种。
根据本发明的第二方面,提供了用于对语音信号LPC系数进行多级矢量量化的系统,其包括等效变换器,其将LPC系数转换为一等价表达;耦合到等价变换器的第一级矢量量化器,其接收等价表达并对等价表达进行第一级矢量量化,得到相应的第一级量化索引和第一级量化残差;耦合到第一级矢量量化器的GMM模型聚类分割器,其基于GMM模型对第一级量化残差进行模型聚类分割,得到相应的GMM聚类索引;耦合到GMM模型聚类分割器的第二级矢量量化器,其基于GMM聚类索引,对第一级量化残差进行第二级矢量量化,得到相应的第二级矢量索引;以及发送器,将经历进一步编码处理的第一级量化索引、GMM聚类索引、及第二级矢量索引传到解码端。
在一个优选实施例中,LPC系数可以是LSF或ISF系数中的一种。进一步地,第一级矢量量化器可选自多级矢量量化器、分裂矢量量化器、混合矢量量化器中的其中一种。优选地,第一级矢量量化进一步包括两次矢量量化,第一次矢量量化采用随机矢量码本对信号进行矢量量化,第二次矢量量化将第一次矢量量化的残差分裂为N维矢量,然后按照第一次矢量量化的量化方式处理N维矢量,得到第一级量化索引和第一级量化残差。
在一个优选实施例中,运用高斯格型量化器,对第一级量化残差进行高斯格型量化,得到针对GMM模型各种情况的多个格矢量;以及耦合到高斯格型量化器的GMM模型聚类器,其基于GMM模型及多个格矢量,将第一级量化残差聚类分割到某一 GMM聚类,并确定GMM 聚类索引。进一步地,GMM模型聚类分割器使用全局搜索法进行聚类分割。优选地,高斯格型量化包括归一化的步骤,并且归一化后的矢量量化为RE8、Z8、Z16、D8、D16格矢量中的一种。
在一个优选实施例中,所述高斯格型量化器进行的高斯格型量化还包括归一化的步骤,并通过下式实现所述归一化_ χ-μ;_7] y=~K
其中X为高斯模型的输入矢量,μ ,为第i个高斯模型的均值矢量,V i为第i个高斯模型的方差矢量。
在优选实施例中,GMM模型聚类分割器进行模型聚类分割的方法可选自全局搜索法、矢量量化法或后验概率计算法中的一种。
根据本发明的第三方面,提供了用于解码语音信号LPC系数的方法,其包括接收编码码流,并解码其中包含的第一级量化索引、GMM聚类索引、及第二级矢量索引;基于对第二级矢量索引进行逆量化获得的第二级矢量以及基于GMM聚类索引所指定的GMM模型参数,重构第一级量化残差;基于第一级矢量索引及重构的第一级量化残差,恢复LPC系数的一等价表达;以及基于等价表达,通过等价转换得到LPC系数。
在一个优选实施例中,LPC系数的等价表达可以是LSF或者ISF系数中的一种。进一步地,第二级矢量索引进 行的逆量化是高斯格型矢量量化的逆量化,并且GMM模型参数包括高斯模型的均值矢量和高斯模型的方差矢量。
优选地,第一级矢量索引可能获得自以下量化方法中的一种多级矢量量化、分裂矢量量化、混合矢量量化。
根据本发明的第四方面,提供了用于解码语言信号LPC系数的系统,其包括接收器,其接收编码码流;耦合到接收器的解码器,其解码编码码流中包含的第一级量化索引、 GMM聚类索引、及第二级矢量索引;耦合到解码器的第二级矢量逆量化器,其基于对第二级矢量索引进行逆量化获得的第二级矢量,并基于GMM聚类索引所指定的GMM模型参数,重构第一级量化残差;转换器,其将第一级量化索引及重构的第一级量化残差所得的等价表达转换为LPC系数。
在一个优选实施例中,LPC系数的等价表达可以是LSF或ISF系数中的一种。进一步地,第二级矢量索引进行的逆量化是高斯格型矢量量化的逆量化,并且GMM模型参数包括高斯模型的均值矢量和高斯模型的方差矢量。
优选地,第一级矢量索引可能获得自以下量化方法中的一种多级矢量量化、分裂矢量量化、混合矢量量化。
相比于前文所述Subramaniam最早提出的基于GMM模型的LSF算法,本发明具有低运算复杂度的优点。根据本发明的一个实施例,算法的运算复杂度可降低约40%。此外, 本发明实施例在平均比特数相当时,其谱失真较现有基于VQ的LSF量化算法小,因而具有较高的量化性能。另外,本发明实施例还具有实现变比特率量化的优点,即可以根据LSF参数的特性,自适应调整量化比特数。
本领域技术人员应该意识到,前述概括仅仅是为了提供本发明的特定方面的简单描述。通过结合附图并参照权利要求和以下优选实施例的详细描述,能够获得对本发明的更完全的理解


下面将结合附图及实施例对本发明作进一步说明,附图中
图1a示出了根据本发明一个实施例的编解码原理框图1b示出了根据本发明一个实施例的量化器;
图2示出了根据本发明一个实施例的量化过程;
图3示出了根据本发明一个实施例的逆量化过程。
具体实施方式
为了叙述简洁,本发明实施例可能省略对本领域技术人员所公知的内容,例如语音信号LPC编码的原理、各种公知的矢量量化方法、LPC系数到LSF系数的转化方法等。
简而言之,在根据本发明的一个本优选实施例中,对语音信号LPC系数的某种等价表示(例如,LSF系数)进行量化的示意性系统包括随机矢量量化模块30、GMM模型分类模块31-34、及GMM格型矢量量化模块35这三个主要部分;其逆量化系统为量化系统的逆系统, 主要包括GMM模型参数提供模块37、GMM格型矢量量化解码模块38、及随机矢量量化解码模块39。图1 (a)示意性示出了上述量化系统和逆量化系统的框图。
具体来说,根据本发明的一个实施例,在量化端,首先从随机矢量量化模块30的输入端输入LSF系数,并随后在随机矢量量化模块30中采用随机矢量码本对LSF系数进行矢量量化(获得了索引I和残差X),以去除输入信号的冗余和相关,从而使得从随机矢量量化模块30输出的、经受了矢量量化的残差信号X的动态变化范围降低。
考虑到所得残差信号X大致服从高斯分布,因此在随后的GMM模型分类模块31 — 34中采用各种GMM模型将量化残差X分配到不同高斯分布的m个聚类(m优选为4、5、6、7、8个);然后针对每个高斯聚类殳卜;^使用高斯格型矢量量化器进行量化(将在下文更详细地描述),并结合模块35,确定使量化失真最小的那个高斯模型,即在文卜^^中搜索,找出与残差信号X最接近那个聚类的GMM索引J及相应的高斯格型矢量量化索引K。最后,将索引I、GMM索引J和高斯格型矢量量化索引K编码后发送。
与之相对地,根据本发明的一个实施例,在逆量化端,在高斯混合模型参数提供模块37和高斯格型矢量量化器模块38接收并解码得到GMM索引J和高斯格型矢量量化索引K,并基于解码的J和K重构量化残差&;在随机矢量量化解码模块39中,基于接收和解码得到的索引I及重构的量化残差i恢复/iF氣· IO
在图1 (b)中,详细示出了 GMM模型分类模块31 — 34的量化过程。具体而言,令输入矢量为X,首先减去第i个高斯聚类的值μ i,即X-μ i,将得到的残差X-μ i除以第i个高斯聚类的方差Vi,得到归一化的值,在高斯格型矢量量化器模块40中,对归一化的值进行高斯格型矢量量化,接下来,在高斯格型矢量逆量化器模块41中,对高斯格型矢量量化值进行逆量化得到重建的归一化量化值,将重建的归一化量化值乘以第i个高斯聚类的方差Vi,再加上第i个高斯聚类的均值μ i,得到重建矢量;X ,
在图2中,详细描述了本发明的一个更具体的实现过程。假定第一级随机矢量量化码本有M1个码字,第二级的随机矢量量化码本y21和y22分别有M21和M22个码字,输入的LSF矢量为16维。两级矢量量化方法的量化步骤如下
在步骤50中,对一个给定的输入的矢量LSF,计算LSF相对于码本中的每一个码字的量化误差ei= Il LSF-Y1,, Il 2,选择使量化误差ei最小的码字yu作为第一级随机矢量量化码字,记录码字yu的索引I1,然后计算第一级的量化残差Res^LSF-yu。其中,第一级采用随机矢量量化可以是任何已知的矢量量化,如多级矢量量化、分裂矢量量化,或者是混合矢量量化。
接下来,在步骤51中,把Res1分裂为两个8维矢量Res21和Res22,然后按照步骤50 的方法,基于随机矢量量化码本y21和Y22分别对Res21和Res22进行随机矢量量化,然后分别在步骤52和步骤55计算第二级的量化残差Res31和Res32, Res31=Res21I2ui, Res32=Res22_y22, i,以及y2i,i和!22Λ的索引I2I和
将步骤52和步骤55得到的两组残差序列Res31和Res32进行高斯混合模型归一化处理,归一化处理的方法如下 X-μ,.
其中X为高斯模型的输入矢量,μ ,为第i个高斯模型的均值矢量,V i为第i个高斯模型的方差矢量,将归一化后的矢量I量化成RE8格矢量C,其中c = RE8 (x)。其中, 对归一化后的矢量I的量化方法不仅可以采用RE8格型矢量量化,还可以采用其他的格型矢量量化,如Z8, Z16, D8, D16等。
确定j、k,使得 ReS31 -Py-C ^ 和|!ReS32 -μ4 — ct^ 最小。在确定了 j、k 和格矢量h和Ck后,计算格矢量和Ck的索引I31和I32以及各自对应的GMM模型索引G1和
将索引I1, I21, I22, I31, I32,以及G1和G2编码后传到解码端。
相对上述两级矢量量化方法的逆量化框图如图3所示,具体实施步骤如下
首先,在步骤60和63中,解码索引I31和I32,然后通过高斯格型矢量逆量化得到 RE8格矢量&和Ck。
接下来,在步骤61和64中,解码索引G1和G2,得到GMM模型参数μ和V,然后再重构得到差序列和Ri,S31,其中Rh31 = μ_,·JRes32 =Ht -°
然后,在步骤62和65中,解码索引I21和I22,得到随机矢量量化y21,i和y22,i,然后计算得到两个 8 维矢量RlS21^PReS22,其中RS^21 = Ris31 + v2U ,ReS22 = Ris32 + V22,。
最后,在步骤66中,将两个8维矢量Rh21和RSS22合并得到一个16维矢量Ris1,解码索引I1得到yu,然后重构得到量化的LSF系数/j/.· LSF = Rhsl +Vu。
需要说明的是,本发明不局限于对LSF系数量化,也可以对ISF系数进行量化,而且不仅可 以适合窄带语音编码中LPC系数的量化,还适合宽带和超宽带语音编码中LPC系数的量化,具有广泛的实用性。
权利要求
1.ー种用于对语音信号LPC系数进行多级矢量量化的方法,包括 a通过等效变换,将所述LPC系数转换为等价表达,并对所述等价表达进行第一级矢量量化,得到相应的第一级量化索引和第一级量化残差; b基于GMM模型对所述第一级量化残差进行第二级矢量量化,得到相应的第二级矢量索引;以及 c将经历进ー步编码处理的所述第一级量化索引、GMM聚类索引、及第ニ级矢量索引传到解码端。
2.根据权利要求I所述的方法,其特征在于,所述步骤(a)中的所述第一级矢量量化进一歩包含两次矢量量化,第一次矢量量化采用随机矢量码本对信号进行矢量量化,第二次矢量量化将所述第一次矢量量化的残差分裂为N维矢量,然后按照所述第一次矢量量化的量化方式处理所述N维矢量,得到所述第一级量化索引和所述第一级量化残差。
3.根据权利要求I所述的方法,其特征在于,所述步骤(b)进ー步包括 b. I对所述第一级量化残差进行高斯格型量化,得到针对GMM模型各种情况的多个格矢量;以及 b. 2基于所述GMM模型及所述多个格矢量,将所述第一级量化残差聚类分割到某一 GMM聚类,并确定所述GMM聚类索引。
4.根据权利要求3所述的方法,其特征在于,所述高斯格型量化还包括归ー化的步骤,通过下式实现所述归ー化 χ-μ ■sh 其中X为高斯模型的输入矢量,μ i为第i个高斯模型的均值矢量,V i为第i个高斯模型的方差矢量。
5.ー种用于对语音信号LPC系数进行多级矢量量化的系统,包括 等效变换器,用于将所述LPC系数转换为一等价表达; 耦合到所述等价变换器的第一级矢量量化器,用于接收所述等价表达并对所述等价表达进行第一级矢量量化,得到相应的第一级量化索引和第一级量化残差; 耦合到所述第一级矢量量化器的GMM模型聚类分割器,用于基于GMM模型对所述第一级量化残差进行模型聚类分割,得到相应的GMM聚类索引; 耦合到所述GMM模型聚类分割器的第二级矢量量化器,用于基于所述GMM聚类索引,对所述第一级量化残差进行第二级矢量量化,得到相应的第二级矢量索引;以及 发送器,用于将经历进ー步编码处理的所述第一级量化索引、GMM聚类索引、及第ニ级矢量索引传到解码端。
6.根据权利要求5所述的系统,其特征在于,所述第一级矢量量化进ー步包括两次矢量量化,第一次矢量量化采用随机矢量码本对信号进行矢量量化,第二次矢量量化将所述第一次矢量量化的残差分裂为N维矢量,然后按照所述第一次矢量量化的量化方式处理所述N维矢量,得到所述第一级量化索引和所述第一级量化残差。
7.根据权利要求5所述的系统,其特征在于,所述GMM模型聚类分割器进ー步包括 高斯格型量化器,用于对所述第一级量化残差进行高斯格型量化,得到针对GMM模型各种情况的多个格矢量;以及耦合到所述高斯格型量化器的GMM模型聚类器,用于基于所述GMM模型及所述多个格矢量,将所述第一级量化残差聚类分割到某一 GMM聚类,并确定所述GMM聚类索引。
8.根据权利要求7所述的系统,其特征在于,所述高斯格型量化器进行的高斯格型量化还包括归ー化的步骤,并通过下式实现所述归ー化
9.一种用于解码语音信号LPC系数的方法,包括 d接收编码码流,并解码其中包含的第一级量化索引、GMM聚类索引、及第ニ级矢量索弓I ; e基于对所述第二级矢量索引进行逆量化获得的第二级矢量以及基于所述GMM聚类索引所指定的GMM模型參数,重构第一级量化残差; f基于所述第一级矢量索引及重构的第一级量化残差,恢复所述LPC系数的一等价表达;以及 g基于所述等价表达,通过等价转换得到所述LPC系数。
10.一种用于解码语音信号LPC系数的系统,包括 接收器,用于接收编码码流; 耦合到所述接收器的解码器,用于解码所述编码码流中包含的第一级量化索引、GMM聚类索引、及第ニ级矢量索引; 耦合到所述解码器的第二级矢量逆量化器,用于基于对所述第二级矢量索引进行逆量化获得的第二级矢量,并基于所述GMM聚类索引所指定的GMM模型參数,重构第一级量化残差; 转换器,用于将所述第一级量化索引及重构的第一级量化残差所得的等价表达转换为LPC系数。
全文摘要
本发明提供了用于对语音信号LPC系数进行多级矢量量化的方法和系统,以及解码语音信号LPC系数的方法和系统。其中该对语音信号LPC系数进行多级矢量量化的方法包括通过等效变换,将LPC系数转换为一等价表达,并对该等价表达进行第一级矢量量化,得到相应的第一级量化索引和第一级量化残差;基于GMM模型,对第一级量化残差进行模型聚类分割,得到相应的GMM聚类索引;基于GMM聚类索引,对第一级量化残差进行第二级矢量量化,得到相应的第二级矢量索引;以及将经历进一步编码处理的第一级量化索引、GMM聚类索引、及第二级矢量索引传到解码端。实施本发明的方法和系统,可实现较高的量化性能和较低的运算复杂度。
文档编号G10L19/038GK102982807SQ201210246780
公开日2013年3月20日 申请日期2012年7月17日 优先权日2012年7月17日
发明者张勇, 闫建新 申请人:深圳广晟信源技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1