综合分析语音编码器中噪声隐蔽电平适应性修改方法

文档序号:80512阅读:292来源:国知局
专利名称:综合分析语音编码器中噪声隐蔽电平适应性修改方法
本发明涉及应用综合分析技术的语音编码。
综合分析语音编码方法通常包括以下步骤-对按逐次帧数字化的P阶语音信号进行线性预测分析,以便判定确定短期综合滤波器的参数;-对确定施加到短期综合滤波器上的激励信号的激励参数进行判定,以便产生表示语音信号的合成信号,其中至少一些激励参数是以至少一个感觉加权滤波器通过对语音信号与合成信号之间的差的滤波所产生误差信号的能量进行最小化而判定的;以及-产生确定短期综合滤波器的参数及激励参数的量化数值。
通过线性预测所得到的短期综合滤波器的参数表示声域的传递函数和输入信号的频谱特性。
对于施加到短期综合滤波器的激励信号有各种能够在各级综合分析编码器之间进行区分的建模方法。在很多流行的编码器中,激励信号包含由长期综合型滤波器或者由自适应代码薄技术所综合的长期成分,该成分使得能够发掘诸如元音这样的由于声带振动而产生的语音的长期周期性。在CELP编码器(″Code ExcitedLinear Prediction″,见M.R.Schroeder和B.C.Atal″Code-Excited Linear Prediction(CELP)High Quality Speech at VeryLow Bit Rates″,proc.ICASSP’85,Trampa,1985年3月,第937-940页)中,剩余激励是通过一个从统计代码薄所抽取以及由一个增益所放大的波形模示的。CELP编码器使得能够在通常的电话频带中把所需的数字位率从64kbit/s(普通的PCM编码器)减少到16kbit/s(LD-CELP编码器),甚至对于最近的大多数编码器减少到8kbit/s,而不会降低语音的质量。现在这些编码器通常用于电话传输,但是它们提供了许多其它的用途诸如存储,宽带电话或者卫星传输。在可使用本发明的综合分析编码器的其它例子中要特别提到MP-LPC编码器(Multi-Pulse Linear PredictiveCoding,见B.S.Atal和J.R.Remde″A New Model of LPCExcitation for Producing Natural-Souding Speech at Low BitRates″,Proc.ICASSP’82,巴黎,1982年5月,第1卷,第614-617页),其中剩余激励由带有指定给它的各自增益的可变位脉冲模示,以及VSELP编码器(Vector-Sum Excited Linear Predic-tion,见I.A.Gerson和M.A.Jasiuk,″Vector-Sum Excited Lin-ear Prediction(VSELP)Speech Coding at 8 kbits/s″,Proc.ICASSP’90 Albuquerque,1990年4月,第l卷,第461-464页),其中激励是由从各个代码薄所抽取的脉冲向量的线性组合模示的。
编码器对使合成信号与原始语音信号之间的感觉上的加权误差最小化的“闭环”过程中的剩余激励进行评价。已经知道感觉加权可根据直接极小化均方差来显著改进合成语音的主观感觉。短期感觉加权之要点是在极小化的误差准则的范围以内减小其中信号电平比较高的语音频谱区域的重要性。换言之,如果其频谱,即一个优先平坦部分(priori flat),被成形使得它能够在格式区域之内比在格式之间的区域内接收到更多的噪声,则由听觉器所感觉到的噪声被减小。为了达到这一点,短期感觉加权滤波器常常具有形式为W(z)=A(z)/A(z/γ)的传递函数,其中A(z)=1-Σi=1Paiz-i]]>系数ai为线性预测分析步骤中获得的线性预测系数,γ表示0与1之间的一个频谱扩张系数。这一加权公式是由B.S.Atal与M.R.Schroeder提出的″Predictive Coding of Speech Signals andSubjective Error Criteria″,IEEE Trans.on Acoustics,Speech,and Signal Processing,Vol.ASSP-27,No.3,1979年6月,第247-254页。对于γ=1,则没有掩蔽对合成信号进行方差的极小化。如果γ=0,则是全掩蔽对剩余进行极小化,并且编码噪声具有和语音信号同样的频谱包络。
广义来说在于为感觉加权滤波器选择一个形式为W(z)=A(z/γ1)/A(z/γ2)的传递函数,γ1,γ2表示频谱扩张系数,使得0≤γ2≤γ1≤1。见J.H.Chen和A.Gersho″Real-Time Vector APC Speech Coding at4800 Bps with Adaptive Postfiltering″,Proc.ICASSP’87,1987年4月,第2185-2188页。应当注意,当γ1=γ2时,没有掩蔽,而当γ1=1并且γ2=0时,为全掩蔽。频谱扩张系数γ1与γ2确定所需的噪声掩蔽水平。太弱的掩蔽使得固定粒状量化噪声成为可感觉到的。而过强的掩蔽则影响格式的形状,这时失真变得高度可听到。
在最强有力的当前的编码器中,也通过涉及感觉加权滤波器的闭环过程对于每一帧或者子帧确定包含LTP延时和可能的相位(分数延时)或者一组系数(多抽头LTP滤波器)的长期预测器的参数。
在一些编码器中,发掘语音信号短期模型并规定噪声格式分布的感觉加权滤波器W(z)被补充以一个谐波加权滤波器,该滤波器在对应于谐波的峰值中增加噪声的能量并在这些峰值之间减小该能量,和/或被补充以一个斜率校正滤波器,用于防止在高频下,特别是在宽带应用中非掩蔽噪声的出现。本发明主要是关于短期感觉加权滤波器W(z)的。
短期感觉滤波器频谱扩张系数γ、或γ1与γ2的选择通常是借助于主观测试进行优化的。继而这一选择被固定。然而,本申请人已经观察到,频谱扩张系数的优化值可能根据输入信号的频谱特性而经受相当大的变化。因而所作的选择构成了一种或多或少满意的折衷办法。
本发明的目的是为了通过对感觉加权滤波器进行较好的特征刻划,提高被编码信号的主观质量。另一目的是为了使编码器的性能对于各种类型的输入信号更为均匀。又一目的是为了使这种改进并不需要明显的更多的复杂性。
于是本发明关系到开始时指出的类型的综合分析语音编码方法,其中感觉加权滤波器具有如前所示的一般公式W(z)=A(z/γ1)/A(z/γ2),并且其中基于在线性预测分析步骤中所获得的频谱参数对频谱扩张系数γ1,γ2中至少一个系数的数值作适应性修改。
使得感觉加权滤波器的系数γ1与γ2具有适应性,有可能为输入信号的各种频谱特性而优化编码噪声掩蔽电平,这些频谱特性可能依赖拾取的声音特性,话音的各种特性或者强背景噪声的出现(例如移动无线电话中的汽车噪声)而有显著的变化。增加了所感觉到的主观质量并使得编码性能对于各种类型的输入更为均匀。
基于其对频谱扩张系数中至少一个系数的数值作适应性修改的频谱参数最好包括表示语音信号频谱的整体斜率的至少一个参数。语音频谱在低频(大约基频范围是从成年男低音的60Hz起到童音的500Hz)下平均具有更多的能量,因而一般是一下降的斜率。然而,成年的男低音将具有多得多的被衰减的高频,因而具有一个较大斜率的频谱。由声音拾取系统所施加的前置滤波对这一斜率有很大影响。通常的电话手机进行高通前置滤波,称为IRS,这相当大地降低了这一斜率的作用。然而,在一些更近期的装置中通过对比所进行的“线性”输入保留了低频的全部重要性。弱掩蔽(γ1与γ2之间小的差距)与信号的斜率相比太多地降低了感觉滤波器的斜率。如果信号在高频具有小的能量,则高频的噪声电平余留得大而变得大于信号自身。耳朵感觉到高频未掩蔽的噪声,所有这种噪声由于常常具有谐波特性而造成更多的烦扰。滤波器斜率简单的校正不适于满意地对于能量差建模。对考虑语音频谱的总体斜率频谱扩张系数作适应性修改,能够使这一问题得到较好的处理。
最好是借以对频谱扩张系数中至少一个系数作适应性修改的频谱参数还包括至少一个表示短期综合滤波器(LPC)的谐振特性的参数。在电话频带中语音信号具有多达四个或者五个格式。刻划频谱轮廓的这些“凸起”一般是相当圆滑的。然而,LPC分析可能导致接近不稳定的滤波器。这时对应于LPC滤波器的频谱包含在小带宽范围内具有大能量的相当显著的高峰。掩蔽越大,则噪声频谱越是接近LPC频谱。可是,噪声分布中能量高峰的出现是很麻烦的。这将在相当大的能量区域内产生格式电平的失真,在这些区域中造成的破坏是明显可感觉到的。这时本发明有可能在LPC滤波器的谐振特性增加时降低掩蔽电平。
当短期综合滤波器由线性频谱参数或者频率(LSP或者LSF)表示时,则借以对γ1与/或γ2的数值进行适应性修改的表示短期综合滤波器谐振特性的参数可能是两个顺序的线谱频率之间的最小距离。
本发明的其它特点和优点将在以下较佳的但是并非限定性的示范性实施方式的参照附图的说明中显现,这些附图是-
图1和2是能够实现本发明CELP解码器以及CELP编码器的示意性布局;-图3是估算感觉加权过程的流程图;以及-图4是函数log[(l-r)/(l+r)]的曲线图。
以下就其在CELP型语音编码器的应用对本发明进行说明。然而应当明白,本发明也可用于其它类型的综合分析编码器(MP-LPC,VSELP…)。
CELP编码器和CELP解码器中实现的语音综合过程示于图1中。激励产生器10响应指数k,传送属于预定编码薄的一激励代码Ck。放大器12以激励增益β放大这一激励代码,所得的信号经受长期综合滤波器14的作用。从滤波器14所输出的信号u又经受短期综合滤波器16的作用,来自该滤波器的输出,构成在此当作综合语音信号的信号。当然,正如语音编码领域中所熟知的,其它滤波器,例如后置滤波器,也可以解码器的电平实现。
上述信号是以例如等于8kHz的采样速率由例如16位字所表示的数字信号。综合滤波器14,16为一般的纯递归滤波器。长期综合滤波器14通常具有形式为1/B(z)的传递函数,其中B(z)=1-Gz-T。延时T和增益G构成可由该编码器适应地确定的长期预测(LTP)参数。短期综合滤波器16的LPC参数在该编码器由语音信号的线性预测确定。于是滤波器16的传递函数的形式为1/A(z),其中A(z)=1-Σi=1Paiz-i]]>在p(通常p≈10)阶的线性预测的情形下,ai表示第i个线性预测系数。
这里,“激励信号”指施加到短期综合滤波器14的信号u(n)。这一激励信号包含一个LTP成分G.u(n-T)和一个剩余成分,或者新息序列,βCk(n)。在综合分析编码器中,刻划剩余成分以及任选LTP成分的参数是应用感觉加权滤波器在闭环中估算的。
图2表示CELP编码器的布局。语音信号s(n)是一个数字信号,例如由模/数转换器20提供,该模/数转换器20处理被放大的和被滤波的话筒22的输出信号。信号s(n)作为其本身被分为L个样本的子帧,或者激励帧的Λ个样本的相继帧而被数字化(例如Λ=240,L=40)。
LPC、LTP及EXC参数(指数k及激励增益β)分别通过三个分析模块24、26及28以编码器电平获得。然后这些参数按已知的方式以有效的数字传输为目的而被量化,之后经受多路复用器30的作用,以形成从该编码器输出的信号。这些参数还供给模块32,以计算该编码器的一些滤波器的原始状态。这一模块32主要包括如图1中所表示的解码链。如同该解码器,模块32是基于量化的LPC、LTP及EXC参数工作的。如果LPC参数的内插计算如通常那样在解码器进行,则类似的内插计算是由模块32执行的。模块32以编码器电平给出了该解码器的综合滤波器14、16的早期状态的消息,这些状态是基于综合及激励参数在考虑子帧之前确定的。
在编码过程的第一步骤中,短期分析模块24通过分析语音信号s(n)的短期相关性而确定LPC参数(短期综合滤波器的系数ai)。这一确定例如是Λ个样本的每个帧进行一次,其方式是要适应语音信号频谱内容的变化。LPC分析方法在本技术界是熟知的。例如可参考著作″Digital Processing of Speech Signals″by L.R.Rabiner和R.W.Shafer,Prentice-Hall Iht.,1978。这一著作特别描述了Durbin算法,该算法包含以下步骤-在包含当前帧的,以及如果该帧的长度小(例如为20到30ms)可能还包括早期样本的分析窗口上估算语音信号s(n)的自相关R(i)(0≤i<p)R(i)=Σn=iM-1s*(n)·s*(n-i)]]>其中M≥Λ以及s*(n)=s(n)·f(n),f(n)表示长度M的窗口函数,例如矩形函数或者Hamming函数;
-系数ai的递归估算E(0)=R(0)对于i从1到p,计算ri=[R(i)-Σj=1i-1aj(i-1).R(i-j)]/E(i-1)]]>ai(i)=riE(i)=(1-ri2)·E(i-1)对于j从1到i-1计算aj(i)=aj(i-1)-ri·ai-j(i-1)系数ai取为等于在最后迭代中获得的ai(p)。量E(p)是残余预测误差的能量。处于-1与1之间的系数ri,称为反射系数。它们常常由对数-面积-比率LARi=LAR(ri)表示,函数LAR由LAR(r)=log10[(1-r)/(1+r)]定义。
LPC参数的量化可直接对于参数ai,对于反射参数ri或者对于对数-面积-比率LARi进行。另一可能性是量化线谱参数(LSP代表“线谱对”,或者LSF代表“线谱频率”)。被规范到0与π之间的p个线谱频率ωi(1≤i≤p)使得复数1,exp(jω2),exp(jω4),…,exp(jωp),为多项式P(z)=A(z)-z-(p+1)A(z-1)的根,以及复数exp(jω1),exp(jω3),…,exp(jωp-1),与-1为多项式Q(z)=A(z)+z-(p+1)A(z-1)的根。量化可对于规范化的频率ωi或者对于它们的余弦进行。
模块24可根据Durbin经典算法进行LPC分析,该算法曾在上面引证以定义实现本发明中有用的量值ri,LARi及ωi。使用另一些在比较近期研究的提供相同结果的算法则有优越性,特别是Levinson的分割算法(见″A new Efficient Algorithm to Computethe LSP Parameters for Speech Coding″,by S.Saoudi,J.M.Boucher和A.Le Guyader,Signal Processing,第28卷,1992年,第201-212页),或者使用Chebyshev多项式(见″The Coputationof Line Spectrum Frequencies Using Chebyshev Polinomials″,byP.Kabal and R.P.Ramachandran,IEEE Trans.on Acoustics,Speech,and Signal processing,Vol.ASSP-34,No.6,第1419-1426页,1986年12月)。
编码的下一个步骤在于确定长期预测LTP参数。这些参数是例如L个样本的每一个子帧确定一次。减法器34从语音信号s(n)减去短期综合滤波器16的响应到零输入信号。这一响应由滤波器36使用传递函数1/A(z)确定,其系数由模块24所确定的LPC参数给出,并且其初始状态,由模块32提供,使它们对应于综合信号的最后p个样本。来自减法器34的输出信号经受感觉加权滤波器38的作用,该滤波器的作用是加重其中误差最能够感觉出的频谱部分,即格式之间的区域。
感觉加权滤波器的传递函数W(z)具有一般形式W(z)=A(z/γ1)/A(z/γ2),其中γ1及γ2为频谱扩张系数,使0≤γ2≤γ1≤1。本发明基于由LPC分析模块24所确定的频谱参数提出动态地适应γ1与γ2的数值。这一适应是由模块39进行的以便根据进一步描述的处理过程估算感觉加权。
感觉加权滤波器可被看作是p阶全极点滤波器序列中的顺序,其传递函数为1/A(z/γ2)=1/[ΣI=0pbiz-i]]]>其中b0=1及bi=-aiγ2i对于0<i≤p,并可作为p阶全零滤波器的顺序,其传递函数为A(z/γ1)=Σi=0pciz-i]]>其中c0=1及ci=-aiγ1i对于0<i≤p。模块39这样对于每一帧计算出系数bi与ci并将它们提供给滤波器38。
由模块26所进行的闭环LTP分析在于按普通方式对每一子帧选择延时T,该延时使得下面规范化的相关函数达到最大值[Σn=0L-1x′(n)·yT(n)]2/[Σn=0L-1[yT(n)]2]]]>其中x’(n)表示在相关子帧期间从滤波器38输出的信号,而yT(n)表示卷积乘积u(n-T)*h’(n)。以上表达式中,h’(0),h’(1),…,h’(L-1)表示被加权的综合滤波器的脉冲响应,传递函数为W(z)/A(z)。这一脉冲响应h’是基于由模块39所提供的系数bi及ci以及对于子帧确定的LPC参数,通过用于计算脉冲响应的模块40而获得的,如果必要则是在量化和内插之后进行。样本u(n-T)是由模块32提供的长期综合滤波器14的较早状态。就小于子帧的长度的延时T来说,遗漏的样本u(n-T)是通过基于较早的样本的内插或者是从语音信号而获得的。延时T为整数或者分数,是从一个例如20到143个样本的范围的指定窗口选择的。为了减小闭环搜索范围,并因而减小要计算的卷积yT(n)的数目,例如可首先每一帧一次地确定样品的一个开环延时T’,并然后对于每一子帧在T’左右的降低了的区间中选择闭环延时。开环搜索更是只在于对可能是由反向滤波器以传递函数A(z)滤波的语音信号s(n)的自相关函数,确定使它成为最大的延时T’。一旦延时T已经确定,则长期预测增益G通过以下公式获得G=[Σn=0L-1x′(n)·yT(n)]/[Σn=0L-1[yT(n)]2]]]>为了搜索与子帧相关的CELP激励,首先由减法器42从信号x’(n)中减去由模块26对于优化的延时T所计算的信号GyT(n)。所得到的信号x(n)经受背向(backward)滤波器44作用,该滤波器提供由以下公式给出的信号D(n)D(n)=Σi=nL-1x(i)·h(i-n)]]>其中h(0),h(1),…,h(L-1)表示由综合滤波器与加权滤波器形成的合成滤波器的脉冲响应,这一响应是由模块40计算的。换言之,该合成滤波器具有传递函数W(z)/[A(z)·B(z)]。于是在矩阵表示法中,我们有
D=(D(0),D(1),…,D(L-1))=x·H其中x=(x(0),x(1),…,x(L-1))以及H=h(0)0···0h(1)h(0)·······h(L-2)·h(0)0h(L-1)h(L-2)··h(1)h(0)]]>向量D构成一个用于激励搜索模块28的目标向量。这一模块28从编码薄确定一个使规范化的相关Pk2/αk2最大化的编码字,其中Pk=D·CkTαk2=Ck·HT·H·CkT=Ck·U·CkT优化的指标k已经被确定,激励增益β取作等于β=Pk/αk2。
参见图1,CELP解码器包括一个接收由编码器输出的二进制流的多路分解器8。EXC激励参数和LPT以及LPC综合参数的量化数值提供给产生器10,放大器12以及滤波器14,16,以便重构合成信号,该信号例如在被放大并然后施加到扬声器19之前,可通过转换器18转换为模拟信号以便存储原始语音。
借以对系数γ1和γ2进行适应修改的频谱参数一方面包括主要的两个反射系数r1=R(1)/R(0)以及r2=[R(2)-r1R(1)]/[(1-r12)R(0)],它们表示语音频谱的整体斜率;而另一方面包括线谱频率,其分布表示短期综合滤波器的谐振特性。当两个线谱频率之间的最小距离dmin降低时,短期综合滤波器的谐振特性增加。频率ωi按升序(0<ω1<ω2<…ωp<π)获得,我们有dmin=min1≤i<p(ωi+1-ωi)]]>通过在上面引证的Durbin算法的第一迭代停机,由传递函数1/(1-r1·z-1)产生语音频谱的粗近似值。因而在第一反射系数r1趋近1时,综合滤波器的整体斜率(通常为负值)在绝对值上趋于增加。如果通过增加迭代而继续分析到2阶,就以带有传递函数1/[1-(r1-r1r2)·z-1-r2·z-2)]的2阶滤波器达到不很粗糙的模式。当其极点趋向单位圆,即r1趋向1而r2趋向-1时,这一2阶滤波器的低频谐振特性增加。因而可断定,在r1趋向1而r2趋向一1时,语音频谱在低频具有相对大的能量(或者另一说法,相对大的负整体斜率)。
众所周知,语音频谱中的格式峰值导致几个线谱频率(2或者3)拥挤在一起,而该频谱的平坦部分是对应于这些频率的均匀分布的。因而在距离dmin降低时,LPC滤波器的谐振特性增加。
一般说来,在综合滤波器的低通特性增加时(r1趋向1而r2趋向-1),和/或在综合滤波器的谐振特性降低(dmin增加)时,采用较大的掩蔽(r1与r2之间较大的间隙)。
图3表示由模块39在每一帧所进行的用来估算感觉加权的操作的示例性的流程图。
在每一帧,模块39接收来自模块24的LPC参数ai,ri(或者LARi)以及ωi(1≤i≤p)。在步骤50,模块39通过对于ωi+1-ωi,其中1≤i<p,的最小化估算两个相继线谱频率之间的极小距离dmin。
基于表示帧上的整体频谱斜率的参数(r1与r2),模块39在N个级别P0,P1,…,PN-1中进行帧的分级。在图3的例子中,N=2。P1级对应于语音信号s(n)在低频相对高能的情形(r1相对接近1而r2相对接近-1)。因而,一般在P1级比在P0级采用较大的掩蔽。
为了避免级之间过于频繁的变换,基于r1与r2的数值引入了一些频滞。可这样规定要从每一帧选择P1级,则该帧r1要大于正阈值T1而r2要小于负阈值-T2,而要从每一帧选择P0级则该帧r1要小于另一个正阈值T1’(T1’<T1)而r2要大于另一个负阈值-T2’(T2’<T2)。如果给定反射系数在±1附近的灵敏度,则这一频滞比较容易在对数-面积-比率LAP的域中看到(见图4),其中阈值T1,T1’,-T2,-T2’分别对应于阈值-S1,-S1’,S2,S2’。
在初始化时,默认的级例如为掩蔽最小的级(P0)。
在步骤52,模块39检查前面的帧是在P0级还是在P1之下来到的。如果前面的帧为P0级,则模块39在54测试条件{LAR1<-S1以及LAR2>S2},或者如果模块24供给反射系数r1与r2取代对数-面积-比率LAPL1,AP2,则测试等价条件{r1>T1与r2<-T2}。如果LAR1<-S1以及LAR2>S2,则进行到P1级的转换(步骤56)。如果测试54显示LAR1≥-S1或LAR2≤S2,则当前帧保持在P0级(步骤58)。
如果步骤52显示,前面的帧为P1级,模块39在60测试条件{LAR1>-S1’或者LAR2<S2’},或者如果模块24供给反射系数r1与r2取代对数-面积-比率LAR1,LAR2,则测试等价条件{r1<T1’或r2>-T2’}。如果LAR1>-S1’或者LAR2<S2’,则进行到P0级的转换(步骤56)。如果测试60显示LAR1≤-S1’以及LAR2≥S2’,则当前帧保持在P1级(步骤56)。
在图3所示的例子中,两个频谱扩张系数中的较大者r1在P0,P1级中各级中都具有不变的数值Г0,Г1,其中Г0≤Г1,并且另一个频谱扩张系数r2为线谱频率之间最小距离dmin的下降仿射函数在P0级为r2=-λ0·dmin+μ0,并在P1级为r2=-λ1·dmin+μ1,其中λ0≥λ1≥0以及μ1≥μ0≥0。r2的数值也可以是有界限的以避免剧烈的变化在级P0为Δmin,0≤r2≤Δmax,0,以及在级P1为Δmin,1≤r2≤Δmax,1。根据当前帧所取的级,模块39在步骤56或者58指定r1与r2的数值,然后在步骤62计算感觉加权因子的系数bi及ci。
如前所述,模块24在其范围内计算LPC参数的Λ个样本的帧,常常被细分为用于确定激励信号的L个样本的子帧。一般说来,LPC参数的内插在子帧范围进行。在这种情形下,建议最好对于每一个子帧或者激励帧都借助于内插的LPC参数执行图3的过程。
本申请人已经在以8kbit/s操作的代数编码薄CELP编码器的情形下测试过用于对系数r1与r2进行适应性修改的过程,为此按每10ms帧(Λ=80)计算LPC参数。这些帧中的每一个被分为用于搜索激励信号的两个5ms子帧(L=40)。对于一个帧所获得的LPC滤波器被用于这些子帧中的第二个。对于第一个子帧,在这一滤波器与前面的帧所获得的滤波器之间的一个LSF域中进行内插。以子帧的速率施加用于适应性地修改掩蔽电平的过程,对用于第一子帧的LSFωi以及反射系数r1与r2进行内插。图3所示的过程已经以按以下数值应用S1=1.74;S1’=1.52;S2=0.65;S2’=0.43;Г0=0.94;λ0=0;μ0=0.6;Г1=0.98;λ1=6;μ1=1;Δmin,1=0.4,Δmax,1=0.7,频率ωi规范化为0与π之间。
这一适应性过程具有可忽略的额外的复杂性并对于编码器没有重大的结构修改,已经使得有可能看到被编码语音的主观质量的有效改进。
申请人:还利用在8到16kbits/s之间的可变位速率下施加到一个(低延时)LD-CELP编码器的图3的过程,还获得了可称道的结果。其斜率级别与前面的情形相同,其中Г0=0.98;λ0=4;μ0=1;Δmin,0=0.6;Δmax,0=0.8;Г1=0.98;λ1=6;μ1=1;Δmin,1=0.2;Δmax,1=0.7。
权利要求
1.综合分析语音编码方法,包括以下步骤-对按相继帧数字化的P阶语音信号(s(n))进行线性预测分析,以便判定定义短期综合滤波器(16)的参数;-对定义施加到短期综合滤波器上的激励信号的激励参数进行判定,以便产生表示语音信号的合成信号,其中至少一些激励参数是以至少一个感觉加权滤波器通过对语音信号与合成信号之间的差的滤波所产生的误差信号的能量进行最小化而判定的,该感觉加权滤波器的传递函数形式为W(z)=A(z/γ1)/A(z/γ2),其中A(z)=1-Σi=1Paiz-i]]>系数ai是在线性预测分析步骤中所获得的线性预测系数,γ1与γ2表示频谱扩张系数,使得0≤γ2≤γ1≤1;以及-产生定义短期综合滤波器的参数及激励参数的量化数值,其特征在于,基于在线性预测分析步骤中所获得的频谱参数,对至少一个频谱扩张系数的数值进行适应性修改。
2.根据权利要求
1的方法,其特征在于,借以对频谱扩张系数中至少一个系数的数值作适应性修改的频谱参数包括,表示语音信号频谱的整体斜率的至少一个参数(r1,r2),并包括表示短期综合滤波器(16)的谐振特性的至少一个参数(dmin)。
3.根据权利要求
2的方法,其特征在于,所述表示频谱整体斜率的参数包括在线性预测分析期间所确定的第一和第二反射系数(r1,r2)。
4.根据权利要求
2或3的方法,其特征在于,所述表示谐振特性的参数是相继线谱频率之间的距离的最小值(dmin)。
5.根据权利要求
2的方法,其特征在于,数个等级(P0,P1)之中的语音信号的帧的分级是基于表面频谱整体斜率的单个参数或者多个参数(r1,r2)进行的,并在于,对于每一级采用两个频谱扩张系数的数值使得在短期综合滤波器(16)的谐振特性上升时,它们的差值γ1-γ2下降。
6.根据权利要求
3或5的方法,其特征在于,提供了基于第一反射系数r1=R(1)/R(0)和第二反射系数r2=[R(2)-r1R(1)]/[(1-r12)R(0)]的数值而选择的两个级别,R(j)表示用于j个样本的一个延时的语音信号的自相关函数;在于第一级(P1)是选自这样的每一个帧,其第一反射系数(r1)大于第一正阈值(T1)并且第二反射系数(r2)小于第一负阈值(-T2);和在于第二级(P0)是选自这样的每一个帧,其第一反射系数(r1)小于第二正阈值(T1’),该第二正阈值(T1’)小于第一正阈值,或者第二反射系数(r2)大于第二负阈值(-T2’),该第二负阈值(-T2’)绝对值小于第一负阈值(-T2)绝对值。
7.根据权利要求
4的方法,其特征在于,在每一级(P0,P1)之中,频谱扩张系数的最大值γ1被固定,而频谱扩张系数的最小值γ2是两个相继线谱频率之间的距离的最小值(dmin)的一个下降仿射函数。
8.根据权利要求
5的方法,其特征在于,在每一级(P0,P1)之中,频谱扩张系数的最大值γ1被固定,而频谱扩张系数的最小γ2是两个相继线谱频率之间的距离的最小值(dmin)的一个下降仿射函数。
专利摘要
在应用带有传递函数W(z)=A(z/γ
文档编号H03H21/00GKCN1112671SQ96105872
公开日2003年6月25日 申请日期1996年5月16日
发明者史蒂芬·普罗斯特 申请人:法国电信公司导出引文BiBTeX, EndNote, RefMan
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1