2.3kb/s谐波激励线性预测语音编码方法

文档序号:2836640阅读:258来源:国知局
专利名称:2.3kb/s谐波激励线性预测语音编码方法
技术领域
2.3kb/s谐波激励线性预测语音编码方法的技术领域为语音信号处理,其应用范围覆盖如下两个方面第一,语音信号的数字传输,如数字通信系统、移动无线电、蜂窝电话和保密电话系统等;第二,语音信号的数字存贮,如数字录音电话、语音邮件、语音信箱、电子留言簿、发声字典、多媒体查询系统以及各类电子发声玩具等。
语音编码目前主要分为三类,即波形编码、参数编码和混合编码。波形编码力图使重建语音波形保持原语音信号的波形形状,它通常将语音信号作为一般的波形信号来处理,它具有适应能力强、话音质量高等优点,但所需要的比特率高,通常能在64~16kb/s的速率上给出高的编码质量,当速率进一步降低时,其性能会迅速下降。参数编码则通过对语音信号特征参数的提取和编码,力图使重建语音信号具有尽可能高的可懂性,即保持原语音的语意,而重建语音信号的波形同原始语音信号的波形可能会有相当大的差别,但其编码速率很低,可低至2.4kb/s以下。它的主要问题是合成语音质量差,自然度低。混合编码克服了波形编码和参数编码的弱点,同时又结合了它们各自的长处,在4~16kb/s速率上能够得到高质量的合成语音,但当比特率低于4kb/s时很难得到高质量的合成语音。
近十年来,语音编码取得了突飞猛进的发展,在国际标准化工作中堪称为最活跃的领域,就目前的语音编码现状而言,5kb/s以上的技术已经标准化和产品化,已具备比较完善的理论和技术体系,并进入实用阶段。今后重要的研究焦点将逐步转向更低的码率。
目前,2.4kb/s及其以下速率的高质量语音编码是语音编码研究领域最感兴趣的课题之一,这是因为在电信和保密通信中的许多应用和服务迫切需要这些低比特率语音编码方法。在过去的几年中,一些成功的语音编码方法,诸如,波形内插(WI)、多带激励(MBE)、混合激励线性预测(MELP)、谐波+随机激励(HSX)和分裂带LPC(SB-LPC)等方法均产生了具有较高可懂度和自然度的合成语音,这些方法的共同特征是语音信号或线性预测残差信号的谐波成分和类噪声成分的合成模型是独立产生的,语音质量强烈地依赖于这两种成分的正确判别。这对于有调汉语语音来说会产生较严重的变调失真,导致合成语音的自然度下降。
本发明2.3kb/s谐波激励线性预测语音编码(HE-LPC)方法,是由语音采集系统将所需进行的语音信号输入计算机,在计算机处理器中完成对语音信号的编码过程,该方法包括语音编码和译码两部分,编码方法中基音周期检测采用了一种基于波形相关法的语音信号基音周期检测方法,语音谱参数的量化采用了线谱频率参数一步插值预测矢量量化方法,本发明的特征在于使用基音检测方法和浊音度分析方法将LPC激励信号分裂为两个带,低带对应于语音信号的浊音部分,而高带对应于语音信号的清音部分,用统一的谐波模型来表达线性预测残差信号的谐波成分和类噪声成分,在统一的谐波激励模型中引入了一个来自男性讲话者浊音区的固定相位谱,并使用谐波激励模型参数内插方法,得到了平滑自然的合成语音;减少传统LPC声码器中的噪声后获取合成语音,最后使用一个短时后滤波器增强合成语音的质量。
另外,本发明使用线谱频率参数一步插值预测矢量量化方法减少声道参数的比特率,并在译码端使用一个短时后滤波器增强合成语音的质量。
本发明的技术方案结合

图1可见,本发明方法的编码部分主要包括预处理方法、线性预测分析方法、线性预测逆滤波方法、基音检测与浊音度判决方法、残差谐波幅度确定方法、线性预测系数到线谱频率参数的转换方法和参数量化与编码方法。编码器的工作程序如下第一步,输入语音经预处理模块去除输入信号的直流成分;第二步,对去除直流的语音信号加240点哈明窗,窗的中心位于当前帧的右边界,即窗覆盖了前一帧的120个样点和当前帧的120个样点;然后对加窗的语音进行自相关估计,并使用莱文逊-杜宾递归算法获取10阶线性预测系数;最后用0.998k,k=1,…,10乘以线性预测系数来获取30HZ共振峰带宽展宽的线性预测系数;第三步,将第二步得到的线性预测系数利用常规方法转换成线谱频率参数;第四步,用最新技术中的一步插值预测矢量量化方法量化线谱频参数;第五步,当前帧和前一帧量化的线谱频率参数线性内插到当前的4个子帧中,保证线谱频率参数的平滑过渡,每子帧内插的线谱频率参数再变回到线性预测系数,通过逆滤波器求得当前帧的线性预测残差信号。另外,当前帧最后一个子帧内插的线性预测系数用于计算将来帧的40个样点的残差信号,这40个样点将用于当前帧残差谐波幅度的提取;第六步,利用基于波形相关法的语音信号基音周期检测方法这一最新技术、在去除直流的输入信号上进行基音周期检测和浊音度估计。该方法主要包括四个步骤,第一步为预处理,第二步为相关系数估计,第三步为后处理,第四步为浊音度判决。预处理包括低通滤波和数值滤波二部分,主要是去除共振峰对基音检测的影响。相关系数在三个叠接窗上独立计算,第一个窗覆盖整个当前窗,第二个窗覆盖当前帧的一半样点和将来帧的一半样点,第三个窗覆盖整个将来帧。后处理是为了避免在每个窗内出现基音加倍而采取的措施。
在按上述预处理、相关系数估计和后处理步骤求得三个窗内的最优延迟后,再用下面的阀值和逻辑从三个窗获得的最优延迟中得到当前帧的延迟估计。令(τ1,ρ1),(τ2,ρ2)和(τ3,ρ3)分别为对应三个叠接窗的最优延迟和相关系数,则当前帧最终的基音周期估计 按如下逻辑获得t1=ρ2/ρ3,t2=ρ2/ρ3,t3=ρ1/ρ2,t4=ρ3/ρ2If(t1>1.8 and t2>1.8或t3>1.8 and t4>1.8)τ^opt=(τ1+τ2)/2,=ρ(ρ1+ρ3)/2]]>Elseτ^opt=τ2,ρ=ρ2]]>这里 的值为整数,用7比特量化。在8kHz采样率,这种具有1个样点解析的基音检测器已很好满足了本发明中的谐波激励线性预测语音编码法的要求。
在本发明的谐波激励线性预测语音编码法中,无论是何种类型的语音帧都要给出确切的浊音度值pv,这个pv将语音信号分为两个带,pv决定了这两个带的分界频率,在分界频率以下的频谱看作是周期信号频谱,而在分界频率以上的频谱看作是类噪声频谱。这里pv由预处理后的语音信号能量Elpf和相关系数ρ共同确定。如果Elpf小于给定的阀值,则直接令pv等于零,根据听觉分析,设此帧的基音频率为100Hz(80个样点);如果Elpf大于给定的阀值,则pv由ρ确定。为了节省比特数,ρ根据主观听力测试用2比特量化。
第七步,根据上述步骤得到的预测残差信号和基音周期,估计残差谐波。首先,用256点FFT将预测残差信号转换到频域以便求得谐波幅度;其次,用类似于SEEVOC的方法估计残差谐波幅。但这里我们使用的基音周期是第六步得到的基音周期而不是SEEVOC方法中使用的平均基音周期,这为实际谐波幅度的估计带来了极大的便利,并提高了谐波估计的准确度。估计完谐波幅度后,要对其进行归一化处理,归一化的目的是为了分离谐波幅度的功率和形状,以便于分别量化,提高量化效率。
由于谐波个数随基音周期变化,所以,谐波幅度谱是变维的。通常,人们使用变维矢量量化技术量化语音信号的谐波幅度,但这将需要巨大的计算量和存贮空间。为此,我们充分利用了线性预测残差谱趋于平坦的特性,通过对残差谐波幅度截断来获取固定的10维矢量。在译码端,高于10维的谐波用译码的10维矢量元素的均值统一表示。这个截断的10维矢量码书用LBG方法训练获得,码书体积为512(9比特码书)。归一化增益用8比特在对数域标量量化。
第八步,将量化的基音周期、浊音度、残差谐波幅度、归一化增益和线谱频率参数进行二进制编码,并将比特流送入信道或存入媒质,供译码器用。
本发明方法的译码部分主要包括参数解码方法、参数内插方法、残差信号重建方法、线谱频率参数到线性预测系数的转换方法、语音合成方法、后滤波和自动增益控制方法;参数内插模块完成基音周期、浊音度、残差谐波幅度、归一化增益和线谱频率参数的内插工作。译码器的工作程序如下第一步,参数解码模块根据接收到的比特流,在译码器的5个码书中得到对应的基音周期、浊音度、残差谐波幅度、归一化增益和线谱频率参数的实数值;
第二步,根据译码端恢复的谐波幅度和基音周期,用如下的谐波模型重建线性预测残差信号e(n)=Σk=1L(n)Ak(n)cos(kφ(n)+θk(n))]]>其中 这里L(n),pv(n,k)和Ak(n)分别为在样点n处的谐波个数、浊音度和第k个去归一化的谐波幅度。D(k)是一个固定相位谱,它来自于男性讲话者的某帧浊音语音信号,选择男性讲话者是考虑到男性发声具有高的基音周期,它能比女性发声提供更多的谐波成分,从而保证D(k)的维数大于等于给定的最大谐波数。对于低于分带频率的谐波,其谐波相位等于固定值,而对高于分带频率的谐波,其谐波相位是均匀分布的随机数。
令样点n处的基音周期值为P(n),则每个样点处的相位φ(n)可通过如下逐点迭代获得φ(n)=φ(n-1)+2πP(n)]]>为了得到平滑渐变的激励信号e(n),谐波激励模型中用到的基音周期、去归一化谐波幅度和浊音度参数必须内插。即为了重建残差信号e(n),需要知道每个样点处的谐波幅度及其基音周期长度。本发明使用简单的线性内插方法来增样谐波幅度。当在两个等维的谐波幅度间完成增样时,可直接进行内插。然而,当谐波幅度的长度不同和基音周期加倍/减半发生时,还需要额外的处理,以便保证平滑内插。下面描述三种情况下谐波幅度内插和基音周期内插的过程。(1)等维情况下谐波幅度和基音周期的内插此时,当前帧和前一帧具有相同的基音周期P,如果用n0和n1表示内插区间分界处的时刻,则可以确定时刻n处的瞬时基音周期P(n,m)和瞬时谐波幅度Ak(n,m)分别为P(n,m)=(n1-nn1-n0)P(n0,m)+(n-n0n1-n0)P(n1,m)n0≤n≤n1,0≤m<N]]> 式中N为帧长。内插要在每帧上完成,所以,n1-n0=160。
由于边界点处的谐波幅度具有相同的长度,所以,它们之间内插得到的谐波幅度也具有相同的长度,即基音轮廓为一常数。(2)不等维情况下谐波幅度和基音周期的内插一般地,边界点处谐波幅度的长度不同({Ak}的个数不同),基音周期在边界点之间的区间上要变化。在这种情况下,内插前要将短的谐波幅度维数调整到与长的谐波幅度相同,这等价于对短的谐波幅度系数添零。完成添零工作后,即可用等维情况下的内插公式获得瞬时基音周期和瞬时谐波幅度。
由于添零的原因,这种过程得到的内插基音周期值可能和内插的谐波幅度维数不同。为了避免这种不一致性,可将内插的谐波幅度维数截断到和内插的基音周期长度一致。(3)基音加倍/减半情况下谐波幅度和基音周期的内插如果当前帧的谐波幅度维数比原来帧的谐波幅度维数长或短很多,则很可能发生了基音加倍/减半,这时本发明使用前后帧基音周期比值因子C作为基音加倍/减半判决准则。如果在帧间基音确实发生了加倍/减半(C>1),则将较短的谐波幅度和基音周期重复整数倍,使其最大可能地与较长的谐波幅度和基音周期匹配。这等价于在原来的谐波间插入零幅度谐波。插入零幅度谐波后,将谐波幅度和基音周期按不等维情况进行内插即可。
另外,浊音度pv(n)的内插方法类似于等维情况下基音周期的内插公式,谐波数L(n)由内插的后的基音周期得到,即 。为了增强相位轨迹的准确性,用于相位轨迹φ(n)计算的瞬时基音周期不再取为整数。由于φ(n)是一个不断增大的函数,为防止φ(n)的溢出,当φ(n)值增大到比2π大时,就从φ(n)值中减去2π。根据余弦函数的性质,这不会影响激励信号e(n)的计算。
第三步,将线谱频率参数在四个子帧线性内插,再将4个内插的线谱频率参数转换为线性预测系数,得到了4个子帧的合成滤波器系数。
第四步,将重建的线性预测残差信号e(n)经过全极点合成滤波器,得到合成语音。
第五步,使用传统的短时后滤波器增强合成语音的质量。
第六步,使用自动增益控制技术保证后滤波前后合成语音信号的平均能量不变。
本发明的汉语语音主观测试结果证明,2.3kb/s谐波激励线性预测编码(HE-LPC-Harmonic Excited LinearPredictive Coding)方法产生的合成语音质量优于美国联邦标准的2.4kb/s MELP编码器,并且延时小于MELP编码器,可用于移动通信、短波通信、保密通信、大容量语音存贮设备、多媒体查询系统、IP电话和因特网上的语音邮寄等,可带来可观的经济效益和社会效益。
本发明的实验效果如下为了评价2.3kb/s HE-LPC语音编码方法的性能,我们用汉语语音进行了主观A/B听力测试,11名听众比较了2.3kb/s HE-LPC编码器和美国联邦标准2.4kb/s MELP声码器产生的合成语音质量。汉语语音由16个句子组成,其中8句来自男性讲话,另外8句来自女性讲话。测试结果如表2所示。测试结果证明2.3kb/s HE-LPC编码器产生的合成语音质量好于美国联邦标准的2.4kb/s MELP声码器,尤其是对女性讲话者。
表12.3kb/s HE-LPC比特分配方案

表2主观A/B测试结果

权利要求
1.2.3kb/s谐波激励线性预测语音编码方法,是由语音采集系统将所需进行的语音信号输入计算机,在计算机处理器中完成对语音信号的编码过程,该方法包括语音编码和译码两部分,编码方法中基音周期检测采用了一种基于波形相关法的语音信号基音周期检测方法,语音谱参数的量化采用了线谱频率参数一步插值预测矢量量化方法,本发明的特征在于用基音检测方法和浊音度分析方法将LPC激励信号分裂为两个带,低带对应于语音信号的浊音部分,而高带对应于语音信号的清音部分,用统一的谐波模型来表达线性预测残差信号的谐波成分和类噪声成分,即在该谐波模型中引入了一个来自男性讲话者浊音区的固定相位谱,并使用谐波激励模型参数内插方法,减少传统LPC声码器中的噪声后获取合成语音,最后使用一个短时后滤波器增强合成语音的质量;本发明方法的编码部分主要包括预处理方法、线性预测分析方法、线性预测逆滤波方法、基音检测与浊音度判决方法、残差谐波幅度确定方法、线性预测系数到线谱频率参数的转换方法和参数量化与编码方法;编码器的工作程序如下第一步,输入语音经预处理模块去除输入信号的直流成分;第二步,先对去除直流的语音信号加240点哈明窗,然后对加窗的语音进行自相关估计,最后获取线性预测系数;第三步,将第二步得到的线性预测系数利用常规方法转换成线谱频率参数;第四步,用最新技术中的一步插值预测矢量量化方法量化线谱频率参数;第五步,当前帧和前一帧量化的线谱频率参数线性内插到当前的4个子帧中,每子帧内插的线谱频率参数再变回到线性预测系数,通过逆滤波器求得当前帧的线性预测残差信号,另外,当前帧最后一个子帧内插的线性预测系数用于计算将来帧的残差信号,这个未来帧的残差信号将用于当前帧残差谐波幅度的提取;第六步,利用基于波形相关法的语音信号基音周期检测方法这一最新技术、在去除直流的输入信号上进行基音周期检测和浊音度估计;该方法的应用中,在按上述预处理、相关系数估计和后处理步骤求得三个窗内的最优延迟后,再用下面的阀值和逻辑从三个窗获得的最优延迟中得到当前帧的延迟估计;令(τ1,ρ1), (τ2,ρ2)和 (τ3,ρ3)分别为对应三个叠接窗的最优延迟和相关系数,则当前帧最终的基音周期估计 按如下逻辑获得t1=ρ2/ρ1,t2=ρ2/ρ3,t3=ρ1/ρ2,t4=ρ3/ρ2If(t1>1.8 and t2>1.8或t3>1.8 and t4>1.8)τ^opt=(τ1+τ3)/2,ρ=(ρ1+ρ3)/2]]>Elseτ^opt=τ2,ρ=ρ2]]>这里 的值为整数,用7比特量化;在本发明的谐波激励线性预测语音编码法中,无论是何种类型的语音帧都要给出确切的浊音度值pv,这个pv将语音信号分为两个带,pv决定了这两个带的分界频率,在分界频率以下的频谱看作是周期信号频谱,而在分界频率以上的频谱看作是类噪声频谱;这里pv由预处理后的语音信号能量Elpf和相关系数ρ共同确定;如果Elpf小于给定的阀值,则直接令pv等于零,根据常规的听觉测定分析,设此帧的基音频率为100Hz(80个样点);如果Elpf大于给定的阀值,则pv由ρ确定;第七步,根据上述步骤得到的预测残差信号和基音周期,估计残差谐波;估计完谐波幅度后,对其进行归一化处理,以便于分别量化;第八步,将量化的基音周期、浊音度、残差谐波幅度、归一化增益和线谱频率参数进行二进制编码,并将比特流送入信道或存入媒质,供译码器用;本发明方法的译码部分主要包括参数解码方法、参数内插方法、残差信号重建方法、线谱频率参数到线性预测系数的转换方法、语音合成方法、后滤波和自动增益控制方法;参数内插模块完成基音周期、浊音度、残差谐波幅度、归一化增益和线谱频率参数的内插工作;译码器的工作程序如下第一步,参数解码模块根据接收到的比特流,在译码器的5个码书中得到对应的基音周期、浊音度、残差谐波幅度、归一化增益和线谱频率参数的实数值;第二步,根据译码端恢复的谐波幅度和基音周期,用如下的谐波模型重建线性预测残差信号e(n)=Σk=1L(n)Ak(n)cos(kφ(n)+θk(n))]]>其中 这里L(n),pv(n,k)和Ak(n)分别为在样点n处的谐波个数、浊音度和第k个去归一化的谐波幅度;D(k)是一个固定相位谱,它来自于男性讲话者的某帧浊音语音信号,从而保证D(k)的维数大于等于给定的最大谐波数,对于低于分带频率的谐波,其谐波相位等于固定值,而对高于分带频率的谐波,其谐波相位是均匀分布的随机数;令样点n处的基音周期值为P(n),则每个样点处的相位φ(n)可通过如下逐点迭代获得φ(n)=φ(n-1)+2πP(n)]]>为了重建残差信号e(n),需要知道每个样点处的谐波幅度及其基音周期长度,本发明使用线性内插方法来增样谐波幅度;第三步,将线谱频率参数在四个子帧线性内插,再将4个内插的线谱频率参数转换为线性预测系数,得到了4个子帧的合成滤波器系数;第四步,将重建的线性预测残差信号e(n)经过合成滤波器,得到合成语音;第五步,使用传统的短时后滤波器增强合成语音的质量;第六步,使用自动增益控制技术保证后滤波前后合成语音信号的平均能量不变。
2.根据权利要求1所述的2.3kb/s谐波激励线性预测语音编码(HE-LPC)方法,其特征在于,所述的编码器的工作程序中第二步的具体步骤为先对去除直流的语音信号加240点哈明窗,窗的中心是位于当前帧的右边界,即窗覆盖了前一帧的120个样点和当前帧的120个样点,然后对加窗的语音进行自相关估计,并使用莱文逊-杜宾递归算法获取10阶线性预测系数,最后用0.998k,k=1,…,10乘以线性预测系数来获取30HZ共振峰带宽展宽的线性预测系数;第五步中,当前帧最后一个子帧内插的线性预测系数用于计算将来帧的40个样点的残差信号,这40个样点将用于当前帧残差谐波幅度的提取;第七步估计残差谐波的具体步骤为,首先,用256点FFT将预测残差信号转换到频域以便求得谐波幅度;其次,用类似于SEEVOC的方法估计残差谐波幅;由于谐波个数随基音周期变化,本发明中利用了线性预测残差谱趋于平坦的特性,通过对残差谐波幅度截断来获取固定的10维矢量;在译码端,高于10维的谐波用译码的10维矢量元素的均值统一表示;这个截断的10维矢量码书用LBG方法训练获得,码书体积为512(9比特码书);归一化增益用8比特在对数域标量量化。
3.根据权利要求1所述的2.3kb/s谐波激励线性预测语音编码方法,其特征在于,所述的译码器工作程序中,本发明使用简单的线性内插方法来增样谐波幅度,是指当在两个等维的谐波幅度间完成增样时,可直接进行内插;然而,当谐波幅度的长度不同和基音周期加倍/减半发生时,还需要额外的处理,以便保证平滑内插;下面描述三种情况下谐波幅度内插和基音周期内插的过程(1)等维情况下谐波幅度和基音周期的内插此时,当前帧和前一帧具有相同的基音周期P,如果用n0和n1表示内插区间分界处的时刻,则可以确定时刻n处的瞬时基音周期P(n,m)和瞬时谐波幅度Ak(n,m)分别为P(n,m)=(n1-nn1-n0)P(n0,m)+(n-n0n1-n0)P(n1,m)n0≤n≤n1,0≤m<N]]> 式中N为分析帧长,n1-n0=N;由于边界点处的谐波幅度具有相同的长度,所以,它们之间内插得到的谐波幅度也具有相同的长度,即基音轮廓为一常数;(2)不等维情况下谐波幅度和基音周期的内插在这种情况下,内插前要将短的谐波幅度维数调整到与长的谐波幅度相同,这等价于对短的谐波幅度系数添零;完成添零工作后,即可用等维情况下的内插公式获得瞬时基音周期和瞬时谐波幅度;为了避免这种过程得到的内插基音周期值可能和内插的谐波幅度维数不同的情况,将内插的谐波幅度维数截断到和内插的基音周期长度一致;(3)基音加倍/减半情况下谐波幅度和基音周期的内插如果当前帧的谐波幅度维数比原来帧的谐波幅度维数长或短很多,则很可能发生了基音加倍/减半,这时本发明使用前后帧基音周期比值因子C作为基音加倍/减半判决准则;如果在帧间基音确实发生了加倍/减半(C>1),则将较短的谐波幅度和基音周期重复整数倍,使其最大可能地与较长的谐波幅度和基音周期匹配;这等价于在原来的诣波间插入零幅度谐波;插入零幅度谐波后,将谐波幅度和基音周期按不等维情况进行内插即可;另外,浊音度pv(n)的内插方法类似于等维情况下基音周期的内插公式,谐波数L(n)由内插的后的基音周期得到,即 ;为了增强相位轨迹的准确性,用于相位轨迹φ(n)计算的瞬时基音周期不再取为整数;由于φ(n)是一个不断增大的函数,为防止φ(n)的溢出,当φ(n)值增大到比2π大时,就从φ(n)值中减去2π。
全文摘要
2.3kb/s谐波激励线性预测语音编码方法属于语音信号处理技术领域。本发明由语音采集系统将所需的语音信号输入计算机处理器中,完成对语音信号处理。该方法特征在于使用基音检测方法和浊音度分析方法将LPC激励信号分裂为两个带,低带对应语音信号的浊音部分,而高带对应语音信号的清音部分,用统一的谐波模型来表达线性预测残差信号的谐波成分和类噪声成分,在统一的谐波激励模型中引入了一个来自男性讲话者浊音区的固定相位谱,并使用谐波激励模型参数内插方法,减少传统LPC声码器中的噪声后获取合成语音,最后使用一个短时后滤波器增强合成语音的质量。本方法使得语音编码方法对清/浊判决不敏感,使得合成的语音质量自然平滑,无变调现象发生。
文档编号G10L19/00GK1424712SQ0215667
公开日2003年6月18日 申请日期2002年12月19日 优先权日2002年12月19日
发明者鲍长春 申请人:北京工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1