增强型波形内插编码器的制作方法

文档序号:7504959阅读:209来源:国知局
专利名称:增强型波形内插编码器的制作方法
有关专利申请的交叉参考文献本专利申请要求1998年12月1日申请的60/110,522号和1998年12月1日申请的60/110,641号临时专利申请的权益。
WI编码器利用非理想低通滤波器对慢慢展开的波形(SEW)进行向下采样和向上采样。在本发明的另一个实施例中,提供一种新型的AbS SEW量化方案,其将非理想滤波器考虑在内。由此在重构的和原始的SEW之间获得了良好的匹配,这在转换时最为显著。
在WI编码器中用高质量再现语音时音节准确度是关键性的。本发明仍有另一实施例提供一种基于可变分段边界的新型搜索技术;它可用于自动跟踪过渡期间最能出现的音节周期或迅速可变音节的其它分段。起始期间这些信号常被涂抹(smeared)。要缓解该问题,本发明的又一个实施例提供一种基于时间加权的新型转换预测性AbS增益VQ方案。
尤其是,本发明提供一种方法,其用于在低数据速率下输入信号的内插编码,其中可存在显著的音节传递性,那些信号具有展开的波形,该方法至少包括一个,并最好包括以下所有步骤(a)SEW的AbS VQ,以此通过获得在波形的原始序列及量化和内插的波形序列之间累积的加权失真来缩小信号中的失真;(b)分散相位的AbS量化;(c)使用频域音节搜索和时域音节搜索自动跟踪信号中最可能出现的音节周期;(d)在信号增益的AbS VQ中包括时间加权,以此强调输入信号中的局部高能量事件;(e)为信号增益的AbS VQ中的矢量量化器代码本上设置高相关和低相关合成滤波器,由此在信号波形和代码本波形之间为代码本矢量添加自相关性并使相似性最大化;(f)使用信号增益AbS VQ中的每一个增益值以获得由预定数目的值组成的多个形状,并将所述形状与具有所述预定数目值的形状的矢量量化代码本进行比较,所述预定数目例如在2-50的范围,最好是5-20的范围内;以及(g)使用一种编码器,其中将多个数位,如4位,分配给SEW分散相位。
本发明的方法通常可用于任何波形信号,并且对语音信号是特别有用的。在SEW的AbS VQ步骤中,通过在波形的原始序列和量化及内插波形的序列之间获得累积的加权失真来缩小信号中的失真。在分散相位的AbS量化步骤中,至少提供包含预定波形的数量和相位信息的代码本。粗略调整输入的线性相位,然后将从一个或多个代码本中包含的数量和相位信息中再现的多个波形进行迭代移位和对比。选定与迭代移位输入中的一个匹配得最好的再现波形。
在自动跟踪信号中最可能出现的音节周期的步骤中,本发明包括搜索时域音节,确定所述时域音节分段的边界,通过反复地收缩和扩大分段使边界的长度最大化,并通过分段的移位使相似性最大化。最好是在100赫兹及500赫兹分别进行搜索。
AbS SEW量化通常在WI编码器中,由于用非理想低通滤波器进行向下采样和向上采样,而使SEW发生失真。为了缩小失真,使用在

图1中示出的AbS SEW量化方案。考虑到在输入的SEW矢量rm和内插矢量 之间的累积加权失真Dw1,而给出以下公式DwI(r^M,{rm}m=1M+L-1)=Σm=1M[rm-r~m]HWm[rm-r~m]+Σm=M+1M+L-1[1-α(tm)]2[rm-r~M]HWm[rm-r~M]--(1)]]>其中第一个求和是许多电流失真的和,而第二个求和是超前失真的和。H指的是厄米特(转置+复数共扼),M是每帧的波形数,L是波形的超前数,α(t)是在范围0≤α(t)≤1中的某种递增内插函数,而Wm是对角矩阵,其元素Wkk是第K次谐波的组合频谱加权与合成,Wkk定义为wkk=1K|gA(z/γ1)A^(z)A(z/γ2)|2;k=1,..,K--(2)]]>z=ej(2πP)k]]>其中p是音节周期,k是谐波数,g为增益,A(z)和 分别为输入和量化的LPC多项式,而频谱加权参量满足0≤γ2<γ1≤1。还可以略去谐波数目的倒数,即,1/K参量,增益g参量,或输入和量化LPC多项式的另一种组合,即A(z)和 参量。
内插SEW矢量给定为r~m=[1-α(tm)]r^0+α(tm)r^M;m=1,..,M---(3)]]>
其中t为时间,m是每帧的波形数,而 和 分别为以前和现在的帧的量化SEW。参量α是以0至1递增的线性函数。可以指出方程(1)中累积的失真等于模拟失真和量化失真之和DwI(r^M,{rm}m=1M+L-1)=DwI(rM,opt,{rm}m=1M+L-1)+Dw(r^M,rM,opt)--(4)]]>其中量化失真定义为Dw(r^M,rM,opt)=(r^M-rM,opt)HWM,opt(r^M-rM,opt)--(5)]]>将模拟失真最小化的最优矢量rM,opt定义为rM,opt=WM,opt-1Σm=1Mα(tm)Wm[rm-[1-α(tm)]r^0]+Σm=M+1M+L-1[1-α(tm)]2Wmrm---(6)]]>其中,WM,opt=Σm=1Mα(tm)2Wm+Σm=M+1M+L-1[1-α(tm)]2Wm---(7)]]>因此,通过使用方程(5)的失真,可以简化带有方程(1)的累积失真的VQ,而且r^M=argminr′i{(r′i-rM,opt)HwM,opt(r′i-rM,opt)}--(6)]]>在过渡中最为显著的是,获得了再现的和原始SEW之间的一种改进的匹配。图2表明,通过与内插优化SEW的结合获得了用于非稳态语音分段的改进的波形匹配。
AbS相位的量化分散相位矢量量化方案示于图3中。考虑到音节周期从剩余信号中提取,并且周期性地移位所以使其脉冲定位在零位。设其离散的傅里叶变换(DFT)用r表示;产生的DFT相位为分散相位φ,用该相位和幅度|r|一起来确定波形的脉冲形状。SEW波形r是具有复数DFT系数的矢量。复数可表示幅度和相位。量化后,将幅度量化的矢量 的分量乘以量化相位 的指数以产生量化的波形DFT, 将它从输入的DFT中减去便得到误差DFT。然后,通过使合成加权和对滤波W(z)/A(z)加权相组合而实现的误差DFT加权将该误差DFT变换到感性域。在粗略的线性相位调整中,编码器搜索将感性域误差能量最小化的相位,移动信号致使峰值定位于零时刻。然后使搜索期间的输入波形产生精细的周期性迁移,渐进地增加或减小线性相位,以消除在输入波形和量化波形之间的任何剩余相移。虽然如在图3中所示那样,在粗略线性相位调整后可立即在例如X和加(+)步骤之间的周期内随时进行精细的线性相位调整步骤,但相位分散量化的目的在于改进波形匹配。通过使用感性加权失真可获得有效的量化。Dw(r,r^)=(r-r^)HW(r-r^)--(7)]]>幅度在感性上比相位更有意义;因而应首先被量化。另外,如果首先对相位进行量化,则对相位的非常有限的有效位分配将导致虽然略有利于并不那么重要的波形匹配的改进,但却会过度降低频谱匹配的数量。对于以上失真,量化的相位矢量定义为 其中i是运行的相位代码本指数,而 是相应的对角相位指数矩阵,其中的i是运行的相位代码本指数,而相应的相位指数矩阵定义为 对相位量化的AbS搜索是以计算(8)每一个候选相位代码矢量为基础的。由于仅使用候选相位的三角函数,所以可以避免相位展开。为了对AbS相位进行量化,EWI编码器采用了优化的SEW,rM,opt和优化的加权WM,opt。
方程 等价地,量化的相位矢量可简化为 其中 是r(k)-第k级输入DFT系数的相位。对M矢量集合的平均整体失真量是 对将方程(11)中整体失真最小化的第j级群集的第k次谐波相位的质心(centroid)方程[A.Gersho等人,“矢量量化和信号压缩”,KluwerAcademic Pnblishers,1992]定义为 这些质心方程利用了相位的三角函数,并且因而不要求任何相位展开。可以用|r(k)m|2代替 相位矢量的大小取决于音节周期,因此能提供大小可变的VQ。在WI系统中可能的音节周期分为八个区域,对音节周期的每一个区域设计了一个最优代码本,从而使矢量的大小小于用零填充的每一个区域的最大音节周期。
音节随时间的变化使量化器在音节区域代码本之间转换。为了达到平滑的相位变化,每当这种转换发生时,需使用重叠的训练群集器。
相位量化方案构成WI编码器的一部分,并用于量化SEW相位。可在下列条件下测试建议的相位VQ的真实性能·定相位;每20毫秒0-6位,0-300位/秒的位速率。
·选定8个音节区域,并对每个区域进行训练。
·修正IRS(MIRS)滤波的语音(男性+女性)·训练的集合99,325个矢量。
·测试的集合83,099个矢量。
·非MIRS滤波的语音(男性+女性)。
·训练的集合101,325个矢量。
·测试的集合95,466个矢量。
·幅度并未量化。
量化器的分段加权信噪比(SNR)示于图4中。提出的系统达到了约14dBSNR,其象6位非MIRS滤波的语音一样低,并接近约10dB的MIRS滤波语音。
近来WI编码器采用了从男性讲演者提取的分散相位[上述的Kleijn等人;Y.Shohan,“在1.2至2.4KBPS的低复杂性内播语音编码,”IEEE ICASSP‘97,PP1599-1602,(1997)]。进行主观的A/B测试以将仅使用4位的本发明的分散相位与从男性提取的分散相位进行比较。测试数据包括16个MIRS语音句,其中8个是女性讲演者的,8个是男性讲演者的。测试期间,所有文件对以交替顺序播放两次,听者可选择任一种系统,或不做选择。语音材料用WI系统合成,其中只有分散相位在每20毫秒时量化。二十一名听众参与测试。图5中所示的测试结果显示,通过使用4位相位VQ,改善了语音质量。对女性讲演者来说,改善程度比对男性讲演者更大。这可作如下解释,对女性来说,每个矢量采样具有较高的位数,女性语音的频谱屏蔽较少,女性语音有大量的相位分散变化。用于分散相位量化的代码本设计包括在利用平滑相位变化的强度和波形匹配之间的折衷。每个音节值的局部优化代码本平均来说可改善波形的匹配,但偶尔可能引起临时人为现象的急剧和多余变化。
音节搜索。
如图6所示,EWI编码器的音节搜索由在100赫兹下采用的频谱域搜索和在500赫兹下采用的时域搜索组成。频谱域音节搜索是以谐波匹配为基础的[上述McAuley等人;上述Griffin等人;和E.Shlomot,V.Cuperman,以及A.Gersho,“在4kbps的杂化语音编码”,IEEE语音编码研究组,PP37-38(1997)]。时域音节搜索是以改变分段边界为基础的。即使在具有迅速改变音节的过渡或其它分段期间(如语音起动或偏移或快速变化的周期性),也允许自动跟踪最可能出现的音节周期。最初,通过使加权语音Sw(n)的归一化相关性最大化,每2毫秒搜索一次ni时的音节周期P(ni),即P(ni)=argmaxτ,N1,N2{ρ(ni,τ,N1,N2)}=]]>argmaxτ,N1,N2{Σn=ni-N1Δni+τ+N2Δsw(n)sw(n-τ)Σn=ni-N1Δni+τ+N2Δsw(n)sw(n)Σn=ni-N1Δni+τ+N2Δsw(n-τ)sw(n-τ)}--(12)]]>其中τ是分段的移位量,Δ是为计算简单起见在求和中使用的某个增量分段,而0≤Nj≤[160/Δ]。然后,由公式Pmean=Σi=15ρ(ni)P(ni)/Σi=15ρ(ni)---(13)]]>每10毫秒计算一次加权的平均音节值;其中ρ(ni)与P(ni)具有归一化相关关系。上述值(160,10,5)用于特定的编码器,并用于说明。方程(12)表示的是时域音节搜索及图6的时域音节细化的程序块。方程(13)表示的是图6的加权平均音节程序块。
增益量化在爆破音和开始向下采样及内插期间,增益轨迹常被涂抹。这个问题已提出且如图7所示,根据本发明的一个实施例使语音清晰性得到改善,所述实施例提出了一种新型转换预测AbS增益VQ技术。引入转换预测便于不同增益的相关电平使用,并减少了增益异常的出现。为了改善语音清晰度,尤其是对于爆破音和开始阶段,需将时间加权与AbS增益VQ相结合。加权是时序增益的单调函数。分别使用32个矢量的两个代码本。每个代码体具有相关的预测器系数Pi,及直流偏移量Di。量化的靶矢量是消除了直流的对数增益矢量,其表示为 对代码本的所有矢量Cij(m)进行最小加权均方误差(WMSE)的搜索。通过使量化矢量Cij(m)经过合成滤波器获得量化靶i(m)。由于每一个量化靶矢量可具有不同的清除直流的值,所以在状态更新后将量化的直流分量暂时存放在滤波器的存贮器中,而在滤波完成前将下一个量化矢量的直流分量从存贮的分量中减去。因预测器系数是已知的,所以可直接用VQ来简化运算。合成滤波器将自相关性加到代码本矢量上。试着完成所有组合,使用高的还是低的自相关性取决于哪一个产生最好的结果。
位分配编码器的位分配示于表1中。帧长度为20毫秒,而且从每一帧提取十个波形。对每一帧的音节和增益进行两次编码。
表1EWI编码器的位分配
主观结果进行主观A/B测试,将本发明的4kbps EWI编码器和在4kbps的MPEG-4及G.723.1对比。测试数据包括24个MIRS语音句,其中12个是女性讲演者的,12个是男性讲演者的。14个听众参与测试。列在表2至4中的测试结果表明,EWI主观质量超过MPEG在4kbps时的结果及G.723.1在5.3kbps时的结果,而且它比G.723.1在6.3kbps时的结果稍好。
表2
表2显示了主观A/B测试的结果,其用于在4kbps WI编码器和4kbpsMPEG-4之间进行对比.相对于95%的可靠性WI应优先选择在[58.63%,68.75%]。
表3
表3显示了主观A/B测试的结果,其用于在4kbps WI编码器和5.3kbps G.723.1之间进行对比。相对于95%的可靠性WI应优选在[54.17%,64.88%]。
表4
表4示出了主观A/B测试的结果,其用于在4kbps WI编码器和6.3kbpsG.723.1之间进行对比。相对于95%的可靠性WI应优选在[48.51%,59.23%]。
本发明结合了几种新技术,其能增强WI编码器的性能、分散相位合成分析的矢量量化、SEW的AbS优化、过渡的特定音节搜索、及转换预测合成分析的增益VQ。这些特性改进了算法及其强度。测试结果表明,EWI编码器的性能稍稍超过在6.3kbps时的G.723.1,因而至少在清晰的语音条件下,EWI非常接近于长途电话的质量。
权利要求
1.一种用于在低数据速率下内插编码输入信号的方法,其具有显著的音节传递性,且其中所述信号具有慢慢展开的波形,所述方法至少包括下列步骤之一(a)慢慢展开波形的合成分析矢量量化;(b)分散相位的合成分析量化;(c)同时使用频谱域音节搜索和时域音节搜索自动跟踪最可能出现的音节周期;(d)在信号增益的合成分析矢量量化中含有时间加权;(e)在信号增益合成分析的矢量量化中为矢量量化代码本设置高相关和低相关合成滤波器,从而为代码本矢量增加自相关性;(f)在信号增益的合成分析矢量量化代码本中使用每一个增益值;以及(g)使用一个编码器,其中在编码器中有多个数位分配到慢慢展开的波形相位上。
2.如权利要求1所述的方法,其中所述信号是语音。
3.如权利要求1所述的方法,其中所述方法含有从步骤a至步骤g的每一个步骤。
4.如权利要求1所述的方法,其中在慢慢展开的波形合成分析矢量量化的步骤中,通过在波形的原始序列和量化及内插波形的序列之间获得累积的加权失真来减小信号的失真。
5.如权利要求1所述的方法,包括为预定的波形提供至少一个包含数量和位相信息的代码本而且通过粗略调整输入的线性相位,然后使所述粗略调整的线性相位输入迭代移位,将由包含在所述至少一个代码本中的数量和相位信息重现的多个波形与迭代移位的输入做比较,并选择与迭代移位的输入之一匹配最好的重现波形来完成分散相位合成分析的量化步骤。
6.如权利要求1所述的方法,其中在自动跟踪信号内最可能出现的音节周期的步骤中搜索时域音节的方法,包括确定所述时域音节的分段边界,选择最佳的边界并通过分段的迭代移位,收缩和扩大分段使相似性最大化。
7.如权利要求1所述的方法,其中在自动跟踪信号内最可能出现的音节周期的步骤中,频谱域音节和时域音节的搜索分别在100赫兹和500赫兹进行。
8.如权利要求1所述的方法,其中在信号增益的合成分析矢量量化中时间加权的步骤以时间函数的形式变化,从而在输入信号中突出局部高能事件。
9.如权利要求1所述的方法,其中在信号增益的合成分析矢量量化中的高和低相关合成滤波器之间进行选择,使增益波形和代码本波形之间的相似性最大化。
10.如权利要求1所述的方法,其中用信号增益的合成分析矢量化中的每个增益值来获得由预定数目的值构成的多个形状,并将所述形状与具有所述预定数目值的形状矢量量化代码本进行比较。
11.一种用于在低数据速率下内插编码输入信号的方法,其中所述信号具有慢慢展开的波形,该方法包括对慢慢展开的波形进行合成分析的矢量量化。
12.如权利要求11所述的方法,其中通过在波形的原始序列和量化及内插波形的序列之间获得累积的加权失真来减小信号中的失真。
13.一种用于在低数据速率下内插编码输入信号的方法,其中该信号具有带分散相位的慢慢展开的波形,该方法包含分散相位合成分析的量化。
14.如权利要求13所述的方法,包括提供至少一个包含预定波形振幅和相位信息的代码本,粗略地调整输入的线性相位,然后将所述粗略调整的线性相位输入迭代移位,将移位的输入与由包含在所述至少一个代码本中的振幅和相位信息再现的多个波形进行对比,并选择出与迭代移位的输入匹配得最好的再现波形。
15.如权利要求14所述的方法,其中特定矢量集合M的平均整体失真度是 并包括通过使用下列用于第j个群集的第k次谐波相位的公式 使整体失真最小化的步骤。
16.如权利要求14所述的方法,其中特定矢量集M的平均整体失真度为 并包括通过使用下列用于第j级k次谐波相位的公式使其整体失真最小化的步骤
17.一种用于在低数据速率下内插编码输入信号的方法,包括使用频谱域音节搜索和时域音节搜索自动跟踪信号中最可能出现的音节周期。
18.如权利要求17所述的方法,其中搜索时域音节的方法包括确定所述时域音节的分段边界,选定通过重复地收缩和扩大分段并使分段移位相似性最大化的边界位置。
19.如权利要求18所述的方法,其中搜索时域音节的方法是根据公式P(ni)=argmaxτ,N1,N2{ρ(ni,τ,N1,N2)}=]]>argmaxτ,N1,N2{Σn=ni-N1Δni+τ+N2Δsw(n)sw(n-τ)Σn=ni-N1Δni+τ+N2Δsw(n)sw(n)Σn=ni-N1Δni+τ+N2Δsw(n-τ)sw(n-τ)}]]>完成的,其中τ是分段中的移位,Δ是为简化计算在求和时使用的某个增量分段,而Nj是用于编码器计算用的序数。
20.如权利要求19所述的方法,其包括根据以下公式获得加权平均音节的步骤Pmean=Σi=15ρ(ni)P(ni)/Σi=15ρ(ni)]]>其中ρ(ni)与P(ni)有归一化相关关系。
21.如权利要求19所述的方法,其中在所述自动跟踪最可能出现的音节周期的步骤中进行的频谱域音节搜索和时域音节搜索分别在100赫兹及500赫兹完成。
22.一种用于在低数据速率下内插编码输入信号的方法,其包括在信号增益的合成分析矢量量化中的时间加权。
23.如权利要求22所述的方法,其中时间加权随时间的函数变化,从而加强在输入信号中的局部高能事件。
24.一种用于在低数据速率下内插编码输入信号的方法,其包括在信号增益的合成分析矢量量化中为矢量量化代码本设置高相关和低相关性合成滤波器,从而为代码本矢量添加自相关性。
25.如权利要求24所述的方法,其中在高和低相关性合成滤波器之间进行选择,以使信号波形和代码本波形之间的相似性最大化。
26.一种用于在低数据速率下内插编码输入信号的方法,其包括在信号增益的合成分析矢量量化中使用每一个增益值。
27.如权利要求26所述的方法,其中用每一个增益值获得由预定数目的值构成的多个形状,并将所述形状和具有所述预定数目值形状的矢量量化代码本对比。
28.如权利要求27所述的方法,其中所述预定数目的值在2至50个的范围内。
29.如权利要求28所述的方法,其中所述预定数目的值在5至20个的范围内。
30.一种用于在低数据速率下内插编码输入信号的方法,其中所述信号具有慢慢展开的波形,所述方法包括使用一个编码器,其中在编码器内将多个数位分配给慢慢展开的波形相位。
31.如权利要求30所述的方法,其中将4位分配至编码器中慢慢展开的波形相位。
全文摘要
一种增强的合成分析波形内插语音编码器能在4Kbps下工作,其特性包括慢慢展开的波形合成分析量化,分散相位的合成分析矢量量化,用于过渡的特定音节搜索,及转换保护合成分析的增益矢量量化,主观质量测试表明在4kbps下它超过MPEG-4,在5.3kbps下超过G.723.1,而且在6.3kbps下它稍强于G.723.1。
文档编号H03M7/36GK1371512SQ99815704
公开日2002年9月25日 申请日期1999年12月1日 优先权日1998年12月1日
发明者奥狄德·戈特斯曼 申请人:加利福尼亚大学董事会
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1