相位量化方法和装置的制作方法

文档序号:7534189阅读:429来源:国知局
专利名称:相位量化方法和装置的制作方法
技术领域
本发明涉及一种用于在正弦波合成编码中检测和量化高次谐波分量相位的方法和装置。
在各种公知的用于音频信号(包括话音和声音信号)的编码方法中,信号通过采用人的心理声学特性和音频信号的时域和频域中的统计特性来被压缩。这些编码方法可以大概分为时域编码,频域编码和分析合成编码。
话音信号等的高效编码的例子包括诸如谐波编码这样的正弦编码,多频带振动(MBE)编码,子频带编码,线性预测编码(LPC),离散余弦变换(DCT)编码,修正DCT(MDCT)编码和快速傅立叶变换(FET)。
同时,在高效话音编码中,采用上述的MBE编码,谐波编码或正弦变换编码(STC)用于输入话音信号,或者采用正弦编码用于输入话音信号的线性预测编码残余(LPC残余),发送作为分析/合成元素的各正弦波(谐波)的频谱包络或幅度有关的信息。但是,相位没有被传递并且相位仅仅在合成时被适当地计算。
因此,出现的一个问题是,再现或译码的话音波形不同于原始的输入话音的波形。即,为了实现原始话音信号波形的复制,就需要逐帧地检测各谐波分量的相位信息并且高效地量化该信息以便传送产生的量化信号。
因此,本发明的一个目的是提供一种相位量化方法和装置,借此能够产生原始波形的复制。
利用根据本发明的相位量化方法和设备,从输入话音信号中获取的信号的各谐波的相位根据由计算发现的指定位数被量化,以便高效量化从话音信号中获取输入信号波形的相位信息。
输入信号波形可以是话音信号波形本身或者是话音信号的短期预测残余的信号波形。
而且,利用根据本发明的相位量化方法和设备,为了高效实现相位量化,如果需要的话,在固定延迟分量分离的情况下,各谐波的最佳指定量化位数据根据输入话音信号的频谱幅度特性计算,并且输入话音信号的短期预测残余信号和输入话音信号的谐波分量的相位被标量量化。
利用根据本发明的相位量化方法和设备,为了高效实现相位量化,根据通过计算发现的指定位数,从输入话音信号获取的信号的各谐波分量的相位被量化。
通过上述配置,译码侧能够检测原始波形的相位信息,以便改进波形的再现性。特别地,如果本方法和设备用于正弦合成编码的话音编码,则能够改进波形的再现性,以防止非自然的合成话音。


图1是一示意方框图,示出了其中采用根据本发明的相位检测方法和装置的一实施例的一语音编码装置的例子。
图2是一示意方框图,示出了实施本发明的相位量化设备的结构。
图3是一示意方框图,示出了在实施本发明的相位量化设备中采用的相位检测设备的结构。
图4是一流程图,用于说明在实施本发明的相位量化方法中采用的相位检测方法。
图5是一波长图,示出了用于相位检测的输入信号的一个例子。
图6是一波形图,示出了在一个声调的波形数据中根据零填充获得的典型信号。
图7示出一个检测相位的例子。
图8说明了在连续相位中的内插处理的例子。
图9说明了在非连续相位中的内插处理的例子。
图10是一流程图,说明了用于线性相位内插的处理序列的例子。
图11示出了从话音信号的LPC中计算的频谱幅度特性的例子。
图12是一流程图,示出了量化位分配计算的例子。
图13是一接续图12的流程图,示出了量化位分配计算的例子。
图14示出各个谐波的量化位分配的例子。
图15A至15D示出了在该分配位的基础上的被检测相位的标量量化的例子。
图16是一示意方框图,示出了根据本发明的另一实施例的相位量化设备。
图17A和17B示出了预测相位差错的标量量化的例子。
图18A至18F示出了根据频段的预测相位差错的分布。
图19是一示意方框图,示出了根据本发明的另一实施例的相位量化设备的结构。
图20示出了一用于寻找作为至图19的相位量化设备的输入的线性相位近似分量的结构的例子。
图21示出了一未缠绕相位的例子。
图22示出了一根据最小平方相位特性获得的相位近似相位特性的例子。
图23示出了从线性近似相位特性中发现的典型延迟。
图24是一流程图,示出了相位未缠绕的例子。
图25示出了精细相位结构和量化的精细结构。
图26是一示意方框图,示出了根据本发明的另一实施例的相位量化设备的结构。
图27说明了固定相位延迟分量的预测处理。
图28示出在获得相位信息的情况下的正弦波合成的例子。
图29示出了在获得相位信息的情况下,在译码侧根据正弦波合成而获得的信号波形的例子。
下面将参照附图,详细描述本发明的最佳实施例。
根据本发明的相位量化方法和装置用于正弦编码,例如多频带编码(忸E),正弦变换编码(STC)或者谐振编码,或者用于采用对线性预测编码(LPC)残留的正弦编码的编码系统。
在说明本发明的实施例之前,解释一用于实现正弦波分析编码的话音编码装置,该装置作为一适用于根据本发明的相位量化方法或相位量化设备的设备。
图1示意性地示出了一适用于相位量化设备或相位量化方法的话音编码装置的例子。
图1的话音信息编码装置包括第一编码部件110,用于对输入信号进行诸如谐振编码等正弦分析编码,以及第二编码部件120,该部件120用于使用分析-合成方法对输入信号采用最佳向量的闭环搜索的向量量化进行代码激励线性编码(CELP)。该话音信号编码装置使用第一编码部件110编码输入信号的声音部分(V部分),而同时使用第二编码部件120编码输入信号的非声音部分(UV部分)。根据本发明的相位量化的一个实施例适用于第一编码部件110。在图1的实施例中,诸如线性砌编码(LPC)残留等输入话音信号的短期预测误差被发现并且其后被送至第一编码部件110。
在图1中,送至输入端101的话音信号在被送至第一编码部件110的开环声调搜索部件111的同时,被送至LPC反向滤波器131和LPC分析部件132。通过自相关方法,LPC分析部件132将话音信号与一汉明窗相乘,输入话音波形的长度与作为一个块的大约256个样值对应,以便找到线性预测因子,即所谓的α参数。作为数据输出单位的成帧间隔被设置为大约160个样值。例如,如果输入话音信号fs的采样频率为8kHz,则帧间隔为160个样值或20ms。
来自LPC分析部件132的α参数被例如α-LSP变换等转换成线性频谱对(LSP)参数。即,发现为直接型滤波器因子的α参数被转换为例如十,即五对LSP参数。该转换通过例如newton-Rhapson方法等实现。转换至LSP参数的理由是LSP参数的内插特性好于α参数。LSP量化器133利用矩阵或向量量化对LSP参数进行处理。同时,帧内差可以在向量量化之前首先获取,或者将多个帧收集在一起以执行矩阵量化。这里,20ms设为一帧并且每20ms计算的LSP参数被进行矩阵或向量量化处理。
量化的LSP向量被进行例如LSP内插或变为用于LPC的α参数的LSP-α转换等处理,然后被送到知觉加权LPC合成滤波器122和知觉加权滤波器125,同时,LSP量化器133的量化输出,即LSP量化的指数,通过端子102被获取。
来自LPC分析部件132的α参数被送至知觉加权滤波器计算部件134,以寻找用于知觉加权的数据。这些加权数据被送到知觉加权LPC合成滤波器122和第二编码部件120的知觉加权滤波器125。
采用上述的α参数,LPC反向滤波器131执行获取输入话音信号的线性预测残留(LPC残留)的反向滤波。LPC反向滤波器131的输出被送到例如第一编码部件110的离散余弦变换(DCT)电路的正交变换部件112和相位检测部件140,该第一编码部件110执行例如谐波编码等正弦波分析编码。
来自LPC分析部件132的α参数被送至知觉加权滤波器计算部件134,以寻找用于知觉加权的数据。这些用于知觉加权的数据送至稍后所述的知觉加权向量量化器116、第二编码部件120的知觉加权LPC合成滤波器122和知觉加权滤波器125。
来自LPC分析部件132的α参数被送至知觉加权滤波器计算部件134,以寻找用于知觉加权的数据。这些加权被送到第二编码部件120的知觉加权滤波器125和知觉加权LPC合成滤波器122。
LPC反向滤波器131执行获取输入话音信号的线性预测(LPC)残留的反向滤波。LPC反向滤波器131的输出被送到第一编码部件110的例如离散余弦变换(DFT)电路等正交变换部件112和相位检测部件140,该第一编码部件110执行例如谐波编码等。
输入话音信号从输入端101被馈送到第一编码部件110的开环声调搜索部件111。开环声调搜索部件111获取输入信号的LPC残余以通过开环执行粗略的声调搜索。由此提取的粗略声调数据被送至高精度声调搜索部件113,其中的高精度声调搜索(精细声调搜索)通过如后所述的闭环操作实现。从该开环声调搜索部件111中,根据对LPC残留的自动校正的功率最大值规格化而获得的规格化的自动相关r(p)的最大值与该粗略声调数据一起被获取,并且被送至话音/非话音(V/UV)区分部件114。
高精度声调搜索部件113被馈送由开环声调搜索部件111提取的粗略声调数据和根据例如DFT等获取的频域数据。高精度声调搜索部件113以该粗略声调数据为中心和0。2至0。5的间隔将这些数据摆动±几个样值,以便逼近最优的子-小数的精细声调数据值。作为精细搜索技术,采用所谓的分析-合成方法,并且选择声调值使得合成的功率频谱将最接近原始话音的功率频谱。根据闭环搜索从高精度声调搜索部件146中获得的声调数据被送至频谱包络测定部件115、相位检测部件141和切换部件107。
根据作为LPC残留的正交变换输出的声调和频谱幅度,以各谐波及其集合的幅度的形式,频谱包络测定部件115测定频谱包络,并将结果送至高精度声调搜索部件113、V/UV区分部件114以及频谱包络量化部件116(知觉加权向量量化器)。
根据正交变换部件112的输出、来自高精度声调搜索部件113的最优声调、来自频谱包络测定部件115的频谱幅度数据并且根据来自开环声调搜索部件111的规格化的自动相关r(p)的最大直,V/U区分部件114执行上述的一个帧的V/UV区分。在MBE的情况下,V/UV区分的基于频段的结果的边界位置也可用作V/UV区分的条件。V/UV区分部件115的区分输出通过输出端子105被输出。
频谱包络测定部件115的输出或频谱包络量化部件116的输入配置有一数据量转换单位,该单位是一种采样率转换单位。该数据量转换单位的功能是,在考虑频率轴上的频段分割数根据声调而不同的情况下提供一包络幅度数据的常数|Am|,因而数据量是不同的。即,如果有效频段最高为3400kHz,是该有效频段根据声调被分成8至63个频段。因此,从频段至频段获得的幅度数据量|Am|也是从8至63而不同。因此,数据量转换单位转换变化的幅度数据量至固定的数据量,例如44个数据。
供给在频谱包络测定部件115的输出或频谱包络量化部件116的输入上的并且来自数据量转换单位的固定数量的,例如44个幅度数据或包络数据被频谱包络量化部件116以每个预定的数据量,例如每44个数据的方式聚集,以便形成向量,这些向量然后被进行加权向量量化处理。该加权根据知觉加权滤波器计算部件134的输出进行。来自频谱包络量化部件116的包络指数被送至切换部件107。
如后所述,相位检测部件141检测诸如相位等相位信息或固定延迟分量,用于每个正弦谐波的分析合成编码,并且发送相位信息至相位量化器142以便量化。该量化后的相位数据被送到切换部件107。
切换部件107根据来自V/UV区分部件115的V/UV区分输出而在第一编码部件110的声调、频谱包络的相位和向量量化指数以及如后所述的来自第二编码部件120的波形或增益之间切换,以便在输出端103上输出被选择的数据。
图2的第二编码部件120具有代码激励线性预测(CELP)编码的配置。该第二编码部件120采用闭环搜索执行时间轴的波形的向量量化,该向量量化采用利用加权合成滤波器122合成噪声代码本121的输出的分析-合成方法,第二编码部件120发送该被加权的话音至减法器123,通过知觉加权滤波器125将根据从传递的话音信号中获取的话音获取的差错发送至输入端101,发送该差错至距离计算电路124以便计算距离,并且搜索向量以便由噪声代码本121使该差错最小化。该CELP编码用于编码如上所述的非话音部分,并且来自噪声代码本121的作为UV数据的代码本指数通过切换部件107在输出端107上获取,该切换部件107在来自V/UV区分部件115的V/UV区分结果指示为非话音(UV)时切换。
下面将参照附图描述本发明的最佳实施例。
虽然根据本发明的相位量化方法和设备用于图1所示的话音信号编码装置的相位量化器142,但是显然,这不会限制本发明。
图2是实施本发明的相位量化设备的示意方框图。在该图中,相位检测部件12和标量量化部件13分别对应于图1的相位检测部件141和相位量化器142。
在图2中,送至输入端11的输入信号本身就是数字化的话音信号或者是数字话音信号的短期预测残留(LPC残留信号),例如来自图1的LPC反向滤波器131的信号。该输入信号被送至相位检测部件12,适于检测高次谐波的相位信息,以便检测这些谐波分量的相位信息。在图2中,φi表示i次谐波的相位信息。在该图和其它附图中,下标i表示相应的谐波次数。相位信息φi发送至用于标量量化的标量量化器13,使得相位信息的量化输出,即指数在输出端14中获取。在图2的输入端16中被供给了来自图1的高精度声调搜索部件113的声调信息pch。该声调信息被送至加权计算部件18。作为话音信号的LPC分析结果的LPC因子αi被馈送至输入端17。这里,量化和去量化的LPC因子αi被用作译码器再现的值。这些LPC因子αi被送至如后所述的用于根据相应谐波分量的频谱幅度计算权值wti的加权计算部件18。加权计算部件18的输出(权值wt)被送至用于计算最佳分配位数的位分配计算部件19,该分配位用于对输入话音信号的各谐波分量的量化。标量量化器13根据该位分配数bai量化来自相位检测部件12的各谐波分量的相位信息φi。
图3和图4分别是显示图2的相位检测部件12的实施例的结构和操作的示意方框图。
图3的输入端20等同于图2的输入端11并且是数字化话音信号本身或话音信号的短期预测残留信号(LPC残留信号),如上所述。如图4的步骤S21中所示,一波形削波部件21削波输入信号的一个声调部分。该操作是根据分析而切断与从该输入信号(话音信号或LPC残留信号)的一个块的分析点(时间点)n开始的一个声调周期对应的一些样值(声调延迟)pch。虽然在图5的实施例中的分析块长度是256个样值,但是这仅仅是示例性的并且不限制本发明。在图5中的横坐标表示根据采样数的分析块中的位置或时间,而分析点或时间点n的位置表示第n个采样位置。
对于被切断的一个声调波形信号,在步骤S22中的零-填充由零-填充部件22实现。该处理在前端布置与一个声调延迟对应的pch采样的信号波形并且在其余位置填充一些0,使得其信号长度将等于2N个样值,这里28=256个样值(其中0≤i≤N)。
S(n+1)(0≤i<pch)re(i)=0(pch≤i<2N)…(1)该零填充的信号串re(i)被设为实部并且一虚信号串被设为im(i),并且采用Im(i)=0(0≤i<2N)如图4的步骤S23所示,实数信号串re(i)和虚数信号串Im(i)被利用2N个点的快速傅立叶变换(FFT)进行处理。
如图4的步骤S24所示对于FFT的结果,计算其tan-1(aretan),以找到其相位。如果FFT结果的实数部分和虚数部分分别为Re(i)和Im(i),则由于0≤i<2N的分量对应于在频率轴上的0至π(角频率)分量,因此,在频率轴上的相位φ(ω)的2N-1个点,其中ω=0-π,由下式(2)得到φ(i2N-1π)=tan-1(Im(i)Re(i))]]>(0≤i<2N-1)…(2)。
同时,由于以时刻n(采样)为中心的分析块的声调延迟为pch采样,因此在时刻n的基本频率(角频率)ω0为ω0=2π/pch…(3)M谐波以ω0的间隔布置在频率轴上的ω=0-π的范围内,数字M为M=pch/2…(4)根据tan-1处理器24找到的相位φ(ω)是由分析块的长度和采样频率所决定的在频率轴上的点2N-1处的相位。因此,为了寻找以基本频率ω0的间隔布置的谐波的相位,示于图4的步骤S25的内插处理由内插部件25实现。根据如上所述发现的2N-1点相位φ(ω),该处理通过内插处理等寻找m次谐波的相位φm=φ(mXω0),其中1<m≤M。随着内插,谐波的相位数据从输出端26上获得。
现在参照图8和9说明线性内插的情况,其中,id、idL、idH、phase L和phaseH表示为id=mXω0…(5)idl=[id]=floor(id)…(6)idH=[id]=ceil(id)…(7)phaseL=φ(idL2N-1π)]]>…(8)phaseH=φ(idH2N-1π)]]>…(9)这里的
表示不大于x的最大整数并且还可表示为floor(x),而
为大于x的最小整数并且还可表示为ceil(x)。
即,与找到的2N-1点的相位对应的频率轴上的位置由一整数(采样数)表示,并且,如果m次谐波的频率id(=mXω0)存在于这些2N-1点中的两个相邻位置idl和idH之间,则在m次谐波的频率id上的相位φm通过利用各个位置idl和idH的相应相位phaseL、phaseH的线性内插而被找到。用于该线性计算的等式如下φm=(idH-id)×(phaseL+2π)+(id-idL)×phaseH(phaseL<1/2π并且phaseH>1/2π)φm=(idH-id)×phaseL+(id-idL)×phaseH(其它情况)…(10)图8示出了简单地线性内插2N-1个点的两个相邻位置的phaseL4和phaseH以计算在m次谐波id的位置上的相位φm。
图9示出了考虑到相位非连续性的内插处理的例子。特别地,计算tan-1获得的相位φm在2π周期内是连续的,在m次谐波的位置上的相位φm由线性内插计算,该线性内插采用在频率轴上位置idL处的相位phaseL(点a)加2π(位置b)和在位置id的相位或者phaseH。用于通过加2π保持相位连续性的处理称作相位未缠绕(phaseunwrapping)。
在图7的曲线中,X标记表示找到的每个谐波的相位。
图10是一个流程图,示出了用于通过如上所述的线性内插计算每个谐波的相位φm的处理序列。在图10的流程中,在第一步骤S5l中,谐波数m被初始化(m=10)。在接下来的步骤S52中,对m次谐波计算上述的值id、idL、idH、phaseL和phaseH。在接下来的步骤S53中,判别相位的连续性。如果在步骤中发现相位是非连续的,则处理转移至步骤S54,否则,处理转移至步骤S55。即,如果发现相位是非连续的,则处理转移至步骤S54,以便由线性内插找到m次谐波的相位φm,该线性内插采用在频率轴上位置idL处的相位phaseL加2π和在位置idH的相位或者PhaseH。如果发现相位是连续的,则处理转移至步骤S55,该步骤简单地线性内插phaseL和phaseH以便找到m次谐波的相位φm。在下一步骤S56中,检查谐波数是否达到M。如果结果为NO(否),则m递增(m=m+1),返回到步骤S52。如果结果为YES(是),则处理结束。
现在回到图2,在其中通过相位检测部件12发现的各谐波的相位信息由标量量化器13量化的情况下,说明用于话音信号的各谐波的最佳量化位数的方式。在下面的描述中,与i次谐波相关联的相位或因子由下标i表示。
当前帧的基频(角频率)为如公式(3)所示的ω0=2π/pch…(11)。
为了表示进行量化的谐波的频率范围,引入一实常数bw(0<bw≤10)。在频率范围0≤ω≤bwXπ内存在的谐波数M表示为下式(12)M=[bw×pch2]...(12)]]>利用将P阶量化LPC因子αi(1≤i≤P)送到图2的端子17,用于各谐波的最佳位数由加权计算部件18利用于分配位的计算部件19计算。该最佳量比位分配还能够根据每个谐波中的音素长度来确定。特别地,它能够通过根据量化LPC因子αi计算每个谐波中的频谱幅度特性wti(1≤i≤m)被找到。即,P阶LPC反向滤波器特性由下式(13)计算H(z)=11+Σi=1ραiz-i..(13)]]>。
然后,反向LPC滤波器特性的适宜长度的脉冲响应被找到并且被进行2N-点的FFT处理,以便找到在0≤ω≤π范围内的2N-1个点的FFT输出H(EXP(-jω))。其绝对值是上述的频谱幅度特性wti,如公式(14)所示ωt(ω)=|H(e-jω)|…(14)由于当前帧的基频是ω0,因此,在每个谐波分量中的频谱幅度wti(1≤im)能够根据wt(floor(ω0Xi)和wt(ceil(ω0Xi))利用适当的内插获得。其间,如前所述floor(X)和ceil(X)分别表示不超过X的最大整数和大于X的最小整数。
如果B是允许用于相位量化的的总位数并且bai是分配给i次谐波的量化位数,则如果一适当的偏置常数C满足公式(15)和(16)bai=init(log2(wti)+C)…(15)B=Σi=1Mbαi---...(16)]]>就可以获得B和bai。应该注意,由于最小的位分配数产生的限制。
在上式(15)中,init(X)表示最接近实数X的整数。图12和13示出了说明上述计算的例子。从图12的步骤S71至步骤S78示出了用于预先寻找步数值step或者暂定的和值prev_sum的初始设置该步数值用于调整位分配的偏置常数C。通过图13的步骤S79至步骤S90,偏置常数C被调整直到用于每个谐波的位分配数的和值sum与预先根据相位量化确定的总位数B一致为止。
即,在图12的步骤S71中,在根据各谐波的频谱幅度wti暂定获得的位分配总数B’与预先允许的总位数B之间的差除以谐波数M,并且产生的商被暂时设为偏置常数C。在下一步骤S72中,与谐波次数对应的用于重复处理的控制变量i和总和(sum)被初始化(i=1,sum=0)。然后,通过步骤S73至S77,采用预先设置的偏置常数C计算的位分配数bai被累积计算和数直至i达到M为止。在下一步骤S78中,用于调整偏置常数C的步数值step被获得并且和数(sum)被替换为prev_sum。在图13的步骤S79中,区分和数(sum)是否与位分配总数B不一致。如果检查结果为是(YES),即如果和数(sum)与位分配总数B不一致,则重复从S80至S90的处理。即,在步骤S80中将该和数与b比较,根据比较结果的大小,在步骤S81和S82中对偏置常数C减小或增加步数值step。在从S83至S90的步骤中,用于各谐波的位分配采用调整后的偏置常数C,返回至步骤S79再次获得位分配数的和数(sum)而实现。步骤S75的值m_assign表示每个谐波的最小位分配数。由于一位相位信息的传输显然没有意义,因此最小位分配数m_assign通常设置为2位左右。
示于图12和图13的计算序列仅仅是示例性的并且可以适当地修改或者,另一方面,每个谐波的位分配数可以由其它合适的方法计算。
图14示出了通过计算每个谐波的分配而获得量化位数bai的例子。在这个具体的例子中,总位数b是28,确定被量化的量化范围的常数bw是0。95,而最小位分配数min_assign是2位。
标量量化器13响应从图2的位分配计算部件19中获得的位分配数bai,以便对来自相位检测部件12的所检测出的各谐波的相位φi进行标量量化而获得相位量化指数。在量化位的分配数等于b(位)的情况下,根据量化检测相位φ获得的量化相位Q(φ)表示为下式(17)Q(φ)=π2b-1×[2b-1π(φ+π2b)]...(17)]]>图15示出了根据分配的位数对相位进行标量量化的例子。图15A,B,C,D分别示出了分配位数b=1,b=2,b=3,b=4的情况。
对于分配位数baI为0的谐波相位,即对该谐波相位不发送量化相位时,只要插入一适当的值以执行正弦波合成即可。
参照图16,描述本发明的一个变形,其中当前帧的各谐波分量的相位根据前一帧的相位量化结果产生,并且预测误差根据上述的最佳量化位分配数被标量量化。
在图16的变形中,用于获得预测误差的减法器31连接至相位检测部件12和标量量化器13之间。来自标量量化器13的量化相位由延迟部件32延迟一帧并且从此送至相位预测部件33。由相位预测部件33获得的预测相位经由开关4被送至减法器31,该预测相位在其中被减去来自相位检测部件12的所检测的相位,以获得由标量量化器13量化的预测误差。预测误差的量化仅当与前一帧的声调频率偏差在一预定范围内时实现。因此,相位预测部件33被馈给来自输入端16的当前声调pch2以及根据由一帧延迟部件35延迟当前声调pch2获得的前一帧的声调pch1,以便根据这些声调pch1和pch2验证声调连续性。声调pch或相位φ的后缀1和2分别表示前一帧和当前帧。其它方面图16的结构与图2相同,因此,其对应部分由相同的参考号表示并且不作具体的说明。
如果当前声调pch2的声调频率(角频率)是ω02并且与前一帧的声调pch1对应的频率是ω01,则相位预测部件33检验来自前一帧的声调频率偏差是否在一预定范围内,以便确定是量化相位的预测误差还是量化相位本身,其中的声调频率偏差指定与前一帧的声调频率偏差并由下式表示|ω02-ω01ω02|...(18)]]>
如果由公式(18)给出的声调频率偏差超出预定范围(声调非连续),则每个谐波的相位受到最佳的声调分配并且被标量量化如图2的实施例所示。
如果由公式(18)给出的声调频率偏差处于预定范围(声调连续)内,则通过下式(19),采用前一帧的量化相位Q(φ1i)获得当前帧的每个谐波的预测相位φ’2i,其中1≤i≤M2,1≤i≤M1φ′2i=Q(φ1i)+ω01=ω022×L×i...(19)]]>其中1是帧间隔并且M1=pch1/2,M2=pch2/2。
这时,减法器31通过下式θi=(φ2i-φ′2i)mod(2π) …(20)计算在由相位预测部件33计算公式(19)获得的预测相位φ’2i与来自相位检测部件12的每个谐波的被检测相位φ2i之间的差(预测误差)θ1,以便发送该预测误差至标量量化器13。然后该标量量化器13标量量化该预测误差θ1以获得一量化指数。
现在描述一具体的标量量化例子。
在预测相位φ’2i与检测相位φ2i之间的差将以0为中心对称地分布。在分配的量化位数为b(位数)的情况下,量化在预测相位与检测相位之间的差θ的例子表示为下式(21)Q(θ)=δ2h-1[2h-1δθ](x≥0)]]>Q(θ)=-2h-1δ[-2h-1δθ](x<0)...(21)]]>图17中示出了相位预测误差的量化的一具体例子。其中,图17A和图17B分别代表量化位分配数b等于2和量化位分配数b等于3的情况。
其间,作为预测误差与检测误差之间的差的预测误差在朝向低频的方向上和在朝向高频的方向上分别趋于变小和随机。图18示出了预测误差分布的一具体例子,其中图18A至F分别代表在频率范围0-250Hz、500-750Hz、1500-1750Hz、2000-2250Hz、2500-2750Hz和3000-3250Hz内的相位预测误差的分布。最好是考虑到这一点并且准备与频段相关联的量化代码本和用于选择该代码本的量化位数,该代码本用于根据上述的谐波频段和分配的量化位数以便执行标量量化的量化。
参见图19,描述本发明的另一变形。
在图19的例子中,在话音信号的短期预测残留的一给定时间点上通过未缠绕的相位特征的最小平方线性近似的截距和斜率(延迟分量)被标量量化。从检测到的每个谐波的未缠绕相位中减去通过量化斜率和截距获得的量化线性相位,以找到根据上述的最佳量化位数进行标量量化的差。即,来自图2和16的相位检测部件12的检测到的相位被馈送至图19的端子26并且从此经由减法器36供给至标量量化器13。另一方面,如后所述近似相位的固定延迟分量获得的线性相位近似分量被送至端子27以便被标量量化器37量化,并且从此被供给至减法器36,在该减法器中来自端子26的所检测相位减去它以便获得被送至标量量化器13的差。该结构的其它方面与图2或16中的相同,并且因此不具体描述由相同参考号指示的对应部分。
现参见图20,说明送至端子127的线性相位近似分量,图20示意性地示出了用于通过未缠绕的线性近似寻找固定相位延迟分量的配置。
在图20中,如参照图2和16所述,送至输入端子11的输入信号可以是数字化的话音信号本身或该话音信号的短期预测残留(LPC残留信号)。从连接至输入端子11的波形削波部件21到tan-1处理器24的结构与图3所示的相同,因此不再具体的描述。示于图7的所检测的相位数据从该tan-1处理器24获得。
从该tan-1处理器24获得的固定相位延迟分量即所谓的组廷迟特性τ(ω),被定义为符号反向的相位微分,即τ(ω)=-dφ(ω)/dω…(22)自该tan-1处理器24获得的相位被送到图20的相位未缠绕部件25a。同时,如果需要寻找每个谐波的相位,则来自相位未缠绕部件25a的相位需要送至一内插处理器25b以执行内插,例如线性内插。由于它足以满足内插处理器25b内插先前的未缠绕相位,因此,如图3的内插部件25的情况那样,在不需要同时进行相位非连续性判定的情况下进行内插时,简单的线性内插应足够了。
如图7所示由于经由端子27从tan-1处理器24检索到的相位特性定义在从-π到π的2π范围内,因此,低于-π的相位值被向+π侧重叠或者缠绕,因而表示图7中的非连续部分。由于该非连续部分不能被微分,因此应由图20的相位非缠绕部件25a的非缠绕处理转换成一连续部分。该非缠绕相位状态作为一个例子示于图21中。
根据2N-1个点的非缠绕相位φ(ωi),从相位非缠绕部件25a和频谱幅度加权wt(ωI),即来自ωi=iπ/(2N-1)…(23)φi=φ(ωI)…(24)wti=wt(ωi)…(25),在图22中由虚线表示的线性近似相位φ(ω)=-τω+φ0…(26)通过加权最小平方的方法获得。即将使下式(27)最小化的τ和φ0ϵ(τ,φ0)=Σi=1Mwti|φi+τωi-φ0|2....(27)]]>被找到。dϵdτ=-2Σi=1Mwtiωiφi-2τΣi=1Mwtiωi2+2φ0Σi=1Mwtiωi]]>…(28)dϵdφ0=-2Σi=1Mwtiφi-2τΣi=1Mwtiωi+2φ0Σi=1Mwti]]>…(29)应该注意的是,使公式(28)和(29)为零的τ和φ0,即dε/dτ=0和dε/dφ0=0时的τ和φ0,能够由下式(30)和(31)获得τ=EB-CDAD-B2...(30)]]>φ0=AE-BCAD-B2...(31)]]>其中A=Σi=1Mwtiω′i2...(32)]]>B=Σi=1Mwtiωi...(33)]]>C=Σi=1Mwtiωiφi...(34)]]>D=Σi=1Mwti...(35)]]>E=Σi=1Mwtiφi...(36)]]>应该注意的是,由此获得的τ用作延迟采样的数量。示于图23的一个声调波形的检测到的延迟量DL的延迟采样数τ为例如22。9个采样。
图24示出了上述的相位非缠绕处理的一个具体例子的流程图。在该图中,在步骤S61和S63中的“phase”表示预未缠绕相位,而在步骤S68中的unwrap phase表示未缠绕的相位。在步骤S61中,表示缠绕量的变量“wrap”、用于临时检索相位的变量pha0和表示采样数的变量“i”分别初始化为0、phase(0)和0。在步骤S62至S69中,检测相位非连续性和从而减2π以保护相位连续性的处理被重复执行直到i达到2N-1为止。通过该非缠绕处理,图7的相位被转换成连续的,如图21中所示。
在上述的加权最小平方线性近似中,说明了采用频谱幅度加权和仅仅谐波分量的非缠绕相位的情况。
由于声调的延迟pch是已知的,因此基频(角频率)ω0是ω0=2π/pch…(37)在频率轴上从ω=0至ω=π的范围内,M个谐波以间隔ω0排列。M可表示为pch/2。根据如由未缠绕处理所获得的2N-1个点的未缠绕相位φ(ωi),以及频谱幅度权值(ωi),在第个谐波中的未缠绕相位和频谱权值可由下面的公式获得
ωi=ω0×i(i=1,2,...,M)…(38)φi=φ(ωi)…(39)wti=wt(ωi)…(40)仅仅采用关于谐波分量的信息,可以以如上所述的方式实现加权的最小平方线性近似以便找到线性近似相位。
然后,在上述的加权最小平方线性近似中,描述了采用在话音信号的低至中的范围内的频谱幅度加权和未缠绕相位的情况。
具体地,考虑到在较高范围内检测到的信息是不可靠的,通过用于除去该低范围的一实常数β(0<β<1),仅仅采用0 ≤ωi≤β×π …(41)范围内的点的未缠绕相位和频谱幅度权值wt(ωi)实现加权的最小平方线性近似,以获得该线性相位近似。
用于处理的点数M由公式(42)和(43)给出M=[β×2N-1]…(42)M=[β×pch2]...(43)]]>其中公式(43)表示在各谐波点的处理情况。在上面的公式中,[X]表示不大于x的最大整数并且还可表示为floor(x),而[X]为大于x的最小整数并且还可表示为ceil(x)。
通过上述的延迟检测,在某一时刻,例如话音信号等周期信号的延迟分量能够通过相位未缠绕以及通过频谱加权最小平方线性近似而被精确高效地处理。最初获得的未缠绕相位特性减去由加权最小平方线性近似获得的线性相位特性后是一精细相位结构。即该精细相位结构Δφ(ω)根据未缠绕相位φ(ω)和线性近似相位特性τω+φ0由Δφ(ω)=φ(ω)+τω-φ0…(44)
给出。图25中的实线示出了该精细相位分量Δφ(ω)的一个例子。
同时,在图19的例子中,作为线性相位近似的分量的斜率τ和截距φ0通过端子27被送到用于标量量化的标量量化器37。量化后的斜率Q(τ)和截距Q(φ0)在输出端38上获得。而且,量化后的斜率Q(τ)和截距Q(φ0)被从所检测的未缠绕相位φi中减去以便由下式Δφi=φi+Q(τ)iω0-Q(φ0),其中1≤i≤M…(45)中找到差Δφi。
如参照图2和16所述,通过加权计算部件18和位分配计算部件19,在其谐波的基础上,与话音信号的频谱幅度一致地获得最佳的分配量化位数bai,并且上述的差Δφi由标量量化器13与该分配的量化位数bai一致地进行示量量化。如果分配的量化位数是0,则Δφi被设置为0或一接近0的随机数。由图25的虚线表示该量化的一个例子。
如果被量化的Δφi是Q(Δφi),则i次谐波的量化相位Q(φi)由下式表示Q(φi)=Q(Δφi)-Q(τ)iω0-Q(φ0),其中1≤i≤M…(46)作为一修改,可以设想为利用最大加权因子,根据谐波分量的相位向后-计算线性近似的截距。
在该情况中,仅仅来自图19的端子27的所近似的线性相位分量的斜率τ被量化而截距φ0不被量化。然后,对于具有最大频谱幅度wti的下标为j的谐波,其中1≤i≤M,Δφi=φi+Q(τ)jω0-Q(φ0)…(47)被利用分配的量化位数baj进行标量量化。然后,在将被量化的Δφj设置为QΔφj的情况下,线性相位分量的截距由下式向后计算Δφ0=φj-Q(τ)jω0-Q(φj)…(48)。
通过该处理,就不需要量化线性相位分量的截距φ0。以后的操作与前面的论述相同。
参照图26,现说明另一修改。在本实施例中,如果与前一帧的声调频率偏差的斜率在一预定范围内,则当前帧的线性近似的斜率根据当前帧的声调延迟和前一帧的线性近似的斜率的量化结果被预测,以便标量量化该预测误差。
在图26中,与图19中对应的部分或分量由相同的参考号描述。在下面的描述中,仅主要描述不同或增加的部分。用于相位φ和声调pch的下标1和2分别表示前一帧和当前帧。
来自端子27的线性相位近似分量经由减法器41被送至标量量化器37。来自标量量化器37的被量化的线性相位近似分量被送至减法器36,该分量同时还经由单帧延迟部件42被送至延迟预测部件43,来自端子16的声调和来自端子26的相位也被送至该延迟预测部件43。
在图26的配置中,如图2的实施例中所述,采用量化LPC因子,加权计算部件18和位分配计算部件19计算分配的量化位数bai。如果由下式(49)|ω02-ω01ω02|...(49)]]>表示的声调频率偏差超出一预定范围,即如果该声调是不连续的,则进行与参照图19所述类似的相位量化。
相反,如果由上式(49)给出的声调频率偏差在一预定范围内,即如果该声调是连续的,则延迟预测部件43根据前一帧的量化的延迟分量Q(τ1)、前一帧的声调延迟pch1和当前帧的声调延迟pch2计算下式(50)τ′2=Q(τ1)+pch1+pch22×K-L...(50)]]>以预测当前帧的延迟分量τ′2。在公式(50)中,K和L分别表示适当的正的常数和帧间隔。
图27示出了根据公式(50)的一延迟分量预测例子的信号波形图。即,以前一帧的中心位置n1作为参考,平均声调延迟(pch1+pch2)/2乘以K后与量化的延迟分量q(τ1)相加,然后从加的结果中减去在前一帧与当前帧之间的间隔L,从而得到一预测廷迟分量τ'2。
然后,在所检测的延迟分量τ2与所预测的延迟分量τ2'之间的差Δτ2Δτ2=τ2-τ2'…(51)由减法器41获得并且由标量量化器37标量量化。
如果将量化的Δτ2设置为Q(Δτ2),则量化的延迟分量Q(τ2)被设置为Q(τ2)=τ2'+Q(Δτ2)…(52)并且其后执行与图11的实施例类似的处理。
在上面的相位量化中,在所检测的延迟分量τ2的量化时,通过分配小于在“声调不连续”情况中的量化位数能够实现相同的结果。在“声调连续”情况中,节省的用于延迟分量的分配的量化位数能够被有效地传送到相位量化的位分配。
如前所述,对于话音信号或该话音信号的线性预测残留(LPC残留)能够执行相位检测。
现参照图28说明采用如上所述获得的相位信息执行正弦波合成的情况。这里假设从时刻n1至时刻n2止的帧间隔L=n2-n1的时间波形通过正弦波合成(正弦合成)产生。
如果在时刻n1的声调延迟是pch1(采样),并且在时刻n2的声调延迟是pch2(采样),则在时刻n1以及在时刻n2的声调频率ω1、ω2(角频率/采样)分别由ω1=2π/pch1ω2=2π/pch2给出。而且,假定在时刻n1和在时刻n2的各谐波的幅度数据分别为A11、A12、A13、…和A21、A22、A23、…,而在时刻n1和在时刻n2的各谐波的相位数据分别为φ11、φ12、φ13…和φ21、φ22、φ23、…如果声调是连续的,则在时刻n(n1≤n≤n2)的m次谐波的幅度通过下式(53)由在时间点n1和n2处的幅度数据的线性内插获得Amn=n2-nLAim+n-n1LA2m]]>其中n1≤n≤n2…(53)。
假定在时刻n1和时刻n2之间的m次谐波分量的频率变化是(线性变化分量)+(固定变化),如下式(54)所示ωm(n)=mω1n2-nL+mω2n-n1L+Δωm]]>其中n1≤n≤n2…(54)。
由于在m次谐波的时刻n的相位θm(n)(角频率)由下式(55)表示θm(n)=∫n1nωm(ξ)dξ+φ1m...(55)]]>。=∫n1n(mω1n2-ξL+mω2ξ-n1L+Δωm)dξ+φ1m...(56)]]>。=mω1(n-n1)+m(ω2-ω1)(n-n1)22L+ΔωmL+φ1m...(57)]]>。
因此,在时刻n2处的m次谐波的相位φ2m(角频率)由下式(59)给出,使得各谐波的频率改变的变化Δωm(读取/采样)由下式(60)表示φ2m=θm(n2)…(58)=m(ω1+ω2)L2+ΔωmL+φ1m...(59)]]>Δωm=φ1m-φ2mL-m(ω1+ω2)2...(60)]]>对于m次谐波,由于在时间点n1和n2的相位φim、φ2m一致,因此m次谐波的时间波形Wm(n)由下式给出Wm(n)=Am(n)cos(θm(n))其中n1≤n≤m2…(61)以这种方式获得的所有谐波的时间波形的和表示所合成的波形V(n),如下式(62)、(63)所示V(n)=ΣmWm(n)...(62)]]>=ΣmAm(n)cos(θm(n))...(63)]]>。
现在说明不连续声调的情况。如果声调是不连续的,则在这种情况下,在不考虑频率变化连续性的情况下,根据时刻n1往前的正弦合成获得的由下式(64)V1(n)=ΣmAimcos(mω1(n-n1)+φim...(64)]]>示出的波形V1(n)和根据时刻n2往后的正弦合成获得的由下式(65)V2(n)=ΣmA2mcos(-mω2(n2-n)+φ2m)...(65)]]>示出的波形V2(n)被分别开窗和叠加。
延用上述的相位量化设备,输入话音信号的即时相位信息或者其短期残留信号能够被有效地量化。因此,在通过输入话音信号或者其短期残留信号的正弦合成编码的话音编码中,根据编码的原始波形的再现性能够通过量化和传送即时相位信息来实现。
如图29中可见,图中由一实线示出了原始信号波形,还由一虚线示出了根据编码被相位量化以及被传送的原始信号波形获得的信号波形,该原始波形能够被高再现性地再现。
现发明不限于上述的实施例。例如,虽然图1和图2的配置的各部分被描述为硬件,但是,也可采用所谓的数字信号处理器(DSP)通过软件来实现该配置。
权利要求
1.一种相位量化装置,包括分配位数计算装置,用于计算分配给输入话音信号的各谐波的最佳位数;以及量化装置,用于根据由所述分配位数计算装置获得的分配位数,量化来自所述输入话音信号的信号的各谐波的相位。
2.根据权利要求1的相位量化装置,其中来自所述输入话音信号的信号是话音信号。
3.根据权利要求1的相位量化装置,其中来自所述输入话音信号的信号是话音信号的短期预测残留信号的信号波形。
4.根据权利要求1的相位量化装置,其中所述分配位数计算装置采用所述话音信号的短期预测残留信号计算用于各谐波的最佳分配量化位数。
5.根据权利要求1的相位量化装置,还包括相位预测装置,用于进行对时间轴上预定长度的每一帧的量化,以便根据前一帧的相位量化结果预测来自该输入话音信号的信号的当前帧的每个谐波的相位;所述量化装置量化在当前帧的各谐波的相位与由所述相位预测装置根据由所述分配位数计算装置计算的分配位数获得的预测相位之间的预测误差。
6.根据权利要求5的相位量化装置,其中,仅当从前一帧至当前帧的话音信号的声调频率偏差在一预测范围内时,在预测误差与当前帧的相位之间的预测误差被量化。
7.一种相位量化方法,包括分配位数计算步骤,该步骤计算分配给输入话音信号的各谐波的最佳位数;以及量化步骤,该步骤根据由所述分配位数计算步骤获得的分配位数,量化来自所述输入话音信号的信号的各谐波的相位。
8.根据权利要求7的相位量化方法其中所述分配位数计算步骤采用所述输入话音信号的短期预测因子计算分配给各谐波的最佳位数。
9.根据权利要求7的相位量化方法,还包括相位预测步骤,该步骤进行对时间轴上预定长度的每一帧的量化,以便根据前一帧的相位量化结果预测来自该输入话音信号的信号的当前帧的每个谐波的相位;如果从前一帧至当前帧的话音信号的声调频率偏差在一预测范围内,则所述量化步骤量化在当前帧的各谐波的相位与由所述相位预测步骤根据由所述分配位数计算步骤计算的分配位数获得的预测相位之间的预测误差。
10.一种相位量化装置,包括分配位数计算装置,用于计算分配给输入话音信号的各谐波的最佳位数;以及量化装置,用于根据由所述分配位数计算装置获得的分配位数,量化在根据未缠绕相位特性的近似线获得的各谐波分量的近似相位与来自所述输入话音信号的所述信号的各谐波分量的相位之间的差,其中的近似相位用于来自所述输入话音信号的信号的各谐波分量的相位。
11.根据权利要求10的相位量化装置,其中来自所述输入话音信号的信号是话音信号。
12.根据权利要求10的相位量化装置,其中来自所述输入话音信号的信号是话音信号的短期预测残留信号的信号波形。
13.根据权利要求10的相位量化装置,其中所述分配位数计算装置采用所述话音信号的短期预测残留信号计算用于各谐波的最佳分配量化位数。
14.根据权利要求10的相位量化装置,其中所述的近似线通过对所述的未缠绕相位特性执行由所述输入话音信号的频谱幅度加权的最小平方线性近似获得。
15.根据权利要求14的相位量化装置,其中所述近似线的所述截距通过根据具有最大加权因子的谐波分量的相位的向后一计算获得。
16.根据权利要求14的相位量化装置,其中所述近似相位通过根据量化所述近似线的斜率和截距获得的斜率和截距从近似线的相位中被发现。
17.根据权利要求10的相位量化装置,还包括斜率预测装置,用于进行在时间轴上的预定长度的每一帧的所述量化,并且用于根据前一帧的近似线的斜率的量化结果以及当前帧的声调延迟,预测来自输入话音信号的信号的当前帧的所述近似线的斜率;所述量化装置量化所述斜率的预测误差。
18.一种相位量化方法,包括分配位数计算步骤,该步骤计算分配给输入话音信号的各谐波的最佳位数;以及量化步骤,该步骤根据由所述分配位数计算步骤获得的分配位数,量化在根据未缠绕相位特性的近似线获得的各谐波分量的近似相位与来自所述输入话音信号的信号的各谐波分量的相位之间的差,其中的近似相位用于来自所述输入话音信号的信号的各谐波分量的相位。
19.根据权利要求18的相位量化方法,其中所述分配位数计算步骤采用所述输入话音信号的短期预测因子计算用于各谐波的最佳分配量化位数。
20.根据权利要求18的相位量化方法,其中所述的近似线通过对所述的未缠绕相位特性执行由所述输入话音信号的频谱幅度加权的最小平方线性近似获得。
全文摘要
一种相位量化方法和装置,其中例如在正弦合成编码时的输入信号的相位信息能够被有效地量化。来自输入端11的话音信号的输入信号的相位通过相位检测部件12获得并且被标量量化器13标量量化。每个谐波的频谱幅度加权k被一加权计算部件18根据来自端子17的LPC因子计算。采用该加权k,位分配计算部件19计算各谐波的最佳量化位数,然后将所计算的最佳位数送至标量量化器13。
文档编号H03M7/30GK1238514SQ9910342
公开日1999年12月15日 申请日期1999年2月6日 优先权日1998年2月6日
发明者井上晃, 西口正之 申请人:索尼公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1