多模式语音编码装置及解码装置的制作方法

文档序号:2821942阅读:173来源:国知局
专利名称:多模式语音编码装置及解码装置的制作方法
技术领域
本发明涉及对语音信号进行编码来传输的移动通信系统等中的低比特率语音编码装置,特别涉及将语音信号分离为声道信息和音源信息来表现的CELP (Code Excited Linear Prediction,码激励线性预测编码)型语音编码装置等。
背景技术
在数字移动通信和语音存储领域,使用语音编码装置,用于压缩语音信息,进行高效编码,以便有效利用电波和记录媒体。特别是基于CELP方式的方式已广泛实用化于中、低比特率。CELP技术示于M.R.Schroeder和B.S.Atal“Code-Excited Linear Prediction(CELP)High-quality Speech at VeryLow BitRates(码激励线性预测超低比特率高品质语音)”,Proc.ICASSP-85,25.1.1,pp.937-940,1985”。
CELP型语音编码方式将语音划分为某个一定的帧长度(大约5ms~50ms),对各帧进行语音的线性预测,使用由已知波形构成的自适应码矢量和噪声码矢量对每帧的由线性预测得到的预测残差(激励信号)进行编码。自适应码矢量从存储过去生成的驱动音源矢量的自适应码本中选择使用,而噪声码矢量从存储预先准备的固定数目个具有固定形状的矢量的噪声码本中选择使用。噪声码本中存储的噪声码矢量使用随机噪声序列的矢量或将几个脉冲配置在不同位置上而生成的矢量等。
在CELP编码装置中,使用输入的数字信号进行LPC的分析及量化、音调搜索、噪声码本搜索、以及增益码本搜索,量化LPC码(L)、音调周期(P)、噪声码本索引(S)、以及增益码本索引(G)被传输到解码器。
然而,在上述现有语音编码装置中,必须用一种噪声码本来对待有声语音、无声语音、以及背景噪声等,难以对所有这些输入信号进行高品质编码。
发明公开本发明的目的在于提供一种多模式语音编码装置及语音解码装置,不用新传输模式信息,就能够实现音源编码的多模式化,特别是除了有声区间/无声区间的判定之外,还能够进行语音区间/非语音区间的判定,能够进一步提高多模式化对编码/解码性能的改善度。
在本发明中,使用表示频谱特性的量化参数的静态/动态特征进行模式判定,根据表示语音区间/非语音区间、有声区间/无声区间的模式判定结果,来切换用于驱动音源编码的各种码本的模式。此外,在本发明中,在解码时使用编码时使用了的模式信息,来切换用于解码的各种码本的模式。
附图的简单说明

图1是本发明实施例1的语音编码装置的结构方框图;图2是本发明实施例2的语音解码装置的结构方框图;图3是本发明实施例1的语音编码处理的流程图;图4是本发明实施例2的语音解码处理的流程图;图5A是本发明实施例3的语音信号发送装置的结构方框图;图5B是本发明实施例3的语音信号接收装置的结构方框图;图6是本发明实施例4的模式选择器的结构方框图;图7是本发明实施例5的多模式后处理器的结构方框图;图8是本发明实施例4的前级的多模式后处理的流程图;图9是本发明实施例4的后级的多模式后处理的流程图;图10是本发明实施例4的多模式后处理的整体流程图;图11是本发明实施例5的前级的多模式后处理的流程图;以及图12是本发明实施例5的后级的多模式后处理的流程图。
实施发明的最好形式下面,使用图1至图9来说明本发明实施例的语音编码装置等。
(实施例1)图1是本发明实施例1的语音编码装置的结构方框图。
由数字化过的语音信号等构成的输入数据被输入到预处理器101。预处理器101使用高通滤波器或带通滤波器等进行直流分量的除去或输入数据的限带等,输出到LPC分析器102和加法器106。在该预处理器101中即使不进行任何处理,也能够进行后续的编码处理,但是进行前述的处理能提高编码性能。
LPC分析器102进行线性预测分析来计算线性预测系数(LPC),输出到LPC量化器103。
LPC量化器103对输入的LPC进行量化,将量化后的LPC输出到合成滤波器104和模式选择器105,并且将表现量化LPC的代码L输出到解码器。一般,LPC量化是变换为插值特性良好的LSP(Line Spectrum Pair线谱对)来进行的。
合成滤波器104使用从LPC量化器103输入的量化LPC来构筑LPC合成滤波器。向该合成滤波器输入从加法器114输出的驱动音源信号,进行滤波处理,将合成信号输出到加法器106。
模式选择器105使用从LPC量化器103输入的量化LPC来决定噪声码本109的模式。
这里,模式选择器105也存储过去输入的量化LPC信息,使用帧间量化LPC的变动特征、和当前帧的量化LPC的特征这两者进行模式选择。该模式至少有2种以上,例如由与有声语音部对应的模式、和与无声语音部及平稳噪声部等对应的模式构成。此外,模式选择所用的信息不必是量化LPC本身,变换为量化LSP、反射系数、或线性预测残差功率等参数也很有效。
加法器106计算从预处理器101输入的预处理后的输入数据和合成信号之间的误差,输出到听觉加权滤波器107。
听觉加权滤波器107对加法器106算出的误差进行听觉加权,输出到误差最小化器108。
误差最小化器108调整噪声码本索引Si、自适应码本索引(音调周期)Pi、以及增益码本索引Gi,同时分别输出到噪声码本109、自适应码本110、以及增益码本111,分别决定噪声码本109、自适应码本110、以及增益码本111生成的噪声码本矢量、自适应码本矢量、噪声码本增益及自适应码本增益,使得从听觉加权滤波器107输入的听觉加权过的误差达到最小,将表现噪声码矢量的代码S、表现自适应码矢量的代码P、以及表现增益信息的代码G分别输出到解码器。
噪声码本109保存预定个数的形状不同的噪声码矢量,输出从误差最小化器108输入的噪声码矢量的索引Si所指定的噪声码矢量。此外,该噪声码本109至少具有2种以上的模式,例如其结构为在与有声语音部对应的模式中生成更像脉冲的噪声码矢量,在与无声语音部或平稳噪声部等对应的模式中生成更像噪声的噪声码矢量。模式选择器105从上述2种以上的模式中选择一个模式,从噪声码本109输出的噪声码矢量根据该模式来生成,由乘法器112乘以噪声码本增益Gs后,输出到加法器114。
自适应码本110逐次更新过去生成的驱动音源信号并缓冲,使用从误差最小化器108输入的自适应码本索引(音调周期(ピッチラグ))Pi来生成自适应码矢量。由自适应码本110生成的自适应码矢量由乘法器113乘以自适应码本增益Ga后,输出到加法器114。
增益码本111保存预定个数的自适应码本增益Ga和噪声码本增益Gs的组(增益矢量),将从误差最小化器108输入的增益码本索引Gi所指定的增益矢量的自适应码本增益分量Ga输出到乘法器113,而将噪声码本增益分量Gs输出到乘法器112。如果增益码本为多级结构,则能够削减增益码本所需的存储量、和增益码本搜索所需的运算量。此外,如果分配给增益码本的比特数足够,则也可以独立地对自适应码本增益和噪声码本增益进行标量量化。
加法器114将从乘法器112及113输入的噪声码矢量和自适应码矢量相加,生成驱动音源信号,输出到合成滤波器104及自适应码本110。
在本实施例中,多模式化的只是噪声码本109,但是也可以将自适应码本110及增益码本111多模式化以进一步改善品质。
下面参照图3来说明上述实施例的语音编码方法的处理流程。在本说明中示出下述例子按预定时间长度的处理单位(帧时间长度为大约数十毫秒)进行语音编码处理,按整数个更短的处理单位(子帧)来处理1帧。
在步骤(以下略称为ST)301中,清除自适应码本的内容、合成滤波器存储器、输入缓冲器等所有存储器。
接着,在ST302中,按1帧来输入数字化过的语音信号等输入数据,通过高通滤波器或带通滤波器等进行输入数据的偏移除去或限带。预处理后的输入数据被缓冲到输入缓冲器,用于以后的编码处理。
接着,在ST303中,进行LPC分析(线性预测分析),计算LPC系数(线性预测系数)。
接着,在ST304中,进行ST303中算出的LPC系数的量化。LPC系数的量化方法有多种,而如果采用变换为插值特性良好的LSP参数、并利用了多级矢量量化或帧间相关的预测量化,则能够高效地量化。此外,例如在1帧被分割为2个子帧来处理的情况下,一般是,对第2子帧的LPC系数进行量化,第1子帧的LPC系数使用前一帧的第2子帧的量化LPC系数、和当前帧的第2子帧的量化LPC系数通过插值处理来决定。
接着,在ST305中,构筑对预处理后的输入数据进行听觉加权的听觉加权滤波器。
接着,在ST306中,构筑由驱动音源信号来生成听觉加权域的合成信号的听觉加权合成滤波器。该滤波器从属连接了合成滤波器和听觉加权滤波器,合成滤波器使用ST304中量化过的量化LPC系数来构筑,而听觉加权滤波器使用ST303中算出的LPC系数来构筑。
接着,在ST307中,进行模式选择。模式选择使用ST304中量化过的量化LPC系数的动态及静态特征来进行。具体地说,使用由量化LSP的变动或量化LPC系数而算出的反射系数或预测残差功率等。根据本步骤中选择的模式,进行噪声码本的搜索。本步骤中选择的模式至少有2种,例如可考虑有声语音模式、和无声语音及平稳噪声模式这种2模式结构。
接着,在ST308中,进行自适应码本的搜索。自适应码本的搜索是搜索能生成下述听觉加权合成波形的自适应码矢量,即,该波形最接近对预处理后的输入数据进行听觉加权所得的波形;决定取出自适应码矢量的位置,使得用ST305中构筑的听觉加权滤波器对预处理后的输入数据进行滤波所得的信号、和将从自适应码本中取出的自适应码矢量作为驱动音源信号并用ST306中构筑的听觉加权合成滤波器进行滤波所得的信号之间的误差达到最小。
接着,在ST309中,进行噪声码本的搜索。噪声码本的搜索是选择生成驱动音源信号的噪声码矢量,该驱动音源信号能生成下述听觉加权合成波形,即,该波形最接近对预处理后的输入数据进行听觉加权所得的波形;考虑到驱动音源信号是将自适应码矢量和噪声码矢量相加而生成的来进行搜索。因此,将已经在ST308中决定了的自适应码矢量、和噪声码本中保存的噪声码矢量相加来生成驱动音源信号,从噪声码本中选择噪声码矢量,使得用ST306中构筑的听觉加权合成滤波器对生成的驱动音源信号进行滤波所得的信号、和用ST305中构筑的听觉加权滤波器对预处理后的输入数据进行滤波所得的信号之间的误差达到最小。在对噪声码矢量进行音调周期化等处理的情况下,进行也考虑了该处理的搜索。此外,该噪声码本至少具有2种以上的模式,例如在与有声语音部对应的模式中使用保存着更像脉冲的噪声码矢量的噪声码本进行搜索,而在与无声语音部或平稳噪声部等对应的模式中使用保存着更像噪声的噪声码矢量的噪声码本进行搜索。在ST307中选择搜索时使用哪个模式的噪声码本。
接着,在ST310中,进行增益码本的搜索。增益码本的搜索是从增益码本中选择自适应码本增益和噪声码本增益的组,以分别乘已经在ST308中决定的自适应码矢量、和ST309中决定的噪声码矢量;从增益码本中选择自适应码本增益和噪声码本增益的组,使得将自适应码本增益乘法后的自适应码矢量、和噪声码增益乘法后的噪声码矢量相加来生成驱动音源信号,用ST306中构筑的听觉加权合成滤波器对生成的驱动音源信号进行滤波所得的信号、和用ST305中构筑的听觉加权滤波器对预处理后的输入数据进行滤波所得的信号之间的误差达到最小。
接着,在ST311中,生成驱动音源信号。驱动音源信号是将ST308选择出的自适应码矢量乘以ST310中选择出的自适应码本增益所得的矢量、和ST309中选择出的噪声码矢量乘以ST310中选择出的噪声码本增益所得矢量相加来生成的。
接着,在ST312中,进行子帧处理循环所用的存储器的更新。具体地说,进行自适应码本的更新、听觉加权滤波器及听觉加权合成滤波器的状态更新等。
上述ST305~312是以子帧为单位的处理。
接着,在ST313中,进行帧处理循环所用的存储器的更新。具体地说,进行预处理器所用的滤波器的状态更新、量化LPC系数缓冲器的更新(在进行LPC的帧间预测量化的情况下)、输入数据缓冲器的更新等。
接着,在ST314中,进行编码数据的输出。编码数据按照传输的形态进行比特流化或复用处理等并送出到传输线路。
上述ST302~304及313~314是以帧为单位的处理。此外,重复进行以帧为单位及以子帧为单位的处理,直至没有输入数据。
(实施例2)图2是本发明实施例2的语音解码装置的结构方框图。
从编码器传输的、表现量化LPC的代码L、表现噪声码矢量的代码S、表现自适应码矢量的代码P、以及表示增益信息的代码G分别被输入到LPC解码器201、噪声码本203、自适应码本204、以及增益码本205。
LPC解码器201由代码L来解码出量化LPC,分别输出到模式选择器202和合成滤波器209。
模式选择器202使用从LPC解码器201输入的量化LPC来决定噪声码本203及后处理器211的模式,将模式信息M分别输出到噪声码本203及后处理器211。模式选择器202也存储过去输入的量化LPC的信息,使用帧间的量化LPC的变动特征、和当前帧中的量化LPC的特征这两者进行模式选择。该模式至少有2种以上,例如由与有声语音部对应的模式、与无声语音部对应的模式、和与平稳噪声部等对应的模式构成。此外,模式选择所用的信息不必是量化LPC本身,变换为量化LSP、反射系数、或线性预测残差功率等参数也很有效。
噪声码本203保存预定个数的形状不同的噪声码矢量,输出对输入的代码S进行解码所得的噪声码本索引所指定的噪声码矢量。此外,该噪声码本203至少具有2种以上的模式,例如其结构为在与有声语音部对应的模式中生成更像脉冲的噪声码矢量,在与无声语音部或平稳噪声部等对应的模式中生成更像噪声的噪声码矢量。模式选择器202从上述2种以上的模式中选择一个模式,从噪声码本203输出的噪声码矢量由该一个模式来生成,由乘法器206乘以噪声码本增益Gs后,输出到加法器208。
自适应码本204逐次更新过去生成的驱动音源信号并缓冲,使用对输入的代码P进行解码所得的自适应码本索引(音调周期(ピッチラグ))来生成自适应码矢量。由自适应码本204生成的自适应码矢量由乘法器207乘以自适应码本增益Ga后,输出到加法器208。
增益码本205保存预定个数的自适应码本增益Ga和噪声码本增益Gs的组(增益矢量),将对输入的代码G进行解码所得的增益码本索引所指定的增益矢量的自适应码本增益分量Ga输出到乘法器207,而将噪声码本增益分量Gs输出到乘法器206。
加法器208将从乘法器206及207输入的噪声码矢量和自适应码矢量相加,生成驱动音源信号,输出到合成滤波器209及自适应码本204。
合成滤波器209使用从LPC解码器201输入的量化LPC来构筑LPC合成滤波器。该合成滤波器输入从加法器208输出的驱动音源信号,进行滤波处理,将合成信号输出到后滤波器210。
后滤波器210对从合成滤波器209输入的合成信号进行音调增强、共振峰增强、频谱倾斜校正、增益调整等用于改善语音信号的主观品质的处理,输出到后处理器211。
后处理器211对从后滤波器210输入的信号利用从模式选择器202输入的模式信息M自适应地进行振幅频谱的帧间平滑化处理、相位频谱的随机化处理等用于改善平稳噪声部的主观品质的处理。例如,在与有声语音部或无声语音部对应的模式中几乎不进行上述平滑化处理或随机化处理,而在与平稳噪声部等对应的模式中自适应地进行上述平滑化处理或随机化处理。后处理后的信号作为数字化过的解码语音信号等输出数据被输出。
在本实施例中,从模式选择器202输出的模式信息M被用于噪声码本203的模式切换、和后处理器211的模式切换这两者,但是即使只用于某一个的模式切换也能得到效果。在此情况下,只对某一个进行多模式处理。
下面参照图4来说明上述实施例的语音解码方法的处理流程。在本说明中示出下述例子按预定时间长度的处理单位(帧时间长度为大约数十毫秒)进行语音编码处理,按整数个更短的处理单位(子帧)来处理1帧。
在ST401中,清除自适应码本的内容、合成滤波器存储器、输出缓冲器等所有存储器。
接着,在ST402中,编码数据被解码。具体地说,进行复用的接收信号的分离,或者将比特流化的接收信号分别变换为分别表示量化LPC系数、自适应码矢量、噪声码矢量、以及增益信息的代码。
接着,在ST403中,对LPC系数进行解码。LPC系数是由ST402中得到的表示量化LPC系数的代码、通过实施例1所示的LPC系数的量化方法的逆过程来解码的。
接着,在ST404中,使用ST403中解码过的LPC系数来构筑合成滤波器。
接着,在ST405中,使用ST403中解码过的LPC系数的静态及动态特征,进行噪声码本及后处理的模式选择。具体地说,使用由量化LSP的变动或量化LPC系数而算出的反射系数或预测残差功率等。根据本步骤中选择的模式,进行噪声码本的解码及后处理。该模式至少有2种,例如由与有声语音部对应的模式、与无声语音部对应的模式、以及与平稳噪声部对应的模式构成。
接着,在ST406中,自适应码矢量被解码。自适应码矢量如下被解码由表现自适应码矢量的代码来解码出从自适应码本中取出自适应码矢量的位置,从该位置取出自适应码矢量。
接着,在ST407中,噪声码矢量被解码。噪声码矢量如下被解码由表现噪声码矢量的代码来解码出噪声码本索引,从噪声码本中取出与该索引对应的噪声码矢量。在采用噪声码矢量的音调周期化等时,进一步进行音调周期化后的矢量成为解码噪声码矢量。此外,该噪声码本至少具有2中以上的模式,例如在与有声语音部对应的模式中生成更像脉冲的噪声码矢量,而在与无声语音部或平稳噪声部等对应的模式中生成更像噪声的噪声码矢量。
接着,在ST408中,自适应码本增益和噪声码本增益被解码。由表示增益信息的代码来解码出增益码本索引,从增益码本中取出该索引所示的自适应码本增益和噪声码本增益的组,从而增益信息被解码。
接着,在ST409中,生成驱动音源信号。驱动音源信号如下被生成将ST406中选择出的自适应码矢量乘以ST408中选择出的自适应码本增益所得的矢量、和ST407中选择出的噪声码矢量乘以ST408中选择出的噪声码本增益所得的矢量相加。
接着,在ST410中,合成解码信号。用ST404中构筑的合成滤波器对ST409中生成的驱动音源信号进行滤波,来合成解码信号。
接着,在ST411中,对解码信号进行后滤波处理。后滤波处理由音调增强处理、共振峰增强处理、频谱倾斜校正处理、增益调整处理等用于改善解码信号、特别是解码语音信号的主观品质的处理构成。
接着,在ST412中,对后滤波处理后的解码信号进行最终性的后处理。该后处理主要由振幅频谱的(子)帧间平滑化处理、相位频谱的随机化处理等用于改善解码信号中的平稳噪声部分的主观品质的处理构成,进行与ST405中选择出的模式对应的处理。例如,在与有声语音部或无声语音部对应的模式中几乎不进行上述平滑化处理或随机化处理,而在与平稳噪声部等对应的模式中自适应地进行上述平滑化处理或随机化处理。本步骤中生成的信号成为输出数据。
接着,在ST413中,进行子帧处理循环所用的存储器的更新。具体地说,进行自适应码本的更新、后滤波处理中包含的各滤波器的状态更新等。
上述ST404~413是以子帧为单位的处理。
接着,在ST414中,进行帧处理循环所用的存储器的更新。具体地说,进行量化(解码)LPC系数缓冲器的更新(在进行LPC的帧间预测量化的情况下)、输出数据缓冲器的更新等。
上述ST402~403及414是以帧为单位的处理。此外,重复进行以帧为单位及以子帧为单位的处理,直至没有编码数据。
(实施例3)图5是包括实施例1的语音编码装置或实施例2的语音解码装置的语音信号发送机及接收机的方框图。图5A是发送机,而图5B是接收机。
在图5A的语音信号发送机中,语音通过语音输入装置501变换为电模拟信号,输出到A/D变换器502。模拟语音信号通过A/D变换器502变换为数字语音信号,输出到语音编码器503。语音编码器503进行语音编码处理,将编码过的信息输出到RF调制器504。RF调制器对编码过的语音信号信息进行调制、放大、代码扩展等用于作为电波送出的操作,输出到发送天线505。最后,从发送天线505送出电波(RF信号)506。
另一方面,在图5B的接收机中,用接收天线507接收电波(RF信号)506,接收信号被送至RF解调器508。RF解调器508进行代码解扩、解调等用于将电波信号变换为编码信息的处理,将编码信息输出到语音解码器509。语音解码器509进行编码信息的解码处理,将数字解码语音信号输出到D/A变换器510。D/A变换器510将从语音解码器509输出的数字解码语音信号变换为模拟解码语音信号,输出到语音输出装置511。最后,语音输出装置511将电模拟解码语音信号变换为解码语音并输出。
上述发送装置及接收装置可以用作便携电话等移动通信设备的移动台或基站装置。传输信息的媒体不限于本实施例所示的电波,也可以利用光信号等,还可以使用有线传输线路。
上述实施例1所示的语音编码装置、上述实施例2所示的语音解码装置、及上述实施例3所示的发送装置及发送接收装置也可以作为软件记录在磁盘、光磁盘、盒式ROM(ROMカ-トリッジ)等记录媒体上来实现,通过使用该记录媒体,就能够通过使用这种记录媒体的个人计算机等来实现语音编码装置/解码装置及发送装置/接收装置。
(实施例4)实施例4是示出上述实施例1、2中的模式选择器105、202的结构例的例子。
图6是本发明实施例4的模式选择器的结构方框图。
本实施例的模式选择器包括动态特征提取部601,提取量化LSP参数的动态特征;以及第一、第二静态特征提取部602、603,提取量化LSP参数的静态特征。
动态特征提取部601向AR型平滑化部604输入量化LSP参数进行平滑化处理。在AR型平滑化部604中,将每个处理单位时间输入的各次量化LSP参数作为时间序列数据,进行(1)式所示的平滑化处理。
-Ls[i]=(1-α)×Ls[i]+α×L[i],i=1,2,...,M,0<α<1...(1)Ls[i]i次平滑化量化LSP参数L[i]i次量化LSP参数α平滑化系数MLSP分析次数在(1)式中,α的值设定为大约0.7,以进行不太强的平滑化。用上述(1)式求出的平滑化过的量化LSP参数被分支为经由延迟部605输入到加法器606的参数、和直接输入到加法器606的参数。
延迟部605将输入的平滑化过的量化LSP参数延迟1个处理单位时间,输出到加法器606。
加法器606输入当前处理单位时间中平滑化过的量化LSP参数、和前一处理单位时间中平滑化过的量化LSP参数。在该加法器606中,计算当前处理单位时间中平滑化过的量化LSP参数、和前一处理单位时间中平滑化过的量化LSP参数之差。对LSP参数的各次数来计算该差。加法器606的计算结果被输出到平方和计算部607。
平方和计算部607计算当前处理单位时间中平滑化过的量化LSP参数、和前一处理单位时间中平滑化过的量化LSP参数之间每个次数之差的平方和。
在动态特征提取部601中,与AR型平滑化部604并列,向延迟部608也输入量化LSP参数。在延迟部608中,延迟1个处理单位时间,经开关609输出到AR型平均值计算部611。
开关609在从延迟部610输出的模式信息是噪声模式的情况下闭合,将从延迟部608输出的量化LSP参数输入到AR型平均值计算部611。
延迟部610输入从模式判定部621输出的模式信息,延迟1个处理单位时间,输出到开关609。
AR型平均值计算部611与AR型平滑化部604同样,根据(1)式来计算噪声区间中的平均LSP参数,输出到加法器612。其中,(1)式中的α值为大约0.05,通过进行极强的平滑化处理,来计算LSP参数的长时间平均。
加法器612对各次数来计算当前处理单位时间中的量化LSP参数、和AR型平均值计算部611算出的噪声区间中的量化LSP参数之差,输出到平方和计算部613。
平方和计算部613输入从加法器612输出的量化LSP参数的差分信息,计算各次数的平方和,输出到语音区间检测部619。
量化LSP参数的动态特征提取部601由以上604至613的要素构成。
第一静态特征提取部602在线性预测残差功率计算部614中由量化LSP参数来计算线性预测残差功率。此外,在邻接LSP间隔计算部615中,如(2)式所示,对量化LSP参数邻接的每个次数来计算间隔。
Ld[i]=L[i+1]-L[i],i=1,2,...M-1...(2)L[i]i次量化LSP参数邻接LSP间隔计算部615的计算值被提供给方差值计算部616。方差值计算部616计算从邻接LSP间隔计算部615输出的量化LSP参数间隔的方差值。在计算方差值时,不使用所有LSP参数间隔数据,而是通过除去低带端(Ld[1])的数据,能够反映最低带以外的部分中存在的频谱的峰谷特征。与具有低带隆起特性的平稳噪声相比,在通过高通滤波器的情况下,在滤波器截止频率附近经常出现频谱的峰,所以具有去除这种频谱的峰信息的效果。即,能够提取输入信号的频谱包络的峰谷特征,能够提取静态特征,用于检测很可能是语音区间的区间。此外,根据该结构,能够高精度地区分语音区间和平稳噪声区间。
量化LSP参数的第一静态特征提取部602由以上的614、615、616的要素构成。
此外,在第二静态特征提取部603中,反射系数计算部617将量化LSP参数变换为反射系数,输出到有声/无声判定部620。与此同时,线性预测残差功率计算部618由量化LSP参数来计算线性预测残差功率,输出到有声/无声判定部620。
线性预测残差功率计算部618与线性预测残差功率计算部614相同,所以614和618能够共用。
量化LSP参数的第二静态特征提取部603由以上的617和618的要素构成。
动态特征提取部610及第一静态特征提取部602的输出被提供给语音区间检测部619。语音区间检测部619从平方和计算部607输入平滑化量化LSP参数的变动量,从平方和计算部613输入噪声区间的平均量化LSP参数、和当前的量化LSP参数之间的距离,从线性预测残差功率计算部614输入量化线性预测残差功率,从方差值计算部616输入邻接LSP间隔数据的方差信息。然后,使用这些信息,判定当前处理单位时间中的输入信号(或解码信号)是否是语音区间,将判定结果输出到模式判定部621。更具体的判定是否是语音区间的方法使用图8来后述。
另一方面,第二静态特征提取部603的输出被提供给有声/无声判定部620。有声/无声判定部620分别输入从反射系数计算部617输入的反射系数、和从线性预测残差功率计算部618输入的量化线性预测残差功率。然后,使用这些信息,判定当前处理单位时间中的输入信号(或解码信号)是有声区间、还是无声区间,将判定结果输出到模式判定部621。更具体的有音/无音判定方法使用图9来后述。
模式判定部621分别输入从语音区间检测部619输出的判定结果、和从有声/无声判定部620输出的判定结果,使用这些信息来决定当前处理单位时间中的输入信号(或解码信号)的模式并输出。更具体的模式分类方法使用图10来后述。
在本实施例中,平滑化部和平均值计算部使用AR型,但是也可以使用其以外的方法进行平滑化和平均值计算。
下面,参照图8,说明上述实施例中的语音区间判定方法的细节。
首先,在ST801中,计算第一动态参数(Para1)。第一动态参数的具体内容是每个处理单位时间的量化LSP参数的变动量,如(3)式所示。D(t)=Σi=1M(LSi(t)-LSi(t-1))2----(3)]]>
LSi(t)时刻t的平滑化量化LSP接着,在ST802中,检查第一动态参数是否大于预定的阈值Th1。在超过阈值Th1的情况下,由于量化LSP参数的变动量大,所以判定为是语音区间。另一方面,在小于阈值Th1的情况下,由于量化LSP参数的变动量小,所以进至ST803,进一步进至使用其他参数的判定处理的ST。
在ST802中,在第一动态参数小于阈值Th1的情况下,进至ST803,检查计数器的数目,该计数器的数目表示过去有多少被判定为平稳噪声区间。计数器的初始值是0,对于通过本模式判定方法判定为是平稳噪声区间的每个处理单位时间而递增1。在ST803中,在计数器的数目小于预定的阈值ThC的情况下,进至ST804,使用静态参数来判定是否是语音区间。另一方面,在超过阈值ThC的情况下,进至ST806,使用第二动态参数来判定是否是语音区间。
在ST804中计算2种参数。一个是由量化LSP参数来计算的线性预测残差功率(Para3),另一个是量化LSP参数的邻接次数的差分信息的方差(Para4),线性预测残差功率可以如下求出将量化LSP参数变换为线性预测系数,通过使用Levinson-Durbin算法中的关系式来求。对于线性预测残差功率,已知无声部倾向于大于有声部,所以能够用作有声/无声的判定基准。量化LSP参数的邻接次数的差分信息示于(2)式,用于求这些数据的方差。其中,由于噪声的种类或限带的施加方法,在低带中存在频谱的峰(ピ-ク),所以不使用低带端的邻接次数的差分信息(在(2)式中,i=1),在(2)式中,而是使用从i=2到M-1(M是分析次数)的数据来求方差较好。在语音信号中,由于在电话频带(200Hz~3.4kHz)内具有大约3个共振峰,所以LSP的间隔窄的部分和宽的部分有几个,间隔数据的方差倾向于变大。另一方面,在平稳噪声中,由于不具有共振峰结构,所以LSP间隔往往是比较相等的间隔,上述方差倾向于变小。利用该性质,能够判定是否是语音区间。其中,如上所述,因噪声的种类等而异,有时在低带中具有频谱的峰,在这种情况下,最低带端的LSP间隔变窄,所以如果使用所有邻接LSP差分数据来求方差,则共振峰的有无引起的差别变小,判定精度变低。因此,通过除去低带端的邻接LSP差分信息来求方差,来回避这种精度恶化。其中,由于这种静态参数与动态参数相比,判定能力低,所以用作辅助信息较好。ST804中算出的2种参数用于ST805。
接着,在ST805中,使用ST804中算出的2种参数进行阈值处理。具体地说,在线性预测残差功率(Para3)小于阈值Th3、而且邻接LSP间隔数据的方差(Para4)大于阈值Th4的情况下,判定为语音区间。在其以外的情况下,判定为平稳噪声区间(非语音区间)。在判定为平稳噪声区间的情况下,将计数器的值增加1。
在ST806中,计算第二动态参数(Para2)。第二动态参数表示过去的平稳噪声区间中的平均量化LSP参数、和当前处理单位时间中的量化LSP参数之间的类似度,具体地说,如(4)式所示,是使用上述2种量化LSP参数对各次数来求差分值、求平方和而得到的。求出的第二动态参数在ST807中用于阈值处理。E(t)=Σi=1M(Li(t)-LAi)2-----(4)]]>Li(t)时刻t的量化LSP LAi噪声区间的平均量化LSP参数接着,在ST807中,判定第二动态参数是否超过阈值Th2。如果超过阈值Th2,则由于与过去的平稳噪声区间中的平均量化LSP参数的类似度低,所以判定为语音区间,而如果小于阈值Th2,则由于与过去的平稳噪声区间中的平均量化LSP参数的类似度高,所以判定为平稳噪声区间。在判定为平稳噪声区间的情况下,将计数器的值增加1。
接着,参照图9来说明上述实施例中的有声无声区间判定方法的细节。
首先,在ST901中,由当前处理单位时间中的量化LSP参数来计算1次反射系数。反射系数是将LSP参数变换为线性预测系数来计算的。
接着,在ST902中,判定上述反射系数是否超过第一阈值Th1。如果超过阈值Th1,则判定为当前的处理单位时间是无声区间,结束有声无声区间判定处理,而如果小于阈值Th1,则进一步继续有声无声判定的处理。
在ST902中未判定为无声的情况下,在ST903中,判定上述反射系数是否超过第二阈值Th2。如果超过阈值Th2,则进至ST905,而如果小于阈值Th2,则进至ST904。
在ST903中,在上述反射系数小于第二阈值Th2的情况下,在ST904中,判定上述反射系数是否超过第三阈值Th3。如果超过阈值Th3,则进至ST907,而如果小于阈值Th3,则判定为有声区间,结束有声无声判定处理。
在ST903中,在上述反射系数超过第二阈值Th2的情况下,在ST905中,计算线性预测残差功率。线性预测残差功率是将量化LSP变换为线性预测系数来计算的。
接着ST905,在ST906中,判定上述线性预测残差功率是否超过阈值Th4。如果超过阈值Th4,则判定为无声区间,结束有声无声判定处理,而如果小于阈值Th4,则判定为有声区间,结束有声无声判定处理。
在ST904中,在上述反射系数超过第三阈值Th3的情况下,在ST907中,计算线性预测残差功率。
接着ST907,在ST908中,判定上述线性预测残差功率是否超过阈值Th5。如果超过阈值Th5,则判定为无声区间,结束有声无声判定处理,而如果小于阈值Th5,则判定为有声区间,结束有声无声判定处理。
接着,参照图10,说明模式判定部621所用的模式判定方法。
首先,在ST1001中,输入语音区间检测结果。本步骤也可以是进行语音区间检测处理的模块本身。
接着,在ST1002中,根据是否是语音区间的判定结果,来决定是否判定为平稳噪声模式。在是语音区间的情况下,进至ST1003,而在不是语音区间(是平稳噪声区间)的情况下,输出是平稳噪声模式这一判定结果,结束模式判定处理。
在ST1002中,在判定为不是平稳噪声区间模式的情况下,接着在ST1003中,进行有声无声判定结果的输入。本步骤也可以是进行有声无声判定处理的模块本身。
接着ST1003,在ST1004中,根据有声无声判定结果进行模式判定,判定是有声区间模式、还是无声区间模式。在是有声区间的情况下,输出是有声区间模式这一判定结果,结束模式判定处理,而在是无声区间的情况下,输出是无声区间模式这一判定结果,结束模式判定处理。如上所述,使用语音区间检测结果和有声无声判定结果,将当前处理单位模块中的输入信号(或解码信号)的模式分类为3个模式。
(实施例5)图7是本发明实施例5的后处理器的结构方框图。本后处理器与实施例4所示的模式判定器组合,用于实施例2所示的语音信号解码装置。该图所示的后处理器分别包括模式切换开关705、708、707、711,振幅频谱平滑化部706,相位频谱随机化部709、710,阈值设定部703、716。
加权合成滤波器701输入从上述语音解码装置的LPC解码器201输出的解码LPC,构筑听觉加权合成滤波器,对从上述语音解码装置的合成滤波器209或后滤波器210输出的合成语音信号进行加权滤波处理,输出到FFT处理部702。
FFT处理器702进行从加权合成滤波器701输出的加权处理后的解码信号的FFT处理,将振幅频谱WSAi分别输出到第一阈值设定部703、第一振幅频谱平滑化部706、以及第一相位频谱随机化部709。
第一阈值设定部703使用所有频率分量来计算FFT处理部702算出的振幅频谱的平均值,以该平均值为基准,将阈值Th1分别输出到第一振幅频谱平滑化部706和第一相位频谱随机化部709。
FFT处理部704进行从上述语音解码装置的合成滤波器209或后滤波器210输出的合成语音信号的FFT处理,将振幅频谱分别输出到模式切换开关705、712、加法器715、第二相位频谱随机化部710,而将相位频谱输出到模式切换开关708。
模式切换开关705输入从上述语音解码装置的模式选择器202输出的模式信息(Mode)、和从上述加法器715输出的差分信息(Diff),判定当前处理单位时间中的解码信号是语音区间、还是平稳噪声区间,在判定为语音区间的情况下,连接到模式切换开关707,而在判定为平稳噪声区间的情况下,连接到第一振幅频谱平滑化部706。
第一振幅频谱平滑化部706经模式切换开关705从FFT处理部704输入振幅频谱SAi,对另外输入的第一阈值Th1和加权振幅频谱WSAi决定的频率分量进行平滑化处理,输出到模式切换开关707。平滑化的频率分量的决定方法是根据加权振幅频谱WSAi是否小于第一阈值Th1来决定的。即,只对WSAi小于Th1的频率分量i进行振幅频谱SAi的平滑化处理。通过该平滑化处理,缓和了平稳噪声区间中的、由编码失真引起的振幅频谱的时间上的不连续性。在FFT点数是128点、处理单位时间是10ms的情况下,用例如(1)式那样的AR型进行该平滑化处理的情况下的系数α可以设定为大约0.1。
与模式切换开关705同样,模式切换开关707输入从上述语音解码装置的模式选择器202输出的模式信息(Mode)、和从上述加法器715输出的差分信息(Diff),判定当前处理单位时间中的解码信号是语音区间、还是平稳噪声区间,在判定为语音区间的情况下,连接到模式切换开关705,而在判定为平稳噪声区间的情况下,连接到第一振幅频谱平滑化部706。上述判定结果与模式切换开关705的判定结果相同。模式切换开关707的另一端被连接到IFFT处理部720。
模式切换开关708与模式切换开关705联动切换,输入从上述语音解码装置的模式选择器202输出的模式信息(Mode)、和从上述加法器715输出的差分信息(Diff),判定当前处理单位时间中的解码信号是语音区间、还是平稳噪声区间,在判定为语音区间的情况下,连接到第二相位频谱随机化部710,而在判定为平稳噪声区间的情况下,连接到第一相位频谱随机化部709。上述判定结果与模式切换开关705的判定结果相同。即,在模式切换开关705被连接到第一振幅频谱平滑化部706的情况下,模式切换开关708被连接到第一相位频谱随机化部709,而在模式切换开关705被连接到模式切换开关707的情况下,模式切换开关708被连接到第二相位频谱随机化部710。
第一相位随机化部709经模式切换开关708输入从FFT处理部704输出的相位频谱SPi,对通过另外输入的第一阈值Th1和加权振幅频谱WSAi决定的频率分量进行随机化处理,输出到模式切换开关711。随机化的频率分量的决定方法与上述第一振幅频谱平滑化部706中进行平滑化的频率分量的决定方法相同。即,只对WSAi小于Th1的频率分量i进行相位频谱SPi的随机化处理。
第二相位频谱随机化部710经模式切换开关708输入从FFT处理部704输出的相位频谱SPi,对通过另外输入的第二阈值Th2i和振幅频谱SAi决定的频率分量进行随机化处理,输出到模式切换开关711。随机化的频率分量的决定方法与上述第一相位频谱随机化部709相同。即,只对SAi小于Th2i的频率分量i进行相位频谱SPi的随机化处理。
模式切换开关711与模式切换开关707联动,与模式切换开关707同样,输入从上述语音解码装置的模式选择器202输出的模式信息(Mode)、和从上述加法器715输出的差分信息(Diff),判定当前处理单位时间中的解码信号是语音区间、还是平稳噪声区间,在判定为语音区间的情况下,连接到第二相位频谱随机化部710,而在判定为平稳噪声区间的情况下,连接到第一相位频谱随机化部709。上述判定结果与模式切换开关708的判定结果相同。模式切换开关711的另一端被连接到IFFT处理部720。
模式切换开关712与模式切换开关705同样,输入从上述语音解码装置的模式选择器202输出的模式信息(Mode)、和从上述加法器715输出的差分信息(Diff),判定当前处理单位时间中的解码信号是语音区间、还是平稳噪声区间,在判定为不是语音区间(是平稳噪声区间)的情况下,接通开关,向第二振幅频谱平滑化部713输出从FFT处理部704输出的振幅频谱SAi。在判定为语音区间的情况下,模式切换开关712被断开,不向第二振幅频谱平滑化部713输出振幅频谱SAi。
第二振幅频谱平滑化部713经模式切换开关712输入从FFT处理部704输出的振幅频谱SAi,对所有频带分量进行平滑化处理。通过该平滑化处理,能得到平稳噪声区间中的平均振幅频谱。该平滑化处理与第一振幅频谱平滑化部706中进行的处理相同。此外,在模式切换开关712被断开时,在本处理部中不进行处理,输出最后进行处理时的平稳噪声区间的平滑化振幅频谱SSAi。第二振幅频谱平滑化部713平滑化过的振幅频谱SSAi被分别输入到延迟部714、第二阈值设定部716、模式切换开关718。
延迟部714输入从第二振幅频谱平滑化部713输出的SSAi,延迟1个处理单位时间,输出到加法器715。
加法器715计算1个处理单位时间前的平稳噪声区间平滑化振幅频谱SSAi、和当前处理单位时间中的振幅频谱SAi之间的距离Diff,分别输出到模式切换开关705、707、708、711、712、718、719。
第二阈值设定部716以从第二振幅频谱平滑化部713输出的平稳噪声区间平滑化振幅频谱SSAi为基准来设定阈值Th2i,输出到第二相位频谱随机化部710。
随机相位频谱生成部717将随机生成的相位频谱输出到模式切换开关719。
模式切换开关718与模式切换开关712同样,输入从上述语音解码装置的模式选择器202输出的模式信息(Mode)、和从上述加法器715输出的差分信息(Diff),判定当前处理单位时间中的解码信号是语音区间、还是平稳噪声区间,在判定为是语音区间的情况下,接通开关,将第二振幅频谱平滑化部713的输出输出到IFFT处理部720。在判定为不是语音区间(是平稳噪声区间)的情况下,模式切换开关718被断开,第二振幅频谱平滑化部713的输出不被输出到IFFT处理部720。
模式切换开关719与模式切换开关718联动切换,与模式切换开关718同样,输入从上述语音解码装置的模式选择器202输出的模式信息(Mode)、和从上述加法器715输出的差分信息(Diff),判定当前处理单位时间中的解码信号是语音区间、还是平稳噪声区间,在判定为是语音区间的情况下,接通开关,将随机相位生成部717的输出输出到IFFT处理部720。在判定为不是语音区间(是平稳噪声区间)的情况下,模式切换开关719被断开,随机相位生成部717的输出不被输出到IFFT处理部720。
IFFT处理部720分别输入从模式切换开关707输出的振幅频谱、从模式切换开关711输出的相位频谱、从模式切换开关718输出的振幅频谱、以及从模式切换开关719输出的相位频谱,进行逆FFT处理,输出后处理后的信号。在模式切换开关718、719被断开的情况下,将从模式切换开关707输入的振幅频谱、和从模式切换开关711输入的相位频谱变换为FFT的实部频谱和虚部频谱,进行逆FFT处理,将结果的实部作为时间信号来输出。另一方面,在模式切换开关718、717被接通的情况下,将从模式切换开关707输入的振幅频谱、和从模式切换开关711输入的相位频谱变换为第一实部频谱和第一虚部频谱,将从模式切换开关718输入的振幅频谱、和从模式切换开关719输入的相位频谱变换为第二实部频谱和第二虚部频谱,并且将第一实部频谱和第一虚部频谱加上第二实部频谱和第二虚部频谱,进行逆FFT处理。即,将第一实部频谱和第二实部频谱相加所得作为第三实部频谱,将第一虚部频谱和第二虚部频谱相加所得作为第三虚部频谱,然后使用第三实部频谱和第三虚部频谱进行逆FFT处理。在上述频谱相加时,第二实部频谱及第二虚部频谱通过常数倍或自适应控制的变量来衰减。例如,在上述频谱相加中,将第二实部频谱变为0.25倍后,与第一实部频谱相加,将第二虚部频谱变为0.25倍后,与第一虚部频谱相加,分别得到第三实部频谱及第三虚部频谱。
接着,使用图11及图12来说明上述后处理方法。图11是本实施例的后处理方法的具体处理的流程图。
首先,在ST1101中,计算听觉加权过的输入信号(解码语音信号)的FFT对数振幅频谱(WSAi)。
接着,在ST1102中,计算第一阈值Th1。Th1是将WSAi的平均值加上常数k1而得到的。k1的值根据经验来决定,例如,在常用对数域中是大约0.4。设FFT点数为N,设FFT振幅频谱为WSAi(i=1,2,...N),则WSAi以i=N/2和i=N/2+1为界对称,所以如果计算N/2个WSAi的平均值,就能求出WSAi的平均值。
接着,在ST1103中,计算未进行听觉加权的输入信号(解码语音信号)的FFT对数振幅频谱(SAi)和FFT相位频谱(SPi)。
接着,在ST1104中,计算频谱变动(Diff)。频谱变动是从当前的FFT对数振幅频谱(SAi)中减去过去判定为平稳噪声区间的区间中的平均FFT对数振幅频谱(SSAi)所得的残差频谱的总和。本步骤中求的频谱变动Diff是用于判定当前功率是否大于平稳噪声区间的平均功率的参数,如果大于,则可以判断为是存在与平稳噪声分量不同的信号的区间,不是平稳噪声区间。
接着,在ST1105中,检查表示过去判定为平稳噪声区间的次数的计数器。在计数器的数目大于一定值、即判定为过去在某种程度上稳定、是平稳噪声区间的情况下,进至ST1107,在不是这样的情况下,即不太能判定为过去是平稳噪声区间的情况下,进至ST1106。ST1106和ST1107之间的差别是是否将频谱变动(Diff)用作判定基准的差别。频谱变动(Diff)使用过去判定为平稳噪声区间的区间中的平均FFT对数振幅频谱(SSAi)来计算。为了求这种平均FFT对数振幅频谱(SSAi),需要过去某种程度足够的时间长度的平稳噪声区间,所以设置ST1105,在过去没有足够的时间长度的平稳噪声区间的情况下,由于认为噪声区间的平均FFT对数振幅频谱(SSAi)没有被足够平均化,所以进至不使用频谱变动(Diff)的ST1106。计数器的初始值是0。
接着,在ST1106或ST1107中,判定是否是平稳噪声区间。在ST1106中,将语音解码装置中已经决定的音源模式是平稳噪声区间模式的情况判定为平稳噪声区间,在ST1107中,将语音解码装置中已经决定的音源模式是平稳噪声区间模式、而且ST1104中计算出的振幅频谱变动(Diff)小于阈值k3的情况判定为平稳噪声区间。在ST1106或ST1107中,在判定为是平稳噪声区间的情况下,进至ST1108,而在判定为不是平稳噪声区间、即是语音区间的情况下,进至ST1113。
在判定为是平稳噪声区间的情况下,接着,在ST1108中,进行平滑化处理,用于求平稳噪声区间的平均FFT对数频谱(SSAi)。在ST1108的式子中,β是表示0.0~1.0范围内的平滑化强度的常数,在FFT点数是128点、处理单位时间是10ms(用80kHz采样80点)的情况下,可以大约使β=0.1。该平滑化处理对所有对数振幅频谱(SAi,i=1,...N,N是FFT点数)进行。
接着,在ST1109中,进行FFT对数振幅频谱的平滑化处理,用于使平稳噪声区间的振幅频谱的变动变得平滑。该平滑化处理与ST1108的平滑化处理相同,但是不对所有对数振幅频谱(SAi)进行,而只对听觉加权对数振幅频谱(WSAi)小于阈值的频率分量i进行。ST1109的式子中的γ与ST1108中的β相同,可以是相同值。在ST1109中,得到部分平滑化过的对数振幅频谱SSA2i。
接着,在ST1110中,进行FFT相位频谱的随机化处理。该随机化处理与ST1109的平滑化处理同样,对频率选择性地进行。即,与ST1109同样,只对听觉加权对数振幅频谱(WSAi)小于阈值Th1的频率分量i进行。这里,Th1可以是与ST1109相同的值,但是也可以设定为调整得能得到更好的主观品质的不同的值。此外,ST1110中的random(i)是随机生成的-2π~+2π范围内的数值。random(i)的生成也可以每次新生成随机数,但是在节约运算量的情况下,将预先生成的随机数保持在表内,在每个处理单位时间,能够循环利用表的内容。在此情况下,可以考虑原封不动地利用表的内容的情况、和将表的内容加到原始FFT相位频谱来使用的情况。
接着,在ST1111中,由FFT对数振幅频谱和FFT相位频谱来生成复数FFT频谱。实部是将FFT对数振幅频谱SSA2i从对数域返回到线性域后、乘以相位频谱RSP2i的余弦来求的。虚部是将FFT对数振幅频谱SSA2i从对数域返回到线性域后、乘以相位频谱RSP2i的正弦来求的。
接着,在ST1112中,将判定为平稳噪声区间的区间的计数器增加1。
另一方面,在ST1106或1107中,在判定为语音区间(不是平稳噪声区间)的情况下,接着,在ST1113中,FFT对数振幅频谱SAi被复制为平滑化对数频谱SSA2i。即,不进行对数振幅频谱的平滑化处理。
接着,在ST1114中,进行FFT相位频谱的随机化处理。该随机化处理与ST1110的情况同样,对频率选择性地进行。其中,频率选择所用的阈值不是Th1,而使用将过去在ST1108中求的SSAi加上常数k4所得的值。该阈值相当于图6中的第二阈值Th2i。即,只对比平稳噪声区间中的平均振幅频谱小的振幅频谱的频率分量进行相位频谱的随机化。
接着,在ST1115中,由FFT对数振幅频谱和FFT相位频谱来生成复数FFT频谱。实部如下来求将FFT对数振幅频谱SSA2i从对数域返回到线性域后乘以相位频谱RSP2i的余弦所得的值、加上将FFT对数振幅频谱SSAi从对数域返回到线性域后乘以相位频谱random2(i)的余弦并乘以常数k5所得的值。虚部如下来求将FFT对数振幅频谱SSA2i从对数域返回到线性域后乘以相位频谱RSP2i的正弦所得的值、加上将FFT对数振幅频谱SSAi从对数域返回到线性域后乘以相位频谱random2(i)的正弦并乘以常数k5所得的值。常数k5在0.0~1.0的范围内,更具体地说,设定为大约0.25。k5也可以是自适应控制的变量。通过叠加k5倍的平均平稳噪声,能够提高语音区间中的背景平稳噪声的主观品质。random2(i)是与random(i)相同的随机数。
接着,在ST1116中,进行ST1111或1115中生成的复数FFT频谱(Re(S2)i,Im(S2)i)的逆FFT,得到复数(Re(s2)i,Im(s2)i)。
最后,在ST1117中,将通过逆FFT得到的复数的实部Re(s2)i作为输出信号来输出。
根据本发明的多模式语音编码装置,使用第一编码部的编码结果来决定第二编码部的编码模式,所以不用附加表示模式的新信息,就能够实现第二编码部的多模式化,能够提高编码性能。
根据该结构,模式切换部使用表示语音频谱特性的量化参数进行对驱动音源进行编码的第二编码部的模式切换,从而对表示频谱特性的参数、和表示驱动音源的参数独立进行编码,在上述形态的语音编码装置中,不用增加新的传输信息,就能够将驱动音源的编码多模式化,能够提高编码性能。
在此情况下,模式切换使用动态特征,从而能够检测平稳噪声部,所以通过驱动音源编码的多模式化,能够改善对平稳噪声部的编码性能。
此外,在此情况下,模式切换部使用量化LSP参数进行对驱动音源进行编码的处理部的模式切换,从而能够简单地适用于将LSP参数用作表示频谱特性的参数的CELP方式,此外,能够良好地判定用于使用频域的参数、即LSP参数的频谱的平稳性,能够改善对平稳噪声的编码性能。
此外,在此情况下,在模式切换部中,使用过去及当前的量化LSP参数来判定量化LSP的平稳性,使用当前的量化LSP来判定有声性,根据这些判定结果进行对驱动音源进行编码的处理部的模式切换,从而能够用平稳噪声部、无声语音部和有声语音部来切换进行驱动音源的编码,通过准备与各部对应的驱动音源的编码模式,能够改善编码性能。
在本发明的语音解码装置中,能够检测解码信号的功率急剧变大的情况,能够应付检测上述语音区间的处理部发生检测差错的情况。
此外,在本发明的语音解码装置中,通过使用动态特征,能够检测平稳噪声部,所以通过驱动音源编码的多模式化,能够改善对平稳噪声部的编码性能。
如上所述,根据本发明,由于使用表示频谱特性的参数的量化数据中的静态及动态特征进行音源编码及/或解码后处理的模式切换,所以不用新传输模式信息,就能够实现音源编码的多模式化。特别是由于除了有声区间/无声区间的判定之外,还能够进行语音区间/非语音区间的判定,所以能够提供一种语音编码装置及语音解码装置,能够进一步提高多模式化对编码性能的改善度。
本说明书基于1998年8月21日申请的特愿平10-236147号及1998年9月21日申请的特愿平10-266883号,其内容全部包含于此。
产业上的可利用性本发明能够有效适用于数字无线通信系统中的通信终端装置或基站装置。
权利要求
1.一种多模式语音编码装置,包括第一编码部件,对表示语音信号中包含的声道信息的至少1种以上的参数进行编码;第二编码部件,能够用几个模式对表示上述语音信号中包含的音源信息的至少1种以上的参数进行编码;模式切换部件,根据上述第一编码部件编码过的特定参数的动态特征进行上述第二编码部件的模式切换;以及合成部件,通过上述第一、第二编码部件编码过的多种参数信息来合成输入语音信号。
2.如权利要求1所述的多模式语音编码装置,其中,上述第二编码部件由能够用几个编码模式对驱动音源进行编码的编码部件构成,上述模式切换部件使用表示语音频谱特性的量化参数来切换上述第二编码部件的编码模式。
3.如权利要求2所述的多模式语音编码装置,其中,上述模式切换部件使用表示语音频谱特性的量化参数的静态特征及动态特征来切换上述第二编码部件的编码模式。
4.如权利要求2所述的多模式语音编码装置,其中,上述模式切换部件使用量化LSP参数,来切换上述第二编码部件的编码模式。
5.如权利要求4所述的多模式语音编码装置,其中,上述模式切换部件使用量化LSP参数的静态及动态特征,来切换上述第二编码部件的编码模式。
6.如权利要求4所述的多模式语音编码装置,其中,上述模式切换部件包括使用过去及当前的量化LSP参数来判定量化LSP参数的平稳性的部件、和使用当前的量化LSP参数来判定有声性的部件,根据上述判定结果来切换上述第二编码部件的编码模式。
7.一种多模式语音解码装置,包括第一解码部件,对表示语音信号中包含的声道信息的至少1种以上的参数进行解码;第二解码部件,能够用几个编码模式对表示上述语音信号中包含的音源信息的至少1种以上的参数进行解码;模式切换部件,根据上述第一解码部件解码过的特定参数的动态特征进行上述第二解码部件的编码模式切换;以及合成部件,通过上述第一、第二解码部件解码过的多种参数信息对语音信号进行解码。
8.如权利要求7所述的多模式语音解码装置,其中,上述第二解码部件由能够用几个解码模式对驱动音源进行解码的解码部件构成,上述模式切换部件使用表示语音频谱特性的量化参数来切换上述第二解码部件的解码模式
9.如权利要求8所述的多模式语音解码装置,其中,上述模式切换部件使用表示语音频谱特性的量化参数的静态特征及动态特征来切换上述第二解码部件的解码模式。
10.如权利要求8所述的多模式语音解码装置,其中,上述模式切换部件使用量化LSP参数,来切换上述第二解码部件的解码模式。
11.如权利要求10所述的多模式语音解码装置,其中,上述模式切换部件使用量化LSP参数的静态及动态特征,来切换上述第二解码部件的解码模式。
12.如权利要求10所述的多模式语音解码装置,其中,上述模式切换部件包括使用过去及当前的量化LSP参数来判定量化LSP参数的乎稳性的部件、和使用当前的量化LSP参数来判定有声性的部件,根据上述判定结果来切换上述第二解码部件的解码模式。
13.如权利要求7所述的多模式语音解码装置,其中,根据上述判定结果来切换对解码信号的后处理。
14.一种量化LSP参数动态特征提取器,包括计算量化LSP参数的帧间变化的部件;计算量化LSP参数平稳的帧中的平均量化LSP参数的部件;以及计算上述平均量化LSP参数和当前量化LSP参数之间距离的部件。
15.一种量化LSP参数静态特征提取器,包括由量化LSP参数来计算线性预测残差功率的部件;以及计算邻接次数的量化LSP参数的间隔的部件。
16.一种多模式后处理器,包括判定部件,使用解码LSP参数来判定是否是语音区间;FFT处理部件,进行信号的快速付立叶变换处理;相位频谱随机化部件,按照上述判定部件的判定结果使上述快速付立叶变换处理所得的相位频谱随机化;振幅频谱平滑化部件,按照上述判定结果使上述快速付立叶变换处理所得的振幅频谱平滑化;以及IFFT处理部件,对上述相位频谱随机化部件随机化过的相位频谱、和上述振幅频谱平滑化部件平滑化过的相位频谱进行逆快速付立叶变换处理。
17.如权利要求16所述的多模式后处理器,其中,在语音区间中使用过去的非语音区间中的平均振幅频谱来决定随机化的相位频谱的频率,而在非语音区间中使用听觉加权域中的所有频率的振幅频谱的平均值来决定随机化的相位频谱、和平滑化的振幅频谱的频率。
18.如权利要求16所述的多模式后处理器,其中,在语音区间中叠加使用过去的非语音区间中的平均振幅频谱而生成的噪声。
19.一种语音信号发送装置,包括语音输入装置,将语音信号变换为电信号;A/D变换器,将从该语音输入装置输出的信号变换为数字信号;多模式语音编码装置,进行从该A/D变换器输出的数字信号的编码;RF调制器,对从该多模式语音编码装置输出的编码信息进行调制处理等;以及发送天线,将从该RF调制器输出的信号变换为电波来发送,上述多模式语音编码装置包括第一编码部件,对表示语音信号中包含的声道信息的至少1种以上的参数进行编码;第二编码部件,能够用几个模式对表示上述语音信号中包含的音源信息的至少1种以上的参数进行编码;模式切换部件,根据上述第一编码部件编码过的特定参数的动态特征进行上述第二编码部件的模式切换;以及合成部件,通过上述第一、第二编码部件编码过的多种参数信息来合成输入语音信号。
20.一种语音信号接收装置,包括接收天线,接收接收电波;RF解调器,进行该接收天线接收到的信号的解调处理;多模式语音解码装置,进行该RF解调器所得的信息的解码;D/A变换器,对该多模式语音解码装置解码过的数字语音信号进行D/A变换;以及语音输出装置,将该D/A变换器输出的电信号变换为语音信号,上述多模式语音解码装置包括第一解码部件,对表示语音信号中包含的声道信息的至少1种以上的参数进行解码;第二解码部件,能够用几个编码模式对表示上述语音信号中包含的音源信息的至少1种以上的参数进行解码;模式切换部件,根据上述第一解码部件解码过的特定参数的动态特征进行上述第二解码部件的编码模式切换;以及合成部件,通过上述第一、第二解码部件解码过的多种参数信息对语音信号进行解码。
21.一种机器可读取的存储媒体,记录用于在计算机中执行下述步骤的程序使用过去及当前的量化LSP参数来判定量化LSP参数的平稳性;使用当前的量化LSP参数来判定有声性;以及根据上述步骤判定的结果来切换对驱动音源进行编码的步骤的模式切换。
22.一种机器可读取的存储媒体,记录用于在计算机中执行下述步骤的程序使用过去及当前的量化LSP参数来判定量化LSP参数的平稳性;使用当前的量化LSP来判定有声性;根据上述步骤判定的结果来切换对驱动音源进行解码的步骤的模式切换;以及根据上述步骤判定的结果来切换对解码信号的后处理步骤。
23.一种多模式语音编码方法,使用表示语音频谱特性的量化参数的静态及动态特征进行对驱动音源进行编码的模式的模式切换。
24.一种多模式语音解码方法,使用表示语音频谱特性的量化参数的静态及动态特征进行对驱动音源进行解码的模式的模式切换。
25.如权利要求24所述的多模式语音解码方法,包括对解码信号进行后处理的步骤;以及根据模式信息进行上述后处理步骤的切换的步骤。
26.一种量化LSP参数的动态特征提取方法,包括计算量化LSP参数的帧间变化的步骤;计算量化LSP参数平稳的帧中的平均量化LSP参数的步骤;以及计算上述平均量化LSP参数和当前量化LSP参数之间距离的步骤。
27.一种量化LSP参数静态特征提取方法,包括由量化LSP参数来计算线性预测残差功率的步骤;以及计算邻接次数的量化LSP参数的间隔的步骤。
28.一种多模式后处理方法,包括判定步骤,使用解码LSP参数来判定是否是语音区间;FFT处理步骤,进行信号的快速付立叶变换处理;相位频谱随机化步骤,按照上述判定步骤的判定结果使上述快速付立叶变换处理所得的相位频谱随机化;振幅频谱平滑化步骤,按照上述判定结果使上述快速付立叶变换处理所得的振幅频谱平滑化;以及IFFT处理步骤,对上述相位频谱随机化步骤中随机化过的相位频谱、和上述振幅频谱平滑化步骤中平滑化过的相位频谱进行逆快速付立叶变换处理。
全文摘要
使用量化过的声道参数的静态及动态特征用多模式对音源信息进行编码,在解码器端也进行多模式的后处理,从而改善无声语音区间及平稳噪声区间的品质。
文档编号G10L19/14GK1275228SQ9980137
公开日2000年11月29日 申请日期1999年8月20日 优先权日1998年8月21日
发明者江原宏幸 申请人:松下电器产业株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1