声源矢量生成装置以及声音编码装置和声音解码装置的制作方法

文档序号:2829506阅读:163来源:国知局
专利名称:声源矢量生成装置以及声音编码装置和声音解码装置的制作方法
技术领域
本发明涉及能得到高品质合成声音的声源矢量生成装置以及能用低位速率对高品质的声音信号进行编码/解码的声音编码装置和声音解码装置。
背景技术
CELP(Code Excited Linear Prediction编码激励线性预测)型的声音编码装置,是对每个以一定的时间划分声音的帧进行线性预测,用存储过去的驱动声源的自适应码本和存储多个噪声向量的噪声码本,对每帧线性预测的预测残差(激励信号)进行编码的方式。例如在“低位速率高品质量话音”(“High Quality Speechat Low Bit Rate”M.R.Schroeder,Proc.ICASSP’85,PP937-940)中公开的CELP型声音编码装置。
图1表示CELP型的声音编码装置的概略结构。CELP型的声音编码装置将声音信息分离成声源信息和声道信息并进行编码。对于声道信息,将输人声音信号10输人到滤波器系数分析单元11中并进行线性预测,在滤波器系数量化单元12对线性预测系数(LPG)进行编码。借助于对合成滤波器13提供线性预测系数,在合成滤波器13能将声道信号掺人声源信息中。对于声源信息,在每个进一步细分帧的区间(称为子帧)进行自适应码本14的检索和噪声码本15的声源检索。自适应码本14的检索和噪声码本15的声源检索,是决定使式(1)的编码失真最小的自适应码矢量的码号及其增益(音调增益)、和噪声码矢量的码号及其增益(噪声码增益)的处理。
‖v·(gaHp+gcHc)‖2(1)V声音信号(矢量)H合成滤波器的脉冲响应卷积矩阵
H=h(0)0ΛΛ00h(1)h(0)0Λ00h(2)h(1)h(0)000MMMΟ00MMMΟh(0)0h(L-1)ΛΛΛh(1)h(0)]]>其中,h合成滤波器的脉冲响应(矢量)L帧长p自适应码矢量c噪声码矢量ga自适应码增益(音调增益)gc噪声码增益但是,因当闭环检索使式(1)为最小的前述码时,码检索中所要的运算量变得膨大,所以在一般的CELP型声音编码装置中,首先进行自适应码本检索,规定自适应码矢量的码号,接着接受其结果,进行噪声码本检索,规定噪声码矢量的码号。
这里,参照图2A~图2C对CELP型声音编码装置的噪声码本检索进行说明。
图中,符号x是基于式(2)求得的噪声码本检索用的目标矢量。设自适应码本检索已经结束。
x=v-gaHp (2)x噪声码本检索目标(矢量)v声音信号(矢量)H合成滤波器的脉冲响应卷积矩阵p自适应码矢量ga自适应码增益(音调增益)如图2所示,噪声码本检索是规定使计算单元16中用式(3)定义的编码失真最小的噪声码矢量c的处理。
‖x-gcHc)‖2(3)x噪声码本检索目标(矢量)H合成滤波器的脉冲响应卷积矩阵c噪声码矢量
gc噪声码增益失真计算单元16对控制开关21进行控制,切换从噪声码本15读出的噪声编码矢量,直到定出噪声码矢量c为止。
为了减少计算的费用,实际的CELP型声音编码装置为图2B的结构,在失真计算单元16’中进行规定使式(4)的失真估算值最大的码号的处理。
(xtHc)2||Hc||2=((xtH)c)2||Hc||2=(x′tc)2||Hc||2=(x′tc)2ctHtHc---(4)]]>x噪声码本检索目标(矢量)H合成滤波器的脉冲响应卷积矩阵H’H的转置矩阵x’在H对x进行时间反转合成倒置所得矢量(x”=x’H)c噪声码矢量具体地说,将噪声码本控制开关21连接到噪声码本15的1端,从对应于该端的地址读出噪声码矢量c。由合成滤波器13,将读出的噪声码矢量c与声道信息合成,生成合成矢量Hc。接着,用对目标x进行时间反转、合成、时间反转得到的矢量x’、以合成滤波器合成噪声码矢量的所得矢量Hc和噪声码矢量c,失真计算单元16’算出式(4)的失真估算值。然后,切换噪声码本控制开关21,对噪声码本内的全部噪声矢量,算出上述失真估算值。
最后,将式(4)的失真估算值为最大时连接的噪声码本控制开关21的号码,作为噪声码矢量的码号,输出到编码输出单元17中。
图2C表示声音解码转置的部分结构。切换控制噪声码本控制开关21,以便读出被传送来的码号的噪声码矢量。在放大电路23和合成滤波器24中设定被传送来的噪声编码增益gc和滤波器系数后,读出噪声码矢量并复原合成声音。
在前述的声音编码装置和解码装置中,存储在噪声码本15中作为声源信息的噪声码矢量的越多,越能检索接近实际声音的声源的噪声码矢量。但是,因噪声码本(ROM)的容量有限制,所以不能将对应于全部声源的无数的噪声码矢量存储在噪声码本中。因此,在谋求声音品质的改善方面有其极限。
此外,提议有能大幅度地降低失真计算单元的编码失真计算,而且能减小噪声码本(ROM)的代数结构的声源(记载在“8KBIT/S ACELP CODING OF SPEECHWITH 10MS SPEECH-FRAMEA CANDIDATE FOR CCITT STANDARDIZATION”R.Salami,C.Laflamme,J-P.Adoul,ICASSP’94,pp.II-97~II-100,1994中)。
代数结构的声源预先计算合成滤波器的脉冲响应和时间反转的目标的卷积运算结果以及合成滤波器的自相关,并在存储器中展开,因而能大幅度地减少编码失真计算的费用。借助于代数生成噪声码矢量,能减小存储噪声码矢量的ROM。在噪声码本中使用前述代数结构声源的CS-ACELP和ACELP分别被ITU-T作为G.729建议和G.723.1建议提出。
但是,在将前述代数结构声源包括在噪声码本中的CELP型的声音编码装置/声音解码装置中,因不断地用脉冲串矢量对噪声码本检索用目标进行编码,所以在谋求声音品质的改善方面有其极限。

发明内容
鉴于前述实际情况,本发明的第1个目的是提供比原样在噪声码本中存储噪声码矢量的场合能大幅度地减小存储器容量,并能谋得声音品质改善的声源矢量生成装置以及声音编码装置和声音解码装置。
本发明的第2个目的是提供在噪声码本中包括代数结构声源,与用脉冲串矢量对噪声码本检索用目标进行编码的场合相比,能生成复杂的噪声码矢量,并能谋得声音品质改善的声源矢量生成装置以及声音编码装置和声音解码装置。
本发明将以往的CELP型声音编码/解码装置的固定矢量读出单元和固定码本,分别置换为输出与被输入的振种值相对应的不同的矢量系列的振荡器和存储多个振种(产生振荡器)的振种存储单元中。由此,不必将固定矢量原样存储在固定码本(ROM)中,能大幅度地减小存储器的容量。
本发明将以往的CELP型声音编码/解码装置的噪声矢量读出单元和噪声码本置换为振荡器和振种存储单元。由此,不必将噪声矢量原样存储在固定码本(ROM)中,能大幅度地减小存储器的容量。
本发明声源矢量生成装置的结构是存储多个固定波形,根据起始端候补位置信息将各固定波形配置在各自的起始端位置上,并对这些固定波形进行加法运算,生成声源矢量。因此,能生成接近实际声音的声源矢量。
本发明是噪声码本采用前述声源矢量生成装置而构成的CELP型声音编码/解码装置。固定波形配置单元也可以代数生成固定波形的起始端候补位置信息。
本发明的CELP型声音编码/解码装置做成存储多个固定波形,生成与每个固定波形起始端候补位置信息相对应的脉冲,对合成滤波器的脉冲响应和各自的固定波形卷积,生成波形别脉冲响应,计算前述波形别脉冲响应的自相关和互相关,并在相关矩阵存储器中展开。由此,能得到与以代数结构声源作为噪声码本使用的场合相同程度的计算费用,同时能改善合成声音的品质的声音编码/解码装置。
本发明的CELP型声音编码/解码装置包括多个噪声码本和从前述多个噪声码本中选择一个的切换手段,也可以至少以一个噪声码本作为前述声源矢量生成装置,此外,也可以至少以一个噪声码本作为存储多个随机数序列的向量存储单元或者存储多个脉冲串的脉冲串存储单元,或者至少有两个具有前述声源矢量生成装置的噪声码本,而且各噪声码本存储的固定波形个数不同,还可以使切换手段选择任一噪声码本,使噪声码本检索时编码失真为最小,或者根据声音区间分析结果,自适应选择任一个噪声码本。
根据本发明,提供一种激励矢量发生器,包括输入矢量提供系统,该系统能够提供具有至少一个脉冲的输入矢量,每个脉冲具有预定位置和各自的极性;固定波形存储系统,该系统能够存储至少一个固定波形;以及配置系统,该系统能够根据所述至少一个脉冲的位置和极性配置所述至少一个固定波形。
根据本发明,还提供一种产生用于合成语音生成中的激励矢量的方法,包括提供具有多个脉冲的输入矢量,所述多个脉冲中的每一个脉冲具有预定的位置和预定的极性;提供多个固定波形;根据所述输入矢量的多个脉冲的位置和极性配置所述多个固定波形中的一个固定波形;以及根据所述配置的波形产生激励矢量。
根据本发明,还提供一种激励矢量发生器,包括输入矢量提供系统,该系统能够提供具有至少一个脉冲的输入矢量,所述至少一个脉冲具有预定的位置和预定的极性;固定波形存储系统,该系统存储至少一个固定波形;以及移位系统,该系统根据所述输入矢量的所述至少一个脉冲的预定位置和预定极性移位所述至少一个固定波形。


图1表示以往的CELP型声音编码装置的概略图。
图2A是图1的声音编码装置的声源矢量生成单元的方框图。
图2B谋求减少计算费用的变形的声源矢量生成单元的方框图。
图2C是与图1的声音编码装置配对使用的声音解码装置中声源矢量生成单元的方框图。
图3表示与实施形态1相关的声音编码装置的主要部分的方框图。
图4表示包括在实施形态1的声音编码装置中的声源矢量生成装置的方框图。
图5表示实施形态2的声音编码装置的主要部分的方框图。
图6表示包括在实施形态2的声音编码装置中的声源矢量生成装置的方框图。
图7表示与实施形态3和4相关的声音编码装置的主要部分的方框图。
图8表示包括在实施形态3的声音编码装置中的声源矢量生成装置的方框图。
图9表示包括在实施形态4的声音编码装置中的非线性数字滤波器的方框图。
图10表示图9所示的非线性数字滤波器的加法特性图。
图11表示与实施形态5相关的声音编码装置的主要部分的方框图。
图12表示与实施形态6相关的声音编码装置的主要部分的方框图。
图13A表示与实施形态7相关的声音编码装置的主要部分的方框图。
图13B表示与实施形态7相关的声音编码装置的主要部分的方框图。
图14表示与实施形态8相关的声音解码装置的主要部分的方框图。
图15表示与实施形态9相关的声音编码装置的主要部分的方框图。
图16表示包括在实施形态9的声音编码装置中的量化对象LSP增加部分的方框图。
图17表示包括在实施形态9的声音编码装置中的LSP量化·解码单元的方框图。
图18表示与实施形态10相关的声音编码装置的主要部分的方框图。
图19A表示与实施形态11相关的声音编码装置的主要部分的方框图。
图19B表示与实施形态11相关的声音解码装置的主要部分的方框图。
图20表示与实施形态12相关的声音编码装置的主要部分的方框图。
图21表示与实施形态13相关的声音编码装置的主要部分的方框图。
图22表示与实施形态14相关的声音编码装置的主要部分的方框图。
图23表示与实施形态15相关的声音编码装置的主要部分的方框图。
图24表示与实施形态16相关的声音编码装置的主要部分的方框图。
图25表示与实施形态16相关的矢量量化部分的方框图。
图26表示与实施形态17相关的声音编码装置的参数编码部分的方框图。
图27表示与实施形态18相关的降噪装置的方框图。
具体实施例方式
下面,参照附图对本发明的实施形态具体地进行说明。
实施形态1图3表示与实施形态1相关的声音编码装置的主要部分的方框图。这种声音编码装置包括具有振种存储单元31和振荡器32的声源矢量生成装置30,和LPC合成滤波器单元33。
将从振种存储单元31输出的振种(产生振荡的“种子”)34输入到振荡器32中。与输入的振种值相对应,振荡器32输出不同的矢量系列。振荡器32用对应于振种(产生振荡的“种子”)34的值的内容进行振荡,并输出作为矢量系列的声源矢量35。LPC合成滤波器单元33用合成滤波器的脉冲响应卷积矩阵的形式,提供声道信息,以脉冲响应对声源矢量35进行卷积运算后输出合成话音36。将以脉冲响应对声源矢量35进行卷积运算称为LPC合成。
图4表示声源矢量生成装置30的具体的结构。按照由失真计算单元提供的控制信号,振种存储单元控制开关41切换从振种存储单元31读出的振种。
这样,仅将从振荡器32输出不同的矢量系列的多个振种预先存储在振种存储单元31中,与将复杂的噪声码向量原样存储在噪声码本中的场合相比,能用较小的容量发生更多的噪声码矢量。
此外,虽然在本实施形态中对声音编码装置进行了说明,但也能将声源矢量生成装置30用于声音解码装置中。这种场合,在声音解码装置中具有与声音编码装置的振种存储单元31相同内容的振种存储单元,并将编码时选择的振种号码提供给振种存储单元控制开关41。
实施形态2图5表示基于本实施形态的声音编码装置的主要部分的方框图。这种声音编码装置包括具有振种存储单元51和非线性振荡器52的声源矢量生成装置50,和LPC合成滤波器单元53。
将从振种存储单元51输出的振种(产生振荡的“种子”)54输入到非线性振荡器52中。从非线性振荡器52输出的作为矢量系列的声源矢量55,输入到LPC合成滤波器单元53中。合成滤波器单元53的输出是合成话音56。
非线性振荡器52输出对应于输入的振种54的值的不同的矢量系列,LPC合成滤波器单元53对输入的声源矢量55进行LPC合成,并输出合成话音56。
图6表示声源矢量生成装置50的功能的方框图。按照由失真计算单元提供的控制信号,振种存储单元控制开关41切换从振种存储单元51读出的振种。
这样,借助于在声源矢量生成装置50的振荡器中使用非线性振荡器52,利用遵循非线性特性的振荡,能抑制发散,得到实用的声源矢量。
此外,虽然在本实施形态中对声音编码装置进行了说明,但也能将声源矢量生成装置50用于声音解码装置中。这种场合,在声音解码装置中包括与声音编码装置的振种存储单元51相同内容的振种存储单元,并将编码时选择的振种号码提供给振种存储单元控制开关41。
实施形态3图7表示基于本实施形态的声音编码装置的主要部分的方框图。这种声音编码装置包括具有振种存储单元71和非线性数字滤波器72的声源矢量生成装置70,和LPC合成滤波器单元73。74是从振种存储单元71输出并输入到非线性数字滤波器72中的振种(产生振荡的“种子”),75是作为从非线性数字滤波器72输出的矢量系列的声源矢量,76是从LPC合成滤波器73输出的合成话音。
如图8所示,声源矢量生成装置70具有利用由失真计算单元供给的控制信号,切换从振种存储单元71读出的振种74的振种存储单元控制开关41。
非线性数字滤波器72输出对应于输入的振种的值的不同的矢量系列,LPC合成滤波器单元73对输入的声源矢量75进行LPC合成,并输出合成话音76。
这样,借助于在声源矢量生成装置70的振荡器中使用非线性数字滤波器72,利用遵循非线性特性的振荡,能抑制发散,得到实用的声源矢量。
此外,虽然在本实施形态中对声音编码装置进行了说明,但也能将声源矢量生成装置70用于声音解码装置中。这种场合,在声音解码装置中包括与声音编码装置的振种存储单元71相同内容的振种存储单元,并将编码时选择的振种号码提供给振种存储单元控制开关41。
实施形态4如图7所示,与本实施形态相关的声音编码装置包括具有振种存储单元71和非线性数字滤波器72的声源矢量生成装置70,和LPC合成滤波器单元73。
特别指出的是,非线性数字滤波器72具有图9所示的结构。这种非线性数字滤波器72包括具有如图10所示的非线性加法特性的加法器91,具有保存数字滤波器的状态(y(k-1)~y(k-N)的值)的作用的状态变量保持单元92~93,以及并联连接到各状态变量保持单元92~93的输出上,将状态变量中乘以增益后,输出到加法器91中的乘法器94~95。根据从振种存储单元71读出的振种,状态变量保持单元92~93设定状态变量初始值。乘法器94~95限定增益的值,使数字滤波器的极点存在于Z平面的单位圆外。
图10是表示包括在非线性数字滤波器72中的加法器91的非线性加法特性的概念图,表示具有2的补数特性的加法器91的输入输出关系。加法器91首先求得作为对加法器91的输入值总和的加法器输入和,接着使用图10所示的非线性特性,以算出对该输入和的加法器输出。
特别是,因非线性数字滤波器72采用2次全极结构,所以串联连接2个状态变量保持单元92、93,并对状态变量保持单元92、93连接乘法器94、95。采用加法器91的非线性加法特性为2的补数的数字滤波器。此外,振种存储单元71,特别存储记载在表1中的32字的振种矢量。
表1噪声矢量生成用的振种矢量

在前述结构的声音编码装置中,将从振种存储单元71读出的振种矢量作为初始值,供给非线性数字滤波器72的状态变量保持单元92、93。非线性数字滤波器72每从输入矢量(0系列)将0输入到加法器91中,就输出1个采样(y(k)),并作为状态变量顺次地传送到状态变量保持单元92、93中。这时,对从状态变量保持单元92、93输出的状态变量,分别由各乘法器94、95乘以增益a1、a2。用加法器91对乘法器94、95的输出进行相加,求出加法器输入和,并根据图10的特性,发生抑制在+1~-1之间的加法器输出。在输出这种加法器输出(y(k+1))作为声源矢量的同时,顺次地传送到状态变量保持单元92、93中,生成新的采样(y(k+2))。
在本实施形态中,作为非线性数字滤波器,为了极存在于Z平面的单位圆外,特地固定乘法器94~95的系数1~N,使加法器91持有非线性加法特性,因而即使非线性数字滤波器72的输入变大,也能抑制输出发散,可连续生成能实用的声源矢量。还能确保生成的声源矢量的随机性。
此外,虽然在本实施形态中对声音编码装置进行了说明,但也能将声源矢量生成装置70用于声音解码装置中。这种场合,在声音解码装置中包括与声音编码装置的振种存储单元71相同内容的振种存储单元,并将编码时选择的振种号码提供给振种存储单元控制开关41。
实施形态5图11表示基于本实施形态的声音编码装置的主要部分的方框图。这种声音编码装置包括具有声源存储单元111和声源加法矢量生成单元112的声源矢量生成装置110,和LPC合成滤波器单元113。
声源存储单元111存储过去的声源矢量,利用接受来自未图示的失真计算单元的控制信号的控制开关,读出声源矢量。
声源加法矢量生成单元112,对从声源存储单元111读出的过去的声源矢量,施行用生成矢量特定号码指示的规定的处理,生成新的声源矢量。声源加法矢量生成单元112,具有对应于生成矢量特定号码,切换对过去的声源矢量的处理内容的功能。
在如前所述结构的声音编码装置中,从例如执行声源检索的失真计算单元供给生成矢量特定号码。声源加法矢量生成单元112,根据输入生成矢量特定号码的值对过去的声源矢量进行不同的处理,生成不同的声源加法矢量,而且LPC合成滤波器单元113对输入的声源矢量进行LPC合成并输出合成话音。
采用本实施形态,则仅将少数的过去的声源矢量预先存储在声源存储单元111中,并切换在声源加法矢量生成单元112的处理内容,就能生成随机的声源矢量,因不必预先将噪声矢量原样地存储在噪声码本(ROM)中,所以能大幅度地减小存储器的容量。
此外,虽然在本实施形态中对声音编码装置进行了说明,但也能将声源矢量生成装置110用于声音解码装置中。这种场合,在声音解码装置中包括与声音编码装置的声源存储单元111相同内容的声源存储单元,并对声源加法矢量生成单元112提供编码时选择的生成矢量特定号码。
实施形态6图12表示与本实施形态相关的声源矢量生成装置的功能的方框图。这种声源矢量生成装置包括声源加法矢量生成单元120和存储多个要素矢量1~N的声源存储单元121。
声源加法矢量生成单元120包括进行从声源存储单元121的不同的位置读出多个不同长度的要素矢量的处理的读出处理单元122,进行对读出处理后的多个要素矢量作倒置排列变换的处理的倒置处理单元123,进行对倒置处理后的多个矢量分别乘以不同的增益的处理的乘法处理单元124,进行缩短乘法处理后的多个矢量的矢量长度的处理的间抽处理单元125,进行伸长间抽处理后的多个矢量的矢量长度的处理的内插处理单元126,进行使内插处理后的多个矢量相加的处理的加法处理单元127,以及同时具有决定对应于所输入生成矢量特定号码值的具体处理方法并对决定各处理单元作指示的功能及保持决定该具体处理内容时参照的号码变换对应映射表2的功能的处理判定和指示单元128。
表2号码变换对应映射

这里,对声源加法矢量生成单元120进一步详细地进行说明。声源加法矢量生成单元120将输入生成矢量特定号码(用7位的位串取0到127的整数)与号码变换对应映射表2进行比较,以决定读出处理单元122、倒置处理单元123、乘法处理单元124、间抽间距处理单元125、内插处理单元126、加法处理单元127的各自的具体地处理方法,并向各处理单元输出其具体的处理方法。
首先,着眼于输入生成矢量特定号码的低端的4位串(n1从0到15的整数值),从声源存储单元121的一端到n1的位置为止,切出长度100的要素矢量1(V1)。接着,着眼于结合输入生成矢量特定号码的低端的2位串和高端3位串的5位串(n2从0到31的整数值),从声源存储单元121的一端到n2+14(从14到45的整数值)的位置为止,切出长度78的要素矢量2(V2)。进而,着眼于输入生成矢量特定号码的高端5位串(n3从0到31的整数值),从声源存储单元121的一端到n3+46(从46到77的整数值)的位置为止,切出长度Ns(=52)的要素矢量3(V3)。读出处理单元122进行向倒置处理单元123输出V1、V2、V3的处理。
如果生成矢量特定号码的最低端的1位是“0”,则倒置处理单元123进行以倒置排列变换V1和V2和V3的矢量作为新的V1、V2、V3并输出到乘法处理单元124中的处理,如果生成矢量特定号码的最低端的1位是“1”,则进行原样地将V1和V2和V3输出到乘法处理单元124中的处理。
乘法处理单元124着眼于组合输入生成矢量特定号码的高端第7位和高端第6位的2位串,如果该位串是‘00’,则V2的振幅乘-2倍、如果该位串是‘01’,则以V3的振幅的-2,如果该位串是‘10’,则V1的振幅乘-2,如果该位串是‘11’,则V2的振幅乘2,所得各矢量分别作为新的V1、V2、V3,输出到间抽单元125中。
间抽单元125着眼于组合输入生成矢量特定号码的高端第4位和高端第3位的2位串,如果该位串是(a)‘00’,则从V1、V2、V3开始间隔1个采样,取出26个采样的矢量作为新的V1、V2、V3,输出到内插处理单元126中,如果该位串是(b)‘01’,则从V1、V3开始间隔1个采样,从V2开始间隔2个采样,取出26个采样的矢量作为新的V1、V2、V3,输出到内插处理单元126中,如果该位串是(c)‘10’,则从V1开始间隔3个采样,从V2、V3开始间隔1个采样,取出26个采样的矢量作为新的V1、V2、V3,输出到内插处理单元1 26中,如果该位串是(d)‘11’,则从V1开始间隔3个采样,从V2开始间隔2个采样,从V3开始间隔1个采样,取出26个采样的矢量作为新的V1、V2、V3,输出到内插处理单元77中,内部插处理单元126着眼于输入生成矢量特定号码的高端第3位,如果其值是(a)‘0’,则以将V1、V2、V3分别代入长度Ns(=52)的0矢量的偶数号采样中的矢量作为新的V1、V2、V3,输出到加法处理单元75中,如果其值是(b)‘1’,则以将V1、V2、V3分别代入长度Ns(=52)的0矢量的奇数号采样中的矢量作为新的V1、V2、V3,输出到加法处理单元75中。
加法处理单元127对由内插处理单元126生成的3个矢量(V1、V2、V3)进行加法运算,生成并输出声源加法矢量。
这样,本实施形态,因对应于生成矢量特定号码随机地组合多个处理,生成随机的声源矢量,所以不必预先将噪声矢量原样地存储在噪声码本(ROM)中,能大幅度地减小存储器的容量。
此外,借助于在实施形态5的声音编码装置中使用本实施形态的声源矢量生成装置,不必持有大容量的噪声码本,就能生成复杂随机的声源矢量。
实施形态7下面,在以作为日本国内的PDC数字便携电话的声音编码/解码标准方式的PSI-CELP为基础做成的CELP型声音编码装置中,使用前述的实施形态1~实施形态6的任一个所示的声源矢量生成装置的例,作为实施形态7进行说明。
图13A和图13B表示与实施形态7相关的声音编码装置的方框图。在这种编码装置中,将数字化的输入声音数据1300以帧为单位(帧长Nf=104)供给到缓存器1301中。这时,由供给的新的数据更新缓冲器1301中的旧的数据。帧功率量化和解码单元1302首先从缓存器1301中读出长度Nf(=104)的处理帧s(i)(0≤i≤Nf-1),由式(5)求出该处理帧内采样的平均功率amp。
amp=Σi=0Nfs2(i)Nf---(5)]]>amp处理帧内采样的平均功率i处理帧内的要素号码(0≤i≤Nf-1)s(i)处理帧内采样Nf处理帧长(=52)利用式(6),将求得的处理帧内采样的平均功率amp变换成对数变换值amplog。
amplog=log10(255×amp+1)log10(255+1)---(6)]]>amplog处理帧内采样的平均功率的对数变换值amp处理帧内采样的平均功率将求得的amplog存储在功率量化表存储单元1303中,用表3所示的10字的标量量化用表Cpow进行标量量化,得到4位的功率索引Ipow,从得到4位的功率索引Ipow求出解码帧功率spow,并将功率索引Ipow和解码帧功率spow输出到参数编码单元133中。功率量化表存储单元1303存储16字的功率标量量化表(表3),在帧功率量化·解码单元1302对处理帧内采样的平均功率的对数变换值进行标量量化时参照该表。
表3功率标量量化用表

LPC分析单元1304,首先从缓存器1301读出分析区间长度Nw(=256)的分析区间数据,在读出的分析区间数据上乘以窗长Nw(=256)的汉明窗Wh,得到乘以汉明窗后的分析区间数据后,多次求所得乘以汉明窗后的分析区间数据的自相关函数,直到次数为预测次数Np(=10)为止。。在求得的自相关函数上乘以存储在滞后窗存储单元1305中的10字的滞后窗表(表4),得到乘以滞后窗后的自相关函数,对于得到的乘以滞后窗后的自相关函数,进行线性预测分析,算出LPC的参数α(i)(1≤i≤Np),并输出到音调预选单元1308中。
表4滞后窗表

接着,将求得的LPC参数α(i)变换成LSP(线频谱对)ω(i)(1≤i≤Np),并输出到量化/解码单元1306中。滞后窗存储单元1305存储LPC分析单元参照的滞后窗。
LSP量化/解码单元1306,首先参照LSP量化表存储单元1307中存储的LSP的矢量量化用表,对从LPC分析单元1304接收到的LSP进行矢量量化,选择最佳索引,并以选择的索引作为LSP码Ilsp输出到参数编码单元1331中。接着,从LSP量化表存储单元1307读出对应于LSP码的形心作为解码LSPωq(i)(1≤i≤Np),并将读出的解码LSP输出到LSP插入单元1311中。此外,将解码LSP变换成LPC,得到解码LSPαq(i)(1≤i≤Np),并将得到的解码LPC输出到矢量加权滤波器系数运算单元1312和听觉加权LPC合成滤波器系数运算单元1314中。
LSP量化表存储单元1307存储LSP量化/解码单元1306对LSP进行矢量量化时参照的LSP矢量量化表。
音调预选单元1308,首先对从缓存器1301读出的处理帧数据s(i)(1≤i≤Nf-1),施行根据由LPC分析单元1304接收到的LSPα(i)(1≤i≤Np)构成的线性预测反滤波,得到线性预测残差信号res(i)(1≤i≤Nf-1),计算得到的线性预测残差信号res(i)的功率,求得用处理子帧声音采样功率使计算的残差信号功率归一化的值的归一化预测残差功率resid,并输出到参数编码单元1331中。接着,在线性预测残差信号res(i)上乘以长度Nw(=256)的汉明窗,生成乘以汉明窗后的线性预测残差信号resw(i)(1≤i≤Nw-1),在Lmin-2≤i≤Lmax+2(其中,Lmin为长期预测系数的最短分析区间为16、Lmax为长期预测系数的最长分析区间,分别取为16的128)的范围内,求得生成的resw(i)的自相关函数φint(i)。在求得的自相关函数φint(i)上叠加存储在多相系数存储单元1309上的28字的多相滤波器系数Cppf(表5),分别求得整数滞后int的自相关函数φint(i)、偏离整数滞后int-1/4的分数位置的自相关函数φdq(i)、偏离整数滞后int+1/4的分数位置的自相关函数φaq(i)、偏离整数滞后int+1/2的分数位置的自相关函数φah(i)。
表5多相滤波器系数Cppf

此外,分别对Lmin-2≤i≤Lmax+2范围内的自变量i,将φint(i)、φdq(i)、φaq(i)、φah(i)中最大的代入到φmax(i)中,进行式(7)的处理,求得Lmax-Lmin+1个的φmax(i)。
φmax(i)=MAX(φint(i)、φdq(i)、φaq(i)、φah(i))(7)φmax(i)φint(i)、φdq(i)、φaq(i)、φah(i)的最大值I长期预测系数的分析区间(Lmin≤i≤Lmax)Lmin长期预测系数的最短分析区间(=16)Lmax长期预测系数的最长分析区间(-128)φint(i)预测残差信号整数滞后(int)的自相关函数φdq(i)预测残差信号分数滞后(int-1/4)的自相关函数φaq(i)预测残差信号分数滞后(int+1/4)的自相关函数φah(i)预测残差信号分数滞后(int+1/2)的自相关函数从求得的(Lmax-Lmin+1)个的φmax(i)中,由高端顺次地选出值大的6个,保存作为音调候补psel(i)(0≤i≤5),并将线性预测残差信号res(i)和音调第1候补psel(0)输出到音调增强滤波器系数运算单元1310,将psel(i)(0≤i≤5)输出到自适应矢量生成单元1319中。
多相系数存储单元1309,存储音调预选单元1308用分数滞后精度求出线性预测残差信号的自相关函数时和自适应矢量生成单元1319用分数精度生成自适应矢量时参照的多相滤波器的系数。
音调增强滤波器系数运算单元1310,根据音调预选单元1308中求得的线性预测残差和res(i)和从音调第1候补psel(0),求3次音调预测系数cov(0≤i≤2)。借助使用求得的音调预测系数cov(0≤i≤2)的式(8),求音调增强滤波器Q(z)的脉冲响应,并输出到频谱加权滤波器系数运算单元1312和听觉加权滤波器系数运算单元1313中。
Q(z)=1+Σi=02cov(i)×λpi×z-psel(0)+i-1---(8)]]>Q(z)音调增强滤波器的传递函数cov(i)音调预测系数(0≤i≤2)λpi音调增强常数(=0.4)psel(0)音调第1候补LSP内插单元1311,首先借助使用在LSP量化/解码单元1306中求得的当前处理帧的解码LSPωq(i)和以前求得并保持的前处理帧的解码LSPωq p(i)的式(9),对每个子帧,求解码mw插LSPωintp(n,i)(1≤i≤Np)。
ωintp(n,1)=0.4×ωq(i)+0.6×ωqp(i)n=1ωq(i)n=2---(9)]]>ωintp(n,i)第n子帧的内插LSPn子帧号码(=1,2)ωq(i)处理帧的解码LSPωqp(i)前处理帧的解码LSP用将求得的ωintp(n,i)变换成LPC,求得解码内插LPCαq(n,i)(1≤i≤Np),并将求得的解码内插LPCαq(n,i)(1≤i≤Np)输出到频谱加权滤波器系数运算单元1312和听觉加权LPC合成滤波器系数运算单元1314中。
频谱加权滤波器系数运算单元1312构成式(10)的MA型频谱加权滤波器I(z),将其脉冲响应输出到听觉加权滤波器系数运算单元1313中。
I(z)=Σi=1Nfirαfir(i)×z-i---(10)]]>I(z)MA型频谱加权滤波器的传递函数NfirI(z)的滤波器次数(=11)αfir(i)I(z)的脉冲响应(1≤i≤Nfir)其中,式(10)的脉冲响应αfir(i)(1≤i≤Nfir)是截短到Nfir(=11)项为止的(11)供给的的ARMA型频谱增强滤波器G(z)的脉冲响应。
G(z)=1+Σi=1Npα(n,i)×λmai×z-i1+Σi=1Npα(n,i)×λari×z-i---(11)]]>G(z)频谱加权滤波器的传递函数n子帧号码(=1,2)NpLPC分析次数(=10)α(n,i)第n子帧的解码内插LSPλmaG(z)的分子常数(=0.9)λarG(z)的分母常数(=0.4)听觉加权滤波器系数运算单元1313,首先将叠加从频谱加权滤波器系数运算单元1312接收到的频谱加权滤波器I(z)的脉冲响应和从音调增强滤波器系数运算单元1310接收到的音调增强滤波器Q(z)的脉冲响应的结果作为脉冲响应,构成听觉加权滤波器W(z),并将构成的听觉加权滤波器W(z)的脉冲响应输出到听觉加权LPC合成滤波器系数运算单元1314和听觉加权单元1315中。
听觉加权LPC合成滤波器系数运算单元1314,利用从LSP内插单元1311接收到的解码内插LPCαq(n,i)和从听觉加权滤波器系数运算单元1313接收到的听觉加权滤波器W(z),由式(12)构成听觉加权LPC合成滤波器H(z)。
H(z)=11+Σi=1Npαq(n,i)×z-iW(z)---(12)]]>H(z)听觉加权合成滤波器的传递函数
NpLPC分析次数αq(n,i)第n子帧的解码内插LSPn子帧号码(=1,2)W(z)听觉加权滤波器(级联I(z)和Q(z)而成)的传递函数将构成的听觉加权LPC合成滤波器H(z)的系数,输出到目标生成单元A1316、听觉加权LPC倒置合成单元A1317、听觉加权LPC合成单元A1321、听觉加权LPC倒置合成单元B1326和听觉加权LPC合成单元B1329中。
听觉加权单元1315将从缓冲器1301中读出的子帧信号输入到0状态的听觉加权LPC合成滤波器H(z)中,并以其输出作为听觉加权残差spw(i)(0≤i≤Ns-1),输出到目标生成单元A1316中。
目标生成单元A1316从听觉加权单元1315中求得的听觉加权残差spw(i)(0≤i≤Ns-1),减去作为在听觉加权LPC合成滤波器系数运算单元1314中求得的听觉加权LPC合成滤波器H(z)中输入0系列时的输出的0输入响应Zres(i)(0≤i≤Ns-1)后,所得结果输出到LPC倒置合成单元A1317和目标生成单元B1325中,作为声源选择用的目标向量r(i)(0≤i≤Ns-1)。
听觉加权LPC倒置合成单元A1317时间反转地将从目标生成单元1316接收到的目标系列r(i)(0≤i≤Ns-1)变换排列,并将变换得到的向量输入到初始状态为0的听觉加权LPC合成滤波器H(z)中,将其输出再次时间反转变换排列,从而得到目标系列的时间反转合成向量rh(k)(0≤k≤Ns-1),并输出到比较单元A1322中。
自适应码本1318存储自适应矢量生成单元1319生成自适应矢量时参照的过去的驱动声源。自适应矢量生成单元1319在生成从音调预选单元1308接收到的6个音调候补psel(j)(0≤j≤5)的同时,生成Nac个自适应矢量Pacb(i,k)(0≤i≤Ns-1、0≤k≤Ns-1、6≤Nac≤24),并输出到自适应/固定选择单元1320中。具体地说,如表6所示,在16≤psel(j)≤44的场合,对于相当于一个整数滞后位置的4种分数滞后位置,生成自适应矢量,在45≤psel(j)≤64的场合,对于相当于一个整数滞后位置的2种分数滞后位置,生成自适应矢量,在65≤psel(j)≤128的场合,对整数滞后位置,生成自适应矢量。由此,根据psel(j)(0≤j≤5)的值,自适应矢量的候补数Nac最少为6,最多为24。
表6自适应矢量和固定矢量的总数


此外,生成分数精度的自适应矢量时,利用在以整数精度从自适应码本1318读出的过去的声源矢量中,叠加存储在多相系数存储单元1309中的多相滤波器系数的内插处理进行。
这里,对应于lagf(i)的值的内插,是进行在lagf(i)=0的场合对应于整数滞后位置、在lagf(i)=1的场合对应于从整数滞后位置偏离-1/2的分数滞后位置、在lagf(i)=2的场合对应于从整数滞后位置偏离+1/4的分数滞后位置、在lagf(i)=3的场合对应于从整数滞后位置偏离-1/4的分数滞后位置的内插。
自适应/固定选择单元1320,首先接受自适应矢量生成单元1319生成的Nac(6~24)一个候补的自适应矢量,并输出到听觉加权LPC合成单元A1321和比较单元A1322中。
比较单元A1322,首先为了适应矢量生成单元1319生成的自适应矢量Pacb(i,k)(0≤i≤Ns-1、0≤k≤Ns-1、6≤Nac≤24)从Nac(6~20)个候补中预先Nacb(=4)个候补,利用式(13)求得由听觉加权LPC倒置合成单元1317受理的目标矢量的时间反转合成矢量rh(k)(0≤k≤Ns-1)和自适应矢量Pacb(i,k)的内积prac(i)。
prac(i)=Σk=0Ns-1Pacb(i,k)×rh(k)---(13)]]>
prac(i)自适应矢量预选基准值Nac(i)预选后自适应矢量候补数(=6~24)i自适应矢量的号码(0≤i≤Nac-1)Pacb(i,k)自适应矢量rh(k)目标矢量r(k)的时间反转合成矢量比较求得的内积prac(i),选择其值变大时的标号和以该标号作为引数时的内积(直到高端第Nacb(=4)个为止,并分别作为自适应矢量预选后标号apsel(j)(0≤j≤Nacb-1)和自适应矢量预选后基准值prac(apsel(j))进行保存,而且将自适应矢量预选后标号apsel(j)(0≤j≤Nacb-1)输出到自适应/固定选择单元1320中。
听觉加权LPC合成单元A1321对通过在自适应矢量生成单元1319中生成的自适应/固定选择单元1320的预选后自适应矢量Pacb(apsel(j),k),施行听觉加权LPC合成,生成合成自适应矢量SYNacb(apsel(j),k),并输出到比较单元A1322中。接着,比较单元A1322为了对其自身已预选的Nacb(=4)个的预选后适应矢量Pacb(apsel(j),k)进行正式选择,由式(14)求出自适应矢量正式选择基准值sacbr(j)。
sacbr(j)=prac2(apsel(j))Σk=0Ns-1SYNacb2(j,k)---(14)]]>sacbr(j)自适应矢量正大选择基准值prac()自适应矢量预选后基准值apsel(j)自适应矢量预选标号k矢量次数(0≤k≤Ns-1)j被预选的自适应矢量的标号的号码(0≤j≤Nacb-1)Ns子帧长(=52)Nacb自适应矢量的预选数SYNacb(J,K)合成自适应矢量分别用式(14)的值增大时的标号和以该标号作为引数时的式(14)的值,作为自适应矢量正大选择后标号ASEL和自适应矢量正式选择后基准值sacbr(ASEL),并输出到自适应/固定选择单元1320中。
固定码本1323对固定矢量读出单元1324读出的矢量存储Nrc(=16)个候补。这里,比较单元A1322为了对从固定矢量读出单元1324读出的固定矢量Pfcb(i,k)(0≤i≤Nfc-1、0≤k≤Ns-1),从Nfc(=16)个候补中预选Nfcb(=2)个候补、利用式(15)求出由听觉加权LPC倒置合成单元A1317受理的目标矢量的时间反转合成矢量rh(k)(0≤k≤Ns-1)和固定矢量Pfcb(i,k)的内积的绝对值|prfc(i)|。
|prfc(i)|=Σk=0Ns-1Pfcb(i,k)×rh(k)---(15)]]>|prfc(i)|固定矢量预选基准值k矢量的要素号码(0≤k≤Ns-1)I固定矢量的号码(0≤i≤Nfc-1)Nfc固定矢量数(=16)Pfcb(i,k)固定矢量rh(k)目标矢量r(k)的时间反转合成矢量比较式(15)的值|prac(i)|,选择其值变大时的标号和以该标号作为引数时的内积的绝对值(直到高端第Nfcb(=2)为止),并分别作为固定矢量预选后标号fpsel(j)(0≤j≤Nfcb-1)和固定矢量预选后基准值|prfc(fpsel(j))|进行保存,而且将固定矢量预选后标号fpsel(j)(0≤j≤Nfcb-1)输出到自适应/固定选择单元1320中。
听觉加权LPC合成单元A1321,对通过在固定矢量读出单元1324中读出的自适应/固定选择单元1320的预选后固定矢量Pfcb(fpsel(j),k),施行听觉加权LPC合成,生成合成固定矢量SYNfcb(fpsel(j),k),并输出到比较单元A1322中。
接着,比较单元A1322为了从其自身预选的Nfcb(=2)个的预选后固定矢量Pfcb(fpsel(j),k)中正式选择最佳固定矢量,由式(16)求出固定矢量正式选择基准值sfcbr(j)。
sfcbr(j)=|prfc(fpsel(j)|2Σk=0Ns-1SYNfcb2(j,k)---(16)]]>sfcbr(j)固定矢量正式选择基准值
|prfc()|固定矢量预选后基准值fpsel(j)固定矢量预选后标号(0≤j≤Nfcb-1)k矢量的要素号码(0≤k≤Ns-1)j被预选的固定矢量的号码(0≤j≤Nfcb-1)Ns子帧长(=52)Nacb固定矢量的预选数(=2)SYNacb(J,K)合成固定矢量分别用式(16)的值增大时的标号和以该标号作为引数时的式(16)的值,作为固定矢量正式选择后标号FSEL和固定矢量正式选择后基准值facbr(FSEL),并输出到自适应/固定选择单元1320中。
自适应/固定选择单元1320利用从比较单元A1322收到的prac(ASEL)、sacbr(ASEL)、|prfc(FSEL)|和sfcbr(FSEL)的大小和正负关系(记载在式(17)中),选择正式选择后自适应矢量或正式选择后固定矢量,作为自适应/固定矢量AF(k)(0≤k≤Ns-1)。
AF(k)=Pacb(ASEL,k)sacbr(ASEL)≥sfcbr(FSEL),prac(ASEL)>00sacbr(ASEL)≥sfcbr(FSEL),prac(ASEL)≤0Pfcb(FSEL,k)sacbr(ASEL)<sfcbr(FSEL),prfc(FSEL)≥0-Pfcb(FSEL,k)sacbr(ASEL)<sfcbr(FSEL),prfc(FSEL)<0---(17)]]>AF(k)自适应/固定矢量ASEL自适应矢量正式选择后标号FSEL固定矢量正式选择后标号k矢量的要素号码Pacb(ASEL,k)正式选择后自适应矢量Pfcb(FSEL,k)正式选择后固定矢量sacbr(ASEL)自适应矢量正式选择后基准值sfcbr(FSEL)固定矢量正式选择后基准值prac(ASEL)自适应矢量预选后基准值prfc(FSEL)固定矢量预选后基准值将选择的自适应/固定矢量AF(k)输出到听觉加权LPC合成滤波器单元A1321中,将表示生成选择的自适应/固定矢量AF(k)的号码的标号作为自适应/固定标号AFSEL输出到参数编码单元1331中。此外,这里因设计成自适应矢量和固定矢量的总矢量数为255个(参照表6),所以自适应/固定标号AFSEL为8位编码。
听觉加权LPC合成滤波器单元A1321对在自适应/固定选择单元1320中选择的自适应/固定矢量AF(k),施行听觉加权LPC合成滤波,生成合成自适应/固定矢量SYNaf(k)(0≤k≤Ns-1),并输出到比较单元1322中。
比较单元1322,首先利用式(18)求出从听觉加权LPC合成滤波器单元A1321收到的合成自适应/固定矢量SYNaf(k)(0≤k≤Ns-1)的功率powp。
powp=Σk=0Ns-1SYNaf2(k)---(18)]]>powp自适应/固定矢量(SYNaf(k))的功率k矢量的要素号码(0≤k≤Ns-1)Ns子帧长(=52)SYNaf(k)自适应/固定矢量接着,由式(19)求出从目标生成单元A1316收到的目标矢量和合成自适应/固定矢量SYNaf(k)的内积pr。
pr=Σk=0Ns-1SYNaf(k)×r(k)---(19)]]>prSYNaf(k)和r(k)的内积Ns子帧长(=52)SYNaf(k)自适应/固定矢量r(k)目标矢量k矢量的要素号码(0≤k≤Ns-1)进而,将由从自适应/固定选择单元1320收到的自适应/固定矢量AF(k)输出到自适应码本更新单元1333中,计算AF(k)的功率POWaf,将合成自适应/固定矢量SYNaf(k)和POWaf输出到参数编码单元1331中,并将powp和pr以及rh(k)输出到比较单元B1330中。
目标生成单元B1325,从目标生成单元A1316收到的声源选择用的目标矢量r(i)(0≤k≤Ns-1)减去从比较单元A1322收到的合成自适应/固定矢量SYNaf(k)(0≤k≤Ns-1),生成新的目标矢量,并将生成的新的目标矢量输出到听觉加权LPC倒置合成单元B1326中。
听觉加权LPC倒置合成单元B1326对目标生成单元B1325中生成的新的目标矢量,进行时间反转排列变换,并将该变换后的矢量输入到0状态的听觉加权LPC合成滤波器中,再次对该输出向量进行时间反转排列变换,生成新的目标矢量的时间反转合成矢量ph(k)(0≤k≤Ns-1),并输出到比较单元B1330中。
声源矢量生成装置1337使用与例如实施形态3中说明了的声源矢量生成装置70相同的装置。声源矢量生成装置70从振种存储单元71读出第1个振种,输入到非线性数字滤波器72中,并生成噪声矢量。将在声源矢量生成装置70生成的噪声矢量输出到听觉加权LPC合成单元B1329和比较单元B1330中。接着,从振种存储单元71输入到读出第2个振种,输入到非线性数字滤波器72中,生成噪声矢量,并输出到听觉加权LPC合成单元B1329和比较单元B1330中。
较单元B1330为了对根据第1振种生成的噪声矢量,从Nst(=64)个候补中预选Nstb(=6)个候补,由式(20)求出第1噪声矢量预选基准值cr(i1)(0≤i1≤Nstb1-1))。
cr(il)=Σj=0Ns-1Pstbl(i1j)×rh(j)-prpowpΣj=0Ns-1Pstbl(i1j)×ph(j)---(20)]]>cr(i1)第1噪声矢量预选基准值Ns子帧长(=52)rh(j)目标矢量(rh(j))的时间反转合成矢量powp自适应/固定矢量(SYNaf(k))的功率prSYNaf(k)和r(k)的内积Pstb1(i1,j)第1噪声矢量ph(j)SYNaf(k)的时间反转合成矢量i1第1噪声矢量的号码(0≤i1≤Nst-1)j矢量的要素号码比较求得的cr(i1)d1值,选择其值变大时的标号和以该标号作为引数时的式(20)的值(直到高端第Nstb(=6)个为止),分别作为第1噪声矢量预选后标号s1pse1(j1)(0≤j1≤Nstb-1)和预选后第1噪声矢量Pstb1(s1pse1(j1),k)(0≤j1≤Nstb-1,0≤k≤Ns-1))进行保存。接着,对于第2噪声矢量也进行与第1噪声矢量相同的处理,分别作为第2噪声矢量预选后标号s2pse1(j2)(0≤j2≤Nstb-1)和预选后第2噪声矢量Pstb1(s2pse2(j2),k)(0≤j2≤Nstb-1,0≤k≤Ns-1))进行保存。
听觉加权LPC合成单元B1329,对预选后第1噪声矢量Pstb1(s1pse1(j1),k),施行听觉加权LPC合成,生成合成第1噪声矢量SYNstb1(s1pse1(j1),k),并输出到比较单元B1330中。接着,对预选后第2噪声矢量Pstb2(s2pse1(j2),k),施行听觉加权LPC合成,生成合成第2噪声矢量SYNstb2(s2pse1(j2),k),并输出到比较单元B1330中。
比较单元B1330为了对其自身预选的预选后第1噪声矢量和预选后第2噪声矢量进行正式选择,对在听觉加权LPC合成单元B1329中计算的合成第1噪声矢量SYNstb1(s1pse1(j1),k),进行式(21)的计算。
SYNOstb1(s1pse1(j1),k)=SYNstb1(s1pse1(j1),k)-SYNaf(jl)powpΣk=0Ns-1Pstbl(slpsel(j1),k)×ph(k)---(21)]]>SYNOstb1(s1pse1(j1),k)=(21)SYNOstb1(s1pse1(j1),k)正交化合成第1噪声矢量SYNstb1(s1pse1(j1),k)合成第1噪声矢量Pstb1(s1pse1(j1),k)预选后第1噪声矢量SYNaf(j)自适应/固定矢量powp自适应/固定矢量(SYNaf(j))的功率Ns子帧长(=52)ph(k)SYNaf(j)的时间反转合成矢量j1预选后第1噪声矢量的号码k矢量的要素号码(0≤k≤Ns-1)求出正交化合成第1噪声矢量SYNOstb1(s1pse1(j1),k)后,对合成第2噪声矢量SYNOstb2(s2pse1(j2),k)也进行同样的计算,求出正交化合成第2噪声矢量SYNOstb2(s2pse1(j2),k),并分别用式(22)和式(23),对((s1pse1(j1),s2pse1(j2))的全部组合(36项),以闭环方式计算第1噪声矢量本选择基准值scr1和第2噪声矢量本选择基准值scr2。
scr1=cscrl2Σk=0Ns-1[SYNOstb1(slpsel(j1),k)+SYNOstb2(s2psel(j2),k)]2---(22)]]>scr1第1噪声矢量本选择基准值csc1由式(24)事先计算的常数SYNOstb1(s1pse1(j1),k)正交合成第1噪声矢量SYNOstb2(s2pse1(j2),k)正交合成第2噪声矢量r(k)目标矢量s1pse1(j1),k第1噪声矢量预选后标号s2pse1(j2),k第2噪声矢量预选后标号Ns子帧长(=52)k矢量的要素号码scr2=cscrl2Σk=0Ns-1[SYNOstb1(slpsel(j1),k--SYNOstb2(s2psel(j2),k)]2---(23)]]>scr2第2噪声矢量本选择基准值cscr1由式(25)事先计算的常数SYNOstb1(s1pse1(j1),k)正交合成第1噪声矢量SYNOstb2(s2pse1(j2),k)正交合成第2噪声矢量r(k)目标矢量s1pse1(j1),k第1噪声矢量预选后索引s2pse1(j2),k第2噪声矢量预选后标号Ns子帧长(=52)k矢量的要素号码其中,式(22)中的cs1cr和式(23)中的cs2cr,分别是由式(24)和式(25)预先计算的常数
cscrl=Σk=0Ns-1SYNOstb1(slpsel(j1),k)×r(k)÷ΣK=0Ns-1SYNOstb2(s2psel(j2),k)×r(k)---(24)]]>cscr1式(22)用常数SYNOstb1(s1pse1(j1),k)正交合成第1噪声矢量SYNOstb2(s2pse1(j2),k)正交合成第2噪声矢量r(k)目标矢量s1pse1(j1),k第1噪声矢量预选后标号s2pse1(j2),k第2噪声矢量预选后标号Ns子帧长(=52)k矢量的要素号码cscrl=Σk=0Ns-1SYNOstb1(slpsel(j1),k)×r(k)-÷ΣK=0Ns-1SYNOstb2(s2psel(j2),k)×r(k)---(25)]]>cscr2式(23)用常数SYNOstb1(s1pse1(j1),k)正交合成第1噪声矢量SYNOstb2(s2pse1(j2),k)正交合成第2噪声矢量r(k)目标矢量s1pse1(j1),k第1噪声矢量预选后标号s2pse1(j2),k第2噪声矢量预选后标号Ns子帧长(=52)k矢量的要素号码比较单元B1330进一步将s1cr的最大值代入到MAXs1cr中、将s2cr的最大值代入到MAXs2cr中,并用MAXs1cr和MAXs2cr中大的一个作为scr,将求得到scr时参照的s1pse1(j1)的值作为第1噪声矢量正式选择后标号SSEL1,输出到参数编码单元1331中。保存对应于SSEL1的噪声矢量作为正式选择后第1噪声矢量Pstb1(SSEL1,k),求出对应于Pstb1(SSEL1,k)的本选择后合成第1噪声矢量SYNstb1(SSEL1,k)(0≤k≤Ns-1),并输出到参数编码单元1331中。
同样,将求得scr时参照的s2pse1(j2)的值作为第2噪声矢量正式选择后标号SSEL2输出到参数编码单元1331中,而且保存对应于SSEL2的噪声矢量作为正式选择后第2噪声矢量Pstb2(SSEL2,k),求出对应于Pstb2(SSEL2,k)的正式选择后合成第2噪声矢量SYNstb2(SSEL2,k)(0≤k≤Ns-1),并输出到参数编码单元1331中。
比较单元B1330进一步求出分别乘以Pstb1(SSEL1,k)和Pstb2(SSEL2,k)的符号S1和S2,并以求得的S1和S2的正负信息作为增益正负标号Is1s2(2位信息),输出到参数编码单元1331中。
(S1,S2)=(+1,+1)scr1≥scr2,cscr1≥0(-1,-1)scr1≥scr2,cscr1<0(+1,-1)scr1<scr2,cscr2≥0(-1,+1)scr1<scr2,cscr2<0---(26)]]>S1正式选择后第1噪声矢量的符号S2正式选择后第2噪声矢量的符号scr1式(22)的输出scr2式(23)的输出cscr1式(24)的输出cscr2式(25)的输出在根据式(27)生成噪声矢量ST(k)(0≤k≤Ns-1),并输出到自适应码本更新单元1333中的同时,求出其功率POWsf,并输出到参数编码单元1331中。
ST(k)=S1×Pstb1(SSEL1,k)÷S2×Pstb2(SSEL2,k)(27)ST(k)随机矢量S1正式选择后第1噪声矢量的符号S2正式选择后第2噪声矢量的符号Pstb1(SSEL1,k)正式选择后第1级确定的矢量Pstb2(SSEL2,k)正式选择后第2级确定的矢量SSEL1第1噪声矢量正式选择后标号SSEL2第2噪声矢量正式选择后标号k矢量的要素号码(0≤k≤Ns-1)根据式(28)生成合成噪声矢量SYNst(k)(0≤k≤Ns-1),并输出到参数编码单元1331中。
SYNst(k)=S1×SYNstb1(SSEL1,k)÷S2×SYNstb2(SSEL2,k)(28)SYNst(k)合成随机的矢量S1正式选择后第1噪声矢量的符号S2正式选择后第2噪声矢量的符号SYNstb1(SSEL1,k)正式选择后合成第1噪声矢量SYNstb2(SSEL2,k)正式选择后合成第2噪声矢量k矢量的要素号码(0≤k≤Ns-1)参数编码单元1331,首先根据利用在帧功率量化/解码单元1302中求得的解码帧功率spow、以及音调预选单元1308中求得的归一化预测残差功率resid的式(29),求出子帧推定残差功率rs。
rs=Ns×spow×resid (29)rs子帧推定残差功率Ns子帧长(=52)spow解码帧功率resid归一化预测残差功率使用求得的子帧推定残差功率rs、比较单元A1322中计算的自适应/固定矢量的功率POWaf,比较单元B1330中求得的噪声矢量的功率POWst、表7所示的增益量化表存储单元1332中存储的256字的增益量化用表(CGaf[i]、CGst[i])(0≤i≤127)等,根据式(30)求出量化增益选择基准值STDg。
表7增益量化用表


STDg=Σk=0Ns-1(rsPOWaf·CGaf(Ig)×SYNaf(k)+rsPOWst·CGst(Ig)×SYNst(k)-r(k))2---(30)]]>STDg量化增益选择基准值rs子帧推定残差功率POWaf自适应/固定矢量的功率POWst噪声矢量的功率i增益量化表的标号(0≤i≤127)CGaf(i)增益量化表中自适应/固定矢量栏的组成部分CGat(i)增益量化表中噪声矢量栏的组成部分SYNaf(k)合成自适应/固定矢量SYNat(k)合成噪声矢量r(k)目标矢量Ns子帧长(=52)k矢量的要素号码(0≤k≤Ns-1)借助使用选择1个求得的量化增益选择基准值STDg为最小时的标号,作为增益量化标号Ig,以选择的增益量化标号Ig为基础从增益量化用表读出的自适应/固定矢量栏的选择后增益CGaf(Ig),以及以选择的增益量化标号Ig为基础从增益量化用表读出的噪声矢量侧选择后增益CGst(Ig)等的式(31),求出在AF(k)中实际用的自适应/固定矢量方面的正式增益Gaf和在ST(k)中实际用的噪声矢量方面的正式增益Gst,并输出到自适应码本更新单元1333中。
(Gaf,Gst)=(rsPOWafCGaf(Ig),rsPOWstCGst(IG))---(31)]]>Gaf自适应/固定矢量侧本增益Gst噪声矢量侧本增益rsrs子帧推定残差功率
POWaf自适应/固定矢量的功率POWst噪声矢量的功率CGaf(Ig)固定/适应矢量方面的功率CGst(Ig)噪声矢量方面的功率Ig增益量化标号参数编码单元1331收集在帧功率量化和解码单元1302中求得的功率标号Ipow、在LSP量化和解码单元1306中求得的LSP码Ilsp、在自适应/固定选择单元1320中求得的自适应/固定标号AFSEL、在比较单元B1330中求得的第1噪声矢量正式选择后标号SSEL1和第2噪声矢量正式选择后标号SSEL2以及增益正负标号Is1s2、在参数编码单元1331自身中求得的增益量化标号Ig,作为声音码,并将收集到的声音码输出到传送单元1334中。
自适应码本更新单元1333,进行对比较单元A1322中求得的自适应/固定矢量AF(k)和比较单元B1330中求得的噪声矢量ST(k)分别乘以用参数编码单元1331求得的自适应/固定矢量正式增益Gaf和噪声矢量正式噪声Gst后进行相加的式(32)的处理,生成驱动声源ex(k)(0≤k≤Ns-1),并将生成的驱动声源ex(k)(0≤k≤Ns-1)输出到自适应码本1318中。
ex(k)=Gaf×AF(k)+Gst*ST(k)(32)ex(k)驱动声源AF(k)thd适应固定矢量ST(k)噪声矢量的增益k矢量的要素号码(0≤k≤Ns-1)这时,用由thd适应码本更新单元1333收到的新驱动声源ex(k),更新自适应码本1318内旧的驱动声源。
实施形态8下面,对在以作为数字便携电话的声音编码/解码标准方式的PSI-CELP开发的声音解码装置中,用前述实施形态1~实施形态6说明了的声源矢量生成装置的实施形态进行说明。这种解码装置是与前述的实施形态7配对的装置。
图14表示与实施形态8相关的声音解码装置的功能方框图。参数解码单元1402通过传送单元1401获得从图13所述的CELP型声音编码装置送来的声音编码(功率标号Ipow、LSP码Ilsp、自适应/固定标号AFSEL、第1噪声矢量正式选择后标号SSEL1、第2噪声矢量正式选择后标号SSEL2、增益量化标号Ig、增益正负标号Is1s2)。
接着,从存储在功率量化表存储单元1405中的功率量化用表(参照表3)读出功率标号Ipow所示的标量值,并作为解码帧功率spow输出到功率复原单元1417中,从存储在LSP量化表存储单元1404中的LSP量化用表读出LSP编码I1sp的所示的矢量,并作为解码LSP输出到LSP内插单元1406中。将自适应/固定标号AFSEL输出到自适应矢量生成单元1408固定矢量读出单元1411以及自适应/固定选择单元1412中,将第1噪声矢量正式选择后标号SSEL1和第2噪声矢量正式选择后标号SSEL2输出到声源矢量生成装置1414中。从存储在增益量化表存储单元1403中的增益量化用表(参照表7)读出增益量化索引Ig。所示的矢量(CAaf(Ig),CGst(Ig)),与编码装置侧相同,根据式(31)求出在AF(k)中实际用的自适应/固定矢量正式增益Gaf和在ST(k)中实际用的噪声矢量正式增益Gst,并将求得的自适应/固定矢量正式增益Gaf和噪声矢量正式增益Gst与增益正负标号Is1s2一起输出到驱动声源生成单元1413中。
LSP内插单元1406用与编码装置相同的方法,根据从参数编码单元1402收到的解码LSP对每一子帧求出解码内插LSPωintp(n,i)(0≤i≤Np),用求得的LSPωintp(n,i)变换成LPC,从而得到解码内插LPC,并将得到的解码内插LPC输出到LPC合成滤波器单元1413中。
自适应矢量生成单元1408根据从参数解码单元1402收到的自适应/固定标号AFSEL,在从自适应码本1407读出的矢量上叠加存储在多相系数存储单元1409中的多相系数(参照表5)的一部分,生成分数滞后精度的自适应矢量,并输出到自适应/固定选择单元1412中。固定矢量读出单元1411根据从参数解码单元1402收到的自适应/固定标号AFSEL,从固定码本1410读出固定矢量,并输出到自适应/固定选择单元1412中。
自适应/固定选择单元1412根据从参数解码单元1402收到的自适应/固定标号AFSEL,选择从自适应矢量生成单元1408输入的自适应矢量或从固定矢量读出单元1411输入的固定矢量作为自适应/固定矢量AF(k),并将被选择的自适应/固定矢量AF(k)输出到驱动声源生成单元1413中。声源矢量生成装置1414根据从由参数解码单元1402收到的第1噪声矢量正式选择后标号SSEL1和第2噪声矢量正式选择后标号SSEL2,从振种存储单元71取出第1振种和第2振种,输入到非线性数字滤波器72中,分别发生第1噪声矢量和第2噪声矢量。这样,在重现的第1噪声矢量和第2噪声矢量上分别乘以增益正负标号的第1级信息S1和第2级信息S2,生成声源矢量ST(k),并将生成的声源矢量输出到驱动声源生成单元1413中。
驱动声源生成单元1413在从自适应/固定选择单元1412收到的自适应/固定矢量AF(k)和从声源矢量生成装置1414收到的声源矢量ST(k)上分别乘以在参数编码单元1402求出的自适应/固定矢量正式增益Gaf和噪声矢量正式增益Gst后,根据增益正负标号Is1s2进行相加或者相减,得到驱动声源ex(k),并将得到驱动器声源输出到LPC合成滤波器14136和自适应码本1407中。在这里,用从驱动声源生成单元1413输入的新的驱动声源更新自适应码本1407内的旧的驱动声源。
LPC合成滤波器1416对在驱动声源生成单元1413生成的驱动声源,采用以从LSP内插入单元1406收到的解码内插LPC构成的合成滤波器进行LPC合成,并将滤波器的输出送到功率复原单元1417中。功率复原单元1417首先求出在LPC合成滤波器单元1413求得的驱动声源合成矢量的平均功率,接着用将从参数解码单元1402收到的解码功率spow除以求得的平均功率,并将所得结果与驱动声源的合成矢量乘,从而生成合成话音518。
实施形态9图15表示与实施形态9相关的声音编码装置的主要部分的方框图。这种声音编码装置是在图13所示的声音编码装置上增加量化对象LSP增加单元151LSP量化/解码单元152和LSP量化误差比较单元153,或者变更一部分功能。
LPC分析单元1304对缓存器1301内的处理帧进行线性预测分析并得到LPC后,对得到的LPC进行变换生成量化对象LSP,并将生成的量化对象LSP输出到量化对象LSP增加单元151中。具体地说,兼备对缓存器内的首读区间进行线性预测分析,得到对首读区间的LPC后,对得到的LPC进行变换,生成对先读区间的LSP,并输出到量化对象LSP增加单元151中的功能。
量化对象LSP增加单元151借助LPC分析单元1304中变换处理帧的LPC,除直接得到的量化对象LSP以外,还生成多个量化对象LSP。
LSP量化表存储单元1307存储LSP量化/解码单元152参照的量化表,LSP量化/解码单元152对生成的量化对象LSP进行量化和解码,生成各自的解码LSP。
LSP量化误差比较单元153对生成的多个解码LSP进行比较,以闭环的方式选择1个异常噪声最少的解码LSP,并将选择的解码LSP作为对于处理帧的解码LSP重新采用。
图16表示量化对象LSP增加部分151的方框图。
量化对象LSP增加部分151由存储LPC分析单元1304中所求处理帧的量化对象LSP的当前帧LSP存储单元161、存储LPC分析单元1304中求出的首读区间的LSP的首读区间LSP存储单元162、存储前处理帧的解码LSP的前帧LSP存储单元163和对于从前述3个存储单元读出的LSP进行线性内插计算、并增加多个量化对象LSP的线性内插单元164构成。
对处理帧的量化对象LSP、首读区间的LSP以及前处理帧的解码LSP,进行线性内插计算,增加多个生成量化对象LSP,并将生成的量化对象LSP输出到全部LSP量化/解码单元152中。
这里,对量化对象LSP增加单元151进一步详细地进行说明。LPC分析单元1304,对缓存器内的处理帧进行线性预测分析,得到预测次数Np(=10)次的LPCα(i)(0≤i≤Np),对得到的LPC进行变换生成量化对象LSPω(i)(0≤i≤Np),并将生成的量化对象LSPω(i)(0≤i≤Np)存储到量化对象LSP增加单元151内的当前帧LSP存储单元161中。此外,对缓存器内的首读区间进行线性预测分析,得到对首读区间的LPC,变换得到的首读区间的LPC,生成对首读区间的LSPω(i)(0≤i≤Np),并将生成的首读区间的LSPω(i)(0≤i≤Np)存储在量化对象LSP增加单元151内的首读区间LSP存储单元162中。
接着,线性内插单元164分别从当前帧LSP存储单元161读出对应于处理帧的量化对象LSPω(i)(0≤i≤Np),从首读区间LSP存储单元162读出对应于首读区间的LSPωf(i)(0≤i≤Np),从前帧LSP存储单元163读出对应于前处理帧的解码LSPωqp(i)(0≤i≤Np),借助于进行式(33)所示的变换,分别生成量化对象增加第1LSPω1(i)(0≤i≤Np),量化对象增加第2LSP2ω(i)(0≤i≤Np),量化对象增加第3LSPω3(i)(0≤i≤Np)。
ω1(i)ω2(i)ω3(i)=0.80.20.00.50.30.20.80.30.5ωq(i)ωqp(i)ωf(i)---(33)]]>ω1(i)量化对象增加第1LSPω2(i)量化对象增加第2LSP
ω3(i)量化对象增加第3LSPiLPC次号(0≤i≤Np)NpLPC分析次数(=10)ωq(i)对应于处理帧的解码LSPωqp(i)对应于前处理帧的复合LSPωf(i)对应于首读区间的LSP将生成的ω1(i)、ω2(i)、ω3(i)输出到LSP量化/解码单元152中。LSP量化/解码单元152在对4个量化对象LSPω(i)、ω1(i)、ω2(i)、ω3(i)全部进行矢量量化/解码后,分别求出对应于ω(i)的量化误差的功率Epow(ω)、对应于ω1(i)的量化误差的功率Epow(ω1)、对应于ω2(i)的量化误差的功率Epow(ω2)、对于ω3(i)的量化误差的功率Epow(ω3),并对求出的各个量化残差功率施行式(34)的变换,求出解码LSP选择基准值STDlsp(ω)、STDlsp(ω1)、STDlsp(ω2)、STDlsp(ω3)。
STDlsp(ω)STDlsp(ω1)STDlsp(ω2)STDlsp(ω3)=Epow(ω)Epow(ω1)Epow(ω2)Epow(ω3)-0.00100.00050.00020.0000---(34)]]>STDlsp(ω)对应于ω(i)的的复合LSP选择基准值STDlsp(ω1)对应于ω1(i)的复合LSP选择基准值STDlsp(ω2)对应于ω2(i)的复合LSP选择基准值STDlsp(ω3)对应于ω3(i)的复合LSP选择基准值Epow(ω)对应于ω(i)的量化误差的功率Epow(ω1)对应于ω1(i)的量化误差的功率Epow(ω2)对应于ω2(i)的量化误差的功率Epow(ω3)对应于ω3(i)的量化误差的功率比较求出的解码LSP选择基准值,在选择并输出该基准值最小的量化对象LSP所对应的解码LSP作为对应于处理帧的解码LSPωq(i)(0≤i≤Np),同时在前帧LSP存储单元163中存储下一个帧的LSP,以便能在矢量量化时参照。
本实施形态有效地利用LSP具有的内插特性的优越性(即使用内插后的LSP合成也不会发生异常噪声),能对LSP进行向量量化,即使象话头那样频谱变动大的区间,也不发生异常噪声,所以能减小在LSP的量化特性不充分的情况下可能发生的合成语音中的异常噪声。
图17表示本实施形态的LSP量化/解码单元152的方框图。LSP量化/解码单元152包括增益信息存储单元171、自适应增益选择单元172、乘增益运算单元173、LSP量化单元174和LSP解码单元175。
增益信息存储单元171存储自适应增益选择单元172中选择自适应增益时参照的多个增益候补。乘增益运算单元173将由LSP量化表存储单元1307读出的码矢量乘以自适应增益选择单元172中选择的自适应增益。LSP量化单元174用乘以自适应增益后的码矢量,对量化对象LSP进行矢量量化。LSP解码单元175具有对矢量量化的LSP进行解码,生成并输出解码LSP的功能,还具有求出作为量化对象LSP与解码LSP的差分的LSP量化误差,输出到自适应增益选择单元172中的功能。自适应增益选择单元172以矢量量化时在码矢量上乘以前处理帧的LSP的自适应增益的大小,和对应于前帧的LSP量化误差的大小为基准,以存储在增益存储单元171中的增益生成信息为基础进行自适应调节,同时求出对处理帧的量化对象LSP进行矢量量化时乘到码矢量上自适应增益,并将求得的自适应增益输出到乘法增益运算单元173中。
这样,LSP量化/解码单元152是在自适应码矢量上的自适应增益的同时,对量化对LSP进行矢量量化和解码。
这里,对LSP量化/解码单元152进一步详细地进行说明。增益信息存储单元171存储自适应增益选择单元103参照的4个增益候补(0.9,1.0,1.1,1.2),适应增益选择单元103,利用在量化前帧的量化对象LSP时生成的功率ERpow除以矢量量化前处理帧的量化对象LSP时选择的自适应增益Gqlsp的平方的式(35),求出自适应增益选择基准值Slsp。
SIsp=ERpowGqlsp2---(35)]]>Slsp自适应增益选择基准值ERpow量化前帧的LSP时生成的量化误差的功率Gqlsp量化前帧的LSP时选择的自适应增益根据使用求得的自适应增益选择基准值Slsp的式(36),从由增益信息存储单元171读出的4个增益候补(0.9,1.0,1.1,1.2)中选择1个增益。并且,在将被选择的自适应增益Gqlsp的值输出到乘增益运算单元173中的同时,将用于指定被选择的适应增益是4种中的哪一种的信息(2位信息)输出到参数编码单元中。
Glsp=1.2Slsp>0.00251.1Slsp>0.00151.0Slsp>0.00080.9Slsp≤0.0008---(36)]]>Glsp乘在LSP量化用码矢量上的自适应增益Slsp自适应增益选择基准值在变量Gqlsp和变量ERpow中,保持所选择的自适应增益Glsp和伴随量化产生的误差,直到矢量量化下一帧的量化对象LSP时为止。
乘增益运算单元173在由LSP量化表存储单元1307读出的码矢量上乘以自适应增益选择单元172中选择的自适应增益Glsp,并输出到LSP量化单元174中。LSP量化单元174,用乘以自适应增益的码矢量,对量化对象LSP进行矢量量化,并将其标号输出到参数编码单元中。LSP解码单元175对在LSP量化单元174量化的LSP进行解码,得到解码LSP,输出到得到的解码LSP,同时从量化对象LSP减去得到的解码LSP,求出LSP量化误差,计算求出的LSP量化误差的功率ERpow,并输出到自适应增益选择单元172中。
本实施形态能减小在LSP的量化特性不充分的场合可能发生的合成话音中的异常噪声。
实施形态10图18表示与本实施形态相关的声源矢量生成装置的结果的方框图。这种声源矢量生成装置包括存储通道CH1、CH2、CH3的3个固定波形(V1(长度L1)、V2(长度L2)、V3(长度L3))的固定波形存储单元181,具有各通道的固定波形起始端候补位置信息,并将从固定波形存储单元181读出的固定波形(V1、V2、V3)分别配置在P1、P2、P3的位置上的固定波配置在单元182和对基于固定波形配置单元182配置的固定波形相加,并输出声源矢量的加法运算单元183。
下面,对如前所述结构的声源矢量生成装置的动作进行说明。
在固定波形存储单元181上预先存储3个固定波形V1、V2、V3。固定波形配置单元182根据表8所示的其本身具有的固定波形起始端候补位置信息,在从CH1用的起始端候补位置中选择的位置P1上配置(移位)从固定波形存储单元181读出的固定波形V1,同样,在从CH2、CH3用的起始端候补位置中选择的位置P2、P3上分别配置固定波形V2、V3。
表8固定波形起始端候补位置信息

加法运算单元183对由固定波形配置单元182配置的固定波形进行加法运算并生成声源矢量。
其中,对固定波形配置单元182具有的固定波形起始端候补位置信息,分配与能被选择的各固定波形的起始端候补位置的组合信息(表示选择哪一个位置作为P1、选择哪一个位置作为P2、选择哪一个位置作为P3的信息)一一对应的码号。
采用这样结构的声源矢量生成装置,则在能利用传送与固定波形配置单元182具有的固定波形起始端候补位置信息有对应关系的码号,行声音信息的传送的同时,借助于码号仅存在于各起始端候补数的积的部分,能不增加计算和必要的存储器,生成接近实际声音的声源矢量。
为了能利用码号的传送进行声音信息的传送,可前述声源矢量生成装置作为噪声码本用在声音编码/解码装置中。
在本实施形态中,虽然对图18所示的用3个固定波形的场合进行了说明,但固定波形的个数(图18和表8的通道数一致)为其它的个数的场合,也能得到同样的作用和效果。
此外,在本实施形态中,虽然对固定波形配置单元182具有表8所示的固定波形起始端候补位置信息的场合进行了说明,但对于具有表8以外的固定波形起始端候补位置信息的场合,也能得到同样的作用·效果。
实施形态11图19A表示与本实施形态相关的CELP型声音编码装置的结构方框图。图19B表示与CELP型声音编码装置配对的CELP型声音解码装置的结构方框图。
与本实施形态相关的CELP型声音编码装置包括由固定波形存储单元181A和固定波形配置单元182A以及加法运算单元183A组成的声源矢量生成装置。固定波形存储单元181A存储多个固定波形,固定波形配置单元182A根据自己具有的固定波形起始端候补位置信息将从固定波形存储单元181A读出的固定波形分别配置(移位)在选择的位置上,加法运算单元183A对由固定波形配置单元182A配置的固定波形进行加法运算、生成声源矢量C。
这种CELP型声音编码装置包括对被输入的噪声码本检索用目标X进行时间反转的时间反转单元191、对时间反转单元191的输出进行合成的滤波器192、对合成滤波器192的输出再次进行反转并输出到时间反转合成目标X’的时间反转单元193、对乘以噪声编码矢量增益gc的声源矢量C进行合成并输出合成声源矢量S的合成滤波器194,以及输入X’、C、S并计算失真的失真计算单元205和传送单元196。
在本实施形态中,固定波形存储单元181A、固定波形配置单元182A和加法运算单元183A,对应于图18所示的固定波形存储单元181、固定波形配置单元182和加法运算单元183,各通道的固定波形起始端候补位置对应于表8,因而下文中表示通道号、固定波形号及其长度和位置的记号,使用图18和表8所示的。
另一方面,图19B的CELP型声音解码装置包括存储多个固定波形的固定波形存储单元181B、根据基于自己具有的固定波形起始端候补位置信息,将从固定波形存储单元181B读出的固定波形分别配置(移位)在选择的位置上的固定波形配置单元182B、对由固定波形配置单元182B配置的固定波形进行加法运算,生成声源矢量C的加法运算单元183B、乘以噪声编码矢量增益gc的乘增益运算单元197和对声源矢量C进行合成并输出合成声源矢量S的合成滤波器198。
声音解码装置的固定波形存储单元181B和固定波形配置单元182B,与声音编码装置的固定波形存储单元181A和固定波形配置单元182A具有相同的结构,固定波形存储单元181A和181B存储的固定波形,是具有借助于将以使用噪声码本检索用目标的式(3)的编码失真计算式作为价值函数的学习,使式(3)的价值函数统计上最小的特性的固定波形。
下面,对如前所述结构的声音编码装置的动作进行说明。
噪声码本检索用目标X,在时间反转单元191被倒置后,在合成滤波器被合成,并在时间反转单元193再次被倒置后,作为噪声码本检索用的时间反转合成目标X’输出到失真计算单元205中。
接着,固定波形配置单元182A根据表8所示的自己具有的固定波形起始端候补位置信息,将从固定波形存储单元181A读出的固定波形V1配置(移位)在从CH1用的起始端候补位置选择的位置P1上,同样,将固定波形V2、V3配置在从CH2、CH3用的起始端候补位置选择的位置P2、P3上。被配置的各固定波形输出到加法器183A中进行相加,成为声源矢量C,并输入到合成滤波器194中。合成滤波器194对声源矢量C进行合成,生成合成声源矢量S,并输出到失真计算单元205中。
失真计算单元205输入时间反转合成目标X’、声源矢量C、合成声源矢量S,计算式(4)的编码失真。
失真计算单元205在计算失真后,对固定波形配置单元182A能选择的起始端候补位置的全部组合,重复进行从将信号送到固定波形配置单元182A中,从固定波形配置单元182A选择分别对应于3个通道的起始端候补位置起,到在失真计算单元205计算失真为止的前述处理。
然后,选择编码失真最小的起始端候补位置的组合,将与该起始端候补位置的组合一一对应的码号、以及这时的最佳噪声码矢量增益gc作为噪声码本的码,传送到传送单元196中。
接着,对图19B的声音解码装置的动作进行说明。
固定波形配置单元181B根据从传送单元196送来的信息,从表8所示的自己具有的固定波形起始端候补位置信息中选择各通道的固定波形的位置,将从固定波形配置单元181B读出的固定波形V1配置(移位)在从CH1用的起始端候补位置中选择的位置P1上,同样,将固定波形V2、V3配置在从CH2、CH3用的起始端候补位置中选择的位置P2、P3上。被配置的各固定波形输出到加法器43中进行相加,成为声源矢量C,并乘以由来自传送单元196的信息选择的噪声码矢量增益gc后,输出到合成滤波器198中。合成滤波器198对乘以gc后的声源矢量C进行合成,生成并输出合成声源矢量S。
采用这样结构的声音编码/解码装置,则因由固定波形存储单元、固定波形配置单元和加法器组成的声源矢量生成单元生成声源矢量,所以增加具有实施形态10的效果,此外,用合成滤波器合成这种声源矢量而得的合成声源矢量还具有与实际的目标统计上接近的特性,因而能得到高品质的合成声音。
在本实施形态中,虽然示出了将学习得到的固定波形存储在固定波形存储单元181A和181B中的情况,但在采用其它的统计分析噪声码本检索用目标X,并根据其分析结果生成的固定波形的情况下,在采用根据实际见识生成的固定波形的情况下,也能同样地得到高品质的合成声音。
在本实施形态中,虽然对固定波形存储单元存储3个固定波形的情况进行了说明,但在固定波形的个数为其它的个数的情况下也能得到同样的作用和效果。
此外,在本实施形态中,虽然对固定波形配置单元具有表8所示的固定波形起始端候补位置信息的情况进行了说明,但在具有表8以外的固定波形起始端候补位置信息的情况下也能得到同样的作用和效果。
实施形态12图20是表示本实施形态的CELP型声音编码装置的结构的方框图。
该CELP型声音编码装置具有存储多个固定波形(本实施形态中是CH1W1、CH2W2、CH3W3个)的固定波形存储器200,以及有作为对固定波形存储器200中存储的固定波形由代数规则生成其起始端位置用的信息的固定波形起始端候补位置信息的固定波形配置单元201。又,该CELP型声音编码装置具备波形别脉冲响应运算单元202、脉冲发生器203及相关矩阵运算器204,还具备时间反转单元193及失真计算单元205。
波形别脉冲响应运算单元202具有对固定波形存储器200来的3个固定波形和合成滤波器的脉冲响应h(长度L=子帧长度)进行卷积,计算出3种波形别脉冲响应(CH1h1、CH2h2、CH3h3,长度L=子帧长度)的功能。
波形别合成滤波器192’具有对使输入的噪声码检索目标X时间反转的时间反转单元191的输出与来自波形别脉冲响应运算单元202的各个波形别脉冲响应h1、h2、h3进行卷积的功能。
脉冲发生器203只在固定波形配置单元201选择的起始候补位置P1、P2、P3分别使振幅1(有极性)的脉冲上升,产生不同通道的脉冲(CH1d1、CH2d2、CH3d3)。
相关矩阵运算器204计算来自波形别脉冲响应运算单元202的波形别脉冲响应h1、h2与h3各自的自相关,以及h1与h2、h1与h3、h2与h3的互相关,将求得的相关值在相关矩阵存储器RR中展开。
失真运算单元205用3个波形别时间反转合成目标(X’1、X’2、X’3)、相关矩阵存储器RR、3个通道别脉冲(d1、d2、d3),借助于式(4)的变形式(37)指定使编码失真最小的噪声码矢量。
(Σi=13xi′tdi)2Σi=13Σj=13HitHjdj---(37)]]>di通道别脉冲(矢量)di=±1×δ(k-pi),k=0~L-1,pi:第i通道n固定波形起始端候补位置Hi=波形别脉冲响应卷积矩阵(Hi=HWi)Wi=固定波形卷积矩阵
Wi=wi(0)0ΛΛ0000wi(1)wi(0)0Λ0000wi(2)wi(1)wi(0)00000MMMΟ0000wi(Li-1)wi(Li-2)ΟΟΟ0000wi(Li-1)wi(Li-2)ΟΟ0Λ0M0wi(Li-1)ΟΟ000MM0ΟΟΟ00MMMΟΟΟΟ00000wi(Li-1)Λwi(1)wi(0)]]>其中Wi为第i通道的固定波形(长度Li)x’i在Hi将x时间反转合成倒置的矢量(x’ti=Hi)这里对从式(4)变成式(37)的变换,分别用式(38)和式(39)表示出分母项和分子项的变换。
(xtHc)2=(xtH(W1d1+W2d2+W3d3))2=(xt(H1d1+H2d2+H3d3))2=((xtH1)d1+(xtH2)d2+(xtH3)d3)2=(x1′td1+x2′td2+x3′td3)2]]>=(Σi=13xi′tdi)2---(38)]]>x噪声码检索目标(矢量)xtx的倒易矢量H合成滤波器的脉冲响应卷积矩阵c噪声码矢量(c=W1d1+W2d2+W3d3)Wi固定波形卷积矩阵di通道别脉冲(矢量)Hi波形别脉冲响应卷积矩阵(Hi=HWi)x’i在Hi将x时间反转合成倒置的矢量( x’ti=xtHi)
‖Hc‖2=‖H(W1d1+W2d2+W3d3)‖2=‖H1d1+H2d2+H3d3‖2=(H1d1+H2d2+H3d3)t(H1d1+H2d2+H3d3)=(d1tH1t+d2tH2t+d3tH3t)(H1d1+H2d2+H3d3)]]>=Σi=13Σj=13ditHitdjHj---(39)]]>H合成滤波器的脉冲响应卷积矩阵c噪声码矢量(c=W1d1+W2d2+W3d3)Wi固定波形卷积矩阵di通道别脉冲(矢量)Hi波形别脉冲响应卷积矩阵(H=HWi)下面对具有如上所述结构的CELP型声音编码装置的动作加以说明。
首先,对波形别脉冲响应运算单元202存储的3个固定波形W1、W2、W3和脉冲响应h进行卷积,计算出3种波形别脉冲响应h1、h2、h3,输出到波形别合成滤波器192’及相关矩阵运算器204。
接着,波形别合成滤波器192’对由时间反转单元191进行过时间反转的噪声码检索目标X和输入的3种波形别脉冲响应h1、h2、h3的各个进行卷积,用时间反转单元193再度对来自波形别合成滤波器192’的3种输出矢量进行时间反转,分别生成3个波形别时间反转合成目标X’1、X’2、X’3输出到失真计算单元205。
接着,相关矩阵运算单元204计算输入的3种波形别脉冲响应h1、h2、h3各自的自相关和h1与h2、h1与h3、h2与h3的互相关,将求得的相关值在相关矩阵矩阵存储器RR展开后输出到失真运算单元205。
将上述处理作为前处理实施后,固定波形配置单元201在每一个通道各选一个固定波形的起始端候补位置,向脉冲发生器203输出该位置信息。
脉冲发生器203在从固定波形配置单元121得到的选择位置上分别使振幅1(有极性)的脉冲上升,产生通道别脉冲d1、d2、d3并输出到失真计算单元205。
然后,失真计算单元205用3个波形别时间反转合成目标X’1、X’2、X’3、相关矩阵RR及3个通道别脉冲d1、d2、d3,计算式(37)的最小编码失真基准值。
固定波形配置单元201就该单元能够选择的起始端候补位置的全部组合,反复进行从选择对分别与3个通道对应的起始端候补位置起,到失真计算单元205计算失真为止的上述处理。然后,在将噪声码矢量增益gc指定为噪声码本的代码后,将使式(37)的编码失真检索基准值最小的起始端候补位置的组合编号所对应的码号及那时的最佳增益传送到传输单元。
还有,本实施形态的声音解码装置的结构与实施形态10的图19B相同,声音编码装置的固定波形存储单元及固定波形配置单元与声音解码装置装置的固定波形存储单元及固定波形配置单元有相同的结构。固定波形存储单元存储的固定波形是具有将使用噪声码本检索目标的式(3)(编码畸变计算式)作为价值函数学习,以在统计上使式(3)的价值函数最小的特性的固定波形。
采用这样构成的声音编码/解码装置,在能够以代数计算算出固定波形配置单元内的固定波形起始端修补位置的情况下,将前处理阶段求得的波形别时间反转合成目标的3项相加,取其结果的平方,可以计算式(37)的分子项。又,将前处理阶段求得的波形别脉冲响应的相关矩阵的9项相加,可以计算式(37)的分子项。因此,可以用与将已有的代数结构声源(以振幅1的几个脉冲构成声源矢量)用于噪声码本的情况相同的运算量完成检索。
再者用合成滤波器合成的合成声源矢量与实际目标有在统计上相近的特性,因此可以得到高质量的合成话音。
还有,本实施形态示出了将学习得到的固定形状存储于固定波形存储单元的情况,此外,在使用对噪声码本检索用的目标X进行统计分析,根据该分析结果作成的固定波形的情况下,以及使用根据实际见识作成的固定波形的情况下,也一样能够得到高质量的合成话音。
又,本实施形态对固定波形存储单元存储3个固定波形的情况作出了说明,但是固定波形的个数取其他数值的时也能得到相同的作用与效果。
又,本实施形态对固定波形配置单元具有表8所示的固定波形起始端候补位置信息的情况作了说明,但如果是能够以代数方法生成的,则具有表8以外的固定波形起始端候补位置信息的情况也能得到同样的作用和效果。
实施形态13图21是本实施形态的CELP型声音编码装置的结构方框图。本实施形态的编码装置具备2种噪声码本A211、B212、切换两种噪声码本的开关213、进行噪声码矢量乘以增益的运算的乘法器214、将由开关213连接的噪声码本输出的噪声码矢量加以合成的合成滤波器215,以及计算式(2)的编码失真的失真计算单元216。
噪声码本A211具有实施形态10的声源矢量生成装置的结构,另一噪声码本B212由存储根据随机数序列作出的多个随机矢量的随机数序列存储单元217构成。以闭环进行噪声码本的切换。X是噪声码本检索用的目标。
下成对具有如上所述结构的CRLP型声音编码装置的动作加以说明。
开始时,开关213连接于噪声码本A211一侧,固定波形配置单元182根据示于表8的本身具有的固定波形起始端候补位置信息,将从固定波形存储单元181读出的固定波形分别配置(移位)到从起始端候补位置选择出的位置上。所配置的固定波形由加法器183进行加法运算,变成噪声码矢量,并乘以噪声码矢量增益后被输入合成滤波器215。合成滤波器215将所输入的噪声码矢量加以合成后,输出到失真计算单元216。
失真计算单元216使用噪声码本的检索用目标X和从合成滤波器215得到的合成,进行式(2)的使编码失真最小的处理。
失真计算单元216在计算失真之后,向固定波形配置单元182传送信号,就固定波形配置单元182能选择的起始端候补位置的全部组合,反复进行从固定波形配置单元182选择起始端候补位置起,到失真计算单元216计算失真为止的上述处理。
然后,选择最小编码失真的起始端候补位置的组合,存储与该起始端候补位置的组合一一对应的噪声码矢量的码号、那时的噪声码矢量增益gc,及编码失真最小值。
接着,开关213连接于噪声码本B212一侧,从随机数序列存储单元217读出的随机数序列成为噪声码矢量,乘以噪声码矢量增益后,输出到合成滤波器215。合成滤波器215将所输入的噪声码矢量加以合成后,输出到失真计算单元216。
失真计算单元216用噪声码本检索用的目标X和从合成滤波器215得到的合成矢量,计算式(2)的编码失真。
失真计算单元216在计算失真之后向随机数序列存储单元217传送信号,就随机数序列存储单元217能选择的全部噪声码矢量,反复进行从随机数序列存储单元217选择噪声码矢量起,到在失真计算单元216计算失真为止的上述处理。
然后,选择编码失真最小的噪声码矢量,将该噪声码矢量的码号、那时的噪声码矢量增益gc,以及编码失真最小值存储起来。
接着,失真计算单元216将把开关213连接于噪声码本A211时得到的编码失真最小值与把开关213连接于噪声码本B212时得到的编码失真最小值加以比较,将得到较小编码失真时的开关连接信息及那时的码号和噪声码矢量增益判定为声音码,传送到未图示的传输单元。
还有,与本实施形状的声音编码装置配对的声音解码装置是将噪声码本A、噪声码本B、开关、噪声码矢量增益,及合成滤波器以同图21一样的结构配置而成的,根据由传输单元输入的声音码,决定所使用的噪声码本。噪声码矢量及噪声码矢量增益,得到合成声源矢量作为合成滤波器的输出。
采用这样构成的声音编码装置/解码装置,可以从由噪声码本A生成的噪声码矢量和由噪声码本B生成的噪声码矢量中,以闭环的方式选择使式(2)的编码失真最小的,因此,能够生成更接近实际声音的声源矢量,同时能够得到高音质的合成话音。
本实施形态示出以作为已有CELP型声音编码装置的图2所示结构为基础的声音编码/解码装置,但是在图19A、B或图20的结构为基础的CELP型声音编码装置/解码装置中使用本实施形态也能得到同样的作用与效果。
本实施形态设噪声码本A211图18的结构,但是在固定波形存储单元181具有其他结构的情况(例如有4种固定波形等)等也能得到同样的作用和效果。
在本实施形态中,对噪声码本A211的固定波形配置单元182具有表8中所示的固定波形起始端候补位置信息的情况作了说明,但是,具有其他固定波形起始端候补位置信息时也能得到同样的作用和效果。
又,本实施形态对噪声码本B212由直接在存储器中存储多个随机数序列的随机数序列存储单元217构成的情况进行了说明,但是噪声码本B212具有其他声源结构的情况(例如由代数结构声源生成信息构成的情况)也能得到同样的作用和效果。
再者,本实施形态对具有2种噪声码本的CELP型声音编码/解码装置作了说明,但采用具有3种以上噪声码本的CELP型声音编码/解码装置时,也能取得同样的作用和效果。
实施形态14图22表示本实施形态的CELP型声音编码装置的结构。本实施形态的声音编码装置具有两种噪声码本,一种噪声码本是实施形态10的图18所示的声源矢量生成装置的结构,另一噪声码本由存储多个脉冲串的脉冲串存储单元构成,利用噪声码本检索以前已经得到的量化音调增益,自适应地换用噪声码本。
噪声码本A211由固定波形存储单元181、固定波形配置单元182、加法器183构成,与图18的原矢量生成装置对应。噪声码本B221由存储多个脉冲串的脉冲串存储单元222构成。开关213’对噪声码本A211与噪声码本B211进行切换。又,乘法器224输出自适应码本223的输出乘以在噪声码本检索时已经得到的音调增益得出的自适应码矢量。音调增益量化器225的输出传送给开关213’。
下面对具有上述结构的CELP型声音编码装置的动作加以说明。
已有的CELP型声音代码装置首先进行自适应码本223的检索,接着接受其结果,进行噪声码本检索。该自适应码本检索是从自适应码本223存储的多个自适应码矢量(自适应码矢量与噪声码矢量乘以各自的增益后进行相加而得到的矢量)选择最合适的自适应码矢量的处理,结果是生成自适应码矢量的码号及音调增益。
本实施形态的CELP型声音编码装置在音调增益量化单元225将该音调增益量化,并在生成量化音调增益之后进行噪声码本检索。音调增益量化单元225得到的量化音调增益送往切换噪声码本用的开关213’。
开关213’在量化音调增益的值小的时候判断为输入声音清音性强,连接噪声码本A211,在量化音调增益值大的时候判断为输入声音浊音性强,连接噪声码本B221。
开关213’连接于噪声码本A211一侧时,固定波形配置单元182根据示于表8的本身具有的固定波形起始端候补位置信息,将从固定波形存储单元181读出的固定波形分别配置(移位)到从起始端候补位置选择出的位置上。所配置的各固定波形输出到加法器183进行加法运算,成为噪声码矢量,乘以噪声码矢量增益后输入合成滤波器215。合成滤波器215将输入的噪声码矢量加以合成,输出到失真计算单元216。
失真计算单元216利用噪声码本检索用目标X和从合成滤波器215得到的矢量,计算式(2)的编码失真。
失真计算单元216在计算失真之后向固定波形配置单元182传送信号182,就固定波形配置单元182能够选择的起始端候补位置的全部组合,反复进行从固定波形配置单元182选择起始端候补位置起,到失真计算单元216计算失真为止的上述处理。
然后,选择编码失真最小的起始端候补位置的组合,将与该起始端候补位置的组合一一对应的噪声码矢量的码号、那时的噪声码矢量增益gc,及量化音调增益作为声音码传送到传输单元。本实施形态在进行声音编码之前事先使固定波形存储单元181存储的固定波形图呈现清音性质。
另一方面,开关213’连接于噪声码本B221一侧时从脉冲串存储单元222读出的脉冲串成为噪声码矢量,开关213’经噪声码矢量增益的乘法运算过程后,输入合成滤波器215。合成滤波器215将输入的噪声码矢量加以合成,并输出到失真计算单元216。
失真计算单元216用噪声码本检索用目标X和从合成滤波器215得到的合成矢量,计算式(2)的编码失真。
失真计算单元216在计算失真之后向脉冲串存储单元222传送信号,就脉冲串存储单元222能够选择的所有的噪声码矢量,反复进行从脉冲串存储单元222选择噪声码矢量起,到失真计算单元216计算失真为止的上述处理。
然后,选择编码失真最小的噪声码矢量,将该噪声码矢量的码号、那时的噪声码矢量增益gc,以及量化音调增益作为声音码向传输单元传送。
还有,与本实施形态的声音编码装置配对的声音解码装置是具有将噪声码本A、噪声码本B、开关、噪声码矢量增益,以及合成滤波器以与图22相同的结构配置而成的部分的装置,首先,接收传送来的量化音调增益,根据其大小判断在编码装置一方开关213’是连接于噪声码本A211一侧,还是连接于噪声码本B221一侧。接着,根据码号及噪声码矢量增益的代码,得到合成声源矢量作为合成滤波器的输出。
采用具有这样的结构的声源编码/解码装置,可以相应于输入声音的特征(在本实施形态中,利用量化音调增益的大小作为浊音性/清音性的判断数据)自适应地切换2种噪声码本,能够在输入声音的浊音性强的情况下选择脉冲串作为噪声码矢量,在清音性强的情况下,选择呈现清音性质的噪声码矢量,可生成更接近原声的声源矢量,同时可以提高合成话音的音质。在本实施形态中,由于如上所述以开环进行开关切换,可以使传送的信息增加,以提高有关作用和效果。
本实施形态中示出以作为已有的CELP型声音编码装置的图2所示结构为基础的声音编码/解码装置,但是在以图19A、B或图20的结构为基础的CELP型声音编码/解码装置中使用本实施形态也可以得到同样的效果。
本实施形态中,作为用于切换开关213’的参数,使用在音调增益量化器225将自适应码矢量的音调增益量化而得到的音调增益,但是也可以代之以使用配备音调周期运算器,从自适应码矢量计算出的音调周期。
本实施形态中,设噪声码本A211具有图18的结构,但是在固定波形存储单元181具有其他结构的情况下(例如有4种固定波形的情况等),也能得到同样的作用与效果。
在本实施形态中,对噪声码帐A211的固定波形配置单元182具有表8所示的固定波形起始端候补位置信息的情况作了说明,但是具有其他固定波形起始端候补位置信息时也能够得到同样的作用与效果。
在本实施形态中,就噪声码本B211由直接将脉冲串存储于存储器中的脉冲串存储单元222构成的情况作了说明,但是在噪声码本B221具有其他声源结构(例如由代数结构声源生成信息构成的情况下)也能够得到同样的作用与效果。
还有,在本实施例中,对具有2种噪声码本的CELP型声音编码/解码装置进行了说明,但是采用具有3种以上噪声码本的CELP型声音编码/解码装置时,也能够得到同样的作用与效果。
实施形态15图23是本实施形态的CELP型声音编码装置的结构方框图。本实施形态的声音编码装置具有两种噪声码本,一种噪声码本是实施形态10的图18所示的声源矢量生成装置的结构,在固定波形存储单元存储3个固定波形,另一噪声码本同样是图18所示的声源矢量生成装置的结构,但固定波形存储单元存储的固定波形是2个,而且以闭环进行上述两种噪声码本的切换。
噪声码本A211由存储3个固定波形的固定波形存储单元A181、固定波形配置单元A182、加法器183构成,与以图18的声源矢量生成装置的结构在固定波形存储单元存储3个固定波形的情况对应。
噪声码本B230由存储2个固定波形的固定波形存储单元B231、具备表9所示的固定波形起始端候补位置信息的固定波形配置单元B232、将由固定波形配置单元B232配置的2个固定波形相加生成噪声码矢量的加法器233构成,与以图18的声源矢量生成装置的结构在固定波形存储单元存储2个固定波形的情况对应。
表9

其他结构也与上述实施形态13相同。
下面对具有如上所述的结构的CELP型声音编码装置的动作加以说明。
开始时,开关213连接于噪声码本A211一侧,固定波形存储单元A181根据表8所示的本身具有的固定波形起始端候补位置信息,将从固定波形存储单元A181读出的3个固定波形分别配置(移位)到从起始端候补位置选择出的位置上。所配置的3个固定波形输出到加法器183,经过加法运算,成为噪声码矢量,经过开关213、乘以噪声码矢量增益的乘法器213,输入合成滤波器215。合成滤波器215将输入的噪声代码量加以合成,并输出到失真计算单元216。
失真计算单元用噪声码本检索用的目标X和从合成滤波器215得到的合成矢量计算式(2)的编码失真。
失真计算单元216在计算失真之后向固定波形配置单元A182传送信号,就固定波形配置单元A182能选择的起始端候补位置的全部组合,反复进行从固定波形配置单元A182选择起始端候补位置起,到失真计算单元216计算失真为止的上述处理。
然后,选择编码失真最小的起始端候补位置的组合,存储与该起始端候补位置的组合一一对应的噪声码矢量的码号、那时的噪声码矢量增益gc,以及编码失真最小值。
本实施形态中,在进行声音编码之前,存储于固定波形存储单元A181的固定波形图使用学习得到的,该学习在固定波形有3个的条件下使失真最小。
接着,开关213连接于噪声码本B230一侧,固定波形存储单元B231根据表9所示的本身具有的固定波形起始端候补位置信息,将从固定波形存储单元B231读出的2个固定波形分别配置(移位)到从起始端候补位置选择出的位置上。所配置的2个固定波形输出到加法器233,经过加法运算后,成为噪声码矢量,经过开关213、将乘以噪声码矢量增益的乘法器214,输入合成滤波器215。合成滤波器215将输入的噪声码矢量合成,并输出到失真计算单元216。
失真计算单元216用噪声码本检索用的目标X和从合成滤波器215得到的合成矢量,计算式(2)的编码失真。
失真计算单元216在计算失真之后,将信号传送到固定波形配置单元B232,就固定波形配置单元B232能够选择的起始端候补位置的全部组合,反复进行从固定波形配置单元B232选择起始端候补位置,到失真计算单元216计算失真为止的上述处理。
然后,选择编码失真最小的起始端候补位置的组合,存储与该起始端候补位置的组合一一对应的噪声码矢量的码号、那时的噪声码矢量增益gc,以及编码失真最小值。本实施形态在进行声音编码之前,存储于固定波形存储单元B231的固定波形图使用学习得到的,该学习在固定波形有2个的条件下使失真最小。
接着,失真计算单元216将开关213连接于噪声码本A211时得到的编码失真最小值与开关213连接于噪声码本B230时得到的编码失真最小值加以比较,将得到较小编码失真时的开关连接信息、那时的码号及噪声码矢量增益判定为声音码,传送到传输单元。
还有,在本实施形态中的声音解码装置是具有将噪声码本A、噪声码本B、开关、噪声码矢量增益及合成滤波器以与图23一样的结构配置而成的部分的装置,根据从传输单元输入的声音码,决定所使用的噪声码本、噪声码矢量及噪声码矢量增益,从而得到合成声源矢量作为合成滤波器的输出。
采用这样构成的声音编码/解码装置,可用闭环从由噪声码本A生成的噪声码矢量与噪声码本B生成的噪声码矢量中选择使式(2)的编码失真最小的噪声码矢量,因此可以生成更接近原声的声源矢量,同时可以得到高音质的合成话音。
在本实施形态中,示出以作为已有的CELP型声音编码装置的图2所示结构为基础的声音编码/解码装置,但是,在以图19A、B或图20的结构为基础的CELP型声音编码/解码装置中使用本实施形态也能够得到同样的效果。
在本实施形态中,对噪声码本A211的固定波形存储单元A181存储3个固定波形的情况进行了说明,但是,在固定波形存储单元A181具有其他数目的固定波形的情况下(例如有4个固定波形的情况等)也能得到同样的作用与效果。对于噪声码本B230也相同。
又,在本实施形态中,对噪声码本A211的固定波形配置单元A182具有表8所示的固定波形起始端候补位置信息的情况作了说明,但是,具有其他固定波形起始端候补位置信息时也能够得到同样的作用与效果。对于噪声码本B230也相同。
还有,本实施形态对具有2种噪声码本的CELP型声音编码/解码装置进行了说明,但是采用有3种以上噪声码本的CELP型声音编码/解码装置时,也能得到相同的作用与效果。
实施形态16图24表示本实施形态的CELP型声音编码装置的功能方框图。该声音编码装置在LPC分析单元242对输入的声音数据241进行自相关分析与LPC分析,以此得到LPC系数,又对所得到的LPC系数进行编码,得到LPC代码,又将得到的LPC代码加以编码,得到解码LPC系数。
接着,在声源生成单元245,从自适应码本243与声源矢量生成装置244取出自适应码矢量与噪声码矢量,分别送往LPC合成单元246。声源矢量生成装置244使用上述实施形态1~4、10中的任一个声源矢量生成装置。并且,在LPC合成单元246,根据LPC分析单元242得到的解码LPC系数对声源生成单元245得到的2个声源进行滤波,从而得到两个合成话音。
还在比较单元247分析在LPC合成单元246得到的2种合成话音与输入的声音的关系,求两种合成话音的最佳值(最佳增益),把根据该最佳增益进行过功率调整的各合成话音相加,得到总合成话音,计算该总合成话音与输入的声音的距离。
又,对自适应码本243与声源矢量生成装置244产生的全部声源样本,计算由于使声源生成单元245、LPC合成单元246起作用而得到的多个合成话音与输入的声音的距离,求得在该结果所得到的距离中为最小的时候的声源样本的标号,再把与该标号对应的两个声源传送到参数编码单元248。
参数编码单元248进行最佳增益的编码,得到增益代码,将LPC代码、声源样本标号汇集在一起传送到传输路径249。又根据增益代码和对应于标号的两个声源生成实际声源信号,将其存储于自适应码本243,同时废弃旧声源样本。
图25是与参数编码单元248中增益矢量量化有关的部分的功能方框图。
参数编码单元248具备变换为输入最佳增益2501的组成部分的和以及对该和的比率求量化对象矢量的参数变换单元2502、用解码矢量存储单元存储的过去已解码代码矢量和预测系数存储单元存储的预测系数求目标矢量的目标提取单元2503,存储过去已解码代码矢量的解码矢量存储单元2504、存储预测系数的预测系数存储单元2505、用预测系数存储单元存储的预测系数,计算矢量码本存储的多个代码矢量与目标提取单元得到的目标矢量之间的距离的距离计算单元2506、存储多个代码矢量的矢量码本2507、以及控制矢量码本与距离计算单元,根据对从距离计算单元得到的距离的比较,求出最佳代码矢量的编号,并根据求得的编号取出矢量存储单元存储的代码矢量,用该代码矢量更新解码矢量存储单元的内容的比较单元2508。
下面对具有如上所述结构的参数编码单元248的动作做详细说明。预先生成存储多个量化对象矢量的代表性样本(代码矢量)的矢量码本2507、这通常以分析多个声音数据得到的多个矢量为基础,用LBG算法(IEEETRANSACTIONS ON COMMUNICATIONS,VOL.COM-28,NO.1,pp84-95,JANUARY 1980)生成。
又,在预测系数存储单元2505存储着用于进行预测编码的系数。关于该预测系数的算法将在后面进行说明。又在解码矢量存储单元2504中预先存储表示清音状态的数值作为初始值。例如功率最小的代码矢量。
首先,在参数变换单元2502将输入的最佳增益2501(自适应声源的增益与噪声声源的增益)变换成和与比率的要素的矢量(输入)。变换方法示于式(40)P=log(Ga+Gs)R=Ga/(Ga+Gs) ……(40)(Ga+Gs)最佳增益Ga自适应声源增益Gs随机声源增益(P,R)输入矢量P和R比率上述各量中,Ga不必一定是正值,因而R也有负值的情况。而且,在Ga+Gs为负值的情况下代入预先准备的固定值。
接着,在目标提取单元2503以在参数变换单元2052得到的矢量为基础,利用解码矢量存储单元2504存储的过去的解码矢量和预测系数存储单元2505存储的预测系数,得到目标矢量。将目标矢量的计算式示于式(41)(Σi=1lUpi×pi+Σi-1lVpi×ri)]]>Tr=R-(Σi=1lUri×pi+Σi=1lVri×ri)---(41)]]>(Tp,Tr)目标矢量(P,R)输入矢量(pi,ri)过去的解码矢量Upi,Vpi,Uri,Vri预测系数(固定值)i前面第几个解码矢量的标号l预测次数接着在距离计算单元2506用预测系数存储单元2505存储的预测系数计算在目标提取单元2503得到的目标矢量与矢量码本2507存储的代码矢量的距离。
距离的计算式示于式(42)Dn=Wp×(Tp-UpO×Cpn-VpO×Crn)2+Wr×(Tr-UpO×Cpn-VrO×Crn)2(42)Dn目标矢量与代码矢量的距离(Tp,Tr)目标矢量UpO,VpO,UrO,VrO预测系数(固定值)(Cpn,Crn)代码矢量n代码矢量的编号Wp,Wr调节对失真的灵敏度的加权系数(固定)接着,比较单元2508控制矢量码本2507与距离计算单元2506,在矢量码本2507中存储的多个代码矢量中求距离计算单元2506计算出的距离为最小的代码矢量的编号,以此作为增益的代码2509。又以得到的增益代码2509为基础求解码矢量,并利用该矢量更新解码矢量存储单元2504的内容。求解码矢量的方法示于式(43)
p=(Σi=1lUpi×pi+Σi=1lVpi×ri)+UpO×Cpn+VpO×Crn]]>R=(Σi=1lUri×pi+Σi=1lVri×ri)+UrO×Cpn+VrO×Crn---(43)]]>(Cpn,Crn)代码矢量(p,r)解码矢量(pi,ri)过去的解码矢量Upi,Vpi,Uri,Vri预测系数(固定值)i前面第几个解码矢量的标号l预测次数n代码矢量的编号又,进行更新的方法示于式(44)。
处理的顺序pO=CpNrO=CrNpi=pi-l(i=1~l)ri=ri-l(i=1~l)(44)N增益的代码另一方面,解码装置(解码器)备有与编码装置相同的矢量码本、预测系数存储单元以及解码矢量存储单元,根据编码装置传送来的增益的代码,借助于编码装置中比较单元的编码矢量生成功能和解码矢量存储单元的更新功能进行解码。
这里对预测系数存储单元2505存储的预测系数的设定方法加以说明。
首先对许多学习用的声音数据进行量化,收集从其最佳增益求出的输入矢量和量化时的解码矢量编成组,然后通过使下面的式(45)所示的总失真最小,对该组求预测系数。具体地说,以各Upi、Uri对总失真式进行偏微分,解所得到的联立方程,从而求出Upi、Uri的值。
Total=Σt=0T{Wp×(Pt-Σi=0lUpi×pt,i)2+]]>Wr×(Rt-Σi=0lUri×rt,i)2}]]>pt,O=Cprp,O=Crn……(45)Total总失真t时间(帧编号)T矢量组的数据数目(Pt,Rt)时间t中的最佳增益(pti,rt,i)时间t中的解码矢量Upi、Vpi、Uri、Vri预测系数(固定值)i表示前面第几个解码矢量的标号l预测次数(Cpn(t),Crn(r)时间t中的代码矢量Wp,Wr调节对失真的灵敏度的权重系数(固定)采取这样的矢量量化方法,可以把最佳增益原样矢量量化,能借助于参数变换单元的特征,利用功率与各增益的相对大小的相关性,因而可实现借助于解码矢量存储单元、预测系数存储单元、目标提取单元及距离计算单元的特征,利用功率与2个增益的相对关系间的相关性的增益预测编码,并且借助于这些特征,可以充分利用参数之间的相关性。
实施形态17图26是表示本实施形态的声音编码装置的参数编码单元的功能的方框图。在本实施形态中,一边根据与声源的标号对应的两个合成话音和听觉加权输入声音估算增益量化引起的失真,一边进行矢量量化。
如图26所示,该参数编码单元具备根据输入的听觉输入声音、听觉加权LPC合成自适应声源、作为听觉加权LPC合成噪声声源2601的输入数据、解码矢量存储单元存储的解码矢量,以及预测系数存储单元储存的预测系数计算进行距离计算所需的参数的参数计算单元2602、存储过去解码的代码矢量的解码矢量存储单元2603、存储预测系数的预测系数存储单元2604、使用存储于预测系数存储单元的预测系数,计算以矢量码本中存储的多个代码矢量解码时的编码失真的距离计算单元2605、存储多个代码矢量的矢量码本2606,以及控制矢量码本和距离计算单元,根据从距离计算单元得到的编码失真的比较,求出最佳代码矢量的编号,并根据求得的编号取出矢量存储单元所存的代码矢量,用该代码矢量更新解码矢量存储单元的内容的比较单元2607。
下面对具有如上所述结构的参数编码单元的矢量量化动作加以说明。预先生成存储多个量化对象矢量的代表性样本(代码矢量)的矢量码本2606。通常是根据LBG算法(IEEE TRANSACTIONS ON COMMUNICATIONS,VOL.COM-28,NO.1,PP84-95,JANUARY 1980)等生成的。又在预测系数存储单元2604预先存储用于进行预测编码的系数。该系数使用与实施形态16中说明的预测系数存储单元2505存储的预测系数相同的系数。又在解码矢量存储单元2603存储表示清音状态的数值作为初始值。
首先,在参数计算单元2602,根据听觉加权输入声音、听觉加权LPC合成自适应声源、听觉加权LPC合成噪声声源2601,以及解码矢量存储单元2603存储的解码矢量、预测系数存储单元2604存储的预测系数,对距离计算所需的参数进行计算。距离算计单元的距离根据下式(46)计算En=Σi=1I(Xi-Gan×Ai-Gsn×Si)2]]>Gan=Orn×e×p(Opn)Gsn=(1-Orn)×e×p(Opn)Opn=Yp+UpO×Cpn+VpO×CrnYp=Σj=1JUpj×pj+Σj=1JVpj×rj]]>Yr=Σj=1JUrj×pj+Σj=1JVrj×rj---(46)]]>Gan,Gsn解码增益(Opn,Orn)解码矢量(Yp,Yr)预测矢量En使用第n号增益代码矢量时的编码失真Xi听觉加权输入声音
Ai听觉加权LPC合成自适应声源Si听觉加权LPC合成随机声源n代码矢量的编号i声源数据标号I子帧长度(输入声音的编码单位)(Cpn,Crn)代码矢量(pj,rk)过去的解码矢量Upj,Vpj,Urj,Vrj预测系数(固定值)j表示前面第几个解码矢量的标号J预测次数因而,在参数计算单元2602对与代码矢量的编号无关的部分进行计算。预先计算的是上述预测矢量和3个合成话音之间的相关性及功率。计算式示于式(47)Yp=Σj=1JUpj×pj+Σj=1JVpj×rj]]>Yr=Σj=1JUrj×pj+Σj=1JVrj×rj]]>Dxx=Σi=0IXi×Xi]]>Dxa=Σi=0IXi×Ai×2]]>Dxs=Σi=0IXi×Si×2]]>Daa=Σi=0IAi×Ai]]>Das=Σi=0IAi×Si×2]]>Dss=Σi=0ISi×Si---(47)]]>(Yp,Yr)预测矢量Dxx,Dxa,Dxs,Daa,Das,Dss合成话音间的相关值、功率Xi听觉加权输入声音Ai听觉加权LPC合成自适应声源Si听觉加权LPC合成随机声源
i声源数据标号I子帧长度(输入声音的编码单位)(pj,rj)过去的解码矢量Upj,Vpj,Urj,Vrj预测系数(固定值)j表示前面第几个解码矢量的标号J预测次数接着,在距离计算单元2605,根据参数运算单元2602计算的各参数、预测系数存储单元2604存储的预测系数、矢量码本2606存储的代码矢量算出编码失真。计算式示于式(48)En=Dxx+(Gan)2×Daa+(Gsn)2×Dss-Gan×Dxa-Gsn×Dxs+Gan×Gsn×DasGan=Orn×exp(Opn)Gsn=(1-Orn)×exp(Opn)Opn=Yp+UpO×Cpn+VpO×Crnorn=Yr+UrO×Cpn+Vr0×Crn (48)En使用第n号增益代码矢量时的编号失真Dxx,Dxa,Dxs,Daa,Das,Dss合成话音间的相关值、功率Gan,Gsn解码增益(Opn,Orn)解码矢量(Yp,Yr)预测矢量UpO,VpO,UrO,VrO预测系数(固定值)(Cpn,Crn)代码矢量n代码矢量的编号还有,实际上Dxx与代码矢量的编号n无关,因此可以省略其加法运算。
接着,比较单元2607对矢量码本2606和距离运算单元2605进行控制,在矢量码本2606存储的多个代码矢量中,求距离运算单元2605计算出的距离达到最小的代码矢量的编号,以此作为增益的代码2608。又以得到的增益代码2608为基础求解码矢量,用它来更新解码矢量存储单元2603的内容。解码矢量根据式(43)求得。
又,使用更新方法式(44)。
另一方面,声音解码装置预先备有与声音编码装置相同的矢量码本、预测系数存储单元、解码矢量存储单元,根据从编码器传送来的增益代码,利用编码器比较单元生成解码矢量的功能和解码矢量存储单元的更新功能进行解码。
采用具有这样的结构的实施例形态,可以一边根据与声源的标号对应的两种合成话音和输入声音估算增益量化引起的失真,一边进行矢量量化,借助于参数变换单元的特征,利用功率与各增益的相对大小的相关性,因而能实现借助于解码矢量存储单元、预测系数存储单元、目标提取单元、距离计算单元的特征,利用功率与2个增益的相对关系之间的相关性的增益预测编码,以此可以充分利用参数之间的相关性。
实施形态18图27是本实施形态的降噪装置的主要功能方框图。该降噪装置装备于上述声音编码装置。例如,在图13所示的声音编码装置中设置在缓冲器1301的前级。
图27所示的降噪装置具备A/D变换器272、降噪系数存储单元273、降噪系数调整单元274、输入波形设定单元275、LPC分析单元276、傅利叶变换单元277、降噪/频谱补偿单元278、频谱稳定单元279、反傅利叶变换单元280、频谱增强单元281、波形匹配单元282、噪声推定单元284、噪声频谱存储单元285、前频谱存储单元286、随机相位存储单元287、前波形存储单元288、最大功率存储单元289。
首先对初始设定加以说明。表10表示固定参数的名称和设定例。
表10


又,随机相位存储单元287预先存储用于调整相位的相位数据。这些数据在频谱稳定化单元279用于使相位转动。相位数据有8种的例子示于表11。
表11

以使用上述相位数据为目的的计数器(随机相位计数器)也在随机相位存储单元287存储着。该数值预先初始化为0存储着。
接着,设定静态的RAM区域。亦即对降噪系数存储单元273、噪声频谱存储单元285、前频谱存储单元286、前波形存储单元288、最大功率存储单元289清零。下面叙述对各存储单元的说明和设定例。
降噪系数存储单元273是存储降噪系数的区域,作为初始值存储着20.0。噪声频谱存储单元285是对各频率存储表示平均噪声功率、平均噪声频率,以及1级候补的补偿用噪声频谱与2级候补的补偿用噪声频谱各自的频谱值在几帧以前有过变化的帧数(持续数)的区域,而且作为初始值对平均噪声功率存储足够大的值,对平均噪声频谱存储指定的最小功率,对补偿用噪声频谱和持续数分别存储足够大的数。
前频谱存储单元286是存储补偿用噪声功率、以前的帧的功率(全频带、中频带)(前帧功率)、以前的帧的平滑功率(全频带、中频带)(前帧平滑功率),以及噪声持续数的区域,作为补偿用噪声功率,存储足够大的值,作为前帧功率、全帧平滑功率都存储0.0,而作为噪声持续数存储噪声基准持续数。
前波形存储单元288是存储用于使输出信号匹配的先前帧输出信号末尾首读数据长度份额的数据的区域,作为初始值全部存储0。频谱增强单元281进行ARMA及高频增强滤波,而且将以此为目的的各滤波器的状态都清0。最大功率存储单元289是存储输入的信号的功率的最大值的区域,作为最大功率存储0。
下面用图27在每个方框图中对降噪算法加以说明。
首先,用A/D变换器272对含有声音的模拟输入信号进行A/D变换,输入1帧长度+首读数据长度(上述设定例中为160+80=240点)份额。降噪系数调节单元274根据降噪系数存储单元273存储的降噪系数、指定降噪系数、降噪系数学习系数及补偿功率上升系数,利用式(49)计算出降噪系数及补偿系数。然后,将得到的降噪系数存储于降噪系数存储单元273,同时将A/D变换器272得到的输入信号传送到输入波形设定单元275,再将补偿系数与降噪系数传送到噪声推定单元284与降噪频谱补偿单元278。
q=q*C+Q*(1-C)r=Q/q*D ……(49)q降噪系数Q指定的降噪系数C降噪系数学习系数r补偿系数D补偿功率上升系数还有,降噪系数是表示噪声降低的比例的系数,指定降噪系数是指预先指定的固定降噪系数、降噪系数学习系数是表示降噪系数接近指定降噪系数的比例的系数,补偿系数是调节频谱补偿的补偿功率的系数,补偿功率上升系数是调节补偿系数的系数。
在输入波形设定单元275,为了能够进行FFT(快速傅利叶变换),将来自A/D变换器272的输入信号从后面开始写入具有2的乘方的长度的存储器阵列。前面的部分填上0。在上述设定例中,在长度为256的阵列中0~15写入0,16~255写入输入信号。这一数组在进行8阶快速傅利叶变换(FFT)时用作实数部分。又,虚数部分准备与实数部分相同长度的阵列,全部写着0。
在LPC分析单元276,对输入波形设定单元275设定的实数区域加上汉明窗,并对加汉明窗后的波形进行自相关分析,求自相关函数,进行基于自相关法的LPC分析,得到线性预测系数。再把得到的线性预测系数传送到频谱增强单元281。
傅利叶变换单元277有在输入波形设定单元275得到的实数部分、虚数部分的存储器阵列进行采用高速傅利叶变换的离散傅利叶变换。计算得到的复数频谱的实数部分与虚数部分的绝对值之和,以此求输入信号的模拟振幅频谱(下称输入频谱)。又求出各频率的输入频谱值的总和(下称输入功率),传送到噪声推定单元284。又将复数频谱本身传送到频谱稳定单元279。
下面对噪声推定单元284的处理加以说明。
噪声推定单元284将傅利叶变换单元277得到的输入功率与最大功率存储单元289存储的最大功率数值加以比较,在最大功率较小的情况下,以输入功率数值作为最大功率数值,将该数值存储于最大功率存储单元289,然后,在符合下面三个条件中的至少一个时进行噪声推定,在完全不满足时不进行噪声推定。
(1)输入功率比最大功率乘以无声检测系数的积小。
(2)降噪系数比指定降噪系数加0.2的和大。
(3)输入比从噪声频谱存储单元285得到的平均噪声功率乘以1.6的积小。
这里地噪声推定单元284的噪声推定算法加以叙述。
首先,对噪声频谱存储单元285存储的1级候补、2级候补的全部频率的持续数进行更新(加1)。然后,调查1级候补的各频率的持续数,在比预先设定的噪声频谱基准持续数大时,以2级候补的补偿用频谱与持续数作为1级候补,以2级候补的补偿用频谱作为3级候补的补偿用频谱,取持续数为0。但是,在调换该2级候补的补偿用频谱时不存储3级候补,而以2级候补经若干放大代用,以此可以节省存储器。在本实施形态中,以2级候补的补偿用频谱放大1.4倍代用。
在持续数更新后,对各频率进行补偿用噪声频谱与输入频谱的比较。首先,将各频率的输入频谱与1级候补的补偿用噪声频谱用比较,如果输入频谱较小,就取1级候补的补偿用噪声频谱与持续数为2级候补,以输入频谱作为1级候补的补偿用频谱,并将1级候补的持续数取0。在上述条件以外的情况下,进行输入频谱与2级候补的补偿用噪声谱的比较,如果是输入频谱较小,取输入频谱为2级候补的补偿用频谱,并将2级候补的持续数取0。然后,将得到的1、2级候补的补偿用频率与持续数存储于补偿用噪声频谱存储单元285。同时,对平均噪声频谱也按照下面的式(50)进行更新。
si=si*g+Si*(1-g) ……(50)s平均噪声频谱S输入频谱g0.9(输入功率比平均噪声功率的一半大的情况下)0.5(输入功率比平均噪声功率的一半小的情况下)i频率编号还有,平均噪声频谱是用模拟的方式求得的平均噪声频谱,式(50)中的系数g是调节平均噪声频谱学习的快慢的系数。亦即,是具有在输入功率与噪声功率相比较小的情况下,判断为是只有噪声的区间的可能性大,提高学习速度,在并非较小的情况下判断为有可能是在声音区间中,降低学习速度的效果的系数。
然后,求平均噪声频谱各频率值的总和,以此作为平均噪声功率。补偿用噪声谱、平均噪声谱、平均噪声功率存储于噪声频谱存储单元285。
又,在上述噪声推定处理中,如果使1个频率的噪声频谱与多个频率的输入频谱对应,则可以节省构成噪声频谱存储单元285用的RAM容量。下面举出使用本实施形态的256点的FFT的情况下,根据4个频率的输入频谱推定1个频率的噪声频谱时的、噪声频谱存储单元285的RAM容量为例。考虑(模拟)振幅频谱以频率轴左右对称,在所有频率进行推定的情况下,由于存储128个频率的频谱和持续数,需要128(频率)×2(频谱与持续数)×3(补偿用的1、2级候补、平均),即共计768W的RAM容量。
与此相反,在使1个频率的噪声频谱与4个频率的输入频谱对应的情况下,需要32(频率)×2(频谱与持续数)×3(补偿用的1、2级候补、平均),即共计192W的RAM容量即可。实验证实,虽然在这种情况下,噪声频谱频率的分辨率降低,但是在上述1对4的情况下性能几乎没有变坏。而且由于这一做法不是以1个频率的频谱推定噪声频谱,在稳态声(正弦波、元音等)长时间持续的情况下,也有防止把这种频谱错误推定为噪声频谱的效果。
下面对降噪/频谱补偿单元278进行的处理加以说明。
从输入的频谱中减去噪声频谱存储单元285存储的平均噪声频谱与降噪系数调节单元274得到的降噪系数的乘积(以下称差频谱)。在节约上述噪声推定单元284的说明中所示的、噪声频谱存储单元285的RAM容量的情况下,减去与输入频谱对应的频率的平均噪声频谱与降噪系数的乘积。然后,在差额谱为负的情况下,将噪声频谱存储单元285存储的补偿用噪声频谱的1级候补与降噪系数调节单元274求出的补偿系数的乘积代入以进行补偿。这一点对所有频率进行。又,对每一频率生成标志数据,以便判明补偿差频谱的频率。例如,每一频率有一个区域,在不补偿时代入0,在补偿时代入1。这一标志数据与差频谱一起被送到频谱稳定单元279。又,调查标志数据的值以求出补偿的总数(补偿数),也将其送往频谱稳定单元279。
接着,对频谱稳定单元279的处理加以说明。这一处理主要是为了起减小对不含声音的区间的异常感觉的作用。
首先,计算降噪/频谱补偿单元278得到的各频率的差频谱之和求当前帧的功率。当前帧功率求全频带与中频带两种。全频带是对全部频率(所谓全频带,在本实施形态是0~128)求得的,中频带是对听觉重要的中间附近的频带(所谓中频带,在本实施形态是16~79)求得的。
同样,求关于噪声频谱存储单元285存储的补偿用噪声频谱的1级候补的和,以此作为当前帧噪声功率(全频带、中频带)。在这里,调查降噪/频谱补偿单元278得到的补偿数值,在足够大的情况下,并且又是满足下述3个条件中的至少1个的情况下,判断当前帧是只有噪声的区间,进行频谱的稳定处理。
(1)输入功率比最大功率乘以无声检测系数的积小。
(2)当前帧功率(中频带)比当前帧噪声功率(中频带)乘以5.0的积小。
(3)输入功率比噪声基准功率小。
不进行稳定处理时,前频谱存储单元286存储的噪声持续数为正时减小,又以当前帧噪声功率(全频带、中频带)为前帧功率(全频带、中频带),分别存储于前频谱存储单元286,并进入相位扩散处理。
在这里对频谱稳定处理加以说明。这一处理的目的是实现无声区间(没有声音只有噪声的区间)的频谱的稳定和减小功率。处理有两种,在噪声持续数比噪声基准持续数小的情况下实施处理1,在前者超过后者的情况下实施处理2。下面对两种处理进行说明。
处理1对前频谱存储单元286存储的噪声持续数加1,又将当前帧噪声功率(全这、中频带)当作前帧功率(全频带、中频带),分别存储于前频谱存储单元286,并进入相位调整处理。
处理2参照前频谱存储单元286存储的前帧功率、前帧平滑功率、还有作为固定系数的无声功率降低系数,按照式(51)分别使其变更。
Dd80=Dd80*0.8+A80*0.2*PD80=D80*0.5+Dd80*0.5Dd129=Dd129*0.8+A129*0.2*P (51)D129=D129*0.5+Dd129*0.5Dd80前帧平滑功率(中频带)D80前帧功率(中频带)Dd129前帧平滑功率(全频带)D129前帧功率(全频带)A80当前帧噪声功率(中频带)A129当前帧噪声功率(全频带)接着,使这些功率反映于差频谱中。为此,计算中频带所乘的系数(以下称系数1)与全频带所乘的系数(以下称系数2)等两个系数。首先,以下式(式(52))计算系数1。
r1=D80/A80(A80>0时)1.0 (A80 0时) (52)r1系数1D80前帧功率(中频带)A80当前帧噪声功率(中频带)系数2受系数1的影响,因此,求取的手段有些复杂。其步骤如下。
(1)在前帧平滑功率(全频带)比前帧功率(中频带)小的情况下,或当前帧噪声功率(全频带)比当前帧噪声功率(中频带)小的情况下,转入步骤(2),其他情况下转入步骤(3)。
(2)系数2取0.0,以前帧功率(全频带)作为前帧功率(中频带),转入步骤(6)。
(3)在当前帧噪声功率(全频带)与当前帧噪声功率(中频带)相等时转入步骤(4),在不相等时转入(5)。
(4)系数取1.0,并转入(6)。
(5)利用下述式(53)求系数2,并转入(6)。
r2=(D129-D80)/(A129-A80)(53)r2系数2D129前帧功率(全频带)D80前帧功率(中频带)A129当前帧噪声功率(全频带)A80当前帧噪声功率(中频带)(6)系数2计算处理结束。
利用上述算法得到的系数1、2都把上限箝于1.0,把下限箝于无声功率降低系数。然后,把中频带的频率(本例中为16~79)的差频谱乘以系数1得到的积作为差频谱,再把该差频谱的全频带中去除中频带后的频率(本例中为0~15,80~128)的差频谱乘以系数2得到的积作为差频谱。与此同时,利用下面的式(54)变换前帧功率(全频带、中频带)。
D80=A80*r1D129=D80+(A129-A80)*r2(54)r1系数1r2系数2D80前帧功率(中频带)A80当前帧噪声功率(中频带)D129前帧功率(全频带)A129当前帧噪声功率(全频带)将这样得到的各种功率数据全部存储于前频谱存储单元286,结束处理(2)。
根据上述要领在频谱稳定单元279实现频谱稳定。
下面对相位调整处理加以说明。在已往的频谱相减中,相位原则上不变,但是本实施形态中,在该频率的频谱在削减时得到补偿的情况下,进行随机修改相位的处理。由于这一处理,余下的噪声的随机性加强,因此有在听觉上不大会给人以不良印象的效果。
首先,得到随机相位存储单元287存储的随机相位计数器。然后,参照全部频率的标志数据(表示有否补偿的数据),正在补偿时,利用下面的式(55),使在傅利叶变换单元277得到的复数频谱的相位旋转。
Bs=Si*Rc-Ti*Rc+1Bt=Si*Rc+1+Ti*RcSi=Bs (55)Ti=BtSi、Ti复数频谱、i表示频率的标号R随机相位数据、c随机相位计数器Bs、Bt计算基数寄存器在式(55)中,成对使用两个随机相位数据。因而,每进行一次上述处理,使随机相位计数器增加2,在达到上限(在本实施形态中为16)的情况下取0。还有,随机相位计数器存储于随机相位存储单元287,所得到的复数频谱传送到反傅利叶变换单元280。求出差频谱的总和(以下称差频谱功率),将其传送到频率增强单元281。
反傅利叶变换单元280,根据频谱稳定单元279得到的差频谱的幅和复数频谱的相位,构成新的复数频谱,用FFT进行反傅利叶变换。(把所得到的信号称为第1次输出信号)。然后,将所得到的第1次输出信号传送到频谱增强单元281。
下面对频谱增强单元281的处理加以说明。
首先,参照噪声频谱存储单元285存储的平均噪声功率、频谱稳定单元279得到的差频谱功率、作为常数的噪声基准功率,选择MA增强系数与AR增强系数。选择根据对下述两个条件进行的评价进行。
条件1差频谱功率比噪声频谱存储单元285存储的平均噪声功率乘以0.6得到的积大,并且平均噪声功率比噪声基准功率大。
条件2差频谱功率比平均噪声功率大。
满足条件(1)时,以此作为“浊音区间”,取MA增强系数为MA增强系数1-1,取AR增强系数为AR增强系数1-1,取高频增强系数为高频增强系数1。而在不满足条件(1),而满足条件(2)的情况下,将其当作“清音区间”,取MA增强系数为MA增强系数1-0,取AR增强系数为AR增强系数1-0,取高频增强系数为0。又,在不满足条件(1),又不满足条件(2)的情况下,以此作为“无声区间(只有噪声的区间)”,取MA增强系数为MA增强系数0,取AR增强系数为AR增强系数0,取高频增强系数为高频增强系数0。
然后,使用LPC分析单元276得到的线性预测系数、上述MA增强系数、AR增强系数,根据下述式(56),计算出极点增强滤波器的MA系数与AR系数。
α(ma)i=αi*βiα(ar)i=αi*γi(56)α(ma)iMA系数α(ar)iAR系数αi线性预测系数βMA增强系数γAR增强系数
i编号然后,对在反傅利叶变换单元280得到的第1次输出信号,用上述MA系数与AR系数乘极点增强滤波器。此滤波器的传递函数示于下面的式(57)。
1+α(ma)1×Z-1+α(ma)2×Z-2+Λ+α(ma)j×Z-j1+α(ar)1×Z-1+α(ar)2×Z-2+Λ+α(ar)j×Z-j---(57)]]>α(ma)iMA系数α(ar)iAR系数j次数进而,为了增强高频成分,用上述高频增强系数乘高频增强滤波器。此滤波器的传递函数示于下述式(58)。
1-δZ-1……(58)δ为高频增强系数上述处理得到的信号称为第2次输出信号。还有,滤波器的状态保持于频谱增强单元281的内部。
最后,在波形匹配单元282,利用三角窗使频谱增强单元281得到的第2次输出信号和前波形存储单元288存储的信号重迭,得到输出信号。还把该输出信号的末尾首读数据长度份额的数据存储于前波形存储单元288。这时的匹配方法示于下面的式(59)。
Oj=(j×Dj+(L-j)×Zj)/L (j=0~L-1)Oj=Dj(j=L~L+M-1)Zj=OM+1(j=0~L-1)(59)Oj输出信号Dj第2次输出信号Zj输出信号L首读数据长度M帧长度这里需要注意的是,作为输出信号,输出首读数据长度+帧长度份额的数据,但是,其中能够作为信号处理的只有从数据的始端起,长度等于帧长度的区间。这是因为,后面的首读数据长度的数据在输出下一输出信号时被改写。但是,在输出信号的全部区间内连续性受到补偿,因此能够使用于LPC分析和滤波器分析等频率分析中。
采用这样的实施形态,在声音区间中和声音区间外都能够进行噪声频谱推定,即使是在搞不清楚声音在哪一个时间存在于全部数据的情况下,也能够推定噪声频谱。
此外,可以用线性预测系数增强输入的频谱包络的特征,即使是在噪声电平高的情况下也能防止音质劣化。
还可以从平均和最低两个方向推定噪声的频谱,因而能够进行更恰当的降噪处理。
又,将噪声的平均频谱用于降噪处理,可以在更大程度上削减噪声频谱,还可以另外推定补偿用频谱,以更恰当地进行补偿。
而且,可以使不含声音、只有噪声的区间的频谱平滑,因而能够防止同区间的频谱由于噪声的减小而由极端的频谱变动引起异常感觉。
还可以使补偿的频率成分具有随机性,将不削去而留下的噪声变换成听觉上异常感觉小的噪声。
又,在声音区间,可以实施在听觉上更恰当的加权,在无声音的区间和清辅音区间,可以抑制由听觉加权引起的异常感觉。
工业应用性如上所述,本发明的声源矢量生成装置,声音编码装置和声音解码装置对于声源矢量检索是有用的,适合于提高音质。
权利要求
1.一种激励矢量发生器,包括输入矢量提供系统,该系统能够提供具有至少一个脉冲的输入矢量,每个脉冲具有预定位置和各自的极性;固定波形存储系统,该系统能够存储至少一个固定波形;以及配置系统,该系统能够根据所述至少一个脉冲的位置和极性配置所述至少一个固定波形。
2.如权利要求1所述的激励矢量发生器,其特征在于,所述配置系统根据所述至少一个固定波形在子帧上传播所述输入矢量的能量分布。
3.如权利要求1所述的激励矢量发生器,其特征在于,所述输入矢量由代数编码本提供。
4.如权利要求1所述的激励矢量发生器,其特征在于,所述输入矢量包括一个具有多个非零采样的矢量。
5.如权利要求1所述的激励矢量发生器,其特征在于,还包括多个固定波形。
6.如权利要求5所述的激励矢量发生器,其特征在于,所述配置系统配置对应于每个脉冲的所述多个固定波形中的一个。
7.如权利要求5所述的激励矢量发生器,其特征在于,所述配置系统为每个子帧使用所述多个固定波形中的一个。
8.一种产生用于合成语音生成中的激励矢量的方法,包括提供具有多个脉冲的输入矢量,所述多个脉冲中的每一个脉冲具有预定的位置和预定的极性;提供多个固定波形;根据所述输入矢量的多个脉冲的位置和极性配置所述多个固定波形中的一个固定波形;以及根据所述配置的波形产生激励矢量。
9.如权利要求8所述的方法,其特征在于,所述输入矢量由代数编码本提供。
10.一种激励矢量发生器,包括输入矢量提供系统,该系统能够提供具有至少一个脉冲的输入矢量,所述至少一个脉冲具有预定的位置和预定的极性;固定波形存储系统,该系统存储至少一个固定波形;以及移位系统,该系统根据所述输入矢量的所述至少一个脉冲的预定位置和预定极性移位所述至少一个固定波形。
全文摘要
本发明揭示一种声源矢量生成装置以及声音编码装置和声音解码装置。将以往的CELP型声音编码/解码装置的噪声向量读出单元和噪声码本,分别置换为根据输入振种的值输出不同矢量系列的振荡器和存储多个振种(产生振荡器振荡的“种子”)的振种存储单元。由此,不必将固定矢量原样地存储在固定码本(ROM)中,能大幅度地减小存储器容量。
文档编号G10L19/12GK1845239SQ200610079920
公开日2006年10月11日 申请日期1997年11月6日 优先权日1996年11月7日
发明者安永和敏, 森井利幸, 渡边泰助, 江原宏幸 申请人:松下电器产业株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1