音频编码装置以及音频编码方法

文档序号:2822416阅读:454来源:国知局
专利名称:音频编码装置以及音频编码方法
技术领域
本发明涉及使用于数字通信系统的音频编码装置以及音频编码方法。
背景技术
在移动电话等数字通信系统的领域中,为了能够解决参加者增加的情况,寻求低位速率的音频压缩编码的方法,各研究机关正在继续开发该项研究。
在日本国内,采用作为数字移动电话用标准编码方法的摩托罗拉公司开发的位速率11.2kbps称为VSELP的编码方法,采用相同方式的数字移动电话1994年秋季在日本国内开始发售。
又,NTT移动通信网股份公司开发的位速率5.6kbps的称为PSI-CELP编码方式正在制造中。这些方式中任意一个都是将称为CELP(记载在Code ExitedLinear Prediction:M.R.Schroeder“High Quality Speech at Low Rates Bates”Proc.ICASSP’85pp.937-940)方式改良后的方式。
该CELP方式将音频分离为声源信息以及声道信息,其特点在于,对于声源信息由存放在码本中的多个声源采样的指数进行编码,对于声道信息,采用将LPC(线性预测系数)编码以及在声源信息编码时加入声道信息并与输入音频进行比较的方法(A-b-S:Analysis by synthesis)。
在该CELP方法中,首先对于输入的音频数据(输入音频)进行相关分析以及LPC分析而获得LPC系数,将获得的LPC系数编码并且获得LPC码。并且,将获得LPC码进行解码而获得解码LPC系数。另一方面,输入音频使用采用LPC系数的听觉加权滤波器来进行听觉加权。
对于自调码本与概率性码本存放的的声源采样(分别称为自调代码向量(或者自调声源))、概率代码向量(或者概率声源))各自的代码向量,根据获得解码LPC系数进行滤波并且获得2个合成音。
然后,分析获得的2个合成音与加权听觉后的输入音频的关系,求取2个合成音的最佳的值(最佳增益),根据所求得的最佳增益调整合成音的功率,并将各自的合成音进行加法运算而获得综合合成音。之后,求出所获得的综合合成音与输入音频之间的编码误差。如此,对于全体的声源采样,求得总和合成音与输入音频之间的编码误差,求取编码误差最小时声源采样的指数。
将这样获得增益以及声源采样的指数进行编码,将编码后的增益以及声源采样与LPC码一同传送到传送通道。又,从增益码与声源采样的指数所对应的的2个声源作成实际的声源信号,在将它存放在自调码本中的同时废除以前的声源采样。
又,一般地,对于自调码本以及概率码所进行的声源搜索是以将分析区进行细分后的区间(称为subframe,子帧)来进行。
增益的编码(增益量化)使用声源采样的指数所对应的2个合成音并根据评价增益的量化误差的向量量化(VQ)而进行。
在该算法中,预先作成存放了多个参数向量的代表性采样(代码向量)的向量码本。然后,对于听觉加权的输入音频、将自调声源与概率声源进行听觉加权LPC合成后的音频,使用存放在向量本码中的增益代码向量根据下述1式来计算编码误差。En=Σi=01(Xi-gn×Ai-hn×Si)2]]>式1这里,En使用了n个增益代码向量时的编码误差Xi听觉加权音频Ai听觉加权LPC合成后的自调声源Si听觉加权LPC合成后的概率声源gn代码向量的部分(自调声源侧的增益)hn代码向量的部分(概率声源侧的增益)n代码向量的序号i声源数据的指数I子帧的长度(输入声频的编码单位)其次,通过控制向量码本来比较使用了各代码向量时的误差En,将最小误差的代码向量的序号作为向量的编码。又,求得存放在向量码本中的所有的代码向量中最小误差的代码向量的序号,并且将它作为向量的代码。
参照上述式1可以看到,对于每个n必须要进行较多的计算,而由于可以预先对于i进行求和计算,因此能够以较少量的计算来求得n。
另一方面,在音频解码装置(decoder)中,根据传送来的向量的代码,通过求得代码向量而将编码的数据进行解码并获得代码向量。
又,以上述的算法为基础,进行了基于以往的改良。例如,利用人们声压的听觉特性为对数这一点,取功率的对数并进行量化,使该功率下标准化的2个增益为VQ。该方法是使用日本PDC半速率编码(half rate coding)的标准方式的方法。此外,有利用增益参数的帧间相关进行编码的方法(预测编码)。该方法是使用了ITU-T国际标准G.729的方法。但是,通过这些改良也不能够获得非常好的性能。
至今,人们开发了利用了人们听觉特性以及帧间相互关系的增益信息编码方法,可以进行效率较高的编码。特别地,由于预测量化而大大地提高了性能,而在以往的方法中,作为状态的值使用以往子帧的值并进行预测量化。但是,在作为表示状态而被存放的值中,有时会获取其中最大(小)的值,当将该值使用于下一个子帧时,并不能很好地进行子帧的量化,有时在局部位置上会有杂音。

发明内容
本发明的目的是提供一种利用预测量化而能够进行局部不会产生杂音的音频编码的CELP型音频编码装置以及方法。
本发明的主要内容是在预测量化中当以前子帧中的状态值为极大值或极小值时通过自动地调制预测系数能够防止产生局部的杂音。
附图简述

图1是表示具备本发明的音频编码装置的无线通信装置的构造的框图。
图2是表示本发明实施形态1的音频编码装置的构造的框图。
图3是表示图2所示的音频编码装置的增益运算部分的构造的框图。
图4是表示图2所示的音频编码装置的参数编码部分的框图。
图5是表示本发明实施形态1的音频编码装置中将编码后的音频数据进行解码的音频解码装置构造的框图。
图6用于说明自调码本搜索。
图7是表示本发明实施形态2的音频编码装置构造的框图。
图8用于说明脉冲扩散码本的框图。
图9是表示脉冲扩散码本的详细构造一示例的框图。
图10是表示脉冲扩散码本的详细构造一示例的框图。
图11是表示本发明实施形态3的音频编码装置构造的框图。
图12是表示在本发明实施形态3的音频编码装置中将编码后的音频数据进行解码的音频解码装置构造的框图。
图13A表示在本发明实施形态3的音频编码装置中使用的脉冲扩散码本的一示例。
图13B表示在本发明实施形态3的音频解码装置中使用的脉冲扩散码本一示例。
图14A表示在本发明实施形态3的音频编码中使用的脉冲扩散码本的一示例。
图14B表示在本发明实施形态3的音频解码装置中使用的脉冲扩散码本的一示例。
最佳实施形态以下,参照附图对于本发明的实施形态进行详细的说明。
(实施形态1)图1是表示具备本发明实施形态1~3的音频编码装置的无线通信装置构造的框图。
在该无线通信装置中,发送侧通过麦克风等的音频输入装置11将音频变换为电的模拟信号,并且输出到A/D变换器12。模拟音频信号通过A/D变换器12而变换为数字音频信号并且输出到音频编码部分13。音频编码部分13对于数字音频信号进行音频编码处理并且将编码后的信息输出到调制解调部分14。调整解调部分14将编码后的音频信号进行数字调制并送入到无线发送部分15。在无线发送部分15中,对于调制后的信号进行规定的无线发送处理。该信号通过天线16被发送。又,信息处理器21使用合适的存放在RAM22以及ROM23中的数据进行处理。
另一方面,在无线通信装置的接收侧,由天线16接收的信号在无线接收部分17受到规定的无线接收处理并送到调制解调部分14。在调制解调部分14中,对于接收信号进行解调处理并将解码后的信号输出到音频解码部分18。音频解码部分18对于解调后的信号进行解码处理而获得数字解码音频信号,并且将该数字解码音频信号输出到D/A变换器19。D/A变换器19将由音频解码部分18输出的数字解码音频信号变换为模拟解码音频信号并且输出到扬声器等的音频输出装置20。最后,音频输出装置将电的模拟解码音频信号变换为解码音频而输出。
这里,音频编码部分13以及音频解码部分18使用存放在RAM22以及ROM23中的码本并通过DSP等的信息处理器21进行动作。又,这些动作程序存放在ROM23中。
图2表示本发明实施形态1的CELP型音频编码装置的构造的框图。该音频编码装置包含在图1所示音频编码部分13中。又,图2所示自调的码本103存放在图1所示RAM22中,图2所示概率性码本104存放在图1所示ROM23中。
在图2所示音频编码装置中,在LPC分析部分102中,对于输入的音频数据101进行自相关分析以及LPC分析而获得LPC系数。又,在LPC分析部分102中,将获得的LPC系数编码并获得LPC码。而且在LPC分析部分102将得到的LPC码进行解码并获得解码LPC系数。将输入的音频数据101送到听觉加权部分107,这里采用利用了上述LPC系数的听觉加权滤波器来进行听觉加权。
其次,在声源作成部分105中,取出存放于自调码本103中的音源采样(自调代码向量或自调音源)与存放于概率性码本104中的音源采样(概率性代码向量或概度性音源),将各自的代码向量送到听觉加权LPC合成部分106。而且在听觉加权LPC合成部分106中对于由音源作成部分获得的2个音源,根据由PLC分析部分102获得的解码LPC系数进行滤波,获得2个合成音。
再在听觉加权LPC合成部分106中一并使用采用LPC系数、高频加强滤波器或长期预测系数(通过对输入音频的长期预测分析得到)的听觉加权滤波器,对各合成音进行听觉加权LPC合成。
听觉加权LPC合成部106将2个合成音输出到增益运算部分108。增益运算部分108具有图3所示的构造。在增益运算部分108中,将在听觉加权LPC合成部分106获得的2个合成音以及听觉加权的输入音频送到分析部分1081并且分析2个合成音与输入音频之间的关系,求得2个合成音的最佳值(最佳增益)。将该最佳增益输出到功率调整部分1082。
在功率调整部分1082中,根据求得的最佳增益调整2个合成音的功率。将进行功率调整后的合成音输出到合成部分1083,在合成部分1083进行加法运算并形成综合合成音。该综合合成音被输出到编码误差运算部分1084。在编码误差运算部分1084中,求得获得的综合合成音与输入音频之间的编码误差。
编码误差运算部分1084控制声源作成部分105,使得输出自调码本103以及概率性码本104的所有的音频采样,对于所有的声源采样求出综合合成音与输入间频之间的编码误差,求出编码误差最小时的声源采样的指数。
其次,分析部分1081将声源采样的指数、对应于该指数的2个听觉加权LPC合成的声源以及输入音频发送到参数编码部分109。
在参数编码部分109中,利用将增益码而获得增益码并且将LPC码、声源采样的指数总和起来发送到传送通道。又,从增益码与指数所对应的2个声源作成实际声源的信号,并在将它存放在自调码本103中的同时废除以往的声源采样。又,一般地,对于自调码本与概率码本所对应的声源搜寻是以将分析区间进一步细分而获得区间(称为子帧)来进行的。
这里,对于具有上述构造的音频编码装置的参数编码部分109的增益码的动作进行说明。图4是表示本发明音频编码装置的参数编码部分构造的框图。
在图4中,将听觉加权输入音频(Xi)、听觉加权LPC合成后的自调声源(Ai)以及听觉加权LPC合成后的概率声源(Si)发送到参数计算部分1091。在参数计算部分1091中,算出编码误差计算所必须的参数。在参数计算部分1091计算出的参数被输出到编码误差计算部分1092并且在此计算编码误差。该编码误差被输出到比较部分1093。在比较部分1093中,控制编码误差计算部分1092以及向量码本1094,从获得编码误差中求得最佳的编码(解码向量),根据该编码将从向量码本1094中获得的代码向量输出到解码向量存放部分1096并且更新解码向量存放部分1096。
预测系数存放部分1095存放用于预测编码的预测系数。由于该预测系数是使用于参数计算以及编码误差计算中,故将它输到出参数计算部分1091以及编码误差计算部分1092。解码向量存放部分1096为进行预测编码而存放状态。由于该状态使用于参数计算,故将该状态输出到参数计算部分1091。向量码本1094存放代码向量。
其次,对于本发明的增益码方法的算法进行说明。
首先,作成存放了多个量化对象向量代表性采样(代码向量)的向量码本1094。各个向量由AC增益、SC增益的指数值所对应的值以及SC预测系数的调整系数这3个部分形成。
该调整系数是根据以前子帧的状态来调整预测系数的系数。具体地,当以前的子帧的状态为最大值或者最小值时,设定该调整系数使得它们的影响变小。能够利用由本发明者所提出的使用了多个向量采样的研究算法而求出该调整系数。这里,省略对于学习算法的说明。
例如,使用于音频的次数多的代码向量设定调整系数为较大。即,当相同波形并排时,因先前的子帧状态的可靠性高而使得调整系数较大,可以继续利用先前的子帧预测系数。由此,能够进行更有效的预测。
另一方面,对于使用于语音首部等的使用频率较小的代码向量使得调整系数较小。即,当与前次波形完全不相同时,因先前的子帧的状态可靠性低(考虑自调码本没有起作用),则使得调整系数变小,减小先前子帧的预测系数的影响。由此,能够防止下次预测的失败并且能够实现良好的预测编码。
如此,通过根据各代码向量(状态)来控制预测系数,则能够进一步提高预测编码的性能。
又,在预测系数存放部分1095中,预先存放了用于进行预测编码的预测系数。该预测系数为MA(moving average,移动平均数)的预测系数并且按预测次数存放AC与SC的2个种类。又,一般地通过预先使用了大量数据的研究求得这些数据。又,在解码向量存放部分1096中,作为初值预先存放了表示无声状态的值。
其次,对于编码方法进行详细地说明。首先,向参数计算部分1091送入听觉加权输入音频(Xi)、听觉加权LPC合成后的自调音源(Ai)、听觉加权LPC合成后的概率音源(Si),并且送入存放在解码的向量存放部分1096中的解码向量(AC、SC、调整系数)、存放在预测系数存放部分1095中的预测系数(AC、SC)。使用这些数据计算出编码误差计算所必要的参数。
编码误差计算部分1092的编码误差计算按照下式2进行。
En=Σi=01(Xi-Gan×Ai-Gsn×Si)2]]>式2这里,Gan,Gsn解码增益En使用n个增益代码向量时的编码误差Xi听觉加权音频Ai听觉加权LPC合成后的自调声源Si听觉加权LPC合成后的概率声源n代码向量的序号i音源向量的指数I子帧的长度(输入音频的编码单位)
此时,由于运算量较少,在参数计算部分1091中,进行不依赖于代码向量部分的计算。计算好的数据是上述预测向量与3个合成音的(Xi,Ai,Si)间的相关值、功率。该计算按照下述式3进行。Dxx=Σi=0IXi×Xi]]>Dxa=Σi=0IXi×Ai×2]]>Dxs=Σi=0IXi×Si×2]]>Daa=Σi=0IAi×Ai]]>Das=Σi=0IAi×Si×2]]>Dss=Σi=0ISi×Si]]>式3Dxx,Dxa,Dxs,Daa,Das,Dss合成音之间的相关值、功率Xi听觉加权音频Ai听觉加权LPC合成后的自调声源Si听觉加权LPC合成后的概率声源n代码向量的序号i声源向量的指数I子帧的长度(输入音频的编码单位)又,在参数计算部分1091中,使用存放在解码向量存放部分1096中的以前的代码向量、存放在预测系数存放部分1095中的预测系数而预先进行下述式4所示的3个预测值的计算。Pra=Σm=0Mam×Sam]]>Prs=Σm=0Mβm×Scm×Ssm]]>Psc=Σm=0Mβm×Scm]]>式4这里,Pra预测值(AC增益)Prs预测值(SC增益)Psc预测值(预测系数)
αm预测系数(AC增益、固定值)βm预测系数(SC增益、固定值)Sam状态(以前的代码向量部分、AC增益)Ssm状态(以前的代码向量部分、SC增益)Scm状态(以前的代码向量部分、SC预测系数调整系数)m预测指数M预测次数从上述4式可知,对于Prs、Psc,乘以与以往不同的调整系数。因此,对于SC增益的预测值以及预测系数,根据调整系数,当先前的子帧的状态值为最大或最小时,能够减缓它们(减小影响)。即,根据状态,能够合适地改变SC增益的预测值以及预测系数。
其次,在编码误差运算部分1092中,使用参数计算部分1091所计算的参数、预测系数存放部分1095中存放的预测系数、向量码本1094中存放的代码向量,根据下述式5计算出编码误差。
En=Dxx+(Gan)2×Daa+(Gsn)2×Dss-Gan×Dxa-Gsn×Dxs+Gan×Gsn×DasGan=Pra+(1-Pac)×CanGsn=10^{Prs+(1-Psc)×Csn}式5这里En使用n号的增益代码向量时的编码误差Dxx,Dxa,Dxs,Daa,Das,Dss合成音间的相关值、功率Gan,Gsn解码增益Pra预测值(AC增益)Prs预测值(SC增益)Pac预测系数的和(固定值)Psc预测系数的和(按上述式4算出)Can,Csn,Ccn代码向量、Ccn预测系数调整系数而这里不使用n;代码向量的序号又,由于实际上Dxx不依赖于代码向量的序号n,能够省略它的加法运算。
其次,比较部分1093控制向量码本1094与编码误差计算部分1092,在存放在向量码本1094中的多个代码向量中,求出利用编码误差计算部分1092计算出的编码误差的最小的代码向量的序号,将它作为增益的代码。又,使用获得增益的代码来更新解码向量存放部分1096的内容。根据下述6式进行更新。
Sam=Sam-1(M=M~1),SaO=CaJSsm=Ssm-1(M=M~1),SsO=CsJScm=Scm-1(M=M~1),ScO=CcJ式6这里,Sam,Ssm,Scm状态向量(AC、SC、预测系数调整系数)m预测指数M预测次数J在比较部分求出的编码从式4到式6可知,在本实施形态中,在解码向量存放部分1096中预先存放状态向量Scm,使用该预测系数调整系数来合适地控制预测系数。
图5是表示本发明实施形态的音频解码装置的构造的框图。该音频解码装置包含在图1所示的音频解码部分18中。又,图5所示的自调码本202存放在图1所示的RAM22中,图5所示的概率码本203存放在图1所示的ROM23中。
在图5所示的音频解码装置中,参数解码部分201在获得编码音频信号的同时从传送通道获得各音源码本(自调码本202、概率性码本203)的音源采样的代码、LPC代码以及增益代码。然后,从LPC码中获得解码后的LPC系数,从增益码中获得解码增益。
然后,音源作成部分204对各自的音源采样乘上解码后的增益并且进行加法运算,由此获得解码后的音源信号。此时,将获得的解码后的音源信号作为音源采样存放在自调码本204中,同时废除旧的音源采样。这样,在LPC合成部分205中,对于解码后的音源信号进行根据解码后的LPC系数的滤波,由此获得合成音。
又,2个音源码本与图2所示的音频编码装置中所含有的码本(图2的参照符号103,104)是相同的,用于取出音源采样的采样序号(输入自调码本的代码以及概率性码本的代码)都是由参数解码部分201提供的。
如此,在本实施形态的音频编码装置中,根据各代码向量能够控制预测系数,能够根据音频局部的特征进行合适有效的预测并且能够防止非稳态部位预测的失败,能够获得前所未有的良好效果。
(实施形态2)在音频编码装置中,如上所述,在增益运算部分中,对于从音源作成部分获得自调码本、概率码本的所有音源进行合成音与输入音频之间的比较。此时,在运算量上,通常开环搜索2个音源(自调码本与概率性码本)。以下,参照图2进行说明。
在该开环搜寻中,首先,声源作成部分105仅从自调码本103中一个接一个地选出候补音源,使得听觉加权LPC合成部分106进行工作而获得合成音并且送入增益运算部分算108,比较合成音与输入音频并选择最佳的自调码本103的代码。
其次,固定上述自调码本103的代码,从自调码本103选择相同的音源,从概率性码本104中一个接一个地选择运算部分108的代码所对应的声源并且传送到听觉加权LPC合成部分106。在增益运算部分108中,比较两合成音的和与输入音频,决定概率性码本104的代码。
当运用该算法时,分别地搜索所有的码本的代码,由此会引起个别代码性能的劣化,而大幅度地消减地计算量。因此,一般使用这种开环搜索。
这里,对于以往开环的音源搜索中代表性的算法进行说明。这里,对于1个分析区间(帧),由2个子帧构成时的音源搜索的顺序进行说明。
首先,接受增益运算部分108的指示,音源作成部分105从自调码本103中引出音源并且送听觉加权LPC合成部分106。在增益运算部分108中,反复进行合成的音源与第1子帧的输入音频之间的比较并且求得最佳代码。这里,表示自调码本的特征。自调码本是以往使用于合成中的音源。这样,代码对应于图6所示的时间滞后。
其次,当决定了自调码本103的代码之后,进行概率性码本的搜索。音源作成部分105取出通过搜索自调码本103而获得的编码的音源以及由增益运算部分108所指定的概率性码本104的音源并且送到听觉加权LPC合成部分106。然后,在增益运算部分108中,计算出听觉加权后的合成音与听觉加权后的输入音频之间的编码误差,决定最适当的(二乘误差为最小的)概率音源104的代码。以下表示一个分析区间(子帧为2时)中的音源代码的搜索顺序。
1)决定第1子帧的自调码本的代码2)决定第1子帧的概率性码本的代码3)在参数编码部分109中将增益代码,利用解码的增益作成第1子帧的音源并且更新自调码本103。
4)决定第2子帧的自调码本的代码5)决定第2子帧的概率码本的代码
6)在参数编码部分109中将增益码并且利用解码的增益作成第2子帧的音源并且更新自调码本103。
根据上述的算法,能够进行更有效的音源编码。但是,最近,还希望更低的位速率并且使得音源的位数更少。特别注目的是利用与自调码本的滞后非常相关的这一点,该算法是保持第1子帧的代码不变,压缩第2子帧的搜索范围接近第1子帧的滞后(减少输入端)并且使得位数变少。
在该算法中,考虑到了当分析区间(帧)的途中音频发生变化的情况以及2个子帧大小不同的情况时局部地区会引起劣化的情况。
在本实施形态中提供了一种实现搜索方法的音频编码装置,该搜索方法是在编码前对于2个子帧双方进行间距分析算出相关值,根据获得相关值决定2个子帧的滞后的搜索范围。
具体地,本实施形态的音频编码装置是将1帧分解成多个子帧并且分别将它们编码的CELP型编码装置,其特点在于,它具备在最初的子帧的自调码本搜索之前对构成一帧的多个子帧进行间距分析并且算出相关值的间距分析部分、在上述间距分析部分算出构成一帧的多个子帧的相关值的同时从其相关值的大小求出各子帧中最小间距周期值(称为代表间距)并且根据间距分析部分获得相关值与代表间距来决定多个子帧滞后的搜索范围的搜索范围设定部分。并且,对于该音频编码装置,在搜索范围设定部分中,利用由间距分析部分获得多个子帧的代表间距与相关值而求得作为搜索范围中心假设的间距(称为假设音调),在搜索范围设定部分,在求得的假设音调的周围指定范围中设定滞后的搜索区间并且在设定滞后的搜索区间时设定向假设音调前后的搜索范围。此时,滞后较短部分的候补较少,设定滞后为更长的范围并且在自调码本搜索时在由上述搜索范围设定部分设定的范围中进行滞后的搜索。
以下,对于本实施形态的音频编码装置参照附图进行详细地说明。这里,将1帧分为2个子帧。即使分割为3帧以上的情况下,也能够按照相同的顺序进行编码。
在该音频编码装置中,即在根据Δ滞后方式的间距搜索中,对于分割后的子帧求出所有的间距,并且求出各间距间存在多大程度的相关,根据该相关结果决定搜索范围。
图7表示本发明实施形态2的音频编码装置的构造的框图。首先,在LPC分析部分302中,对于输入的音频数据(输入音频)301进行自相关分析与LPC分析,由此获得LPC系数。又,在LPC分析部分302中,将获得LPC系数编码并且获得LPC代码。而且,在LPC分析部分302中,将获得LPC代码解码并求得解码LPC系数。
其次,在间距分析部分310中,进行2个子帧份额的输入音频的间距分析,求得间距候补以及参数。1个子帧所对应的算法如下所示。根据下述式7可以求得2个相关系数。又,此时对于Cpp首先求得Pmin,对于后面的Pmin+1、Pmin+2能够利用帧端部的值来有效地进行计算。Vp=Σi=0LXi×Xi-P(P=Pmin-Pmax)]]>Cpp=Σi=0LXi-P×Xi-P(P=Pmin-Pmax)]]>式7这里,Xi,Xi-p输入音频Vp自相关函数Cpp功率成分i输入音频的采样序号L子帧的长度P间距Pmin,Pmax进行间距搜索的最小值与最大值这样,由上述式7求得的自相关函数与功率成分存储在存储器中,接着求出代表间距P1。这是求得使得Vp为正并且Vp×Vp/Cpp为最大的间距P的处理。然而,由于除法计算一般需要较大的计算量,要存放分子与分母两者,将它变换为乘法则能够提高效率。
这里,寻找输入音频与从输入音频起经过间距的自调音源的差分的平方和为最小的间距。该处理与求出使得Vp×Vp/Cpp为最大的间距P的处理等价。具体的处理如以下所示。
1)初始化(P=Pmin、VV=C=0、P1=Pmin)2)若(Vp×Vp×C<VV×Cpp)或者(Vp<0),则转向4)。否则,转向3)。
3)VV=Vp×Vp、C=Cpp、P1=P转向4)4)P=P+1。此时,若P>Pmax则结束,否则转向2)。
对于2个子帧分别进行上述工作,求出代表间距P1、P2以及相关系数V1p、V2p、功率成分C1pp、C2pp(Pmin<P<Pmax)。
接着,在搜索范围设定部分311中设定自调码本的滞后的搜索范围。首先,求得作为该搜索范围的轴的间距。假设音调使用由间距分析部分310所求得的代表间距与参数。
按照下以下顺序求出假设音调Q1、Q2。又,在以下的说明中,作为滞后的范围使用常数Th(具体地相当于6的程度)。又,相关值采用由上述式7求得的值。
首先,在固定了P1的状态下P1的附近(±Th)寻找相关的最大假设音调(Q2)。
1)初始化(p=P1-Th、Cmax=0、Q1=P1、Q2=P1)2)若(V1p1×V1p1/C1p1p1+V2p×V2p/C2pp<Cmax)或者(V2p<0),则转向4)。否则,转向3)。
3)Cmax=V1p1×V1p1/C1p1p11+V2p×V2p/C2pp、Q2=p转向4)4)P=P+1转向2)。但是,若此时p>P1+Th则转向5。
如此,进行2)~4)的处理直到P1-Th~P1+Th,求得相关的最大的Cmax与假设音调Q2。
其次,在固定了P2的状态下,在P2的附近(±Th)求得最大的假设音调(Q1)。此时,Cmax不需要进行初始化。包含求得Q2时的Cmax并且求得相关为最大的Q1,由此,能够求得在第1,第2子帧之间带有最大的相关的Q1,Q2。
5)初始化(p=P2-Th)6)若(V1p×V1p/C1pp+V2p2×V2p2/C2p2p2<Cmax)或者(V1p<0),则转向8)。否则,转向7)。
7)Cmax=V1p×V1p/C1pp+V2p2×V2p2/C2p2p2、Q1=p、Q2=P2转向8)8)P=P+1转向6)。但是,此时,若p>P2+Th转向9)。
9)结束。
如此,进行6)~8)的处理直到P2-Th~P2+Th,求得相关的最大值的Cmax与假设音调Q1、Q2。此时的Q1、Q2是第1子帧与第2子帧的假设音调。
根据上述的算法,同时地评价2个子帧的相关并且能够选择2个大小上没有较大相差(相差最大为Th)的假设音调。通过利用该假设音调,在搜索第2子帧的自调码本时,即使设定搜索范围较窄,也能够防止编码性能较大的劣化。例如,当从第2子帧起音质急剧发生变化等的情况下,第2子帧的相关较强时通过利用反映第2自在的相关的Q1而能够避免第2子帧的劣化。
而且,搜索范围设定部分311使用求得的假设音调Q1如下述式8设定进行自调码本搜索的范围(L_ST~L_EN)。
第1子帧L_ST=Q1-5(而L_ST<Lmin时L_ST=Lmin)L_EN=L_ST+20(而L_ST>Lmax时L_ST=Lmax)第2子帧L_ST=T1-10(而L_ST<Lmin时L_ST=Lmin)L-EN=L_ST+21(而L_ST>Lmax时L_ST=Lmax)这里,L_ST最小搜索范围L_EN最大搜索范围Lmin滞后的最小值(例20)Lmax滞后的最大值(例143)T1第1子帧的自调码本滞后在上述设定中,不必使得第1子帧的搜索范围很小。然而,本发明者们通过实验确认,将根据输入音频间距的值的附近作为搜索区间性能则更好,在本实施形态中,采用压缩到26个采样进行搜索的算法。
又,第2子帧将第1子帧所求得的滞后T1为中心,设定此附近的搜索范围。然而,总共32个记录下,能够以5个比特将第2子帧的自调码本的滞后进行编码。又,本发明者们通过设定此时滞后小的候补较少而滞后大的候补较大,通过实验确认能够获得更加好的性能。然而,在本实施形态中,为了使得清楚地理解本发明而没有使用假设音调Q2。
这里,对于本实施形态的效果进行说明。在由搜索范围设定部分311获得的第1子帧的假设音调附近还存在第2子帧的假设音调(因由常数Th进行了限制)。又,在第1子帧缩小搜索范围而进行了搜索,则通过搜索结果而能获得滞后并没有从第1子帧的假设音调中分离出来。
因此,在进行第2子帧的搜索时,通过能够搜索第2子帧的假设音调的附近范围,对于第1,第2子帧两者能够搜索适当的滞后。
作为示例,研究第1子帧为无声而从第2子帧器发出声音的情况。在以往的方法中,因缩小搜索范围使得第2子帧的间距不包含在搜索区间之中,则音质会发生较大的劣化。在本实施形态的方法中,在间距分析部分的假设音调分析中,代表间距P2的相关变强。因此,第1子帧的假设音调为P2附近的值。因此,当根据Δ滞后进行搜索时,能够在发出声音的部分使得附近部分为假设音调。即,在搜索第2子帧的自调码本时,能够搜索P2附近的值,即使在当中产生声音也不会发生劣化,能够根据Δ滞后进行第2子帧的自调码本的搜索。
其次,在音源作成部分305中,取出存放在自调码本303中音源采样(自调代码向量或者自调音源)以及存放在概率性码本304中的音源采样(概率代码向量或者概率音源),并且将它们分别送入听觉加权LPC合成部分306。而且,在听觉加权LPC合成部分306中,对于音源作成部分305获得2个音源,按照LPC分析部分302获得解码LPC系数进行滤波并且合成2个合成音。
并且,在增益运算部分308中,分析由听觉加权LPC合成部分306获得2个合成音与输入音频的关系,求出2个合成音的最佳值(最佳增益)。又,在增益运算部分308中,根据该最佳增益将分别调整了功率的合成音进行加法运算而获得总和合成音。然后,增益运算部分308计算该总和合成音与输入音频的编码误差。又,在增益运算部分308中,对于自调码本303与概率性码本304所有的声源采样,计算通过使得声源作成部分305、听觉加权LPC合成部分306作用而获得多个合成音与输入音频之间的编码误差,求得在获得的结果中编码误差最小时的声源采样的指数。
其次,将获得音源采样的指数、该指数所对应的2个声源以及输入音频送入到参数编码部分309。在参数编码部分309中,通过将增益进行编码而获得增益码,将LPC码、声源采样的指数一同送入传送通道。
又,参数编码部分309从增益码与声源采样的指数所对应的2个声源中作成实际的声源信号,在将它存放在自调码本303的同时废除旧的声源采样。
又,在听觉加权LPC合成部分306中,采用使用了LPC系数、高频滤波器以及长期预测系数(通过进行输入音频的长期预测分析而获得)的听觉加权滤波器。
上述增益运算部分308将从声源作成部分305获得自调码本303与概率性码本304所有声源的输入音频之间进行比较,而为了减少计算量,对于2个声源(自调码本303与概率性码本304)利用上述的开环进行搜索。
如此,根据本实施形态的间距搜索方法,在最初的采样的自调码本搜索之前,对于构成帧的多个子帧的间距进行分析而计算出相关值,由此能够同时地把握一帧内的所有子帧的相关值。
这样,在计算出各子帧的相关值的同时,从该相关值的大小中求得子帧中近似间距周期的值(称为代表间距),根据间距分析获得相关值与代表间距,设定多个子帧的滞后的搜索范围。在该搜索范围的设定中,利用间距分析所获得的多个子帧的代表间距与相关值并且求得搜索范围中心相差较小的适当的假设音调(称为假设音调)。
而且,由于在所述搜索范围的设定中所求得的假设音调的前后的指定范围中限定了滞后的搜索区间,则能够进行更加高效的自调码本的搜索。此时,由于使得滞后短的部分的候补较少并且设定滞后为更加长的范围,故能够设定可以获得良好性能的适当的搜索范围。又,在进行自调码本搜索时,在上述搜索范围设定中设定的范围中由于进行滞后的搜索,能够进行可获得良好解码后声音的解码。
如此,根据本实施形态,在由搜索范围设定部分311获得第1子帧的假设音调的附近,也存在第2子帧的假设音调,在第1子帧中,由于缩小了搜索范围,作为搜索结果而获得的滞后没有远离假设音调。因此,在进行第2子帧的搜索时,能够搜索第2子帧的假设音调的附近,即使对于从帧的后半部分发出声音等的不稳定子帧,在第1、第2子帧中也能够进行适当的搜索,能够获得前所未有的良好效果。
(实施形态3)在初期的CELP方式中,将随机数列作为概率性声源向量使用登记了多种类型的概率性码本,即使用直接记录了多个种类型的随机数的概率编码。另一方面,对于在近年的低位速率CELP编码·解码装置,大量开发了概率性码本部分具备代数性码本的装置,该代数性码本生成含有少数振幅为+1或-1的非零部分(非零部分以外的部分振幅为零)的概率性声源向量。
又,代数性码本如“Fast CELP Coding based on Algebraic codes”,J.Adoulet al,Proc.IEEE Int.Conf.Acoustics,Speech,Signal Processing,1987,pp.1957-1960以及“Comparison of some Algebraic Structure for CELP Codingof Speech”,J.Adoul et al,Proc.IEEE Int.Conf.Acoustics,Speech,SignalProcessing,1987,pp.1953-1956等所揭示的。
上述文献所揭示的代数性码本具有下述优点,(1)当适用于位速率为8kb/s程度的CELP方式的情况下,能够生成高质量的合成音,(2)以比较少的运算量能够搜索概率声源码本,(3)不需要直接存放概率性声源向量的数据ROM。
这样,将代数性码本作为概率性码本使用的CS-ACELP(位速率为8kbs/s)以及ACELP(位速率为5.3kb/s)作为G.729、g723.1,分别在1996从ITU-T中被推崇。又,关于CS-ACELP,在“Design and Description of CS-ACELP:A Toll Quality8kb/s Speech coder”,Redwan Salami et al,IEEE trans.SPEECH AND AUDIOPROCESSING,vol.6,no 2,March 1988等中详细揭示了该技术。
代数性码本是具有上述优点的码本。然而,当将代数性码本使用于CELP编码·解码装置的概率性码本中时,由于通常由概率声源的目标仅含有很少几个比零部分概率性声源向量进行编码(向量量化),会产生不能忠实地表现概率声源目标编码的问题。这样,在处理帧相当于无声子音区间以及背景噪音区间等时,这个问题会更加显著。
这是由于通常在无声子音区间以及背景噪音区间概率声源目标形成复杂形状。而且,当对于位速率比8kb/s更低的CELP编码·解码装置采用代数性码本时,由于使得概率性声源向量中的比零部分较少,仅仅因概率声源目标容易形成脉冲状的有声区间,就会发生上述问题。
作为解决具有代数性码本的上述问题的方法,提出一种使用脉冲扩散码本的方法,该脉冲扩散码本使得含有比代数性码本更少非零部分(非零部分以外的部分具有零的值)的向量与称为扩散图形的固定波形重叠而将获得向量作为合成滤波器的驱动声源。脉冲扩散编码如特开平10-232696号公报、“兼用脉冲扩散构造声源的ACELP编码”安永他,电子信息通信学会平成9年度春季全国大会发表予稿集,D-14-11,p.253,1997-03、“使用了脉冲扩散声源的低速率音频编码”安永他,日本音乡学会平成10年秋期研究发表演讲论文集,pp.281-282,1988-10等所揭示的。
这里,接着参照图8以及图9对于上述文献中所揭示的脉冲扩散码本的概要进行说明。又,图9更详细地表示了图8的脉冲扩散码本的一示例。
在图8以及图9的脉冲扩散编码中,代数性码本4011是生成由少数非零部分(振幅为+1或-1)形成的脉冲向量的码本。在上述文献所记载的CELP编码装置·解码装置中,将作为代数性码本4011的输出的脉冲向量(由少数个非零部分构成)原封不动地作为概率声源的向量使用。
在扩散图案存放部分4012中,每一通道存放一种类型以上的称为扩散图案的固定波形。又,对于各通道中存放的上述扩散图案研究每个通道中存放不同形状的扩散图案的情况以及各通道中存放同一形状(共通的)扩散图案的情况。当存放在各通道中的扩散图案为共通时,由于存放了在各通道中存放的扩散图案的情况相当于简化的情况,在本说明书的以下说明中,对于存放在每一通道中的扩散图案形状分别不同的情况,逐步进行说明。
脉冲扩散码本401不将代数性码本4011的输出向量原封不动地作为概率性声源向量而输出,而是将从代数性码本4011输出的向量与从扩散图案存放部分4012读出的扩散图案在脉冲扩散部分4013中按每一通道进行叠加,将经过叠加运算而获得向量进行加法运算,并将由此获得的向量作为概率声源的向量而利用。
又,在上述文献中所揭示的CELP编码·解码装置的特点在于采用由编码装置与解码装置同一构成(代数性码本部分的通道数、扩散图案存放部分所登录的扩散图案的种类数目以及形状等在编码装置侧与解码装置侧是共通的)的脉冲扩散码本。这样,预先登录在扩散图案存放部分4012的扩散图案的形状、种类数、登录了多个种类以上的情况下,通过有效地设定它们的选择方法,由此提高合成声源的品质。
又,这里关于脉冲扩散码本的说明是作为生成由少数非零部分形成的脉冲向量的码本,对于使用了将非零部分的振幅限定于+1或-1的代数性码本的情况进行了说明,而作为生成该脉冲向量的码本,也可能使用没有限定非零部分的振幅的多脉冲码本以及标准脉冲码本,此时,将脉冲向量与扩散图案叠加的部分作为概率性声源向量而利用,由此也能够实现合成音的质量提高。
到此,提出了将多数的概率声源目标的形状进行统计,并且在每一从代数性码本输出的声源向量中的非零部分(通道)预先登录一个以上的种类图案,所述图案是在概率声源目标中统计上高频率所含有的形状的扩散图案、用于有效地表现无声子音区间与噪音区间的随机形状的扩散图案、用于有效地表现有声稳定区间的脉冲的形状的扩散图案、使得具有从代数性码本输出的脉冲向量的能量(非零部分的位置上集中了能量)分散到周围的作用的形状的扩散图案、对于适当准备的数个扩散图案候补将音频信号反复进行编码、解码、合成音的视听评价并且使得输出高质量的合成音而选择的扩散图案、根据声学知识作成的扩散图案等,按照每一通道将已登录的扩散图案与由代数性码本生成的向量(由几个非零部分构成)叠加,将各通道的叠加结果进行加法运算后的结果作为概率性声源向量使用,由此能够有效地提高合成音的质量。
又,特别地,提出了下述的两种方法,对于在每个通道登录了多个种类(2个种类以上)的扩散图案的情况,作为这些多个扩散图案的选择方法,扩散图案存放部分4012对于登录的扩散图案的全部组合实际地进行编码·解码并且闭合地选择该结果生成的编码误差为最小的扩散图案的选择方法以及在进行概率性码本搜索时利用已知的音频信息(这里所谓的音频信息,例如,利用增益码的动态变动信息或者增益值(与预先设定的阈值)的大小关系信息等来进行判定的有声性的强弱信息或者利用线性预测编码的变动来进行判定的有声性的强弱信息等。)开放地选择扩散图案的方法等等。
又,在以下的说明中,为了简化说明,限定于特点在于图9的脉冲扩散码本内的扩散图案存放部分4013每一通道仅登录一种类的扩散图案的图10的脉冲扩散码本来进行说明。
这里,接着与将代数性码本使用于CELP编码装置时的概率性码本搜索处理进行比较而来说明将脉冲扩散码本使用于CELP编码装置时的概率性码本搜索处理。首先,在概率性码本部分使用代数性码本时的码本搜索处理进行说明。
将由代数性码本输出的向量内的非零部分作为N(将代数目标的通道数目作为N)、将仅含有1个每个通道输出的振幅为+1或-1的非零部分的向量(非零部分以外的部分的振幅为0)作为di(i是通道序号O≤i≤N-1)、将子帧长度作为L时,由代数性码本输出的登录序号k的概率性声源向量Ck可由下式9求得。Ck=Σi=0N-1di]]>Ck根据代数性码本的登录序号K的概率性声源向量di非零部分向量(di=±δ(n-pi)而pi非零部分位置)N代数性码本的通道数目(=概率性声源向量中的非零部分数目)式9然后,将式9代入式10,如此可得到下式11。DK=(VtHck)2||Hck||2]]>Vt:v(概率声源目标)的转置向量Ht:H(合成滤波的脉冲响应行列)的转置行列ck登录序号第k个的概率性声源向量式10DK=(VtH(Σi=0N-1di))2||H(Σi=0N-1di)||]]>v概率声源目标向量H合成滤波器的脉冲响应卷积行列di非零部分向量(di=±δ(n-pi)而pi非零部分位置N代数性码本的通道数目(=概率性声源向量的非零部分数目)xt=vtHM=HtH 式11
使得整理该式10所得的式12为最大,特定登录序号k的处理成为概率性码本搜索处理。DK=((Σi=0N-1xtdi))2Σi=0N-1Σj=0N-1ditMdj]]>式12然而,在式12中,xt=vtH、M=HtH(V为概率性音源目标)。这里,对于各登录序号k计算式12的值时,在此前的处理阶段中计算xt=vtH以及M=HtH,并且将该计算结果存储在存储器中。通过进行该前置处理,能够大幅度地削减作为概率性声源向量对每个登录的各候补进行式12计算时的运算量,作为该结果,能够控制概率性码本搜索需要的运算量为较少,而在少数文献等中已有揭示且为一般已知。
下面说明将脉冲扩散码本用于概率性码本时的概率性码本探索处理。
将作为脉冲扩散码本构成一部分由代数性码本输出的非零部分作为N(将代数目标的通道数目作为N)、将仅含有1个每个通道输出的振幅为+1或-1的非零部分的向量(非零部分以外的部分的振幅为0)作为di(i是通道序号O≤i≤N-1)、将扩散图案存放部分存放的通道序号i用扩散图案作为wi、将子帧长度作为L时,由脉冲扩散码本输出的登录序号k的概率性声源向量Ck可由下式13求得。Ck=Σi=0N-1Widi]]>Ck根据脉冲扩散码本的登录序号K的概率性声源向量Wi扩散图案(wi)叠加行列di代数性码本部分输出的非零部分向量(di=±δ(n-pi)而pi非零部分位置)N代数性码本部分的通道数目式13然后,将式13代入式10,如此可得到下式14。DK=(VtH(Σi=0N-1Widi))2||H(Σi=0N-1Widi)||2]]>v概率声源目标向量H合成滤波器的脉冲响应卷积行列Wi扩散图案(wi)叠加行列
di代表码本部分输出的非零部分向量(di=±δ(n-pi)而pi非零部分位置N代数性码本的通道数目(=概率性声源向量的非零部分数目)Hi=HWixt=vtHiR=HiHj式14特定整理该式14所得的式15为最大的概率性声源向量的登录序号k的处理成为使用了脉冲扩散码本时的概率性码本搜索处理。DK=((Σi=0N-1xitdi))2Σi=0N-1Σj=0N-1ditRdj]]>式15然而,在式15中,xt=vtHi(而Hi=Hwi:Wi扩散图案叠加行列)。这里,对于各登录序号k计算式15的值时,在此前的处理中,可以计算Hi=Hwi、xt=vtHi以及R=HitHj并且将该计算结果存储在存储器中。如此,能够使得作为概率性声源向量对每个登录的各候补进行式15计算时的运算量与使用了代数性码本时计算式12时的运算量相同(明显地式12与式15形式相同),即使采用扩散码本的情况下,也能够以较少的运算量来进行概率性码本的搜索。
在上述技术中,表示了将脉冲扩散码本使用于CELP编码装置·解码装置的概率性码本部分的效果以及将脉冲扩散码本使用于概率性码本部分时、以与将代数性码本使用于概率性码本部分时相同的方法进行概率性码本搜索。将代数性码本使用于概率性码本部分时概率性码本搜索所必要的运算量与将脉冲扩散码本使用于概率性码本部分时概率性码本搜索所必要的运算量的差别为式12与式15各自前置处理阶段所必要的运算量的差别,即是前置处理(xt=vtHi、M=HtH)与前置处理(Hi=Hwi、xt=vtHi、R=HitHj)所必要的运算量的差别。
一般地,在CELP编码装置·解码装置中,该位速率越低概率性码本部分能分配到的位数也越少。这样这种倾向在将代数性码本以及脉冲扩散码本使用于概率性码本部分时构成概率性声源向量时非零部分数目也随之减少。因此,CELP编码装置·解码装置的位速率越低,使用代数性码本时与使用脉冲扩散码本时的运算量的相差也越小。但是,当位速率较高时以及即使位速率较低而必须极力控制运算量时,由于使用脉冲扩散码本,有时不能够忽视产生的前置处理阶段运算量的增加。
在本实施形态中,对于在概率性码本部分使用了脉冲扩散码本的CELP方式的音频编码装置、音频解码装置以及音频编码解码系统,在将比代数性码本使用于概率编码部分时增加的、编码搜索处理中前置处理部分的运算量增加份额控制在较小程度的同时,在解码侧获得高品质的合成音这一点进行说明。
具体地,本实施形态的技术是用于解决将脉冲扩散码本使用在CELP编码·解码装置的概率性码本部分时所产生的上述问题,其特点在于在编码装置侧与解码装置侧采用不同的扩散图案。即,在本实施形态中,在音频解码装置侧的扩散图案存放部分中登录了上述的扩散图案,通过使用这些图案而生成比采用代数性码本时更高品质的合成音频。另一方面,在音频编码装置侧,登录了简化了登录在解码装置侧的扩散图案存放部分的扩散图案的扩散图案(例如,以一定间隔拉开扩散图案或者以一定长度截断的扩散图案)并且采用它来进行概率性码本的搜索。
由此,将脉冲扩散码本使用于概率性码本部分时,在编码侧,能够抑制使得比将代数性码本使用于概率性码本部分时所增加的、前置阶段编码搜索时的运算量为较少,并且在解码侧能够获得高质量的合成音。
在编码装置侧与解码装置侧采用不同扩散图案是将预先准备的(解码装置用的)扩散向量保留特性而进行变形,由此获得解码用扩散向量。
这里,作为预先准备解码装置用扩散向量的方法,本发明者们研究了以往提出的申请(特开平10-63300号公报)中揭示的方法、即研究音源搜索用目标线路的统计性倾向来进行准备的方法、实际地将音源目标进行编码并且反复进行向此时产生编码误差总和变小的方向变形的操作而来进行准备的方法、以及提高合成音的质量并根据声学知识进行设计的方法等,以随机化脉冲声源的高频相位成分为目的进行设计的方法。这些内容都包含于此。
如此获得扩散向量其特点在于,任何的扩散向量的前部采样附近的采样其振幅比后部的采样的振幅要大。即使在中部,前部的采样的振幅经常是扩散向量内全部采样之中最大的(大多数情况下)。
作为将解码装置用扩散向量保留特性地进行变形而获得解码用扩散向量的具体方法,可以列举下述的方法。
1)每隔适当间隔将解码装置用扩散向量的采样值置换为0,由此获得解码用扩散向量。
2)通过将某长度的解码装置用扩散向量以适当长度截断而获得解码用扩散向量。
3)预先设定振幅的阀值并对于解码装置用扩散向量将比设定的阀值振幅要小的采样置换为0,由此获得解码用扩散向量。
4)对于某长度的解码装置用扩散向量,每适当间隔保存含有前部采样的采样值并且将此外的采样值置换为0,由此获得编码装置用扩散向量。
这里例如上述1)的方法,即使采用了扩散向量前部起的多个采样,也能够保存了扩散向量的大致形状(大致特性)并且能够获得新的编码装置用扩散向量。
又,例如上述2)的方法,即使每适当间隔将采样值置换为0,也能够保存原来的扩散向量的大致形状(大致特性)并且可以获得新的编码装置用扩散向量。特别地,在上述4)方法的情况下由于限定必须保持通常振幅最大的前部采样的振幅,因此能够更可靠地保存原来的扩散向量的大致形状。
又,例如3)方法,原封不动地保存具有特定值以上振幅的采样,即使将具有所述特定值以下振幅的采样其振幅置换为0,也能够保持扩散向量的大致形状(大致特性),能够获得编码装置用的扩散向量。
以下,对于本实施形态的音频编码装置以及音频解码装置参照附图进行详细地说明。又,附图所示的CELP音频编码装置(图11)以及CELP音频解码装置(图12)在以往的CELP音频装置以及CELP音频解码装置的概率性码本部分中具有采用上述脉冲扩散码本这一特征。因此,在以下说明中,记载了概率性码本、概率性声源向量、概率声源增益的部分分别能够替代为脉冲扩散码本、脉冲扩散声源向量、脉冲扩散声源增益。又,CELP音频编码装置以及CELP音频解码装置的概率性码本因具有噪声码本或者存放多个种类的固定波形的作用而有时也被称为固定码本。
在图11的CELP音频编码装置中,首先,线性预测分析部分501对于输入音频进行线性预测分析并计算出线性预测系数,将算出的线性预测系数输入线性预测系数编码部分502。其次,线性预测系数编码部分502将线性预测系数编码(向量量化),将由向量量化获得量化指数(以下,称为线性预测编码)输出到编码输出部分513以及线性预测码解码部分503。
其次,线性预测码解码部分503将由线性预测系数编码部分502获得线性预测码进行解码(反量化)并输出到合成滤波器504。合成滤波器504构成以由线性预测码解码部分503获得解码线性预测码为系数的全极型模式合成滤波器。
然后,将从自调码本506选出的自调声源向量乘上自调声源增益509而获得向量与将从脉冲扩散码本507选出的概率性声源向量乘上概率声源增益510而获得向量在向量加法运算部分511进行加法运算并生成驱动声源向量。然后,误差计算部分505按照下式16计算由该驱动声源向量驱动合成滤波器504时的输出向量与输入音频的误差,将误差ER输出到编码特定部分512。
ER=‖u-(gaHp+gcHc)‖2u输入音频(向量)H合成滤波器的脉冲响应行列p自调声源向量c概率性声源向量ga自调声源增益gc概率声源增益式16然而,在式16中,u表示处理帧内的输入音频向量、H表示合成滤波器的脉冲响应行列、ga表示自调声源增益、gc表示概率声源增益、p表示自调声源向量、c表示概率性声源向量。
这里,自调码本506是存放了以往数帧份额的驱动声源向量的缓冲器(动态存储器),使用从上述自调码本506选出的自调声源向量是为了表现将输入音频通过合成滤波器的反滤波器而获得线性预测残差向量中的周期成分。
另一方面,使用从脉冲扩散码本507选出的声源向量是为了表现在现处理帧中向线性预测残差向量新添加的非周期成分(从线性预测残差向量中去除周期性(自调声源向量成分)的成分)。
然后,自调声源向量增益乘法运算部分509以及概率性声源向量增益乘法运算部分510相对于从自调码本506中选出的自调声源向量以及从扩散编码507中选出的概率性声源向量具有乘以从增益码本中读出的自调声源增益以及概率声源增益的功能。又,所谓增益码本508是多个种类存放乘以自调声源向量的自调声源增益以及乘以概率性声源向量的概率声源增益组合的静态存储器。
代码特定部分512选择使得由误差计算部分505计算的式16的误差ER为最小的上述3个码本(自调码本、脉冲扩散码本、增益码本)指数的最佳组合。然后,代码特定部分512将上述误差为最小时所选择的各码本的指数分别作为自调声源码、概率声源码、增益码而输出到代码输出部分513。
最后,代码输出部分513将线性预测系数编码部分502获得线性预测码、由代码特定部分512特定的自调声源码、概率声源码以及增益码进行汇总并且作为表现当前处理帧内地输入音频的代码(位信息)而输出到解码装置侧。
又,有时代码特定部分512所进行的自调声源码、概率声源码、增益码的特定是在将一定时间间隔的帧分割为称为子帧的更短时间间隔之后而进行的。然而,在本说明书中,帧与子帧没有特别的区别(统一称为帧),并且在以下进行说明。
其次,参照图12对于CELP音频解码装置的概要进行说明。
在图12的CELP解码装置中,首先代码输入部分601接受由CELP音频编码装置(图11)所特定的代码(用于代码表现帧区间的音频信号的位信息),并且将接受的代码分解为线性预测代码。自调声源码、概率声源码以及增益码这4种类型的代码。然后,将线性预测代码、自调声源码、概率声源码、增益码分别输出到线性预测系数解码部分602、自调码本603、脉冲扩散码本604、增益码本605。
其次,线性预测系数解码部分602将从代码输入部分601输入的线性预测码解码并获得解码的线性预测码,将该解码的线性预测码输出到合成滤波器609。
合成滤波器609构成将线性预测系数解码部分602获得解码的线性预测码作为系数的全极型模式合成滤波器。又,自调码本603输出从代码输入部分601输入的自调声源码所对应的自调声源向量。又,脉冲扩散码本604输出从代码输入部分601输入的概率声源码所对应的概率性声源向量。又,增益码本605读出从代码输入部分输入的增益码所对应自调声源增益以及概率声源增益并且分别输出到自调声源增益乘法运算部分606以及概率声源增益乘法运算部分607。
然后,自调声源增益乘法运算部分606在从自调码本603输出的自调声源向量上乘上从增益码本605输出的自调声源增益,概率声源增益乘法运算部分607在从脉冲扩散码本604输出的概率性声源向量上乘以由增益码本605输出的概率声源增益。然后,向量加法运算部分608加上自调声源增益乘法运算部分606以及概率声源增益乘法运算部分607各自的输出向量并且生成驱动声源向量。此后,由该驱动声源向量驱动合成滤波器609并且输出接收到的帧区间的合成音。
在如此的CELP方式的音频编码装置·音频解码装置中,为了获得高质量的合成音,必须抑制式16的误差ER为较小。因此,为了使得式16的ER最小,希望在闭环下特定自调声源码、概率声源码、增益码的组合。然而,由于在闭环下特定式16的误差EG的运算处理量过大,一般在开环下特定上述3种代码。
具体地,首先进行自调码本搜索。这里所谓的自调码本搜索处理是由从存放了先前帧的驱动声源向量的自调码本中输出的自调声源向量而将输入音频通过反滤波器而获得的预测残差向量中的周期成分来进行向量量化的处理。然后,将具有线性预测残差向量内的周期成分与近似周期成分的自调声源向量的登录序号作为自调声源码进行特定。又,通过自调码本搜索,同时暂时确认理想自调声源增益。
其次,进行脉冲扩散码本搜索。脉冲扩散码本搜索是将从处理帧的线性预测残差向量中去除了周期成分的成分,即从线性预测残差向量中减去了自调声源向量成分的成分(以下,也称为概率声源目标)使用存放在脉冲扩散码本中的多个概率性声源向量候补而进行向量量化的处理。然后,通过该脉冲扩散码本搜索处理,将最小误差进行编码的概率性声源向量的登录序号作为概率声源码来特定概率声源目标。又,通过脉冲扩散码本搜索,同时暂时区定理想的概率目标。
此后,进行增益目标搜索。增益码本搜索是如下所述的处理,将由在自调码本搜索时暂时获得理想的自调增益与脉冲扩散码本搜索时暂时获得理想的概率增益这2部分构成的向量由存放在增益码本的增益候补向量(由自调声源增益候补与概率声源增益候补这2部分形成的向量候补)进行编码(向量量化)而使得误差为最小。然后,将这里所选的增益后补向量的登录序号作为增益码输出到代码输出部分。
这里,接着,在CELP音频编码装置中上述一般的代码搜索处理中,对于脉冲扩散码本搜索处理(特定了自调声源码之后,特定概率声源码的处理)进行更详细地说明。
如上所述,对于一般的CELP编码装置,在进行脉冲扩散码本搜索时,已经特定了线性预测码以及自调声源码。这里,如将由已经特定的线性预测码构成的合成滤波器的脉冲响应行列作为H、将与自调声源码对应的自调声源向量作为p、将在特定自调声源码的同时所求得的理想自调声源增益(暂定值)作为ga,则式16的误差ER,可以变形为下式17。
ERk=‖v-gcHck‖2v概率声源目标(而v=u-gaHp)gc概率声源增益H合成滤波器的脉冲响应行列ck概率性声源向量(k登录编码)式17然而,式17内的向量v是使用了帧区间的输入音频信号u、合成滤波器的脉冲响应行列H(已知)、自调声源向量p(已知)、理想自调声源增益ga(暂定值)的下式18的概率声源目标。
v=u-gaHPu输入音频(向量)gc概率声源增益(暂定值)H合成滤波器的脉冲响应行列p自调声源向量式18又,式16中以c表示概率性声源向量,另一方面,式17中以ck表示概率性声源向量。这是由于,在式16中没有表示概率性声源向量的登录序号(k这点)不同,相对于此,在式17中表示了登录序号,虽表示上的不同,而所指的对象是相同的。
因此,作为脉冲扩散码本搜索,是求得使得式17的Erk为最小的概率性声源向量ck的登录序号k的处理。然后,在特定使得式17的误差最小的概率性声源向量ck的登录序号k时,概率声源增益gc能够假设为任意的值。因此,取得使得式17的误差为最小的登录序号的处理可以置换为特定使得上式10中分数Dk为最大的概率性声源向量ck的登录序号k的处理。
然后,脉冲扩散码本搜索进行下述2个阶段的处理,对于每个概率性声源向量ck的登录序号k由误差计算部分505计算出式10的分数Dk并将该值输出到代码特定部分512,在代码特定部分512中比较每个登录序号k的式10的值并将该值为最大时登录序号k作为概率声源代码输出到代码输出部分513。
以下,对于本实施形态音频编码装置以及音频解码装置的动作进行说明。
图13A表示图11所示的音频编码装置的脉冲扩散码本507的构造,图13B表示图12所示的音频解码装置的脉冲扩散码本604的构造,比较图13A所示的脉冲扩散码本507与图13B所示的脉冲扩散码本604时,构造上的不同在于登录在扩散图案存放部分中的扩散图案形状有所不同。
在图13B的音频解码装置中,在扩散图案存放部分4012中在每一通道分别登录一种图案,所述图案如下(1)统计多数概率声源目标的形状并且概率声源目标中以统计上高频率地所含有的形状的扩散图案,(2)用于有效地表现无声子音区间及噪声区间的随机形状的扩散图案,(3)用于有效地表现有声稳定区间的脉冲形状的扩散图案,(4)发挥作用而使得从代数性码本输出的声源向量的能量(在非零部分的位置上集中了能量)分散到周围的形状的扩散图案,(5)对于适当准备的数个扩散图案候补,将音频信号编码、解码,反复进行合成音的视听评价,并且为了输出高质量的合成音而选择的扩散图案,(6)根据声学知识而作成的扩散图案中任意的扩散图案。
另一方面,在图13A的音频编码装置侧,在扩散图案存放部分4012中登录将在图13B的音频解码装置侧的扩散图案存放部分4012中登录的的扩散图案每隔一个采样置换为0的扩散图案。
然后,对于如此构成的CELP音频编码装置/音频解码装置中,没有注意到登录了在编码装置侧与解码装置侧不同的扩散图案,以上述相同的方法将音频信号编码·解码。
在编码装置中,能够减少在概率性码本部分采用脉冲扩散码本时的概率性码本搜索时的前置处理运算量(能够减去约一半的Hi=HtWi以及xit=vtHi的运算量),在解码装置侧通过在脉冲向量上重叠与以往相同的扩散图案,能够将集中在非零部分位置上的能量分散到周围,能够提高合成音的质量。
又,在本实施形态中,如图13A以及图13B所示,已经说明了在音频编码装置侧采用将使用于音频解码装置侧的扩散图案每隔1个采样置换为0的扩散图案的情况进行了说明,而在音频编码装置侧采用将音频解码装置侧使用的扩散图案的部分每隔N个(N≥1)采样置换为0而获得扩散图案的情况,也能够照样地适用本实施形态,此时也能够获得同样的效果。
又,在本实施形态中,对于扩散图案存放部分按每1通道登录1种类型的扩散图案情况下的实施形态进行了说明,而对于每个通道登录2种类型以上的扩散图案并且选择使用这些扩散图案为特征的将脉冲扩散码本用于概率码本部分的CELP音频编码装置·解码装置,也能够适用本发明,此时也能够取得同样的效果。
又,在本实施形态中,对于使用输出代数性码本部分含有3个非零部分的向量的脉冲扩散码本的情况,说明了实施的情况,而对于代数性码本部分输出的向量中非零部分数目为M个(M≥1)的情况,也能够适用本实施形态,此时也能够获得同样的作用·效果。
又,在本实施形态中,对于生成由少数个非零部分构成的脉冲向量的码本而采用了代数性码本的情况进行了说明,而作为生成该向量的码本,当采用多脉冲码本、标准脉冲码本等其他码本的情况下,也能够适用本实施形态,在这种场合也能获得同样的作用·效果。
其次,图14A表示图11所示的音频编码装置的脉冲扩散码本的构造,图14B表示图12所示的音频解码装置的脉冲扩散码本的构造。
比较图14A所示的脉冲扩散码本与图14B所示的脉冲扩散码本的构造时,构造上的不同在于登录在扩散图案存放部分的扩散图案的长度有所不同。在图14B的音频解码装置中,在扩散图案存放部分4012中在每一通道分别登录一种与上述扩散图案相同的扩散图案,即(1)统计多数概率声源目标的形状并且概率声源目标中以统计上高频率地所含有的形状的扩散图案,(2)用于有效地表现无声子音区间及噪声区间的随机形状的扩散图案,(3)用于有效地表现有声稳定区间的脉冲形状的扩散图案,(4)发挥作用而使得从代数性码本输出的声源向量的能量(在非零部分的位置上集中了能量)分散到周围的形状的扩散图案,(5)对于适当准备的数个扩散图案候补,将音频信号编码、解码,反复进行合成音的视听评价,并且为了输出高质量的合成音而选择的扩散图案,(6)根据声学知识而作成的扩散图案中任意的扩散图案。
另一方面,在图14A的音频编码装置侧,在扩散图案存放部分4012中登录了将在图14B的音频解码装置侧的扩散图案存放部分4012中登录的的扩散图案以一半长度截断的扩散图案。
然后,对于如此构成的CELP音频编码装置/音频解码装置中,没有注意到登录了在编码装置侧与解码装置侧不同的扩散图案,以上述相同的方法将音频信号编码·解码。
在编码装置中,能够减少在概率性码本部分采用脉冲扩散码本时的概率性码本搜索时的前置处理运算量(能够减去约一半的Hi=HtWi以及xit=vtHi的运算量),在解码装置侧,能够利用与以往相同的扩散图案,由此能够提高合成音的质量。
又,在本实施形态中,如图14A以及图14B所示,已经说明了在音频编码装置侧采用将使用于音频解码装置侧的扩散图案以一半长度截断的扩散图案的情况进行了说明,而在音频编码装置侧采用将音频解码装置侧使用的扩散图案以更短的长度N(N≥1)截断后的扩散图案的情况,能够进一步地减少概率性码本搜索时前置处理运算量。然而,这里将使用于音频编码装置侧的扩散图案以长度1截断时相当与没有使用扩散图案的音频编码装置(在音频解码装置中适用扩散图案)。
又,在本实施形态中,对于扩散图案存放部分按每1通道登录1种类型的扩散图案情况下的实施形态进行了说明,而对于每个通道登录2种类型以上的扩散图案并且选择使用这些扩散图案为特征的脉冲扩散码本用于概率码本的音频编码装置/解码装置,也能够适用本实施形态,此时也能够取得同样的效果·作用。
又,在本实施形态中,对于使用输出代数性码本部分含有3个非零部分的向量的脉冲扩散码本的情况进行了说明,而对于代数性码本部分输出的向量中非零部分数目为M个(M≥1)的情况,也能够适用本实施形态,此时也能够获得同样的作用·效果。
又,在本实施形态中,对于在音频编码装置侧采用将使用于音频解码装置侧的扩散图案以一半长度截断的扩散图案的情况进行了说明,而也可能在音频编码装置侧将使用于音频解码装置侧的扩散图案以长度N(N≥1)截断并且将截断后的扩散图案每隔M(M≥1)个采样置换为0,此时能够进一步地减少编码搜索运算量。
如此,根据本实施形态,对于在概率性码本部分采用脉冲扩散码本的CELP方式音频编码装置与解码装置以及音频编码解码系统,将在研究获得概率声源目标中频繁包含的固定波形作为扩散图案进行登录,在脉冲向量上叠加该扩散图案(反映),由此能够利用比概率声源目标更近的概率性声源向量,所以能够提高解码侧合成音的质量,而且在编码侧可以获得能够将概率性码本搜索的运算量抑制得比以往更少的有利效果,所述概率性码本搜索有时会在将脉冲扩散码本使用于概率性码本部分产生问题。
又,作为生成由少数个非零部分形成的脉冲向量的码本,即使使用多脉冲码本、标准脉冲码本等的其他码本的情况下,也能够获得同样的作用·效果。
上述实施形态1~3中音频的编码/解码以音频编码装置/音频解码装置进行了说明,而也可以作为软件而构成这些音频编码/音频解码。例如,也可以这样构成,即在ROM中存放上述音频编码/解码的程序并且根据该程序按照CPU的指示进行动作。又,也可以将程序、自调码本以及概率性码本(脉冲扩散码本)存放在计算机中能够读取的存储媒体中,将该存储媒体的程序、自调码本以及概率码本(脉冲扩散码本)记录在计算机的RAM中而使得根据程序来进行动作。即使在这种情况之下,也能够实现与上述实施形态1~3相同的作用、效果。而且,可以在通信终端下载实施形态1~3的程序而使得在该通信终端实行程序。
又,对于上述实施形态1~3,可以个别地实施,也可以组合起来实施。
本说明书是根据1999年8月23日申请的特愿平11-235050号、1999年8月24日申请的特愿平11-236728以及1999年9月2日申请的特愿平11-248363。它们的内容也全部包含在本说明书中。
工业利用性本发明能够适用于数字通信系统的基地局以及通信终端装置。
权利要求
1.一种音频编码装置,其特征在于,具备LPC合成手段、增益运算手段以及参数编码手段,所述LPC合成手段对于自调码本以及概率性码本中存放的自调声源以及概率性声源通过使用从输入音频中求出的LPC系数进行滤波而获得合成音,所述增益运算手段求出所述自调声源以及所述概率性声源的增益并且使用所述增益而获得所述输入音频与所述合成音之间的编码误差来搜索自调声源以及概率性声源的代码,所述参数编码手段使用求得的代码所对应的自调声源以及概率性声源进行增益的预测编码。所述参数编码手段具备根据以前子帧的状态调整使用于所述预测编码中的预测系数的预测系数调整手段。
2.如权利要求1所述音频编码装置,其特征在于,所述预测系数调整手段当以前的子帧的状态为极大值或极小值时,调整所述预测系数使得减少影响。
3.如权利要求1所述音频编码装置,其特征在于,所述参数编码手段具有码本,所述码本包含自调声源的增益向量、概率性声源的增益向量以及调整预测系数的系数。
4.如权利要求3所述音频编码装置,其特征在于,在预测编码中,在求取状态与预测系数的积时,乘以所述状态对应的预测系数调整系数。
5.如权利要求1所述音频编码装置,其特征在于,具备按每个状态对应地存放所述自调声源、概率性声源以及预测系数调整系数的存放手段。
6.如权利要求5所述向量量化装置,其特征在于,在更新存放在所述存放手段中的所述自调声源以及所述概率性声源的状态时,也更新所述预测系数调整系数。
7.一种音频编码装置,其特征在于,所述音频编码是将一帧分解为多个子帧进行编码的CELP型音频编码装置,具备LPC合成手段、增益运算手段以及参数编码手段,所述LPC合成手段对于自调码本以及概率性码本中存放的自调声源以及概率性声源通过使用从输入音频中求出的LPC系数进行滤波而获得合成音,所述增益运算手段求出所述自调声源以及所述概率性声源的增益,所述参数编码手段对于使用所述输入音频与所述合成音之间的编码误差而求得自调声源及概率性声源并且进行所述增益的向量量化。所述音频编码装置还具备音调分析手段,所述音调分析手段是在进行最初子帧的自调码本搜索之前分析构成帧的多个子帧的音调并求出相关值,使用该相关值算出最近似于音调周期的值。
8.如权利要求7所述的音频编码装置,其特征在于,还具备搜索范围决定手段,所述搜索范围决定手段根据所述音调分析手段获得的相关值以及最近音调周期的值,决定多个子帧的滞后的搜索范围。
9.如权利要求8所述的音频编码装置,其特征在于,所述搜索范围设定手段使用由所述音调分析手段获得相关值以及最近似于音调周期的值而求得成为搜索范围的中心的假设音调。
10.如权利要求9所述音频编码装置,其特征在于,所述搜索范围设定手段在假设音调周围的指定范围中设定滞后的搜索区间。
11.如权利要求8所述的音频编码装置,其特征在于,所述搜索范围设定手段使得滞后为较短候补的较少,并且设定滞后的搜索区间。
12.如权利要求8所述的音频编码装置,其特征在于,所述搜索范围设定手段在进行自调码本搜索时,在设定的范围中进行滞后搜索。
13.一种由计算机可读取的记录媒体,其特征在于,所述记录媒体中存放了音频编码程序、存放了以前合成的声源信号的自调码本、存放了多个声源向量的概率性码本,所述音频编码程序包含对于存放在所述自调码本以及所述概率性码本中的自调声源以及概率性声源使用从输入音频中求得的LPC系数进行滤波而由此获得合成音的步骤;求取所述自调声源以及所述概率性声源的增益的步骤;使用所述输入音频与所述合成音之间的编码误差对于求得的自调声源、概率性声源以及所述增益进行向量量化的步骤,在进行向量量化步骤中包含根据多个量化对象向量以及使用于预测编码中的预测系数之间的编码误差而求得的量化对象向量的步骤;根据以前子帧的状态调整所述预测系数的步骤。
14.一种计算机可读取的记录媒体,其特征在于,所述记录媒体中存放了音频编码程序、存放以前合成声的声源信号的自调码本、存放了多个声源向量的概率性码本,所述音频编码程序包含对于存放在所述自调码本以及所述概率性码本中的自调声源以及概率性声源使用从输入音频中求得的LPC系数进行滤波而由此获得合成音的步骤;求取所述自调声源以及所述概率性声源的增益的步骤;使用所述输入音频与所述合成音之间的编码误差对于求得的自调声源、概率性声源以及所述增益进行向量量化的步骤;在最初子帧的自调码本搜索之前分析构成帧的多个子帧的音调且求出相关值,并且使用所述相关值求出最近似于音调周期的值的步骤。
全文摘要
预先作成存放了多个量化对象向量的代表性采样的向量码本。各向量由3个部分即AC增益、SC增益的对数值所对应的值、SC的预测系数的调整系数组成。在预测系数存放部分中存放用于进行预测编码的系数。在参数计算部分中,从输入的听觉加权输入音频、听觉加权LPC合成后的自调声源、听觉加权LPC合成后的概率性声源、存放在解码向量存放部分的解码向量、存放在预测系数存放部分的预测系数而来计算间距计算所必要的参数。
文档编号G10L19/083GK1321297SQ00801770
公开日2001年11月7日 申请日期2000年8月23日 优先权日1999年8月23日
发明者安永和敏, 森井利幸 申请人:松下电器产业株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1