声音编码及解码装置、声音编码及解码方法

文档序号:2837352阅读:516来源:国知局
专利名称:声音编码及解码装置、声音编码及解码方法
技术领域
本发明涉及用于执行分析合成型的声音编码及声音解码的声音编码装置、声音解码装置、声音编码方法、声音解码方法、以及计算机可读取的记录媒体。

背景技术
对于便携电话等中使用的声音压缩技术,例如用于满足采样频率为8kHz、收发速度为4kbps这样的限制条件的技术开发不断进步。该声音压缩技术在分析合成型的声音压缩技术中还分类成低比特率声音压缩技术。
作为典型的分析合成型的低比特率声音压缩技术,例如有ITU-T建议G.729中所公示的8kbps的声音编码方法。在该声音编码方法中,编码装置通过对处理对象的声音信号主要实施线性预测分析,来生成预测系数和残差信号。解码装置接收与预测系数和残差信号有关的信息,从该信息对声音信号进行解码。
作为声音的分析合成的方法,除了基于线性预测分析的方法以外,还公知有基于MLSA(Mel Log Spectrum Approximation)分析的方法。基于MLSA分析的声音分析合成,例如记载于電子通信学会論文誌、第J66-A卷、第2号、P.122-129、1983年今井圣(Satoshi IMAI)、住田一男(Kazuo SUMITA)、古市千枝子(Chieko FURUICHI)著作的《音声合成のためのメル

数スペクトル近似(MLSA)フィルタ(Mel log Spectrum approximation(MLSA)filterfor speech synthesis)》。
此外,在解码装置中,由编码装置生成的残差信号被作为激发信号对待,该激发信号用于使用根据预测系数而计算出的滤波器来对声音信号进行解码。即,所谓残差信号和激发信号的区别在于是着眼于编码装置侧还是着眼于解码装置侧,二者仅是为方便起见的单纯的名称的不同,而实质上是相同的信号。
另外,分析合成型的声音压缩技术与波形编码型的声音压缩技术相比,可以降低比特率,但再现的声音品质较低。因此,近年来对于分析合成型的声音压缩技术要求更高品质的声音再现。
例如,在電子通信学会論文誌、D-II、Vol.J87-D-II、No.8、pp.1565-1571、2004年8月,吉村贵克(Takayoshi YOSHIMURA)、德田惠一(KeiichiTOKUDA)、益子贵史(Takashi MASUKO)小林隆夫(Takao KOBAYASHI)、北村正(Tadashi KITAMURA)所著的《HMMに基づくテキスト音声合成ヘの混合励振源モデルとポストフィルタの導入(Incorporation of mixedexcitation model and postfilter into HMM-based text-to-speech synthesis)》中,记载有如下方案通过向基于HMM(Hidden Markov Model)的文本声音合成系统导入混合激励源模型,来实现声音品质的提高。
在该论文中,具体记载有为了合成同时具有周期成分和非周期成分的声音例如浊擦音(voiced fricative),而将频率分割成多个带域、按每个带域判断有声无声。
在该论文中记载的现有技术,通过对不同带域处理残差信号,在某种程度上提高由解码装置解码的声音信号的品质。
但是,在残差信号的现有的不同带域的处理中,没有考虑例如残差信号强度的带域依存性。
人类的实际的声音中,当在残差信号中具有作为音调(pitch)的性质的带域为多个时,音调的强度一般按每个带域而不同。当在残差信号中具有作为噪声的性质的带域为多个时也同样,残差信号的强度一般按每个带域而不同。
即,实际的声音的激发信号不是相同强度的多个音调的叠加。此外,实际的声音的激发信号也不是白噪声(white noise)。
因此,在残差信号的对不同带域的处理中,没有考虑残差信号强度的带域依存性会成为由解码装置解码的声音信号的品质降低的原因。


发明内容
本发明是鉴于上述实际情况而提出的发明,其目的在于提供对于声音的编码以及解码可提高解码的声音信号的品质的声音编码装置、声音解码装置、声音编码方法、声音解码方法、以及计算机可读取的记录媒体。
为了达成上升目的,本发明的第一方面的声音编码装置包括 预测分析部,其通过预测分析声音信号,来获得预测系数和残差信号; 不同带域残差信号生成部,其将所述残差信号分割成每个带域的不同带域残差信号; 强度确定部,其按照每个所述带域根据所述不同带域残差信号来求出不同带域残差信号强度;以及 编码部,其对所述预测系数和每个所述带域的所述不同带域残差信号强度进行编码。
另外,为了达成上述目的,本发明的第二方面的声音解码装置包括 接收部,其接收对预测分析声音信号所得的预测系数进行编码而获得的编码预测系数;以及对通过该预测分析而获得的残差信号的、表示每个带域的强度的不同带域残差信号强度进行了编码而获得的编码不同带域残差信号强度; 解码部,其根据所述编码预测系数和所述编码不同带域残差信号强度,来对预测系数和每个所述带域的不同带域残差信号强度进行解码; 声源信号生成部,其按照每个所述带域,来生成具有所述不同带域残差信号强度所表示的带域依存性的不同带域声源信号; 残差信号复原部,其根据每个所述带域的所述不同带域声源信号来复原残差信号;和 合成滤波器,其通过合成所述预测系数和所述复原后的残差信号来复原声音。
为了达成上述目的,本发明第三方面的声音编码方法包括以下步骤 预测分析步骤,通过预测分析声音信号来获得预测系数和残差信号; 不同带域残差信号生成步骤,将所述残差信号分割成每个带域的不同带域残差信号; 强度确定步骤,按照每个所述带域根据所述不同带域残差信号来求出不同带域残差信号强度;以及 编码步骤,对所述预测系数和每个所述带域的所述不同带域残差信号强度进行编码。
另外,为了达成上述目的,本发明的第四方面的声音解码方法包括以下步骤 接收步骤,接收对预测分析声音信号所得的预测系数进行编码而获得的编码预测系数;以及对通过该预测分析所得的残差信号的、表示每个带域的强度的不同带域残差信号强度进行编码而获得的编码不同带域残差信号强度; 解码步骤,根据所述编码预测系数和所述编码不同带域残差信号强度来对预测系数和每个所述带域的不同带域残差信号强度进行解码; 声源信号生成步骤,按照每个所述带域生成具有所述不同带域残差信号强度所表示的带域依存性的不同带域声源信号; 残差信号复原步骤,根据每个所述带域的所述不同带域声源信号来复原残差信号;以及 合成步骤,通过合成所述预测系数和所述复原后的残差信号来复原声音 另外,为了达成上述目的,本发明第五方面的计算机可读取记录媒体记录记录了用于使计算机执行以下步骤的程序 预测分析步骤,通过预测分析声音信号来获得预测系数和残差信号; 不同带域残差信号生成步骤,将所述残差信号分割成每个带域的不同带域残差信号; 强度确定步骤,按照每个所述带域根据所述不同带域残差信号来求出不同带域残差信号强度;以及 编码步骤,对所述预测系数和每个所述带域的所述不同带域残差信号强度进行编码。
另外,为了达成上述目的,本发明第六方面的计算机可读取记录媒体,其记录了用于使计算机执行以下步骤的程序 接收步骤,接收对预测分析声音信号所得的预测系数进行编码而获得的编码预测系数;以及对通过该预测分析所得的残差信号的、表示每个带域的强度的不同带域残差信号强度进行编码而获得的编码不同带域残差信号强度; 解码步骤,根据所述编码预测系数和所述编码不同带域残差信号强度来对预测系数和每个所述带域的不同带域残差信号强度进行解码; 声源信号生成步骤,按照每个所述带域生成具有所述不同带域残差信号所表示的带域依存性的不同带域声源信号; 残差信号复原步骤,根据每个所述带域的所述不同带域声源信号来复原残差信号;以及 合成步骤,通过合成所述预测系数和所述复原后的残差信号来复原声音。
根据本发明,在声音的编码和解码中,能够提高所解码的声音信号的品质。



图1是本发明实施方式的声音编码装置的功能结构图。
图2是本发明实施方式的声音解码装置的功能结构图。
图3是本发明实施方式的声音编码兼声音解码装置的物理结构的示意图。
图4是表示基于MLSA的预测分析处理的流程图。
图5是表示线性预测分析处理的流程图。
图6是表示不同带域残差信号信息生成处理的流程图。
图7是表示不同带域声源生成处理的流程图。
图8是表示噪声列生成处理的流程图。
图9是表示声音信号复原处理的流程图。
图10是表示MLSA滤波器系数计算处理的一个例子的流程图。
图11A和图11B是MLSA滤波器结构的一个例子的示意图。

具体实施例方式 以下,对本发明实施方式的声音编码装置和声音解码装置进行详细说明。
图1是本实施方式的声音编码装置111的功能结构图。
声音编码装置111,如图1所示具有麦克风121、A/D变换部123、预测分析部131、带域滤波器部133、增益算出部135、有声无声判别以及音调提取部137、编码部125、发送部127。
预测分析部131内置有预测分析用逆滤波器算出器141。
带域滤波器部133具有第一带域滤波器151、第二带域滤波器153、第三带域滤波器155、以及第三带域滤波器155以后的必需的带域滤波器(图中未示)。
增益算出部135具有第一增益算出器161、第二增益算出器163、以及第二增益算出器163以后的必需的增益算出器(图中未示)。
有声无声判别以及音调提取部137具有第一有声无声判别以及音调提取器171、第二有声无声判别以及音调提取器173、和第二有声无声判别以及音调提取器173以后的必需的有声无声判别以及音调提取器(图中未示)。
首先,向麦克风121输入声音。麦克风121将该声音变换成模拟声音信号。将该模拟声音信号发送至A/D变换部123。A/D变换部123用于后面进行的分析以及编码中的离散处理,将该模拟声音信号变换成数字声音信号。将该数字声音信号发送至预测分析部131。
预测分析部131对由A/D变换部123所供给的数字声音信号实施预测分析处理。在预测分析中例如使用基于MLSA(Mel Log Spectrum Approximation)的预测分析、或者线性预测分析。后面将使用图4和图5对两种分析的步骤进行详细的说明。
在预测分析中,粗略地对数字声音信号进行时间分割,计算出时间分割后的各时间区间中的预测系数以及残差信号。
对数字声音信号进行时间分割的时间区间的长度例如优选5ms。
以下,在预测分析部131中,将数字声音信号暂时时间分割成M个时间区间。此外,设各时间区间所包含的数字声音信号的数据(要素)个数为l(小写的英文字母L)。此时,在整个数字声音信号中含有N个(N=l×M)数据。
预测分析部131将时间区间i(i为0≤i≤M-1的整数)中的数字声音信号Si={Si,0,Si,1,...,Si,l-1}变换成对应于分析次数的预定个数的预测系数、以及残差信号Di={di,0,di,1,...,di,l-1}。
更具体地,预测分析部131首先将所输入的数字声音信号进行时间分割、接下来,预测分析部131根据时间分割后的数字声音信号Si计算出预测系数。接着,内置于预测分析部131中的预测分析用逆滤波器算出部141根据该预测系数计算出预测分析用逆滤波器。然后,预测分析部131向该预测分析用逆滤波器输入数字声音信号Si,获得来自预测分析用逆滤波器的输出作为残差信号Di。
将计算预测分析用逆滤波器的过程中所使用的预测系数从预测分析部131发送至编码部125。
另一方面,残差信号并不是从预测分析部131直接发送至编码部125。这是由于当将残差信号直接送至编码部125进行编码时,信息量有可能过大。
因此,尽可能地仅提取残差信号的本质特征,由此,在预先减少信息量的基础上,将残差信号发送至编码部125。
具体地,首先通过带域滤波器部133将残差信号Di分割成若干个带域。当残差信号Di通过第一带域滤波器151时,从残差信号Di中提取出带域1的频率部分的信号。将由该第一带域滤波器151提取出的信号称为带域1的残差信号。同样地,通过第二带域滤波器153提取带域2的残差信号。此外,通过第三带域滤波器155提取带域3的残差信号。带域4以后的残差信号也一样,由带域滤波器部133提取。
例如,将残差信号Di分割成带域1至6,优选设带域1为0~1kHz、设带域2为1~2kHz、设带域3为2~3kHz、设带域4为3~5kHz、设带域5为5~6.5kHz、设带域6为6.5~8kHz。
由带域滤波器部 133提取出的各带域的残差信号都被发送至增益算出部135和有声无声判别以及音调提取部137两者中。
增益算出部135计算不同带域的残差信号的强度。将发送至增益算出部135的带域1的残差信号,输入至增益算出部135中的第一增益算出器161。同样地,将带域2以后的残差信号也分别输入至第二增益算出器163以后的增益算出器。
这里,将用于识别带域的变量记做ωRANGE。例如,由第一带域滤波器151生成的信号是ωRANGE=1的带域的残差信号。此外,由第二带域滤波器153生成的信号是ωRANGE=2的带域的残差信号。
然后,将时间分区i中的带域ωRANGE的残差信号记做D(ωRANGE)i={d(ωRANGE)i,0,d(ωRANGE)i,1,...d(ωRANGE)i,l-1}。
第一增益算出器161或第二增益算出器163等第ωRANGE增益算出器根据所输入的D(ωRANGE)i算出时间分区i中的带域ωRANGE的增益即G(ωRANGE)i。
增益G(ωRANGE)i表示残差信号Di的带域ωRANGE成分的强度(不同带域残差信号强度)。换言之,增益G(ωRANGE)i表示带域ωRANGE中的残差信号强度的带域依存性。对于声音,一般地如果带域不同、则带域内的成分的强度也不同。在后述的图2的声音解码装置211合成声音信号时使用G(ωRANGE)i。具体地,声音解码装置211使用G(ωRANGE)i来合成反映了每个带域的强度不同的声音信号进行再生。这样,声音编码装置111按照每个带域求出残差信号Di的增益,由此,例如相比于残差信号Di的增益为不依赖于带域的固定值而进行处理的情况,声音解码装置211可以再现高品质的声音信号。
可考虑多种方法作为计算增益G(ωRANGE)i的方法。例如,也可以通过FFT(Fast Fourier Transform)等技术方法对残差信号Di进行傅立叶变换,将带域ωRANGE的峰值或者平均值作为增益G(ωRANGE)i。
但是,本实施方式的声音编码装置111中,通过带域滤波器部133,将带域ωRANGE的残差信号D(ωRANGE)i作为由一个数值构成的数值列{d(ωRANGE)i,0,d(ωRANGE)i,1,...d(ωRANGE)i,l-1}算出。由此,可以不必另外重新进行FFT等计算。使用该数值列,优选例如 G(ωRANGE)i =10×log10[Avg{D(ωRANGE)i2}]、 Avg{D(ωRANGE)i2} ={d(ωRANGE)i,02+d(ωRANGE)i,12+...+d(ωRANGE)i,l-12}/1 来计算增益G(ωRANGE)i。即,取表示时间区间i中的带域ωRANGE的残差信号D(ωRANGE)i的数值列的平方平均值,并且将取对数而获得的值作为增益G(ωRANGE)i。
取平方平均值是为了能够不依赖于数值列{d(ωRANGE)i,0,d(ωRANGE)i,1,...d(ωRANGE)i,l-1}的各个数值的正负地求得信号强度的程度。此外,取对数是因为考虑了声音大小与人类听觉灵敏度之间的关系。
将这样计算出的增益G(ωRANGE)i发送至编码部125。
如上所述,由带域滤波器部133提取的各带域的残差信号除了被发送至增益算出部135之外还被发送至有声无声判别以及音调提取部137。
发送至第一有声无声判别以及音调提取部137的带域1的残差信号,被输入至有声无声判别以及音调提取部137中的、第一有声无声判别以及音调提取器171。同样地,对于带域2以后的残差信号也被分别输入至第二有声无声判别以及音调提取器173以后的有声无声判别以及音调提取器。
下面参照图6详细地说明第一有声无声判别以及音调提取器171或第二有声无声判别以及音调提取器173等第ωRANGE有声无声判别以及音调提取器进行的处理。综述结论,第ωRANGE有声无声判别以及音调提取器判别带域ωRANGE的残差信号D(ωRANGE)i是有声音还是无声音,并将其判别结果发送至编码部125。此外,第ωRANGE有声无声判别以及音调提取器在该判别结果为有声音时,除了将该判别结果发送至编码部125外,还将音调频率(pitch frequency)值发送至编码部125。
这样,从预测分析部131向编码部125发送预测系数、从增益算出部135向编码部125发送各带域的增益、从有声无声判别以及音调提取部137向编码部125发送各带域的有声无声的判别结果以及判别为有声的各带域的音调频率。
其结果是,从残差信号中提取出不同带域的增益、不同带域的有声无声判别结果、判别为有声的不同带域的音调频率,并发送至编码部125。考虑声音信号的性质,这些提取出的信息虽然信息量较少,但是是在本质上带有残差信号性质的特征的信息。以下,概括从残差信号提取出的、不同带域的增益、不同带域的有声无声的判别结果、判别为有声的不同带域的音调频率,统称为不同带域残差信号信息。
这样,通过仅将本质上带有残差信号性质的特征的少量的信息发送到编码部125,与将残差信号整体全部地发送到编码部125相比,能够减少由编码部125进行编码的信息量。因此,本实施方式的声音编码装置111能够将声音压缩到以低比特率技术为前提的程度。
另一方面,作为按照每个带域变化的信息的增益、有声无声的判别结果以及音调频率对在图2中的声音解码装置211中的声音的再生有帮助。因此,在与不从残差信号Di中提取每个带域的特征的情况相比,在声音解码装置211中再生的声音的品质得以提高。
编码部125接收预测系数、和表示上述的残差信号的不同带域的特征的不同带域残差信号信息,并对它们进行编码。然后,编码后的预测系数和编码后的不同带域残差信号信息被发送至发送部127。下文中将编码后的预测系数称为编码预测系数。另外,将编码后的不同带域残差信号信息称为编码不同带域残差信号信息。
另外,对预测系数进行编码的编码部和对不同带域残差信号信息进行编码的编码部也可以彼此独立地设置。在这样的情况下,编码预测系数和编码不同带域残差信号信息分别从各自的编码部发送至发送部127。
编码部125使用任意的现有的编码方法来对信息进行编码。编码方法已知有多种方法,信息的压缩率也是多种多样。另外,即使是相同的编码方法,但根据成为编码对象的信号性质的不同,压缩率可以变化。在本实施方式的声音编码装置111中,优选采用能够将预测系数和不同带域残差信号信息最大限度地压缩的编码方法。但是,这里适用于任何的编码方法都没有问题。
不过,为了使图1中的声音编码装置111依次发送各时间区间中的信息、使图2中的声音解码装置从该信息大致实时地再生声音,优选预计容易使用压缩后的信号量、且该信号量在任何时间区间都为相同程度的编码方法。之所以这样,是因为考虑到装置的性能方面的制约事项,声音分析处理及其后的发送处理、接收处理及其后的声音合成处理设计容易。
图1中的发送部127从编码部125收到编码预测系数和编码不同带域残差信号信息,并发送至图2中的声音解码装置211。发送方法在本实施方式中为无线通信。另外,发送方法可以是有线、有线和无线并用等各种各样的通信方法。
图2是本实施方式的声音解码装置211的功能结构图。声音解码装置211使不同带域的残差信号的强度反映在复原的声音信号中。
如图2所示,声音编码装置211具备接收部221、解码部223、不同带域声源生成部231、合成用逆滤波器算出部235、残差信号复原部233、合成用逆滤波器部225、D/A变换部227、以及扬声器部229。
不同带域声音生成部231具有第一声源生成器241、第二声源生成器243、和第二声源生成器243以后的需要的声源生成器(图中未示)。
接收部221从图1中的声音编码装置111的发送部127通过无线通信接收编码预测系数和编码不同带域残差信号信息,并将它们提供给解码部223。
解码部223对从接收部221供给的编码预测系数和编码不同带域残差信号信息进行解码,并生成各时间分区中的预测系数和不同带域残差信号信息。具体来讲,解码部223按照每个时间分区生成预测系数、残差信号的每个带域的增益、残差信号的每个带域的有声无声判别结果、以及判别为有声的每个带域的音调频率。
经解码的不同带域残差信号信息被发送至不同带域声源生成部231。此时,增益的信息和有声无声的判别关联信息(有声无声的判别结果和有声时的音调频率)这两种信息被按照每个带域汇集起来。
即,带域1的增益和带域1的有声无声的判别关联信息被汇集并输入到第一声源生成器241中,带域2的增益和带域2的有声无声的判别关联信息被汇集并输入到第二声源生成器243中。带域3以后的信息也进行同样的处理。
第一声源生成器241生成带域1的脉冲列或者噪声列,并将它们发送残差信号复原部233。第二声源生成部243生成带域2的脉冲列或者噪声列,并将它们发送至残差信号复原部233。第三声源生成器以后的声源生成器也是同样的。
即,不同带域声源生成部231生成作为各带域的声源信号的脉冲列或者噪声列,并将它们发送至残差信号复原部233。生成各带域的脉冲列或者噪声列的步骤在后文中参照图7和图8进行详细说明。简而言之,情况如下。例如,第一声源生成器241在收到表示带域1的残差信号为有声音的判别结果和音调频率时,生成具有该音调频率的大小为带域1的增益的脉冲列。另一方面,第一声源生成器241在收到表示带域1的残差信号为无声音的判别结果时,从预先准备的具有随机的时间间隔的大小1的脉冲列中提取带域1的成分,并将其乘以带域1的增益生成噪声列。
这样,不同带域声源生成部231按照每个带域生成具有不同带域的增益所表示的带域依存性的声源信号即脉冲列或者噪声列。
残差信号复原部233是将从不同带域生成部231供给的各带域的脉冲列或者噪声列全部叠加起来的加法器。声音解码装置211进行的不同带域残差信号信息的处理与图1中的声音编码装置111进行的残差信号的处理大致相反。因此,通过将不同带域声源生成部231所生成的脉冲列或者噪声列叠加起来,可复原残差信号。
但是,如前所述,从图1中的声音编码装置111发送至图2中的声音解码装置211的不同带域残差信号信息是捕捉了残差信号Di的本质特征的信息,而不是残差信号Di本身。这样,在发送侧的声音编码装置111中有删除的信息,因此残差信号复原部233不能够将原来的残差信号Di完全复原。即,严格来讲,残差信号复原部233不是将残差信号Di完全复原,而是最大限度地利用所得的信息,生成接近残差信号Di的信号。即,可以说残差信号复原部233不是复原残差信号Di={di,0,di,1,...,di,l-1},而是生成疑似残差信号D′i={d′i,0,d′i,1,...,d′i,l-1}。不过,如前所述,由图1中的声音编码装置111提取的声音的本质特征被传递至图2中的声音编码装置211,根据该特征来生成疑似残差信号D′i。因此,疑似残差信号D′i与残差信号Di近似,其适合用作声音再生用的激发信号(激发用的信号)。
另外,如前所述,残差信号的激发信号不过是从不同的视角来看待相同的信号。
另一方面,由解码部223解码的预测系数被发送至合成用逆滤波器算出部235。合成用逆滤波器算出部235使用预测系数来算出声音合成用的逆滤波器。该逆滤波器的算出可以使用已知的任意方法。所谓声音合成用的逆滤波器是具有通过将激发信号输入到该滤波器来合成声音信号的性质的滤波器。
合成用逆滤波器算出部235的逆滤波器的算出结果被发送至合成用逆滤波器部225。合成用逆滤波器225按照收到的逆滤波器的算出结果来确定声音合成用的逆滤波器的规格。另外,也可以考虑通过合成用逆滤波器算出部235来生成合成用逆滤波器部225。
通过将疑似残差信号D′i作为激发信号输入到该合成用逆滤波器部225中,来复原数字声音信号。对于以上的声音信号的复原的步骤在后文中参照图9来进行详细说明。
另外,声音解码装置211将与预测系数有关的信息全部接收。因此,若不考虑编码和解码的过程中可产生的信息量减少,合成用逆滤波器部225能够完全复原原来的逆滤波器。另一方面,作为激发信号输入到合成用逆滤波器部225的信号如前所述为疑似的残差信号D′i。因此,合成用逆滤波器部225经过逆滤波器合成的数字声音信号并不是忠实地再现原来的声音信号Si的信号。
但是,根据声音信号的性质提取的、表示残差信号的本质特征的信息被传递至声音解码装置211。并且,使用该信息来进行疑似残差信号的生成。所以,将该疑似残差信号作为激发信号输入到合成用逆滤波器部225的结果为,从合成用逆滤波器部225获得的输出是与原来的声音信号Si接近的信号。
从合成用逆滤波器部225输出的再生信号通过D/A变换部227变换成模拟声音信号,并传递至扬声器229。扬声器229按照所收到的模拟声音信号来发出声音。
从声音编码装置传递到声音解码装置的信息,该信息量较少,担心对作为发送对象的信号的性质是不充分的信息,因而无法充分提高再生声音的品质。本实施方式的声音编码装置111和声音解码装置211,是这样想出的装置即使在从声音编码装置11 1传递到声音解码装置211的信息量受到限制的状况下,也能能够尽可能地再生高品质的声音。因此,本发明的发明人对如何能够在尽量减少传递的信息量的同时在所传递的信息中充分保持声音信号的特征进行了考察。其结果为,本发明的发明人着眼于作为发送对象的信号为声音信号这一情况,在根据声音信号的性质的基础上,将预测分析所得的残差信号的每个带域的性质的差反映到声音再生中。具体来讲,在声音信号的发送侧的装置提取残差信号的每个带域的强度,在声音信号的接收侧的装置将残差信号的每个带域的强度反映到声音再生中。残差信号的每个带域的性质由于能够以略微的信息量来表示,因此使得再生声音的品质大幅度上升。
参照图1和图2所说明过的声音编码装置111和声音解码装置211,在物理上,通过为使用便利而统合了两装置的功能的、图3所示的声音编码兼解码装置311来实现。即,声音编码兼解码装置311与声音编码装置一样,能够对从麦克风输入的声音信号进行编码,并发送编码数据。另外,声音编码兼解码装置311与声音解码装置211一样,能够接收编码数据并进行解码,并将经解码的声音信号从扬声器输出。作为声音编码兼解码装置311例如可以假定便携电话。
如图3所示,声音编码兼解码装置311具有图1所示的麦克风121和图2所示的扬声器229。
声音编码兼解码装置311还具有天线321、操作键323、无线通信部331、声音处理部333、电源部335、输入部337、CPU341、ROM(Read Only Memory只读存储器)343、和存储部345。无线通信部331、声音处理部333、电源部335、输入部337、CPU341、ROM343、和存储部345通过系统339相互连接。系统总线339是用于传送命令和数据的传送路径。
在ROM343中保存有用于对声音进行编码和解码的动作程序。
另外,图1的预测分析部131、带域滤波器部133、增益算出部135、有声无声判别以及音调提取部137、以及编码部125的各功能通过CPU341进行的数值处理来实现。另外,图2的解码部223、不同带域声源生成部231、残差信号复原部233、合成用逆滤波器算出部235、合成用滤波器部225的各功能通过CPU341进行的数值处理来实现。另外,图1的A/D变换部123和图2的D/A变换部227包含在声音处理部333中。而且,图1中的发送部127和图2中的接收部211包含在无线通信部331中。
因此,在保存在ROM343中的动作程序中包含由于由CPU341进行上述数值处理的程序。
在ROM343中,除了动作程序之外,还保存声音编码兼解码装置311的整体控制所需要的操作系统。
CPU341通过执行保存在ROM343中的动作程序和操作系统来对声音进行编码或者解码。
这样,CPU341按照保存在ROM343中的动作程序来进行数值运算。存储部345保存作为处理对象的数值列、例如数字声音信号Si,或保存作为处理结果的数值列、例如残差信号Di。
存储部345由RAM(Random Access Memory)351、硬盘装置353、闪存355中的一个或者多个构成。存储部345具体来讲存储数字声音信号、预测喜好、残差信号、每个带域的残差信号、每个带域的增益、每个带域的有声无声的判别结果、判别为有声音的每个带域的音调频率、编码预测系数、编码不同带域残差信号信息、按照每个带域生成的脉冲列或者噪声列、逆滤波器的算出结果以及疑似残差信号等。
CPU341内置寄存器(图中未示)。CPU341按照从ROM343中读出的动作程序,将作为处理对象的数值列适当地从存储部345载入到寄存器中。CPU341对载入在寄存器中的数值列实施预定的运算处理,并将该处理结果的数值列保存在存储部345中。
存储部345所具有的RAM351和硬盘装置353酌量各自的访问速度和存储容量,分担作为处理对象的数值列,或者同时进行存储。闪存355是可移动媒体。在闪存355中,根据需要复制有保存在RAM351或者硬盘装置353中的数据。将存储有所复制的数据的闪存355从声音编码兼解码装置311拔出,用于例如个人电脑等其他装置对该数据的利用。
在声音编码兼解码装置311作为声音编码装置111(图1)发挥功能时,无线通信部331和声音处理部333如下所述地发挥功能。首先,输入到麦克风121中的声音通过声音处理部333所具有的A/D变换部123(图1)变换为数字信号。通过由CPU341、RAM343和存储部345实现的图1所示的声音编码装置111的功能,数字声音信号被编码。并且,无线通信部331所具有的发送部127(图1)使用天线321向对方(成为接收侧的别的声音编码兼解码装置311)发送编码预测系数和编码不同带域残差信号信息。
另一方面,在声音编码兼解码装置311作为声音解码装置211(图2)发挥功能的情况下,无线通信部331和声音处理部333如下所述地发挥功能。首先,无线通信部331所具有的接收部221(图2),使用天线321接收编码预测系数和编码不同带域残差信号信息。通过由CPU34、ROM343和存储部345实现的图2所示的声音解码装置211的功能,接收到的编码数据被解码为数字声音信号。数字声音信号通过声音处理部333所具有的D/A变换部227(图2)变换为模拟声音信号,并从扬声器229作为声音输出。
输入部337接收来自操作键323的操作信号,并将与操作信号对应的键盘编码器(key code)信号输入到CPU341中。CPU341根据所输入的键盘编码器信号来确定操作内容。
例如,将声音分割成几个带域、或使各带域宽度为多宽这样的信息在ROM343中预先设定。但是,在用户希望的情况下,使用操作键323和输入部337,用户自身能够变更该设定。具体来讲,使用操作键323,用户能够输入频率的数值等进行设定的变更。用户还能够使用操作键323来输入例如电源接通/断开等的预定的操作指令。
电源部335是用于驱动声音编码兼解码装置311的电源。
基于MLSA的预测分析处理 下面,参照图4所示的流程图来说明作为图1的预测分析部131所进行的预测分析的一例的、基于MLSA的预测分析。另外,如前所述,预测分析部131的功能通过CPU341(图3)来实现。
这里,在预测分析处理开始之前,使在存储部345(图3)中保存有作为表示声音的输入波形的数字声音信号的输入信号采样Si={si,0,si,1,...,si,l-1}(i为0≤i≤M-1的整数)。
CPU341将内置的计数寄存器(counter register,图中未示)作为用于对值i进行计数的输入信号采样计数器。当开始预测分析处理时,CPU341使输入信号采样计数器的值i为i=0来作为初始值(图4中的步骤S411)。
CPU341从存储部345将与输入信号采样计数器的值i对应的输入信号采样Si={si,0,si,1,...,si,l-1}从存储部345载入到内置的通用寄存器(图中未示)中(步骤S413)。例如,在输入信号采样计数器设定为i=0的情况下,载入输入信号采样S0={s0,0,s0,1,...,s0,l-1}。
下面,CPU341根据所载入的输入信号采样Si={si,0,si,1,...,si,l-1}来计算倒谱(cepstrum)Ci={ci,0,ci,1,...,ci,l/2-1}(步骤S415)。在求倒谱时,可以使用任意的已知手法。在求倒谱时,大体上进行离散傅立叶变换、取绝对值、取对数、进行傅立叶逆变换这些手法是必须的。
接着,CPU341根据所求出的倒谱Ci={ci,0,ci,1,...,ci,l/2-1来计算MLS滤波器系数Mi={mi,0,mi,1,...mi,p-1}(步骤S417)。另外,p是基于MLSA的预测分析的次数。另外,求MLSA滤波器系数可以使用任意的已知手法。
然后,CPU341将MLSA滤波器系数Mi={mi,0,mi,1,...,mi,p-1}作为预测系数保存到存储部345中(步骤S419)。
而且,CPU341根据MLSA滤波器系数Mi={mi,0,mi,1,...,mi,p-1}来计算预测分析用逆MLSA滤波器AIMi(步骤S421)。另外,步骤S421的处理可以说由图1所示的预测分析用逆滤波器算出器141进行。另外,求预测分析用逆MLSA滤波器可以使用任意的已知手法。
CPU341通过使输入信号采样Si={si,0,si,1,...,si,l-1}通过所求出的预测分析用逆MLSA滤波器AIMi,来计算残差信号Di={di,0,di,1,...,di,l-1}(步骤S423)。CPU341将所求出的残差信号Di保存倒存储部345中(步骤S425)。
通过以上的步骤S413~S425的处理,例如,在输入信号采样计数器设定为i=0的情况下,将MLSA滤波器系数M0={m0,0,m0,1,...,m0,p-1}和残差信号D0={d0,0,d0,1,...,d0,l-1}保存在保存部345中。
这里,CPU341判别输入信号采样计数器的值i是否达到M-1(步骤S427)。如果i≥M-1(步骤S427为Yes),CPU341结束基于MLSA的预测分析处理。另一方面,如果i<M-1(在步骤S427中为No),则CPU341为了处理下一时间区间的输入信号采样,而将i增加1(步骤S429),重复进行步骤S423~S427的处理。
线形预测分析处理 下面,参照图5所示的流程图,对作为图1的预测分析部131进行的预测分析的一例的线形预测分析进行说明。另外,如前所述,预测分析部131的功能通过CPU341(图3)来实现。
这里,在开始预测分析处理之前,使在存储部345(图3)中保存有作为表示声音的输入波形的数字声音信号的输入信号采样Si={si,0,si,1,...,si,l-1}(i为0≤i≤M-1的整数)。
CPU341将内置的计数寄存器(图中未示)作为用于对值i进行计数的输入信号采样计数器。当开始预测分析处理时,CPU341使输入信号采样计数器的值i为i=0来作为初始值(图5中的步骤S511)。
CPU341从存储部345将与输入信号采样计数器的值i对应的输入信号采样Si={si,0,si,1,...,si,l-1}从存储部345载入到内置的通用寄存器(图中未示)中(步骤S513)。例如,在输入信号采样计数器设定为i=0的情况下,载入输入信号采样S0={s0,0,s0,1,...,s0,l-1}。
下面,CPU341根据所载入的输入信号采样Si={si,0,si,1,...,si,l-1}来计算线形预测系数Ai={ai,1,ai,2,...,ai,n}(步骤S515)。另外,n为线形预测分析的次数。作为线形预测系数的计算方法,只要是评价为残差信号是基于预定尺寸而足够小的计算方法,则可以使用任意的已知手法。例如,最好采用广为公知的、组合了自身相关函数的计算和莱文森·德宾(levinson·Durbin)算法的计算方法。
接着,CPU341将线形预测系数Ai={ai,1,ai,2,...,ai,n}作为预测系数保存到存储部345中(步骤S517)。
而且,CPU341根据线形预测系数Ai={ai,1,ai,2,...,ai,n}来计算预测分析用逆线形预测滤波器AIAi(步骤S519)。另外,步骤S519的处理可以说由图1所示的预测分析用逆滤波器算出器141进行。另外,求预测分析用逆线形预测滤波器可以使用任意的已知手法。
CPU341通过使输入信号采样Si={si,0,si,1,...,si,l-1}通过所求出的预测分析用逆线形预测滤波器AIAi,来计算残差信号Di={di,0,di,1,...,di,l-1}(步骤S521)。CPU341将所求出的残差信号Di保存倒存储部345中(步骤S523)。
通过以上的步骤S513~S523的处理,例如,在输入信号采样计数器设定为i=0的情况下,将线形预测系数数A0={a0,1,a0,2,...,a0,n}和残差信号D0={d0,0,d0,1,...,d0,l-1}保存在保存部345中。
这里,CPU341判别输入信号采样计数器的值i是否达到M-1(步骤S525)。如果i≥M-1(步骤S525为Yes),CPU341结束线形预测分析处理。另一方面,如果i<M-1(在步骤S525中为No),则CPU341为了处理下一时间区间的输入信号采样,而将i增加1(步骤S527),反复进行步骤S513~S525的处理。
不同带域残差信号信息生成处理 下面,参照图6所示的流程图,对作为图1的增益算出部135以及有声无声判别以及音调提取部137进行的不同带域残差信号信息生成处理进行说明。另外,如前所述,增益算出部135以及有声无声判别以及音调提取部137的功能通过CPU341(图3)来实现。
这里,对时间分区i的不同带域残差信号信息生成处理进行说明。
另外,通过将残差信号Di输入到带域滤波器部133(图1)中而生成的不同带域的残差信号D(ωRANGE)已经保存在存储部345(图3)中。
CPU341将内置的计数寄存器(图中未示)用于保存带域识别变量ωRANGE。当开始不同带域残差信号信息生成处理时,CPU341使带域识别变量ωRANGE为ωRANGE=1来作为初始值(图6中的步骤S611)。
CPU341从存储部345将带域ωRANGE的残差信号D(ωRANGE)i={d(ωRANGE)i,0,d(ωRANGE)i,1,...,d(ωRANGE)i,l-1}从存储部345载入到内置的通用寄存器(图中未示)中(步骤S613)。例如,在设定为ωRANGE=1的情况下,载入带域1的残差信号D(1)i={d(1)i,0,d(1)i,1,...,d(1)i,l-1}。
接下来,CPU341根据所载入的残差信号D(ωRANGE)i来算出增益G(ωRANGE)i(步骤S615)。增益G(ωRANGE)I的算出方法如前所述, G(ωRANGE)i =10×log10[Avg{D(ωRANGE)i2}]、 Avg{D(ωRANGE)i2} ={d(ωRANGE)i,02+d(ωRANGE)i,12+…d(ωRANGE)i,l-12}/1 CPU341将所算出的增益G(ωRANGE)i保存到存储部345中(步骤S617)。
接下来,CPU 341判别残差信号D(ωRANGE)i是否为有声音(步骤S619)。
是否为有声音换言之为残差信号D(ωRANGE)i是否具有作为音调的性质。如果残差信号D(ωRANGE)i具有周期性,则可以说残差信号D(ωRANGE)i具有作为音调的性质。因此,要调查残差信号D(ωRANGE)i是否具有周期性。
要调查是否具有周期性,可以使用任意的已知手法。例如,优选根据残差信号求出标准化了的自身相关函数,来调查在该函数中是否存在足够大小的极大值。如果存在该极大值,则可以说残差信号存在周期性。另外,可以说带来该极大的时间间隔是残差信号的周期。另一方面,如果不存在该极大值,则可以说残差信号不具有周期。
残差信号D(ωRANGE)i的自身相关函数C(t)为 C(t)=d(ωRANGE)i,0×d(ωRANGE)i,t +d(ωRANGE)i,1×d(ωRANGE)i,t+1 +... +d(ωRANGE)i,l-1-t×d(ωRANGE)i,l-1。此外,设残差信号D(ωRANGE)i中含有的要素数为单位。即,变量t取从0倒(l-1)的整数值。因此,严格来讲,时间为将对残差信号D(ωRANGE)i中包含的各要素进行采样的时间间隔乘以t而得到的值。因此,为了求出音调频率,需要将t变换成时间。此外,由于在本实施方式中由于对在残差信号D(ωRANGE)i中包含的各要素进行采样的时间间隔为固定,所以时间与t成比例。
通过使用该自身相关函数C(t),可以在原理上了解是否存在极大值。但是,需要将为计算数值而可能不常发生的、偶然产生的极大值除外。因此,根据超过预定阈值Cth的极大值的存在,推定周期性的存在。但是,C(t)从上式可知,与残差信号D(ωRANGE)i的各要素大小的次序(order)的乘积成比例。因此,自身相关函数C(t)随着残差信号D(ωRANGE)i的各要素值变大而变大。于是,阈值Cth必需与残差信号D(ωRANGE)i的大小相符地适当变更。因此,阈值Cth设为常量,对自身相关函数C(t)进行标准化。
如果自身相关函数C(t)的大小不依赖于残差信号D(ωRANGE)i的大小,则自身相关函数C(t)的标准化的方法,可以为任意的方法。例如,优选将标准化因子REG(t)和标准化自身相关函数CREG(t)定义为 REG(t)=[{d(ωRANGE)i,02+d(ωRANGE)i,12+…+d(ωRANGE)i,l-1-t2}×{d(ωRANGE)i,t2+d(ωRANGE)i,t+12+...+d(ωRANGE)i,l-12}]0.5 CREG(t)=C(t)/REG(t)。
阈值Cth只要是对于判别是否在标准化自身相关函数CREG(t)中明确存在极大值有效的数值,可以为任意值。由于CREG(t=0)始终为1,所以优选例如使阈值Cth为相当于1一半的0.5。
其结果是,在步骤S619中,CPU341根据残差信号D(ωRANGE)i计算标准化自身相关函数CREG(t),判别在标准化自身相关函数CREG(t)中是否存在成为CREG(t=tMAX)>Cth(=0.5)的极大值CREG(t=tMAX)。
当在标准化自身相关函数CREG(t)中存在极大值时,即残差信号D(ωRANGE)i具有作为有声音的性质时(步骤S619;Yes),CPU341将表示有声无声的函数即声无声判别函数FlagVorUV(ωRANGE)i设定为FlagVorUV(ωRANGE)i=”V”,并存储在存储部345中(步骤S621)。并且,CPU341通过取标准化自身相关函数CREG(t)的极大值时的t的值即tMAX的倒数,来计算音调频率Pitch(ωRANGE)i(步骤S623)。CPU341将计算出的音调频率Pitch(ωRANGE)i存储在存储部345中(步骤S6225),并使处理进入到步骤S629。
当标准化自身相关函数CREG(t)中不存在成为CREG(t)>Cth(=0.5)的极大值时(步骤S619;No),CPU341将有声无声判别函数FlagVorUV(ωRANGE)i设定为FlagVorUV(ωRANGE)i=”UV”,并存储在存储部345中(步骤S627),使处理进入到步骤S629中。
通过以上的步骤S613~S627的处理,例如在设定成ωRANGE=1时,将带域l的增益G(l)i以及带域l的有声无声判别函数FlagVorUV(l)i存储在存储部345中。并且,当FlagVorUV(l)i=”V”时,将带域l的音调频率Pitch(l)i存储在存储部345中。
在步骤S629中,CPU341判别是否对所有带域进行了步骤S613~S627的处理。如果对所有带域进行了处理(步骤S629;Yes),则CPU341结束不同带域残差信号信息生成处理。如果没有带所有的带域进行处理(步骤S629;No),则CPU341为了处理下一带域的残差信号,而使带域识别变量ωRANGE增加1(步骤S631),重复步骤S613~S629的处理。
这样,对残差信号的每一带域进行增益的计算、有声无声的判别、以及有声时的音调提取。
不同带域声源生成处理 以下,参照图7所示的流程图对图2的不同带域声源生成部231进行的不同带域声源生成处理进行说明。此外,如已描述的那样,通过CPU341(图3)来实现不同带域声源生成部231的功能。
这里,对时间分区i中的不同带域声源生成处理进行说明。
此外,中解码部223中已解码的、不同带域的增益G(ωRANGE)i、有声无声判别函数FlagVorUV(ωRANGE)i、音调频率Pitch(ωRANGE)i被存储在存储部345(图3)中。
CPU341将内置的计数寄存器(图中未示存储)用于带域识别变量ωRANGE的存储。当开始不同带域声源生成处理时,CPU341将带域识别变量ωRANGE作为初始值,设为ωRANGE=1(图7的步骤S711)。
CPU341从存储部345向内置的通用寄存器(图中未示)载入带域ωRANGE的增益G(ωRANGE)i和有声无声判别函数FlagVorUV(ωRANGE)i(步骤S713)。例如,在设定ωRANGE=1时载入带域l的增益G(l)和带域l的有声无声判别函数FlagVorUV(l)i。
接着,CPU341判别所载入的有声无声判别函数FlagVorUV(ωRANGE)i是否为FlagVorUV(ωRANGE)i=”V”(步骤S715)。即,CPU341判别原来的残差信号D(ωRANGE)i是否为有声音。
原来的残差信号D(ωRANGE)i为有声音时,在图6的步骤S623中,通过发送侧的声音编码兼解码装置311的有声无声判别以及音调提取部137(图1)生成音调频率Pitch(ωRANGE)i。因此,在接收侧的声音编码兼解码装置311的存储部345中存储音调频率Pitch(ωRANGE)i。因此,在原来的残差信号D(ωRANGE)i为有声音时(步骤S715;YES),CPU341从存储部345向内置的通用寄存器(图中未示)载入音调频率Pitch(ωRANGE)i(步骤S717)。例如,在设定成FlagVorUV(l)i=”V”时,载入带域l的音调频率Pitch(l)i。
接下来,进行残差信号的复原作业。即,CPU341生成大小为增益G(ωRANGE)i、周期为音调频率Pitch(ωRANGE)i的倒数的脉冲列D’(ωRANGE)i={d’(ωRANGE)i,0,d’(ωRANGE)i,1,...d’(ωRANGE)i,l-1}(步骤S719)。该带域ωRANGE的脉冲列D’(ωRANGE)i是复原后的有声音的残差信号。另外,以与原来的残差信号D(ωRANGE)i的各要素的采样间隔相同的时间间隔生成脉冲列D’(ωRANGE)i的各要素(d’(ωRANGE)i,0,d’(ωRANGE)i,1,...d’(ωRANGE)i,l-1)。
因此,脉冲列D’(ωRANGE)i的各要素(d’(ωRANGE)i,0,d’(ωRANGE)i,1,...d’(ωRANGE)i,l-1)按时间顺序排列。并且,在按时间顺序排列的要素列中,在与音调频率Pitch(ωRANGE)i的倒数即音调周期对应的间隔,出现值为G(ωRANGE)i的要素,其它要素的值为0。
在步骤S715中判别为原来的残差信号D(ωRANGE)i不为有声音时(步骤S715;NO),原来的残差信号D(ωRANGE)i是无声音。因此,CPU341按照预定的顺序生成反映增益G(ωRANGE)l的、并且作为带域ωRANGE的噪声适合的噪声列D’(ωRANGE)i={d’(ωRANGE)i,0,d’(ωRANGE)i,1,...d’(ωRANGE)i,l-1}(步骤S721)。该带域ωRANGE的噪声列D’(ωRANGE)i是复原后的无声音的残差信号。
此外,参照图8对噪声列生成处理的所述预定顺序进行说明。
在原来的残差信号D(ωRANGE)i为有声音和无声音时,都生成脉冲列或者噪声列即不同带域的疑似残差信号D’(ωRANGE)i={d’(ωRANGE)i,0,d’(ωRANGE)i,1,...d’(ωRANGE)i,l-1}。CPU341为了将该部同带域的疑似残差信号D’(ωRANGE)i用于后述的声音信号的再生,而将其存储在存储部345中(步骤S723)。
通过以上的步骤S713~S723的处理,例如在设定成ωRANGE=1时,将脉冲列或者噪声列即带域l的疑似残差信号D’(l)i存储在存储部345中。
接着,CPU341判别是否对于所有的带域进行了步骤S713~S723的处理(步骤S725)。具体地,CPU341判别是否对于所有的带域进行了残差信号的复原(换言之,疑似残差信号的生成)。如果对所有的带域进行了处理(步骤S725;Yes),则CPU341结束不同带域声源生成处理。如果还剩有未进行处理的带域(步骤S725;No),则CPU341为了生成下一带域的疑似残差信号,而将带域识别变量ωRANGE增加1(步骤S727),重复步骤S713~S725的处理。
这样,按每个带域生成脉冲列或噪声列。
噪声列生成处理, 以下,参照图8所示的流程图对图7的步骤S721中的噪声列的生成的具体步骤进行说明。此外,已在图7的步骤S711或S727中设定带域识别变量ωRANGE,在步骤S713中载入增益G(ωRANGE)i。
首先,CPU341生成大小为±1、周期为随机数的基本噪声列Ri={Ri,0,Ri,1,...,Ri,l-1}(步骤S811)。
以与原来的残差信号D(ωRANGE)i的各要素的采样间隔相同的时间间隔来生成基本噪声列Ri的各要素(Ri,0,Ri,1,...,Ri,l-1)。因此,基本噪声列Ri的各要素(Ri,0,Ri,1,...,Ri,l-1)按时间顺序排列。并且,在按时间顺序排列的要素列中,以随机的间隔出现值为+1或-1的要素,其它要素的值为0。
CPU341使所生成的基本噪声列Ri经过在取出带域ωRANGE的成分的带域滤波器,由此来生成带域ωRANGE的基本噪声列R(ωRANGE)i={R(ωRANGE)i,0,R(ωRANGE)i,1,...R(ωRANGE)i,l-1}(步骤S813)。
CPU341将所生成的带域ωRANGE的基本噪声列R(ωRANGE)i乘以增益G(ωRANGE)i,由此生成带域ωRANGE的噪声列D’(ωRANGE)i={d’(ωRANGE)i,0,d’(ωRANGE)i,1,...d’(ωRANGE)i,l-1}(步骤S815),结束噪声列生成处理。
声音信号复原处理 以下,参照图9所示的流程图对图2的合成用逆滤波器算出部235以及合成用逆滤波器部225进行的声音信号复原处理进行说明。此外,对采用基于MLSA的预测分析(图4)作为预测分析的情况进行说明。但是,在采用线性预测分析(图5)等其它预测分析时也可以按照同样的步骤来进行声音信号复原处理。另外,如上所述,通过CPU341(图3)来实现合成用逆滤波器算出部235以及合成用逆滤波器部225的功能。
此外,设为由解码部223解码过的预测系数(MLSA滤波器系数)Mi={mi,0,mi,1,....,mi,P-1}(i为0≤i≤M-1的整数)已存储在存储部345(图3)中。并且,设为由残差信号复原部233复原过后疑似残差信号D’i={d’i,0,d’i,1,...,d’i,l-1}(i为0≤i≤M-1的整数)也已存储在存储部345中。
CPU341将内置的计数寄存器(图中未示)用作输入信号采用计数器,其用于对值i进行计数。当开始声音信号复原处理时,CPU341将输入信号采样计数器的值i作为初始值,设为i=0(图9的步骤S911)。
CPU341,从存储部345向内置的通用寄存器(图中未示)载入对应于输入信号采样计数器的值i的预测系数Mi={mi,0,mi,1,...,mi,P-1}(步骤S913)。例如,当将输入信号采样计数器设定为i=0时,载入预测系数M0={m0,0,m0,1,...,m0,P-1}。
接着,CPU341根据所载入的预测系数Mi={mi,0,mi,1,...,mi,P-1}来计算合成用逆滤波器CIMi(步骤S915)。此外,图2的合成用逆滤波器算出部235进行步骤S915的处理。此外,对于合成用逆滤波器可以采用已知的任意方法。
接下来,CPU341从存储部345向内置的通用寄存器(图中未示)载入疑似残差信号D’i={d’i,0,d’i,1,...,d’i,l-1},使疑似残差信号D’i经过合成用逆滤波器CIMi,由此复原声音信号S’i={s’i,0,s’i,1,...,s’i,l-1}(步骤S917)。此外,对于使疑似残差信号经过合成用逆滤波器,可以采用已知的任意方法。
CPU341将复原后的声音信号S’i={s’i,0,s’i,1,...,s’i,l-1}存储在存储部345中(步骤S919)。
通过以上的步骤S913~S919的处理,例如在将输入信号采样计数器设定为i=0时,将声音信号S’0={s’0,0,s’0,1,...,s’0,l-1}存储在存储部345中。
接下来,CPU341判别输入信号采样计数器的值i是否达到M-1(步骤S921)。若i≥M-1(步骤S921;Yes),则由于所有的声音信号已被复原,CPU341结束声音信号复原处理。若i<M-1(步骤S921;No),则CPU341为了复原下一时间区间的声音信号,而将i增加1(步骤S923),并重复步骤S913~S921的处理。
接着,对通过图4的步骤S417中的倒谱Ci来计算MLSA滤波器系数Mi的步骤的一例进行说明。
图10是表示MLSA滤波器系数计算处理的一例的流程图。CPU341按照如图10的步骤S1011~S1035所示流程来进行计算,由此根据倒谱C’={ci,0,ci,1,...,ci,l/2-1}来求出MLSA滤波器系数Mi={mi,0,mi,1,...,mi,P-1}。此外,α是近似用的数值,当以10kHz来采样声音信号时优选α=0.35。此外,β=1-α2。mi(0≤m≤p-1)初始化为0。
图1 1A和图11B表示使用这样求出的MLSA滤波器系数的MLSA滤波器结构的一例。P1~P4是近似用系数,例如,优选P1=0.4999、P2=0.1067、P3=0.0117、P4=0.0005656。
如以上说明,在本实施方式的声音编码装置111中,当对残差信号进行编码时,将残差信号按每个带域具有某种强度这样的信息与残差信号一起进行编码。由此,通过在声音解码装置221中使用该信息,可以取得合适的激发信号(疑似残差信号)。并且,通过使用该激发信号来解码声音信号,可以提高声音的品质。
当将残差信号分割成多个带域时,存在较强地表现出作为有声音的性质的带域、较强地表现出作为无声音的性质的带域。因此,在本实施方式地声音编码装置111中,按每个带域判别不同带域残差信号是有声音还是无声音,并将该判别结果编码。由此,根据本实施方式,可以向声音解码装置传送根据每一带域的特征而编码的残差信号,能够提高解码的声音品质。
通过音调频率对有声音附加特征。因此,在本实施方式的声音编码装置111中,当某一带域的残差信号具有作为有声音的性质时,从该带域的残差信号中提取音调频率,由该音调频率来代表该带域的残差信号。因此,根据本实施方式,可以在保持该带域的特征的同时,减少要编码的信息量。并且,信息量的减少有利于低比特率通信。
此外,在本实施方式的声音编码装置111中,对每一带域,根据不同带域残差信号的自身相关函数的形状来判别不同带域残差信号是有声音还是无声音。因此,根据本实施方式,如上所述通过在判别中采用预定的基准,可以容易地判别是有声音还是无声音。并且,当判别为是有声音时,还可以同时求出音调频率。
另外,本实施方式地声音编码装置111中,进行基于MLSA的预测分析或者线性预测分析。因此,根据本实施方式可以使分析合成型的声音压缩适用于低比特率。
此外,在本实施方式的声音解码装置211中,生成用于反映从声音编码装置11 1传递的不同带域残差信号强度的激发信号,通过该激发信号来对声音信号进行复原。由此,根据本实施方式,激发信号成为与人类本来的声音相同的、在每一带域具有特征的信号。因此,可以进行高频之的声音信号的解码。
此外,本发明并不限于上述实施方式,还可以进行多种变形及应用。上述的硬件结构或块结构、流程图仅为例示,并没有限定。
例如,假设便携电话作为图3所示的声音编码兼解码装置311。但是,本发明也可同样应用于PHS(Personal Handyphone System)、PDA(Personal DigitalAssistance)、笔记本型以及台式型个人计算机等中的声音处理。例如,当将本发明应用于个人计算机时,可以对个人计算机附加声音输入输出装置、通信装置等。由此,计算机具有作为便携电话的硬件的功能。并且,通过存储媒体或通信来散发用于使计算机执行上述处理的计算机程序,在计算机中安装该程序并进行执行,由此,可以使该计算机作为本发明的声音编码装置或声音解码装置来发挥功能。
即,上述实施方式是用于说明,而不对本发明的范围进行限定。因此,将各个要素或所有要素进行与之等同的置换这样的实施方式也包含在本发明的范围之中。
权利要求
1.一种声音编码装置,包括
预测分析部(131),其通过预测分析声音信号,来获得预测系数和残差信号;
不同带域残差信号生成部(133),其将所述残差信号分割成每个带域的不同带域残差信号;
强度确定部(135),其按照每个所述带域根据所述不同带域残差信号来求出不同带域残差信号强度;以及
编码部(125),其对所述预测系数和每个所述带域的所述不同带域残差信号强度进行编码。
2.根据权利要求1所述的声音编码装置,其特征在于,
还包括有声无声判别部(137),其按照每个所述带域来判别所述不同带域残差信号是有声音还是无声音,
所述编码部(125)还对所述有声无声判别部(137)的判别结果进行编码。
3.根据权利要求2所述的声音编码装置,其特征在于,
还包括音调提取部(137),其从由所述有声无声判别部(137)判别为有声音的不同带域残差信号提取不同带域音调频率,
所述编码部(125)还对所述音调提取部(137)所提取到的不同带域音调频率进行编码。
4.根据权利要求2所述的声音编码装置,其特征在于,
所述有声无声判别部(137)按照每个所述带域,根据所述不同带域残差信号的自身相关函数的形状来判别所述不同带域残差信号是有声音还是无声音。
5.根据权利要求1所述的声音编码装置,其特征在于,
所述预测分析是MLSA(Mel Log Spectrum Approximation)分析,所述预测系数是MLSA滤波器系数,所述残差信号是作为MLSA滤波器的逆滤波器输出而求出的信号。
6.根据权利要求1所述的声音解码装置,其特征在于,所述预测分析是线形预测分析,所述预测系数是线形预测系数,所述残差信号是作为线形预测滤波器的逆滤波器输出而求出的信号。
7.一种声音解码装置,包括
接收部(221),其接收对预测分析声音信号所得的预测系数进行编码而获得的编码预测系数;以及对通过该预测分析而获得的残差信号的、表示每个带域的强度的不同带域残差信号强度进行了编码而获得的编码不同带域残差信号强度;
解码部(223),其根据所述编码预测系数和所述编码不同带域残差信号强度,来对预测系数和每个所述带域的不同带域残差信号强度进行解码;
声源信号生成部(231),其按照每个所述带域,来生成具有所述不同带域残差信号强度所表示的带域依存性的不同带域声源信号;
残差信号复原部(233),其根据每个所述带域的所述不同带域声源信号来复原残差信号;和
合成滤波器(235),其通过合成所述预测系数和所述复原后的残差信号来复原声音。
8.一种声音编码方法,包括以下步骤
预测分析步骤,通过预测分析声音信号来获得预测系数和残差信号;
不同带域残差信号生成步骤,将所述残差信号分割成每个带域的不同带域残差信号;
强度确定步骤,按照每个所述带域根据所述不同带域残差信号来求出不同带域残差信号强度;以及
编码步骤,对所述预测系数和每个所述带域的所述不同带域残差信号强度进行编码。
9.一种声音解码方法,包括以下步骤
接收步骤,接收对预测分析声音信号所得的预测系数进行编码而获得的编码预测系数;以及对通过该预测分析所得的残差信号的、表示每个带域的强度的不同带域残差信号强度进行编码而获得的编码不同带域残差信号强度;
解码步骤,根据所述编码预测系数和所述编码不同带域残差信号强度来对预测系数和每个所述带域的不同带域残差信号强度进行解码;
声源信号生成步骤,按照每个所述带域生成具有所述不同带域残差信号强度所表示的带域依存性的不同带域声源信号;
残差信号复原步骤,根据每个所述带域的所述不同带域声源信号来复原残差信号;以及
合成步骤,通过合成所述预测系数和所述复原后的残差信号来复原声音。
10.一种计算机可读取记录媒体,记录了用于使计算机执行以下步骤的程序
预测分析步骤,通过预测分析声音信号来获得预测系数和残差信号;
不同带域残差信号生成步骤,将所述残差信号分割成每个带域的不同带域残差信号;
强度确定步骤,按照每个所述带域根据所述不同带域残差信号来求出不同带域残差信号强度;以及
编码步骤,对所述预测系数和每个所述带域的所述不同带域残差信号强度进行编码。
11.一种计算机可读取记录媒体,记录了用于使计算机执行以下步骤的程序
接收步骤,接收对预测分析声音信号所得的预测系数进行编码而获得的编码预测系数;以及对通过该预测分析所得的残差信号的、表示每个带域的强度的不同带域残差信号强度进行编码而获得的编码不同带域残差信号强度;
解码步骤,根据所述编码预测系数和所述编码不同带域残差信号强度来对预测系数和每个所述带域的不同带域残差信号强度进行解码;
声源信号生成步骤,按照每个所述带域生成具有所述不同带域残差信号所表示的带域依存性的不同带域声源信号;
残差信号复原步骤,根据每个所述带域的所述不同带域声源信号来复原残差信号;以及
合成步骤,通过合成所述预测系数和所述复原后的残差信号来复原声音。
全文摘要
本发明提供一种声音编码装置、声音解码装置、声音编码方法、声音解码方法、以及计算机可读取的记录媒体。在声音编码装置(111)中,带域滤波器部(133)将由预测分析部(131)生成的残差信号分解成每个带域的成分。然后,增益算出部(135)和有声无声判别以及音调提取部(137)求出带有各带域特征的强度、有声音和无声音的区别、以及有声音时的音调频率。该所求出的信息与预测系数一起被编码,并传递至声音解码装置(211)。在声音解码装置(211)中,在反映原来的残差信号的各带域的特征的同时生成激发信号。因此,该激发信号可高效地再现原来的残差信号。
文档编号G10L11/02GK101123091SQ20071014023
公开日2008年2月13日 申请日期2007年8月6日 优先权日2006年8月7日
发明者井手博康 申请人:卡西欧计算机株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1