生成基音周期波形信号的装置和方法及处理语音信号的装置和方法

文档序号:2835039阅读:437来源:国知局
专利名称:生成基音周期波形信号的装置和方法及处理语音信号的装置和方法
技术领域
本发明涉及生成基音周期波形信号的装置和方法。本发明也涉及使用这种生成基音周期波形信号方法的语音信号压缩装置、语音信号扩展装置、语音信号压缩方法和语音信号扩展方法。
此外,本发明涉及使用这种生成基音周期波形信号方法的语音合成装置、语音词典生成装置、语音合成方法和语音词典生成方法。
可以将语音信号的压缩方法大致地分为使用人类声学机能的方法和使用声带特征的方法。
使用人类声学机能的方法包括MP3(MPEG1音频层3),ATRAC(自适应变换声学编码)和AAC(高级音频编码)。使用声学机能方法的特点是虽然压缩率低但是音质高,并且经常用于压缩音乐信号。
另一方面,使用声带特征的方法是用于压缩语音的方法,其特点是虽然音质低但是压缩率高。使用声带特征的方法包括使用线性预测编码的方法,尤其是CELP和ADPCM(自适应差分脉冲编码调制)。
使用线性预测编码方法压缩语音时,通常应该抽取语音的基音周期(基音频率的倒数)用于进行线性预测编码。为此,事先要用诸如倒谱分析的傅立叶变换的方法来抽取基音周期。
使用傅立叶变换方法抽取基音周期时,基音频率是从出现频谱峰值的频率(共振峰频率)中选取的,并且把基音频率的倒数确定为基音周期。
通过进行FFT(快速傅立叶变换)操作及其他类似操作可以获取频谱。为了通过FFT操作获取频谱,通常应该以比相当于语音的一个基音周期更长的时间周期进行语音采样。
采样连续进行过程中,进行语音采样的时间周期越长,由语音和其他类似声音切换而造成波形上突变的可能性就越高。如果在采样进行过程中出现波形上的突变,那么在采样后续处理中被确定的共振峰频率中包含的错误将十分明显。
此外,人声的基音周期长度中还包括起伏。起伏可能会在共振峰频率中引发错误。这就是说,以相当于若干个基音周期的时间周期对包含起伏的语音进行采样,其结果是使起伏变得平滑,由此确定出的共振峰频率也将与包含起伏的真实共振峰频率不同。
如果基于起伏平滑了的基音周期值压缩语音信号的话,那么在语音信号扩展和播放时,不仅产生的是机械语音,而且,音质也会降低。
考虑到上述情况设计了本发明,并且第一目的是提供基音周期波形信号生成装置和基音周期波形信号生成方法,此装置和方法作为初步处理,以有效地对包含基音周期起伏的语音波形信号进行编码。
其次,在近几年中,诸如蜂窝电话等进行数字语音通信的终端得到了广泛的应用。例如,可将这些终端用于传送使用诸如CELP(码本激励线性预测)的LPC(线性预测编码)方法压缩的语音信号。
使用线性预测编码方法时,将通过对人类声音的声道特征(声道的频率特征)进行编码来对语音进行压缩。要播放语音时,将搜索以此码本作为索引的码表。
但是,当此方法用于蜂窝电话及类似装置时,经常会降低声音的质量,从而如果码本的数量太小,对语音通信对方的声音的识别变得困难。
为了在线性预测方法中改进音质,可以增加在码表中注册的声道特征成分的数量。但是,在增加成分数量的方法中,要被传送的数据的数量和码表中的数据的数量都会显著地增加。这样,压缩效率就会大打折扣,同时也很难将码表储存在仅能容纳小型装置的终端中。
此外,人类的实际声道具有非常复杂的结构,而且声道的频率特征是随时间波动的。这样,语音的基音周期就具有起伏。因此,尽管可以对人的声音简单地进行傅立叶变换,但却不能精确地确定声道特征。因此,如果使用基于对人声进行傅立叶变换的简单结果确定的声道特征来进行线性预测编码的话,尽管增加了码表成分的数量,音质也不可能得到令人满意的改进。
考虑到上述情况设计了本发明,并且第二目的是提供语音信号压缩/扩展装置和语音信号压缩/扩展方法,此装置和方法用于高效地压缩表征语音的数据或者压缩表征在高音质中具有起伏的语音的数据。
此外,用于合成语音的方法包括通常所说的规则合成法。规则合成法是这样一种方法其中,基于作为文本词法分析和韵律预测编码的结果获取的信息,来确定基音信息和频谱包络信息(声道特征),并且基于确定结果来合成阅读该文本的语音。
特别地,例如图8所示,首先,对用于合成语音的文本进行词法分析(图8中的步骤S101),基于词法分析的结果生成一列表征阅读文本语音发音的发音符号(步骤S102),并且生成一列表征该语音韵律的韵律符号(步骤S103)。
然后,基于已获得的发音符号序列来确定语音频谱包络(步骤S104),基于这个包络来确定模拟声道特征的滤波器的特征。另一方面,基于已获得的韵律符号序列来生成表征声道产生声音的特征的音源参数(步骤S105),并且基于音源参数生成表征由声道产生的声音波形的音源信号(步骤S106)。
然后,由决定特征的滤波器对该音源信号进行滤波(S107),由此合成语音。
如图9所示,为了合成语音,将通过在由冲激序列源1产生的冲激序列和由白噪声源2产生的白噪声之间的切换来模拟音源信号。之后,由模拟声道特征的数字滤波器3对音源信号进行滤波以生成语音。
但是,人类的实际声带具有复杂的结构,并且会使得通过冲激序列表征声带特征变得困难。因此,由上述规则合成法合成的语音容易成为不同于人所发出的真实语音的机械语音。
同时,声道结构也是复杂的,从而使得精确预测频谱包络变得困难,因此由数字滤波器表征声道特征也将变得困难。这也是引起由规则合成法合成的语音的音质降低的原因。
考虑到上述情况设计了本发明,并且第三个目的是提供语音合成装置、语音词典生成装置、语音合成方法和语音词典生成方法作为它的第三对象,此装置和方法用于高效地合成自然的语音。

发明内容
为获取本发明的上述三个目的,本发明也主要分成三类。为了方便,在下文中将这三类发明分别称为第一发明、第二发明和第三发明。
下面将按顺序介绍这些发明的内容。第一发明为获取第一发明的目的,根据第一发明的基音周期波形信号生成装置主要包括检测语音波形信号的每个基音周期波形成分的瞬时基音周期的装置;和把相应的基音周期波形成分转换成具有预设的固定时间长度的归一化基音周期波形成分的装置,该装置将基于检测到的瞬时基音周期,通过保留基音周期波形模式的同时在时间轴上扩展和压缩基音周期波形成分来实现的。此外,另一方面,根据本发明的基音周期波形信号生成装置还包括在语音波形信号的一定时间间隔内检测平均基音周期的装置;可变滤波器,该滤波器具有随着检测到的平均基音周期变化的频率特征,同时对语音波形信号进行滤波;基于可变滤波器的输出来检测语音波形信号的瞬时基音周期的装置;基于检测到的单独的瞬时基音周期来抽取相应基音周期波形成分的装置;和通过在时间轴上扩展和压缩基音周期波形长度,把抽取的基音周期波形成分转换成具有预设固定时间长度的基音周期波形成分的装置。
根据本发明的结构,如果提供了这样的语音波形信号,其中产生声音的基音周期在每一瞬间发生改变(随时间波动),那么语音波形中的单独基音周期波形成分将被转换为具有固定时间长度的归一化基音周期波形成分。通过对语音波形成分进行这个归一化处理(根据本发明),可以获得这样的语音波形其具有几乎相同模式的多个波形成分不断地被重复。这样,在模式改变均一化的语音波形中,各个基音周期波形之间的相关性得到了改善,因此,可以期望通过对基音周期波形进行熵编码来实施对实质信息的压缩。这里,熵编码是指一种高效编码(信息压缩)模式,其中注重于每个采样样本的发生概率,给发生概率高的样本分配具有较少比特的码字。根据熵编码,给发生概率高的样本分配较少比特数的码字,并且注重于样本的发生概率进行编码。如果使用熵编码,那么用相对于定长编码较少信息量来对来自于发生概率不平衡的信息源的信息进行编码。应用熵编码的一个典型例子是DPCM(差分脉冲编码调制)。
如上所述,根据本发明的上面的结构,基音周期波形成分的改变将由于它们的归一化而均一化,从而使得各个波形成分之间的相关度得到了增加。因此,如果确定了相邻基音周期波形成分之间的差别,并且对此差别进行了编码,那么已编码的比特效率将会得到改善。这是因为对于同其它信号具有高相关度的信号来说,其信号间差别的差分信号的动态范围比原始信号的动态范围小得多,因此使得显著减少编码所需比特数成为可能。
更具体地说,根据第一发明的基音周期波形信号生成装置包括可变滤波器,该可变滤波器具有根据表征语音波形的语音信号滤波的控制而变化的频率特征,由此抽取语音的基音频率分量;滤波器特征确定单元,此单元可以基于由上述可变滤波器抽取的基音频率分量确定上述语音的基音频率,并控制上述的可变滤波器以获得这样的频率特征其中除了那些存在于已确定基音频率附近的分量,其余分量均被截止;基音周期抽取装置,该装置用于基于语音信号的基音频率分量值将上述语音信号分成多个段,其中每段都由与单位基音周期相等的语音信号组成;和语音信号处理单元,此单元通过使得上述每段中的语音信号的相位完全相同,将语音信号处理成基音周期波形信号。
上述的语音信号处理单元可包括一个基音周期长度固定单元,这个长度固定单元可以通过对上述每段中基音周期波形信号以完全相同的样本数量进行采样(重采样),使得每段中基音周期波形信号的时间长度完全相同。
上述的基音周期长度固定单元可以生成和输出用于在上述的每段中确定基音周期波形信号的原始时间长度的数据。
上述的基音周期波形信号生成装置可包括一个插值单元,该单元可以将用于基音周期波形信号插值的的信号增加到由上述基音周期长度固定单元采样(重采样)的基音周期波形信号上。
上述的插值单元可包括通过多种方法对相同基音周期波形信号实施插值,以生成多个插值后的基音周期波形信号的装置;和生成多个频谱信号的装置,其中每个频谱信号表征如下处理的结果对每个插值后的基音周期波形信号进行傅立叶变换,基于已生成的频谱信号在插值后的基音周期波形信号之外以最小数量的谐波分量来确定基音周期波形信号,以及输出确定后的基音周期波形信号。
上述的滤波器特征确定单元可包括一个交叉检测单元,该单元识别由上述可变滤波器抽取的基音频率分量到达预设值的周期,并基于已识别的周期来确定上述的基音频率。
上述的滤波器特征确定单元可包括平均基音周期检测单元,该单元基于语音信号检测由滤波前语音信号表征的语音的基音周期长度;和确定单元,该单元确定由上述交叉检测单元所识别的周期和由上述平均基音周期检测单元所识别的基音周期长度之间是否存在预定量或更大的差别,并且,如果确定不存在这样的差别,将控制上述可变滤波器以获得这样的频率特征其中,除了存在于由上述交叉检测单元识别的基音频率附近的分量,其它分量均被截止,且如果确定存在这样的差别,将控制上述可变滤波器以获得这样的频率特征其中,除了存在于由上述平均基音周期检测单元识别的基音周期长度中识别出的基音频率附近的分量,其它分量均被截止。
上述的平均基音周期检测单元可包括倒谱分析单元,用于确定滤波前语音信号的倒谱具有最大值所在的频率;自相关分析单元,用于确定滤波前语音信号的自相关函数的周期图(periodgram)具有最大值所在的频率;和平均值计算单元,该单元基于由上述倒谱分析单元和上述自相关分析单元所确定的频率,确定由语音信号表征的语音基音周期的平均值,并且将已确定的平均值识别为语音的基音周期长度。
上述的平均值计算单元可以从由上述倒谱分析单元和上述自相关分析单元所确定的频率中,将具有与预设值相等或更小的频率排除在将要确定其平均值的对象之外。
上述的语音信号处理单元可包括幅度固定单元,用于生成表征通过上述基音周期波形信号值乘以一个比例因子获得的结果的新基音周期波形信号,从而均一化新基音周期信号的幅度以使得有效值之间完全相等。
上述的幅度固定单元可以生成和输出表示上述比例因子的数据。
此外,从另一个角度看,可以把第一发明理解为一种基音周期波形信号生成方法。此方法包括如下步骤通过使用频率特征随控制变化的可变滤波器对表征语音波形的语音信号进行滤波,抽取语音的基音频率分量;基于上述可变滤波器抽取的基音频率分量,确定上述语音的基音频率;控制上述可变滤波器以获得这样的频率特征其中除了存在于已确定基音频率附近的分量,其它分量均被截止;基于语音信号基音频率分量的值,将上述语音信号分成几段,其中每段均由与单位基音周期相等的语音信号组成;和通过通过使得上述每段中的语音信号的相位完全相同,将语音信号处理成基音周期波形信号。第二发明为获取第二发明的目的,根据第二发明的语音信号压缩装置主要包括检测语音波形信号的每个基音周期波形成分的瞬时基音周期的装置;基于检测到的瞬时基音周期,通过在时间轴上扩展和压缩基音周期波形成分同时保留其波形模式,将相应的基音周期波形成分转换为具有预设固定时间长度的归一化基音周期波形成分的装置;和对瞬时基音周期的值进行单独编码的编码装置,其中该瞬时基音周期是为每个基音周期波形成分和表征具有用变换装置获得的固定时间周期的归一化基音周期波形成分的信号而检测的。
本发明的语音压缩装置具有对归一化语音信号(即由均具有固定时间长度的基音周期波形成分组成的语音)进行熵编码的编码装置,以此有效地对带有上面特征优点的信号的信息进行压缩,其中上面的特征是由基音周期波形成分的归一化而带来的。
具体地说,根据第一方面,第二发明的语音信号压缩装置包括语音信号处理装置,该方法用于获得表征将被压缩的第一语音波形的语音信号,使得与语音信号的单位基音周期相等的每段的时间长度都完全相同,并由此把语音信号处理成基音周期波形信号;子波段抽取装置,用于从基音周期波形信号中抽取上述第一语音的基音频率分量和谐波分量;恢复装置,用于从用于生成差别的第二语音的基音频率分量和谐波分量中随时间的变化的子波段信息中识别在由上述子波段抽取装置抽取的基音频率分量和谐波分量中具有随时间变化的最高相关的子波段信息;差分装置,用于基于上述语音信号和由上述恢复装置识别的子波段信息,生成表征上述第一语音波形和由子波段信息表征的上述第二语音波形之间差别的差分信号;和输出装置,用于输出识别子波段信息和上述差分信号的识别码,其中该子波段信息是由上述恢复装置识别的。
此外,根据第二方面,第二发明的语音信号压缩装置包括语音信号处理装置,用于获得表征将被压缩的第一语音波形的语音信号,使得与语音信号的单位基音周期相等的每段的时间长度都完全相同,并由此把语音信号处理成基音周期波形信号;子波段抽取装置,用于从基音周期波形信号中抽取上述第一语音的基音频率分量和谐波分量;恢复装置,用于在由上述子波段抽取装置抽取的基音频率分量和谐波分量中识别具有随时间变化的最高相关子波段信息,该子波段信息是来自表示在用于生成差别的第二语音的基音频率分量和谐波分量中随时间的变化的了波段信息中。
差分装置,基于由上述子波段抽取装置抽取的上述第一语音的基音频率分量和谐波分量以及由上述恢复装置确定的子波段信息,生成表征基音频率分量和谐波分量中上述第一语音波形和上述第二语音波形之间差别的差分信号;和输出装置,用于输出识别子波段信息和上述差分信号的识别码,其中该子波段信息是由上述查找装置识别的。
可以使表示由子波段信息表征的第二语音讲话者的语音特征的讲话者确定数据与上述子波段信息一致,并且上述查找装置可以包括基于上述语音信号确定第一语音讲话者特征的特征识别装置,其识别在由上述子波段抽取装置抽取的基音频率分量和谐波分量中确定具有随时间变化最高相关的信息,上面所说的信息仅仅指与表征由上述特征识别装置识别的特征的讲话者确定数据相一致的信息。
上述输出装置可以基于由上述子波段抽取装置抽取的上述第一语音的基音频率分量和谐波分量来确定上述第一语音是否与第三语音完全相同,其中第三语音的基音频率分量和谐波分量是在进行抽取操作之前抽取的,如果确定上述第一语音与上述第三语音完全相同,则还将输出表示与上述第三语音完全相同的上述第一语音的数据而不是上述识别码和差分信号。
上述语音信号处理装置可包括生成和输出基音周期数据的装置,该基音周期数据用于在上述每段中识别基音周期波形信号的原始时间长度。
上述语音信号处理装置可包括可变滤波器,该滤波器具有根据控制而变化的频率特征以对上述语音信号进行滤波,并由此抽取语音信号的基音频率分量;滤波器特征确定单元,该单元基于由上述可变滤波器抽取的基音频率分量确定上述语音的基音频率,并且该单元对上述可变滤波器进行控制以获得这样的频率特征其中,除了存在于已识别的基音频率附近的分量,其它分量均被截止。
基音周期抽取装置,基于语音信号的基音频率分量值将上述语音信号分成多个段,其中每段都由与单位基音周期相等的语音信号组成;和基音周期长度固定单元,该单元通过在上述语音信号的上述每段中以完全相同的样本数对语音信号进行采样,生成基音周期波形信号,其中该基音周期波形信号在上述每段中的时间长度都完全相同。
上述滤波器特征确定单元可包括一个识别一周期的交叉检测单元,在此周期内,由上述可变滤波器抽取的基音频率分量达到预设值,并且基于这个识别的周期,该单元识别上述基音频率。
上述滤波器特征确定单元可包括平均基音周期检测单元,该单元基于语音信号,检测由滤波前语音信号表征的语音的基音周期的时间长度;确定单元,该单元确定在由上述交叉检测单元确定的时间长度和由上述平均基音周期检测单元确定的时间长度之间是否存在预定量或更大的差别,并且,如果确定不存在这样的差别,对上述可变滤波器进行控制以获得这样的频率特征除了存在于由上述交叉检测单元识别的基音频率附近的分量,其他分量均被截止,如果确定存在这样的差别,对上述可变滤波器进行控制以获得这样的频率特征除了存在于从由上述平均基音周期检测单元识别的基音周期时间长度中识别的基音频率附近的分量,其他分量均被截止。
上述平均基音周期检测单元可包括倒谱分析单元,该单元确定滤波前语音信号的倒谱具有最大值所在的频率;自相关分析单元,该单元确定滤波前语音信号自相关函数周期图具有最大值所在的频率;和平均值计算单元,该单元基于由上述倒谱分析单元和上述自相关分析单元确定的频率,确定语音信号表征的语音的基音周期的平均值,并且把该已确定的平均值识别为语音基音周期的时间长度。
接着,根据第二发明的语音信号扩展装置包括输入装置,用于获得识别码、差分信号和基音周期数据;其中识别码用于指定子波段信息,该子波段信息示出了在第一基音周期波形信号的基音频率分量和谐波分量中随时间的变化,该第一基音周期波形信号是通过使各段的时间长度完全相同来生成的,其中这些段中的每个都与表征第一语音波形的语音信号的单位基音周期相等;差分信号表征了将被复原的第二语音波形与上述第一语音波形之间的差别;基音周期数据表示了与上述第二语音单位基音周期相等的段的时间长度;基音周期波形信号恢复装置,用于获得上述波段信息中由上述输入装置获得的识别码识别的子波段信息,同时基于已获得的子波段信息复原第一基音周期波形信号;加法装置,用于生成第二基音周期波形信号,该第二基音周期波形信号表征第一基音周期波形信号的波形与由上述差分信号表征的波形的总和,其中的第一基音周期波形信号是由上述基音周期波形信号恢复装置复原的;和语音信号恢复装置,基于上述基音周期数据和上述第二基音周期波形数据,生成表征上述第二语音的语音信号。
此外,根据其他方面的语音信号扩展装置包括输入装置,用于获得识别码、差分信号和基音周期数据;其中识别码用于指定子波段信息,该子波段信息示出了在第一基音周期波形信号的基音频率分量和谐波分量中随时间的变化,该第一基音周期波形信号是通过使各段的时间长度完全相同来生成的,其中这些段中的每个都与表征第一语音波形的语音信号的单位基音周期相等。差分信号表征了将被复原的第二语音波形与上述第一语音之间的基音频率分量和谐波分量中的差别。基音周期数据表示了与上述第二语音单位基音周期相等的段的时间长度;子波段信息恢复装置,用于获得上述子波段信息的、由上述输入装置获得的识别码识别的子波段信息,同时基于已获得的子波段信息和上述差分信号,确定上述第二语音的基音频率分量和谐波分量;和语音信号恢复装置,基于上述基音周期数据和上述第二语音的基音频率分量和谐波分量,生成表征上述第二语音的语音信号,其中上述第二语音是由上述子波段信息恢复装置确定的。
第二发明也可以看作是一种语音信号压缩方法,在这种情况下,该方法包括如下步骤获得表征将要被压缩的第一语音波形的语音信号,并且使各段的时间长度完全相同,其中每段都与语音信号的单位基音周期相等,由此将语音信号处理成基音周期波形信号;从基音周期波形信号中抽取上述第一语音的基音频率分量和谐波分量;识别子波段信息,该子波段信息在由上述子波段抽取装置抽取的基音频率分量和谐波分量中具有随时间变化的最高相关,该子波段信息是来自表示了在用于生成差别的第二语音基音频率分量和谐波分量中随时间的变化的;基于上述语音信号和已识别的子波段信息生成差分信号,该差分信号表征上述第一语音波形和由子波段信息表征的上述第二语音波形之间的差别;和输出用于识别已识别的子波段信息和上述差分信号的识别码。
此外,另一种语音信号压缩方法包括如下步骤获得表征将要被压缩的第一语音波形的语音信号,并且使各段的时间长度完全相同,其中每段都与语音信号的单位基音周期相等,由此将语音信号处理成基音周期波形信号;从基音周期波形信号中抽取上述第一语音的基音频率分量和谐波分量;用于确定子波段信息的查找装置,该子波段信息在由上述子波段抽取装置抽取的基音频率分量和谐波分量中具有随时间变化的最高相关,该子波段信息是来自表示了在用于生成差别的第二语音基音频率分量和谐波分量中随时间的变化的;基于上述第一语音的基音频率分量和谐波分量与已识别的子波段信息生成差分信号,该差分信号表征基音频率和谐波分量中上述第一语音波形和上述第二语音波形之间的差别;和输出用于识别已识别的子波段信息和上述差分信号的识别码。
此外,根据第二发明的语音信号扩展方法包括如下步骤获得识别码、差分信号和基音周期数据;其中识别码用于指定子波段信息,该子波段信息示出了在第一基音周期波形信号的基音频率分量和谐波分量中随时间的变化,该第一基音周期波形信号是通过使各段的时间长度完全相同来生成的,其中这些段中的每个都与表征第一语音波形的语音信号的单位基音周期相等;差分信号表征了将被复原的第二语音波形与上述第一语音波形之间的差别;基音周期数据表示了与上述第二语音单位基音周期相等的段的时间长度;获得上述子波段信息中的、由输入装置获得的识别码识别的子波段信息,同时基于已获得的子波段信息,复原第一基音周期波形信号;生成第二基音周期波形信号,该第二基音周期波形信号表征已复原的第一基音周期波形信号的波形与由上述差分信号表征的波形的总和;和基于上述基音周期数据和上述第二基音周期波形数据,生成表征上述第二语音的语音信号。
此外,根据第二发明的另一种语音信号扩展方法包括如下步骤获得识别码、差分信号和基音周期数据;其中识别码用于指定子波段信息,该子波段信息示出了在第一基音周期波形信号的基音频率分量和谐波分量中随时间的变化,该第一基音周期波形信号是通过使各段的时间长度完全相同来生成的,其中这些段中的每个都与表征第一语音波形的语音波形的单位基音周期相等;差分信号表征了基音频率分量和谐波分量中将被复原的第二语音波形与上述第一语音之间的差别;基音周期数据表示了与上述第二语音单位基音周期相等的段的时间长度;获得由上述子波段信息的、由上述输入装置获得的识别码识别的子波段信息,同时基于已获得的子波段信息和上述差分信号,确定上述第二语音的基音频率分量和谐波分量;和基于上述基音周期数据与上述已确定的基音频率分量和谐波分量,生成表征上述第二语音的语音信号。第三发明为获取第三发明的目的,根据第三发明的第一方面的语音合成装置包括用于储存韵律信息、基音周期信息和频谱信息的储存装置;其中韵律信息表征单位语音采样的韵律,基音周期信息表征采样的基音周期,频谱信息表示了基音周期波形信号的基音频率分量和谐波分量中随时间的变化,其中的基音周期波形信号是通过使各段的时间长度完全相同来生成的,其中这些段中的每个都与表征采样波形的语音信号的单位基音周期相等,其中该采样带有使采样开始对应的信息;预测装置,用于输入表征文本的文本信息,并且基于文本信息生成表征对组成文本的单位语音的基音周期和频谱的预测结果的预测信息;基于上述基音周期信息、频谱信息和预测信息用于识别采样的查找装置,其中该采样具有与组成上述文本的单位语音的基音周期和频谱最高相关的基音周期和频谱;和信号合成装置,用于生成合成语音信号,该合成语音信号表征其中具有韵律的语音,其中的韵律是由使上述查找装置识别的采样对应的韵律信息表征的,在基音频率分量和谐波分量中的随时间的变化是由使上述查找装置识别的采样开始对应的频谱信息表征的,与单位基音周期相等的段的时间长度是由使上述查找装置确定的采样对应的基音周期信息表征的。
上述频谱信息可由表征对表示基音周期波形信号的基音频率分量和谐波分量中随时间变化的数值进行非线性量化的结果值的数据组成。
此外,根据本发明的第二方面的语音词典生成装置包括基音周期波形信号生成装置,用于获得表征单位语音波形的语音信号,使各段的时间长度完全相同,其中这些段中的每个都与语音信号的单位基音周期相等,由此将语音信号处理成基音周期波形信号;基音周期信息生成装置,用于生成和输出表征上述段的原始时间长度的基音周期信息;频谱信息抽取装置,基于基音周期波形信号,生成和输出示出上述语音信号的基音频率分量和谐波分量中随时间的变化的频谱信息;和韵律信息生成方法,用于获得表征语谱图(phonogram)的语声数据,其中语谱图表征基音周期语音的发音,该装置还将确定由语声数据表征的发音韵律,并生成和输出表征已确定韵律的韵律信息。
上述频谱信息抽取装置包括可变滤波器,该滤波器具有根据控制而变化的频率特征以对上述语音信号进行滤波,从而抽取语音信号的基音频率分量;滤波器特征确定装置,基于由上述可变滤波器抽取的基音频率分量来识别上述单位语音的基音频率分量,并且对上述可变滤波器进行控制以获得这样的频率特征除了存在于已确定基音频率附近的分量,其他分量均被截止;基音周期抽取装置,基于语音信号的基音频率分量值,将上述语音信号分成多个段,其中每段都由与单位基音周期相等的语音信号组成;和基音周期长度固定单元,该单元通过对上述各段中的语音信号以完全相同的样本数进行采样,以生成基音周期波形信号,其各段中的时间长度完全相同。
上述滤波器特征确定装置可包括交叉检测方法,用于识别由上述可变滤波器抽取的基音频率分量达到预设值的时间长度,并且基于已识别的时间长度来识别上述基音频率。
上述滤波器特征确定装置可包括平均基音周期检测装置,基于滤波前的语音信号来检测由语音信号表征的语音的基音周期的时间长度;和确定装置,用于确定在由上述交叉检测方法确定的时间长度和由上述平均基音周期检测装置识别的基音周期时间长度之间是否存在预定量或更大的差别,并且,如果确定不存在这样的差别,对上述可变滤波器进行控制以获得这样的频率特征除了存在于由上述交叉检测装置识别的基音频率附近的分量,其他分量均被截止;如果确定存在这样的差别,对上述可变滤波器进行控制以获得这样的频率特征除了存在于从由上述平均基音周期检测装置识别的基音周期时间长度中识别的基音频率附近的分量,其他分量均被截止。
上述平均基音周期检测装置可包括倒谱分析装置,用于确定由上述可变滤波器进行滤波前的语音信号的倒谱达到最大值所在的频率;自相关分析装置,用于确定由上述可变滤波器进行滤波前的语音信号的自相关函数的周期图达到最大值所在的频率;和平均值计算装置,基于由上述倒谱分析装置和上述自相关分析装置确定的频率来确定由语音信号表征的语音基音周期的平均值,并且将已确定的平均值确定为单位语音基音周期的时间长度。
上述频谱信息抽取装置可以生成表征对表示上述语音信号基音频率分量和谐波分量中随时间变化的数值进行非线性量化的结果,并且输出数据作为上述的频谱信息。
此外,根据本发明第三方面的语音合成方法包括如下步骤
储存表征单位语音采样韵律的韵律信息,表征采样基音周期的基音周期信息,和表示基音周期波形信号的基音频率分量和谐波分量中随时间的变化的频谱信息,其中的基音周期波形信号是通过使各段的时间长度完全相同来生成的,这些段中的每个都与表征采样波形的语音信号的单位基音周期相等,其中采样带有使采样对应的信息;输入表征文本的文本信息,并基于文本信息生成预测信息,该预测信息表征对由文本组成的单位语音基音周期和频谱预测的结果;基于上述基音周期信息、频谱信息和预测信息,识别具有这样基音周期和频谱的采样其中该基音周期和频谱与由上述文本组成的单位语音的基音周期和频谱具有最高相关;和生成表征语音的合成的语音信号,其中,该语音具有由开始对应已识别采样的韵律信息表征的韵律,基音频率分量和谐波分量中随时间的变化是由对应已由上述查找装置确定的采样的频谱信息表征的,与单位基音周期相等的段的时间长度是由对应已由上述恢复装置识别的采样的基音周期信息表征的。
此外,根据本发明的第四方面的语音词典生成方法包括如下步骤获得表征单位语音波形的语音信号,并且使各段的时间长度完全相同,其中这些段中的每个都与语音信号的单位基音周期相等,由此将语音信号处理成基音周期波形信号;生成和输出表征上述段中的原始时间长度的基音周期信息;基于基音周期波形信号,生成和输出表示上述语音信号的基音频率分量和谐波分量中随时间的变化的频谱信息;和获得表征语谱图的语声数据,其中语谱图表征单位语音的发音,并且确定由语声数据表征的发音的韵律,生成和输出表征已确定韵律的韵律信息。


图1示出了根据本发明实施例的基音周期波形抽取系统的结构;图2(a)示出了通过常规方法获得的语音频谱的一个例子,图2(b)示出了根据本发明实施例的基音周期波形抽取系统获得的基音周期波形信号频谱的一个例子;图3是表示根据本发明实施例的语音信号压缩器的结构的框图;图4是表示在语音的每个频率分量的强度中随时间的变化的一个例子的图;图5是表示根据本发明实施例的语音信号扩展器的结构的框图;图6是表示根据本发明实施例的语音词典生成系统的结构的框图;图7是表示根据本发明实施例的语音合成系统的结构的框图;图8说明了通过规则合成方法进行语音合成的步骤;和图9用示意图说明了语音合成的原理。
例如,语音输入单元1是由记录介质驱动器(软盘驱动器,MO驱动器等)组成的,用于读取记录在记录介质(例如软盘和MO(磁光盘))及其他类似介质中的数据。
语音输入单元1输入表征语音波形的语音数据,以将语音数据提供给倒谱分析单元2、自相关分析单元3、BPF 6、波形相关分析单元8和幅度固定单元10。
此外,语音数据具有PCM(脉冲编码调制)——已调制数字信号的格式,并且表征在比语音基音周期充分短的固定周期内采样的语音。
倒谱分析单元2,自相关分析单元3,权重计算单元4,BPF系数计算单元5,BPF6,过零分析单元7,波形相关分析单元8,相位调整单元9,幅度固定单元10,基音周期长度固定单元11,插值处理单元12A,插值处理单元12B,傅立叶变换单元13A,傅立叶变换单元13B,波形选择单元14和基音周期波形输出单元15中的每一个都是由DSP(数字信号处理器)、CPU(中央处理器)和其他类似器件组成。
而且,相同的DSP和CPU可以执行倒谱分析单元2,自相关分析单元3,权重计算单元4,BPF系数计算单元5,BPF6,过零分析单元7,波形相关分析单元8,相位调整单元9,幅度固定单元10,基音周期长度固定单元11,插值处理单元12A,插值处理单元12B,傅立叶变换单元13A,傅立叶变换单元13B,波形选择单元14和基音周期波形输出单元15的段或全部功能。
倒谱分析单元2对由语音输入单元1提供的语音数据进行倒谱分析以识别由语音数据表征的语音的基音频率,并且生成表示已识别的基音频率的数据,将表示基音频率的数据提供给权重计算单元4。在这里,通过将频谱对数确定为频率函数并且对其进行傅立叶反变换,获得倒谱。
具体地说,当从语音输入单元1输入语音数据时,倒谱分析单元2首先将确定该语音数据的频谱,并且将此频谱转换成与频谱对数完全相等的数值(对于对数的底数没有限制,例如可以使用常用对数)。
然后,频谱分析单元2通过快速傅立叶反变换的方法(或者任何用于生成表征对离散变量进行傅立叶反变换的结果的其他方法)来确定倒谱。
将给定该倒谱最大值的频率的最小值识别为基音频率,生成表示该已识别的基音频率的数据并且将其提供给权重计算单元4。
当把语音数据从语音输入单元1提供给自相关分析单元3时,自相关分析单元3将基于语音数据波形的自相关函数来识别由语音数据表征的语音的基音频率,并且生成表示该已识别的基音频率的数据,将此数据提供给权重计算单元4。
具体地说,当把语音数据从语音输入单元1提供给自相关分析单元3时,自相关分析单元3将确定由公式1右边表征的自相关函数r(1)[公式1]r(1)=1NΣt=0N-1-1{x(t+1)·x(t)}]]>式中N是语音数据采样的总数量,x(α)是从语音数据头开始的第α个采样的值。
然后,自相关分析单元3将给定函数(周期图)最大值并且超越预设的下限频率的最小值确定为基音频率,其中该函数是作为对自相关函数r(1)进行傅立叶变换的结果而获得的,并且该单元生成表示已确定基音频率的数据,并将该数据提供给权重计算单元4。
将表示基音频率的全部这两个数据提供给权重计算单元4时,权重计算单元4将确定这两个数据所示的基音频率的倒数绝对值的平均值,其中这两个数据一个来源于倒谱分析单元2,另一个来源于自相关分析单元3。然后,权重计算单元4将生成表示已确定值(即平均基音周期长度)的数据,并且将该数据提供给BPF系数计算单元5。
当把来自权重计算单元4的表示平均基音周期长度的数据和来自于过零分析单元7的后面所述的过零信号提供给BPF系数计算单元5时,BPF系数计算单元5将基于提供的数据和过零信号,确定在平均基音周期长度与基音周期信号和过零的周期之间是否存在预定值或更大值的差别。然后,如果确定不存在这样的差别,BPF系数计算单元5将对BPF6的频率特征进行控制以使过零周期的倒数与中心频率(BPF6通带的中心频率)相等。另一方面,如果确定存在这样的预设数值或者更大的数值的差别,BPF系数计算单元5将对BPF6的频率特征进行控制以使平均基音周期长度的倒数与中心频率相等。
BPF6以可变的中心频率来执行FIR(有限冲激响应)类型滤波器功能。
具体地说,BPF6将其自己的中心频率设置为适合BPF系数计算单元5控制的数值。然后,BPF6对由语音输入单元1提供的语音数据进行滤波,并将已滤波的语音数据(基音周期信号)提供给过零分析单元7和波形相关分析单元8。该基音周期信号是由数字数据组成的,该数字数据的采样间隔与语音数据的采样间隔完全相同。
此外,期望BPF6的带宽满足BPF6通带的上限始终不高于由语音数据表征的语音的基音频率的2倍。
过零分析单元7确定由BPF6提供的基音周期信号的瞬时值达到0的时刻(过零发生的时刻),并且将表征已确定时刻的信号(过零信号)提供给波形相关分析单元8。
但是,过零分析单元7也可以确定基音周期信号的瞬时值达到一个除0之外的预设数值的时刻,并且将表征已确定时刻的信而不是替过零信号提供给波形相关分析单元8。
把来自于语音输入单元1的语音数据和来自于带通滤波器6的基音周期信号提供给波形相关分析单元8操作,以使语音数据以达到基音周期信号的单位周期(例如一个周期)边界的时刻同步地划分。对于每个被划分的段,将确定其相位以各种方式改变的段中语音数据和段中基音周期信号之间的相关,并且把提供最高相关的语音数据相位确定为段中语音数据的语音数据相位。
具体地说,例如,当表征相位的ψ值(ψ为等于或大于0的整数)以各种不同的方式改变时,波形相关分析单元8将为每时刻每段确定由公式(2)的右边所表征的cor的值。然后,波形相关分析单元8将确定提供cor最大值的ψ(Ψ)的值,生成表征Ψ值的数据,并把该数据作为表征段中语音数据相位的相位数据提供给相位调整单元9。[公式2]cor=Σi=1n{f(i-φ)·g(i)}]]>式中n是段中采样的全部数目,f(β)是从段中语音数据头开始的第β个采样的值,g(γ)是从段中基音周期信号头开始的第γ个采样的值。
此外,期望段中的时间长度与大约一个基音周期相等。随着段长度的增加,将会增加段中采样数量,从而增加基音周期波形信号的数据量,或者增加进行采样操作的时间间隔的数量,这样将使得基音周期波形信号表征的语音变得不准确。
当把来自于语音输入单元1的语音数据和来自于波形相关分析单元8的表示语音数据每段相位Ψ的数据提供给相位调整单元9时,相位调整单元9将移动每段语音数据的相位以使语音数据的相位与各段相位Ψ相等。然后,将相移语音数据提供给幅度固定单元10。
当把来自于相位调整单元9的相移语音数据提供给幅度固定单元10时,幅度固定单元10将该语音数据的每一段乘以一个比例因子以改变其幅度,并且将改变了幅度的语音数据提供给基音周期长度固定单元11。此外,生成表示段与另外应用到段中的比例因子值之间对应的比例因子数据,并将其提供给基音周期波形输出单元15。
确定与语音数据相乘的比例因子,以使语音数据每段幅度的有效值是一个公共的固定值。也就是说,如果这个固定值等于J,幅度固定单元10将让固定值J除以语音数据段的幅度有效值K以获得值(J/K)。这个值(J/K)就是将应用于各段的比例因子。
当把来自于幅度固定单元10的已改变幅度的语音数据提供给基音周期长度固定单元11时,基音周期长度固定单元11将对该语音数据的每段再次进行采样(重采样),并且将重采样的语音数据提供给插值处理单元12A和12B。
此外,基音周期长度固定单元11生成表示每段原始采样数量的采样数量数据,并且将该数据提供给基音周期波形输出单元15。
而且,基音周期长度固定单元11进行重采样,其方式为在相同段中以规则的时间间隔对数据采样,这样使得语音数据每段的采样数量几乎相同。
当把来自于基音周期长度固定单元11的重采样语音数据提供给插植处理单元12A时,插植处理单元12A通过拉格朗日插值法生成表征用于在该语音数据采样间进行插值的数值的数据,并且将这个数据(拉格朗日插值数据)连同重采样语音数据一起提供给傅立叶变换单元13A和波形选择单元14。重采样语音数据和拉格朗日插值数据组成了拉格朗日插值后的语音数据。
插值处理单元12B通过格雷果里/牛顿插值法生成表征用于在由基音周期长度固定单元11提供的语音数据采样间进行插值的数值的数据(格雷果里/牛顿插值数据),并将该数据连同已采样的语音数据一起提供给傅立叶变换单元13B和波形选择单元14。重采样数据和格雷果里/牛顿插值数据组成了格雷果里/牛顿插值后的语音数据。
在拉格朗日插值和格雷果里/牛顿插值中,波形的谐波分量都将减小到相对低的水平。但是,由于这两种方法使用了不同的函数来对两点之间进行插值,根据将被插值的采样的值,谐波分量的数量在两种方法之间将会是不同的。
当把来自于插值处理单元12A(或12B)的拉格朗日插值后的(或格雷果里/牛顿插值后的)语音数据提供给傅立叶变换单元13A(或13B)时,傅立叶变换单元13A(或13B)将通过快速傅立叶变换的方法(或者任何其他用于生成表征对离散变量进行傅立叶变换的结果的数据的方法)确定该语音数据的频谱。然后,将表征已确定的频谱的数据提供给波形选择单元14。
当把来自于插值处理单元12A和12B的表征相同声音的插值后语音数据和来自于傅立叶变换单元13A和13B的该语音数据的频谱提供给波形选择单元14时,波形选择单元14将基于提供的频谱确定拉格朗日插值后的语音数据和格雷果里/牛顿插值后的语音数据中的哪一个具有更小的谐波失真。拉格朗日插值后的语音数据和格雷果里/牛顿插值后的语音数据中具有更小的谐波失真的那一个将被提供给基音周期波形输出单元15作为基音周期波形信号。
可以认为,当基音周期长度固定单元11对基音周期波形数据的每段进行重采样时,每段的波形将出现失真。但是,由于波形选择单元14在以多种方法进行插值的基音周期波形信号中,选择了具有最小谐波分量数量的基音周期波形信号,包括在最终由基音周期波形输出单元15输出的基音周期波形数据中的谐波分量的数量将减小到较低的水平。
而且,例如,波形选择单元14可以为由傅立叶变换单元13A和13B提供的两个频谱中的每个,确定其频率为基音频率2倍或更高的分量的有效值,并且将已确定的有效值较小的频谱确定为具有较小谐波失真,从而确定的语音数据的频谱。
当把来自于幅度固定单元10的比例因子数据,来自于基音周期长度固定单元11的采样数量数据以及来自于波形选择单元14的基音周期波形数据提供给基音周期波形输出单元15时,基音周期波形输出单元15将输出这三个数据和使它们之间相互对应的数据。
对于从基音周期波形输出单元15输出的基音周期波形信号,单位基音周期段的长度和幅度进行了归一化,从而消除基音周期起伏的影响。因此,可以从基音周期波形信号的频谱中获取表示共振峰的陡峭波峰,可以十分精确地从基音周期波形信号中抽取出共振峰。
具体地说,例如图2(a)所示,由于基音周期的起伏,没有消除基音周期起伏的语音数据的频谱将呈现出无明显波峰的广阔分布。
另一方面,例如如果使用这个基音周期波形抽取系统,从具有如图2(a)所示频谱的语音数据中生成基音周期波形数据,将获取如图2(b)所示的频谱作为这个基音周期波形数据的频谱。如此图所示,这个基音周期波形数据的频谱具有明显的共振峰波峰。
此外,由于从基音周期波形输出单元15输出的基音周期波形信号中消除了基音周期起伏的影响,可以从基音周期波形信号中高重复性地抽取共振峰分量。也就是说,可以很容易地从表征同一讲话者语音的基音周期波形信号中抽取完全相同的共振峰分量。因此,例如,当要通过使用码本的方法压缩语音时,将可以很容易地把在多种场合获取的讲话者的共振峰数据用于连接词中。
此外,可以使用相同的采样数量数据来识别基音周期波形信号的每一段的原始时间长度,并且可以利用比例因子数据来识别基音周期波形信号的每一段的原始幅度。因此,通过将基音周期波形信号的每一个段的长度和幅度恢复到原始语音数据中的长度和幅度,可以容易地恢复原始语音数据。
而且,这种基音周期波形抽取系统的结构不限于上面的介绍。
例如,语音输入单元1可经诸如电话线、专用线和卫星线路的通信线从外部获得语音数据。在这种情况下,仅给语音输入单元1提供由(例如)调制解调器和DSU(数据服务单元)的通信控制单元。
此外,语音输入单元1可包括声音收集装置,其由麦克、AF(音频)放大器、采样器、A/D(模拟-数字)转换器、PCM编码器等等组成。语音收集装置对表示由它的麦克收集的语音的语音信号进行放大,并且对语音信号进行采样和A/D转换器,然后对采样的语音信号进行PCM调制,从而获得语音数据。而且,由语音输入单元1获得语音数据不必一定是PCM信号。
此外,基音周期波形输出单元15可以经通信线将比例因子数据、样本数数据和基音周期波形数据提供给外部。在这种情况下,只给基音周期输出单元15提供由调制解调器、DSU等构成的通信控制单元。
此外,基音周期波形输出单元15可以将比例因子数据、样本数数据以及基音周期波形数据写入由硬盘装置或类似装置组成的外部记录介质和外部存储装置中。在这种情况下,仅给基音周期波形输出单元15提供诸如硬盘控制器的记录介质驱动器和控制电路。
此外,由插值处理单元12A和12B执行的插值方法不限于拉格朗日插值以及格雷果里/牛顿插值法,可以使用任何其它的方法。此外,这种基音周期波形抽取系统可以利用三种或更多种方法来执行对语音数据插值,并且具有最小的谐波波形失真的语音数据作为基音周期波形数据。
此外,在这种基音周期波形抽取系统中,一个插值处理单元可利用一种方法来对语音数据进行插值,并且可以象对基音周期波形数据一样直接处理语音数据。在这种情况下,这种基音周期波形抽取系统不需要具有付立叶变换单元13A或13B,也不需要具有波形选择单元14。
此外,这种波形抽取系统不一定需要对语音数据的幅度有效值进行归一化(uniformalize)。因此,幅度固定单元10不是一个必备的单元,且相位调整单元9可以将相移语音数据直接提供给基音周期长度固定单元11。
此外,这种基音周期波形抽取系统不需要具有倒谱分析单元2(或者自相关分析单元3),在这种情况下,权重计算单元4可以象平均基音周期长度一样直接处理由倒谱分析单元2(或,自相关分析单元3)确定的基频的倒数。
此外,过零分析单元7可直接地将来自BPF6的基音周期信号提供给BPF系数计算单元5,作为过零信号。
已经在上面介绍了本发明的实施例,但是可以利用常规的计算机系统而不是专用系统来实现根据本发明的基音周期波形产生装置。
例如,从存储程序的介质(CD-ROM,MO,软磁盘等等)将执行上面介绍的语音输入单元1、倒谱分析单元2、自相关分析单元3、权重计算单元4、BPF系数计算单元5、BPF 6、过零分析单元7、波形相关分析单元8、相位调整单元9、幅度固定单元10、基音周期长度固定单元11、插值处理单元12A、插值处理单元12B、付立叶变换单元13A、付立叶变换单元13B、波形选择单元14和基音周期波形输出单元15的运行的程序安装在计算中,从而可以建造执行上面介绍的过程的基音周期波形抽取系统。
此外,例如,该程序可以公布在具有通信线的电子公告系统(BBS)上,并且经过通信线进行发布,或者该程序可以由表征该程序的信号调制的载波的方式被恢复,获得的已调制波形被发射,且接收已调制波形的装置对该已调制的波形进行解调。
然后,启动该程序,并且在OS的控制下,象其它的应用程序一样被执行,从而可以执行上面介绍的过程。
而且,如果OS执行过程的段、或者OS组成本发明的一个单元,从该段中去除的程序可以被存储在记录介质中。同样,在这种情况下,在本发明中,执行由计算机运行的每一个功能或步骤的程序被存储在记录介质中。第二发明下面将利用示例的语音信号压缩器和语音信号扩展器来介绍第二发明的实施例。语音信号压缩器图3示出根据本发明实施例的语音信号压缩器的配置。如图所示,该语音信号压缩器由语音输入单元A1、基音周期波形抽取单元A2、子波段划分单元A3、幅度调整单元A4、非线性量化单元A5、线性预测分析单元A6、编码单元A7、解码单元A8、差别计算单元A9、量化单元A10、算术编码单元A11和比特流形成单元A12。
例如,语音输入单元A1由记录介质驱动器(软磁盘驱动器、MO驱动等)构成,以读出被记录在记录介质(例如,软磁盘和MO(磁光盘))上的数据。
语音输入单元A1通过从存储该语音数据的记录介质中读出语音数据,获得表征语音的波形的语音数据,并且将语音数据提供给基音周期波形抽取单元A2和线性预测分析单元A6。
基音周期波形抽取单元A2、子波段划分单元A3、幅度调整单元A4、非线性量化单元A5、线性预测分析单元A6、编码单元A7、解码单元A8、差别计算单元A9、量化单元A10、和算术编码单元A11中的每一个都由诸如DSP(数字信号处理器)和CPU(中央处理单元)的处理器组成。
而且,基音周期波形抽取单元A2、子波段划分单元A3、幅度调整单元A4、非线性量化单元A5、线性预测分析单元A6、编码单元A7、解码单元A8、差别计算单元A9、量化单元A10、和算术编码单元A11的段或所有功能可以由单个处理器执行。
基音周期波形抽取单元A2将从语音输入单元A1供给的语音数据划分成多个段,每一个段相当于由该语音数据表征的语音的单位基音周期周期(例如,一个基音周期)。然后,对已划分的段进行相移和重采样,使各段的时间长度和相位实质上相同。
然后,将带有各段的时间长度和相位相同的语音数据(基音周期波形数据)供给子波段划分单元A3和差别计算单元A9。
此外,基音周期波形抽取单元A2生成示出在该语音数据的每一个段中的多个原始采样值的基音周期信息,并且将基音周期信息供给算术编码单元A11。
如图2所示,按照功能来说,基音周期波形抽取单元A2由(例如)倒谱分析单元2、自相关分析单元3、权重计算单元4、BPF(带通滤波器)系数计算单元5、带通滤波器6、过零分析单元7、波形相关分析单元8、相位调整单元9和幅度固定单元10组成。
基音周期波形抽取单元的运行和功能与在第一发明中介绍的一样。
当从相位调整单元9将相移语音数据提供给基音周期长度固定单元11时,基音周期长度固定单元11对供给的语音数据的各个段进行重采样,以使各段的时间长度实质上相同。然后,将具有各段时间长度相同的语音数据(比特波形数据)供给子波段划分单元A3和差别计算单元A9。
此外,基音周期长度固定单元11生成示出在该语音数据的每一个段中的多个原始采样值(在该语音数据的每一个段中的采样值数是在当从语音输入单元1将语音数据供给基音周期长度固定单元11时)的基音周期信息,并且将基音周期信息供给算术编码单元A11。假设对由语音数据输入单元A1获得的语音数据进行采样的时间间隔是已知的,基音周期信息相当于(functions as)示出等于该语音数据的单位基音周期周期的段的原始时间长度的信息。
子波段划分单元A3对从基音周期波形抽取单元A2供给的基音周期波形数据进行诸如DCT(离散余弦变换)的正交变换,从而生成子波段数据。然后,将生成的子波段数据供给幅度调整单元A4。
子波段数据包括示出在由基音周期波形信号表征的语音的基频分量的强度随时间的变化的数据以及示出在该语音的n个基频分量的强度随时间变化的n个数据(n是自然数)。因此,当基频分量(或者,谐波分量)的强度没有随时间变化时,子波段数据以直流信号的形式表征基频分量(或者,谐波分量)的强度。
当从子波段划分单元A3将子波段数据供给幅度调整单元A4时,幅度调整单元A4将由该子波段数据表征的基频分量和谐波分量的瞬时值乘以比例因子,以改变幅度值,并且将带有改变的幅度值的子波段数据供给非线性量化单元A5。
此外,幅度调整单元A4生成示出在子波段数据和其中的频率分量(基频或谐波分量)以及加到其上的比例因子值之间的对应关系的比例因子数据,且将该比例因子数据供给算术编码单元A11。
确定比例因子,使得由相同的子波段数据表征的频率分量的强度的最大值是一个公共固定值(例如)。即,假设该固定的值等于J,幅度调整单元A4将固定值除以特定频率分量的强度的最大值K,以计算值(J/K)。这个值(J/K)是该频率分量的瞬时值被乘以的比例因子。
当从幅度调整单元A4将带有改变的幅度值的子波段数据供给非线性量化单元A5时,非线性量化单元A5生成子波段数据,该子波段数据等于通过对由该子波段数据表征的每一个频率分量的瞬时值进行非线性压缩(具体地说,例如将瞬时值代入向上的凸函数)获得的值进行量化而得到的数据,并且将生成的子波段数据(在非线性量化之后的子波段数据)供给编码单元A7。
而且,非线性压缩的方法可以是任何的方法,在这些方法中,特别地,线性量化单元A5是这样的,使得经过量化之后的每一个频率分量的瞬时值实质上等于通过量化原始瞬时值的对数(然而,对于所有的频率分量,对数的基数是一样的(例如,相同的对数))获得的值。
线性预测分析单元A6对从语音输入单元A1供给的语音数据进行线性预测分析,从而抽取出并且识别出对具有由该语音数据表征的语音的扬声器的特定参数(例如,表征封装具有该语音的频谱的封装数据或者表征该数据的共振峰的数据)。然后,将抽取出的参数供给编码单元A7。
除了处理器之外,编码单元A7包括由硬盘装置或类似装置组成的存储装置。
对于每一个扬声器,编码单元A7存储对扬声器的特定参数以及对由线性预测分析单元A6抽取出的识别参数(例如,如果识别的参数是封装数据,则对数据进行封装)类型相同。此外,音位词典表征音位,音位构成扬声器的语音,音位与每一个扬声器的参数的相应关系一起存储在音位词典中。具体地说,音位词典存储子波段数据,该子波段数据示出在具有对每一个音位的音位的基频分量和谐波分量的强度随时间而变化。给每一个子波段数据分配对子波段数据的特定识别码。
当从非线性量化单元A5将经非线性量化的子波段数据供给编码单元A7时,并且从非线性预测分析单元A6将识别参数提供给编码单元A7时,编码单元A7识别最接近从非线性预测分析单元A6供给的识别参数的参数,该参数是存储在编码单元中参数的参数,从而选出带有对应该参数的音位词典。
如果识别的参数和存储在编码单元A7中的参数都是由封装数据组成,编码单元A7可以识别(例如)一个参数,该参数将具有与由识别的参数表征的封装有最大的相关系数的封装作为可以最接近识别参数的参数。
然后,编码单元A7识别表征一个波形的子波段数据,该波形最接近从非线性量化单元A5供给的子波段数据,该子波段数据是来自包括在选择的音位词典中的子波段数据。具体地,例如,编码单元A7执行下面介绍的过程(1)和(2)。也就是,(1)首先,相同频率分量之间的相关系数被逐一地在从非线性量化单元A5供给的子波段数据和包括在选择的音位词典中的一个音位的子波段数据之间进行确定,并且计算确定的系数的均值。(2)为包括在选择的音位词典中的所有音位的子波段数据执行过程(1),并且识别对相关系数的均值最大的子波段数据作为表征最接近从非线性量化单元A5供给的子波段数据波形的波形。
然后,编码单元A7将分配给识别的子波段数据的识别码供给算术编码单元A11。也将识别的子波段数据供给编码单元A8。
解码单元A8对从编码单元A7供给的子波段数据进行变换,从而恢复具有由该子波段数据表征的每一个频率分量的强度的基音周期波形数据。然后,恢复的基音周期波形数据被供给差别计算单元A9。
由解码单元A8对子波段数据的变换实质上与为产生该子波段数据而对音位的波形进行的变换相反。具体地,如果该子波段数据是通过对音位进行DCT来产生,解码单元A8可以对该子波段数据进行IDCT(反向DCT)。
差别计算单元A9产生表征在从基音周期波形抽取单元A2供给基音周期波形数据的瞬时值和从差别计算单元A9供给基音周期波形数据的瞬时值之间的差值的差别数据,并且将该差别数据供给量化单元A10。
除了处理器之外,量化单元A10包括诸如ROM(只读存储器)的存储装置。
量化单元A10存储一个参数,该参数示出根据用户的操作或类似操作来量化差分信号的精度(或者,表征量化后的差分信号的数据量与量化前的差分信号的数据量的比率的压缩比)。当从差别计算单元A9将差分信号提供给量化单元A10时,量化单元A10用存在量化单元A10中的参数示出的精度来量化来自差别计算单元A9的差分信号(或者,量化该值以获得由该参数表征的压缩比),并量化后的差别数据提供给算术编码单元A11。
算术编码单元A11将从编码单元A7提供的识别码、从量化单元A10提供的差分信号、从基音周期波形抽取单元A2提供的基音周期信息和从幅度调整单元A4提供的比例因子数据转换成算术码(arithmetic code),并且将算术码和带有算术码的相互对应关系一起提供给比特流形成单元A12。
比特流形成单元A12由(例如)控制电路和诸如CPU的处理器组成,控制电路根据诸如RS232C的规范来与外部进行串行通信。
比特流形成单元A12产生一比特流,该比特流表征带有相互对应关系的算术码,并且被从算术编码单元A11提供,并且输出比特流作为压缩的语音数据。
压缩的语音数据是根据基音周期波形数据来产生的,压缩的语音数据是这样的语音数据其中,等于单位基音周期周期的各段的时间长度被归一化,并且消除了基音周期的波动影响。因此,压缩的语音数据精确地表征语音的频率分量(基频分量和谐波分量)的强度随时间的变化。
此外,压缩语音由差别数据构成,差别数据表征识别码和该语音数据之间的差别,识别码用于识别语音,对于该语音,事先准配频率分量随时间变化的采样值数据。
另一方面,例如如图4所示,由人实际产生的语音的频率分量的强度随时间变化是非常小的,在相同的扬声器的语音之间的强度的差别也是很小的。因此,与要压缩语音的扬声器相同的、表征扬声器的语音的子波段数据被事先存储在音位词典中,并且对该扬声器的特定识别参数被加入到对应关系中,从而大大地减少了差别数据的数据量。因此,也显著地减少了压缩的语音数据的数据量。
而且,在图4中,识别为“BND0”的图形示出语音的基频分量的强度,而识别为“BNDK”的图形(k是从1到7的整数)示出该语音的(k+1)阶谐波分量的强度。识别为“d1”的段是表征元音“a”的段,识别为“d2”是表征元音“i”的段,识别为“d3”是表征元音“u”的段,识别为“d4”是表征元音“e”的段。
此外,可以使用基音周期信息来识别基音周期波形信号的每个段的原始时间长度,可以使用比例因子数据来识别每一个频率分量的原始幅度。因此,通过将每个段的时间长度和基音周期波形信号的每一个频率分量的幅度恢复到原始语音数据中的时间长度和幅度,可以容易地恢复原始语音数据。
而且,这种语音信号压缩器的配置不限于以上所述。
例如,语音输入单元A1可经诸如电话线、专用线和卫星线路的通信线从外部获得语音数据。在这种情况下,仅给语音输入单元A1提供由(例如)调制解调器和DSU(数据服务单元)等等组成的通信控制单元。
此外,语音输入单元A1可包括声音收集装置,其由麦克、AF放大器、采样器、A/D(模拟-数字)转换器、PCM编码器等等组成。语音收集装置对表征由它的麦克收集的语音的语音信号进行放大,并且对语音信号进行采样和A/D转换器,然后对采样的语音信号进行PCM调制,从而获得语音数据。而且,由语音输入单元A1获得语音数据不必一定是PCM信号。
此外,这种基音周期波形抽取单元A2不一定需要具有倒谱分析单元A21(或者自相关分析单元A22),在这种情况下,权重计算单元A23直接处理由倒谱分析单元A21(或,自相关分析单元A22)确定的基频的倒数,作为平均基音周期长度。
此外,过零分析单元A26可以将从带通滤波器A25提供的基音周期信号直接地提供给BPF系数计算单元A24,作为过零信号。
此外,比特流形成单元A12可以经通信线或类似线路将压缩的语音数据提供给外部。在这种经通信线或类似线路将数据提供给外部的情况下,只给比特流形成单元A12提供(例如)由调制解调器、DSU等构成的通信控制单元。
此外,比特流形成单元A12可包括记录介质驱动器,在这种情况下,比特流形成单元A12可以将要存储在语音词典中的数据写入到在这种记录介质驱动器的记录介质的存储区域中。
而且,单个调制解调器、DSU或记录介质驱动器可构成语音输入单元A1和比特流形成单元A12。
此外,差别计算单元A9可获得由非线性量化单元A5产生的、非线性量化之后的子波段数据,并且获得由编码单元A7识别的子波段数据。
在这种情况下,差别计算单元A9可以为具有相同频率的每一组分量确定由非线性量化单元A5产生的、经非线性量化后的子波段数据表征的每一个频率分量的强度的瞬时值以及由编码单元A7识别的子波段数据表征的每一个频率分量的瞬时值之间的差别,并且生成表征每一个确定的差别的差别数据,且将该差别数据提供给量化单元A10。
此外,编码单元A7可包括存储单元,用于存储在过去从非线性量化单元A5提供的、经非线性量化后的子波段数据的最新的子波段数据。在这种情况下,每一次经非线性量化之后的子波段数据被提供给编码单元A7时,编码单元A7可确定子波段数据是否具有与存储在编码单元A7中的、非线性量化后的子波段数据的某一水平或较大相关性,如果确定子波段数据具有这样的相关水平,将表明波形与连续的波形的上一个波形相同的预定数据提供给算术编码单元A11,代替识别码和差别数据。这样,进一步减少压缩语音数据的数据量。
而且,例如,可以这样确定在最近提供的子波段数据和存储在编码单元A7中的子波段数据之间的相关水平在相同频率分量之间的相关系数被在子波段数据之间逐一确定,并且该确定是(例如)基于确定的系数的平均值的幅度做出的。语音信号扩展器现在介绍根据本发明实施例的语音信号扩展器。
图5示出语音信号扩展器的一种配置。如图所示,语音信号扩展器由比特流分解单元B1、算术编码解码单元B2、解码单元B3、差别恢复单元B4、加法单元B5、非线性反量化单元B6、幅度恢复单元B7、子波段合成单元B8、语音波形恢复单元B9以及语音输出单元B10组成。
比特流分解单元B1由(例如)控制电路和诸如CPU的处理器组成,控制电路根据诸如RS232C的规范来控制与外部的串行通信。
比特流分解单元B1从外部获得由上面介绍的语音信号压缩器的比特流形成单元A12产生的比特流(或者,具有实质上与比特流形成单元A12产生的比特流相同的数据结构的比特流)。然后,将获得的比特流分解成表征识别码的算术码、表征差别数据的算术码和表征基音周期信息的算术码,并且将获得的算术码提供给算术码解码单元B2。
算术编码解码单元B2、解码单元B3、差别恢复单元B4、加法单元B5、非线性反量化单元B6、幅度恢复单元B7、子波段合成单元B8、和语音波形恢复单元B9中的每一个都由诸如DSP的处理器和CPU组成。
而且,算术编码解码单元B2、解码单元B3、差别恢复单元B4、加法单元B5、非线性反量化单元B6、幅度恢复单元B7、子波段合成单元B8、和语音波形恢复单元B9的段或所有功能可以由单个处理器执行。
算术编码解码单元B2对从比特流解码单元B1提供的算术码进行解码,以恢复识别码、差别数据、比例因子数据和基音周期信息。然后,将恢复的识别码提供给解码单元B3,将恢复的差别数据提供给差别恢复单元B4,将恢复的比例因子数据提供给幅度恢复单元B7,并将恢复的基音周期信息提供给语音波形恢复单元B9。
除了处理器之外,解码单元B3进一步包括由硬盘装置等组成的存储装置。解码单元B3存储实质上与存储在上面介绍的语音信号压缩器的编码单元A7中的音位词典相同的音位词典。
当从算术编码解码单元B2将识别码提供给解码单元B3时,解码单元B3从音位词典中查找分配了该识别码的子波段数据,并且将查找到的子波段数据提供给加法单元B5。
当从算术编码解码单元B3将差别数据提供给差别恢复单元B4时,实际上象上面介绍的语音信号压缩器的子波段划分单元A3的转换一样,差别恢复单元B4对该差别数据进行相同转换,从而生成表征该差别数据的每一个频率分量的强度的数据。然后,将生成的数据提供给加法单元B5。
对于由从解码单元B3提供的子波段数据表征的每一个频率分量,加法单元B5计算由从差别恢复单元B4提供的数据所表征的频率分量的瞬时值与相同频率分量的瞬时值之和。然后,生成表征为所有的频率分量计算的和的数据,并且将其提供给非线性反向量化单元B6。被提供给非线性反向量化单元B6的这种数据等同于通过处理根据要被扩展的语音数据产生的子波段数据而获得的、经非线性压缩的子波段数据,该处理实质上与上面介绍的语音信号压缩器的幅度调整单元A4和非线性量化单元A5执行的处理相同。
当从加法单元B5将数据提供给非线性反向量化单元B6时,非线性反向量化单元B6改变由该数据表征的每一个频率分量的瞬时值,从而生成等同于在被非线性地量化之前的子波段数据,表征要被扩展的语音数据,并且将该数据提供给幅度恢复单元B7。
当在被进行非线性量化之前,从非线性反向量化单元B6将子波段数据提供给幅度恢复单元B7时,并且从算术编码解码单元B2将比例因子数据提供给恢复单元B7时,幅度恢复单元B7将由子波段数据表征的每一个频率分量的瞬时值乘以由比例因子数据表征的比例因子的倒数,以改变幅度,并且将带有改变的幅度的子波段数据提供给子波段合成单元B8。
当从幅度恢复单元B7将带有改变的幅度的子波段数据提供给子波段合成单元B8时,子波段合成单元B8对子波段数据进行变换,该变换实质上与上面介绍的语音信号压缩器的解码单元A8执行的变换相同,从而用由子波段数据表征的每一个频率分量的强度来恢复基音周期波形数据。然后,将恢复的基音周期波形提供给语音波形恢复单元B9。
语音波形恢复单元B9改变从子波段合成单元B8提供的基音周期波形数据的每一段的时间长度,使得该时间长度等于从算术编码解码单元B2提供的基音周期信息示出的时间长度。例如,可以通过改变存在于各段中的各样值之间的距离来执行改变各段的时间长度。
然后,语音波形恢复单元B9将带有改变的每一段的时间长度的基音周期波形数据(也就是,语音数据表征恢复的语音)提供给语音输出单元B10。
语音输出单元B10包括(例如)执行PCM解码器功能的控制电路、D/A(数字-模拟)转换器、AF(音频)放大器、扬声器等。
当从语音波形恢复单元B9将表征恢复的语音的语音数据提供给语音输出单元B10时,语音输出单元B10对语音数据进行解调,对语音数据进行D/A变换和放大,并且使用获得的模拟信号来驱动扬声器,从而重播语音。
而且,这种语音信号扩展器的配置不限于上面所述。
例如,比特流分解单元B1可以通过通信线从外部获得语音数据。在这种情况下,仅将由(例如)调制解调器、DSU等组成的通信控制单元提供给比特流分解单元B1。
此外,比特流分解单元B1可以包括(例如)记录介质驱动器,且在这种情况下,比特流分解单元B1可通过从在其中存储有这种压缩的语音数据的记录介质中读出数据来获得压缩的语音数据。
此外,语音输出单元B10可经通信线或类似线路将压缩的语音输出到外部。在通过通信线将数据输出的情况下,仅将由(例如)调制解调器、DSU等组成的通信控制单元提供给语音输出单元B10。
此外,语音输出单元B10可包括记录介质驱动器,在这种情况下,语音输出单元B10可将要存储在音位词典中的数据写入到设在记录介质驱动器中的记录介质的存储区域。
而且,单个调制解调器、DSU或记录介质驱动器可构成比特流分解单元B1和语音输出单元B10。
此外,差别数据可表征确定要压缩的语音的每一个频率分量的强度和另一个语音的每一个频率分量的强度之间的差别的结果,所述另一个语音用作具有相同频率的每一组分量的参考语音(例如,差别数据被生成作为表征以这种方式获得的每一个差别,上面介绍的语音信号压缩器的差别计算单元A9确定由非线性量化单元A5产生的、经非线性量化的子波段数据表征的每一个频率分量的强度的瞬时值和由编码单元A7为具有相同频率的每一组分量而识别的子波段数据表征的每一个频率分量的强度的瞬时值之间的差别)。
在这种情况下,加法单元B5可从算术编码解码单元B2获得差别数据,为由从解码单元B3提供的子波段数据表征的每一个频率分量进行计算由从算术编码解码单元B2获得的差分数据表征的频率分量的瞬时值和相同频率分量的瞬时值的和,生成表征为所有的频率分量计算出的和的数据,且将该数据提供给非线性反向量化单元B6。
此外,表明波形与连续波形的上一个波形相同的预确定数据可包括在压缩的语音数据中,代替识别码。
在这种情况下,算术编码解码单元B2可确定预确定数据是否被包括,并且,如果确定包括预确定的数据,通知(例如)语音输出单元B10波形与连续的波形的上一个波形相同。另一方面,例如,语音输出单元B10可包括存储单元,用于存储在过去从语音波形恢复单元B9提供的语音数据的最新的语音数据。在这种情况下,当算术编码解码单元2通知语音输出单元B10波形与在连续波形的上一个波形相同时,语音输出单元B10重播由存储在语音输出单元B10中的语音数据表征的语音。
已经介绍了本发明的实施例,但是可以使用通常的计算机系统而不是专用系统来实现根据本发明的语音信号压缩装置和语音信号扩展装置。
例如,从存储程序的介质(CD-ROM、MO、软盘等)将用于执行上面介绍的语音输入单元A1、基音周期波形抽取单元A2、子波段划分单元A3、幅度调整单元A4、非线性量化单元A5、线性预测分析单元A6、编码单元A7、解码单元A8、差别计算单元A9、量化单元A10、算术编码单元A11和比特流形成单元A12的操作的程序安装在个人计算机中,从而可以制造执行上面介绍的过程的语音信号压缩器。
此外,从存储程序的介质将用于执行上面介绍的比特流分解单元B1、算术编码解码单元B2、解码单元B3、差别恢复单元B4、加法单元B5、非线性反量化单元B6、幅度恢复单元B7、子波段合成单元B8、语音波形恢复单元B9以及语音输出单元B10的操作的程序安装在个人计算机中,从而可以制造执行上面介绍的过程的语音信号扩展器。
此外,例如,该程序可以公布在具有通信线的电子公告系统(BBS)上,并且经过通信线进行发布,或者该程序可以由表征该程序的信号调制的载波的方式被恢复,获得的已调制波形被发射,且接收已调制波形的装置解调该已调制的波形。
然后,启动该程序,并且在OS的控制下,象其它的应用程序一样被执行,从而可以执行上面介绍的过程。
而且,如果OS执行过程的段、或者OS组成本发明的一个单元,从该段中去除的程序可以被存储在记录介质中。同样,在这种情况下,在本发明中,执行由计算机运行的每一个功能或步骤的程序被存储在记录介质中。第三发明利用语音词典生成系统和语音合成系统作为例子来介绍第三发明的实施例。语音词典生成系统图6示出根据本发明实施例的语音词典生成系统的结构。如该图所示,此语音词典生成系统由语音数据输入单元A1、语声数据输入单元A2、符号串生成单元A3、基音周期抽取单元A4、基音周期长度固定单元A5、子波段数据划分单元A6、非线性量化单元A7和数据输出单元A8。
语音数据输入单元A1和语声数据输入单元A2中的每一个都由(例如)用于读出记录在记录介质(例如,软盘和MO(磁光盘)等)的记录介质驱动器(软盘驱动、MO驱动等等)和类似装置组成。而且,可以用单个记录介质驱动器来执行语音数据输入单元A1和语声数据输入单元A2的功能。
语音数据输入单元A1获得表征语音波形的语音数据,且将语音数据提供给基音周期抽取单元A4和基音周期长度固定单元A5。
而且,语音数据具有PCM(脉冲宽度调制)的已调制数字信号的格式,并且代表被以比语音的基音周期短得多得固定周期来采样的语音。
语声数据输入单元A2输入语声数据,在语声数据中,以文本格式或其它各式示出表明语音的发音的一串音标符号(phoneticsymbol),并且将语声数据提供给符号串生成单元A3。
符号串生成单元A3由诸如CPU(中央处理单元)的处理器等组成。
符号串生成单元A3分析从语声数据输入单元A2提供的语声数据,并且生成发音符号串,该发音符号串将由语声数据表征的语音作为示出构成语音的单位语音的发音的一串发音符号。此外,符号串生成单元A3分析该语声数据,生成韵律符号串,该韵律符号串将由语声数据表征的语音作为示出单位语音的韵律的一串韵律符号。然后,符号串生成单元A3将生成的发音符号串和韵律符号串提供给数据输出单元A8。
而且,单位语音是作为构成词发音的单元的语音,例如,由一个辅音和一个元音组成的CV(辅音-元音)单元作为单位语音。
基音周期抽取单元A4、基音周期长度固定单元A5、子波段数据划分单元A6、非线性量化单元A7中的每一个都由诸如DSP(数字信号处理器)的数据处理器以及CPU组成。
而且,可以由单一数据处理器来执行基音周期抽取单元A4、基音周期长度固定单元A5、子波段数据划分单元A6、非线性量化单元A7的段或所有功能。
基音周期抽取单元A4由在图1中示出的、象在第一和第二发明情况下的部件(1-7)组成。基音周期抽取单元A4分析从语音数据输入单元A1提供的语音数据,识别等价于由语音数据表征的语音的单位基音周期周期(例如,一个基音周期)的段。然后,示出每一个识别的段的头部和尾部的时间的定时数据被提供给基音周期长度固定单元A5。
然后,基音周期长度固定单元A5确定在以各种方式改变的相位中的段内的语音数据以及在用于每一个划分段的段中的基音周期信号之间的相关性,并且识别提供了最大相关性的语音数据相位作为在这个段中的语音数据相位。然后,移动了在每一个段中的语音数据相位,使得相位等于识别的相位。
而且,所述段的临时长度等于大约一个基音周期将是理想的。随着所述段的长度的增加,在所述段中的采样值数目增加,因此基音周期波形数据(下面将介绍)的数据量增加,或者在其上进行采样的时间间隔的数量增加,使得由基音周期波形表征的语音变得不准确。
然后,通过对每一个相移段进行重采样,基音周期长度固定单元A5使每一个段的时间长度实质上相互相同。然后,将具有时间长度归一化的语音数据(基音周期波形数据)提供给子波段划分单元A6。
此外,基音周期长度固定单元A5产生基音周期信息,该信息示出在该语音的每一个段中的原始采样值数目(当语音数据被从语音数据输入单元A1提供给基音周期长度固定单元A5时,该语音数据的每一个段中的采样值数目),并且将基音周期信息提供给数据输出单元A8。假设对由语音数据输入单元A1获得的语音数据进行采样的时间间隔是已知的,基音周期信息起到一种作用,作为一种信息,示出等于该语音数据的单位基音周期周期的所述段的原始时间长度。
子波段划分单元A6对从基音周期长度固定单元A5提供的基音周期波形数据进行诸如DCT(离散余弦变换)的正交变换,从而生成频谱信息。然后,将生成的频谱信息提供给非线性量化单元A7。
频谱信息是这样的数据,其包括示出由基音周期波形信号表征的语音的基频分量的强度随时间变化的数据以及示出该语音的n个基频分量的强度随时间变化的n个数据(n是自然数)。因此,当语音的基频分量(或者谐波分量)的强度没有随时间变化时,频谱信息以直流信号的形式表征基频分量(谐波分量)的强度。
当从子波段单元A6将频谱信息提供给非线性量化单元A7时,非线性量化单元A7产生等于通过量化一个值获得的值的频谱信息,量化一个值是通过对由频谱信息表征的每一个频率分量的瞬时值进行非线性压缩来获得的(特别地,例如通过将瞬时值代入向上的凸函数来获得的值),并且将产生的频谱信息(经非线性量化后的频谱信息)提供给数据输出单元A8。
特别地,例如,非线性量化单元A7可以通过改变经非线性压缩后的每一个频率分量的瞬时值为实质上等于通过量化在公式1的右端示出的函数Xri(xi)获得的值来执行非线性压缩。

Xri(xi)=sgn(xi)·|xi|4/3·2{global gain(xi)}/4式中,sgn(a)=(a/|a|),xi是由频谱信息表征的频率分量的瞬时值,且global_gain(xi)是用于设置所有比例的xi的函数。
此外,非线性量化单元A7产生示出被加到频谱信息上的非线性量化的特征类型的数据,这样的数据作为用于恢复对原始值的非线性量化值的数据(压缩的信息),并且将该压缩的信息提供给数据输出单元A8。
数据输出单元A8由控制电路组成,其控制对存储有语音词典的外部存储装置(例如,硬盘装置)D,诸如硬盘控制器等的访问,并且它连接到存储设备D。
当从符号串生成单元A3将发音符号串和韵律符号串提供给数据输出单元A8,从基音周期长度固定单元A5将基音周期信息提供给数据输出单元A8,并且从非线性量化单元A7将已压缩的信息和非线性压缩后的频谱信息提供给数据输出单元A8时,数据输出单元A8以一种方式将提供的发音符号串和韵律符号串、基音周期信息、压缩的信息和经非线性压缩的频谱信息存储在存储装置D的存储区中,在这种方式中,表征相同长度语音的上述串和信息具有相互的对应关系。
具有相互对应关系并且被存储在存储装置D中的发音符号串、韵律符号串、基音周期信息、压缩的信息以及经非线性压缩的频谱信息组成了语音词典。语音合成系统现在介绍根据本发明的语音合成系统。
图7示出这种语音合成系统的配置。如图所示,语音合成系统由文本输入单元B1、语素分析单元B2、发音符号生成单元B3、韵律符号生成单元B4、频谱参数生成单元B5、音源生成单元B6、词典单元选择单元B7、子波段合成单元B8、基音周期长度调整单元B9和语音输出单元B10组成。
本文输入单元B1由(例如)记录介质驱动器组成。
文本输入单元B1从外部获得描述为文本合成语音的文本数据,并且将给文本数据提供给语素分析单元B2。
语素分析单元B2、发音符号生成单元B3、韵律符号生成单元B4、频谱参数生成单元B5、和音源生成单元B6中的每一个都由诸如CPU的数据处理器组成。
而且,语素分析单元B2、发音符号生成单元B3、韵律符号生成单元B4、频谱参数生成单元B5、音源生成单元B6的段或所有功能可以由单个数据处理器执行。
语素分析单元B2对由从文本输入单元B1提供的文本数据表征的文本进行语素分析,并将该文本分解成语素串。然后,将表征获得的语素串的数据提供给发音符号生成单元B3和韵律符号生成单元B4。
发音符号生成单元B3根据由从语素分析单元B2提供的数据表征的语素串、按照发音的顺序来生成表征发音符号(例如,诸如假名字符)的串的数据,发音符号表征构成要被合成的语音的单位语音,并且将该数据提供给频谱参数生成单元B5。
韵律符号生成单元B4根据(例如)fujisaki模型来对由从语素分析单元B2提供的数据表征的语素串进行分析,从而识别这一语素串的韵律,且生成表征韵律符号串的数据,韵律符号串表征识别的韵律,且将该数据提供给音源参数生成单元B6。
频谱参数生成单元B5识别由发音符号表征的单位语音的频谱,该发音符号由从发音符号生成单元B3提供的数据表征,且将代表已识别的频谱和已提供的发音符号的频谱信息提供给词典单元选择单元B7。
特别地,例如,频谱参数生成单元B5预先存储频谱表和频谱信息,频谱表存储用于参考的发音法号,频谱信息用码元和具有相互的对应关系的信息来表征由用于参考的发音符号表征的语音频谱。然后,从频谱查找到具有相互对应关系的频谱信息(也就是,识别由发音符号表征的单位语音的频谱,发音符号由从发音符号生成单元B3提供的数据表征),作为由从发音符号生成单元B3提供的数据表征的发音符号的关键,并且将从获得的频谱信息提供给词典单元选择单元B7。
然而,在这种情况下,除了数据处理器之外,频谱参数生成单元B5还包括诸如硬盘装置和ROM(只读存储器)的存储装置。
音源参数生成单元B6识别一个参数(例如,单位语音的基音周期,功率和持续时间),该参数表征由从韵律符号生成单元B4提供的数据表征的韵律符号表征的韵律,且将表征已识别的参数的数据韵律信息提供给词典单元选择单元B7和基音周期长度调整单元10。
特别地,例如,音源参数生成单元B6预先存储韵律表和韵律信息,韵律表存储用于参考的韵律法号,韵律信息用码元和具有相互的对应关系的信息来表征由用于参考的韵律符号表征的韵律的参数。然后,从韵律表获得具有相互对应关系的韵律信息(也就是,识别表征由韵律符号表征的韵律的参数,韵律符号由从韵律符号生成单元B4提供的数据表征),作为由从韵律符号生成单元B3提供的数据表征的韵律符号的关键,并且将从获得的韵律信息提供给词典单元选择单元B7。
然而,在这种情况下,除了数据处理器之外,音源参数生成单元B6还包括诸如硬盘装置和ROM的存储装置。而且,单个存储装置可以执行频谱参数生成单元B5的存储装置以及音源参数生成单元B6的存储装置的功能。
词典单元选择单元B7、子波段合成单元B8、基音周期长度调整单元B9中的每一个都由诸如DSP和CPU的数据处理器组成。
而且,可以由单个数据处理器来执行词典单元选择单元B7、子波段合成单元B8、基音周期长度调整单元B9的段或所有功能。同样,数据处理器执行发音符号生成单元B3、韵律符号生成单元B4、频谱参数生成单元B5、音源生成单元B6、词典单元选择单元B7、子波段合成单元B8、基音周期长度调整单元B9的段或所有功能。
词典单元选择单元B7连接到外部存储装置D,其存储由上面介绍的图6的语音词典生成系统生成的语音词典(或者,具有实质上与语音词典的相同的数据结构的一组数据)。这里,存储装置D存储由上面介绍的图6的语音词典生成系统生成的语音词典(或者,具有实质上与语音词典的相同的数据结构的一组数据)。即,存储装置D用符号和具有相互对应关系的信息来存储表征单元音的一串发音符号、一串韵律符号、基音周期信息、压缩的信息以及表征单位语音的经非线性压缩后的频谱信息。
当从频谱参数生成单元B5将发音符号和频谱信息提供给词典单元选择单元B7,且从音源参数生成单元B6给其提供韵律信息时,词典单元选择单元B7从语音词典中识别出一组发音符号串、韵律符号串、基音周期信息、压缩的信息和经非线性压缩后的频谱信息,所述经非线性压缩后的频谱信息表征可以最接近于由这些提供的数据表征的语音的单位语音。
特别地,例如,词典单元选择单元B7(a)为具有存储在语音词典中的相同单位语音的频谱信息和基音周期信息而确定在该频谱信息的值和从频谱参数生成单元B5提供的频谱信息之间的相关系数,且确定该基音周期信息的值以及由从音源参数生成单元B6提供的韵律信息示出的基音周期的值之间的相关系数,且计算已确定的相关系数的平均值;和(b)对所有的其参数存储在语音词典中的单位语音执行上述的处理(a),然后识别对于在处理(a)中计算的平均值是最大的单位语音的单位语音,作为一个单位语音,其最接近由从频谱参数生成单元B5和音源参数生成单元B6提供的参数表征的单位语音。
词典单元选择单元B7将表征识别的单位语音的频谱信息和压缩的信息提供给子波段合成单元B8。
子波段合成单元B8将由从词典单元选择单元B7提供的频谱信息表征的每一个频率分量的强度恢复到用由从词典单元选择单元B7提供的压缩信息表征的特征来进行非线性量化之前的强度值。然后,对具有恢复的强度值的频谱信息进行变换,从而恢复基音周期波形数据,其中由该频谱信息表征经非线性量化的每一个频率分量的强度。然后,将恢复的基音周期波形数据提供给基音周期长度调整单元B9,而且,该基音周期波形数据具有(例如)PCM调制的数字信号形式。
子波段合成单元B8对频谱信息进行的变换实质上与为生成该频谱信息而对音素波形进行的变换是相反关系。具体地说,例如,如果该频谱信息是通过对音素进行DCT而产生的信息,子波段合成单元B8可以对该频谱信息进行IDCT(反DCT)。
基音周期长度调整单元B9改变从子波段合成单元B8提供的基音周期波形数据的每一个段的时间长度,使其等于由从音源参数生成单元B6提供的韵律信息表征的时间长度。例如,可以通过改变在各段的采样值之间的距离来执行对每一段的时间长度的改变。
然后,基音周期长度调整单元B9将具有每一段的时间长度改变的基音周期波形数据(即,表征合成的语音的语音数据)提供给语音输出单元B10。
语音输出单元B10包括(例如)执行PCM解码的功能的控制电路、D/A(数字-模拟)转换器、AF(音频)放大器、扬声器等。
当从基音周期长度调整单元B9将表征合成的语音的语音数据提供给语音输出单元B10时,语音输出单元B10对该语音数据进行解调、进行D/A转换和放大,并且使用获得的模拟信号来驱动扬声器,从而播放合成的语音。
存储在由上面介绍的语音生成系统生成的语音词典中的频谱信息是根据语音数据来生成的,在该语音数据中,等于单位基音周期周期的各段的时间长度被归一化,且消除基音周期波动的影响。因此,该频谱信息精确地示出语音的每一个频率分量(基频分量和谐波分量)的强度随时间变化。此外,表征具有波动的单位语音的每一个段的原始时间长度被存储在该语音词典中。
因此,由上面介绍的语音合成系统利用该语音词典来合成的语音接近于由人们发出的语音。
而且,语音词典生成系统和语音合成系统的配置不限于上面介绍的配置。
例如,语音数据输入单元A1可以经诸如电话线、专用线和卫星线路的通信线从外部获得语音数据。在这种情况下,仅给语音输入单元A1提供由(例如)调制解调器、DSU(数据服务单元)等构成的通信控制单元。
此外,语音数据输入单元A1可以包括声音收集装置,其由话筒,AF放大器,采样器,A/D(模拟-数字)转换器,PCM编码器等组成。声音收集装置可以对表征由它的话筒收集的声音的语音信号进行放大、采样和A/D转换,之后,对采样的语音信号进行PCM调制,从而获得语音数据。而且,由语音输入单元A1获得的语音数据不必是PCM信号。
此外,基音周期抽取单元A4不需要包括倒谱分析单元A41(或自相关分析单元A42),且在这种情况下,权重计算单元A43可以直接地处理由倒谱分析单元A41(或自相关分析单元A42)确定的基频的倒数,作为平均基音周期长度。
此外,过零分析单元A46可以将从带通滤波器A45提供的基音周期信号直接地提供给BPF系数计算单元A44,作为过零信号。
此外,数据输出单元A8可以经通信线等将要存储在语音词典中的数据输出到外部。在经通信线输出数据的情况下,仅给数据输出单元A8提供通信控制单元,该通信控制单元由(例如)调制解调器、DSU等组成。
此外,数据输出单元A8可以包括记录介质驱动器,在此情况下,数据输出单元A8可将存储在语音词典中的数据写入到在记录介质驱动器中设置的记录介质集的存储区域中。
而且,单个调制解调器、DSU或记录介质驱动器可构成语音数据输入单元A1和数据输出单元A8。
此外,文本输入单元B1可经通信线等从外部获得文本数据。在这种情况下,仅给文本输入单元B1提供由调制解调器、DSU等组成的通信控制单元。
此外,词典单元选择单元B7可识别单位语音,单位语音可以最接近由供给其本身的数据表征的语音,这样,附加比其它信息更重要的信息。
具体地说,例如,词典单元选择单元B7可将在存储在语音词典中的频谱信息的值和从频谱参数生成单元B5的频谱信息的值之间的相关的系数α乘以大于1的权重因子β,且当计算相关系数的平均值时,使用获得的值(α·β)代替值α,用于附加比在上面介绍的处理(a)中的基音周期信息更重要的频谱信息。
上面已经介绍了本发明的实施例,但是可以使用常规的计算机系统而不是专用系统来实现本发明的语音合成装置和语音词典生成装置。
例如,从存储程序的介质(CD-ROM、MO、软盘等)将执行上面介绍的数据输入单元A1、语声数据输入单元A2、符号串生成单元A3、基音周期抽取单元A4、基音周期长度固定单元A5、子波段数据划分单元A6、非线性量化单元A7和数据输出单元A8的运行的程序安装在个人计算机中,从而可以构造执行上面介绍的处理的语音词典生成系统。
此外,从存储程序的介质中将执行上面介绍的文本输入单元B1、语素分析单元B2、发音符号生成单元B3、韵律符号生成单元B4、频谱参数生成单元B5、音源生成单元B6、词典单元选择单元B7、子波段合成单元B8、基音周期长度调整单元B9和语音输出单元B10的运行的程序存储在个人计算机中,从而可以构造执行上面介绍的处理的语音合成系统。
此外,例如,这些程序可以公布在具有通信线的电子公告系统(BBS)上,并且经过通信线进行发布,或者这些程序可以由表征该程序的信号来调制的载波的方式被恢复,获得的已调制波形被发射,且接收已调制波形的装置解调已调制的波形。
然后,启动该程序,且在OS的控制下按照其它应用程序相同的方式来执行它,从而可以执行上面介绍的处理。
而且,如果OS执行段处理,或者OS构成本发明的段部件,从中去除这样的段的程序被存储在记录介质中。同样,在这种情况下,在本发明中,用于执行由计算机执行德每一个功能或步骤的程序被存储在记录介质中。
工业应用性如上所述,根据本发明,实现基音周期波形信号生成装置和基音周期波形信号生成方法,有效地作为对带有波动的基音周期的语音信号进行有效地编码的初步处理。同样,根据第二发明,实现有效地压缩表征语音的数据或者压缩表征具有在高音质中的波动的语音的数据的语音信号压缩装置、语音扩展装置、语音信号压缩方法和语音信号扩展方法。
此外,根据本发明,实现了合成自然语音的语音合成装置,语音词典生成装置,语音合成方法和语音词典生成方法。
权利要求
1.一种信号生成装置,该装置包括用于单独地检测在语音波形信号中的瞬时基音周期的装置;和用于在对应每一个检测到的瞬时基音周期的时间轴上扩展或压缩每一个基音周期波形成分的装置,同时该装置根据每一个检测到的瞬时基音周期来保持它的波形模式,从而将每个基音周期波形成分转换成具有预定的固定时间长度的归一化基音周期波形成分。
2.一种信号生成装置,该装置包括用于在语音波形信号的某个时间间隔中检测平均基音周期的装置;可变滤波器,用于响应检测到的平均基音周期,对所述语音波形信号进行滤波,同时使所述滤波器的频率特征发生变化;用于根据所述可变滤波器的输出,单独地检测在所述语音波形信号中的瞬时基音周期的装置;用于根据所述每一个检测到的基音周期,抽取对应每一个检测到的基音周期的相应基音周期波形成分的装置;和用于在时间轴上扩展或压缩所述抽取的基音周期波形成分,以将抽取的基音周期分量转换成具有预定固定的时间长度的归一化的基音周期波形分量。
3.根据权利要求1或2的信号生成装置,其中,所述预定固定的时间长度等于在所述语音波形信号的某一时间间隔中的平均基音周期。
4.一种基音周期波形信号生成装置,该装置包括可变滤波器,其具有根据控制而变化的频率特征,以对表征语音波形的语音信号进行滤波,从而抽取出语音信号的基频分量;滤波器特征确定单元,其根据由所述可变滤波器抽取出的基频分量来识别所述语音的基频,且控制所述可变滤波器以获得频率特征其中,截止除了在已识别的基频附近的那些分量之外的分量;基音周期抽取装置,用于根据所述音频信号的基本频率分量的值来将所述语音信号分解成多个段,每一个段由等于单位基音周期的语音信号构成;和语音信号处理单元,其通过使每一个段中的所述语音信号的相位实质上相同来将所述语音信号处理成基音周期波形信号。
5.根据权利要求4的基音周期波形信号生成装置,其中,所述语音信号处理单元包括基音周期长度固定单元,其通过用实质上相同的样本数目来采样所述每一段中的基音周期波形信号,使每一段中的基音周期波形信号的时间长度实质上相同。
6.根据权利要求5的基音周期波形信号生成装置,其中,所述滤波器特征确定单元包括平均基音周期检测单元,其根据所述语音信号,在被检测之前,检测由语音信号表征的语音的基音周期长度;和确定单元,其确定在由交叉检测单元识别的周期和由平均基音周期检测单元识别的所述基音周期长度之间是否存在预定量的或较大的差别,且如果确定没有这种差别,控制所述可变滤波器以获得频率特征其中,截止除了那些存在于由交叉检测单元识别的基频附近的分量之外的分量,并且如果有这样的差别,控制所述可变滤波器以获得频率特征其中,截止除了那些存在于由平均基音周期检测单元识别的基音周期长度识别的基频附近的分量之外的分量。
7.根据权利要求6的基音周期波形信号生成装置,其中,所述平均基音周期检测单元包括倒谱分析单元,确定在滤波前的语音信号的倒谱具有最大值的频率;自相关分析单元,确定所述在被滤波前的语音信号的自相关函数的周期图具有最大值的频率;和平均计算单元,根据由倒谱分析单元和自相关分析单元确定的频率来确定由所述语音信号表征的语音的基音周期的平均值,且确定所述确定的平均值作为所述语音的基音周期长度。
8.一种基音周期波形生成方法,该方法包括以下步骤单独地检测在语音波形信号中的瞬时基音周期;和根据所述的每一个检测的瞬时基音周期,在对应每一个所述检测的瞬时基音周期的时间轴上扩展或压缩每一个基音周期波形成分,同时保持它的波形模式,以将每一个基音周期波形成分转换成具有预定的固定时间长度的归一化基音周期波形成分。
9.一种基音周期波形生成方法,该方法包括以下步骤检测在语音波形信号的某个时间间隔中的平均基音周期;响应所述检测的平均基音周期,对所述语音波形信号进行滤波,同时使滤波的频率特征变化;根据所述可变滤波器的输出,单独地检测在所述语音波形信号中的瞬时基音周期;和在时间轴上扩展或压缩所述抽取的基音周期波形成分,以将所述抽取的基音周期波形成分转换成具有预定的固定时间长度的归一化基音周期波形成分。
10.一种基音周期波形生成方法,其特征在于通过利用带有根据控制而变化的频率的可变滤波器来对表征所述语音的波形的语音信号进行滤波,以抽取出语音的基频分量;根据由所述可变滤波器抽取的基频分量,识别所述语音的基频,并且控制所述可变滤波器以获得频率特征其中,截止除了存在于所述已识别的基频附近的分量之外的分量;根据所述语音的基频分量的值,将所述语音信号分成多个段,每一个段由等于单位基音周期周期的所述语音信号构成;和通过使所述每一个段中的语音信号的相位实质上相同,将所述语音信号处理成基音周期波形信号。
11.一种语音信号压缩装置,该装置包括用于单独地检测在语音波形信号中的瞬时基音周期的装置;根据所述每一个检测的瞬时基音周期,用于在对应每一个所述检测的瞬时基音周期的时间轴上扩展和压缩每一个基音周期波形成分,同时保持它的波形模式,从而将每一个基音周期波形成分转换成具有预定的固定时间长度的归一化基音周期波形成分;和编码装置,用于单独地对所述每一个检测的瞬时基音周期的值和表征具有由所述转换所获得的预定的固定时间长度的归一化基音周期波形成分的信号进行编码。
12.根据权利要求11的语音信号压缩装置,其中,所述编码装置进行工作,以对代表具有所述固定的时间长度的所述归一化基音周期波形成分的信号进行熵编码。
13.一种语音信号压缩装置,该装置包括语音信号处理装置,用于获得表征要压缩的第一语音的波形的语音信号,且使各段的时间长度实质上相同,其中的每一个段等于所述语音信号的单位基音周期周期,从而将所述语音信号处理成基音周期波形信号;子波段抽取装置,用于从所述基音周期波形信号中抽取出第一语音的基频分量和谐波分量;查找装置,用于识别示出第二语音的基频分量和谐波分量随时间变化的子波段信息中的、具有在由子波段抽取装置抽取的基频分量和谐波分量随时间变化的最大的相关性的子波段信息,以生成差别;差别装置,用于根据由所述查找装置识别的语音信号和子波段信息,生成表征在第一语音的波形和由所述子波段信息表征的第二语音的波形之间的差别的差分信号;和输出装置,用于输出识别码,该识别码用于识别由所述查找装置识别的子波段信息和所述差分信号。
14.根据权利要求13的语音信号压缩装置,其中扬声器识别示出由所述子波段信息表征的第二语音的扬声器的语音特征的数据,其具有与所数字波段信息的对应关系;和所述查找装置包括特征识别装置,其根据所述语音信号来识别第一语音的扬声器的特征,所述特征识别装置识别具有由所述子波段抽取装置抽取的基频分量和谐波分量随时间变化的最大相关性的子波段信息,该子波段信息是与所述扬声器对应关系的子波段信息,该扬声器识别示出由所述特征识别装置识别的特征的数据。
15.根据权利要求14的语音信号压缩装置,其中所述语音信号处理装置包括可变滤波器,具有根据控制而变化得频率特征,以对所述语音信号滤波,从而抽取出所述语音的基频分量;滤波器特征确定单元,根据由所述可变滤波器抽取出的基频分量来识别所述语音的基频,且控制所述可变滤波器以获得频率特征其中,截止除了存在于所述识别的基频分量附近的分量之外的分量;基音周期抽取装置,用于根据所述语音信号的基频分量的值来将所述语音信号分成多个段,每一个段由等于单位基音周期周期的语音信号组成;和基音周期长度固定单元,通过用实质上相同的样本数目来对所述语音的每一个段中的语音信号进行采样,生成在每一个段中时间长度实质上相同的基音周期波形信号。
16.一种语音信号扩展装置,该装置包括输入装置,用于获得识别码,该识别码指定示出在第一基音周期波形信号的基频分量和谐波分量随时间变化的子波段信息,第一基音周期波形信号是通过使多个段的时间长度、差分信号和基音周期数据实质上相同来生成的,每一个段等于表征第一语音的语音信号,所述差分信号表征在要恢复的第二语音的波形和第一语音的波形之间的差别,所述基音周期数据示出具有等于第二语音的单位基音周期周期的段的时间长度;基音周期波形信号恢复装置,用于获得所述子波段信息中的、由所述输入装置获得的识别码识别的子波段信息,且根据所述获得的子波段信息来恢复第一基音周期波形信号;加法装置,用于生成第二基音周期波形信号,第二基音周期波形信号表征由所述基音周期波形信号恢复装置恢复的第一基音周期波形信号的波形以及由所述差分信号表征的所述波形之和;和语音信号恢复装置,用于根据所述基音周期数据和第二基音周期波形数据来生成表征所述第二语音的语音信号。
17.一种语音信号压缩方法,该方法包括步骤单独地检测在语音波形信号中的瞬时基音周期;根据所述每一个检测的瞬时基音周期,在对应每一个所述检测的瞬时基音周期的时间轴上扩展和压缩每一个基音周期波形成分,同时保持它的波形模式,从而将每一个基音周期波形成分转换成具有预定的固定时间长度的归一化基音周期波形成分;和单独地对所述每一个检测的瞬时基音周期的值和表征具有由所述转换获得的预定的固定时间长度的归一化基音周期波形成分的信号。
18.一种语音信号压缩方法,其中获得表征要压缩的第一语音的波形的语音信号,且使多个段的时间长度实质上相同,每一个段等于所述语音信号的单位基音周期周期,从而将所述语音信号处理成基音周期波形信号;从所述基音周期波形信号中抽取出第一语音的基频分量和谐波分量;从示出第二语音的基频分量和谐波分量随时间变化的子波段信息识别子波段信息,该子波段信息具有由所述子波段抽取装置抽取的基频分量和谐波分量随时间变化的最大相关性,以生成差别;根据所述语音信号和识别的子波段信息生成差别信号,该差别信号表征在第一语音的波形和由子波段信息表征的第二语音的波形之间的差别;和输出用于识别所述已识别的子波段信息和差分信号的识别码。
19.一种语音扩展方法,其中,获得识别码,用于指定示出第一基音周期波形信号的基频分量和谐波分量随时间变化的子波段信息,所述第一基音周期波形信号是通过使各段的时间长度实质上相同来生成的,所述多个段中的每一个等于表征第一语音的波形的语音信号的单位基音周期周期;差分信号,表征在要恢复的第二语音的波形和第一语音的波形之间的差别;以及示出等于第二语音的单位基音周期周期的段的时间长度的基音周期数据;从所述子波段信息中获得由所述输入装置获得的识别码识别的子波段信息,且根据所述获得的子波段信息来恢复第一基音周期波形信号;生成表征恢复的第一基音周期波形信号的波形与由所述差分信号表征的波形之和的第二基音周期波形信号;和根据所述基音周期数据和第二基音周期波形数据来生成表征第二基音周期的语音信号。
20.一种语音合成装置,该装置包括存储装置,用于存储表征单位语音的采样值的韵律的韵律信息,且存储示出基音周期波形信号的基频分量和谐波分量随时间变化的频谱信息,所述基音周期波形信号是通过使多个段的时间长度基本相同来生成的,该多个段中的每一个等于表征具有与采样值的对应关系的信息的采样值的波形的语音信号的单位基音周期周期;预测装置,其输入表征文本的文本信息,和根据文本信息来生成表征预测构成所述文本的单位语音的基音周期和频谱的预测信息;查找装置,用于根据所述基音周期信息、频谱信息和预测信息来识别具有基音周期的采样值和具有与构成所述文本的单位语音的基音周期和频谱最大相关性;和信号合成装置,用于生成表征语音的合成信号,其中,所述语音具有由与所述查找装置识别的采样值对应关系的韵律信息表征的韵律,基频分量和谐波分量随时间变化是由具有与所述查找装置识别的采样值对应关系的频谱信息表征的,且等于单位基音周期周期的段的时间长度是由具有与由所述查找装置识别的采样值对应关系的基音周期信息表征的时间长度。
21.根据权利要求20的语音合成装置,其中,所述频谱信息由表征对所述音量进行非线性量化的结果的数据构成,所述音量表征所述基音周期波形信号的基频分量和谐波分量随时间的变化。
22.一种语音词典生成装置,该装置包括基音周期波形信号生成装置,用于获得表征单位语音的波形的语音信号,且使各段的时间长度基本相同,每一个段等于语音的单位基音周期周期,从而将语音信号处理成基音周期波形信号;基音周期信息生成装置,用于生成和输出表征所述段的原始时间长度的基音周期信息;频谱信息抽取装置,用于根据所述基音周期波形信号来生成和输出示出所述语音信号的基频分量和谐波分量随时间变化的频谱信息;和韵律信息生成装置,用于获得表征代表单位语音的发音的语谱图的语声数据,确定由所述语声数据表征的发音的韵律,且生成和输出表征已确定的韵律的韵律信息。
23.根据权利要求22的语音词典生成装置,其中,所述频谱信息抽取装置包括可变滤波器,具有根据控制而变化的频率特征,以对所述语音信号进行滤波,从而抽取出所述语音的基频分量;滤波器特征确定装置,用于根据由所述可变滤波器抽取的基频分量来识别单位语音的基频,且控制所述可变滤波器以获得频率特征其中,截止除了在已识别的基频附近的分量之外的分量;基音周期抽取装置,用于根据所述语音信号的基频分量的值来将所述语音分解成多个段,每一个段由等于单位基音周期周期的语音信号来构成;和基音周期长度固定单元,通过对每一个段中的所述语音采样实质上相同的采样值数目,生成基音周期波形信号,该基音周期波形信号在每一个段中时间长度基本相同。
24.根据权利要求23的语音词典生成装置,其中,所述滤波器特征确定装置包括交叉检测装置,用于识别一个周期,在该周期中由所述可变滤波器抽取的基频分量达到预定值,且根据所述已识别的周期来识别所述基频。
25.根据权利要求24的语音词典生成装置,其中,所述滤波器特征确定装置包括平均基音周期检测装置,用于在被滤波之前,根据所述语音信号来检测由所述语音信号表征的语音的基音周期的时间长度;和确定装置,用于确定在由交叉检测装置识别的周期和由所述平均基音周期检测装置识别的基音周期的时间长度之间是否存在预定量或较大量的差别,且如果确定没有这样的差别,控制所述可变滤波器以获得频率特征其中截止除了在由所述交叉检测装置识别的基频附近的那些分量之外的分量,并且如果确定有这样的差别,控制所述可变滤波器以获得频率特征其中,截止除了在从由所述平均检测装置识别的基音周期的时间长度中识别出来的基频附近的那些分量之外的分量。
26.根据权利要求25的语音词典生成装置,其中,所述平均基音周期检测装置包括倒谱分析装置,用于确定一个频率,在该频率上,在被所述可变滤波器滤波之前,语音信号的倒谱具有最大值;自相关分析装置,用于确定一个频率,在该频率上,在被所述可变滤波器滤波之前,所述语音信号的自相关函数的周期图具有最大值;和平均计算装置,用于根据由倒谱分析装置和自相关分析装置确定的频率,确定由所述语音信号表征的语音的基音周期的平均值,且将确定的平均值作为所述单位语音的基音周期的时间长度。
27.根据权利要求26的语音词典生成装置,其中,所述频谱信息抽取装置生成表征对示出所述语音信号的基频分量和谐波分量随时间变化的值进行非线性量化的结果的数据,且将该数据输出作为频谱信息。
28.一种语音合成方法,其中,将表征单位语音的采样的韵律的韵律信息、表征所述采样的基音周期的基音周期信息、和示出基音周期波形信号的基频分量和谐波分量随时间变化的频谱信息连同具有与所述采样对应关系的信息一起进行存储,所述基音周期波形信号是通过使每一段都等于表征所述采样的波形的语音信号的单位基音周期的多个段的时间长度实质上相同来生成的;输入表征文本的文本信息,且根据所述文本信息来生成预测信息,该预测信息表征预测构成所述文本的单位语音的基音周期和频谱的结果;根据所述基音周期信息、频谱信息和预测信息来识别一采样,该采样具有与构成所述文本的单位语音的基音周期和频谱的最大相关的基音周期和频谱;和生成合成的语音信号表征语音,其中所述语音具有与已识别的采样有对应关系的韵律信息来表征的韵律;由具有与所述查找装置识别的采样由对应关系的频谱信息表征的、所述基频分量和谐波分量随时间的变化;和由与所述查找装置识别的采样有对应关系的基音周期信息表征的时间长度的、等于所述单位基音周期的段中的时间长度。
29.一种语音词典生成方法,其中获得表征单位语音的波形的语音信号,且使每一段都等于所述语音信号的单位基音周期的各段的时间长度实质上相同,从而将所述语音信号处理成基音周期波形信号;生成并且输出表征所述段中的原始时间长度的基音周期信息;根据所述基音周期波形信号来生成和输出示出所述语音信号的基频分量和谐波分量随时间变化的频谱信息;和获得表征语谱图的语声数据,所述语谱图表征的单位语音的发音,确定由所述语声数据表征的发音的韵律,且生成和输出表征已确定的韵律的韵律信息。
全文摘要
提供了一种基音周期波形信号生成方法,作为用于有效地对具有波动的基音周期的语音波形信号进行编码的基本处理。且进一步提供使用该方法的语音信号压缩/扩展装置以及语音信号合成装置,和与之相关的信号处理。本发明的基音周期波形生成方法主要包括检测语音波形信号的每一个基音周期波形成分的瞬时基音周期的方法,和通过根据每一个检测到的瞬时基音周期在时间轴上扩展和压缩基音周期波形成分、同时保留它的波形模式来将相应的基音周期波形成分处理成具有预定固定的时间长度的归一化基音周期波形成分的过程。通过使用本发明的基音周期波形信号生成方法来对语音波形信号进行编码或合成,可以高质量和高效地压缩具有基音周期波动的语音信号。
文档编号G10L13/08GK1473322SQ02802813
公开日2004年2月4日 申请日期2002年8月30日 优先权日2001年8月31日
发明者佐藤宁 申请人:株式会社建伍
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1