用于压缩语音库的方法和装置的制作方法

文档序号:6584244阅读:199来源:国知局
专利名称:用于压缩语音库的方法和装置的制作方法
技术领域
本发明涉及语音库的压缩方法和装置。尤其涉及将中文文本至语音转换系统中的语音库进行压缩的方法和装置。
背景技术
在计算机中,尤其是在手持电子设备中,将中文文本转换为语音输出,可以便于使用者进行人机交流。目前的中文文本至语音转换可以转换为机器发音或自然发音(模拟真人发音)。中文文本至语音转换一般都需要一语音库,将输入文本与该语音库中的数据进行匹配,然后利用语音库中的发音数据来合成语音。机器发音所需的语音库相对简单、数据量少,但是发音生硬。模拟真人发音可以得到高质量的自然发音,但是所需的语音库复杂、数据量大。由于体积和成本的限制,手持电子设备,如手机、个人数字助理(PDA),其存储空间都比较小,一般为几兆字节。存储空间需求的局限性限制了中文文本至语音转换在这些手持设备中的应用。
目前,要获得高质量的自然发音,一般需要将输入的文本与一语音库进行匹配,找出相应的音节(作为基本发音单元)波形,然后将这些音节波形作为基本的发音单元进行拼接。使用这种拼接方法的系统称为拼接式中文文本至语音转换系统。在此系统中为了进行音节波形拼接,一般使用语音库或音节库来存储在各种不同的语音和韵律环境下记录的音节波形。而为了生成自然发声的合成语音,语音库中必须存储大量的音节波形。对于这样的语音库,往往需要几百兆的存储空间。例如,对于使用100,000个音节的中等规模语音库,大概就需要几百兆字节的存储器来保存这些音节的波形。
为了节约存储空间,已有技术使用了参数化分析器对语音波形进行压缩,可以将上述语音波形压缩至几十兆字节的水平。如果加大压缩比,则要以牺牲合成语音的质量为代价。目前,在已有技术中还没有任何方法,在将该语音库压缩至几兆字节的水平的情况下,仍然可以由输入的文本产生高质量的自然发音合成语音。
由于体积和成本的限制,手持电子设备,如手机、便携式电子词典、个人数字助理(PDA)等,其存储空间都比较小,一般为几兆字节。存储空间需求的局限性限制了中文文本至语音转换在这些手持设备中的应用。因为已有技术还不能将这种语音库压缩至几兆字节的水平。

发明内容
鉴于已有技术的不足,本发明的目的是提供一种方法和装置,用于将中文文本至语音转换系统中的语音库压缩至几兆字节水平。
本发明的进一步目的是提供一种高效的音节波形的压缩方法和装置,来减少音节波形在存储时的数据量以及失真。
根据本发明的一种压缩中文文本至语音转换系统中的语音库的方法,包括从一发音库中收集多个音节,将所述音节分成多个音节组,其中每一组中的音节具有相同的拼音;根据所述音节组中全部音节的韵律特征的相似性,将所述音节组中的音节划分为多个音节子组,将特性相似的音节划分到同一个子组,可以利用这些相似性对于子组中的音节进行进一步的处理;在每一所述子组中选择一音节代表,来代表该组中其它的普通音节;存储所述选定的音节代表,以形成压缩语音库。该方法将韵律特性相似的音节划分到一组,以一音节代表替代多个相似的音节,可以有效减少所需存储的数据量,从而节约存储空间。
根据本发明的压缩语音库的方法,其中所述韵律特征包括音节的本调、基因轮廓、时长、能量(均方根幅度)和语音学/协同发音环境参数。所述音节子组划分方法包括语音学分组(PhoneticClustering)和混合声学/语音学分组(Hybrid Acoustic/PhoneticClustering),其中语音学分组是基于音节的本调和语音学/协同发音环境参数的相似性,混合声学/语音学分组是通过对音节的韵律特征进行加权而进行。通过计算并分析不同音节之间的韵律特征差别,来重新划分子组以减少所述音节代表的数量。在此步骤中,可以通过限制子组的数量,来有效地减少所需存储的音节代表的数量。上述方法还包括在每一子组中,计算普通音节与音节代表之间的韵律特征差别,并在所述压缩语音库中存储所述韵律特征差别。对于普通音节,仅仅存储代表该普通音节的音节代表以及该普通音节与该音节代表之间的韵律特征差别,在合成时就可以恢复出原始的普通音节,在有效地较少存储数据量的同时,保证了合成语音的自然发音特性。
根据本发明的压缩语音库的方法还包括对所述音节代表进行听觉评估,如果对所述音节代表不满意,则重选音节代表和/或重新划分音节子组,否则,存储所述音节代表。对于可能出现不良音节代表的情况,听觉评估提供了一个有效的补偿措施。
根据本发明的压缩语音库的方法进一步包括将所述音节代表划分为一清音部分(unvoiced portion)和一浊音部分(voiced portion),这是根据音节波形特性音节的清音部分一般位于波形的启始部分(该部分被称为声母),而音节的浊音部分则位于波形的后部(该部分被称为韵母);将所述清音部分以波形方式直接存储,清音部分数据量小,直接存储保真度好;将所述浊音部分利用参数化分析器进行压缩,浊音部分的波形幅值大,发音时间长,数据量大,利用参数化分析器进行压缩可以有效减小存储数据量同时又能保证利用参数合成语音的质量。已有技术将音节代表的整个发音波形直接利用参数化分析器进行压缩,压缩率较大时清音部分容易产生失真。本发明将音节代表的发音波形分为浊音部分和清音部分,然后分别处理,根据这种方法再次合成的音节波形质量,在同等压缩率下比已有技术中合成的音节波形的质量显著提高,特别是清音部分。
根据本发明的压缩语音库的方法又进一步包括重新合成所述浊音部分以及所述音节代表,并对音节代表进行听觉评估,如果对合成的音节代表不满意,则修改用于浊音部分的码本,否则,存储经混合压缩的音节代表。对于将音节波形转换为参数存储,然后在需要时重新合成,将必然引起或多或少的失真。本发明进一步利用听觉评估作为补偿措施来减小不必要的失真,以获得自然发音的效果。
本发明还提供了一种压缩中文文本至语音转换系统中的语音库的装置,包括用于从一发音库中收集多个音节的装置,用于将所述音节分成多个音节组的分组装置,其中每一组中的音节具有相同的拼音;用于根据所述音节组中全部音节的韵律特征的相似性,将所述音节组中的音节划分为多个音节子组的子组划分装置;用于在每一所述子组中选择一音节代表,来代表该组中其它的普通音节的音节代表选择装置;以及存储装置,用于存储所述选定的音节代表,以形成压缩语音库。
本发明的语音库压缩装置还包括加权计算装置,用于对音节的韵律特征进行加权计算,加权函数为W={Wt,Wp,Wd,We,Wy},其中Wt是对音节本调的加权,Wp是对音节基音轮廓的加权,Wd是对音节时长的加权,We是对音节均方根幅度的加权,Wy是对音节语音学/协同发音环境参数的加权,该装置通过计算并分析不同音节之间的韵律特征差别,来重新划分子组以减少所述音节代表的数量;韵律特征差别处理装置,用于在每一子组中,计算普通音节与音节代表之间的韵律特征差别,并在所述压缩语音库中存储所述韵律特征差别。
本发明的语音库压缩装置还包括发音划分装置,用于将所述音节代表划分为一清音部分和一浊音部分;波形处理装置,用于将所述清音部分以波形方式直接存储,将浊音部分用参数化分析器进行压缩后存储;听觉评估装置,用于对所述音节代表进行听觉评估,如果对所述音节代表不满意,则使用音节代表选择装置重选音节代表和/或使用音节子组划分装置重新划分音节子组,否则,使用存储装置存储所述音节代表;合成装置,用于重新合成所述浊音部分以及所述音节代表;以及评估装置,用于对所述合成的音节代表进行听觉评估,以得到满意的音节代表。
利用本发明的方法和装置,可以将拼接式中文文本至语音转换系统的语音音节库压缩至几兆字节。并且使用根据本发明的方法和装置得到的语音库得到的拼接合成语音具有自然发音的特征。音节代表使用混合音节波形压缩,其合成音节质量,明显好于利用已有技术中直接音节压缩方案得到的合成音节的质量。
本发明适用于各种不同的便携式设备,如手机、便携式电子词典、便携式翻译设备、个人数字助理(PDA)、掌上型个人计算机、台式个人计算机以及各种使用嵌入式功能模块实现中文文本至语音转换的装置。
中文文本至语音转换是手持设备的一项重要功能。嵌入式的自然发音中文文本至语音转换系统可以提高手持设备的竞争力。本发明提供了一种新颖的选择和产生发音数据库的解决方案。


图1展示了根据本发明将中文音节分组的方法流程。
图2展示了根据本发明将中文音节代表波形进行压缩的方法流程。
图3所示为本发明的用于压缩语音库的装置方框图。
图4所示为根据本发明的用于压缩音节代表波形的装置。
具体实施例方式
本发明采用了音节分组以及混合音节波形压缩来生成语音库,该语音库仅仅使用很少的内存资源,可以用于高质量的嵌入式文本至语音转换系统。与已有技术不同,本发明采用了一种新的方案来减少语音单元的存储、进行数据压缩以及进行音节水平的韵律修改。本发明的技术方案主要包括部分利用音节分组的方法来减少语音单元;和利用混合音节波形压缩来压缩语音库。
下面参考图1,详细说明本发明的中文字符音节分组的方法。
在传统的TTS系统中,在语音库中存储了全部录制的音节波形或对波形直接利用参数化分析器压缩后的音节波形参数。本发明根据音节之间的共有特性以及音节自身的频谱特性使用了音节分组和混合音节波形压缩来减小该语音库的大小。
利用本发明合成音节所需的发音波形一般选自一数据量很大的发音波形库,该数据库的大小取决于所需的发音合成质量。所需的合成发音质量越高,则需要使用的原始发音波形越多。该发音波形库中存储有各种中文句子、短语,及其相应的发音波形。
如图1所示,在步骤1.1,从一发音库中收集多个音节,将所述音节分成多个音节组,其中每一组中的音节具有相同的拼音,形成N个音节组;每一个音节组包含Mn(n=1,2,…,N)个音节。在这个步骤中可以不考虑这些音节的音调。
例如,将拼音相同的音节分到一组,可得到以下N个音节组,每个音节组包括Mn(n=1,2,…,N)个音节。M的大小根据不同的音节组而不同。第n组的第i个字节记为Sn,i,n=1,2,…N,i=1,2,…,M。
n=1啊(a5)阿(a2)…啊(a5)……n=2爱(ai4)矮(ai3)挨(ai2)唉(ai5)碍(ai4)艾(ai3)蔼(ai3)……n=10把(ba3)八(ba1)吧(ba5)爸(ba4)罢(ba4)…n=N(452)捉(zhuo1)桌(zhuo1)啄(zhuo2)拙(zhuo2)…因此,音节S2,3表示第二个音节组的第三个音节,即“挨(ai2)”。
在步骤1.2,取得每个音节组中的每一个音节的韵律特征矢量(X)。该韵律特征矢量(X)包括本调(Lexical tone,ti)、基因轮廓(Pitchcontour,pi)、时长(Duration,di)、能量(即,均方根幅度,Root meansquare of amplitude,ei)和语音学/协同发音环境参数(Phonetic/co-articulatory environment identity,yi)。
在上述韵律特征矢量中,本调(Lexical tone,ti),即为基本音调,表示的是理论上的发音。中文音节具有五种声调一声(阴平)、二声(阳平)、三声(上声)、四声(去声)和轻声。例如,“ba3”表示具有三声的拼音“ba”。基音轮廓是音调的声音表现行为,它是发音片段的基本频率相对于时间的函数,是一个矢量。实际的基音轮廓依具体的上下文语言环境而不同,轻声的基音轮廓主要取决于在其前面的一个音节的本调。时长是一个音节发音片段持续时间长短的度量,为一个标量。均方根幅度,一个音节发音片段的均方根幅度是发音波形能量的度量,也是一个标量。语音学/协同发音环境参数是一个矢量,其中的成分包括音节在句子、短语或词中的位置,后续音节的类型(即,启始部分为浊音的音节或启始部分为清音的音节)。
在步骤1.3,根据所述音节组中全部音节的韵律特征的相似性,将所述音节组中的音节划分为多个音节子组,将特性相似的音节划分到同一个子组,可以利用这些相似性对于子组中的音节进行进一步的处理。在此步骤中根据每个音节的语音相似性,将同一个音节组中的音节分为K1个第一子组(记为H),其中同一第一子组内的音节的本调(t)和语音学/协同发音环境参数(y)相似,此步骤称为语音学分组。
在步骤1.4,进行混合声学/语音学分组,此步骤通过对音节的韵律特征进行加权而进行。通过计算并分析不同音节之间的韵律特征差别,来重新划分子组以减少所述音节代表的数量。通过矢量量化(VQ)算法,进一步将所述K1个第一子组中的音节重新分组为K2个第二子组(记为L),目标是K2<K1。K2的大小取决于每个音节组中的音节数量M、第一子组的数量K1以及语音库的目标大小。通过限制第二子组的数量,即限制语音库中目标子组的数量,可以限制目标语音库中所存储的语音单元的数量。在该矢量量化算法中,使用了加权函数W={Wt,Wp,Wd,We,Wy}对音节的韵律特征进行加权计算,其中Wt是对音节本调的加权,Wp是对音节基音轮廓的加权,Wd是对音节时长的加权,We是对音节均方根幅度的加权,Wy是对音节语音学/协同发音环境参数的加权。对音节韵律特征矢量进行加权之后,度量不同音节韵律特征矢量Xn,I之间的差别。根据韵律特征矢量Xn,I之间的差别,对第一子组中的音节进行重新分组,将加权之后韵律特征矢量相似的音节划分到一个子组内,形成多个第二子组。此步骤称为混合声音/语音学分组。
在步骤1.5,从每一所述第二子组L的普通音节之中,选择一普通音节作为该子组的音节代表R。然后,计算出各个普通音节与该音节代表之间差别韵律矢量V。在选择音节代表时,既可以使用人工方法也可以使用自动方法。在使用自动方法时,可以将韵律特征矢量的平均值作为选择音节候选代表的标准。也就是说,将该子组中所有普通音节的基因轮廓、时长、均方根幅度和语音学/协同发音环境参数的均值作为选择音节候选代表的标准,该子组中每个普通音节将其韵律特征矢量都与该均值进行比较。优选韵律特征矢量与该均值差别小的普通音节作为音节代表。计算各个子组中每一普通音节与该子组中的音节代表之间的韵律特征矢量差值。这样每一子组中的每个普通音节就可以用该子组的音节代表以及相应的韵律特征矢量差值来表示。
该方法将韵律特性相似的音节划分到一组,以一音节代表替代多个相似的音节,可以有效减少所需存储的数据量,从而节约存储空间。对于普通音节,仅仅存储代表该普通音节的音节代表以及该普通音节与该音节代表之间的韵律特征差别,在合成时就可以恢复出原始的普通音节,在有效地较少存储数据量的同时,保证了合成语音的自然发音特性。
以上步骤初步完成了对发音波形库中的音节分组和音节代表选择,基本上达到了减少语音单元的目的。
在步骤1.8(包括步骤1.3-1.7)中,结合听觉评估对所选音节代表以及子组的划分进行迭代修改。对于可能出现不良音节代表的情况,听觉评估提供了一个有效的补偿措施。其中在步骤1.6,对所选择的音节代表进行听觉评估,听取分组音节代表的波形并对其声调模式进行检验。如果评估结果不满意,则回到语音学分组步骤1.3,对于质量差的分组进行修改,重新划分子组或者重选子组音节代表。
如果评估结果满意,则输出得到的多个音节第二子组。该输出结果包括相应的音节代表和该子组中的各个普通音节与该音节代表之间的韵律矢量差值。
本发明的混合波形压缩,是根据音节发音的波形特性进行。在中文中,一个音节的发音波形一般包括两部分,清音部分(Unvoicedportion)和浊音部分(Voiced portion)。清音部分一般位于发音波形的前部,而浊音部分一般位于发音波形的后部,这两部分明显地位于音节的不同位置,从而能够对它们分别进行处理。对于那些只有浊音部分的音节,可以直接对其进行参数化分析处理。
另外,清音部分数量有限,并且一般由不同的音节共享(共有)。与浊音部分不同,清音部分的波形特征与噪音信号相似,并且清音部分波形信号的幅值远小于浊音部分波形信号的幅值。参数化分析器将这种类似于噪音的信号进行压缩后,无法确保能够利用该压缩的数据将其重新合成而失真很小。也就是说,利用参数化分析器对上述清音部分进行压缩,将无法确保重新合成的语音具有自然发音质量(真人发音质量)。因此,为了确保生成自然发音的合成语音,本发明将浊音部分利用参数化分析器进行压缩后以参数方式存储,而将清音部分以波形方式进行存储。
另外,一个有利的方面是清音部分的长度一般小于浊音部分的长度。所以,将清音部分以波形方式存储,而不是对其进行参数化分析后存储其参数,并未大幅度增加数据存储量,但是获得的合成语音质量更好。以较小的存储容量为代价,获得了较好的效果。而且,音节之间的韵律特征矢量之间的差别一般体现在其浊音部分,所以韵律修改一般用于浊音部分。这种因素需要也允许以不同的方式存储浊音部分和清音部分。
下面结合图2,详细说明本发明的混合音节(波形)的压缩方法。图2是根据本发明的混合波形压缩的流程图。
在步骤2.1,根据是音节的波形特性将每个音节代表的波形分为两部分浊音部分(Voiced portion,WV)和清音部分(Unvoiced portion,WU),此步骤称为音节拆分。有的音节可能没有清音部分,则直接处理其浊音部分。其中清音部分一般在音节的启始部分,信号幅度较小,相对于浊音部分来说,更像是噪音信号;而浊音部分一般位于音节的后部,信号幅度相对于清音部分来说较强。对于清音部分直接存储其波形,对于浊音部分通过以下步骤进行压缩。
在步骤2.6(包括步骤2.2-2.5),利用参数化分析器对上述浊音部分的波形进行参数化分析,同时设计用于参数化分析的码本。该码本依赖于进行录音的人以及语音库。然后结合听觉评估,对码本进行迭代修改,此步骤称为码本设计。
在步骤2.2,利用参数化分析器对所述浊音部分进行分析,取得所述浊音部分(WV)的参数及其码本,将这些参数存储在语音库中,此步骤称为浊音部分波形压缩。
在步骤2.3,根据步骤2.2得到的浊音部分的参数和码本,重新合成浊音部分。浊音部分可以使用与所述参数化分析器相应的参数合成器来重新合成。将清音部分和浊音部分拼接起来,就可以得到一个完整的音节波形。
在步骤2.4,将所述浊音部分的参数以及相应的清音部分结合,合成一个完整音节的波形,并对其进行听觉评估。
如果评估结果不满意,则进行步骤2.5,修改所述浊音部分的码本,然后重新进行步骤2.2,参数化分析器利用修改后的码本重新对浊音部分进行参数化分析。如果评估结果满意,则输出参数化分析所得到的所述浊音部分的参数,即可得到混合压缩的音节参数。
利用上述的方法和装置,拼接式中文文本至语音转换系统的语音音节库可以被压缩到几兆字节。使用混合音节波形压缩方案的合成音节,其质量要好于利用已有技术中直接音节压缩方案得到的合成音节的质量,具有自然发音的特征。
本领域技术人员应当理解,本发明的混合波形压缩方法既可以与上述音节分组方法结合使用,来压缩每个音节子组中音节代表的波形;也可以单独使用,根据具体需求来对音节波形进行压缩。
以下结合图3和图4简要介绍根据本发明的压缩语音库的装置。根据本发明的用于压缩语音库的装置如图3所示。该装置为一种压缩中文文本至语音转换系统中的语音库的装置,包括用于从一发音库中收集多个音节的装置(图中未示),所述压缩语音库的装置还包括音节分组装置31,用于将所述音节分成多个音节组,其中每一组中的音节具有相同的拼音(Phonetic Spelling);子组划分装置,包括语音学分组装置33和混合分组装置34,用于根据所述音节组中全部音节的韵律特征的相似性,将所述音节组中的音节划分为多个音节子组,其中语音学分组是基于音节的本调和语音学/协同发音环境参数的相似性,混合声学/语音学分组是通过对音节的韵律特征进行加权而进行,加权函数为W={Wt,Wp,Wd,We,Wy},其中Wt是对音节本调的加权,Wp是对音节基音轮廓的加权,Wd是对音节时长的加权,We是对音节均方根幅度的加权,Wy是对音节语音学/协同发音环境参数的加权;音节代表选择装置35,用于在每一所述子组中选择一音节代表,来代表该组中其它的普通音节;存储装置(图中未示),用于存储所述选定的音节代表,以形成压缩语音库。
用于压缩语音库的装置还包括韵律特征差别处理装置(图中未示),用于在每一子组中,计算普通音节与音节代表之间的韵律特征差别,并在所述压缩语音库中存储所述韵律特征差别;音节代表听觉评估装置36,用于对选定的音节代表进行听觉评估;音节代表判断装置39,用于根据评估结果作出判断,如果评估结果满意,则输出该音节代表,否则,利用修改装置进行操作;以及修改装置,用于对分组以及音节代表的选择提供修改信息。
根据本发明的用于压缩音节代表波形的装置如图4所示,该装置包括发音划分装置51,用于将所述音节代表划分为一清音部分和一浊音部分;以及波形处理装置56,用于将所述清音部分以波形方式直接存储,将浊音部分用参数化分析器进行压缩后存储。
其中波形处理装置56包括发音合成装置53,用于重新合成所述浊音部分,以及将浊音部分和清音部分进行拼接后得到合成的音节代表;合成音节听觉评估装置54,用于对合成的音节代表的浊音部分和清音部分进行听觉评估,以获得满意的混合压缩的音节代表;码本修改装置,用于在评估装置54得出的评估结果为不满意是,修改参数化分析器52用于压缩浊音部分波形的码本。
本发明保护范围阐明于所附权利要求书中。但是,凡是在本发明的宗旨之内的,显而易见的修改亦应归于本发明的保护范围之内。
权利要求
1.一种压缩中文文本至语音转换系统中的语音库的方法,包括从一发音库中收集多个音节,其特征在于该方法包括将所述音节分成多个音节组,其中每一组中的音节具有相同的拼音;根据所述音节组中全部音节的韵律特征的相似性,将所述音节组中的音节划分为多个音节子组;在每一所述子组中选择一音节代表,来代表该组中其它的普通音节;存储所述选定的音节代表,以形成语音库。
2.如权利要求1所述的压缩语音库的方法,其特征在于所述韵律特征包括音节的本调、基音轮廓、时长、能量(均方根幅度)和语音学/协同发音环境参数。
3.如权利要求1所述的压缩语音库的方法,其特征在于所述音节子组划分方法包括语音学分组(Phonetic Clustering)和混合声学/语音学分组(Hybrid Acoustic/Phonetic Clustering),其中语音学分组是基于音节的本调和语音学/协同发音环境参数的相似性,混合声学/语音学分组是通过对音节的韵律特征进行加权而进行,加权函数为W={Wt,Wp,Wd,We,Wy},其中Wt是对音节本调的加权,Wp是对音节基音轮廓的加权,Wd是对音节时长的加权,We是对音节均方根幅度的加权,Wy是对音节语音学/协同发音环境参数的加权。
4.如权利要求1所述的压缩语音库的方法,其特征在于所述方法还包括在每一子组中,计算普通音节与音节代表之间的韵律特征差别,并在所述压缩语音库中存储所述韵律特征差别。
5.如权利要求1所述的压缩语音库的方法,其特征在于还包括利用参数化分析器对所述音节代表进行压缩。
6.如权利要求1所述的压缩语音库的方法,其特征在于所述方法还包括对所述音节代表进行听觉评估,如果对所述音节代表不满意,则根据韵律特征的相似性重选音节代表和/或重新划分音节子组,重复进行上述步骤直至获得满意的音节代表。
7.如权利要求1所述的压缩语音库的方法,其特征在于所述方法还包括将所述音节代表划分为一清音部分和一浊音部分;将所述清音部分以波形方式直接存储;以及结合音节代表的参数化分析器码本,利用参数化分析器将所述浊音部分进行压缩。
8.如权利要求7所述的压缩语音库的方法,其特征在于所述方法还包括重新合成所述浊音部分,以及将浊音部分和清音部分进行拼接后对所述音节代表的浊音部分和清音部分进行听觉评估。
9.如权利要求7所述的压缩语音库的方法,其特征在于所述方法还包括如果对合成的音节代表不满意,则修改用于浊音部分的所述码本,否则,在语音库中存储经混合压缩的音节代表。
10.一种压缩中文文本至语音转换系统中的语音库的装置,包括用于从一发音库中收集多个音节的装置,其特征在于所述装置还包括分组装置,用于将所述音节分成多个音节组,其中每一组中的音节具有相同的拼音;子组划分装置,用于根据所述音节组中全部音节的韵律特征的相似性,将所述音节组中的音节划分为多个音节子组;音节代表选择装置,用于在每一所述子组中选择一音节代表,来代表该组中其它的普通音节;存储装置,用于存储所述选定的音节代表,以形成压缩语音库。
11.如权利要求10所述的压缩语音库的装置,其特征在于所述装置还包括韵律特征差别处理装置,用于在每一子组中,计算普通音节与音节代表之间的韵律特征差别,并在所述压缩语音库中存储所述韵律特征差别。
12.如权利要求10所述的压缩语音库的装置,其特征在于所述装置还包括加权计算装置,用于对音节的韵律特征进行加权计算,加权函数为W={Wt,Wp,Wd,We,Wy},其中Wt是对音节本调的加权,Wp是对音节基音轮廓的加权,Wd是对音节时长的加权,We是对音节均方根幅度的加权,Wy是对音节语音学/协同发音环境参数的加权。
13.如权利要求10所述的压缩语音库的装置,其特征在于所述装置还包括参数化分析器,用于压缩所述语音代表。
14.如权利要求10所述的压缩语音库的装置,其特征在于所述装置还包括发音划分装置,用于将所述音节代表划分为一清音部分和一浊音部分;以及波形处理装置,用于将所述清音部分以波形方式直接存储,将浊音部分用参数化分析器进行压缩后存储。
15.如权利要求10所述的压缩语音库的装置,其特征在于所述装置还包括合成装置,用于重新合成所述浊音部分,以及将浊音部分和清音部分进行拼接后得到合成的音节代表;以及听觉评估装置,用于对合成的音节代表的浊音部分和清音部分进行听觉评估,以获得满意的混合压缩的音节代表。
16.如权利要求14所述的压缩语音库的装置,其特征在于还包括参数合成装置,用于拼接所述音节代表的浊音部分和清音部分。
17.一种压缩中文文本至语音转换系统中的语音库的方法,包括从一发音库中收集多个音节,其特征在于该方法还包括将所述音节代表划分为一清音部分和一浊音部分;将所述清音部分以波形方式直接存储;以及结合音节代表的参数化分析器码本,利用参数化分析器将所述浊音部分进行压缩。
18.如权利要求17所述的压缩语音库的方法,其特征在于所述方法还包括重新合成所述浊音部分,以及将浊音部分和清音部分进行拼接后对所述音节代表的浊音部分和清音部分进行听觉评估。
19.如权利要求17所述的压缩语音库的方法,其特征在于所述方法还包括如果对合成的音节代表不满意,则修改用于浊音部分的所述码本,否则,在语音库中存储经混合压缩的音节代表。
全文摘要
一种压缩中文文本至语音转换系统中的语音库的方法,包括从一发音库中收集多个音节,将所述音节分成多个音节组,其中每一组中的音节具有相同的拼音;根据所述音节组中全部音节的韵律特征的相似性,将所述音节组中的音节划分为多个音节子组;在每一所述子组中选择一音节代表,来代表该组中其它的普通音节;以及存储所述选定的音节代表,以形成压缩语音库。利用本发明的方法和装置,可以将拼接式中文文本至语音转换系统的语音音节库压缩至几兆字节。本发明对音节代表使用混合音节波形压缩,将音节分为浊音部分和清音部分,分别进行处理。利用根据本发明得到的语音库进行音节合成,合成的音节具有自然发音的特性。
文档编号G06F17/28GK1471027SQ0212700
公开日2004年1月28日 申请日期2002年7月25日 优先权日2002年7月25日
发明者俞振利, 岳东剑, 黄建成 申请人:摩托罗拉公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1