一种嵌入式语音合成方法及系统的制作方法

文档序号：2822388阅读：209来源：国知局

专利名称：一种嵌入式语音合成方法及系统的制作方法
技术领域：
本发明总的来说涉及一种语音合成方法和语音合成系统，尤其涉及一种以面向便携式手持数字移动设备，包括移动电话和掌上电脑的语音合成方法及系统。
背景技术：
语音合成系统又称文语转换系统(TTS系统)，它的主要功能是将计算机接收到的输入的任意文字串转换成语音输出。一般认为，语音合成系统的功能模块可细分为三个主要的组成部分文本分析模块、韵律生成模块和声学模块。近年来基于大规模语料库的合成方法渐渐成为语音合成领域的主流技术，其实现的基本思想是从大量自然语流中依照特定的规则选择语音单元进行拼接，并对语音单元进行韵律特性的调整和修改，从而得到符合要求的合成语音。为保证合成结果具备丰富的韵律表现，其音库规模往往达到数百兆字节。采用这样的方法对当前桌面PC的CPU处理能力、内存和其他资源的配置来讲并不是问题，但是对于当前主流的便携式手持数字移动设备(包括移动电话和掌上电脑)来说，其存储空间及运算能力则远远无法满足实用的要求。
目前已有的嵌入式语音合成系统均采用汉语中的音节作为合成系统的基本单元，在已有大型语言语音库的基础上依据样本间的声学距离对每个音节的所有样本进行聚类，仅以聚类质心作为该类别的代表保留下来，同时丢弃掉该类别内部其他样本，从而实现对语音库的压缩。基于上述方法得到的语音库最少也需要1M以上的存储空间，若继续对其进行压缩，则每个音节保留下来的样本数将显著减少，从而导致合成语音的自然度及音质显著下降。上述嵌入式合成系统的规模对于当前主流的手持设备来说仍然是比较大的开销，其要求的资源相对于其在手持设备上的重要性而言代价过高，用户难以接受。因此，需要一种改进的方法，用于在嵌入式平台下实现占用资源较小的语音合成系统。

发明内容
本发明所要解决的技术问题是提供一种可以在便携式手持数字移动设备上使用的中文语音合成方法和系统，它占用极少的系统资源，同时可使得合成结果保持较好的自然度和可懂度。
为实现上述目的，本发明提供了一种嵌入式语音合成方法，用于手持数字移动设备操作系统将系统接收到的输入的任意文字串转换成语音输出，其以汉语中的声韵母作为合成系统的基本单元；语音库的量化压缩过程分为下述三个步骤A.创建基于声韵母的原始语音库。
B.基于声韵母样本的上下文环境属性以及声学特征对所述原始语音库进行量化压缩。
C.通过语音压缩算法对所述量化压缩后的语料库进行编码压缩，得到最终的压缩语音库。
上述的嵌入式语音合成方法，其特征是所述基于声韵母单元原始语音库创建过程如下对语音库中每个声母或韵母根据音节内部与其相邻的韵母或声母的发音特点进一步分类。
上述的嵌入式语音合成方法，其特征是以声韵母作为基元的语音库的量化压缩过程分为下述六个步骤A.创建一个空的语音库。
B.每次从原始语音库中读入一个声韵母的全部原始样本。
C.声韵母样本粗选步骤，用于剔除该声韵母中所有受录音人、录音设备及语音库标注等人为音素的影响而在语音库中残留下来的畸变样本。
D.声韵母样本聚类步骤，用于将所述粗选后的声韵母样本根据音段特征及超音段特征进一步聚类，以聚类后每一类的质心作为该类的代表保留下来，丢弃其余声韵母样本。
E.将全部质心声韵母样本存入新建立的压缩语音库中。
F.判断是否处理完全部声韵母单元，如果是，则离线部分程序结束；如果否，则返回步骤B重复步骤B、C、D、E，直到处理完全部原始语料库。
上述的嵌入式语音合成方法，其特征是所述声韵母样本粗选步骤包括下述三个步骤A.统计分析单元内部原始声韵母样本的平均韵律特性，剔除掉偏离平均特性过远的样本；考虑的韵律特性包括样本的基频曲线、音长及平均能量。
B.考察音库中的声韵母样本在原始语流中与相邻单元协同发音的程度，剔除掉协同发音过强的样本。
C.分析声韵母样本的音质异常度，剔除掉音质较差的样本。
上述的嵌入式语音合成方法，其特征是所述样本聚类步骤包括下述三个步骤A.声韵母单元预分类步骤，用于结合样本的上下文环境属性对样本进行预分类；采用分类与回归树(CART)方法进行分类，为每个声韵母生成一颗CART树。
B.韵母聚类步骤，用于对韵母的CART树的每个叶子结点上的样本进行聚类；聚类选用的特征为韵母的基频曲线，仅保留每类的质心，丢弃其余样本。
C.声母聚类步骤，用于对声母的CART树的每个叶子结点上的样本进行聚类；聚类选用的特征为声母的12阶Mel频标倒谱参数(MFCC)。
上述方法采用声韵母作为基元可大幅提升系统的可压缩性，可在保持合成结果的自然度及可懂度的前提下，尽量降低音库中的声学冗余度，从而实现高效率的压缩。该方法在同等语音库规模下与基于音节的合成方法相比，性能几乎没有差别。
为更好的实现上述目的，本发明还提供了一种嵌入式语音合成系统，应用于手持数字移动设备操作系统，其由语音合成系统离线部分，文本输入模块、语音合成系统在线部分和数字语音信号输出模块组成；其中，语音合成系统离线部分和文本输入模块的输出端与语音合成系统在线部分电连接，语音合成系统在线部分的输出端与数字语音信号输出模块的输入端电连接。
所述的嵌入式语音合成系统，其所述语音合成系统离线部分，只在该语音合成系统离线工作状态时使用，仅用于生成该合成系统在线工作时需要用到的压缩语音库，语音合成系统离线部分包括原始语音库，原始语音库包括录制好的经过能量归整的原始语音。
所述的嵌入式语音合成系统，其所述语音合成系统在线部分，包括下述模块A.文本分析模块，用于对所述输入的文本进行格式和内容上的分析并将其转换为声韵母序列串；同时为每个声韵母附着一系列相关韵律信息；B.韵律预测模块，用于接收所述附着韵律信息的声韵母序列串，根据韵律信息利用统计模型预测出与其对应的目标韵律值，包括声韵母的音长、基频曲线和平均能量，并将其附着在声韵母上；C.波形拼接模块，用于接收所述附着目标韵律值的声韵母序列串，根据所述声韵母序列携带的韵律信息从所述压缩语音库中选取与目标韵律值最为接近的样本序号，并利用与所述编码算法相对应的解压算法还原出与所述样本序号所对应的语音信号，并将其拼接在一起，在拼接处作平滑处理；D.语音解码模块；以及E.压缩语音库；其中，文本输入模块与文本分析模块、韵律预测模块、波形拼接模块顺序电连接；语音合成系统离线部分与压缩语音库、语音解码模块、波形拼接模块顺序电连接；波形拼接模块的输出端与数字语音信号输出模块电连接，数字语音信号输出模块用于播放所述拼接成的数字语音信号。
依据上述方法建立的嵌入式语音合成系统，完全可以在手持数字移动设备操作系统下应用，且所占用的资源和需要的计算复杂度均不超过所说的手持设备本身所具备的能力。
下面结合附图和实施例对本发明进一步说明，通过结合附图对系统各组成部件的详细说明将会更好地描述实现本发明的步骤和过程。

附图1基于声韵母的嵌入式语音合成系统的结构示意图；附图2声韵母语音库量化压缩过程示意图；附图3声韵母样本粗选过程示意图；附图4声韵母样本聚类过程示意图。
具体实施例方式
在附图1中，在本发明的优选实施方案中，本发明的嵌入式语音合成系统设置在一种掌上电脑的操作系统中，该嵌入式语音合成系统包括语音合成系统离线部分1，依次连接在一起的掌上电脑文本输入模块2、语音合成系统在线部分3和数字语音信号输出模块4。
其中，语音合成系统离线部分1只在该语音合成系统离线工作状态时使用，仅用于生成该合成系统在线工作时需要用到的压缩语音库b。其中原始语音库a包括录制好的经过能量归整的原始语音，由原始语音库a离线生成压缩语音库b的过程包括声韵母语音库创建步骤70、声韵母语音库量化压缩步骤80和语音库编码/包装步骤90。
在步骤70中，首先利用语音识别工具包HTK对录制好的原始语音库进行自动切分，以得到声韵母语音片断在原始语句中的边界位置信息，同时采用基频检测工具标记出语音波形的峰值点位置信息，并手工对所述自动获得的边界位置及峰值点位置进行校对；然后在所述切分标记后的语音库中，对每个声母或韵母根据其音节内部与其相邻的韵母或声母的发音特点进一步分类声母分为四类，后接开口呼，后接齐齿呼，后接合口呼，后接撮口呼；韵母分为九类，前接不送气塞音，前接送气塞音，前接不送气塞擦音，前接送气塞擦音，前接不发音擦音，前接发音擦音，前接鼻音，前接边音，零声母韵母。汉语中共有声母21个，韵母43个，则共计产生环境相关的声韵母单元471个，以分类后的声韵母单元作为语音库的基本单元。同时结合对原始语句文本的文法分析，得出每个声韵母样本的高层韵律信息，包括与当前声/韵母同音节的韵/声母类型及ID，前音节韵母类型及ID，后音节声母类型及ID，声韵母所在音节的调形，前音节调形，后音节调形，低层次韵律层次相对高层次韵律层次的相对位置(韵律层次包括韵律词、韵律短语、语句，相对位置包括在层次的首、中、尾)，声韵母所属音节的韵律词、韵律短语长度(以音节个数为单位)，声韵母所属音节的前后静音段的长度。将所述所有信息保存到一个文件之内，作为该声韵母的信息文件。所有声韵母的原始波形文件与信息文件共同组成声韵母语音库。
在步骤80中，如附图2所示，以声韵母作为基元的语音库的量化压缩过程分为下述六个步骤步骤100，程序创建一个空的压缩语音库。
步骤110，每次从原始语音库中读入一个声韵母的全部原始样本。
步骤120，声韵母样本粗选步骤，如附图3所示，用于剔除该声韵母在语音库中残留下来的畸变样本。受录音人、录音设备及语音库标注等人为音素的影响，音库中存在大量从声学特征上来看较为反常的样本。当语音库规模较大时，这些音被选出的概率较小，对合成结果影响较小。可当对语音库规模较小时，残留下来的畸变的样本则很容易被选出用于合成语音，从而大幅降低合成结果的稳定性，同时还将占用宝贵的存储空间。本实施例依次采用下述三种筛选准则，自动对语音库进行预筛选，剔除掉其中的不稳定因素。其中步骤200用于读入某个声韵母单元的全部样本。步骤210读入该单元的某一个样本。步骤220用于判断所述步骤210读入的样本是否满足韵律异常度准则。此处考虑的韵律因素包括样本的音长、基频曲线和能量。定义第i个样本的韵律异常度(ProsodicSalience)为PS(i)=ω1Dd(i)+ω2Dp(i)+ω3De(i)ω1+ω2+ω3---(1)]]>其中各子异常度为Dd(i)=(d(i)-d&OverBar;d&OverBar;)2---(2)]]>Dp(i)=(p(i)-p&OverBar;p&OverBar;)2---(3)]]>De(i)=(e(i)-e&OverBar;e&OverBar;)2---(4)]]>
d(i)、p(i)和e(i)分别为第i个样本的音长、基频均值和平均能量，d、p和e分别为该基元所有样本相应特征的均值。各子异常度的权值ω1，ω2和ω3根据实验得出。对任一样本i，对x，x∈{d，p，e}，若有Dx(i)＞Tx(5)或PS(i)＞T (6)则删除该样本。其中Tx和T分别为各子韵律异常度和总韵律异常度的阈值。该准则可剔除音长或峰值点标注出错的样本，以及录音过程中人为因素导致的能量过弱或过强的样本。步骤230用于判断所述步骤210读入的样本是否满足粘连度准则。该准则考察音库中的样本在原始语流中与相邻单元协同发音的程度。对基于小音库的系统来说，拼接处由谱不连续导致的音质损失尤为严重，在建库阶段尽量剔除粘连度较强的音是一种可行的方案。定义第i个样本的粘连度(Context Dependency)为CD(i)=ωle&OverBar;l(i)+ωre&OverBar;r(i)ωl+ωr---(7)]]>其中el(i)和er(i)分别为样本左、右边界处的平均能量，可根据单元的声学特征决定其权值。本实施例中，对塞音和塞擦音令ωl为0。类似的，若样本i的CD(i)大于某个阈值T，则剔除该样本。步骤240用于判断所述步骤210读入的样本是否满足音质异常度准则。录音人在长期录音的过程中由于疲劳或其它心理因素可能导致录制的某些样本音质出现异常，表现为气声、耳语或掺杂明显的情感。这些音往往出现在句子结尾处，能量偏弱，且元音的周期性较差。对样本i，定义其音质异常度(QualityDistortion)为QD(i)=npeak(i)e&OverBar;(i)·dur(i)---(8)]]>其中npeak(i)为该样本峰值点的数目，e(i)为平均能量，dur(i)为该样本的音长。若样本i的CD(i)大于某个阈值T，则剔除该样本。在步骤250中，若样本满足所述三准则，则将其保留在压缩语音库中。步骤260判断是否处理完该声韵母单元所有的样本，如果否，则返回步骤210，直到处理完所有样本；如果是，则实施步骤270。步骤270判断是否处理完所有声韵母单元，如果否，则返回步骤200；如果是，则样本粗选步骤120结束。
步骤130，声韵母样本聚类步骤，如附图4所不，用于将所述步骤120粗选后的声韵母样本根据音段特征及超音段特征进一步聚类，以聚类后每一类的质心作为该类的代表保留下来，丢弃其余声韵母样本。首先对声韵母进行预分类，然后分别对预分类后的声韵母基于各自的声学特征进一步聚类压缩，从而保持压缩语音库中音段特征及超音段特征的多样性。其中步骤300用于读入某个声韵母单元的全部样本。步骤310基于音韵学环境属性对样本进行预分类，本实施例中采用数据挖掘领域中的CART方法作为分类工具，选取的决策属性建立在对上下文的描述之上，包括与当前声/韵母同音节的韵/声母类型及ID。
前音节韵母类型及ID 后音节声母类型及ID 声韵母所在音节的调形，前音节调形，后音节调形(包括阴平，阳平，上声，去声，轻声五种)。
低层次韵律层次相对高层次韵律层次的相对位置，韵律层次包括韵律词、韵律短语、语句。相对位置包括在层次的首、中、尾。
声韵母所属音节的韵律词长度，韵律短语长度，以音节个数为单位。
声韵母所属音节的前后静音段的长度。
并选用12阶Mel频标倒谱参数(MFCC)作为声韵母单元的特征参数，选用mahalanobis距离来计算单元间的距离。单元M，N的距离定义如Eq.(9)dis(M,N)=Σi=1|M|Σj=112[Pij(M)-P(i|M||N|)j(N)]2---(9)]]>其中Pij(M)为第i帧的第j个MFCC参数，|M|为M的帧数。实际计算时，把音节内部声韵母间过渡段的MFCC也包含在声韵母的参数向量之内，目的是更好的对声韵母间的协同发音进行建模，使得分类结果对与其相邻的声韵母更加敏感。利用CART训练工具wagon为每个声韵母生成一颗CART树，叶子结点上样本数目控制在50-100之间。步骤320判断当前单元是声母还是韵母，若是声母，则由步骤330采用声母样本的MFCC参数来对该声母CART树叶子结点上的样本进行聚类；若是韵母，则由步骤340采用韵母样本的基频曲线来对该韵母CART树叶子结点上的样本进行聚类。步骤350判断是否处理完所有声韵母单元，若是，则样本聚类步骤130结束；若否，则返回步骤300，处理其他声韵母单元。
步骤140，保留所述所有声韵母单元CART树叶子结点上的质心样本至最终的压缩语音库，丢弃全部其他样本。
步骤150，判断是否处理完全部声韵母单元，如果否，则返回步骤110，重复步骤110、120、130、140和150，直到处理完全部声韵母单元；如果是，则声韵母语音库量化压缩步骤80结束。
在步骤90中，将所述量化压缩过的语音库中的声韵母样本通过一定的语音压缩算法压缩成占用空间更小的语音片断，并以一定的方式将编码后的波形文件和70中生成的信息文件组织成一个文件的形式。在本发明的实施例中，步骤90中采用的压缩语音库包装方法是以一定规则将编码压缩后的语音码字组合成一个文件的形式，该压缩语音库的索引是根据用来代表不同声韵母的符号建立的。在本发明的实施例中，所采用的压缩语音库的语音压缩算法可以是任意一种能够述手持设备资源要求(包括存储空间和计算复杂度)的且能够达到听觉要求(用户满意)的算法，例如G.723.1等具有低码率的、在通信系统中广泛采用的语音压缩算法，或者其他具有高压缩率和低失真的语音编解码算法，只要其运算复杂度和存储要求能够在所述的手持设备上运行即可。由步骤90可生成压缩语音库b，至此系统离线部分模块1结束工作。
如附图1所示，文本输入模块2接收输入的文本，在本发明的实施例中，系统提供可供手写输入的界面，用户可选择采用掌上电脑自带的手写笔自行输入待合成的文本；也可选择通过打开文本文件的方式来合成整个文件，用户还可使用手写笔挑选文件中的若干行单独合成。
语音合成系统在线部分3又包括依次连接在一起的文本分析模块20、韵律预测模块30、波形拼接模块40、语音解码模块60及压缩语音库模块b。其中，文本分析模块20可以接收文本形式的输入，通过分析输入文本的格式和内容将输入汉字转换成相应声韵母序列串；同时为每个声韵母附着一系列相关韵律信息。韵律预测模块30用于接收所述附着韵律信息的声韵母序列串，根据韵律信息利用统计模型预测出与其对应的目标韵律值，包括声韵母的音长、基频曲线和平均能量，并将其附着在声韵母上。波形拼接模块40，用于接收所述附着目标韵律值的声韵母序列串，根据所述序列携带的韵律信息从所述压缩语音库中选取与目标韵律值最为接近的样本序号，并利用与所述编码算法相对应的解压算法还原出与所述样本序号所对应的语音信号，并将其拼接在一起，在拼接处作平滑处理。
数字语音信号输出模块4，用于播放所述拼接成的数字语音信号。
本发明涉及一种语音合成方法和系统，基于该方法能够提升嵌入式平台下合成语音系统音库的可压缩性，从而大大降低其在嵌入式平台下所占用的系统资源，同时可使得合成结果保持较好的自然度和可懂度。
本发明在掌上电脑上应用上，所有语音功能均可以随时在手持设备上启用或关闭。在未启用语音功能时，原手持设备的各种功能将不受任何影响。
上述实施例为本发明的较佳实施例，本发明的应用不仅限于掌上电脑，还可应用到多种手持式移动设备。根据本发明的主要构思，本领域普通技术人员均可以产生多种相类似的或等价的应用，因此，本发明的保护应以权利要求的保护范围为准。
权利要求
1.一种嵌入式语音合成方法，用于手持数字移动设备操作系统，将系统接收到的或输入的任意文字串转换成语音输出，其特征是以汉语中的声韵母作为合成系统及语音库的基本单元；语音库的量化压缩过程分为下述三个步骤A.创建基于声韵母的原始语音库；B.基于声韵母样本的上下文环境属性以及声学特征，对所述原始语音库进行量化压缩；C.通过语音压缩算法对所述量化压缩后的语料库进行编码压缩，得到最终的压缩语音库。
2.根据权利要求1所述的嵌入式语音合成方法，其特征是所述A步，基于声韵母单元原始语音库创建过程如下对语音库中每个声母或韵母根据音节内部与其相邻的韵母或声母的发音特点进一步分类。
3.根据权利要求1所述的嵌入式语音合成方法，其特征是所述B步，以声韵母作为基元的语音库的量化压缩过程分为下述六个步骤A.创建一个空的语音库；B.每次从原始语音库中读入一个声韵母的全部原始样本；C.声韵母样本粗选步骤，用于剔除该声韵母中所有受录音人、录音设备及语音库标注的人为音素影响，而在语音库中残留下来的畸变样本；D.声韵母样本聚类步骤，用于将所述粗选后的声韵母样本根据音段特征及超音段特征进一步聚类，以聚类后每一类的质心作为该类的代表保留下来，丢弃其余声韵母样本；E.将全部质心声韵母样本存入新建立的压缩语音库中；F.判断是否处理完全部声韵母单元，如果是，则离线部分程序结束；如果否，则返回步骤B重复步骤B、C、D、E，直到处理完全部原始语料库。
4.根据权利要求3所述的嵌入式语音合成方法，其特征是所述C步，声韵母样本粗选步骤包括下述三个步骤A.统计分析单元内部原始声韵母样本的平均韵律特性，剔除掉偏离平均特性过远的样本；考虑的韵律特性包括样本的基频曲线、音长及平均能量；B.考察音库中的声韵母样本在原始语流中与相邻单元协同发音的程度，剔除掉协同发音过强的样本；C.分析声韵母样本的音质异常度，剔除掉音质较差的样本。
5.根据权利要求3所述的嵌入式语音合成方法，其特征是所述D步，样本聚类步骤包括下述三个步骤A.声韵母单元预分类步骤，用于结合样本的上下文环境属性对样本进行预分类；采用分类与回归树(CART)方法进行分类，为每个声韵母生成一颗CART树；B.韵母聚类步骤，用于对韵母的CART树的每个叶子结点上的样本进行聚类；聚类选用的特征为韵母的基频曲线，仅保留每类的质心，丢弃其余样本；C.声母聚类步骤，用于对声母的CART树的每个叶子结点上的样本进行聚类；聚类选用的特征为声母的12阶Mel频标倒谱参数(MFCC)。
6.一种嵌入式语音合成系统，应用于手持数字移动设备操作系统，其特征是由语音合成系统离线部分，文本输入模块、语音合成系统在线部分和数字语音信号输出模块组成；其中，语音合成系统离线部分和文本输入模块的输出端与语音合成系统在线部分电连接，语音合成系统在线部分的输出端与数字语音信号输出模块的输入端电连接。
7.如权利要求6所述的嵌入式语音合成系统，其特征是所述语音合成系统离线部分，只在该语音合成系统离线工作状态时使用，仅用于生成该合成系统在线工作时需要用到的压缩语音库，语音合成系统离线部分包括原始语音库，原始语音库包括录制好的经过能量归整的原始语音。
8.如权利要求6所述的嵌入式语音合成系统，其特征是所述语音合成系统在线部分，包括下述模块A.文本分析模块，用于对所述输入的文本进行格式和内容上的分析并将其转换为声韵母序列串；同时为每个声韵母附着一系列相关韵律信息；B.韵律预测模块，用于接收所述附着韵律信息的声韵母序列串，根据韵律信息利用统计模型预测出与其对应的目标韵律值，包括声韵母的音长、基频曲线和平均能量，并将其附着在声韵母上；C.波形拼接模块，用于接收所述附着目标韵律值的声韵母序列串，根据所述声韵母序列携带的韵律信息从所述压缩语音库中选取与目标韵律值最为接近的样本序号，并利用与所述编码算法相对应的解压算法还原出与所述样本序号所对应的语音信号，并将其拼接在一起，在拼接处作平滑处理；D.语音解码模块；以及E.压缩语音库；其中，文本输入模块与文本分析模块、韵律预测模块、波形拼接模块顺序电连接；语音合成系统离线部分与压缩语音库、语音解码模块、波形拼接模块顺序电连接；波形拼接模块的输出端与数字语音信号输出模块电连接，数字语音信号输出模块用于播放所述拼接成的数字语音信号。
全文摘要
本发明公开了一种嵌入式语音合成方法及系统，用于手持数字移动设备操作系统，将系统接收到的或输入的任意文字串转换成语音输出。以汉语中的声韵母作为合成系统及语音库的基本单元；首先创建基于声韵母的原始语音库，然后基于声韵母样本的上下文环境属性以及声学特征，对所述原始语音库进行量化压缩，最后通过语音压缩算法对所述量化压缩后的语料库进行编码压缩，得到最终的压缩语音库。依据本发明提供的方法可提升合成系统的可压缩性，从而降低其在嵌入式平台下所占用的系统资源，同时可使得合成结果保持较好的自然度和可懂度。
文档编号G10L13/02GK1924994SQ20051008631
公开日2007年3月7日申请日期2005年8月31日优先权日2005年8月31日
发明者陶建华, 张皖志申请人:中国科学院自动化研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陶建华;张皖志
技术所有人：中国科学院自动化研究所
我是此专利的发明人