语音合成方法、系统及具有语音合成功能的移动终端设备的制作方法

文档序号：2823703阅读：161来源：国知局

专利名称：语音合成方法、系统及具有语音合成功能的移动终端设备的制作方法
技术领域：
本发明涉及信号处理技术领域，特别是涉及一种语音合成方法、系统，以及一种具有语音合成功能的移动终端设备。
背景技术：
由人工通过一定的机器设备产生出语音称为语音合成(Speech Synthesis)。语音合成从技术方式讲可分为波形拼接合成、参数分析合成等。其中，参数分析合成这种合成方式多以音节、半音节或音素为合成单元。首先，按照语音理论，对所有合成单元的语音提取有关语音参数，然后进行统计分析，生成一个参数模型库；合成时，根据待合成的文本信息，从参数模型库中规划出相应的合成参数，然后送入语音合成器合成，最终将语音波形生成出来。具体的，在基于参数的语音合成中，由于规划语音参数是基于统计模型，所以最后规划出来的参数往往趋于平均水平，从而合成的声音听起来发闷。为了解决这个问题，普遍的做法是在规划出语音参数后，对规划出的参数进行调整，使参数的变化更加明显，从而达到使声音清晰的目的。但是，由于在语音合成过程中加入了参数调整的过程，因此增加了计算量，这对于一些需要实时合成语音的系统，占用了宝贵的系统资源，影响了合成的实时性。

发明内容
本发明所要解决的技术问题是提供一种语音合成方法及系统，以解决现有的实时合成计算量大的问题。相应的，本发明还提供了一种具有语音合成功能的移动终端设备，能够降低实时合成的计算量。为了解决上述问题，本发明公开了一种语音合成方法，包括在模型训练阶段进行样本的语音参数调整，然后对调整后的参数进行统计训练，得到参数模型；在语音合成阶段，利用所述参数模型对待合成信息进行语音参数规划，然后将规划出的参数合成声音。其中，所述在模型训练阶段进行样本的语音参数调整包括在模型训练阶段，对样本语音参数中的LSP谱进行增强处理。其中，对待合成信息进行语音参数规划之前，还包括对所述待合成信息进行文本分析，得到包含音节信息和音节位置信息的分析结果；则利用所述参数模型对待合成信息进行语音参数规划包括利用所述分析结果从参数模型中规划出包含时长、基频和谱的语
音参数。其中，所述文本分析包括分词处理、词性标注、数字公式符号处理、多音字处理、韵律预测和音节位置标注处理。
其中，在模型训练阶段进行样本的语音参数调整之前，还包括选择用作样本的录音语料，并进行录音，得到录音数据；从所述录音数据中提取出包含时长、基频和谱的语音参数。本发明还提供了一种语音合成系统，包括模型训练模块，包括参数调整子模块和统计训练子模块，所述参数调整子模块用于在模型训练阶段进行样本的语音参数调整，所述统计训练子模块用于对调整后的参数进行统计训练，得到参数模型；语音合成模块，包括参数规划子模块和语音合成子模块，所述参数规划子模块用于在语音合成阶段，利用所述参数模型对待合成信息进行语音参数规划，所述语音合成子模块用于将规划出的参数合成声音。其中，所述参数调整子模块是通过对样本语音参数中的LSP谱进行增强处理来调整参数。其中，所述语音合成模块还包括文本分析子模块，用于对所述待合成信息进行文本分析，得到包含音节信息和音节位置信息的分析结果；则所述参数规划子模块是利用所述分析结果从参数模型中规划出包含时长、基频和谱的语音参数。其中，所述模型训练模块还包括录音语料设计子模块，用于选择用作样本的录音语料；录音子模块，用于利用所述录音语料进行录音，得到录音数据；参数提取子模块，用于从所述录音数据中提取出包含时长、基频和谱的语音参数。本发明还提供了一种移动终端设备，包括模型训练模块，包括参数调整子模块和统计训练子模块，所述参数调整子模块用于在模型训练阶段进行样本的语音参数调整，所述统计训练子模块用于对调整后的参数进行统计训练，得到参数模型；语音合成模块，包括参数规划子模块和语音合成子模块，所述参数规划子模块用于在语音合成阶段，利用所述参数模型对待合成信息进行语音参数规划，所述语音合成子模块用于将规划出的参数合成声音。其中，所述移动终端设备包括手机、导航仪、学习机、PDA和电子书。与现有技术相比，本发明具有以下优点首先，本发明在现有语音合成技术的基础上，将语音参数的调整过程移到模型训练阶段完成，在实时合成时就不再进行此操作，从而降低了实时合成的计算量。而实时合成阶段的计算量多少是一个比较重要的指标，因为在一些嵌入式应用中，若计算量太大，是不能实时合成的。因此，与现有技术相比，本发明保证了语音合成的实时性。其次，本发明是创造性地提出将语音参数的调整过程移到模型训练阶段。目前本领域技术人员普遍认为在语音合成阶段进行参数调整是理所当然的，很少有人想到将语音参数的调整移到模型训练阶段，这是因为按照惯常理解，合成的声音发闷的主要原因是基于统计模型规划出来的参数趋于平均水平，基于这种思路推断如果对模型统计前的语音参数进行调整，这些调整后的参数经过统计分析后仍会变得比较“平均”，因此合成的声音仍会发闷。但是，本发明恰恰打破这种定向思维，尝试对模型训练阶段的语音参数进行调整，而且经过试验证明，利用本发明得到的参数模型进行语音合成，其合成效果与现有技术的合成效果差别不明显，而且还可以降低实时合成的计算量。因此，可以证明本发明具有独创性。

图1是本发明实施例所述一种语音合成前的模型训练流程图；图2是本发明实施例所述一种语音合成流程图；图3是本发明实施例所述一种语音合成系统的结构图。
具体实施例方式为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。语音合成的过程分为模型训练阶段和语音合成阶段，为了满足语音合成的实时性要求，本发明创造性地提出将语音参数的调整过程移到模型训练阶段完成，在实时合成时就不再进行此操作，从而降低了实时合成的计算量。下面通过图1和图2所示的实施例分别详细说明模型训练阶段和语音合成阶段。参照图1，是本发明实施例所述一种语音合成前的模型训练流程图。步骤101，录音语料设计；选择用作样本的录音语料，录音语料要尽可能的覆盖所有音节、调联等情况，以及每个音节的各种发音情况，如在句首、句中、句末、韵首、韵中、韵末、词首、词中、词末等等情况。步骤102，录音；根据录音语料，专业录音员进行录音，得到录音数据。步骤103，参数提取；从录音数据中提取出声音的参数信息，如基频(即音高)、谱、时长等参数。这些参数信息的提取通常是分帧处理，常见的是Ims或者5ms —帧。具体的，可采用本领域技术人员熟知的参数提取方法进行提取，在此不再详述。步骤104，参数调整；根据应用需要，可以对提取出的基频(即音高)、谱、时长等参数都进行调整。本实施例主要对影响语音合成效果较大的谱参数进行了调整，即将谱参数的变化调的更大一些。经过试验证明，谱增强后再进行参数的统计，得到的谱参数反而比较接近真实的声音谱参数。而现有技术统计得到的谱参数比较平均，得到的谱参数与真实声音的谱参数偏差较大。谱可以用多种方法来描述，本实施例是通过LSP (Line Spectrum Pair，线谱对)来描述谱。LSP参数是LPC(linear predictive coding，线性预测编码)参数的另一种表征形式，实验证明，其量化特征和内插特性都明显优于其他参数，使得其在编码中得到广泛的应用。谱增强的主要思想是将谱参数中相邻两维参数的差变得更大一些，即大的更大，小的更小。本实施例采用的LSP谱增强方法如下
其中，Ii为调整前的谱参数，Γ i为调整后的谱参数，D为普参数的维数，α为系数，d为相邻两维参数的差值。步骤105，模型训练。对调整后的语音参数进行统计分析，得到参数模型。例如，录音数据中有100个音节“de”，则统计出这100个“de”的谱参数的均值、方差等。此外，在实际的模型训练中，还需考虑是否根据音节位置将这100个“de”分为“句首”、“句末”两类，等等处理。经过上述处理，就得到了用于语音实时合成的参数模型，而且，该参数模型是先经过语音参数调整后统计分析得到的模型。下面将利用该模型进行实时的语音合成。参照图2，是本发明实施例所述一种语音合成流程图。步骤201，输入文本；即输入待合成的信息，通常是文本信息。例如，输入“北京在2008-8-8举行了盛大的奥运会开幕式”。步骤202，文本分析；即对输入的文本进行分析，得到包含音节信息和音节位置等信息的分析结果。所述分析可以包括分词处理如将上述的文本分割为“北京/在/2008-8-8/举行/ 了 /盛大/的/
奥运会/开幕式”；词性标注对分词中的每个语法词进行词性标注，如对“北京”标注为“名词”；数字、公式、符号处理如将“ 2008-8-8 ”将转化为“二零零八年八月八日”；多音字处理如“的”字是读“de”还是“di”；韵律预测如将上述文本的韵律预测为“北京在二零零八年八月八日/举行了盛大的奥运会开幕式”；等等处理。经过上述一系列分析处理之后，最终输出结果为音节拼音bei3 jinglzai4 er4 ling2 ling2 bal nian2 bal yue 4 bal ri4 Ju3 xing2 le5s heng4 da4 de5ao4 yun4 hui4 kail mu4 shi4，以及上述其他处理的全部结果。此外，还输出一些音节的位置等信息，因为同一音节在不同位置的读法不同，例如“算”字在“计算”中需要读的较长一些，而在“计算机”中需要读的较短一些。其中，12345代表声调，分别为一声、二声、三声、四声、轻声。汉语中共有无调音节 417个，有调音节2085(417乘以5)个。本文的音节拼音指的是有调音节。步骤203，规划语音参数；即根据文本分析得到的音节信息、音节位置等信息，从参数模型中规划出语音参数，所述语音参数包括时长、基频、谱等参数。参数模型中存储了各种情况下的参数信息，以及对各种情况进行分类。例如，用户输入“北京”，以“bei3”字为例，模型首先要对这个“bei3”进行分类，比如句首的为一类，句末的为一类，又比如根据后面是不是“jingl”来分为两类。这种分类是多层的，比如所有句首为“bei3”的类中，又有可能被分为两类。当最后“bei3”的类别确定后，直接将此类对应的参数读出来即可。步骤204，语音合成。将时长、基频、谱等语音参数通过合成器重新“组合”，从而生成最终的声音。上述图1和图2说明了语音合成的一个完整过程，与现有技术相比，最大的区别在于将语音参数的调整过程移到模型训练阶段完成，在实时合成时就不再进行此操作，从而降低了实时合成的计算量。而实时合成阶段的计算量多少是一个比较重要的指标，因为在一些嵌入式应用中，若计算量太大，是不能实时合成的。因此，与现有技术相比，本发明保证了语音合成的实时性。需要说明的是，本发明是创造性地提出将语音参数的调整过程移到模型训练阶段。目前本领域技术人员普遍认为在语音合成阶段进行参数调整是理所当然的，没有人会想到将语音参数的调整移到模型训练阶段，这是因为按照惯常理解，合成的声音发闷的主要原因是基于统计模型规划出来的参数趋于平均水平，基于这种思路推断如果对模型统计前的语音参数进行调整，这些调整后的参数经过统计分析后仍会变得比较“平均”，因此合成的声音仍会发闷。但是，本发明恰恰打破这种定向思维，尝试对模型训练阶段的语音参数进行调整，而且经过试验证明，利用本发明得到的参数模型进行语音合成，其合成效果与现有技术的合成效果差别不明显，而且还可以降低实时合成的计算量。因此，可以证明本发明具有独创性。基于上述方法实施例，本发明还提供了相应的系统实施例。参照图3，是本发明实施例所述一种语音合成系统的结构图。所述语音合成系统主要包括模型训练模块1和语音合成模块2，其中，模型训练模块1主要包括参数调整子模块11，用于在模型训练阶段进行样本的语音参数调整；统计训练子模块12，用于对调整后的参数进行统计训练，得到参数模型；语音合成模块2主要包括参数规划子模块21，用于在语音合成阶段，利用所述参数模型对待合成信息进行语音参数规划；语音合成子模块22，用于将规划出的参数合成声音。本发明在现有语音合成系统的基础上，将参数调整子模块11移到模型训练模块1 中，在语音合成模块2中就不再包含该模块，因此在实时合成语音时就不再进行参数调整的操作，从而降低了实时合成的计算量。优选的，所述参数调整子模块11是通过对样本语音参数中的LSP谱进行增强处理来调整参数。优选的，所述语音合成模块2还可以包括文本分析子模块23，用于对所述待合成信息进行文本分析，得到包含音节信息和音节位置信息的分析结果；则所述参数规划子模块21是利用所述分析结果从参数模型中规划出包含时长、基频和谱的语音参数。
8
优选的，所述模型训练模块1还可以包括录音语料设计子模块13，用于选择用作样本的录音语料；录音子模块14，用于利用所述录音语料进行录音，得到录音数据；参数提取子模块15，用于从所述录音数据中提取出包含时长、基频和谱的语音参数。综上所述，所述语音合成系统降低了实时合成的计算量，在一些对实时性要求较高的嵌入式应用中，保证了语音合成的实时性。此外，本发明所述语音合成系统主要应用在一些移动终端设备上，如手机、导航仪、学习机、PDA和电子书等等。例如在导航仪应用中，可以将导航信息直接读出来，而不必再用眼睛去看。基于这些应用，本发明实施例还提供了一种移动终端设备，主要包括模型训练模块，包括参数调整子模块和统计训练子模块，所述参数调整子模块用于在模型训练阶段进行样本的语音参数调整，所述统计训练子模块用于对调整后的参数进行统计训练，得到参数模型；语音合成模块，包括参数规划子模块和语音合成子模块，所述参数规划子模块用于在语音合成阶段，利用所述参数模型对待合成信息进行语音参数规划，所述语音合成子模块用于将规划出的参数合成声音。其中，所述移动终端设备包括手机、导航仪、学习机、PDA和电子书等。优选的，所述参数调整子模块是通过对样本语音参数中的LSP谱进行增强处理来调整参数。优选的，所述语音合成模块还可以包括文本分析子模块，用于对所述待合成信息进行文本分析，得到包含音节信息和音节位置信息的分析结果；则所述参数规划子模块是利用所述分析结果从参数模型中规划出包含时长、基频和谱的语音参数。优选的，所述模型训练模块还可以包括录音预料设计子模块，用于选择用作样本的录音语料；录音子模块，用于利用所述录音语料进行录音，得到录音数据；参数提取子模块，用于从所述录音数据中提取出包含时长、基频和谱的语音参数。本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。以上对本发明所提供的一种语音合成方法、系统，以及一种具有语音合成功能的移动终端设备，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式
及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。
权利要求
一种语音合成方法，其特征在于，包括在模型训练阶段进行样本的语音参数调整，然后对调整后的参数进行统计训练，得到参数模型；在语音合成阶段，利用所述参数模型对待合成信息进行语音参数规划，然后将规划出的参数合成声音。
2.根据权利要求1所述的方法，其特征在于，所述在模型训练阶段进行样本的语音参数调整包括在模型训练阶段，对样本语音参数中的LSP谱进行增强处理。
3.根据权利要求1所述的方法，其特征在于，对待合成信息进行语音参数规划之前，还包括对所述待合成信息进行文本分析，得到包含音节信息和音节位置信息的分析结果；则利用所述参数模型对待合成信息进行语音参数规划包括利用所述分析结果从参数模型中规划出包含时长、基频和谱的语音参数。
4.根据权利要求3所述的方法，其特征在于所述文本分析包括分词处理、词性标注、数字公式符号处理、多音字处理、韵律预测和音节位置标注处理。
5.根据权利要求1或3所述的方法，其特征在于，在模型训练阶段进行样本的语音参数调整之前，还包括选择用作样本的录音语料，并进行录音，得到录音数据；从所述录音数据中提取出包含时长、基频和谱的语音参数。
6.一种语音合成系统，其特征在于，包括模型训练模块，包括参数调整子模块和统计训练子模块，所述参数调整子模块用于在模型训练阶段进行样本的语音参数调整，所述统计训练子模块用于对调整后的参数进行统计训练，得到参数模型；语音合成模块，包括参数规划子模块和语音合成子模块，所述参数规划子模块用于在语音合成阶段，利用所述参数模型对待合成信息进行语音参数规划，所述语音合成子模块用于将规划出的参数合成声音。
7.根据权利要求6所述的系统，其特征在于所述参数调整子模块是通过对样本语音参数中的LSP谱进行增强处理来调整参数。
8.根据权利要求6所述的系统，其特征在于，所述语音合成模块还包括文本分析子模块，用于对所述待合成信息进行文本分析，得到包含音节信息和音节位置信息的分析结果；则所述参数规划子模块是利用所述分析结果从参数模型中规划出包含时长、基频和谱的语音参数。
9.根据权利要求6所述的系统，其特征在于，所述模型训练模块还包括录音语料设计子模块，用于选择用作样本的录音语料；录音子模块，用于利用所述录音语料进行录音，得到录音数据；参数提取子模块，用于从所述录音数据中提取出包含时长、基频和谱的语音参数。
10.一种移动终端设备，其特征在于，包括模型训练模块，包括参数调整子模块和统计训练子模块，所述参数调整子模块用于在模型训练阶段进行样本的语音参数调整，所述统计训练子模块用于对调整后的参数进行统计训练，得到参数模型；语音合成模块，包括参数规划子模块和语音合成子模块，所述参数规划子模块用于在语音合成阶段，利用所述参数模型对待合成信息进行语音参数规划，所述语音合成子模块用于将规划出的参数合成声音。
全文摘要
本发明提供了一种语音合成方法、系统及具有语音合成功能的移动终端设备，以解决现有的实时合成计算量大的问题。所述方法包括在模型训练阶段进行样本的语音参数调整，然后对调整后的参数进行统计训练，得到参数模型；在语音合成阶段，利用所述参数模型对待合成信息进行语音参数规划，然后将规划出的参数合成声音。本发明将语音参数的调整过程移到模型训练阶段完成，在实时合成时就不再进行此操作，从而降低了实时合成的计算量，保证了语音合成的实时性。此外，本发明还提供了一种具有语音合成功能的移动终端设备，能够降低实时合成的计算量。
文档编号G10L13/02GK101887719SQ20101022351
公开日2010年11月17日申请日期2010年6月30日优先权日2010年6月30日
发明者张连毅, 李健, 武卫东申请人:北京捷通华声语音技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李健;张连毅;武卫东
技术所有人：北京捷通华声语音技术有限公司
我是此专利的发明人