参数语音合成方法和系统的制作方法

文档序号:2835966阅读:346来源:国知局
专利名称:参数语音合成方法和系统的制作方法
技术领域
本发明涉及参数语音合成技术领域,更为具体地,涉及一种连续合成任意时长语音的参数语音合成方法和系统。
背景技术
语音合成通过机械、电子的方法产生人造语音,其是使人机交互更加自然的一项重要技术。当前常见的语音合成技术有两类,一类是基于单元挑选和波形拼接的语音合成方法,另一类是基于声学统计模型的参数语音合成方法。由于参数语音合成方法对存储空间的要求相对较小,更适于应用在小型电子设备上。在参数语音合成方法中,分为训练与合成两个阶段。在训练阶段,参见图1,首先提取出语料库中所有语音的声学参数,这包括静态参数,如频谱包络参数、基因频率参数,和动态参数,如频谱包络参数和基音频率参数的一阶和二阶差分参数;然后为每个音素根据其上下文标注信息训练出对应的声学统计模型,同时训练出针对整个语料库的全局方差模型;最后由所有音素的声学统计模型及全局方差模型组成模型库。在合成阶段,采用分层离线处理的方式,进行语音的合成。如图1所示,包括第一层分析输入的整段文本得到所有带上下文信息的音素组成音素序列。第二层从训练好的模型库中提取音素序列中每个音素对应的模型组成模型序列。第三层使用最大似然算法从模型序列中预测出每一帧语音对应的声学参数组成语音参数序列。第四层使用全局方差模型对语音参数序列进行整体优化。第五层将所有优化后的语音参数序列输入到参数语音合成器生成最终的合成语音。发明人在实现本发明的过程中,发现现有技术中至少存在如下缺陷现有的参数语音合成方法,在合成阶段的分层操作中采用一种横向的处理方式 取出所有统计模型的参数、以最大似然算法预测生成所有帧的平滑参数、以全局方差模型得到所有帧的优化参数,最后从参数合成器输出所有帧的语音,即在每一层都需要保存所有帧的相关参数,导致语音合成时所需的随机存储器(Random Access Memory, RAM)的容量随着合成语音时长的增长呈正比例增加,而芯片上RAM的大小是固定的,很多应用中芯片的RAM小到不足100K字节,现有的参数语音合成方法无法在具有较小RAM的芯片上连续合成任意时长语音。下面结合上述合成阶段中第三层和第四层的操作,进一步详细说明造成上述问题的原因在上述合成阶段的第三层操作中,参见图4,运用最大似然算法从模型序列中预测出语音参数序列的实施过程必须通过逐帧前向递推和后向递推两步来实现。在第一步递推过程结束后,会为每帧语音产生对应的临时参数。所有帧的临时参数再输入到第二步的反向递推过程才能预测出所需的参数序列。当合成语音时长越长时,对应的语音帧数就越多, 预测每帧语音参数时都会产生一帧对应的临时参数。所有帧的临时参数都必须保存在RAM 中,才能完成第二步的递推预测过程,从而导致无法在具有较小RAM的芯片上连续合成任意时长语音。并且,第四层中的操作需要从第三层输出的所有帧语音参数中计算出均值与方差,再运用全局方差模型对语音参数的平滑值进行整体优化生成最终的语音参数。因此,也需要相应帧数的RAM保存第三层输出的所有帧的语音参数,也导致无法在具有较小RAM的芯片上连续合成任意时长语音。

发明内容
鉴于上述问题,本发明的目的是解决原有的语音合成过程中需要的RAM大小随着合成语音长度呈正比例增加、进而无法在小RAM的芯片上连续合成出任意时长语音的问题。根据本发明的一个方面,提供了一种参数语音合成方法,包括训练阶段和合成阶段,其中所述合成阶段具体包括依次对输入文本的音素序列中每一音素的每一帧语音进行如下处理对输入文本的音素序列中的当前音素,从统计模型库中提取相应的统计模型,并将该统计模型在当前音素当前帧下相应的模型参数作为当前所预测语音参数的粗略值;利用所述粗略值以及当前时刻之前预定数目语音帧的信息,对所述粗略值进行滤波,得到当前所预测语音参数的平滑值;根据统计得到的所述语音参数的全局均值和全局标准差比值,对所述当前所预测语音参数的平滑值进行全局优化,生成所需的语音参数;对生成的所述语音参数进行合成,得到对当前音素当前帧所合成的一帧语音。其中,优选的方案是,利用所述粗略值以及上一时刻语音帧的信息,对所述粗略值进行滤波,得到当前所预测语音参数的平滑值,该上一时刻语音帧的信息为上一时刻所预测语音参数的平滑值。此外,优选的方案是,利用如下公式,根据统计得到所述语音参数的全局均值和全局标准差比值,对所述当前所预测语音参数的平滑值进行全局优化,生成所需的语音参数yt - r - (yt - m) + mZi = w(yt-yt) + yt其中,yt为t时刻的语音参数在优化前的平滑值,Λ为初步优化后的值,w为权重值,Zt为全局优化后得到的所需的语音参数,r为统计得到的所预测语音参数的全局标准差比值,m为统计得到的所预测语音参数的全局均值,r和m的取值为常数。进一步的,本方案还包括利用子带浊音度参数构造浊音子带滤波器和清音子带滤波器;将由基音频率参数构造的准周期性脉冲序列,经过所述浊音子带滤波器得到语音信号的浊音成分;将由白噪声构造的随机序列,经过所述清音子带滤波器得到语音信号的清音成分;将所述浊音成分与清音成分相加得到混合激励信号;将所述混合激励信号通过由频谱包络参数构造的滤波器后输出一帧合成的语音波形。进一步的,本方案在所述合成阶段之前,所述方法还包括训练阶段,在训练阶段,从语料库中提取的声学参数仅包括静态参数,或者,从语料库中提取的声学参数包括静态参数和动态参数;训练后所得到的统计模型的模型参数中仅保留静态模型参数;在合成阶段中,根据所述当前音素,将训练阶段中所得到所述统计模型在当前音素当前帧下相应的静态模型参数作为当前所预测语音参数的粗略值。根据本发明的另一方面,提供了一种参数语音合成系统,包括循环合成装置,用于在合成阶段,依次对输入文本的音素序列中每一音素的每一帧语音进行语音合成;所述循环合成装置包括粗略搜索单元,用于对输入文本的音素序列中的当前音素,从统计模型库中提取相应的统计模型,并将该统计模型在当前音素当前帧下相应的模型参数作为当前所预测语音参数的粗略值;平滑滤波单元,用于利用所述粗略值以及当前时刻之前预定数目语音帧的信息, 对所述粗略值进行滤波,得到当前所预测语音参数的平滑值;全局优化单元,用于根据统计得到的所述语音参数的全局均值和全局标准差比值,对所述当前所预测语音参数的平滑值进行全局优化,生成所需的语音参数;参数语音合成单元,用于对生成的所述语音参数进行合成,得到对当前音素当前帧所合成的一帧语音。进一步的,所述平滑滤波单元包括低通滤波器组,用于利用所述粗略值以及上一时刻语音帧的信息,对所述粗略值进行滤波,得到当前所预测语音参数的平滑值,该上一时刻语音帧的信息为上一时刻所预测语音参数的平滑值。进一步的,所述全局优化单元包括全局参数优化器,用于利用如下公式,根据统计得到所述语音参数的全局均值和全局标准差比值,对所述当前所预测语音参数的平滑值进行全局优化,生成所需的语音参数yt - r - (yt - m) + mZi =w-(y[-y[) + y[其中,yt为t时刻的语音参数在优化前的平滑值,Λ为初步优化后的值,w为权重值,Zt为全局优化后得到的所需的语音参数,r为统计得到的所预测语音参数的全局标准差比值,m为统计得到的所预测语音参数的全局均值,r和m的取值为常数。进一步的,所述参数语音合成单元,包括滤波器构造模块,用于利用子带浊音度参数构造浊音子带滤波器和清音子带滤波器;所述浊音子带滤波器,用于对由基音频率参数构造的准周期性脉冲序列进行滤波,得到语音信号的浊音成分;所述清音子带滤波器,用于对由白噪声构造的随机序列进行滤波,得到语音信号的清音成分;加法器,用于将所述浊音成分与清音成分相加得到混合激励信号;合成滤波器,用于将所述混合激励信号通过由频谱包络参数构造的滤波器后输出一帧合成的语音波形。
进一步的,所述系统还包括训练装置,用于在训练阶段,从语料库中提取的声学参数仅包括静态参数,或者,从语料库中提取的声学参数包括静态参数和动态参数;以及,在训练后所得到的统计模型的模型参数中仅保留静态模型参数;所述粗略搜索单元,具体用于在合成阶段中,根据所述当前音素,将训练阶段中所得到所述统计模型在当前音素当前帧下相应的静态模型参数作为当前所预测语音参数的粗略值。由上所述,本发明实施例的技术方案通过利用当前帧之前的语音帧的信息以及预先统计得到语音参数的全局均值和全局标准差比值等技术手段,提供了一种新型的参数语音合成方案。本发明所提供的参数语音合成方法和系统,采用纵向处理的合成方法,即每一帧语音的合成都需要经过取出统计模型粗略值、滤波得平滑值、全局优化得优化值、参数语音合成得语音四个步骤,之后每一帧语音的合成都再次重复这四个步骤,从而在参数语音合成处理的过程中仅需要保存当前帧需要的固定存储容量的参数即可,使语音合成所需要的 RAM不会随着合成语音长度的增加而增加,合成语音的时长不再受到RAM的限制。另外,本发明中所采用的声学参数为静态参数,在模型库中也仅保存各模型的静态均值参数,从而能够有效减少统计模型库的大小。再者,本发明在合成语音的过程中使用多子带清浊混合激励,使每个子带中清音与浊音按照浊音度进行混合,从而使清音和浊音在时间上不再有明确的硬边界,避免了语音合成后音质的明显畸变。本方案能够合成出具有较高连续性、一致性和自然度的语音,有助于语音合成方法在小存储空间芯片上的推广和应用。为了实现上述以及相关目的,本发明的一个或多个方面包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。 然而,这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外,本发明旨在包括所有这些方面以及它们的等同物


通过参考以下结合附图的说明及权利要求书的内容,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中图1为现有技术中基于动态参数及最大似然准则的参数语音合成方法分阶段示意图;图2为本发明一个实施例的参数语音合成方法的流程图;图3为本发明一个实施例的参数语音合成方法分阶段示意图;图4为现有技术中基于动态参数的最大似然参数预测示意图;图5为本发明一个实施例的基于静态参数的滤波平滑参数预测示意图;图6为根据本发明一个实施例的基于混合激励的合成滤波器示意图;图7为现有技术中基于清/浊判决的合成滤波示意图;图8为本发明另一个实施例的参数语音合成系统的方框示意图;图9为本发明另一个实施例的参数语音合成单元的逻辑结构示意8
图10为本发明又一个实施例的参数语音合成方法的流程图;图11为本发明又一个实施例的参数语音合成系统的结构示意图。在所有附图中相同的标号指示相似或相应的特征或功能。
具体实施例方式以下将结合附图对本发明的具体实施例进行详细描述。图2示出了根据本发明一个实施例的参数语音合成方法的流程图。如图2所示,本发明所提供的能够连续合成任意时长语音的参数语音合成方法的实现包括如下步骤S210 分析输入文本,根据对输入文本的分析获取包含上下文信息的音素序列;S220:依次取出上述音素序列中的一个音素,在统计模型库中搜索所述音素的各声学参数对应的统计模型,按帧取出所述音素的各统计模型作为待合成语音参数的粗略值;S230:使用滤波器组对上述待合成语音参数的粗略值进行参数平滑,得到平滑后的语音参数;S240:使用全局参数优化器对所述平滑后的语音参数进行全局参数优化,得到优化后的语音参数;S250:利用参数语音合成器对所述优化后的语音参数进行合成,输出一帧合成语
曰;S260:判断所述音素的所有帧是否都处理完毕,如果没有,则对所述音素的下一帧重复步骤S220 S250的语音合成处理,直至处理完所述音素序列中的所有音素的所有帧。为了能够进一步清楚的对本发明的参数语音合成技术进行说明,以突出本发明的技术特点,下面将分阶段、分步骤与现有技术中的参数语音合成方法逐一进行对比说明。图3为本发明实施例的参数语音合成方法分阶段示意图。如图3所示,与现有技术中基于动态参数及最大似然准则的参数语音合成方法相类似,本发明的参数语音合成的实现也包括训练和合成两个阶段,其中,训练阶段用于通过语料库中的语音信息提取语音的声学参数,并根据所提取的声学参数训练出每个音素在每个上下文信息时对应的统计模型,形成合成阶段所需要的音素的统计模型库。步骤S210 S260属于合成阶段,在合成阶段,主要包括文本分析、参数预测和语音合成三部分,其中参数预测部分又可以细分为目标模型搜索、参数生成和参数优化三个环节。首先,在训练阶段提取训练语料库的声学参数的过程中,本发明与现有参数语音合成技术的主要区别在于现有技术中所提取的声学参数中包含动态参数,而本发明中所提取的声学参数可以全部为静态参数,也可以包含表征前后帧参数变化的动态参数,如一阶或二阶差分参数,以提高模型训练后的精度。具体地,本发明从语料库中提取的声学参数至少包括三种静态参数频谱包络参数、基音频率参数、子带浊音度参数,还可以选择性地包括其它如共振峰频率等参数。其中,频谱包络参数可以是线性预测系数(LPC)或其衍生参数,如线谱对参数 (LSP),也可以是倒谱类参数;还可以是前几个共振峰的参数(频率、带宽、幅值)或者离散傅立叶变换系数。另外,还可以使用这些频谱包络参数在美尔域的变种,以改善合成语音的音质。基音频率使用对数基音频率,子带浊音度为子带中浊音所占比重。除了上述静态参数外,从语料库中提取的声学参数还可以包括表征前后帧声学参数变化的动态参数,如前后几帧基音频率间的一阶或二阶参数。训练时要将各音素自动对齐到语料库中大量的语音片段上,然后从这些语音片段中统计出该音素对应的声学参数模型。联合使用静态参数和动态参数进行自动对齐的精度略高于仅使用静态参数的情形,使得模型的参数更准确。但是,由于本发明在合成阶段并不需要模型中的动态参数,因此,本发明在最终训练出的模型库中仅保留静态参数。在根据所提取的声学参数训练出每个音素在不同上下文信息时各声学参数对应的统计模型的过程中,采用隐马尔可夫模型(HMM,Hidden Markov Model)对各声学参数进行建模。具体地,对于频谱包络参数与子带浊音度参数,使用连续概率分布的HMM建模,而对于基音频率则采用多空间概率分布的HMM建模。这种建模方案为现有技术中已有的建模方案,因此在下面的表述中只对该建模方案作简单的说明。HMM是一种典型的统计信号处理方法,由于其随机性、可以处理未知字长的字符串输入、可以有效的避开切分的问题以及具有大量快速有效的训练和识别算法等特点,被广泛应用于信号处理的各个领域。HMM的结构为5个状态左右型,每个状态上观察概率的分布为单高斯密度函数。而该函数由参数的均值和方差唯一确定。所述的均值由静态参数的均值、动态参数(一阶与二阶差分)的均值组成。所述的方差由静态参数的方差、动态参数(一阶与二阶差分)的方差组成。训练时根据上下文信息为每个音素的各声学参数训练出一个模型,为了提高模型训练的稳健性,需要根据音素的上下文信息对相关的音素进行聚类,如采用基于决策树的聚类方法。在上述声学参数对应的模型训练完成之后,再使用这些模型对训练语料库中的语音进行帧到状态的强制对齐,然后利用对齐过程中产生的时长信息(即各状态对应的帧数),训练音素在不同上下文信息时采用决策树聚类后的状态时长模型,最终由每个音素在不同上下文信息时的各声学参数对应的统计模型形成统计模型库。在训练完成后,本发明在模型库中仅保存各模型的静态均值参数。而现有的参数语音合成方法则需要保留静态均值参数、一阶差分参数、二阶差分的均值参数及这些参数所对应的方差参数,统计模型库较大。实践证明,在本发明中,仅保存各模型的静态均值参数的统计模型库的大小只有现有技术中形成的统计模型库的约1/6,极大地减少了统计模型库的存储空间。其中,所减少的数据虽然在现有的参数语音合成技术中是必须的,但对于本发明提供的参数语音合成技术方案则是不需要的,因此,数据量的减少并不会影响本发明参数语音合成的实现。在合成阶段,首先需要对输入的文本进行分析,以便从中提取出包含上下文信息的音素序列(步骤S210),作为参数合成的基础。在此,音素的上下文信息指的是与当前音素前后相邻的音素的信息,这些上下文信息可以是其前后一个或几个音素的名称,也可以包含其它语言层或音韵层的信息。比如,一个音素的上下文信息包括当前音素名、前后两个音素名、所在音节的音调或者重音,还可以选择性地包括所在词的词性等。在确定了输入文本中包含上下文信息的音素序列之后,就可以依次取出序列中的一个音素,在统计模型库中搜索该音素的各声学参数对应的统计模型,然后按帧取出该音素的各统计模型作为待合成语音参数的粗略值(步骤S220)。在目标统计模型的搜索过程中,将音素的上下文标注信息输入到聚类决策树中,即可搜索出频谱包络参数、基音频率参数、子带浊音度参数、状态时长参数对应的统计模型。其中的状态时长参数不是从原始语料库中提取的静态声学参数,它是在训练中作状态与帧的对齐时生成的新参数。从模型各状态中依次取出所保存的静态参数的均值即为各参数对应的静态均值参数。其中,状态时长均值参数被直接用于确定待合成的某个音素中各状态该持续多少帧,而频谱包络、基音频率、子带浊音度等静态均值参数就是待合成语音参数的粗略值。在确定了待合成语音参数的粗略值之后,基于滤波器组对所确定的语音参数粗略值进行滤波,从而预测语音参数(步骤S230)。在这一步骤中,利用一组专门的滤波器分别对频谱包络、基音频率和子带浊音度进行滤波,以预测合成效果更好的语音参数值。本发明在步骤S230中所采用的滤波方法为基于静态参数的平滑滤波方法。图5为本发明基于静态参数的滤波平滑参数预测示意图,如图5所示,本发明用这组参数预测滤波器取代了现有的参数语音合成技术中的最大似然参数预测器,利用一组低通滤波器用以分别预测待合成语音参数的频谱包络参数、基音频率参数、子带浊音度参数。处理过程如公式(1)所示yt = ht*xt (1)其中,t表示时间为第t巾贞,^是从模型中得到的某个语音参数在第t帧时的粗略值,yt为经过滤波平滑后的值,运算符*表示卷积,ht为预先设计好的滤波器的冲击响应。对于不同类型的声学参数,由于参数特性不同,ht可以被设计成不同的表示。对于频谱包络参数、子带浊音度参数,可使用公式( 所示的滤波器进行参数的预测。yt = α · yt_1+(l-a) · Xt (2)其中,α为预先设计好的固定的滤波器系数,α的选择可根据实际语音中频谱包络参数、子带浊音度随时间变化的快慢程度由实验确定。对于基音频率参数,则可使用公式(3)所示的滤波器进行参数的预测。yt = β . y^+d-β) · xt (3)其中,β为预先设计好的固定的滤波器系数,β的选择可根据实际语音中基音频率参数随时间变化的快慢程度由实验确定。可以看出,本发明所使用的这组滤波器在预测待合成语音参数的过程中所涉及的参数不会延及将来的参数,某一时刻的输出帧仅仅依赖于该时刻及之前的输入帧或该时刻的前一时刻的输出帧,而与将来的输入或输出帧无关,从而使滤波器组所需要的RAM大小能够事先固定。也就是说,在本发明中,运用公式( 和( 预测语音的声学参数时,当前帧的输出参数仅依赖于当前帧的输入及前一帧的输出参数。这样,整个参数的预测过程使用固定大小的RAM缓存即可现实,不会随着待合成语音时长的增加而增加,从而就可以连续预测出任意时长的语音参数,解决了现有技术中运用最大似然准则预测参数过程中所需RAM随合成语音时长呈正比例增长的问题。由上述公式( 和( 可以看出,本方案在使用滤波器组对当前时刻的待合成语音参数的粗略值进行参数平滑时,可以根据该时刻的粗略值以及上一时刻语音帧的信息,对该粗略值进行滤波,得到平滑后的语音参数。在此,上一时刻语音帧的信息为上一时刻所预测语音参数的平滑值。在预测出语音参数的平滑值之后,就可以使用全局参数优化器对平滑后的各语音参数进行优化,进而确定优化后的语音参数(步骤SM0)。为了使合成语音参数的方差与训练语料库中语音参数的方差一致,改善合成语音的音质,本发明在优化语音参数的过程中,使用下面的公式(4)对合成语音参数的变化范围进行调节。
权利要求
1.一种参数语音合成方法,包括在合成阶段,依次对输入文本的音素序列中每一音素的每一帧语音进行如下处理 对输入文本的音素序列中的当前音素,从统计模型库中提取相应的统计模型,并将该统计模型在当前音素当前帧下相应的模型参数作为当前所预测语音参数的粗略值;利用所述粗略值以及当前时刻之前预定数目语音帧的信息,对所述粗略值进行滤波, 得到当前所预测语音参数的平滑值;根据统计得到的所述语音参数的全局均值和全局标准差比值,对所述当前所预测语音参数的平滑值进行全局优化,生成所需的语音参数;对生成的所述语音参数进行合成,得到对当前音素当前帧所合成的一帧语音。
2.根据权利要求1所述的方法,其特征在于,所述利用所述粗略值以及当前时刻之前预定数目语音帧的信息,对所述粗略值进行滤波,得到当前所预测语音参数的平滑值具体包括利用所述粗略值以及上一时刻语音帧的信息,对所述粗略值进行滤波,得到当前所预测语音参数的平滑值;其中,所述上一时刻语音帧的信息为上一时刻所预测语音参数的平滑值。
3.根据权利要求1所述的方法,其特征在于,利用如下公式,根据统计得到所述语音参数的全局均值和全局标准差比值,对所述当前所预测语音参数的平滑值进行全局优化,生成所需的语音参数 yt =r-(yt-m) + mzt =^<yt-yt)+yt其中,yt为t时刻的语音参数在优化前的平滑值,灭为初步优化后的值,W为权重值,Zt 为全局优化后得到的所需的语音参数,r为统计得到的所预测语音参数的全局标准差比值, m为统计得到的所预测语音参数的全局均值,r和m的取值为常数。
4.根据权利要求1所述的方法,其特征在于,所述对生成的所述语音参数进行合成,得到对当前音素当前帧所合成的一帧语音包括利用子带浊音度参数构造浊音子带滤波器和清音子带滤波器; 将由基音频率参数构造的准周期性脉冲序列,经过所述浊音子带滤波器得到语音信号的浊音成分;将由白噪声构造的随机序列,经过所述清音子带滤波器得到语音信号的清音成分; 将所述浊音成分与清音成分相加得到混合激励信号;将所述混合激励信号通过由频谱包络参数构造的滤波器后输出一帧合成的语音波形。
5.根据权利要求1所述的方法,其特征在于,在所述合成阶段之前,所述方法还包括训练阶段,在训练阶段,从语料库中提取的声学参数仅包括静态参数,或者,从语料库中提取的声学参数包括静态参数和动态参数;训练后所得到的统计模型的模型参数中仅保留静态模型参数; 合成阶段中所述将该统计模型在当前音素当前帧下相应的模型参数作为当前所预测语音参数的粗略值具体为根据所述当前音素,将训练阶段中所得到所述统计模型在当前音素当前帧下相应的静态模型参数作为当前所预测语音参数的粗略值。
6.一种参数语音合成系统,包括循环合成装置,用于在合成阶段,依次对输入文本的音素序列中每一音素的每一帧语音进行语音合成;所述循环合成装置包括粗略搜索单元,用于对输入文本的音素序列中的当前音素,从统计模型库中提取相应的统计模型,并将该统计模型在当前音素当前帧下相应的模型参数作为当前所预测语音参数的粗略值;平滑滤波单元,用于利用所述粗略值以及当前时刻之前预定数目语音帧的信息,对所述粗略值进行滤波,得到当前所预测语音参数的平滑值;全局优化单元,用于根据统计得到的所述语音参数的全局均值和全局标准差比值,对所述当前所预测语音参数的平滑值进行全局优化,生成所需的语音参数;参数语音合成单元,用于对生成的所述语音参数进行合成,得到对当前音素当前帧所合成的一帧语音。
7.根据权利要求6所述的系统,其中,所述平滑滤波单元包括低通滤波器组,所述低通滤波器组,用于利用所述粗略值以及上一时刻语音帧的信息,对所述粗略值进行滤波,得到当前所预测语音参数的平滑值;其中,所述上一时刻语音帧的信息为上一时刻所预测语音参数的平滑值。
8.根据权利要求6所述的系统,其中,所述全局优化单元包括全局参数优化器,所述全局参数优化器,用于利用如下公式,根据统计得到所述语音参数的全局均值和全局标准差比值,对所述当前所预测语音参数的平滑值进行全局优化,生成所需的语音参数yt =r-(yt-m) + mzt =^<yt-yt)+yt其中,yt为t时刻的语音参数在优化前的平滑值,灭为初步优化后的值,W为权重值,Zt 为全局优化后得到的所需的语音参数,r为统计得到的所预测语音参数的全局标准差比值, m为统计得到的所预测语音参数的全局均值,r和m的取值为常数。
9.根据权利要求6所述的系统,其中,所述参数语音合成单元,包括滤波器构造模块,用于利用子带浊音度参数构造浊音子带滤波器和清音子带滤波器;所述浊音子带滤波器,用于对由基音频率参数构造的准周期性脉冲序列进行滤波,得到语音信号的浊音成分;所述清音子带滤波器,用于对由白噪声构造的随机序列进行滤波,得到语音信号的清音成分;加法器,用于将所述浊音成分与清音成分相加得到混合激励信号;合成滤波器,用于将所述混合激励信号通过由频谱包络参数构造的滤波器后输出一帧合成的语音波形。
10.根据权利要求6所述的系统,其特征在于,所述系统还包括训练装置,所述训练装置,用于在训练阶段,从语料库中提取的声学参数仅包括静态参数,或者,从语料库中提取的声学参数包括静态参数和动态参数;以及,在训练后所得到的统计模型的模型参数中仅保留静态模型参数;所述粗略搜索单元,具体用于在合成阶段中,根据所述当前音素,将训练阶段中所得到所述统计模型在当前音素当前帧下相应的静态模型参数作为当前所预测语音参数的粗略值。
全文摘要
本发明提供了一种参数语音合成方法和系统,该方法包括依次对输入文本的音素序列中每一音素的每一帧语音进行如下处理对当前音素,从统计模型库中提取相应的统计模型,并将该统计模型在当前音素当前帧下相应的模型参数作为当前所预测语音参数的粗略值;利用粗略值以及当前时刻之前预定数目语音帧的信息,得到当前所预测语音参数的平滑值;根据统计得到的语音参数的全局均值和全局标准差比值,对语音参数的平滑值进行全局优化,生成所需的语音参数;对生成的所述语音参数进行合成,得到对当前音素当前帧所合成的一帧语音。利用本方案,能够使语音合成所需要的RAM不会随着合成语音长度的增加而增加,合成语音的时长不再受到RAM的限制。
文档编号G10L19/08GK102385859SQ20111033182
公开日2012年3月21日 申请日期2011年10月27日 优先权日2011年8月10日
发明者吴凤梁, 职振华 申请人:歌尔声学股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1