参数语音合成方法和系统的制作方法

文档序号:2825317阅读:333来源:国知局
专利名称:参数语音合成方法和系统的制作方法
技术领域
本发明涉及参数语音合成技术领域,更为具体地,涉及一种连续合成任意时长语音的参数语音合成方法和系统。
背景技术
语音合成是使人机交互更加自然的重要技术。当前常见的有两类,一类是基于单元挑选和波形拼接的合成方法,另一类是基于声学统计模型的参数合成方法。而在小型电子设备应用中,由于存储空间小,参数合成方法比波形拼接方法更为适合。在参数合成方法中,基于声学统计模型(主要是隐马尔可夫模型,Hidden Markov Model,HMM)的参数合成方法最为流行。该方法分为训练与合成两个阶段。在训练阶段,首先提取出语料库中所有语音的声学参数,这包括频谱包络参数及其一阶和二阶差分参数、 基音频率参数及其一阶和二阶差分参数;然后为每个音素根据其上下文标注信息训练出对应的声学统计模型,同时训练出针对整个语料库的全局方差模型;最后由所有音素的声学统计模型及全局方差模型组成模型库。在合成阶段,采用分层离线处理的方式,进行语音的合成。图1为现有技术中基于动态参数及最大似然准则的参数语音合成方法流程示意图。如图1所示,参数语音合成的流程主要包括两个阶段训练阶段和合成阶段,其中在合成阶段又细分为五个层次。其中,文本分析为第一层,分析输入的整段文本得到所有带上下文信息的音素组成音素序列;目标模型搜索为第二层,从训练好的模型库中提取音素序列中每个音素对应的模型组成模型序列;第三层为参数预测,使用最大似然算法从模型序列中预测出每一帧语音对应的声学参数组成语音参数序列;第四层为参数优化,使用全局方差模型对语音参数序列进行整体优化;第五层为语音合成,将所有优化后的语音参数序列输入到参数语音合成器生成最终的合成语音。图1所示的这种参数合成方法合成出的语音具有比较高的连续性、一致性和自然度。但是,由于上述方法的每一层在实现时需要的RAM (random access memory随机存储器) 都会随着合成语音长度的增加呈正比例增加,其中,由于第三层在运用最大似然算法从模型序列中预测出语音参数序列的实施过程必须通过逐帧前向递推和后向递推两步来实现, 因此第三层与第四层对RAM的需求不可避免,并直接决定语音合成方法在RAM的芯片上是否可用。图4为现有技术中基于动态参数的最大似然参数预测示意图。如图4所示,在第一步递推过程结束后,会为每帧语音产生对应的临时参数。所有帧的临时参数再输入到第二步的反向递推过程才能预测出所需的参数序列。当合成语音时长越长时,对应的语音帧数就越多,预测每帧语音参数时都会产生一帧对应的临时参数。所有帧的临时参数都必须保存在RAM中,才能完成第二步的递推预测过程。第四层需要从第三层输出的所有帧语音参数中计算出均值与方差,再运用全局方差模型对语音参数的平滑值进行整体优化生成最终的语音参数。因此,也需要相应帧数的RAM保存第三层输出的所有帧的语音参数。而芯片RAM的大小是固定的,而且很多应用中芯片的RAM小到不足100K字节。此时上述方法在参数预测部分存在这样的不足在小RAM的芯片上不能连续合成出任意时长的语音。

发明内容
鉴于上述问题,本发明的目的是解决原有的语音合成过程中需要的RAM大小随着合成语音长度呈正比例增加、进而无法在小RAM的芯片上连续合成出任意时长语音的问题。根据本发明的一个方面,提供了一种参数语音合成方法,包括训练阶段和合成阶段,其中所述合成阶段具体包括根据对输入文本的分析获取包含上下文信息的音素序列;依次取出所述音素序列中的一个音素,在统计模型库中搜索所述音素的各声学参数对应的统计模型,按帧取出所述音素的各统计模型作为待合成语音参数的粗略值;使用滤波器组对所述待合成语音参数的粗略值进行参数平滑,得到平滑后的语音参数;使用全局参数优化器对所述平滑后的语音参数进行全局参数优化,得到优化后的语音参数;利用参数语音合成器对所述优化后的语音参数进行合成,输出一帧合成语音;对所述音素的下一帧重复上述语音合成处理,直至处理完所述音素序列中的所有音素的所有帧。其中,优选的方案是,所述统计模型库通过提取训练语料库中语音的声学参数,并根据所提取的声学参数训练出每个音素在不同上下文信息时各声学参数对应的统计模型获得,并且,在所述训练语料库中提取的语音的声学参数为静态参数或者静态参数和表征前后帧参数变化的动态参数;在所述统计模型库中仅保存各声学参数对应的统计模型的静态均值参数。其中,优选的方案是,在使用滤波器组对所述待合成语音参数的粗略值进行参数平滑的过程中,利用一组低通滤波器分别预测所述待合成语音参数的频谱包络参数、基音频率参数和子带浊音度参数。其中,优选的方案是,在利用一组低通滤波器分别预测所述待合成语音参数的过程中,某一时刻的输出帧仅依赖于该时刻及之前的输入帧或者前一时刻的输出帧,而与将来的输入或者输出帧无关。此外,优选的方案是,利用所述参数语音合成器输出一帧合成语音的过程包括根据语音参数中的基音频率参数构造准周期性脉冲序列,由白噪声构造随机序列;通过由浊音度构造的浊音子带滤波器从所述准周期脉冲序列中得到信号的浊音成分,通过由浊音度构造的清音子带滤波器从所述随机序列中得到信号的清音成分;将所述得到的浊音成分与所述清音成分相加确定混合激励信号;将所述混合激励信号通过由频谱包络参数构造的合成滤波器滤波后输出一帧合成语音波形。根据本发明的另一方面,提供了一种参数语音合成系统,包括输入文本分析单元,用于分析输入文本,,并根据对所述输入文本的分析获取包含上下文信息的音素序列;粗略搜索单元,用于依次取出所述音素序列中的一个音素,并在统计模型库中搜索所述输入文本分析单元所获取的所述音素的各声学参数对应的统计模型,按帧取出所述音素的各统计模型作为待合成语音参数的粗略值;平滑滤波单元,用于使用滤波器组对所述粗略搜索单元所确定的待合成语音参数的粗略值进行参数平滑,得到平滑后的语音参数;全局优化单元,用于使用全局参数优化器对所述平滑滤波单元平滑后的语音参数进行全局参数优化,得到优化后的语音参数;参数语音合成单元,用于利用参数语音合成器对所述全局优化单元优化后的语音参数进行合成,输出一帧合成语音;循环判断单元,连接在所述参数语音合成单元和所述粗略搜索单元之间,用于在完成一帧合成语音的输出之后,判断所述音素中是否存在未处理的帧,如果存在,则对所述音素的下一帧重复利用所述粗略搜索单元、平滑滤波单元、全局优化单元和参数语音合成单元进行语音合成处理,直至处理完所述音素序列中的所有音素的所有帧。其中,优选的结构是,参数语音合成单元进一步包括准周期脉冲发生器,用于根据语音参数中的基音频率参数构造准周期性脉冲序列;白噪声发生器,用于通过白噪声构造随机序列;浊音子带滤波器,用于根据子带浊音度从所构造的准周期脉冲序列中确定信号的浊音成分;清音子带滤波器,用于根据子带浊音度从随机序列中确定信号的清音成分;加法器,用于将所述浊音子带滤波器和所述清音子带滤波器确定的浊音成分与清音成分相加,输出混合激励信号;合成滤波器,用于将所述加法器输出的混合激励信号合成滤波,输出一帧合成语音波形。本发明所提供的参数语音合成方法和系统,采用纵向处理的合成方法,即每一帧语音的合成都需要经过取出统计模型粗略值、滤波得平滑值、全局优化得优化值、参数语音合成得语音四个步骤,之后每一帧语音的合成都再次重复这四个步骤,从而在参数语音合成处理的过程中仅需要保存当前帧需要的固定存储容量的参数即可,使语音合成所需要的 RAM不会随着合成语音长度的增加而增加,合成语音的时长不再受到RAM的限制。另外,本发明中所采用的声学参数为静态参数,在模型库中也仅保存各模型的静态均值参数,从而能够有效减少统计模型库的大小。再者,本发明在合成语音的过程中使用多子带清浊混合激励,使每个子带中清音与浊音按照浊音度进行混合,从而使清音和浊音在时间上不再有明确的硬边界,避免了语音合成后音质的明显畸变。为了实现上述以及相关目的,本发明的一个或多个方面包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。 然而,这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外,本发明旨在包括所有这些方面以及它们的等同物。


通过参考以下结合附图的说明及权利要求书的内容,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中图1为现有技术中基于动态参数及最大似然准则的参数语音合成方法分阶段示意图;图2为本发明实施例的参数语音合成方法的流程图;图3为本发明实施例的参数语音合成方法分阶段示意图;图4为现有技术中基于动态参数的最大似然参数预测示意图;图5为本发明基于静态参数的滤波平滑参数预测示意图;图6为根据本发明实施例的基于混合激励的合成滤波器示意图;图7为现有技术中基于清/浊判决的合成滤波示意图;图8为本发明实施例的参数语音合成系统的方框示意图;图9为本发明实施例的参数语音合成单元的逻辑结构示意图。在所有附图中相同的标号指示相似或相应的特征或功能。
具体实施例方式以下将结合附图对本发明的具体实施例进行详细描述。图2示出了根据本发明实施例的参数语音合成方法的流程图。如图2所示,本发明所提供的能够连续合成任意时长语音的参数语音合成方法的实现包括如下步骤S210 分析输入文本,根据对输入文本的分析获取包含上下文信息的音素序列;S220:依次取出上述音素序列中的一个音素,在统计模型库中搜索所述音素的各声学参数对应的统计模型,按帧取出所述音素的各统计模型作为待合成语音参数的粗略值;S230:使用滤波器组对上述待合成语音参数的粗略值进行参数平滑,得到平滑后的语音参数;SM0:使用全局参数优化器对所述平滑后的语音参数进行全局参数优化,得到优化后的语音参数;S250:利用参数语音合成器对所述优化后的语音参数进行合成,输出一帧合成语
曰;S^K):判断所述音素的所有帧是否都处理完毕,如果没有,则对所述音素的下一帧重复步骤S220 S250的语音合成处理,直至处理完所述音素序列中的所有音素的所有帧。为了能够进一步清楚的对本发明的参数语音合成技术进行说明,以突出本发明的技术特点,下面将分阶段、分步骤与现有技术中的参数语音合成方法逐一进行对比说明。图3为本发明实施例的参数语音合成方法分阶段示意图。如图3所示,与现有技术中基于动态参数及最大似然准则的参数语音合成方法相类似,本发明的参数语音合成的实现也包括训练和合成两个阶段,其中,训练阶段用于通过语料库中的语音信息提取语音的声学参数,并根据所提取的声学参数训练出每个音素在每个上下文信息时对应的统计模型,形成合成阶段所需要的音素的统计模型库。步骤S210 S260属于合成阶段,在合成阶段,主要包括文本分析、参数预测和语音合成三部分,其中参数预测部分又可以细分为目标模型搜索、参数生成和参数优化三个环节。首先,在训练阶段提取训练语料库的声学参数的过程中,本发明与现有参数语音合成技术的主要区别在于现有技术中所提取的声学参数中包含动态参数,而本发明中所提取的声学参数可以全部为静态参数,也可以包含表征前后帧参数变化的动态参数,如一阶或二阶差分参数,以提高模型训练后的精度。具体地,本发明从语料库中提取的声学参数至少包括三种静态参数频谱包络参数、基音频率参数、子带浊音度参数,还可以选择性地包括其它如共振峰频率等参数。其中,频谱包络参数可以是线性预测系数(LPC)或其衍生参数,如线谱对参数 (LSP),也可以是倒谱类参数;还可以是前几个共振峰的参数(频率、带宽、幅值)或者离散傅立叶变换系数。另外,还可以使用这些频谱包络参数在美尔域的变种,以改善合成语音的音质。基音频率使用对数基音频率,子带浊音度为子带中浊音所占比重。除了上述静态参数外,从语料库中提取的声学参数还可以包括表征前后帧声学参数变化的动态参数,如前后几帧基音频率间的一阶或二阶参数。训练时要将各音素自动对齐到语料库中大量的语音片段上,然后从这些语音片段中统计出该音素对应的声学参数模型。联合使用静态参数和动态参数进行自动对齐的精度略高于仅使用静态参数的情形,使得模型的参数更准确。但是,由于本发明在合成阶段并不需要模型中的动态参数,因此,本发明在最终训练出的模型库中仅保留静态参数。在根据所提取的声学参数训练出每个音素在不同上下文信息时各声学参数对应的统计模型的过程中,采用隐马尔可夫模型(HMM,Hidden Markov Model)对各声学参数进行建模。具体地,对于频谱包络参数与子带浊音度参数,使用连续概率分布的HMM建模,而对于基音频率则采用多空间概率分布的HMM建模。这种建模方案为现有技术中已有的建模方案,因此在下面的表述中只对该建模方案作简单的说明。HMM是一种典型的统计信号处理方法,由于其随机性、可以处理未知字长的字符串输入、可以有效的避开切分的问题以及具有大量快速有效的训练和识别算法等特点,被广泛应用于信号处理的各个领域。HMM的结构为5个状态左右型,每个状态上观察概率的分布为单高斯密度函数。而该函数由参数的均值和方差唯一确定。所述的均值由静态参数的均值、动态参数(一阶与二阶差分)的均值组成。所述的方差由静态参数的方差、动态参数 (一阶与二阶差分)的方差组成。训练时根据上下文信息为每个音素的各声学参数训练出一个模型,为了提高模型训练的稳健性,需要根据音素的上下文信息对相关的音素进行聚类,如采用基于决策树的聚类方法。在上述声学参数对应的模型训练完成之后,再使用这些模型对训练语料库中的语音进行帧到状态的强制对齐,然后利用对齐过程中产生的时长信息(即各状态对应的帧数),训练音素在不同上下文信息时采用决策树聚类后的状态时长模型,最终由每个音素在不同上下文信息时的各声学参数对应的统计模型形成统计模型库。
在训练完成后,本发明在模型库中仅保存各模型的静态均值参数。而现有的参数语音合成方法则需要保留静态均值参数、一阶差分参数、二阶差分的均值参数及这些参数所对应的方差参数,统计模型库较大。实践证明,在本发明中,仅保存各模型的静态均值参数的统计模型库的大小只有现有技术中形成的统计模型库的约1/6,极大地减少了统计模型库的存储空间。其中,所减少的数据虽然在现有的参数语音合成技术中是必须的,但对于本发明提供的参数语音合成技术方案则是不需要的,因此,数据量的减少并不会影响本发明参数语音合成的实现。在合成阶段,首先需要对输入的文本进行分析,以便从中提取出包含上下文信息的音素序列(步骤S210),作为参数合成的基础。在此,音素的上下文信息指的是与当前音素前后相邻的音素的信息,这些上下文信息可以是其前后一个或几个音素的名称,也可以包含其它语言层或音韵层的信息。比如, 一个音素的上下文信息包括当前音素名、前后两个音素名、所在音节的音调或者重音,还可以选择性地包括所在词的词性等。在确定了输入文本中包含上下文信息的音素序列之后,就可以依次取出序列中的一个音素,在统计模型库中搜索该音素的各声学参数对应的统计模型,然后按帧取出该音素的各统计模型作为待合成语音参数的粗略值(步骤S220)。在目标统计模型的搜索过程中,将音素的上下文标注信息输入到聚类决策树中, 即可搜索出频谱包络参数、基音频率参数、子带浊音度参数、状态时长参数对应的统计模型。其中的状态时长参数不是从原始语料库中提取的静态声学参数,它是在训练中作状态与帧的对齐时生成的新参数。从模型各状态中依次取出所保存的静态参数的均值即为各参数对应的静态均值参数。其中,状态时长均值参数被直接用于确定待合成的某个音素中各状态该持续多少帧,而频谱包络、基音频率、子带浊音度等静态均值参数就是待合成语音参数的粗略值。在确定了待合成语音参数的粗略值之后,基于滤波器组对所确定的语音参数粗略值进行滤波,从而预测语音参数(步骤S230)。在这一步骤中,利用一组专门的滤波器分别对频谱包络、基音频率和子带浊音度进行滤波,以预测合成效果更好的语音参数值。本发明在步骤S230中所采用的滤波方法为基于静态参数的平滑滤波方法。图5 为本发明基于静态参数的滤波平滑参数预测示意图,如图5所示,本发明用这组参数预测滤波器取代了现有的参数语音合成技术中的最大似然参数预测器,利用一组低通滤波器用以分别预测待合成语音参数的频谱包络参数、基音频率参数、子带浊音度参数。处理过程如公式(1)所示yt = ht*xt(1)其中,t表示时间为第t巾贞,^是从模型中得到的某个语音参数在第t帧时的粗略值,Yt为经过滤波平滑后的值,运算符*表示卷积,ht为预先设计好的滤波器的冲击响应。 对于不同类型的声学参数,由于参数特性不同,ht可以被设计成不同的表示。对于频谱包络参数、子带浊音度参数,可使用公式( 所示的滤波器进行参数的预测。yt = α · yt_1+(l-a) · Xt(2)其中,α为预先设计好的固定的滤波器系数,α的选择可根据实际语音中频谱包络参数、子带浊音度随时间变化的快慢程度由实验确定。对于基音频率参数,则可使用公式(3)所示的滤波器进行参数的预测。
权利要求
1.一种参数语音合成方法,包括根据对输入文本的分析获取包含上下文信息的音素序列;依次取出所述音素序列中的一个音素,在统计模型库中搜索所述音素的各声学参数对应的统计模型,按帧取出所述音素的各统计模型作为待合成语音参数的粗略值; 使用滤波器组对所述待合成语音参数的粗略值进行参数平滑,得到平滑后的语音参数;使用全局参数优化器对所述平滑后的语音参数进行全局参数优化,得到优化后的语音参数;利用参数语音合成器对所述优化后的语音参数进行合成,输出一帧合成语音; 对所述音素的下一帧重复上述语音合成处理,直至处理完所述音素序列中的所有音素的所有帧。
2.如权利要求1所述的参数语音合成方法,其中,所述统计模型库通过提取训练语料库中语音的声学参数,并根据所提取的声学参数训练出每个音素在不同上下文信息时各声学参数对应的统计模型获得;并且,在所述训练语料库中提取的语音的声学参数为静态参数或者静态参数和表征前后帧参数变化的动态参数;在所述统计模型库中仅保存各声学参数对应的统计模型的静态均值参数。
3.如权利要求1所述的参数语音合成方法,其中,在使用滤波器组对所述待合成语音参数的粗略值进行参数平滑的过程中,利用一组低通滤波器分别预测所述待合成语音参数的频谱包络参数、基音频率参数和子带浊音度参数。
4.如权利要求3所述的参数语音合成方法,其中,在利用一组低通滤波器分别预测所述待合成语音参数的过程中,某一时刻的输出帧仅依赖于该时刻及之前的输入帧或者前一时刻的输出帧,而与将来的输入或者输出帧无关。
5.如权利要求1所述的参数语音合成方法,其中,所述全局参数优化器包含全局均值及全局方差比,其中,所述全局均值表征合成语音各声学参数的均值; 全局方差比表征合成语音与训练语音的参数在方差上的比例;并且, 所述全局参数优化器在每次合成时采用相同的全局均值和全局方差比对输入的一帧语音参数直接进行优化。
6.如权利要求1所述的参数语音合成方法,其中,利用所述参数语音合成器输出一帧合成语音的过程包括根据语音参数中的基音频率参数构造准周期性脉冲序列,由白噪声构造随机序列; 通过由浊音度构造的浊音子带滤波器从所述准周期脉冲序列中得到信号的浊音成分, 通过由浊音度构造的清音子带滤波器从所述随机序列中得到信号的清音成分; 将所述得到的浊音成分与所述清音成分相加确定混合激励信号; 将所述混合激励信号通过由频谱包络参数构造的合成滤波器滤波后输出一帧合成语音波形。
7.一种参数语音合成系统,包括输入文本分析单元,用于分析输入文本,并根据对所述输入文本的分析获取包含上下文信息的音素序列;粗略搜索单元,用于依次取出所述音素序列中的一个音素,并在统计模型库中搜索所述输入文本分析单元所获取的所述音素的各声学参数对应的统计模型,按帧取出所述音素的各统计模型作为待合成语音参数的粗略值;平滑滤波单元,用于使用滤波器组对所述粗略搜索单元所确定的待合成语音参数的粗略值进行参数平滑,得到平滑后的语音参数;全局优化单元,用于使用全局参数优化器对所述平滑滤波单元平滑后的语音参数进行全局参数优化,得到优化后的语音参数;参数语音合成单元,用于利用参数语音合成器对所述全局优化单元优化后的语音参数进行合成,输出一帧合成语音;循环判断单元,连接在所述参数语音合成单元和所述粗略搜索单元之间,用于在完成一帧合成语音的输出之后,判断所述音素中是否存在未处理的帧,如果存在,则对所述音素的下一帧重复利用所述粗略搜索单元、平滑滤波单元、全局优化单元和参数语音合成单元进行语音合成处理,直至处理完所述音素序列中的所有音素的所有帧。
8.如权利要求7所述的参数语音合成系统,所述统计模型库通过提取训练语料库中语音的声学参数,并根据所提取的声学参数训练出每个音素在不同上下文信息时各声学参数对应的统计模型获得;并且,在所述训练语料库中提取的语音的声学参数为静态参数或者静态参数和表征前后帧参数变化的动态参数,在所述统计模型库中仅保存各声学参数对应的统计模型的静态均值参数。
9.如权利要求7所述的参数语音合成系统,其中,所述平滑滤波单元包括一组低通滤波器,用于分别预测所述待合成语音参数的频谱包络参数、基音频率参数和子带浊音度参数。
10.如权利要求9所述的参数语音合成系统,其中,所述低通滤波器组在预测所述待合成语音参数的过程中,某一时刻的输出帧仅依赖于该时刻及之前的输入帧或者前一时刻的输出帧,而与将来的输入或者输出帧无关。
11.如权利要求7所述的参数语音合成系统,所述全局优化单元中的全局参数优化器包含全局均值及全局方差比,其中,所述全局均值表征合成语音各声学参数的均值; 全局方差比表征合成语音与训练语音的参数在方差上的比例;并且, 所述全局参数优化器在每次合成时采用相同的全局均值和全局方差比对输入的一帧语音参数直接进行优化。
12.如权利要求7所述的参数语音合成系统,其中,所述参数语音合成单元进一步包括准周期脉冲发生器,用于根据语音参数中的基音频率参数构造准周期性脉冲序列; 白噪声发生器,用于通过白噪声构造随机序列;浊音子带滤波器,用于根据子带浊音度从所构造的准周期脉冲序列中确定信号的浊音成分;清音子带滤波器,用于根据子带浊音度从随机序列中确定信号的清音成分; 加法器,用于将所述浊音子带滤波器和所述清音子带滤波器确定的浊音成分与清音成分相加,输出混合激励信号;合成滤波器,用于将所述加法器输出的混合激励信号合成滤波,输出一帧合成语音波形。
全文摘要
本发明提供了一种参数语音合成方法,包括根据对输入文本的分析获取包含上下文信息的音素序列;依次取出音素序列中的一个音素,在统计模型库中搜索该音素的各声学参数对应的统计模型,按帧取出该音素的各统计模型作为待合成语音参数的粗略值;使用滤波器组对待合成语音参数的粗略值进行参数平滑,得到平滑后的语音参数;使用全局参数优化器对平滑后的语音参数进行全局参数优化,得到优化后的语音参数;然后利用参数语音合成器进行合成,输出一帧合成语音;重复上述处理直至处理完所述音素序列中的所有音素的所有帧。利用本发明,能够使语音合成所需要的RAM不会随着合成语音长度的增加而增加,合成语音的时长不再受到RAM的限制。
文档编号G10L13/08GK102270449SQ20111022901
公开日2011年12月7日 申请日期2011年8月10日 优先权日2011年8月10日
发明者吴凤梁, 职振华 申请人:歌尔声学股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1