一种语音合成的方法和装置的制造方法

文档序号：9201449阅读：341来源：国知局

一种语音合成的方法和装置的制造方法
【技术领域】
[0001] 本发明涉及语音识别技术领域，特别是涉及一种语音合成的方法和装置以及一种基频模型的训练方法和装置。
【背景技术】
[0002] 随着语音合成技术的发展，合成声音的音质、自然度、智能度都有了很大提高， HTS (HMM-based speech synthesis system，基于HMM的语音合成系统）技术目前已成为语音合成业界的核心技术，HMM(Hidden Markov Model，隐马尔可夫模型）作为一种统计分析模型，创立于20世纪70年代。80年代得到了传播和发展，成为信号处理的一个重要方向，现已成功地用于语音识别。
[0003] HTS技术可以分为两个阶段，训练阶段和合成阶段。在训练阶段，使用信号分析工具从语音中提取声学参数（谱参数和基频参数），然后以音段为粒度对声学参数建立HMM模型；在合成阶段，构造出整句的马尔可夫链，然后在其上按最大似然原则生成谱参数、基频参数和时长，再使用信号合成器重构出语音。
[0004] 传统的HTS在训练以及合成阶段通常以音段为语音粒度单位，即以声母或韵母作为语音粒度单位。然而，以这以种微小的语音粒度为单位进行语音合成的方法，会导致合成的韵律效果平淡、生硬，与真实语音差距较大。此外，上述决策树聚类将原本精细区分的语境类型合并为更粗略的类型集，以单一高斯模型一概而论，丢失了诸多个性细节，导致基频参数的"过平均化"，状态间参数绑定更进一步加剧"过平均化"问题，基频参数的"过平均化"导致每个字的音调刻板、缺乏变化，机器风格明显。

【发明内容】

[0005] 本发明实施例所要解决的技术问题是提供一种语音合成的方法和装置以及一种基频模型的训练方法和装置，能够提高音高的准确度，从而使韵律更接近真实语音。
[0006] 为了解决上述问题，本发明公开了一种语音合成的方法，包括：
[0007] 对待合成文本中的各音段进行音段模型决策，确定所述各音段对应的基线HTS基频模型；
[0008] 对所述待合成文本中的各音节进行音节模型决策，确定所述各音节对应的连续池音段基频模型；
[0009] 依据所述各音段对应的基线HTS基频模型与所述各音节对应的连续浊音段基频模型，按照多层融合算法联合生成融合基频参数；
[0010] 依据所述融合基频参数以及对应的谱参数合成语音。
[0011] 优选地，所述对所述待合成文本中的各音节进行音节模型决策，确定所述各音节对应的连续浊音段基频模型的步骤，包括：
[0012] 对所述待合成文本中的各音节进行音苄基频模型预测；
[0013] 基于走势线拟合的多路优选方法确定所述各音节的最优音苄基频模型；
[0014] 依据所述各音节的最优音苄基频模型生成连续浊音段基频模型。
[0015] 优选地，所述走势线生成的步骤，包括：
[0016] 对所述待合成文本中的每个音节，确定多个音苄基频候选模型；
[0017] 依据所述多个音苄基频候选模型在二维空间按最小二乘准则拟合出一条直线，所述直线即为走势线。
[0018] 优选地，所述依据所述各音节的最优音苄基频模型生成连续浊音段基频模型，包括：
[0019] 将所述各音节的最优音苄基频模型依次按连续浊音段为单位进行合并；
[0020] 将各连续浊音段对应的高斯模型依据时长加权平均得到连续浊音段基频模型。
[0021 ] 优选地，所述方法还包括：
[0022] 依据走势线控制语音合成的语调。
[0023] 优选地，所述多层融合算法为联合状态层模型的参数集和连续浊音段模型的参数集，按照状态层与所述连续浊音段层各自的最优准则进行综合计算。
[0024] 依据本发明的另一个方面，提供了一种音苄基频模型的训练方法，包括：
[0025] 对语音样本提取声学参数；所述声学参数包括基频参数；
[0026] 依据所述基频参数生成音苄基频均值参数；
[0027] 依据所述音苄基频均值参数，训练出多套音苄基频模型。
[0028] 优选地，所述依据所述基频参数生成音苄基频均值参数，包括：
[0029] 针对所述基频参数以音节为单位提取特征，逐音节统计均值生成音苄基频均值参数。
[0030] 优选地，所述依据所述音苄基频均值参数，训练出多套音苄基频模型的步骤，包括：
[0031] 根据音库中的各类标注对所述语音样本分别生成逐音段上下文语境信息和逐音节上下文语境信息；
[0032] 针对所述音苄基频均值参数，结合音节上下文语境信息训练出多套音苄基频模型。
[0033] 依据本发明的又一个方面，提供了一种语音合成的装置，包括：
[0034] 音段模型决策模块，用于对待合成文本中的各音段进行音段模型决策，确定所述各音段对应的基线HTS基频模型；
[0035] 音节模型决策模块，用于对所述待合成文本中的各音节进行音节模型决策，确定所述各音节对应的连续浊音段基频模型；
[0036] 融合参数生成模块，用于依据所述各音段对应的基线HTS基频模型与所述各音节对应的连续浊音段基频模型，按照多层融合算法联合生成融合基频参数；以及
[0037] 语音合成模块，用于依据所述融合基频参数以及对应的谱参数合成语音。
[0038] 依据本发明的再一个方面，提供了一种音苄基频模型的训练装置，包括：
[0039] 声学参数提取模块，用于对语音样本提取声学参数；所述声学参数包括基频参数；
[0040] 音节参数生成模块，用于依据所述基频参数生成音苄基频均值参数；以及
[0041] 音苄基频模型训练模块，用于依据所述音苄基频均值参数，训练出多套音苄基频模型。
[0042] 与现有技术相比，本发明实施例包括以下优点：
[0043] 本发明实施例在合成阶段增加连续浊音段这一高层粒度单位，依据所述各音段对应的基线HTS基频模型与所述各音节对应的连续浊音段基频模型，按照多层融合算法联合生成融合基频参数，并依据融合基频参数以及对应的谱参数合成语音；由于融合基频参数为基线HTS模型和高层（连续浊音段基频）模型按照多层融合算法联合生成的结果，因此，融合基频参数既能够通过基线HTS基频模型保留基线HTS特征，又能够通过高层模型进一步修正语音的声调及韵律，因此可以提高音高的准确度，从而使韵律更接近真实语音。
【附图说明】
[0044] 图1示出了传统的HMM语音建模的示意图；
[0045] 图2示出了本发明的一种语音合成的方法实施例的步骤流程图；
[0046] 图3示出了本发明的一种对所述待合成文本中的各音节进行音苄基频模型决策，确定所述各音节对应的连续浊音段基频模型的步骤流程图；
[0047] 图4示出了本发明的一种走势线生成的示意图；
[0048] 图5a示出了本发明的一种语音合成示例的步骤流程图；
[0049] 图5b示出了本发明的一种语音合成的系统流程图；
[0050] 图6示出了本发明的一种语音合成中音苄基频模型的训练方法步骤流程图；
[0051] 图7示出了本发明的一种基于上下文语境的决策树聚类的示意图；
[0052] 图8示出了本发明的一种语音合成的基频模型训练系统流程图；
[0053] 图9示出了以音节为高层粒度进行训练及合成的试验例句的示意图；
[0054] 图10示出了以音节为高层粒度进行训练及合成的试验例句的局部放大示意图；
[0055] 图11示出了本发明的一种以连续浊音段为高层粒度单位进行训练及合成的试验例句的示意图；
[0056] 图12示出了本发明的一种语音合成的装置结构框图；及
[0057] 图13示出了本发明的一种音苄基频模型的训练装置结构框图。
【具体实施方式】
[0058] 为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。
[0059] 为了便于理解，首先对本发明涉及的语音概念进行解释说明：
[0060] 基频：语音信号可以分为浊音和清音两大类。语音中只有浊音才有基频，浊音的激励是周期性的脉冲串，脉冲串的频率就是基音频率，简称基频。由于发声器官生理方面的差异，男性和女性的基频范围不同，一般地，男性的基频范围为50~250Hz ;女性的基频范围为120~500Hz ;婴儿的基频范围大约为250~800Hz ;新生婴儿的哭声基频范围更高。
[0061] 音节、音段（语音粒度单位）：在中文普通话中，一个字就是一个音节；一个音节可由一个声母和一个韵母构成，或只由一个韵母构成（如"啊"）。本发明实施例中将声母和韵母统称为音段。语音合成领域通常对全部音段统一建模。
[0062] 韵律短语：言语的韵律单元，具备完整的语调结构，以换气停顿结束。可通俗理解为一口气说出的片段。一般陈述语气下语调高起低止，称为音高下倾现象。一句话中包含一个或多个韵律短语。
[0063] 传统的HTS在训练阶段将音段的声学表征视为一个随时间变化的随机过程，此过程历经一定数量的状态，以概率转移的方式串联成马尔可夫链；假定每个状态内保持稳定，以GMM(Gaussian Mixture Model，混合高斯模型）统计描述。参照图1，示出

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王愈;李健;张连毅;武卫东;
技术所有人：北京捷通华声语音技术有限公司;
我是此专利的发明人

上一篇：语音识别方法和装置的制造方法
上一篇：大语料音库裁剪方法及系统的制作方法