语音合成方法和装置的制造方法

文档序号：9766605阅读：671来源：国知局

语音合成方法和装置的制造方法
【技术领域】
[0001 ]本发明设及语音合成技术领域，尤其设及一种语音合成方法和装置。
【背景技术】
[0002] 现在人们对于合成语音已经不仅仅满足于其清晰度和可懂度，还要求合成的语音具有更好的自然度和表现力。在自然语音中，基频是影响自然度和表现力的主要因素，因此基频建模的精度直接影响了合成语音的自然度和表现力。
[0003] 在传统的语音合成系统中，基频建模使用多空间概率分布的隐马尔可夫模型 (multi-space probability dist;r;Lbution HMM,MSD-HMM)的建模方法，该方法可W很好的针对状态级、声韵母级的基频轮廓(或走势)建模，但是很难学习出词、短语或者句子等更高层级的基频趋势，使得合成语音的节奏感、表现力不足。

【发明内容】

[0004] 本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
[0005] 为此，本发明的一个目的在于提出一种语音合成方法，该方法可W提高合成语音的表现效果。
[0006] 本发明的另一个目的在于提出一种语音合成装置。
[0007] 为达到上述目的，本发明第一方面实施例提出的语音合成方法，包括:对要合成的文本进行文本特征提取，获取上下文特征信息;获取预先生成的模型，所述模型是根据训练样本的上下文特征信息和变换后的声学参数进行训练后生成的，所述变换后的声学参数包括多个韵律层级的基频参数;根据所述模型，确定与所述上下文特征信息对应的模型输出参数，所述模型输出参数包括:多个韵律层级的基频参数;对所述多个韵律层级的基频参数进行基频重构;根据基频重构后的参数和所述模型输出参数中的其他参数得到合成语音。 [000引可选的，还包括:对训练样本的文本进行文本特征提取，获取训练样本的上下文特征信息;对训练样本的语音进行声学特征提取，得到训练样本的声学参数;对所述声学参数进行基频的韵律层级变换，使得变换后的声学参数包括多个韵律层级的基频参数;根据训练样本的上下文特征信息和变换后的声学参数，训练得到所述模型。
[0009] 可选的，所述基频的韵律层级变换包括:基频小波变换。
[0010] 可选的，所述模型是神经网络模型，W及，在训练神经网络模型时采用的目标函数包括:设置的不同参数的权重。
[0011] 可选的，所述变换后的声学参数还包括:谱参数。
[0012] 可选的，所述根据所述模型输出参数进行基频重构，包括:获取每个层级的基频参数对应的权重;根据所述权重对每个层级的基频参数进行加权求和运算。
[0013] 本发明第一方面实施例提出的语音合成方法，通过根据多个韵律层级的基频参数进行建模，可W将单一维度的基频建模扩展到多个韵律层级的多维的基频建模，提高基频建模效果，从而提高语音合成效果。
[0014] 为达到上述目的，本发明第二方面实施例提出的语音合成装置，包括:第一获取模块，用于对要合成的文本进行文本特征提取，获取上下文特征信息；第二获取模块，用于获取预先生成的模型，所述模型是根据训练样本的上下文特征信息和变换后的声学参数进行训练后生成的，所述变换后的声学参数包括多个韵律层级的基频参数;确定模块，用于根据所述模型，确定与所述上下文特征信息对应的模型输出参数，所述模型输出参数包括:多个韵律层级的基频参数;基频重构模块，用于对所述多个韵律层级的基频参数进行基频重构；合成模块，用于根据基频重构后的参数和所述模型输出参数中的其他参数得到合成语音。
[0015] 可选的，还包括：训练模块，用于对训练样本的文本进行文本特征提取，获取训练样本的上下文特征信息;对训练样本的语音进行声学特征提取，得到训练样本的声学参数；对所述声学参数进行基频的韵律层级变换，使得变换后的声学参数包括多个韵律层级的基频参数;根据训练样本的上下文特征信息和变换后的声学参数，训练得到所述模型。
[0016] 可选的，所述模型是神经网络模型，W及，在训练神经网络模型时采用的目标函数包括:设置的不同参数的权重。
[0017] 可选的，所述基频重构模块具体用于:获取设置的每个韵律层级的基频参数对应的权重;根据所述权重对每个韵律层级的基频参数进行加权求和运算。
[0018] 本发明第二方面实施例提出的语音合成装置，通过根据多个韵律层级的基频参数进行建模，可W将单一维度的基频建模扩展到多个韵律层级的多维的基频建模，提高基频建模效果，从而提高语音合成效果。
[0019] 本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
【附图说明】
[0020] 本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：
[0021] 图1是本发明一实施例提出的语音合成方法的流程示意图；
[0022] 图2是本发明另一实施例提出的语音合成方法的流程示意图；
[0023] 图3是本发明另一实施例提出的语音合成装置的结构示意图；
[0024] 图4是本发明另一实施例提出的语音合成装置的结构示意图。
【具体实施方式】
[0025] 下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
[0026] 图1是本发明一实施例提出的语音合成方法的流程示意图。本实施例的流程W合成过程为例。参见图1，该方法包括：
[0027] Sll:对要合成的文本进行文本特征提取，获取上下文特征信息。
[0028] 文本特征提取的流程例如包括:预处理、分词、词性标注、注音、韵律层级预测。
[0029] S12:获取预先生成的模型，所述模型是根据训练样本的上下文特征信息和变换后的声学参数进行训练后生成的，所述变换后的声学参数包括多个韵律层级的基频参数。
[0030] 模型可W在训练过程中训练生成，具体生成流程可W参见后续描述。
[0031] S11-S12并无时序限定关系。
[0032] S13:根据所述模型，确定与所述上下文特征信息对应的模型输出参数，所述模型输出参数包括:多个韵律层级的基频参数。
[0033] 其中，模型中可W记录上下文特征信息与变换后的声学参数之间的映射关系，通过该映射关系，可W确定与上下文特征信息对应的变换后的声学参数，将对应的变换后的声学参数作为模型输出参数。
[0034] 变换后的声学参数例如包括：多个韵律层级的基频参数，另外，还可W包括谱参数。
[0035] S14:对所述多个韵律层级的基频参数进行基频重构。
[0036] 例如，模型输出参数包括多个韵律层级的基频参数和谱参数，需要对其中的多个韵律层级的基频参数进行基频重构。
[0037] 通常重构方案是将多个分量进行求和运算。而本实施例中，可W预先设置每个分量(韵律层级的基频参数）的权重，再对所有分量进行加权求和运算，从而可W在基频重构时强调需要强调的韵律层级，得到需要的合成语音的表现效果。
[0038] S15:根据基频重构后的参数和所述模型输出参数中的其他参数得到合成语音。
[0039] 其中，经过基频重构可W将多维的基频参数合成为一维的基频参数，之后可W将谱参数和一维的基频参数送入声码器中进行语音合成，得到要合成的文本对应的合成语音。
[0040] 本实施例中，通过根据多个韵律层级的基频参数进行建模，可W将单一维度的基频建模扩展到多个韵律层级的多维的基频建模，提高基频建模效果，从而提高语音合成效果。
[0041] 图2是本发明另一实施例提出的语音合成方法的流程示意图。本实施例的流程包括训练过程和合成过程。参

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：盖于涛;康永国;张少飞;
技术所有人：百度在线网络技术（北京）有限公司;
我是此专利的发明人

上一篇：音韵信息合成装置、语音合成装置以及音韵信息合成方法
上一篇：自适应组合积分滤波装置、噪声控制系统及方法