语音合成方法和装置的制造方法

文档序号:9766605阅读:671来源:国知局
语音合成方法和装置的制造方法
【技术领域】
[0001 ]本发明设及语音合成技术领域,尤其设及一种语音合成方法和装置。
【背景技术】
[0002] 现在人们对于合成语音已经不仅仅满足于其清晰度和可懂度,还要求合成的语音 具有更好的自然度和表现力。在自然语音中,基频是影响自然度和表现力的主要因素,因此 基频建模的精度直接影响了合成语音的自然度和表现力。
[0003] 在传统的语音合成系统中,基频建模使用多空间概率分布的隐马尔可夫模型 (multi-space probability dist;r;Lbution HMM,MSD-HMM)的建模方法,该方法可W很好的 针对状态级、声韵母级的基频轮廓(或走势)建模,但是很难学习出词、短语或者句子等更高 层级的基频趋势,使得合成语音的节奏感、表现力不足。

【发明内容】

[0004] 本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
[0005] 为此,本发明的一个目的在于提出一种语音合成方法,该方法可W提高合成语音 的表现效果。
[0006] 本发明的另一个目的在于提出一种语音合成装置。
[0007] 为达到上述目的,本发明第一方面实施例提出的语音合成方法,包括:对要合成的 文本进行文本特征提取,获取上下文特征信息;获取预先生成的模型,所述模型是根据训练 样本的上下文特征信息和变换后的声学参数进行训练后生成的,所述变换后的声学参数包 括多个韵律层级的基频参数;根据所述模型,确定与所述上下文特征信息对应的模型输出 参数,所述模型输出参数包括:多个韵律层级的基频参数;对所述多个韵律层级的基频参数 进行基频重构;根据基频重构后的参数和所述模型输出参数中的其他参数得到合成语音。 [000引可选的,还包括:对训练样本的文本进行文本特征提取,获取训练样本的上下文特 征信息;对训练样本的语音进行声学特征提取,得到训练样本的声学参数;对所述声学参数 进行基频的韵律层级变换,使得变换后的声学参数包括多个韵律层级的基频参数;根据训 练样本的上下文特征信息和变换后的声学参数,训练得到所述模型。
[0009] 可选的,所述基频的韵律层级变换包括:基频小波变换。
[0010] 可选的,所述模型是神经网络模型,W及,在训练神经网络模型时采用的目标函数 包括:设置的不同参数的权重。
[0011] 可选的,所述变换后的声学参数还包括:谱参数。
[0012] 可选的,所述根据所述模型输出参数进行基频重构,包括:获取每个层级的基频参 数对应的权重;根据所述权重对每个层级的基频参数进行加权求和运算。
[0013] 本发明第一方面实施例提出的语音合成方法,通过根据多个韵律层级的基频参数 进行建模,可W将单一维度的基频建模扩展到多个韵律层级的多维的基频建模,提高基频 建模效果,从而提高语音合成效果。
[0014] 为达到上述目的,本发明第二方面实施例提出的语音合成装置,包括:第一获取模 块,用于对要合成的文本进行文本特征提取,获取上下文特征信息;第二获取模块,用于获 取预先生成的模型,所述模型是根据训练样本的上下文特征信息和变换后的声学参数进行 训练后生成的,所述变换后的声学参数包括多个韵律层级的基频参数;确定模块,用于根据 所述模型,确定与所述上下文特征信息对应的模型输出参数,所述模型输出参数包括:多个 韵律层级的基频参数;基频重构模块,用于对所述多个韵律层级的基频参数进行基频重构; 合成模块,用于根据基频重构后的参数和所述模型输出参数中的其他参数得到合成语音。
[0015] 可选的,还包括:训练模块,用于对训练样本的文本进行文本特征提取,获取训练 样本的上下文特征信息;对训练样本的语音进行声学特征提取,得到训练样本的声学参数; 对所述声学参数进行基频的韵律层级变换,使得变换后的声学参数包括多个韵律层级的基 频参数;根据训练样本的上下文特征信息和变换后的声学参数,训练得到所述模型。
[0016] 可选的,所述模型是神经网络模型,W及,在训练神经网络模型时采用的目标函数 包括:设置的不同参数的权重。
[0017] 可选的,所述基频重构模块具体用于:获取设置的每个韵律层级的基频参数对应 的权重;根据所述权重对每个韵律层级的基频参数进行加权求和运算。
[0018] 本发明第二方面实施例提出的语音合成装置,通过根据多个韵律层级的基频参数 进行建模,可W将单一维度的基频建模扩展到多个韵律层级的多维的基频建模,提高基频 建模效果,从而提高语音合成效果。
[0019] 本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变 得明显,或通过本发明的实践了解到。
【附图说明】
[0020] 本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得 明显和容易理解,其中:
[0021] 图1是本发明一实施例提出的语音合成方法的流程示意图;
[0022] 图2是本发明另一实施例提出的语音合成方法的流程示意图;
[0023] 图3是本发明另一实施例提出的语音合成装置的结构示意图;
[0024] 图4是本发明另一实施例提出的语音合成装置的结构示意图。
【具体实施方式】
[0025] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终 相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附 图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本 发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同 物。
[0026] 图1是本发明一实施例提出的语音合成方法的流程示意图。本实施例的流程W合 成过程为例。参见图1,该方法包括:
[0027] Sll:对要合成的文本进行文本特征提取,获取上下文特征信息。
[0028] 文本特征提取的流程例如包括:预处理、分词、词性标注、注音、韵律层级预测。
[0029] S12:获取预先生成的模型,所述模型是根据训练样本的上下文特征信息和变换后 的声学参数进行训练后生成的,所述变换后的声学参数包括多个韵律层级的基频参数。
[0030] 模型可W在训练过程中训练生成,具体生成流程可W参见后续描述。
[0031] S11-S12并无时序限定关系。
[0032] S13:根据所述模型,确定与所述上下文特征信息对应的模型输出参数,所述模型 输出参数包括:多个韵律层级的基频参数。
[0033] 其中,模型中可W记录上下文特征信息与变换后的声学参数之间的映射关系,通 过该映射关系,可W确定与上下文特征信息对应的变换后的声学参数,将对应的变换后的 声学参数作为模型输出参数。
[0034] 变换后的声学参数例如包括:多个韵律层级的基频参数,另外,还可W包括谱参 数。
[0035] S14:对所述多个韵律层级的基频参数进行基频重构。
[0036] 例如,模型输出参数包括多个韵律层级的基频参数和谱参数,需要对其中的多个 韵律层级的基频参数进行基频重构。
[0037] 通常重构方案是将多个分量进行求和运算。而本实施例中,可W预先设置每个分 量(韵律层级的基频参数)的权重,再对所有分量进行加权求和运算,从而可W在基频重构 时强调需要强调的韵律层级,得到需要的合成语音的表现效果。
[0038] S15:根据基频重构后的参数和所述模型输出参数中的其他参数得到合成语音。
[0039] 其中,经过基频重构可W将多维的基频参数合成为一维的基频参数,之后可W将 谱参数和一维的基频参数送入声码器中进行语音合成,得到要合成的文本对应的合成语 音。
[0040] 本实施例中,通过根据多个韵律层级的基频参数进行建模,可W将单一维度的基 频建模扩展到多个韵律层级的多维的基频建模,提高基频建模效果,从而提高语音合成效 果。
[0041] 图2是本发明另一实施例提出的语音合成方法的流程示意图。本实施例的流程包 括训练过程和合成过程。参
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1