一种语音合成的方法和装置的制造方法_5

文档序号:9201449阅读:来源:国知局
子模块,具体可以包括:
[0163] 音苄基频候选确定单元,用于对所述待合成文本中的每个音节,确定多个音苄基 频候选模型;
[0164] 走势线生成单元,用于依据所述多个音苄基频候选模型在二维空间按最小二乘准 则拟合出一条直线,所述直线即为走势线。
[0165] 优选地,所述连续浊音段模型生成子模块,具体可以包括:
[0166] 合并单元,用于将所述各音节的最优音苄基频模型依次按连续浊音段为单位进行 合并;
[0167] 生成单元,用于将各连续浊音段对应的高斯模型依据时长加权平均得到连续浊音 段基频模型。
[0168] 优选地,所述装置还可以包括:
[0169] 语调控制模块,用于依据走势线控制语音合成的语调。
[0170] 装置实施例二
[0171] 参照图13,示出了本发明的一种音苄基频模型的训练装置结构框图,所述装置具 体可以包括:
[0172] 声学参数提取模块1310,用于对语音样本提取声学参数;所述声学参数包括基频 参数和谱参数;
[0173] 音节参数生成模块1320,用于依据所述基频参数生成音苄基频均值参数;以及
[0174] 音苄基频模型训练模块1330,用于依据所述音苄基频均值参数,训练出多套音节 基频模型。
[0175] 优选地,所述音节参数生成模块1320,具体可以包括:
[0176] 音节参数生成子模块,用于针对所述基频参数以音节为单位提取特征,逐音节统 计均值生成音苄基频均值参数。
[0177] 优选地,所述音苄基频模型训练模块1330,具体可以包括:
[0178] 语境信息生成子模块,用于根据音库中的各类标注对所述语音样本分别生成逐音 段上下文语境信息和逐音节上下文语境信息;
[0179] 音苄基频模型训练子模块,用于针对所述音苄基频均值参数,结合音节上下文语 境信息训练出多套音苄基频模型。
[0180] 对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关 之处参见方法实施例的部分说明即可。
[0181] 本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与 其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
[0182] 本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算 机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和 硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可 用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上 实施的计算机程序产品的形式。
[0183] 本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序 产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框 图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提 供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理 终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处 理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多 个方框中指定的功能的装置。
[0184] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备 以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包 括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方 框或多个方框中指定的功能。
[0185] 这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得 在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在 计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程 和/或方框图一个方框或多个方框中指定的功能的步骤。
[0186] 尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基 本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为 包括优选实施例以及落入本发明实施例范围的所有变更和修改。
[0187] 最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将 一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作 之间存在任何这种实际的关系或者顺序。而且,术语"包括"、"包含"或者其任何其他变体意 在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包 括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品 或者终端设备所固有的要素。在没有更多限制的情况下,由语句"包括一个……"限定的要 素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
[0188] 以上对本发明所提供的一种语音合成的方法和装置以及一种基频模型的训练方 法和装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐 述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的 一般技术人员,依据本发明的思想,在【具体实施方式】及应用范围上均会有改变之处,综上所 述,本说明书内容不应理解为对本发明的限制。
【主权项】
1. 一种语音合成的方法,其特征在于,所述方法包括: 对待合成文本中的各音段进行音段模型决策,确定所述各音段对应的基线HTS基频模 型; 对所述待合成文本中的各音节进行音节模型决策,确定所述各音节对应的连续浊音段 基频模型; 依据所述各音段对应的基线HTS基频模型与所述各音节对应的连续浊音段基频模型, 按照多层融合算法联合生成融合基频参数; 依据所述融合基频参数以及对应的谱参数合成语音。2. 如权利要求1所述的方法,其特征在于,所述对所述待合成文本中的各音节进行音 节模型决策,确定所述各音节对应的连续浊音段基频模型的步骤,包括: 对所述待合成文本中的各音节进行音苄基频模型预测; 基于走势线拟合的多路优选方法确定所述各音节的最优音苄基频模型; 依据所述各音节的最优音苄基频模型生成连续浊音段基频模型。3. 如权利要求2所述的方法,其特征在于,所述走势线生成的步骤,包括: 对所述待合成文本中的每个音节,确定多个音苄基频候选模型; 依据所述多个音苄基频候选模型在二维空间按最小二乘准则拟合出一条直线,所述直 线即为走势线。4. 如权利要求2所述的方法,其特征在于,所述依据所述各音节的最优音苄基频模型 生成连续浊音段基频模型,包括: 将所述各音节的最优音苄基频模型依次按连续浊音段为单位进行合并; 将各连续浊音段对应的高斯模型依据时长加权平均得到连续浊音段基频模型。5. 如权利要求2所述的方法,其特征在于,所述方法还包括: 依据走势线控制语音合成的语调。6. 如权利要求1所述的方法,其特征在于,所述多层融合算法为联合状态层模型的参 数集和连续浊音段模型的参数集,按照状态层与所述连续浊音段层各自的最优准则进行综 合计算。7. -种音苄基频模型的训练方法,其特征在于,所述方法包括: 对语音样本提取声学参数;所述声学参数包括基频参数; 依据所述基频参数生成音苄基频均值参数; 依据所述音苄基频均值参数,训练出多套音苄基频模型。8. 如权利要求7所述的方法,其特征在于,所述依据所述基频参数生成音苄基频均值 参数,包括: 针对所述基频参数以音节为单位提取特征,逐音节统计均值生成音苄基频均值参数。9. 一种语音合成的装置,其特征在于,所述装置包括: 音段模型决策模块,用于对待合成文本中的各音段进行音段模型决策,确定所述各音 段对应的基线HTS基频模型; 音节模型决策模块,用于对所述待合成文本中的各音节进行音节模型决策,确定所述 各音节对应的连续浊音段基频模型; 融合参数生成模块,用于依据所述各音段对应的基线HTS基频模型与所述各音节对应 的连续浊音段基频模型,按照多层融合算法联合生成融合基频参数;以及 语音合成模块,用于依据所述融合基频参数以及对应的谱参数合成语音。10. -种音苄基频模型的训练装置,其特征在于,所述装置包括: 声学参数提取模块,用于对语音样本提取声学参数;所述声学参数包括基频参数; 音节参数生成模块,用于依据所述基频参数生成音苄基频均值参数;以及 音苄基频模型训练模块,用于依据所述音苄基频均值参数,训练出多套音苄基频模型。
【专利摘要】本发明实施例提供了一种语音合成的方法和装置以及一种基频模型的训练方法和装置,其中,语音合成的方法包括:对待合成文本中的各音段进行音段模型决策,确定所述各音段对应的基线HTS基频模型;对所述待合成文本中的各音节进行音节模型决策,确定所述各音节对应的连续浊音段基频模型;依据所述各音段对应的基线HTS基频模型与所述各音节对应的连续浊音段基频模型,按照多层融合算法联合生成融合基频参数;依据所述融合基频参数以及对应的谱参数合成语音。本发明实施例能够提高音高的准确度,从而使韵律更接近真实语音。
【IPC分类】G10L15/06, G10L25/93, G10L13/08, G10L15/183
【公开号】CN104916282
【申请号】CN201510142395
【发明人】王愈, 李健, 张连毅, 武卫东
【申请人】北京捷通华声语音技术有限公司
【公开日】2015年9月16日
【申请日】2015年3月27日
当前第5页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1