一种语音合成的方法和装置的制造方法_4

文档序号:9201449阅读:来源:国知局
31] 但由于上下文语境包罗万象,分类结果过于零碎,真实训练数据无法覆盖数量如 此庞大的种类,即使被覆盖到的也可能只有稀少的几个训练样本,无法有效统计建模。因 此,可以引入决策树聚类机制,自动根据训练数据的分布情况,将零碎的语境类型聚类成更 大的子类,一方面保证每种子类有足够的训练样本,另一方面追求不同子类间更明晰的区 分度。参照图7,示出了本发明的一种基于基于上下文语境的决策树聚类的示意图,可以对 各状态独立进行聚类,在聚类出的每个子类范围内统计出一个高斯模型。不同模型间可以 共享某些状态,从而进一步克服数据稀疏问题。状态的时长也可以采取同样的方法聚类建 模。在具体实施时,为进一步提高训练数据的复用度以克服数据稀疏问题,还会将某些状态 的状态转移概率矩阵绑定共享。
[0132] 经过决策树聚类后可以得到基频、谱参数以及状态时长决策树文件。
[0133] 步骤602、依据所述基频参数生成音苄基频均值参数;
[0134] 由于基于HMM的统计参数语音合成是以音段为粒度对声学参数进行统计描述的, 从宏观的音系学角度来看,状态这种粒度过于微观,在此层级上做统计描述,只见树木不见 森林,无法刻画字间、词间乃至短语范围内宏观的音高变化轨迹。而自然语音的音高正是在 超音段层次上体现大量韵律、语义信息。因此现有技术的语音合成导致韵律效果平淡、生 硬,与真实语音差距较大。因此,在基频生成过程中,有必要补充进更多信息,同时这些信息 应该来自宏观粒度层级,相对与微观的状态层级,可以看做高层信息。因此,本发明实施例 在语音合成的训练阶段,增加了音节这一高层粒度单位。
[0135] 具体地,对所述基频参数在高层(音节)粒度进一步提取特征,即逐音节统计均值 生成音苄基频均值参数。
[0136] 步骤603、依据所述音苄基频均值参数,训练出多套音苄基频模型。
[0137] 在实际应用中,本发明实施例具体对于训练出多少套音苄基频模型不加以限制, 上述实施例二中以4套音苄基频模型为例进行了举例说明,但是在具体实现时,可以训练 出更多套的音苄基频模型,以使得合成的音高更加准确,韵律更接近真实语音,也即,本发 明实施例对音苄基频模型的具体数目不加以限制。
[0138] 具体地,所述依据所述音苄基频均值参数,训练出多套音苄基频模型的步骤,可以 包括:
[0139] 根据音库中的各类标注对所述语音文件分别生成逐音段上下文语境信息和逐音 节上下文语境信息;
[0140] 针对所述音苄基频均值参数,结合音节上下文语境信息训练出多套音苄基频模 型。
[0141] 高层体系是本发明新增的算法结构。高层模型是由高层粒度单位内的基频统计信 息作为训练样本训练所得,训练算法与HTS基础算法类似,亦是HMM模型训练结合上下文聚 类,只是模型结构不同,每个模型只包含单个状态。
[0142] 对训练出的多套音苄基频模型进行决策树聚类后,可以得到音苄基频的决策树文 件。
[0143] 本发明实施例在训练阶段以不同对象训练出多套音苄基频模型,目的是为合成阶 段提供高层模型的多路优选做准备。因此,根据音库中的各类标注生成逐音段和逐音节两 套上下文语境信息。这里的音苄基频均值分别与音节/音段上下文语境信息以及分类问题 集这两套分类描述体系,训练出多套音苄基频均值模型;每个音节的训练数据就是其基频 均值,可以是一个恒定值,不涉及过程概念,建模的目的只是描述不同上下文语境下的基频 均值大小;但为方便沿用基线HTS算法结构,以单状态HMM描述音苄基频均值,重点意义在 于上下文聚类。
[0144] 综上,本发明实施例中,在语音合成的训练阶段增加了音节这一高层粒度单位,对 原始的基频参数在高层(音节)粒度进一步提取特征,即逐音节统计均值生成音苄基频均 值参数,并依据所述音苄基频均值参数,训练出多套音苄基频模型,为合成阶段提供高层模 型的多路优选做准备。解决了现有的HTS仅以音段为粒度对声学参数进行统计描述导致韵 律效果平淡、生硬,与真实语音差距较大的问题。
[0145] 在本发明的一种应用示例中,参照图8,示出了本发明的一种语音合成的基频模型 训练系统流程图。
[0146] 具体地,在训练阶段,首先对音库中的语音文件提取声学参数(基频和谱参数), 然后对基频参数在高层粒度进一步提取特征,即逐音节统计均值。另一方面,根据音库中的 各类标注生成逐音段和逐音节两套上下文语境信息。依据第一步提取的声学参数、音段的 上下文语境信息以及上下文分类问题集,训练出音段模型(基线HTS基础算法),包括基频 和谱参数的模型以及状态时长模型。由于本发明的另一创新点是高层模型的多路优选,这 要求在训练阶段以不同对象训练多套模型供候选。因此,这里的音苄基频均值分别与音节 /音段上下文语境信息及分类问题集这两套分类描述体系,训练出多套音苄基频均值模型: 每个音节的训练数据就是其基频均值,是一个恒定值,不涉及过程概念,建模的目的只是描 述不同上下文语境下的基频均值大小;但为方便沿用基线HTS算法结构,以单状态HMM描述 音苄基频均值,重点意义在于上下文聚类。
[0147] 实施例五
[0148] 在本发明的一种应用示例中,参照图9,示出了以音节为高层粒度进行训练及合成 的试验例句的示意图,其中,①为原始录音的基频包络,阶梯虚线②为对原始录音在各音节 范围内取均值(静音段没有意义,显示不准确),③为基线HTS算法生成的基频参数,阶梯 实线④为音节层的"上下文相关的HMM序列判决"所确定模型的均值,⑤为最终多层联合生 成的基频参数。从听感上,大约从410至500时刻之间的两个音节(内容为"神秘")的声 调非常怪异。将这一区段放大得到图10,示出了以音节为高层粒度进行训练及合成的试验 例句的局部放大示意图。在图10中,包络③和包络①的形状和绝对高度是大致吻合的,而 包络⑤则与它们有很大区别:第一个音节在阶梯实线④的指引下,大幅向上平移;第二个 音节在阶梯实线④的指引下,本应略微向下平移,但其前半段却是背道而驰,而且发生了扭 曲,显然是受到了第一个音节的影响。造成这种关联影响的根源在于邻接差分。在依据最 大似然准则求解最优结果时,邻接差分起到平滑性约束作用,在最终结果中引导相邻点间 尽量平滑。
[0149] 要解决这个问题,必须协调好与邻接差分的关系。在状态层的参数生成算法中,将 句首、句末以及清浊边界处视为邻接差分的中断边界,在这些地方将其一阶和二阶的方差 设为无穷大,等效于在这些地方令邻接差分无效。在多数情况下,两个韵母之间会间隔一 个清声母,此时前一个韵母结束处和后一个韵母开始处邻接差分中断,两个韵母间互不影 响,两音节可独立调整互不影响。而如果一个韵母后面邻接的是浊声母(l、m、n、r)或零声 母(直接是接韵母),邻接差分在音节边界处是不中断的,就会在此局部范围内发生强力作 用,将两端糅合。上例中的"神秘"就是邻接浊声母的情况。经大量测听,发现声调扭曲的 问题确实主要出现于池声母和零声母这两种情况。
[0150] 从发音机理上来看,在发音人即将完成一个韵母时,口型、唇型开始为发下一个音 节过渡。如果下一个音节是浊声母或零声母,喉管震动不会停止,保持当前的惯性继续往下 一个音节的调型过渡,如果接下来的音节也是同类情况,则会一直继续下去,直到遇到一个 清声母才会停止。在口、唇和鼻即将完成这个清声母时,喉管再次启动,开始下一段。由此 看来,对于激励源来说:包含池声母或零声母的连续几个音节是一个连续单元,对应于基频 包络中就是连续浊音段;而在普通清声母的情况下,每个音节包含一段孤立的浊音段。每个 浊音段内,基频都是平滑变化的。如果对浊音段内部的相邻音节,按不同方向或悬殊的幅度 调节,既不符合发音机理,也会因邻接差分扭曲正常的声调。
[0151] 基于上述分析,本发明实施例提出以连续浊音段为高层粒度单位,进行基频统计、 模型训练以及与状态层融合。每个连续浊音段范围内,只提供一个高层模型,指导此范围内 全部的状态层规划,按照统一的方向和幅度调节,这就避免了段内的扭曲和不平滑问题。参 照图11,示出了本发明的一种以连续浊音段为高层粒度单位进行训练及合成的试验例句的 示意图。可以看到,阶梯实线④在连续浊音段"神秘"范围内是一个恒定值,指导包络⑤在 整段范围内统一调节,结果比较合理,更加接近真实语音。
[0152] 装置实施例一
[0153] 参照图12,示出了本发明的一种语音合成的装置结构框图,所述装置具体可以包 括:
[0154] 音段模型决策模块1210,用于对待合成文本中的各音段进行音段模型决策,确定 所述各音段对应的基线HTS基频模型;
[0155] 音节模型决策模块1220,用于对所述待合成文本中的各音节进行音节模型决策, 确定所述各音节对应的连续浊音段基频模型;
[0156] 融合参数生成模块1230,用于依据所述各音段对应的基线HTS基频模型与所述各 音节对应的连续浊音段基频模型,按照多层融合算法联合生成融合基频参数;以及
[0157] 语音合成模块1240,用于依据所述融合基频参数以及对应的谱参数合成语音。
[0158] 优选地,所述音节模型决策模块1220,具体可以包括:
[0159] 音节模型预测子模块,用于对所述待合成文本中的各音节进行音苄基频模型预 测;
[0160] 最优模型确定子模块,用于基于走势线拟合的多路优选方法确定所述各音节的最 优音苄基频模型;
[0161] 连续浊音段模型生成子模块,用于依据所述各音节的最优音苄基频模型生成连续 浊音段基频模型。
[0162] 优选地,所述最优模型确定
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1