用于波形拼接语音合成的选音方法和装置的制造方法

文档序号:9930270阅读:804来源:国知局
用于波形拼接语音合成的选音方法和装置的制造方法
【技术领域】
[0001]本发明涉及语音合成技术领域,尤其涉及一种用于波形拼接语音合成的选音方法和装置。
【背景技术】
[0002]语音合成,又称文语转换(Textto Speech)技术,解决的主要问题是如何将文字信息转化为可听的声音信息。
[0003]在语音合成时,需要先对输入的文本进行前端处理,再进行声学参数预测得到声学参数,最后利用声学参数直接通过声码器合成声音,或者从音库中挑选单元进行波形拼接。相对于声码器合成的声音,基于波形拼接的合成声音有更高的音质,以及更好保持了原发音人的风格。
[0004]在构建基于波形拼接的语音合成系统过程中,相关技术中,通常是先根据标注信息获取候选音子波形片断,再在候选音子波形片断中进行一系列的预选,包括:时长预选、韵律位置预选、上下文预选、Kul Iback-Leibler距离(KLD)预选和邻居预选等,之后再从预选得到的波形片断中选择出最优音子波形片断序列,之后根据最优音子波形片断序列拼接合成得到合成语音。
[0005]相关技术中的上述方案会存在如下问题:
[0006](I)各个预选过程相互独立,没有把这些信息综合起来充分考虑,因此难以取得很好的预选效果;
[0007](2)上述预选过程需要调整阈值和权重,而调整阈值和权重的工作需要大量的细致的人工工作,容易顾此失彼,针对一个音库调整好阈值和权重后,换一个音库往往需要重新调整这些参数;
[0008](3)需要进行多步预选,计算量较大(特别是KLD预选);
[0009](4)该方法的工程实现较为繁琐,涉及到大量参数的维护,代码复杂度高,较难维护。

【发明内容】

[0010]本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
[0011]为此,本发明的一个目的在于提出一种用于波形拼接语音合成的选音方法,该方法可以提高语音合成时预选音子的预选效果。
[0012]本发明的另一个目的在于提出一种用于波形拼接语音合成的选音装置。
[0013]为达到上述目的,本发明第一方面实施例提出的用于波形拼接语音合成的选音方法,包括:获取标注信息,所述标注信息是对待合成文本进行前端处理后得到的;获取预先生成的机器学习模型;根据所述标注信息和所述机器学习模型进行机器学习预选,得到候选音子波形片断。
[0014]本发明第一方面实施例提出的用于波形拼接语音合成的选音方法,通过采用机器学习模型进行预选,可以将各种信息综合起来考虑,从而提高语音合成时的预选效果。
[0015]为达到上述目的,本发明第二方面实施例提出的用于波形拼接语音合成的选音装置,包括:第一获取模块,用于获取标注信息,所述标注信息是对待合成文本进行前端处理后得到的;第二获取模块,用于获取预先生成的机器学习模型;预选模块,用于根据所述标注信息和所述机器学习模型进行机器学习预选,得到候选音子波形片断。
[0016]本发明第二方面实施例提出的用于波形拼接语音合成的选音装置,通过采用机器学习模型进行预选,可以将各种信息综合起来考虑,从而提高语音合成时的预选效果。
[0017]本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
【附图说明】
[0018]本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0019]图1是本发明一实施例提出的用于波形拼接语音合成的选音方法的流程示意图;
[0020]图2是本发明另一实施例提出的用于波形拼接语音合成的选音方法的流程示意图;
[0021]图3是本发明实施例中一种音子树的示意图;
[0022]图4是本发明实施例中语音合成方法的流程示意图;
[0023]图5是本发明另一实施例提出的用于波形拼接语音合成的选音装置的结构示意图;
[0024]图6是本发明另一实施例提出的用于波形拼接语音合成的选音装置的结构示意图。
【具体实施方式】
[0025]下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
[0026]图1是本发明一实施例提出的用于波形拼接语音合成的选音方法的流程示意图。参见图1,该方法包括:
[0027]Sll:获取标注信息,所述标注信息是对待合成文本进行前端处理后得到的。
[0028]其中,前端处理主要包括:预处理、分词、词性标注、注音、韵律层级预测等。
[0029]标注信息主要包括:音子的上下文信息、韵律位置信息、声调信息等。
[0030]S12:获取预先生成的机器学习模型。
[0031]可选的,机器学习模型可以是音子树或者深度神经网络模型。
[0032]机器学习模型可以是在训练阶段,根据音子样本的标注信息和语音数据训练生成的。
[0033]本实施例中,以机器学习模型是音子树为例。
[0034]相应的,参见图2,一些实施例中,该方法还包括:
[0035]S21:获取音子样本的标注信息及音子样本的波形片断,并根据所述音子样本的标注信息,训练得到隐马尔可夫模型(Hidden Markov Model,HMM),以及,建立HMM与波形片断的对应关系。
[0036]其中,训练HMM时可以采用隐马尔可夫模型工具包(HMM Tool Kit,HTK)的基于HMM的语音合成(HMM-based Speech Synthesis System,HTS)来实现。
[0037]训练完成后,训练数据中每个音子的样本都会对应到一个HMM,每个HMM以标注信息来命名。
[0038]在训练数据中,同一个音子,一般对应一个HMM;极少数情况下存在一个HMM对应多个音子的情况。
[0039]例如,韵母音子ai4,对应的HMM声学模型的名称可以简单表示为:k-ai+b,t_ai+h,s-ai+n等。可以理解的是,完整的HMM名称,即音子标注,还包含大量其他信息。
[0040]S22:对应每个音子,对所述音子对应的HMM进行决策树聚类,得到所述音子对应的音子树。
[0041]对于特定音子,比如“ai4”,使用其所有的HMM进行决策树聚类。
[0042]通过决策树聚类,构建的音子树中,每个非叶子节点对应一个最优的分裂问题,每个叶子节点关联一部分的HMM。
[0043]聚类时使用的问题是韵律位置、上下文等标注信息。
[0044]—开始所有的HMM都在根节点上,然后选择使得分裂前后对数似然值增量最大的问题作为最优分裂问题,把根节点关联的HMM分裂成两部分;然后子节点再继续分裂。当分裂前后对数似然增量小于某一阈值时,就停止分裂。其中,阈值由最小描述长度(MinimumDescript1n distance,MDL)准则确定。
[0045]—种音子树聚类过程可以如图3所示。图3中每个非叶子节点对应一个最优的分裂问题,每个叶子节点关联一部分的HMM。
[0046]其中,图3中的“L”和“R”分别表示当前音子的左侧和右侧的音子,voice表示韵母、siIence表示静音,V’和“g”表示两个具体的音子。
[0047]例如,在图3中,根节点上使用的最优分裂问题是判断当前音子的左侧的音子是否是韵
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1