一种语音合成方法和装置的制造方法

文档序号：9889515阅读：408来源：国知局

一种语音合成方法和装置的制造方法
【专利说明】
【技术领域】
[0001 ]本发明涉及计算机应用技术领域，特别涉及一种语音合成方法和装置。
【【背景技术】】
[0002]随着移动时代的到来，人们对语音合成的需求日益增长，例如小说朗读、语音导航等都需要进行语音合成。并且，人们对于语音合成已经不仅仅满足于清晰度和可懂度，还要求合成的语音具有更好的自然度和表现力。
[0003]对于语音合成而言，首先需要对输入的文本进行处理，包括预处理、分词、词性标注、注音、韵律层级预测等，然后通过声学模型，预测各个单元对应的声学特征，最后利用声学参数通过声码器合成语音，或者从语料库中选取合适的语音单元进行拼接合成。
[0004]其中对于拼接合成而言，如何从语料库中选取合适的语音单元使得最终合成的语句更为自然、更具表现力至关重要。现有的实现方式中，在语音单元的预选过程以及备选空间的搜索过程中均使用HMM(Hidden Markov Model，隐马尔可夫模型)，但由于HMM模型中状态之间相互独立，且其基于决策树的浅层建模，对特征空间的线性划分，导致在复杂文本上下文特征情况下的建模精度较低，造成了最终合成的语音较为平滑，表现力差。
【
【发明内容】
】
[0005]有鉴于此，本发明提供了一种语音合成的方法和装置，以便于提高最终合成的语音的自然度和表现力。
[0006]具体技术方案如下:
[0007]本发明提供了一种语音合成方法，该方法包括:
[0008]利用预先训练的第一模型，从语音库中针对待合成语音挑选候选语音单元构成备选空间；
[0009]利用预先训练的第二模型，从备选空间中选择语音单元用于拼接，使得选择的语音单元构成的序列的搜索代价最优；
[0010]所述第一模型和所述第二模型中至少一个为神经网络模型。
[0011]根据本发明一优选实施方式，该方法还包括:预先基于文本训练样本和语音训练样本训练第一模型和第二模型，分别得到文本特征到声学参数的映射。
[0012]根据本发明一优选实施方式，所述预先基于文本训练样本和语音训练样本训练第一模型和第二模型包括:
[0013]对各文本训练样本进行文本分析，提取各文本训练样本的文本特征；以及，对各语音训练样本进行声学分析，得到各语音训练样本的声学参数；
[0014]利用各文本训练样本的文本特征以及对应的声学参数，训练第一模型和第二模型，分别得到文本特征到声学参数的映射。
[0015]根据本发明一优选实施方式，利用预先训练的第一模型，从语音库中针对待合成语音挑选候选语音单元构成备选空间包括:
[0016]对待合成文本进行文本分析，提取各基元的文本特征；
[0017]利用所述第一模型确定提取的各基元的文本特征对应的声学参数；
[0018]基于声学参数之间的相似度，分别针对所述各基元从语音库中挑选声学参数与对应基元的声学参数之间的相似度满足预设要求的N个候选语音单元构成备选空间，所述N为预设的正整数。
[0019]根据本发明一优选实施方式，所述文本特征包括分词、注音、韵律、声韵母边界中的至少一种；
[0020 ]所述声学参数包括谱参数或基频参数中的至少一种。
[0021]根据本发明一优选实施方式，在分别针对所述各基元从语音库中挑选声学参数与对应基元的声学参数之间的相似度满足预设要求的N个候选语音单元构成备选空间之前，还包括:
[0022]利用提取的所述各基元的文本特征从语音库中挑选各基元对应的候选语音单元；
[0023]利用所述第一模型分别确定候选语音单元的文本特征对应的声学参数。
[0024]根据本发明一优选实施方式，所述利用提取的所述各基元的文本特征从语音库中挑选各基元对应的候选语音单元包括:
[0025]确定各基元的文本特征与该基元在语音库中对应的语音单元的文本特征之间的相似度；
[0026]基于相似度从语音库中挑选各基元对应的候选语音单元。
[0027]根据本发明一优选实施方式，所述声学参数之间的相似度采用相对熵的方式体现。
[0028]根据本发明一优选实施方式，所述搜索代价由目标代价和拼接代价确定，所述目标代价体现为从备选空间中选择的语音单元所构成的序列与待合成文本所对应声学参数序列之间的距离，所述拼接代价体现为从备选空间中选择的相邻两个语音单元的衔接平滑度。
[0029]根据本发明一优选实施方式，所述目标代价通过选择的语音单元所构成序列的声学参数最大似然值确定，所述拼接代价通过所述相邻两个语音单元的声学参数之间的互相关关系确定;或者，
[0030]所述目标代价通过选择的语音单元的声学参数轨迹与待合成文本的声学参数轨迹之间的距离确定，所述拼接代价通过所述相邻两个语音单元的声学参数之间的相对熵确定。
[0031 ]本发明还提供了一种语音合成装置，该装置包括:
[0032]预选单元，用于利用训练的第一模型，从语音库中针对待合成语音挑选候选语音单元构成备选空间；
[0033]搜索单元，用于利用预先训练的第二模型，从备选空间中选择语音单元用于拼接，使得选择的语音单元构成的序列的搜索代价最优；
[0034]所述第一模型和所述第二模型中至少一个为神经网络模型。
[0035]根据本发明一优选实施方式，训练单元，用于预先基于文本训练样本和语音训练样本训练第一模型和第二模型，分别得到文本特征到声学参数的映射。
[0036]根据本发明一优选实施方式，所述训练单元，具体用于:
[0037]对各文本训练样本进行文本分析，提取各文本训练样本的文本特征；以及，对各语音训练样本进行声学分析，得到各语音训练样本的声学参数；
[0038]利用各文本训练样本的文本特征以及对应的声学参数，训练第一模型和第二模型，分别得到文本特征到声学参数的映射。
[0039]根据本发明一优选实施方式，所述预选单元具体包括:
[0040]文本分析子单元，用于对待合成文本进行文本分析，提取各基元的文本特征；
[0041]参数确定子单元，用于利用所述第一模型确定提取的各基元的文本特征对应的声学参数；
[0042]语音预选子单元，用于基于声学参数之间的相似度，分别针对所述各基元从语音库中挑选声学参数与对应基元的声学参数之间的相似度满足预设要求的N个候选语音单元构成备选空间，所述N为预设的正整数。
[0043]根据本发明一优选实施方式，所述文本特征包括分词、注音、韵律、声韵母边界中的至少一种；
[0044]所述声学参数包括谱参数或基频参数中的至少一种。
[0045]根据本发明一优选实施方式，所述预选单元还包括:
[0046]候选挑选子单元，用于利用提取的所述各基元的文本特征从语音库中挑选各基元对应的候选语音单元；
[0047]所述参数确定子单元，还用于利用所述第一模型分别确定候选语音单元的文本特征对应的声学参数；
[0048]所述语音预选子单元在从语音库中挑选声候选语音单元时，具体从所述候选挑选子单元挑选出的候选语音单元中进一步挑选。
[0049]根据本发明一优选实施方式，所述候选挑选子单元具体用于:
[0050]确定各基元的文本特征与该基元在语音库中对应的语音单元的文本特征之间的相似度；
[0051 ]基于相似度从语音库中挑选各基元对应的候选语音单元。
[0052]根据本发明一优选实施方式，所述声学参数之间的相似度采用相对熵的方式体现。
[0053]根据本发明一优选实施方式，所述搜索代价由目标代价和拼接代价确定，所述目标代价体现为从备选空间中选择的语音单元所构成的序列与待合成文本所对应声学参数序列之间的距离，所述拼接代价体现为从备选空间中选择的相邻两个语音单元的衔接平滑度。
[0054]根据本发明一优选实施方式，所述目标代价通过选择的语音单元所构成序列的声学参数最大似然值确定，所述拼接代价通过所述相邻两个语音单元的声学参数之间的互相关关系确定;或者，
[0055]所述目标代价通过选择的语音单元的声学参数轨迹与待合成文本的声学参数轨迹之间的距离确定，所述拼接代价通过所述相邻两个语音单元的声学参数之间的相对熵确定。
[0056]由以上技术方案可以看出，本发明在语音单元的预选过程以及备选空间的搜索过程中的至少一个中采用神经网络模型，由于神经网络模型具有深层非线性建模特性，且考虑状态之间的相关性(即语音单元之间的相关性)，能够使得与选出的备选空间更加准确，和/或，使得最终得到的语音单元序列与目标更加贴近，从而使得合成的语音更加自然，表现力更强。
【【附图说明】】
[0057]图1为本发明实施例一提供的方法流程图；
[005

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：盖于涛;李秀林;康永国;
技术所有人：百度在线网络技术(北京)有限公司;
我是此专利的发明人