语音合成方法和装置的制造方法

文档序号：9454210阅读：554来源：国知局

语音合成方法和装置的制造方法
【技术领域】
[0001]本发明涉及语音处理技术领域，尤其涉及一种语音合成方法和装置。
【背景技术】
[0002]随着移动时代的到来，人们对语音合成的需求日益增长，例如小说朗读、导航语音等。并且人们对于合成语音已经不仅仅满足于其清晰度和可懂度，还要求合成的语音具有更好的自然度和表现力。语音合成的流程包括:预处理、分词、词性标注、注音、韵律层级预测、声学参数生成和语音生成，其中，语音生成时可以是利用声学参数通过声码器合成语音，或者，也可以是根据声学参数从语料库中选择最优单元进行拼接。对于拼接合成来说，如何从语料库中选择最优单元序列就会影响合成语音效果。
[0003]现有技术中，是将备选空间中似然值最大的路径确定为最优单元序列，但是这种选择方式会存在偏差，尤其是对平均似然值较低的序列，从而使得合成语音在自然度和表现力等方面存在问题。

【发明内容】

[0004]本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
[0005]为此，本发明的一个目的在于提出一种语音合成方法，该方法可以提高选择的语音单元的准确性，从而使得合成语音更加自然和具有更优良的表现力。
[0006]本发明的另一个目的在于提出一种语音合成装置。
[0007]为达到上述目的，本发明第一方面实施例提出的语音合成方法，包括:在预先建立的模型中，获取备选单元的初始模型参数，并根据所述初始模型参数确定最优单元序列，并计算所述最优单元序列的代价值；如果所述最优单元序列的代价值不满足预设条件，则在所述模型中，获取备选单元的更新后的模型参数，所述更新后的模型参数包括:比初始模型参数韵律层级低的一个或多个低级分量的模型参数，并根据所述更新后的模型参数重新确定最优单元序列；将代价值满足预设条件的最优单元序列中的语音单元，确定为要拼接的语音单元，以便对所述要拼接的语音单元进行拼接，得到合成语音。
[0008]可选的，还包括:对要合成的文本进行文本分析，得到上下文特征信息；在所述模型中，根据所述上下文特征信息获取目标单元的初始模型参数，以及获取语料库中连接单元的初始模型参数；根据目标单元的初始模型参数和连接单元的初始模型参数，对连接单元进行预选，以确定出备选单元。
[0009]可选的，还包括:当重新确定的最优单元序列的代价值都不满足预设条件时，在所述模型中，重新获取目标单元的所述更新后的模型参数和连接单元的所述更新后的模型参数；根据目标单元的所述更新后的模型参数和连接单元的所述更新后的模型参数，对连接单元进行预选，以确定出备选单元。
[0010]可选的，还包括:在训练过程中对语音进行声学特征提取，得到声学特征信息；对所述声学特征信息进行韵律层级分解，得到分解后的分量；根据分解后的分量进行建模，得到所述模型。
[0011]可选的，所述对所述声学特征信息进行韵律层级分解，包括:对所述声学特征信息的基频进行分解。
[0012]可选的，所述对所述声学特征信息进行韵律层级分解，包括:采用小波变换或DCT变换，对所述声学特征信息进行韵律层级分解。
[0013]可选的，所述最优单元序列是整体似然值最大的单元序列，所述最优单元序列的代价值是最优单元序列的平均代价值。
[0014]可选的，还包括:当所述最优单元序列的平均代价值小于预设的阈值时，确定所述最优单元序列的代价值不满足预设条件。
[0015]本发明第一方面实施例提出的语音合成方法，通过在根据初始模型参数确定的最优单元序列不满足预设条件时，获取韵律层级低的一个或多个低级分量的模型参数，并根据新的模型参数重新确定最优单元序列直至满足预设条件，可以提高选择的语音单元的准确性，从而使得合成语音更加自然和具有更优良的表现力。
[0016]为达到上述目的，本发明第二方面实施例提出的语音合成装置，包括:第一获取模块，用于在预先建立的模型中，获取备选单元的初始模型参数，并根据所述初始模型参数确定最优单元序列，并计算所述最优单元序列的代价值；更新模块，用于如果所述最优单元序列的代价值不满足预设条件，则在所述模型中，获取备选单元的更新后的模型参数，所述更新后的模型参数包括:比初始模型参数韵律层级低的一个或多个低级分量的模型参数，并根据所述更新后的模型参数重新确定最优单元序列；确定模块，用于将代价值满足预设条件的最优单元序列中的语音单元，确定为要拼接的语音单元，以便对所述要拼接的语音单元进行拼接，得到合成语音。
[0017]可选的，还包括:文本分析模块，用于对要合成的文本进行文本分析，得到上下文特征信息；第三获取模块，用于在所述模型中，根据所述上下文特征信息获取目标单元的初始模型参数，以及获取语料库中连接单元的初始模型参数；第一预选模块，用于根据目标单元的初始模型参数和连接单元的初始模型参数，对连接单元进行预选，以确定出备选单元。
[0018]可选的，还包括:第四获取模块，用于当重新确定的最优单元序列的代价值都不满足预设条件时，在所述模型中，重新获取目标单元的所述更新后的模型参数和连接单元的所述更新后的模型参数；第二预选模块，用于根据目标单元的所述更新后的模型参数和连接单元的所述更新后的模型参数，对连接单元进行预选，以确定出备选单元。
[0019]可选的，还包括:提取模块，用于在训练过程中对语音进行声学特征提取，得到声学特征信息；分解模块，用于对所述声学特征信息进行韵律层级分解，得到分解后的分量；建模模块，用于根据分解后的分量进行建模，得到所述模型。
[0020]可选的，所述分解模块具体用于:对所述声学特征信息的基频进行分解。
[0021]可选的，所述分解模块具体用于:采用小波变换或DCT变换，对所述声学特征信息进行韵律层级分解。
[0022]可选的，所述最优单元序列是整体似然值最大的单元序列，所述最优单元序列的代价值是最优单元序列的平均代价值，还包括:判断模块，用于当所述最优单元序列的平均代价值小于预设的阈值时，确定所述最优单元序列的代价值不满足预设条件。
[0023]本发明第二方面实施例提出的语音合成装置，通过在根据初始模型参数确定的最优单元序列不满足预设条件时，获取韵律层级低的一个或多个低级分量的模型参数，并根据新的模型参数重新确定最优单元序列直至满足预设条件，可以提高选择的语音单元的准确性，从而使得合成语音更加自然和具有更优良的表现力。
[0024]本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
【附图说明】
[0025]本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中:
[0026]图1是本发明一实施例提出的语音合成方法的流程示意图；
[0027]图2是本发明另一实施例提出的语音合成方法的流程示意图；
[0028]图3是本发明另一实施例提出的语音合成方法的流程示意图；
[0029]图4是本发明另一实施例提出的语音合成装置的结构示意图；
[0030]图5是本发明另一实施例提出的语音合成装置的结构示意图。
【具体实施方式】
[0031]下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
[0032]图1是本发明一实施例提出的语音合成方法的流程示意图，该方法包括:
[0033]Sll:在预先建立的模型中，获取备选单元的初始模型参数，并根据所述初始模型参数确定最优单元序列，并计算所述最优单元序列的代价值。
[0034]其中，可以在训练过程中根据文本和对应的语音进行训练，得到模型。模型中可以记录上下文特征信息与模型参数之间的映射关系，以根据上下文特征信息找到模型参数。
[0035]模型参数是训练时根据获取的声学特征信息进行建模后生成的。
[0036]本实施例中的模型参

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：盖于涛;李秀林;
技术所有人：百度在线网络技术（北京）有限公司;
我是此专利的发明人