韵律层级预测模型的生成及韵律层级预测方法和装置的制造方法

文档序号：9434109阅读：251来源：国知局

韵律层级预测模型的生成及韵律层级预测方法和装置的制造方法
【技术领域】
[0001]本发明涉及语音处理技术领域，尤其涉及一种韵律层级预测模型的生成及韵律层级预测方法和装置。
【背景技术】
[0002]语音合成，又称文语转换(Text to Speech，TTS)技术，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。语音合成的一个关键步骤是韵律预测，韵律预测又可以细分为韵律层级预测、时长预测和音高预测等。在韵律层级预测时，是采用训练阶段生成的韵律层级预测模型对文本处理后的输入文本进行韵律层级预测，得到韵律层级预测结果，韵律层级预测结果会影响语音合成的效果。
[0003]现有技术中，韵律层级预测模型是将精标数据集作为训练数据，对训练数据进行训练后生成的，精标数据集是指由专业人员对收集的数据集进行精细标注后得到的数据集。但是，由于精标数据集需要专业人员的标注，标注周期长，所需投入大，所以精标数据集往往规模较小，导致所训练的韵律层级预测模型的准确性较差，从而影响韵律层级预测的准确性，影响语音合成的效果。

【发明内容】

[0004]本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
[0005]为此，本发明的一个目的在于提出一种韵律层级预测模型的生成方法，该方法可以提高生成的韵律层级预测模型的准确性，进而提高韵律层级预测的准确性，提高语言合成效果。
[0006]本发明的另一个目的在于提出一种韵律层级预测方法，该方法可以采用准确性较高的韵律层级预测模型，提高韵律层级预测的准确性，从而提高语言合成效果。
[0007]本发明的另一个目的在于提出一种韵律层级预测模型的生成装置。
[0008]本发明的另一个目的在于提出一种韵律层级预测装置。
[0009]为达到上述目的，本发明第一方面实施例提出的韵律层级预测模型的生成方法，包括:根据精标数据集生成初始的韵律层级预测模型；收集语音及对应的文本数据，检测语音中的特征信息，并将所述特征信息加入文本数据的对应位置；根据所述初始的韵律层级预测模型，对加入特征信息的文本数据进行韵律层级预测，得到初始的韵律层级预测结果；根据所述精标数据集和所述初始的韵律层级预测结果进行训练，生成更新后的韵律层级预测模型，所述更新后的韵律层级预测模型用于语音合成时的韵律层级预测。
[0010]本发明第一方面实施例提出的韵律层级预测模型的生成方法，通过在模型训练时，不仅根据精标数据集还根据初始的韵律层级预测结果，可以扩大训练数据的规模，提高生成的韵律层级预测模型的准确性，进而提高韵律层级预测的准确性，提高语言合成效果。
[0011]为达到上述目的，本发明第二方面实施例提出的韵律层级预测方法，包括:获取文本处理后的输入文本；获取韵律层级预测模型；根据所述韵律层级预测模型，对所述文本处理后的输入文本进行韵律层级预测，得到韵律层级预测结果；其中，所述韵律层级预测模型采用如本发明第一方面实施例任一项所述的方法生成。
[0012]本发明第二方面实施例提出的韵律层级预测方法，通过选择上述的韵律层级预测模型，该韵律层级预测模型相当于已有的模型更加准确，由于采用了更加准确的韵律层级预测模型，可以提高韵律层级预测的准确性，进而提高语言合成的效果。
[0013]为达到上述目的，本发明第三方面实施例提出的韵律层级预测模型的生成装置，包括:第一生成模块，用于根据精标数据集生成初始的韵律层级预测模型；处理模块，用于收集语音及对应的文本数据，检测语音中的特征信息，并将所述特征信息加入文本数据的对应位置；预测模块，用于根据所述初始的韵律层级预测模型，对加入特征信息的文本数据进行韵律层级预测，得到初始的韵律层级预测结果；第二生成模块，用于根据所述精标数据集和所述初始的韵律层级预测结果进行训练，生成更新后的韵律层级预测模型，所述更新后的韵律层级预测模型用于语音合成时的韵律层级预测。
[0014]本发明第三方面实施例提出的韵律层级预测模型的生成装置，通过在模型训练时，不仅根据精标数据集还根据初始的韵律层级预测结果，可以扩大训练数据的规模，提高生成的韵律层级预测模型的准确性，进而提高韵律层级预测的准确性，提高语言合成效果。
[0015]为达到上述目的，本发明第四方面实施例提出的韵律层级预测装置，包括:第一获取模块，用于获取文本处理后的输入文本；第二获取模块，用于获取韵律层级预测模型；预测模块，用于根据所述韵律层级预测模型，对所述文本处理后的输入文本进行韵律层级预测，得到韵律层级预测结果；其中，所述韵律层级预测模型采用如本发明第一方面任一项所述的方法生成。
[0016]本发明第四方面实施例提出的韵律层级预测装置，通过选择上述的韵律层级预测模型，该韵律层级预测模型相当于已有的模型更加准确，由于采用了更加准确的韵律层级预测模型，可以提高韵律层级预测的准确性，进而提高语言合成的效果。
[0017]本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
【附图说明】
[0018]本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中:
[0019]图1是本发明一实施例提出的韵律层级预测模型的生成方法的流程示意图；
[0020]图2是本发明实施例中训练过程和预测过程的示意图；
[0021]图3是本发明另一实施例提出的韵律层级预测方法的流程示意图；
[0022]图4是本发明实施例中语音合成的流程示意图；
[0023]图5是本发明另一实施例提出的韵律层级预测模型的生成装置的结构示意图；
[0024]图6是本发明另一实施例提出的韵律层级预测装置的结构示意图。
【具体实施方式】
[0025]下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
[0026]图1是本发明一实施例提出的韵律层级预测模型的生成方法的流程示意图，该方法包括:
[0027]Sll:根据精标数据集生成初始的韵律层级预测模型。
[0028]具体的，图2是本发明实施例中训练过程和预测过程的示意图。参见图2，其中的根据精标数据集生成初始的韵律层级预测模型的流程包括:
[0029]S21:根据精标数据集生成训练数据。
[0030]其中，精标数据集是指由专业人员精细标注后得到的数据集，可以采用已有方式获取。
[0031]在获取到精标数据集后，可以将精标数据集作为训练数据。
[0032]S22:采用机器学习算法对训练数据进行训练，生成初始的韵律层级预测模型。
[0033]以中文韵律层级预测为例，韵律层级主要包括:韵律词、韵律短语和语调短语。其中，韵律词相对稳定，预测准确率较高；韵律短语相对灵活；语调短语，可以看作是一组韵律短语，往往会产生明显的停顿，是更大的层级结构，也是对人的听感和理解更为关键的。
[0034]不同韵律位置的单元，具有不同的特点，是有明显区分性的，主要包括时长差异、音高差异和停顿差异等。比如，《韵律单元边界特征的声学语音学研究》一文的研究表明，韵律单元起首音节韵母的时长不受韵律层级的影响，既不会拉长也

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李秀林;张辉;杨鹏;徐扬凯;白锦峰;付晓寅;
技术所有人：百度在线网络技术（北京）有限公司;
我是此专利的发明人

上一篇：韵律层级标注方法和装置的制造方法
上一篇：个性化多声学模型的训练方法、语音合成方法及装置的制造方法