韵律停顿信息的确定方法和装置的制造方法

文档序号：9472482阅读：202来源：国知局

韵律停顿信息的确定方法和装置的制造方法
【技术领域】
[0001]本发明涉及语音合成技术领域，尤其涉及一种韵律停顿信息的确定方法和装置。
【背景技术】
[0002]语音合成的目的是将文本转换为语音播放给用户，目标是达到真人文本播报的效果。在语音合成环节中一个重要模块是预测待合成文本的韵律停顿，然后根据预测得到的韵律停顿去生成合成语音。
[0003]目前语音合成中的韵律预测是基于统计机器学习的方法实现的，其流程包括准备训练数据、训练韵律预测模型和基于训练好的模型进行韵律预测。
[0004]但是，现有技术中，韵律预测模型中训练的韵律停顿模式和声学模型训练中的韵律停顿模式是不匹配的。其原因是韵律停顿的训练数据是标注人根据文本标注获得的，而且一般是多个标注人共同标注的结果，因此训练的韵律停顿模型表征的是这些标注人的平均韵律停顿模式；而声学模型训练中输入特征的韵律停顿是根据发音人录音标注来的，即反映的是发音人个人的韵律停顿模式。
[0005]另外一个问题是现在的语音合成系统均支持多个发音人，比如男声、女声和童声等，但是目前的解决方案不同发音人对相同文本的韵律停顿是同一个，这也不符合真人发音的特点。

【发明内容】

[0006]本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。
[0007]为此，本发明的第一个目的在于提出一种韵律停顿信息的确定方法。该方法解决了声学模型和韵律模型两者所用韵律训练数据不一致的问题，改善了韵律节奏，提升了合成流畅度，并且使用发音人各自的自适应韵律预测模型，使得多发音人切换的场合的合成效果更加自然。
[0008]本发明的第二个目的在于提出一种韵律停顿信息的确定装置。
[0009]为了实现上述目的，本发明第一方面实施例的韵律停顿信息的确定方法，包括:提取待合成文本的韵律预测特征；根据所用的发音人选择所述发音人对应的自适应韵律预测模型；将所述待合成文本的韵律预测特征输入到所述发音人对应的自适应韵律预测模型中，以确定所述待合成文本的韵律停顿信息。
[0010]本发明实施例的韵律停顿信息的确定方法中，提取待合成文本的韵律预测特征之后，根据所用的发音人选择上述发音人对应的韵律预测模型，然后将上述待合成文本的韵律预测特征输入到上述发音人对应的自适应韵律预测模型中，以确定待合成文本的韵律停顿信息，从而可以解决声学模型和韵律模型两者所用韵律训练数据不一致的问题，改善了韵律节奏，提升了合成流畅度，并且使用发音人各自的自适应韵律预测模型，使得多发音人切换的场合的合成效果更加自然。
[0011]为了实现上述目的，本发明第二方面实施例的韵律停顿信息的确定装置，包括:提取模块，用于提取待合成文本的韵律预测特征；选择模块，用于根据所用的发音人选择所述发音人对应的自适应韵律预测模型；确定模块，用于将所述提取模块提取的待合成文本的韵律预测特征输入到所述选择模块选择的所述发音人对应的自适应韵律预测模型中，以确定所述待合成文本的韵律停顿信息。
[0012]本发明实施例的韵律停顿信息的确定装置中，提取模块提取待合成文本的韵律预测特征之后，选择模块根据所用的发音人选择上述发音人对应的韵律预测模型，然后确定模块将上述待合成文本的韵律预测特征输入到上述发音人对应的自适应韵律预测模型中，以确定待合成文本的韵律停顿信息，从而可以解决声学模型和韵律模型两者所用韵律训练数据不一致的问题，改善了韵律节奏，提升了合成流畅度，并且使用发音人各自的自适应韵律预测模型，使得多发音人切换的场合的合成效果更加自然。
[0013]本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
【附图说明】
[0014]本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中:
[0015]图1为本发明韵律停顿信息的确定方法一个实施例的流程图；
[0016]图2为本发明韵律停顿信息的确定方法另一个实施例的流程图；
[0017]图3为本发明韵律停顿信息的确定方法再一个实施例的流程图；
[0018]图4为本发明韵律停顿信息的确定方法再一个实施例的流程图；
[0019]图5为本发明韵律停顿信息的确定方法的实现示意图；
[0020]图6为本发明韵律停顿信息的确定装置一个实施例的结构示意图；
[0021]图7为本发明韵律停顿信息的确定装置另一个实施例的结构示意图。
【具体实施方式】
[0022]下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
[0023]图1为本发明韵律停顿信息的确定方法一个实施例的流程图，如图1所示，该韵律停顿?目息的确定方法可以包括:
[0024]步骤101，提取待合成文本的韵律预测特征。
[0025]具体地，提取待合成文本的韵律预测特征可以为:对上述待合成文本进行分词和词性标注等操作，以提取上述待合成文本的韵律预测特征。
[0026]步骤102，根据所用的发音人选择上述发音人对应的自适应韵律预测模型。
[0027]步骤103，将上述待合成文本的韵律预测特征输入到上述发音人对应的自适应韵律预测模型中，以确定上述待合成文本的韵律停顿信息。
[0028]上述韵律停顿信息的确定方法中，提取待合成文本的韵律预测特征之后，根据所用的发音人选择上述发音人对应的自适应韵律预测模型，然后将上述待合成文本的韵律预测特征输入到上述发音人对应的自适应韵律预测模型中，以确定待合成文本的韵律停顿信息，从而可以解决声学模型和韵律模型两者所用韵律训练数据不一致的问题，改善了韵律节奏，提升了合成流畅度，并且使用发音人各自的自适应韵律预测模型，使得多发音人切换的场合的合成效果更加自然。
[0029]图2为本发明韵律停顿信息的确定方法另一个实施例的流程图，如图2所示，步骤102之前，还可以包括:
[0030]步骤201，训练韵律预测的基础模型。
[0031]步骤202，通过上述基础模型对发音人的韵律停顿信息进行自适应，获得上述发音人对应的自适应韵律预测模型。
[0032]其中，步骤201?步骤202可以与步骤101并行执行，也可以先后执行，本实施例对步骤201?步骤202与步骤101的执行顺序不作限定，图2中以步骤201?步骤202在步骤101之前执行为例示出。
[0033]图3为本发明韵律停顿信息的确定方法再一个实施例的流程图，如图3所示，步骤201可以包括:
[0034]步骤301，获得韵律预测的标注文本。
[0035]步骤302，提取上述标注文本的韵律预测特征，以及标注上述标注文本的韵律停顿
?目息O
[0036]具体地，可以对标注文本进行分词和词性标注等操作，以提取上述标注文本的韵律预测特征。
[0037]步骤303，通过机器学习工具建立上述标注文本的韵律预测特征与韵律停顿信息之间的映射关系，获得上述韵律预测的基础模型。
[0038]具体地，可以选择机器学习工具在上述标注文本的韵律预测特征与韵律停顿信息之间建模，以描述这两者之间的映射关系，最终训练得到韵律预测的基础模型。
[0039]此处为了后面的自适应操作，对于机器学习工具推荐使用深度神经网络模型，但本实施例并不仅限于此，也可以使用其他的机器学习工具，本实施例对此不作限定。
[0040]图4为本发明韵律停顿信息的确定方法再一个实施例的流程图，如图4所示，步骤202可以包括:
[0041]步骤401，获得发音人的录音文本。
[0042]其中，上述发音人的录音文本的数量相对于训练基础模型时的标注文本的数量来说要小得多。
[0043]步骤402，提取上述录音文本的韵律预测特征，以及根据上述发音人朗读的节奏标注上述录音文本的韵律停顿信息。
[0044]具体地，可以对上述录音文本进行分词和词性标注等操作，以提取上述录音文本的韵律预测特征。
[0045]步骤403，根据上述录音文本的韵律预测特征，通过上述基础模型对上述录音文本的韵律停顿信息进行自适应，获得上述发音人对应的自适应韵律预测模型。
[0046]需要说明的是，如果语音合成系统存在多个发音人，对于每个发音人均可按照上述流程训练各自的自适应韵律预测模型。
[0047]本发明图1?图4所示实施例提供的韵律停顿信息的确定方法的实现示意图可以如图5所示，图5为本发明韵律停顿信息的确定方法的实现示意图。
[0048]上述韵律停顿信息的确定方法解决了声学模型和韵律模型两者所用韵律训练数据不一致的问题，改善了韵律节奏提升了合成流畅度，并且使用发音人各自的自适应韵律预测模型，使得多发音人切换的场合合成效果更加自然。
[0049]图6为本发明韵律停顿信息的确定装置一个实施例的结构示意图，本实施例中的韵律停顿信息的确定装置可以实现本发明提供的韵律停顿信息的确定方法的流程，如图6所示，上述韵律停顿信息的确定装置可以包括:提取模块61、选择模块62和确定模块63 ;
[0050]其中，提取模块61，用于提取待合成文本的韵律预测特征；具体地，提取模块61，具体用于对上述待合成文本进行分词和词性标注等操作，以提取上述待合成文本的韵律预测特征。
[0051]选择模块62，用于根据所用的发音人选择上述发音人对应的自适应韵律预测模型；
[0052]确定模块63，用于将提取模块61提取的待合成文本的韵律预测特征输入到选择模块62选择的上述发音人对应的自适应韵律预测模型中，以确定上述待合成文本的韵律停顿?目息O
[0053]上述韵律停顿信息的确定装置中，提取模块61提取待合成文本的韵律预测特征之后，选择模块62根据所用的发音人选择上述发音人对应的自适应韵律预测模型，然后确定模块63将上述待合成文本的韵律预测特征输入到上述发音人对应的自适应韵律预测模型中，以确定待合成文本的韵律停顿信息，从而可以解决声学模型和韵律模型两者所用韵律训练数据

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：康永国;
技术所有人：百度在线网络技术（北京）有限公司;
我是此专利的发明人

上一篇：一种指令式语音控制发音词典辅助生成方法
上一篇：多音字标注模板生成方法和装置的制造方法