语音合成方法、装置、可读介质及电子设备与流程

文档序号：29963353发布日期：2022-05-11 09:41阅读：153来源：国知局

1.本公开涉及计算机技术领域，具体地，涉及一种语音合成方法、装置、可读介质及电子设备。

背景技术：

2.语音合成技术能够将任意文本转换成对应的音频，通常包括两个部分，一部分是对文本进行分析，得到语言学相关的信息，另一部分则是基于分析得出的结果生成声音波形。语音合成的结果是否足够优秀，通常可以通过合成语音的语调起伏度和自然度反映，而合成语音在重音方面的表现则会大大影响其起伏度、自然度。在相关技术中，通常依赖神经网络的学习以习得重音声学特征，但在效果上仍存在重音表现不可控及重音声学表现不明显的问题，同时，这些问题难以通过模型本身的优化来解决，因此，目前的语音合成技术仍存在合成后的语音不够自然、缺乏表现力的问题。

技术实现要素：

3.提供该部分内容以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该部分内容并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。
4.第一方面，本公开提供一种语音合成方法，所述方法包括：
5.确定待处理的目标文本的声调标注信息、韵律标注信息和焦点重音标注信息，其中，所述焦点重音标注信息包括所述目标文本的音节重读信息，所述音节重读信息用于指示所述目标文本中各音节是否应被重读；
6.确定所述目标文本的音素序列；
7.根据所述目标文本的所述声调标注信息、所述韵律标注信息、所述焦点重音标注信息和所述音素序列，生成与所述目标文本对应的合成音频。
8.第二方面，本公开提供一种语音合成装置，所述装置包括：
9.第一确定模块，用于确定待处理的目标文本的声调标注信息、韵律标注信息和焦点重音标注信息，其中，所述焦点重音标注信息包括所述目标文本的音节重读信息，所述音节重读信息用于指示所述目标文本中各音节是否应被重读；
10.第二确定模块，用于确定所述目标文本的音素序列；
11.生成模块，用于根据所述目标文本的所述声调标注信息、所述韵律标注信息、所述焦点重音标注信息和所述音素序列，生成与所述目标文本对应的合成音频。
12.第三方面，本公开提供一种计算机可读介质，其上存储有计算机程序，该程序被处理装置执行时实现本公开第一方面所述方法的步骤。
13.第四方面，本公开提供一种电子设备，包括：
14.存储装置，其上存储有一个或多个计算机程序；
15.一个或多个处理装置，用于执行所述存储装置中的所述一个或多个计算机程序，
以实现本公开第一方面所述方法的步骤。
16.通过上述技术方案，确定待处理的目标文本的声调标注信息、韵律标注信息和焦点重音标注信息，确定目标文本的音素序列，根据目标文本的声调标注信息、韵律标注信息、焦点重音标注信息和音素序列，生成与目标文本对应的合成音频，其中，焦点重音标注信息包括目标文本的音节重读信息，音节重读信息用于指示目标文本中各音节是否应被重读。由此，在针对目标文本进行语音合成时，除了使用声调、韵律这些特征之外，还进一步结合了焦点重音特征，从而，能够在语音合成时对焦点重音的位置及其表现进行直接控制，提升了语音合成中的重音可控性，进而改善重音表现不明显以及重音不可控的问题，提升合成结果的语调起伏度和自然度。此外，由于使用的焦点重音特征中，指示的是目标文本中各音节是否应被重读，即，焦点重音的特征类型仅有是、否两种，还能够有效降低焦点重音的标注复杂性，有利于扩展标注规模。
17.本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
18.结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。在附图中：
19.图1是根据本公开的一种实施方式提供的语音合成方法的流程图；
20.图2示出了本公开的提供的一种示例性的标注界面的局部示意图；
21.图3是根据本公开提供的语音合成方法中，生成与目标文本对应的合成音频的步骤的一种示例性的流程图；
22.图4是根据本公开的一种实施方式提供的语音合成装置的框图；
23.图5示出了适于用来实现本公开实施例的电子设备的结构示意图。
具体实施方式
24.下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。
25.应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
26.本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
27.需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
28.需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域
技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。
29.本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。
30.如背景技术所述，相关技术中，存在合成后的语音不够自然、缺乏表现力的问题。以中文普通话为例，目前存在c-tobi(tobi的全称为tones and break indices)的标注方法，其中对重音的标注分为1～4四个等级，分别对应韵律词、韵律短语、语调短语和语句这四个韵律层级单位的重音，且每个韵律单位标注一个重音。该方法主要存在两方面的问题，一方面是标注内容复杂、繁琐，不适宜大规模应用，另一方面是其重音标注主要依赖于韵律层级的划分而非重音本身的强度(例如，不同韵律词中虽然都有一部分被标注了重音，但这些重音其实际的重音程度却并不一定等同)，存在干扰信息，导致对重音的统计建模存在困难。因此，目前的语音合成技术在重音可控性以及重音表现上仍存在问题。
31.为了解决上述技术问题，本公开提供一种语音合成方法、装置、可读介质及电子设备，改善重音表现不明显以及重音不可控的问题，提升合成结果的语调起伏度和自然度。
32.图1是根据本公开的一种实施方式提供的语音合成方法的流程图，如图1所示，本公开提供的方法可以包括步骤11～步骤13。
33.在步骤11中，确定待处理的目标文本的声调标注信息、韵律标注信息和焦点重音标注信息。
34.在本公开中，声调标注信息用于反映与声调相关的内容。目标文本的声调标注信息可以为目标文本中各文字的声调类型。其中，声调类型可以包括但不限于第一声(也称为阴平、平调)、第二声(也称为阳平、升调)、第三声(也称为上声、上音)、第四声(也称为去声、去音)、轻声以及需变调的第三声。
35.韵律标注信息用于反映与韵律相关的内容，它可以包括但不限于韵律边界信息。其中，韵律边界(break index，可简写为brk)，也可以称为间断指数，用于描述信息在语流中组织、分句的形式。可选地，韵律边界信息可以包括但不限于句边界、语调短语边界、韵律短语边界和韵律词边界。
36.焦点重音用于标识文本中需强调、突出的内容，通常在声学上存在突出表现，例如，音高较高、时长较长、音强较强等。举例来说，若文本包含的多个韵律词中，某一个韵律词音高的最高点比其前、后韵律词的音高最高点都高，或者，某一个韵律词的时长(特别是词首或词尾的音节时长)有所延长，则该韵律词就可以被标识为该文本的焦点重音。
37.焦点重音标注信息用于反映与焦点重音相关的内容，它可以包括目标文本的音节重读信息。音节重读信息用于指示目标文本中各音节(即，各字对应的音节)是否应被重读。其中，应被重读的单字音节可以标注为第一标识，无需被重读的单字音节可以标注为第二标识。示例地，若目标文本为{d1d2d3d4d5}这5个文字，其中d3、d4这两个文字的音节应重读，且第一标识为1、且第二标识为0，则目标文本的音节重读信息可以标注为{00110}。
38.在步骤12中，确定目标文本的音素序列。
39.在本公开中，可以通过字素到音素(grapheme-to-phoneme，g2p)模型、来获取待合成文本对应的音素序列。
40.示例地，g2p模型可以采用循环神经网络(recurrent neural network，rnn)和长短期记忆网络(long short-term memory，lstm)来实现从字素到音素的转化。
41.在步骤13中，根据目标文本的声调标注信息、韵律标注信息、焦点重音标注信息和音素序列，生成与目标文本对应的合成音频。
42.通过上述技术方案，确定待处理的目标文本的声调标注信息、韵律标注信息和焦点重音标注信息，确定目标文本的音素序列，根据目标文本的声调标注信息、韵律标注信息、焦点重音标注信息和音素序列，生成与目标文本对应的合成音频，其中，焦点重音标注信息包括目标文本的音节重读信息，音节重读信息用于指示目标文本中各音节是否应被重读。由此，在针对目标文本进行语音合成时，除了使用声调、韵律这些特征之外，还进一步结合了焦点重音特征，从而，能够在语音合成时对焦点重音的位置及其表现进行直接控制，提升了语音合成中的重音可控性，进而改善重音表现不明显以及重音不可控的问题，提升合成结果的语调起伏度和自然度。此外，由于使用的焦点重音特征中，指示的是目标文本中各音节是否应被重读，即，焦点重音的特征类型仅有是、否两种，还能够有效降低焦点重音的标注复杂性，有利于扩展标注规模。
43.为了使得本领域技术人员更加理解本公开提供的语音合成方法，下面对上述各步骤进行详细举例说明。
44.首先，对本公开所使用的焦点重音标注信息的相关内容进行解释说明。
45.如上文所述，目标文本的焦点重音标注信息可以包括用于指示目标文本中各字是否应被重读的音节重读信息。下面对目标文本的焦点重音标注信息的确定方式进行详细说明。
46.在一种可能的实施方式中，可以通过人工标注的方式确定目标文本的焦点重音标注信息。也就是说，可以接收针对目标文本的焦点重音标注操作，并根据该焦点重音标注操作生成目标文本的焦点重音标注信息。
47.也就是说，标注人员可以直接对目标文本的焦点重音进行标注操作，将期望从合成的音频中听到的焦点重音特征标注到目标文本中。其中，对于焦点重音的标注操作可以分三个步骤进行。
48.第一个步骤，可以以目标文本中的韵律词为单位进行标注，即，标注目标文本中的各个韵律词是否应被重读，这一步骤所标注的信息为目标文本的韵律词重读信息。示例地，韵律词的重读与否可以通过0、1标识。
49.第二个步骤，以第一个步骤中被标注为应被重读的韵律词(后文将简称为目标韵律词)为目标进行标注，即，标注目标韵律词中的各个分词是否应被重读，这一步骤所标注的信息为目标文本的分词重读信息。示例地，目标韵律词中分词的重读与否可以通过0、1标识。其中，可以通过现有的自动分词技术实现对目标文本的分词。
50.第三个步骤，以第二个步骤中被标注为应被重读的分词(后文将简称为目标分词)为目标进行标注，即，标注目标分词中的各个音节(即，各个单字)是否应被重读，这一步骤所标注的信息就是目标文本的音节重读信息。
51.此外，为了提升针对焦点重音的标注一致性，在第三个步骤对音节重读信息的标注中，还可以根据预设的词内重音规则进行标注。其中，预设的词内重音规则用于指示应被重读的分词中重读音节的分布规律，它可以根据相关领域中对于词重音的观点而确定。例如，相关领域中多数观点认为一个重读的词内，其音节存在两种规律，一种是该重读的词内所有音节都重读，另一种是该重读的词内只有首个音节重读，相应地，可以预先设置词内重
音规则为重读词内所有音节应被重读或者重读词内首个音节应被重读。
52.在另一种可能的实施方式中，可以通过预先训练的焦点重音标注模型实现目标文本的焦点重音标注信息的确定。相应地，目标文本的焦点重音标注信息可以通过以下方式得到：
53.将目标文本输入至焦点重音标注模型，获得焦点重音标注模型输出的焦点重音标注信息。
54.其中，焦点重音标注模型基于带有焦点重音标注信息的第二训练文本训练得到。
55.第二训练文本可以是从真实存在的语音中提取出的文本，针对这样的语音，标注人员可以通过听语音的方式在文本中的合适位置进行标记，以得到第二训练文本的焦点重音标注信息。这样的标注主要依赖于标注人员的听感，标注过程可以参考下述几个方面(以重读标1、非重读标0为例)：
56.首先，标注第二训练文本的韵律词重读信息，播放音频，判断音频对应的文本中被重点强调(例如，音高较高、时长较长或音强较强等)的韵律词，将被重点强调的韵律词标1，其余标0，并且，需要说明的是，一段音频对应的一段文本中，可以有多个韵律词被标1(表征该段文本中有多个强调之处，多处需重读)，也可以所有韵律词均标0(表征该段文本中没有需强调之处，无需重读)；
57.之后，标注第二训练文本的分词重读信息，播放前一步中被标为1的韵律词(由至少一个分词构成)对应的韵律词音频，确定该韵律词音频中被重点强调的分词，将被重点强调的分词标1，其余标0；
58.最后，标注第二训练文本的音节重读信息，播放前一步中被标为1的分词对应的分词(由至少一个字构成，每个字对应一个音节)音频，确定该分词音频中被重点强调的音节，将被重点强调的音节标1，其余标0。
59.此外，为了提升针对焦点重音的标注一致性，在标注第二训练文本的音节重读信息时，还可以根据预设的词内重音规则进行标注。其中，有关于根据预设的词内重音规则进行标注的实施例在前文中已经公开，此处不再赘述。
60.示例地，标注人员可以提通过指定的标注页面对文本进行标注。标注页面可以如图2所示，图2示出了一种示例性的标注界面局部示意图，其中目标文本为包含13个字的b1b2b3b4b5b6b7b8b9b10b11b12b13，图1中第1层为句子层，用于展示目标文本，第2层用于展示韵律词边界，需要标注的为第3～5层，第3层用于标注韵律词重读信息，第4层用于标注分词重读信息，第5层用于标注音节重读信息。其中，第3～5层的标注方式可以参考上文的标注过程，此处不再赘述。
61.通过上述方式，即可获得与第二训练文本的真实语音对应的焦点重音标注信息。从而，将第二训练文本作为神经网络模型的输入，并将第二训练文本对应的焦点重音标注信息作为模型的目标输出，对神经网络模型进行训练，训练完毕后，即可获得能够自动为文本生成焦点重音标注信息的焦点重音标注模型。这样，将一段文本输入至该焦点重音标注模型，就能够自动获得焦点重音标注模型输出的与该段文本对应的焦点重音标注信息，不再需要人为标注，有利于提升焦点重音标注信息的确定效率。
62.可选地，根据前文所述，在标注音节重读信息时，还同时标注了分词重读信息和韵律词重读信息，因此，目标文本的焦点重音标注信息除了包括音节重读信息以外，还可以包
括目标文本的分词重读信息和韵律词重读信息中的至少一者。其中，关于分词重读信息和韵律词重读信息的解释说明以及标注方式在前文已给出，此处不再提供。
63.这样，在焦点重音标注信息中，不仅提供音节重读信息，还提供韵律词重读信息和分词重读信息，既能体现重读的音节，还能体现重读音节在句子中所处的位置，包含的焦点重音信息更加丰富，有利于后续生成更加符合人听感的合成音频。
64.可选地，目标文本的分词重读信息还可以用于指示目标文本的词边界。相应地，本公开提供的方法还可以包括以下步骤：
65.根据目标文本的音节重读信息和预设的词内重音规则，确定目标文本的分词重读信息所指示的词边界中是否存在违反词内重音规则的目标词边界；
66.若存在目标词边界，对目标文本的词边界进行修改，以使修改后的分词重读信息符合词内重音规则。
67.其中，词内重音规则用于指示应被重读的分词中重读音节的分布规律。
68.也就是说，当某个分词对应的音节重读信息不符合预先规定的词内重音规则时，可以对词边界进行修正，使修正后的内容符合词内重音规则。举例来说，若词内重音规则要求一个分词内要么只有首个音节重读、要么所有音节都重读，那么若“中文系”是应被重读的分词，且其音节标注信息指示只有“中”、“文”应被重读，则可知该分词违反了词内重音规则，需要进行修正，为“中文系”重新规划词边界，修正为“中文|系”，其中“|”为新增的词边界。
69.此外，还可以根据目标文本的实际语义，对分词重读信息所指示的词边界进行修改。举例来说，自动分词可能会把“一口|气”分成“一|口气”，这就需要修正。
70.目标文本的声调标注信息的确定，可以参考焦点重音标注信息的确定方式，采用人工标注或自动预测的方式。其中，人工标注方式可以参考前文对于声调标注信息的定义实现标注，自动预测的方式可以参考焦点重音标注模型的自动预测方式，预先根据训练文本及其音频进行人工标注，再利用神经网络模型训练以得到声调标注模型，进而利用声调标注模型对声调标注信息进行自动预测。韵律标注信息的确定亦同理，此处均不再详细描述。
71.回到图1，在步骤13中，根据目标文本的声调标注信息、韵律标注信息、焦点重音标注信息和音素序列，生成与目标文本对应的合成音频。
72.在一种可能的实施方式中，步骤13可以包括以下步骤31～步骤35，如图3所示。
73.在步骤31中，根据目标文本的声调标注信息，确定音素级别的声调标签。
74.如前文所述，声调标注信息所指示的声调类型可以包括但不限于第一声、第二声、第三声、第四声、轻声以及需变调的第三声中的一者，相应地，声调标签可以包括但不限于第一声、第二声、第三声、第四声、轻声以及需变调的第三声中的一者。其中，确定声调标签的思路在于，同一音节的不同音素共享相同的声调标签，即，构成一个音节的各个音素的声调标签与该音节的声调标签一致。
75.在步骤32中，根据目标文本的韵律标注信息，确定音素级别的韵律标签。
76.如前文所述，韵律标注信息可以包括韵律边界信息，相应地，韵律标签可以包括韵律边界标签。
77.韵律标注信息一般是标注了文本的某个位置，例如，文本的某个位置是韵律短语
边界。而为了便于后续的语音合成，保证韵律标注信息能够与待合成文本的音素逐一对应上，可以基于韵律标注信息，进一步确定音素级别的韵律标签。
78.确定韵律标签的思路在于，对于存在韵律标注信息的音素位置处，按照标注信息生成标签内容，而对于不存在韵律标注信息的音素位置处，用指定替代内容进行替代。例如，对于音素序列{a1，a2，a3，a4，a5，a6}，假设韵律标注信息中包括韵律边界信息，且标注内容为a2处存在韵律短语边界，a5处存在语调短语边界，并且，规定了韵律短语边界用3表征、语调短语边界用4表征，无标记用n2表征，则确定出的韵律边界标签就是{n2，3，n2，n2，4，n2}。
79.在步骤33中，根据目标文本的焦点重音标注信息，确定音素级别的焦点重音标签。
80.如上文所述，焦点重音标注信息可以包括音节重读信息，此外，还可以包括韵律词重读信息和分词重读信息中的至少一者。相应地，焦点重音标签可以包括音节重读标签，此外，还可以包括韵律词重读标签和分词重读标签中的至少一者。
81.针对每一种焦点重音标注信息，均可以生成对应的焦点重音标签。例如，假设目标文本的韵律标注信息包括音节重读信息、韵律词重读信息和分词重读信息，则将分别生成音节重读标签、韵律词重读标签和分词重读标签，且每一种标签均与音素序列的各个音素逐一对应。举例来说，若按照前文重读标1、非重读标0的方式，则音节重读标签、韵律词重读标签和分词重读标签均可以为由0、1构成且与音素一一对应的序列。
82.在步骤34中，根据声调标签、韵律标签、焦点重音标签和音素序列，利用预先训练的语音合成模型，生成与目标文本对应的声学特征信息。
83.也就是说，可以将声调标签、韵律标签、焦点重音标签和音素序列输入到预先训练好的语音合成模型中，得到目标文本对应的声学特征信息。示例地，声学特征信息可以为梅尔频谱(mel谱)、线性谱等。
84.上述语音合成模型可以包括编码模块、注意力模块和解码模块。其中，编码模块用于根据与声调标签、韵律标签、焦点重音标签和音素序列对应的拼接向量，生成文本表征序列；注意力模块用于根据文本表征序列，生成语义表征；解码模块用于根据语义表征，输出与目标文本对应的声学特征信息。
85.语音合成模型的编码模块(encoder)的输入为目标文本的向量表示，它可以包括音素序列经过向量化(embedding)后得到的第一向量、声调标签经过向量化后的第二向量、韵律标签经过向量化后的第三向量和焦点重音标签经过向量化后的第四向量，上述四者经过拼接后形成拼接向量，作为编码模块的输入。之后，编码模块对应输出目标文本的文本表征序列(te，text embedding)。编码模块输出的文本表征序列经过注意力模块，生成上下文向量c，作为目标文本的语义表征。注意力模块生成的语音表征进入解码模块，由解码模块输出与目标文本对应的声学特征信息。
86.示例地，语音合成模型通过以下方式训练得到：
87.获取训练样本，其中，每一训练样本包括第一训练文本对应的训练音素序列、声调标注信息、韵律标注信息和焦点重音标注信息，以及第一训练文本对应的训练声学特征信息；
88.根据第一训练文本的声调标注信息、韵律标注信息和焦点重音标注信息，确定音素级别的训练声调标签、训练韵律标签和训练焦点重音标签；
89.通过将与训练音素序列、训练声调标签、训练韵律标签和训练焦点重音标签对应的拼接向量作为模型的输入，并将训练声学特征信息作为模型的目标输出的方式进行模型训练，以得到训练完成的语音合成模型。
90.示例地，上述语音合成模型可以使用tacotron模型。
91.第一训练文本对应有音频，确定该音频的声学特征信息，作为训练声学特征信息。
92.在本公开中，可以通过与步骤12中确定目标文本的因素序列相似的方式来确定第一训练文本的训练因素序列，并且，可以通过上文中确定目标文本的声调标签、韵律标签和焦点重音标签相似的方式确定第一训练文本的训练声调标签、训练韵律标签和训练焦点重音标签。此处不再对上述内容重复叙述。
93.语音合成模型的训练目的在于，使通过模型输出合成的音频能够无限地接近于第一训练样本的实际音频，即，使模型输出的声学特征信息无限接近于训练声学特征信息。因此，可以基于训练声学特征信息和训练时模型输出的声学特征信息，计算模型的损失值，并利用该损失值对当前模型的内部参数进行调整。之后，将调整后的模型用于下一次的训练中，如此循环往复，直至满足停止训练的条件，就可以得到训练完成的语音合成模型。
94.经过上述训练步骤得到的训练完成的语音合成模型，可以用于语音合成场景中。示例地，语音合成模型应用过程中，步骤34可以包括以下步骤：
95.将与目标文本的声调标签、韵律标签、焦点重音标签和音素序列对应的拼接向量输入语音合成模型中，得到语音合成模型输出的与目标文本对应的声学特征信息。
96.在步骤35中，根据与目标文本对应的声学特征信息，得到合成音频。
97.在通过步骤34中的语音合成模型得到目标文本的声学特征信息后，可以将该声学特征信息输入到声码器(例如，wavenet声码器、griffin-lim声码器)中，以进行语音合成，从而得到待合成文本对应的合成音频。
98.在上述实施方式中，将声调信息、韵律信息、焦点重音信息精确到音素级别，控制精确度更高，能够在得到精准的声调和韵律表现效果的同时，保证重音的可控性及自然度。
99.图4是根据本公开的一种实施方式提供的语音合成装置的框图。如图4所示，该装置40可以包括：
100.第一确定模块41，用于确定待处理的目标文本的声调标注信息、韵律标注信息和焦点重音标注信息，其中，所述焦点重音标注信息包括所述目标文本的音节重读信息，所述音节重读信息用于指示所述目标文本中各音节是否应被重读；
101.第二确定模块42，用于确定所述目标文本的音素序列；
102.生成模块43，用于根据所述目标文本的所述声调标注信息、所述韵律标注信息、所述焦点重音标注信息和所述音素序列，生成与所述目标文本对应的合成音频。
103.可选地，所述生成模块43，包括：
104.第一确定子模块，用于根据所述目标文本的声调标注信息，确定音素级别的声调标签；
105.第二确定子模块，用于根据所述目标文本的韵律标注信息，确定音素级别的韵律标签；
106.第三确定子模块，用于根据所述目标文本的焦点重音标注信息，确定音素级别的焦点重音标签；
107.生成子模块，用于根据所述声调标签、所述韵律标签、所述焦点重音标签和所述音素序列，利用预先训练的语音合成模型，生成与所述目标文本对应的声学特征信息；
108.音频合成子模块，用于根据与所述目标文本对应的声学特征信息，得到合成音频。
109.可选地，所述语音合成模型包括编码模块、注意力模块和解码模块；其中，所述编码模块用于根据与所述声调标签、所述韵律标签、所述焦点重音标签和所述音素序列对应的拼接向量，生成文本表征序列；所述注意力模块用于根据所述文本表征序列，生成语义表征；所述解码模块用于根据所述语义表征，输出与所述目标文本对应的声学特征信息。
110.可选地，所述语音合成模型通过以下模块训练得到：
111.获取模块，用于获取训练样本，其中，每一所述训练样本包括第一训练文本对应的训练音素序列、声调标注信息、韵律标注信息和焦点重音标注信息，以及所述第一训练文本对应的训练声学特征信息；
112.第三确定模块，用于根据所述第一训练文本的声调标注信息、韵律标注信息和焦点重音标注信息，确定音素级别的训练声调标签、训练韵律标签和训练焦点重音标签；
113.训练模块，用于通过将与所述训练音素序列、所述训练声调标签、所述训练韵律标签和所述训练焦点重音标签对应的拼接向量作为模型的输入，并将所述训练声学特征信息作为模型的目标输出的方式进行模型训练，以得到训练完成的所述语音合成模型。
114.可选地，所述目标文本的焦点重音标注信息还包括所述目标文本的分词重读信息和/或所述目标文本的韵律词重读信息，所述目标文本的分词重读信息用于指示所述目标文本中各分词是否应被重读，所述目标文本的韵律词重读信息用于指示所述目标文本中各韵律词是否应被重读。
115.可选地，所述目标文本的分词重读信息还用于指示所述目标文本的词边界；
116.所述装置40还包括：
117.第四确定模块，用于根据所述目标文本的音节重读信息和预设的词内重音规则，确定所述目标文本的分词重读信息所指示的词边界中是否存在违反所述词内重音规则的目标词边界；
118.修改模块，用于若存在所述目标词边界，对所述目标文本的词边界进行修改，以使修改后的分词重读信息符合所述词内重音规则；
119.其中，所述词内重音规则用于指示应被重读的分词中重读音节的分布规律。
120.可选地，所述目标文本的焦点重音标注信息通过以下模块得到：
121.焦点重音标注模块，用于将所述目标文本输入至焦点重音标注模型，获得所述焦点重音标注模型输出的焦点重音标注信息，所述焦点重音标注模型基于带有焦点重音标注信息的第二训练文本训练得到。
122.关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。
123.下面参考图5，其示出了适于用来实现本公开实施例的电子设备600的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。图5示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。
124.如图5所示，电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601，其可以根据存储在只读存储器(rom)602中的程序或者从存储装置608加载到随机访问存储器(ram)603中的程序而执行各种适当的动作和处理。在ram 603中，还存储有电子设备600操作所需的各种程序和数据。处理装置601、rom 602以及ram 603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。
125.通常，以下装置可以连接至i/o接口605：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606；包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置607；包括例如磁带、硬盘等的存储装置608；以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备600，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
126.特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置609从网络上被下载和安装，或者从存储装置608被安装，或者从rom 602被安装。在该计算机程序被处理装置601执行时，执行本公开实施例的方法中限定的上述功能。
127.需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、rf(射频)等等，或者上述的任意合适的组合。
128.在一些实施方式中，客户端、服务器可以利用诸如http(hypertext transfer protocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“lan”)，广域网(“wan”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。
129.上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。
130.上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：确定待处理的目标文本的声调标注信息、韵律标注信息和焦点重音标注信息，其中，所述焦点重音标注信息包括所述目标文本的音节重读信息，所述音节重读信息用于指示所述目标文本中各音节是否应被重读；确定所述目标文本的音素序列；根据所述目标文本的所述声调标注信息、所述韵律标注信息、所述焦点重音标注信息和所述音素序列，生成与所述目标文本对应的合成音频。
131.可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如java、smalltalk、c++，还包括常规的过程式程序设计语言——诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)——连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
132.附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
133.描述于本公开实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定，例如，第一确定模块还可以被描述为“确定待处理的目标文本的声调标注信息、韵律标注信息和焦点重音标注信息的模块”。
134.本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)等等。
135.在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
136.根据本公开的一个或多个实施例，示例1提供了一种语音合成方法，所述方法包括：
137.确定待处理的目标文本的声调标注信息、韵律标注信息和焦点重音标注信息，其中，所述焦点重音标注信息包括所述目标文本的音节重读信息，所述音节重读信息用于指示所述目标文本中各音节是否应被重读；
138.确定所述目标文本的音素序列；
139.根据所述目标文本的所述声调标注信息、所述韵律标注信息、所述焦点重音标注信息和所述音素序列，生成与所述目标文本对应的合成音频。
140.根据本公开的一个或多个实施例，示例2提供了示例1的方法，所述根据所述目标文本的所述声调标注信息、所述韵律标注信息、所述焦点重音标注信息和所述音素序列，生成与所述目标文本对应的合成音频，包括：
141.根据所述目标文本的声调标注信息，确定音素级别的声调标签；
142.根据所述目标文本的韵律标注信息，确定音素级别的韵律标签；
143.根据所述目标文本的焦点重音标注信息，确定音素级别的焦点重音标签；
144.根据所述声调标签、所述韵律标签、所述焦点重音标签和所述音素序列，利用预先训练的语音合成模型，生成与所述目标文本对应的声学特征信息；
145.根据与所述目标文本对应的声学特征信息，得到合成音频。
146.根据本公开的一个或多个实施例，示例3提供了示例2的方法，所述语音合成模型包括编码模块、注意力模块和解码模块；其中，所述编码模块用于根据与所述声调标签、所述韵律标签、所述焦点重音标签和所述音素序列对应的拼接向量，生成文本表征序列；所述注意力模块用于根据所述文本表征序列，生成语义表征；所述解码模块用于根据所述语义表征，输出与所述目标文本对应的声学特征信息。
147.根据本公开的一个或多个实施例，示例4提供了示例2的方法，所述语音合成模型通过以下方式训练得到：
148.获取训练样本，其中，每一所述训练样本包括第一训练文本对应的训练音素序列、声调标注信息、韵律标注信息和焦点重音标注信息，以及所述第一训练文本对应的训练声学特征信息；
149.根据所述第一训练文本的声调标注信息、韵律标注信息和焦点重音标注信息，确定音素级别的训练声调标签、训练韵律标签和训练焦点重音标签；
150.通过将与所述训练音素序列、所述训练声调标签、所述训练韵律标签和所述训练焦点重音标签对应的拼接向量作为模型的输入，并将所述训练声学特征信息作为模型的目标输出的方式进行模型训练，以得到训练完成的所述语音合成模型。
151.根据本公开的一个或多个实施例，示例5提供了示例1-示例4中任一项所述的方法，所述目标文本的焦点重音标注信息还包括所述目标文本的分词重读信息和/或所述目标文本的韵律词重读信息，所述目标文本的分词重读信息用于指示所述目标文本中各分词是否应被重读，所述目标文本的韵律词重读信息用于指示所述目标文本中各韵律词是否应被重读。
152.根据本公开的一个或多个实施例，示例6提供了示例5的方法，所述目标文本的分词重读信息还用于指示所述目标文本的词边界；
153.所述方法还包括：
154.根据所述目标文本的音节重读信息和预设的词内重音规则，确定所述目标文本的分词重读信息所指示的词边界中是否存在违反所述词内重音规则的目标词边界；
155.若存在所述目标词边界，对所述目标文本的词边界进行修改，以使修改后的分词重读信息符合所述词内重音规则；
156.其中，所述词内重音规则用于指示应被重读的分词中重读音节的分布规律。
157.根据本公开的一个或多个实施例，示例7提供了示例1-示例4中任一项所述的方法，所述目标文本的焦点重音标注信息通过以下方式得到：
158.将所述目标文本输入至焦点重音标注模型，获得所述焦点重音标注模型输出的焦点重音标注信息，所述焦点重音标注模型基于带有焦点重音标注信息的第二训练文本训练得到。
159.根据本公开的一个或多个实施例，示例8提供了一种语音合成装置，所述装置包括：
160.第一确定模块，用于确定待处理的目标文本的声调标注信息、韵律标注信息和焦点重音标注信息，其中，所述焦点重音标注信息包括所述目标文本的音节重读信息，所述音节重读信息用于指示所述目标文本中各音节是否应被重读；
161.第二确定模块，用于确定所述目标文本的音素序列；
162.生成模块，用于根据所述目标文本的所述声调标注信息、所述韵律标注信息、所述焦点重音标注信息和所述音素序列，生成与所述目标文本对应的合成音频。
163.根据本公开的一个或多个实施例，示例9提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理装置执行时实现示例1-示例7中任一项所述方法的步骤。
164.根据本公开的一个或多个实施例，示例10提供了一种电子设备，包括：
165.存储装置，其上存储有一个或多个计算机程序；
166.一个或多个处理装置，用于执行所述存储装置中的所述一个或多个计算机程序，以实现示例1-示例7中任一项所述方法的步骤。
167.以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
168.此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
169.尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。关于上述实施例中的装
置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈佳妮梅晓马泽君
技术所有人：北京有竹居网络技术有限公司
我是此专利的发明人

上一篇：一种数显千分表的制作方法
上一篇：一种煤矿机电运输用起吊装置的制作方法