一种语音合成方法及装置、存储介质及电子设备与流程

文档序号：33622949发布日期：2023-03-25 13:23阅读：50来源：国知局

1.本发明涉及语音合成技术领域，特别涉及一种语音合成方法及装置、存储介质及电子设备。

背景技术：

2.语音合成应用在多种业务或是场景中，为用户提供语音服务，例如在人机交互、小说阅读等场景应用语音合成，可以为用户提供拟人化服务，进而为用户提供更好的服务。
3.发明人研究发现，目前应用语音合成的业务或是场景中合成的语音能够输出高清晰、高音色相似度的音频，但是目前合成的音频的语气较为平淡，合成的音频在拟人化方面存在语气不够丰富的问题，易引起用户反感，降低用户的使用体验。

技术实现要素：

4.有鉴于此，本发明提供一种语音合成方法及装置、存储介质及电子设备，用于合成语气丰富的音频，为用户提供更好的服务，提高用户的使用体验。
5.为实现上述目的，本发明实施例提供如下技术方案：
6.本发明第一方面公开一种语音合成方法，包括：
7.获取待合成文本的音素信息，所述音素信息中包含所述待合成文本中每个文本单元的音素，以及包含所述待合成文本中需要调整发音的文本单元的位置信息，所述文本单元为单词或单字；
8.获取配音人员的身份信息，基于所述身份信息确定音色信息；
9.调用预先训练完成的声学模型对所述音素信息和所述音色信息进行处理，得到所述待合成文本中需要调整发音的文本单元的声学特征；
10.应用所述声学特征合成所述待合成文本的拟人化音频。
11.上述的方法，可选的，所述获取待合成文本的音素信息，包括：
12.接收待合成文本；
13.对所述待合成文本进行文本转音素处理，得到包含所述待合成文本的音素序列；
14.获取所述待合成文本的发音调整位置序列，并将所述发音调整位置序列和所述音素序列确定为所述待合成文本的音素信息。
15.上述的方法，可选的，所述获取待合成文本的音素信息，包括：
16.接收待合成文本；
17.接收所述待合成文本的发音调整数据，所述发音调整数据中包含所述待合成文本中指定调整发音的文本单元的位置信息；
18.基于所述发音调整数据，对所述待合成文本进行文本转音素处理，得到所述待合成文本的音素信息。
19.上述的方法，可选的，训练声学模型的过程，包括：
20.获取多个样本文本的样本音素信息，所述样本音素信息中包含所述样本文本中每
个文本单元的音素，以及所述样本文本中调整过发音的文本单元的标记信息；每个所述样本文本存在对应的配音梅尔频谱；
21.确定每个所述样本文本的配音梅尔频谱所属的配音人员；
22.获取每个所述配音人员的音色信息；
23.将各个所述样本音素信息和每个所述配音人员的音色信息输入初始声学模型；
24.触发所述初始声学模型对每个所述样本文本的样本音素信息和该样本文本对应的音色信息进行处理，得到每个所述样本文本的预测梅尔频谱；
25.基于每个所述样本文本的预测梅尔频谱和配音梅尔频谱，判断所述初始声学模型是否满足预设的收敛条件；
26.当确定所述初始声学模型未满足所述收敛条件时，更新所述初始声学模型的模型参数，并将更新后的初始声学模型作为新的初始声学模型，返回执行将各个所述样本音素信息和每个所述配音人员的音色信息输入初始声学模型的步骤；
27.当确定所述初始声学模型满足所述收敛条件时，将该初始声学模型确定为训练完成的声学模型。
28.上述的方法，可选的，所述基于每个所述样本文本的预测梅尔频谱和配音梅尔频谱，判断所述初始声学模型是否满足预设的收敛条件，包括：
29.确定每个所述样本文本的预测梅尔频谱和配音梅尔频谱的误差值；
30.基于各个所述误差值确定误差均值；
31.判断所述误差均值是否小于或等于预设损失值；
32.当所述误差均值小于或等于所述预设损失值时，确定所述初始声学模型满足所述收敛条件；
33.当所述误差均值大于所述预设损失值时，确定所述初始声学模型不满足所述收敛条件。
34.上述的方法，可选的，所述更新所述初始声学模型的模型参数，包括：
35.基于所述误差均值更新所述初始声学模型中的模型参数。
36.本发明第二方面公开一种语音合成装置，包括：
37.第一获取单元，用于获取待合成文本的音素信息，所述音素信息中包含所述待合成文本中每个文本单元的音素，以及包含所述待合成文本中需要调整发音的文本单元的位置信息，所述文本单元为单词或单字；
38.第一确定单元，用于获取配音人员的身份信息，基于所述身份信息确定音色信息；
39.处理单元，用于调用预先训练完成的声学模型对所述音素信息和所述音色信息进行处理，得到所述待合成文本中需要调整发音的文本单元的声学特征；
40.合成单元，用于应用所述声学特征合成所述待合成文本的拟人化音频。
41.上述的装置，可选的，所述第一获取单元，包括：
42.第一接收模块，用于接收待合成文本；
43.第一处理模块，用于对所述待合成文本进行文本转音素处理，得到包含所述待合成文本的音素序列；
44.获取模块，用于获取所述待合成文本的发音调整位置序列，并将所述发音调整位置序列和所述音素序列确定为所述待合成文本的音素信息。
45.上述的装置，可选的，所述第一获取单元，包括：
46.第二接收模块，用于接收待合成文本；
47.第三接收模块，用于接收所述待合成文本的发音调整数据，所述发音调整数据中包含所述待合成文本中指定调整发音的文本单元的位置信息；
48.第二处理模块，用于基于所述发音调整数据，对所述待合成文本进行文本转音素处理，得到所述待合成文本的音素信息。
49.上述的装置，可选的，还包括：
50.第二获取单元，用于获取多个样本文本的样本音素信息，所述样本音素信息中包含所述样本文本中每个文本单元的音素，以及所述样本文本中调整过发音的文本单元的标记信息；每个所述样本文本存在对应的配音梅尔频谱；
51.第二确定单元，用于确定每个所述样本文本的配音梅尔频谱所属的配音人员；
52.第三获取单元，用于获取每个所述配音人员的音色信息；
53.输入单元，用于将各个所述样本音素信息和每个所述配音人员的音色信息输入初始声学模型；
54.触发单元，用于触发所述初始声学模型对每个所述样本文本的样本音素信息和该样本文本对应的音色信息进行处理，得到每个所述样本文本的预测梅尔频谱；
55.判断单元，用于基于每个所述样本文本的预测梅尔频谱和配音梅尔频谱，判断所述初始声学模型是否满足预设的收敛条件；
56.更新单元，用于当确定所述初始声学模型未满足所述收敛条件时，更新所述初始声学模型的模型参数，并将更新后的初始声学模型作为新的初始声学模型，触发所述输入单元执行所述将各个所述样本音素信息和每个所述配音人员的音色信息输入初始声学模型的步骤；
57.第三确定单元，用于当确定所述初始声学模型满足所述收敛条件时，将该初始声学模型确定为训练完成的声学模型。
58.上述的装置，可选的，所述判断单元，包括：
59.第一确定模块，用于确定每个所述样本文本的预测梅尔频谱和配音梅尔频谱的误差值；
60.第二确定模块，用于基于各个所述误差值确定误差均值；
61.判断模块，用于判断所述误差均值是否小于或等于预设损失值；
62.第三确定模块，用于当所述误差均值小于或等于所述预设损失值时，确定所述初始声学模型满足所述收敛条件；
63.第四确定模块，用于当所述误差均值大于所述预设损失值时，确定所述初始声学模型不满足所述收敛条件。
64.上述的装置，可选的，所述更新单元，包括：
65.更新模块，用于基于所述误差均值更新所述初始声学模型中的模型参数。
66.本发明第三方面公开一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如上所述的语音合成方法。
67.本发明第四方面公开一种电子设备，包括存储器，以及一个或者一个以上的指令，其中一个或者一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行
如上所述的语音合成方法。
68.与现有技术相比，本发明具有以下优点：
69.本发明提供一种语音合成方法及装置、存储介质及电子设备，该方法包括：获取待合成文本的音素信息，该音素信息中包含待合成文本中每个文本单元的音素，以及包含该待合成文本中需要调整发音的文本单元的位置信息，文本单元为单词或单字；获取配音人员的身份信息，基于身份信息确定音色信息；调用预先训练完成的声学模型对音素信息和音色信息进行处理，得到待合成文本中需要调整发音的文本单元的声学特征；应用声学特征合成待合成文本的拟人化音频。应用本发明可以对待合成文本中的文本单元的发音进行调整，以使得音频中包含丰富的语气，合成的音频更加的拟人化，为用户提供更加优质的服务，提高用户的使用体验。
附图说明
70.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
71.图1为本发明实施例提供的一种语音合成方法的方法流程图；
72.图2为本发明实施例提供的获取待合成文本的音素信息的方法流程图；
73.图3为本发明实施例提供的获取待合成文本的音素信息的另一方法流程图；
74.图4本发明实施例提供的训练声学模型的方法流程图；
75.图5为本发明实施例提供的重读嵌入(stress embedding)系统流程图；
76.图6为本发明实施例提供的stress phoneme方法流程图；
77.图7为本发明实施例提供的声学模型的结构示意图；
78.图8为本发明实施例提供的变量调节器的结构示意图；
79.图9为本发明实施例提供的预测器的结构示意图；
80.图10本发明实施例提供的语音合成装置的结构示意图；
81.图11为本发明实施例提供的电子设备的结构示意图。
具体实施方式
82.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
83.在本技术中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
84.术语解释：
85.tts：text to speech文字转语音。
86.gan：generative adversarial networks生成式对抗网络。
87.如今语音合成在人机交互、小说阅读等不同业务和场景下被广泛应用，目前线上系统所应用的是基于transformer网络模型结构的声学模型，以及基于gan的神经网络声码器，进行端到端语音合成，提供高质量、稳定的tts服务。现有系统模型虽然能输出高清晰、高音色相似度的音频，但部分合成音频在拟人化方面存在语气不够丰富、欠缺抑扬顿挫感的问题。由于现有基础模型使用大量不同说话人的音色数据进行模型训练，以及同一录音人较难保持音频录制一致性，导致输出结果偏向平均，使合成音频语气较为平淡，无法为客户提供语气丰富的语音，容易引起客户的反感，降低客户的使用体验。
88.本发明可用于众多通用或专用的计算装置环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。本发明实施例提供的方法的执行主体可以为智能终端或是计算机终端，参照图1，为本发明实施例提供的语音合成方法的方法流程图，具体说明如下所述：
89.s101：获取待合成文本的音素信息，所述音素信息中包含待合成文本中每个文本单元的音素，以及包含待合成文本中需要调整发音的文本单元的位置信息，文本单元为单词或单字。
90.待合成文本可以来源于视频中的文本信息，待合成文本可以是用户提供的文本数据。
91.优选的，本发明中的调整发音可以是重读、轻读、调整音调等，以便合成的语音中的语气更加丰富，优选的，调整发音可以是声音的响度、强度、以及频率等内容。优先的，需要调整发音的文本单元至少一个。
92.参照图2，为本发明实施例提供的获取待合成文本的音素信息的方法流程图，具体说明如下所述：
93.s201：接收待合成文本。
94.待合成文本可以使用用户提供的文本，还可以是从图片中识别出的文本，待合成文本可以为全中文文本、也可以为中文和外文的文本，还可以为全外文文本。
95.s202：对待合成文本进行文本转音素处理，得到包含待合成文本的音素序列。
96.可以使用前端模型对待合成文本进行文本转音素处理，从而可以得到待合成文本中每个文本单元的音素的音素序列。
97.s203：获取待合成文本的发音调整位置序列，并将发音调整位置序列和音素序列确定为待合成文本的音素信息。
98.发音调整位置序列与s202中的音素序列等长，发音调整位置序列中包含发音需要调整的文本单元的信息，示例性的，发音调整序列由0和1组成，待合成文本中的每个文本单元在发音调整序列中均存在对应的数值，进一步的，0表示文本单元的发音不需要调整，1表示文本单元的发音需要调整。
99.发音调整位置序列可以是用户提供的，发音调整位置序列中包含用户指定的待合成文本中需要调整发音的单元文本的信息。
100.除了图2中所示的获取待合成文本的音素信息的方法之外，可选的，本发明还提供了另外一种方式，具体如图3所示，具体说明如下所述：
101.s301：接收待合成文本。
102.此步骤的相关说明可以参照图2中的s201中说明，此处不再进行赘述。
103.s302：接收待合成文本的发音调整数据，该发音调整数据中包含待合成文本中指定调整发音的文本单元的位置信息。
104.发音调整数据为用户输入的对待合成文本中指定调整发音的文本单元的数据，具体如指定调整发音的文本单元在待合成文本中的位置信息。
105.s303：基于发音调整数据，对待合成文本进行文本转音素处理，得到待合成文本的音素信息。
106.需要说明的是，可以使用前端模型对待合成文本进行处理，得到待合成文本的音素序列，并根据发音调整数据对音素序列进行处理，得到音素信息，需要说明的是，得到的音素信息为包含需要调整发音的文本单元的标识的音素序列；示例性的，最后得到的音素序列中需要调整发音的文本单元的音素的字体是加粗的。
107.s102：获取配音人员的身份信息，基于身份信息确定音色信息。
108.优选的，在进行语音合成的过程中，为用户提供多个可选择的配音人员，不同的配音人员有不同的音色，用户可以根据个人喜好进行选择，从而提高用户的使用体验。
109.优选的，每个配音人员均存在唯一的身份信息，例如身份编号、姓名等，不同的配音人员存在不同的音色信息。
110.需要说明的是，获取的配音人员的身份信息为用户选中的配音人员的身份信息，并根据身份信息在数据库中获取该配音人员的音色信息。
111.s103：调用预先训练完成的声学模型对音素信息和音色信息进行处理，得到待合成文本中需要调整发音的文本单元的声学特征。
112.需要说明的是，声学特征中包括但不限于音素时长、音高以及振幅能量。
113.优选的，此处还可以得到待合成文本中不需要调整发音的文本单元的声学特征。
114.s104：应用声学特征合成待合成文本的拟人化音频。
115.可以使用声码器基于声学特征合成文本的拟人化音频，优选的，拟人化化音频中可以包含梅尔频谱，需要说明的是，拟人化音频中的语气更加丰富、提高抑扬顿挫感。
116.进一步的，在得到拟人化音频后，可以将拟人化音频播放，本发明的拟人化音频的语气丰富，输出更像真人的语音，提高用户在应用了语音合成场景中的沉浸感，为用户提供更加优质的服务，提高用户的使用体验。
117.本发明实施例提供的方法中，获取待合成文本的音素信息，该音素信息中包含待合成文本中每个文本单元的音素，以及包含该待合成文本中需要调整发音的文本单元的位置信息，文本单元为单词或单字；获取配音人员的身份信息，基于身份信息确定音色信息；调用预先训练完成的声学模型对音素信息和音色信息进行处理，得到待合成文本中需要调整发音的文本单元的声学特征；应用声学特征合成待合成文本的拟人化音频。应用本发明可以对待合成文本中的文本单元的发音进行调整，以使得音频中包含丰富的语气，合成的音频更加的拟人化，为用户提供更加优质的服务，提高用户的使用体验。
118.本发明提供的另一实施例中，参照图4，为训练声学模型的方法流程图，具体说明如下所述：
119.s401：获取多个样本文本的样本音素信息，该样本音素信息中包含样本文本中每
个文本单元的音素，以及样本文本中调整过发音的文本单元的标记信息；每个样本文本存在对应的配音梅尔频谱。
120.需要说明的是，获取到的各个样本文本为预先进行标记的文本，样本文本中包含发音以及进行调整的文本单位的标记。
121.可以通过对获取到的各个样本文本进行处理，得到各个样本文本的样本音素信息。
122.进一步的，配音梅尔频谱为配音人员为样本文本配音的音频数据。
123.s402：确定每个样本文本的配音梅尔频谱所属的配音人员。
124.需要说明的是，每个样本文本都有配音人员进行配音，此处包含多个配音人员。例如样本文本1、2、3均是由配音人员a配音的，样本文本4、5、6都是由配音人员b配音的。
125.s403：获取每个配音人员的音色信息。
126.s404：将各个样本音素信息和每个配音人员的音色信息输入初始声学模型。
127.s405：触发初始声学模型对每个样本文本的样本音素信息和该样本文本对应的音色信息进行处理，得到每个样本文本的预测梅尔频谱。
128.需要说明的是，预测梅尔频谱为初始声学模型为样本文本合成的音频的数据。
129.优选的，初始声学模型对每个样本文本的样本音素信息和音色信息进行处理时，先输出每个样本文本的预测声学特征，并根据每个样本文本的预测声学特征合成每个样本文本的预测梅尔频谱；优选的，每个样本文本的预测声学特征中包含样本文本中每个文本单元的预测时长、预测音高以及预测振幅能量等。
130.s406：基于每个样本文本的预测梅尔频谱和配音梅尔频谱，判断初始声学模型是否满足预设的收敛条件；当确定初始声学模型未满足收敛条件时，执行s407；当确定初始声学模型满足收敛条件时，执行s408。
131.需要说明的是，本发明提供判断初始声学模型是否满足预设的收敛条件的具体实现方式，具体过程如下所述：
132.确定每个样本文本的预测梅尔频谱和配音梅尔频谱的误差值；
133.基于各个误差值确定误差均值；
134.判断误差均值是否小于或等于预设损失值；
135.当误差均值小于或等于预设损失值时，确定初始声学模型满足收敛条件；
136.当误差均值大于预设损失值时，确定初始声学模型不满足收敛条件。
137.进一步的，在确定误差均值时，可以将各个误差值进行求均值处理，从而可以得到误差均值；预设损失值为根据实际需求进行设置的数值。
138.s407：更新初始声学模型的模型参数，并将更新后的初始声学模型作为新的初始声学模型，返回执行步骤s404。
139.本发明实施例提供的方法中，可以根据误差均值更新初始声学模型中的模型参数；模型参数包括但不限于音素时长预测器的参数、音高预测器的参数以及振幅能量预测期的参数等。
140.需要说明的是，此处返回执行步骤s404中的初始声学模型为更新后的初始声学模型，由此可以不断的对模型进行训练，以使模型收敛。
141.s408：将该初始声学模型确定为训练完成的声学模型。
142.本发明实施例提供的方法中，通过对声学模型进行训练，从而得到输出的合成音频更加拟人化、具有丰富的语气，并且该声学模型还提供多个配音人员进行选择，用户可以根据自身的喜好选择配音人员，输出的合成语音不仅语气丰富，音色也能上用户满意，使得用户具有良好的使用体验。
143.为具体说明本发明在实际中的应用，本发明以调整文本的重读为例进行说明。
144.优选的，参照图5，为本发明实施例提供的重读嵌入(stress embedding)系统流程图，输入的文本为待合成文本，重读位置序列中包含为指定文本中需要重读的文本单元的信息，前端模型对输入的文本进行处理后，输出音素序列，将音素序列和重读位置序列输入重读声学模型中进行处理，输出处理后的数据，最后用声码器重读声学模型输出的数据进行处理，得到合成音频，
145.参照图6，为本发明实施例提供的stress phoneme方法流程图，该流程图所展示的语音合成方法中，通过增加新的音素(phoneme)，即使用stress phoneme为重读这一发音现象进行单独建模，不添加和使用stress embedding。当完成重读数据标注后，在声学模型囊括的音素集中，为每个phoneme都添加一个对应的stress phoneme，以表示该音素是重读或非重读的发音。在模型训练中使用重读标注数据，为新的stress phoneme进行声音建模。当用户指定重读文本时，如图6的流程图所示，将重读文本的音素转为stress phoneme，非重读部分音素保持不变。例：“今天天气不错”，不添加重读时音素序列为：“j in1 t ian1t ian1 q i4 b u2 c uo4”。若要指定“天气”重读，则音素序列变为“j in1 t ian1t_s ian1_s q i4 b u2 c uo4”(加粗部分为对应的stress phoneme)。
146.参照图7，为本发明实施例提供的声学模型的结构示意图，图中使用多头注意力解码器(multi-head attention decoder)、变量调整器(variance adaptor)、多头注意力编码器(mutli-head attention encoder:)等构成，通过对输入的音素序列、重读位置序列(stress sequence)以及说话人的音色信息进行处理，输出梅尔频谱(mel-spectrogram)；进一步的，图中的说话人相当于上文中的配音人员，说话人编号相当于上文中的配音人员的身份信息。
147.进一步的，图7中的变量调节器的结构示意图如图8所示，如图8所示，变量调节器由长度调节器(length regulator)、振幅能量预测器(energy predictor)、音高预测器(pitch predictor)以及音素时长预测器(duration predictor)构成，其中，振幅能量预测器输出振幅能量(energy)，音高预测器(pitch predictor)输出音高(pitch)，音素时长预测器(duration predictor)输出音素时长(duration)。
148.图8中的振幅能量预测器(energy predictor)、音高预测器(pitch predictor)以及音素时长预测器(duration predictor)的结构示意图如图9所示，使用线性层(linear layer)、层归一化(layer norm)、节点随机失效(dropout)、1维卷积(conv1d)、线性修正激活函数(relu)。
149.进一步的，关于声学模型的训练和使用声学模型合成语音的过程如下所示：
150.步骤a：重读数据标注，专业标注人员在现有已标注数据集上，结合说话人录制的音频，将说话人音频中的重读强调部分，在对应的拼音文本上进行特殊标记，以区分重读发音和正常发音。若该字重读，在转为发音音素(phoneme)时，汉字拼音的声母和韵母音素，以及组成英文单词的英文音素均会被标记重读。重读标注后的数据将用于下一步模型训练。
151.步骤b：重读声学模型，在端到端tts系统中基于transformer结构的声学模型上添加并使用重读embedding(stress embedding)实现重读功能。如模型结构图所示，模型训练与合成流程为：
152.①
在模型训练过程中，当声学模型获取文本的音素序列(phoneme input)时，由于训练数据重读部分被特殊标记出来，将得到由数字“0”和“1”组成的重读位置序列(stress sequence)。重读位置序列与音素序列等长，其中“0”表示未重读，“1”表示重读部分。将重读位置序列作为输入，得到代表每个音素是否重读的数据分量stress embedding，和代表说话人音色信息的speaker embedding一起，加入到以音素序列为输入的encoder的输出结果中，影响variance adaptor中对于每个重读或非重读音素时长(duration)、音高(pitch)、振幅能量(energy)的预测学习，然后经过decoder模块，输出mel谱(mel-spectrogram)，并与真实mel谱比较得到误差loss并反馈，不断更新模型的参数，包括stress embedding的值，最终loss收敛，模型达到最好的效果。
153.②
在模型合成过程中，模型的输入同样为音素序列，stress sequence默认为与音素序列等长的全0序列，若有指定重读，stress sequence对应数值将变为“1”，从而获取并在中间结果加入代表重读的stress embedding。模型通过训练学习的结果，预测重读部分特殊的duration、pitch和energy，在合成音频中体现出强调重读的效果。
154.步骤c：用户在使用端到端的tts系统时，可使用重读功能指定重读文本，如流程图所示，当输入文本经前端模型转为音素序列后，将与重读指定位置共同输入给声学模型进行声学特征预测，最后将声学特征通过声码器合成为具备强调、重读拟人效果的音频。
155.本发明实施例提供的方法中，可以在端到端语音合成系统的声学模型上添加并使用stress embedding进行重读控制，也可以增加新的stress phoneme来进行重读声音建模，两种方式均可以实现重读，进而解决合成音频拟人化程度欠缺的问题，本发明对录音人在文本中的某些字、词处强调、重读的发音现象进行建模，实现文本重读功能，提升顿挫感，使合成音频语气更为丰富。
156.与图1相对应的，本发明实施例提供一种语音合成装置，该装置用于支持图1所示的方法在实际中的应用，该装置可以配置在计算机终端或是智能终端中，该装置的结构示意图如图10所示，具体说明如下所述：
157.第一获取单元501，用于获取待合成文本的音素信息，所述音素信息中包含所述待合成文本中每个文本单元的音素，以及包含所述待合成文本中需要调整发音的文本单元的位置信息，所述文本单元为单词或单字；
158.第一确定单元502，用于获取配音人员的身份信息，基于所述身份信息确定音色信息；
159.处理单元503，用于调用预先训练完成的声学模型对所述音素信息和所述音色信息进行处理，得到所述待合成文本中需要调整发音的文本单元的声学特征；
160.合成单元504，用于应用所述声学特征合成所述待合成文本的拟人化音频。
161.本发明实施例提供的装置中，获取待合成文本的音素信息，该音素信息中包含待合成文本中每个文本单元的音素，以及包含该待合成文本中需要调整发音的文本单元的位置信息，文本单元为单词或单字；获取配音人员的身份信息，基于身份信息确定音色信息；调用预先训练完成的声学模型对音素信息和音色信息进行处理，得到待合成文本中需要调
整发音的文本单元的声学特征；应用声学特征合成待合成文本的拟人化音频。应用本发明可以对待合成文本中的文本单元的发音进行调整，以使得音频中包含丰富的语气，合成的音频更加的拟人化，为用户提供更加优质的服务，提高用户的使用体验。
162.本发明实施例提供的装置中，该装置的第一获取单元501，可以配置为：
163.第一接收模块，用于接收待合成文本；
164.第一处理模块，用于对所述待合成文本进行文本转音素处理，得到包含所述待合成文本的音素序列；
165.获取模块，用于获取所述待合成文本的发音调整位置序列，并将所述发音调整位置序列和所述音素序列确定为所述待合成文本的音素信息。
166.本发明实施例提供的装置中，该装置的第一获取单元501，可以配置为：
167.第二接收模块，用于接收待合成文本；
168.第三接收模块，用于接收所述待合成文本的发音调整数据，所述发音调整数据中包含所述待合成文本中指定调整发音的文本单元的位置信息；
169.第二处理模块，用于基于所述发音调整数据，对所述待合成文本进行文本转音素处理，得到所述待合成文本的音素信息。
170.本发明实施例提供的装置中，该装置还可以配置为：
171.第二获取单元，用于获取多个样本文本的样本音素信息，所述样本音素信息中包含所述样本文本中每个文本单元的音素，以及所述样本文本中调整过发音的文本单元的标记信息；每个所述样本文本存在对应的配音梅尔频谱；
172.第二确定单元，用于确定每个所述样本文本的配音梅尔频谱所属的配音人员；
173.第三获取单元，用于获取每个所述配音人员的音色信息；
174.输入单元，用于将各个所述样本音素信息和每个所述配音人员的音色信息输入初始声学模型；
175.触发单元，用于触发所述初始声学模型对每个所述样本文本的样本音素信息和该样本文本对应的音色信息进行处理，得到每个所述样本文本的预测梅尔频谱；
176.判断单元，用于基于每个所述样本文本的预测梅尔频谱和配音梅尔频谱，判断所述初始声学模型是否满足预设的收敛条件；
177.更新单元，用于当确定所述初始声学模型未满足所述收敛条件时，更新所述初始声学模型的模型参数，并将更新后的初始声学模型作为新的初始声学模型，触发所述输入单元执行所述将各个所述样本音素信息和每个所述配音人员的音色信息输入初始声学模型的步骤；
178.第三确定单元，用于当确定所述初始声学模型满足所述收敛条件时，将该初始声学模型确定为训练完成的声学模型。
179.本发明实施例提供的装置中，该装置的判断单元，可以配置为：
180.第一确定模块，用于确定每个所述样本文本的预测梅尔频谱和配音梅尔频谱的误差值；
181.第二确定模块，用于基于各个所述误差值确定误差均值；
182.判断模块，用于判断所述误差均值是否小于或等于预设损失值；
183.第三确定模块，用于当所述误差均值小于或等于所述预设损失值时，确定所述初
始声学模型满足所述收敛条件；
184.第四确定模块，用于当所述误差均值大于所述预设损失值时，确定所述初始声学模型不满足所述收敛条件。
185.本发明实施例提供的装置中，该装置的更新单元，可以配置为：
186.更新模块，用于基于所述误差均值更新所述初始声学模型中的模型参数。
187.本发明实施例还提供了一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行上述语音合成方法。
188.本发明实施例还提供了一种电子设备，其结构示意图如图11所示，具体包括存储器601，以及一个或者一个以上的指令602，其中一个或者一个以上指令602存储于存储器601中，且经配置以由一个或者一个以上处理器603执行所述一个或者一个以上指令602执行上述语音合成方法。
189.上述各个实施例的具体实施过程及其衍生方式，均在本发明的保护范围之内。
190.本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
191.专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。
192.对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：岳杨皓宋伟张政臣吴友政
技术所有人：京东科技信息技术有限公司
我是此专利的发明人

上一篇：一种电池生产系统的制作方法
上一篇：一种用于智能化车灯控制的PCBA板的制作方法