本发明涉及语音数据处理,具体地,涉及一种语音合成模型训练方法、语音合成方法、语音合成模型训练装置、语音合成装置、电子设备、存储介质以及计算机程序产品。
背景技术:
1、近年来,人们对个性化合成的兴趣和需求越来越高,个性化语音合成会让机器能够根据特定人的特点,形成拟真的语音合成输出。
2、通常来说,个性化语音合成系统会采用说话人的语音数据,通过对通用语音合成系统的部分或者全部参数进行优化,从而形成具备有个人特点的语音合成系统,也就是相应的个性化语音合成系统。上述方案通常会采用通用语音合成系统的损失函数作为优化目标,以训练对应的语音合成模型。
3、基于上述训练方式得到的语音合成系统输出的语音在语义、韵律上仍存在部分问题,拟真效果不足。
技术实现思路
1、考虑到上述问题而提出了本发明。
2、根据本发明第一方面,提供了一种语音合成模型训练方法。所述语音合成模型训练方法包括:获取第一训练数据,其中,所述第一训练数据包括多个语音数据对和每个语音数据对分别对应的第一文本,每个语音数据对包括第一合成语音和第一自然语音,且对于每个语音数据对,该语音数据对中的第一合成语音和该语音数据对中的第一自然语音对应同一文本;根据每个语音数据对中的第一合成语音,从所述第一训练数据中的多个语音数据对中确定目标语音数据对;将所述目标语音数据对和所述目标语音数据对对应的第一文本作为第二训练数据;利用所述第二训练数据对第一语音合成模型进行强化学习训练,以得到第二语音合成模型。
3、示例性地,所述根据每个语音数据对中的第一合成语音,从所述第一训练数据中的多个语音数据对中确定目标语音数据对,包括:对于所述第一训练数据中的每个语音数据对,确定该语音数据对中的第一合成语音的至少一种第一评估参数;当所述第一评估参数中的任一种超出该种第一评估参数对应的第一预设范围时,确定该语音数据对属于所述目标语音数据对。
4、示例性地,所述根据每个语音数据对中的第一合成语音,从所述第一训练数据中的多个语音数据对中确定目标语音数据对,包括:对于所述第一训练数据中的每个语音数据对,确定该语音数据对中的第一合成语音的至少一种第一评估参数;根据所确定的第一评估参数确定第二评估参数;当所述第二评估参数超出第二预设范围时,确定该语音数据对属于所述目标语音数据对。
5、示例性地,所述根据所确定的第一评估参数确定第二评估参数,包括:根据每种第一评估参数和各自对应的权重,计算所述第二评估参数。
6、示例性地,所述确定该语音数据对中的第一合成语音的至少一种第一评估参数,包括:对该语音数据对中的第一合成语音进行识别,以得到该语音数据对中的第一合成语音的第一识别文本;检测所述第一识别文本和该语音数据对对应的第一文本之间的不同文本的字数;根据所述不同文本的字数,确定所述第一评估参数。
7、示例性地,所述第一评估参数包括字符错误率,所述根据所述不同文本的字数,确定所述第一评估参数,包括:获得该语音数据对对应的第一文本的总字数;根据所述不同文本的字数和所述总字数之间的比值,计算所述字符错误率。
8、示例性地,所述确定该语音数据对中的第一合成语音的至少一种第一评估参数,包括:确定该语音数据对中的第一合成语音和该语音数据对中的第一自然语音之间的差异,以作为所述第一评估参数。
9、示例性地,所述差异包括语音时长差值,所述确定该语音数据对中的第一合成语音和该语音数据对中的第一自然语音之间的差异,包括:确定该语音数据对中的第一合成语音的第一时长和该语音数据对中的第一自然语音的第二时长;计算所述第一时长和所述第二时长之间的语音时长差值。
10、示例性地,所述确定该语音数据对中的第一合成语音和该语音数据对中的第一自然语音之间的差异,包括:识别该语音数据对中的第一合成语音,以得到第一音素序列;识别该语音数据对中的第一自然语音,以得到第二音素序列;根据第一音素和第二音素的时间戳之间的差异,确定所述第一评估参数,其中,所述第一音素是所述第一音素序列中的音素,所述第二音素是所述第二音素序列中与所述第一音素对应的音素。
11、示例性地,所述第一评估参数包括平均意见得分。
12、示例性地,所述利用所述第二训练数据对第一语音合成模型进行强化学习训练,以得到第二语音合成模型,包括:针对每个目标语音数据对,将该目标语音数据对对应的第一文本输入所述第一语音合成模型,以获得被选响应的第一对数概率和被拒响应的第二对数概率,其中,所述被选响应是该目标语音数据对中的第一自然语音,所述被拒响应是该目标语音数据对中的第一合成语音;利用所述第一对数概率、所述第二对数概率和优势比偏好优化函数,确定优势比偏好优化损失;利用优势比偏好优化损失对所述第一语音合成模型进行强化学习训练,以得到所述第二语音合成模型。
13、示例性地,所述方法还包括:获取第三文本对应的第三自然语音,所述第三自然语音对应的说话人和所述第一自然语音对应的说话人相同;将所述第三文本输入第三语音合成模型,以得到第三合成语音;根据第三自然语音和所述第三合成语音,计算损失值;根据所述损失值训练所述第三语音合成模型,以得到所述第一语音合成模型。
14、根据本发明第二方面,提供了一种语音合成方法。所述语音合成方法包括:根据如上所述的语音合成模型训练方法得到第二语音合成模型;将第二文本输入所述第二语音合成模型,以输出第二合成语音。
15、根据本发明第三方面,还提供了一种语音合成模型训练装置,包括:
16、收集模块,用于获取第一训练数据,其中,所述第一训练数据包括多个语音数据对和每个语音数据对分别对应的第一文本,每个语音数据对包括第一合成语音和第一自然语音,且对于每个语音数据对,该语音数据对中的第一合成语音和该语音数据对中的第一自然语音对应同一文本;
17、筛选模块,用于根据每个语音数据对中的第一合成语音,从所述第一训练数据中的多个语音数据对中确定目标语音数据对;
18、数据生成模块,用于将所述目标语音数据对和所述目标语音数据对对应的第一文本作为第二训练数据;
19、训练模块,用于利用所述第二训练数据对第一语音合成模型进行强化学习训练,以得到第二语音合成模型。
20、根据本发明第四方面,还提供了一种语音合成置,包括:
21、语音合成模型训练装置,用于根据如上所述的语音合成模型训练方法得到第二语音合成模型;
22、语音合成模块,用于将第二文本输入所述第二语音合成模型,以输出第二合成语音。
23、根据本发明第五方面,还提供了一种电子设备,包括:处理器和存储器,其中,所述存储器中存储有计算机程序指令,所述计算机程序指令被所述处理器运行时用于执行上述的语音合成模型训练方法或语音合成方法。
24、根据本发明第六方面,还提供了一种存储介质,在所述存储介质上存储了程序指令,所述程序指令在运行时用于执行上述的语音合成模型训练方法或语音合成方法。
25、根据本发明第七方面,还提供了一种计算机程序产品,包括计算机程序指令,所述计算机程序指令在运行时用于执行上述的语音合成模型训练方法或语音合成方法。
26、上述技术方案中,获取第一训练数据,其中,所述第一训练数据包括多个语音数据对和每个语音数据对分别对应的第一文本,每个语音数据对包括第一合成语音和第一自然语音,且对于每个语音数据对,该语音数据对中的第一合成语音和该语音数据对中的第一自然语音对应同一文本,然后根据每个语音数据对中的第一合成语音,从所述第一训练数据中的多个语音数据对中确定目标语音数据对,之后将所述目标语音数据对和所述目标语音数据对对应的第一文本作为第二训练数据,最后利用所述第二训练数据对第一语音合成模型进行强化学习训练,以得到第二语音合成模型。如此可以根据训练文本对应的合成语音的质量,筛选出合适的训练数据,以更好地对语音合成模型进行强化训练,使得语音合成模型输出的合成语音的风格更符合要求。
27、上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。