本公开涉及语音生成,具体地,涉及一种语音生成方法、装置、介质及电子设备。
背景技术:
1、tts(text to speech,文本到语音)系统能够实现根据一段文本自动生成相应的语音,其中的情感合成任务,能够帮助生成更具有情感表达的语音。但在现有的tts系统中很少见到完备的情感理论体系,大部分tts系统的情感建模只针对常见的几种情感,如悲伤,愤怒,开心等。研究表明,人类可以体验大约三万种以上的不同情绪,仅仅建模几种情感来进行tts系统的情感合成任务,所生成的语音在情感表现上相对单一。
技术实现思路
1、提供该部分内容以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该部分内容并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
2、第一方面,本公开提供一种语音生成方法,包括:
3、获取目标文本和第一目标情感标识;
4、根据所述第一目标情感标识确定对应的至少一个基础情感,所述第一目标情感标识表征的目标情感由所述至少一个基础情感组成;
5、根据预设的情感空间确定所述至少一个基础情感分别对应的全局表征,所述情感空间中包括每一基础情感对应的全局表征;
6、根据所述至少一个基础情感分别对应的全局表征,得到第一情感表征;
7、根据所述目标文本和所述第一情感表征生成对应的语音。
8、第二方面,本公开提供一种语音生成装置,包括:
9、信息获取模块,用于获取目标文本和第一目标情感标识;
10、基础情感确定模块,用于根据所述第一目标情感标识确定对应的至少一个基础情感,所述第一目标情感标识表征的目标情感由所述至少一个基础情感组成;
11、全局表征确定模块,用于根据预设的情感空间确定所述至少一个基础情感分别对应的全局表征,所述情感空间中包括每一基础情感对应的全局表征;
12、第一情感表征确定模块,用于根据所述至少一个基础情感分别对应的全局表征,得到第一情感表征;
13、语音生成模块,用于根据所述目标文本和所述第一情感表征生成对应的语音。
14、第三方面,本公开提供一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现本公开第一方面提供的语音生成方法的步骤。
15、第四方面,本公开提供一种电子设备,包括:
16、存储装置,其上存储有至少一个计算机程序;
17、至少一个处理装置,用于执行所述存储装置中的所述至少一个计算机程序,以实现本公开第一方面提供的语音生成方法的步骤。
18、在上述技术方案中,预先构建情感空间,情感空间中包括定义的多种基础情感,以及每一基础情感对应的全局表征,在情感合成任务中,根据输入的第一目标情感标识,将第一目标情感标识分解成对应的至少一个基础情感,根据该至少一个基础情感分别对应的全局表征来得到最终的第一情感表征,这样,通过不同基础情感间的各种组合,可以得到不同情感的情感表征,进而生成包含各种情感的语音,在情感表达上更加丰富。而且该技术方案能够生成在训练阶段未见过的情感,比如在训练阶段,一些复合情感类别的情感数据未参与训练,但只需在情感空间内建模各种基础情感的全局表征后,就能通过基础情感间的组合,组合出一些训练阶段未见过的复合情感,因此训练阶段只需要一些基础情感的情感数据和少部分复合情感的情感数据即可,降低了情感数据获取的难度。
19、本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
1.一种语音生成方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标文本和所述第一情感表征生成对应的语音,包括:
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述方法还包括:
5.根据权利要求4所述的方法,其特征在于,所述至少一个基础情感包括至少一个非中性基础情感和一个中性基础情感;所述中性基础情感用于控制所述目标情感的情感强度,且所述中性基础情感的权重值大小与所述目标情感的情感强度呈负相关。
6.根据权利要求4所述的方法,其特征在于,所述情感空间是通过以下步骤构建:
7.根据权利要求6所述的方法,其特征在于,所述根据所述至少一个基础情感对应的全局表征和权重值,得到第二情感表征,包括:
8.根据权利要求6所述的方法,其特征在于,所述根据所述预测梅尔谱计算损失,并根据所述损失训练所述情感编码器,包括:
9.一种语音生成装置,其特征在于,包括:
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理装置执行时实现权利要求1-8中任一项所述方法的步骤。
11.一种电子设备,其特征在于,包括: