本发明涉及语音合成,尤其涉及一种语音合成方法、装置、计算机设备及存储介质。
背景技术:
1、语音合成(text to speech,简称tts),是一种将文本转换为语音的技术,可以将计算机自发产生的或人为输入的文本、数字等非语音信息进行实时转换,转变为自然语音的语音输出。语音合成赋予机器像人一样自如说话的能力,是人机语音交互的重要基础,被广泛应用于各种场景。例如:智能语音助手(如siri,讯飞语点)、电话客服信息查询、车载导航、有声电子书朗读、车站实时信息广播助手以及视力或语音障碍者交流助手等场景。
2、随着工作和生活中的人机语音交互场景越来越丰富,用户除了要求语音合成的音频可被理解、流利以及自然外,还提出了对韵律/情感方面的要求。在不同的金融服务业务场景中,用户需求和业务背景也是不同的,例如保险服务中的推销业务和理赔业务的业务背景不同,情感要求也不同。现有技术中,带有韵律的情感语音合成方法包括基于波形拼接的情感语音合成、统计参数情感语音合成和神经网络的情感语音合成,其中,深度神经网络具有出色的建模能力,基于深度学习的语音合成方法得到了广泛应用。但在通过神经网络进行语音合成的过程中,对说话人信息和韵律信息进行分离时,往往会导致韵律信息的损失。当缺少足够的韵律信息时,语音客服在不同的业务场景下都表现机械单一的情感,语音合成的效果差,不能体现智能化和人性化服务,影响用户体验。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种语音合成方法、装置、计算机设备及存储介质,以解决语音合成时存在韵律信息损失严重,语音合成效果差的问题。
2、一种语音合成方法,包括:
3、获取参考语音数据和待合成文本;
4、通过预设韵律编码器对所述参考语音数据进行编码处理,获得韵律嵌入向量;
5、通过预设语音识别模型对所述参考语音数据进行特征提取处理,获得补偿特征向量;
6、通过预设韵律补偿编码器对所述补偿特征向量进行编码处理,获得韵律补偿向量;
7、对所述韵律嵌入向量和所述韵律补偿向量进行融合,获得韵律特征向量;
8、通过预设语音合成模型对所述待合成文本和所述韵律特征向量进行合成处理,生成目标合成语音。
9、一种语音合成装置,包括:
10、数据获取模块,用于获取参考语音数据和待合成文本;
11、韵律嵌入向量编码模块,用于通过预设韵律编码器对所述参考语音数据进行编码处理,获得韵律嵌入向量;
12、补偿特征向量提取模块,用于通过预设语音识别模型对所述参考语音数据进行特征提取处理,获得补偿特征向量;
13、韵律补偿向量编码模块,用于通过预设韵律补偿编码器对所述补偿特征向量进行编码处理,获得韵律补偿向量;
14、向量融合模块,用于对所述韵律嵌入向量和所述韵律补偿向量进行融合,获得韵律特征向量;
15、语音合成模块,用于通过预设语音合成模型对所述待合成文本和所述韵律特征向量进行合成处理,生成目标合成语音。
16、一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述语音合成方法。
17、一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如上述语音合成方法。
18、上述语音合成方法、装置、计算机设备及存储介质,其方法通过获取参考语音数据和待合成文本;通过预设韵律编码器对参考语音数据进行编码处理,获得韵律嵌入向量;通过预设语音识别模型对参考语音数据进行特征提取处理,获得补偿特征向量;通过预设韵律补偿编码器对补偿特征向量进行编码处理,获得韵律补偿向量;对韵律嵌入向量和韵律补偿向量进行融合,获得韵律特征向量;通过预设语音合成模型对待合成文本和韵律特征向量进行合成处理,生成目标合成语音。本发明在将参考语音的韵律特征与说话人解耦的同时,通过韵律嵌入和韵律补偿辅助语音合成,减小了韵律信息的损失,获得带有韵律的合成语音,提高了语音合成效果,在金融服务业务场景中体现智能化和人性化服务,提升用户体验。
1.一种语音合成方法,其特征在于,包括:
2.如权利要求1所述的语音合成方法,其特征在于,所述通过预设韵律编码器对所述参考语音数据进行编码处理,获得韵律嵌入向量,包括:
3.如权利要求1所述的语音合成方法,其特征在于,所述通过预设语音识别模型对所述参考语音数据进行特征提取处理,获得补偿特征向量,包括:
4.如权利要求1所述的语音合成方法,其特征在于,所述对所述韵律嵌入向量和所述韵律补偿向量进行融合,获得韵律特征向量,包括:
5.如权利要求1所述的语音合成方法,其特征在于,所述预设语音合成模型包括文本编码器、注意力层和文本解码器;
6.如权利要求5所述的语音合成方法,其特征在于,所述将所述待合成文本输入所述文本编码器进行编码,获得文本编码向量,包括:
7.如权利要求1所述的语音合成方法,其特征在于,所述通过预设语音合成模型对所述待合成文本和所述韵律特征向量进行合成处理之前,包括:
8.一种语音合成装置,其特征在于,包括:
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述语音合成方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1至7中任一项所述语音合成方法。