语音合成方法和装置、存储介质、电子设备与流程

文档序号：34603210发布日期：2023-06-29 01:49阅读：47来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本公开涉及信息处理，具体而言，涉及一种语音合成方法和装置、存储介质、电子设备。

背景技术：

1、语音合成技术在各种人机交互和智能语音设备中已经广泛应用，语音合成系统能够实现文字转语音(text to speech，tts)的功能。线上tts服务基本满足合成音频在韵律停顿、音色相似度、发音准确度、音质方面的稳定水平。

2、但是，随着业务场景的多样化，在一些特定场景(如需要口语化、节奏感强或直播等场景)下，现有tts系统的合成结果趋向于平均化，无法满足这些业务场景对韵律自然度和表现力的需求，语音合成质量欠佳。

3、需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

1、本公开实施例的目的在于提供一种语音合成方法和装置、存储介质、电子设备，进而在一定程度上解决了相关技术中tts系统无法满足特定业务场景对韵律自然度和表现力的需求及语音合成效果不佳的问题。

2、根据本公开的第一方面，提供了一种语音合成方法，所述方法包括：获取待合成语句的符号序列，所述待合成语句包括待合成文本和针对目标对象的查询结果语句；利用预先训练的声学预测模型，对所述符号序列进行声学特征预测，得到所述待合成语句对应的声学特征；所述声学预测模型包括韵律预测模型，所述韵律预测模型通过在模型训练阶段学习参考录音音频的韵律特征，以在语音合成阶段增强所述待合成语句的韵律特征；对所述声学特征进行特征转换和合成，得到所述待合成语句对应的语音。

3、可选地，所述声学预测模型还包括编码模型和解码模型，所述利用预先训练的声学预测模型，对所述符号序列进行声学特征预测，包括：利用预先训练的编码模型，对所述符号序列进行一次编码处理，得到第一编码向量；利用预先训练的韵律预测模型，对所述第一编码向量进行韵律特征预测，得到韵律特征向量；根据预先训练的解码模型、所述第一编码向量和所述韵律特征向量，对所述待合成语句的声学特征进行预测，得到所述待合成语句对应的声学特征。

4、可选地，所述根据预先训练的解码模型、所述第一编码向量和所述韵律特征向量，对所述待合成语句的声学特征进行预测，包括：利用预先训练的变量适配模型，对所述第一编码向量和所述韵律特征向量的叠加结果进行变量预测，获得第一变量预测结果；利用预先训练的解码模型，对所述第一变量预测结果进行基于注意力机制的解码处理，获得所述待合成语句对应的声学特征。

5、可选地，所述根据预先训练的解码模型、所述第一编码向量和所述韵律特征向量，对所述待合成语句的声学特征进行预测，包括：将所述第一编码向量和所述韵律特征向量分别输入预先训练的变量适配模型，进行变量预测，获得第二变量预测结果；利用预先训练的解码模型，对所述第二变量预测结果进行基于注意力机制的解码处理，获得所述待合成语句对应的声学特征。

6、可选地，所述韵律预测模型包括第一韵律预测模型和第二韵律预测模型，所述利用预先训练的韵律预测模型，对所述第一编码向量进行韵律特征预测，包括：利用所述第一韵律预测模型，对所述第一编码向量进行句子级别的韵律特征预测，获得第一韵律特征向量；利用所述第二韵律预测模型，对所述第一编码向量和所述第一韵律特征向量的叠加特征进行音素级别的韵律特征预测，获得第二韵律特征向量；所述对所述第一编码向量和所述韵律特征向量的叠加结果进行变量预测，包括：对所述第二韵律特征向量和所述叠加特征的叠加结果，进行变量预测。

7、可选地，所述韵律预测模型包括第一韵律预测模型和第二韵律预测模型，所述利用预先训练的韵律预测模型，对所述第一编码向量进行韵律特征预测，包括：利用所述第一韵律预测模型，对所述第一编码向量进行句子级别的韵律特征预测，获得第三韵律特征向量；利用所述第二韵律预测模型，对所述第一编码向量进行音素级别的韵律特征预测，获得第四韵律特征向量；所述将所述第一编码向量和所述韵律特征向量分别输入预先训练的变量适配模型，进行变量预测，包括：将所述第一编码向量、所述第三韵律特征向量和所述第四韵律特征向量分别输入预先训练的变量适配模型，进行变量预测。

8、可选地，所述句子级别的韵律特征预测，包括：对所述第一韵律预测模型的输入数据进行时序特征处理和线性变换。

9、可选地，所述音素级别的韵律特征预测，包括：对所述第二韵律预测模型的输入数据进行卷积处理和线性变换。

10、可选地，所述待合成语句还包括所述目标对象的录音语句，所述方法还包括：采用预先训练的第一参考编码模型，对所述录音语句进行二次编码处理，获得第二编码向量。

11、所述变量预测包括：所述变量预测包括：利用预先训练的变量适配模型，对所述第二韵律特征向量和所述叠加特征的叠加结果，与所述第二编码向量进行变量预测；或者，利用预先训练的变量适配模型，对所述第一编码向量、所述韵律特征向量和所述第二编码向量进行变量预测。

12、可选地，所述方法还包括对所述声学预测模型进行训练，所述训练的过程包括：获取训练样本，所述训练样本包括录音样本及对应的声学特征样本和符号序列样本；采用所述训练样本对初始声学预测模型进行一次训练，以获得中间模型；所述初始声学预测模型包括第一参考编码模型和第二参考编码模型；固定所述中间模型的所述第一参考编码模型和第二参考编码模型的模型参数，利用所述训练样本、所述第一参考编码模型和第二参考编码模型，对所述声学预测模型进行二次训练。

13、可选地，所述初始声学预测模型还包括编码模型和解码模型，所述采用所述训练样本对初始声学预测模型进行一次训练，包括：采用编码模型对符号序列样本进行编码处理，获得第一样本编码向量；采用所述第一参考编码模型对录音样本进行编码处理，获得第二样本编码向量；采用第二参考编码模型对声学特征样本进行编码处理，获得第三样本编码向量；对所述第一样本编码向量和所述第二样本编码向量进行特征叠加后，与所述第三样本编码向量进行特征拼接，获得拼接特征；采用解码模型对所述拼接特征进行解码处理并输出，根据输出结果与所述声学特征样本，计算第一损失函数值；根据所述第一损失函数值，调整所述编码模型、所述第一参考编码模型、所述第二参考编码模型和所述解码模型的模型参数。

14、可选地，所述声学预测模型包括第一韵律预测模型和第二韵律预测模型，所述对所述声学预测模型进行二次训练，包括：采用一次训练后的编码模型对符号序列样本进行编码处理，获得第四样本编码向量；采用一次训练后的第一参考编码模型对录音样本进行编码处理，获得第五样本编码向量；采用一次训练后的第二参考编码模型对声学特征样本进行编码处理，获得第六样本编码向量；将所述第四样本编码向量和所述第五样本编码向量叠加后分别输入所述第一韵律预测模型和所述第二韵律预测模型；根据所述第五样本编码向量和所述第一韵律预测模型的输出结果，计算第二损失函数值；基于所述第二损失函数值，调整所述第一韵律预测模型的模型参数；根据所述第六样本编码向量和所述第二韵律预测模型的输出结果，计算第三损失函数值；基于所述第三损失函数值，调整所述第二韵律预测模型的模型参数。

15、根据本公开的第二方面，提供一种语音合成装置，所述装置包括：获取模块、预测模块和语音合成模块；获取模块，用于获取待合成语句的符号序列，所述待合成语句包括待合成文本和针对目标对象的查询结果语句；预测模块，用于利用预先训练的声学预测模型，对所述符号序列进行声学特征预测，得到所述待合成语句对应的声学特征；所述声学预测模型包括韵律预测模型，所述韵律预测模型通过在模型训练阶段学习参考录音音频的韵律特征，以在语音合成阶段增强所述待合成语句的韵律特征；语音合成模块，用于对所述声学特征进行特征转换和合成，得到所述待合成语句对应的语音。

16、根据本公开的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例所述的方法。

17、根据本公开的第四方面，提供一种电子设备，包括：一个或多个处理器；以及存储装置，用于一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行上述任一实施例所述的方法。

18、本公开示例性实施例可以具有以下部分或全部有益效果：

19、在本公开示例实施方式所提供的语音合成方法中，一方面，可以通过在声学预测模型添加韵律预测模型，通过在模型训练阶段学习参考录音音频的韵律特征，以在语音合成阶段增强所述待合成语句的韵律特征，使得经韵律增强的声学特征在经过声学特征转换和合成之后，得到韵律增强的语音，满足了特定业务场景(韵律表现度要求高的场景)对韵律表现力度的要求，提高合成语音的准确度和真实度。另一方面，通过待合成文本和针对目标对象的查询结果语句，保证了通过预先训练的声学预测模型能够合成特定目标对象的待合成语句的语音，实现目标对象在特定业务场景下的语音定制。

20、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：岳杨皓宋伟张雅洁张政臣吴友政
技术所有人：京东科技信息技术有限公司
我是此专利的发明人