语音合成方法、装置、电子设备及存储介质与流程

文档序号：36248444发布日期：2023-12-02 15:21阅读：76来源：国知局

本技术涉及人工智能，具体涉及一种语音合成方法、装置、电子设备及存储介质。

背景技术：

1、目前，语音语调的调整一般是将tts(text to speech，从文本到语音)模型生成的合成语音的音素时长和基频，与目标语音的音素时长和基频进行比较，再通过调整每个音素的时长和基频来实现语音语调的调整，这种方法虽然可以精确地调整合成语音的每个音素的语调，但需要大量的人工干预，效率较低。另外，还可以通过将tts模型生成语音的语音信号与目标语音的语音信号进行比较，然后通过对生成语音的基频、音量、音色等参数进行全局调整来实现语音语调的调整。这种方法的虽然可以快速地调整整个语音信号的语调，但是调整效果相对较粗糙，可能会影响语音的自然度和流畅度。

技术实现思路

1、本技术实施例公开了一种语音合成方法、装置、电子设备及存储介质，能够提高对合成语音的调整效率，同时也提高了合成语音的自然度和流畅度。

2、本技术实施例公开一种语音合成方法，所述方法包括：

3、获取原始文本；

4、通过训练得到的语音模型提取所述原始文本的语音特征，并根据所述语音特征对所述原始文本对应的初始频谱向量进行优化，得到目标频谱向量；其中，所述语音模型包括前端模块、语音合成tts模型及后端模块，所述前端模块用于基于多头注意力机制提取所述原始文本对应的至少一种语音特征，所述tts模型用于生成所述原始文本对应的初始频谱向量，所述后端模块用于将所述至少一种语音特征及所述初始频谱向量进行融合，得到目标频谱向量；

5、根据所述目标频谱向量生成目标语音。

6、作为一种可选的实施方式，在所述通过训练得到的语音模型提取所述原始文本的语音特征之前，所述方法还包括：

7、对所述原始文本进行拼音转化操作，以确定所述原始文本对应的音素序列；

8、所述通过训练得到的语音模型提取所述原始文本的语音特征，并根据所述语音特征对所述原始文本对应的初始频谱向量进行优化，得到目标频谱向量，包括：

9、将所述音素序列输入训练得到的语音模型，通过所述语音模型根据所述音素序列提取所述原始文本的语音特征，并根据所述语音特征对所述原始文本对应的初始频谱向量进行优化，得到目标频谱向量。

10、作为一种可选的实施方式，所述原始文本对应的至少一种语音特征，包括：时长特征、韵律特征以及高音特征中的一种或多种，所述时长特征用于指示所述原始文本的每个音素进行发音时所需的时间长度，所述韵律特征用于指示所述原始文本的相邻两个音素进行发音时的时间间隔，所述高音特征用于指示所述原始文本的每个音素进行发音时声波的频率。

11、作为一种可选的实施方式，所述前端模块包括时长特征生成单元、韵律特征生成单元以及高音特征生成单元，所述时长特征生成单元用于提取时长特征，所述韵律特征生成单元用于提取韵律特征，所述高音特征生成单元用于提取高音特征；所述基于多头注意力机制提取所述原始文本对应的语音特征，包括：

12、根据所述音素序列生成音素向量；

13、基于多头注意力机制，通过目标特征生成单元对所述音素向量进行多头注意力计算，得到多个注意力向量，对所述多个注意力向量进行拼接，得到多头注意力向量，并根据所述多头注意力向量，生成所述目标特征生成单元对应的目标语音特征；所述目标特征生成单元为所述时长特征生成单元、韵律特征生成单元以及高音特征生成单元中的任意一个。

14、作为一种可选的实施方式，所述目标特征生成模块包括多层神经网络；所述基于多头注意力机制，通过目标特征生成单元对所述音素向量进行多头注意力计算，得到多个注意力向量，对所述多个注意力向量进行拼接，得到多头注意力向量，并根据所述多头注意力向量，生成所述目标特征生成单元对应的目标语音特征，包括：

15、将所述音素向量作为输入到第一层神经网络的目标特征向量，通过当前层的神经网络对输入的目标特征向量进行多头注意力计算，得到多个注意力向量，并对所述多个注意力向量进行拼接，得到所述当前层的神经网络对应的多头注意力向量；

16、对所述多头注意力向量进行残差连接处理及第一归一化处理，得到第一特征向量；

17、对所述第一特征向量进行残差连接处理及前向传播，得到第二特征向量；

18、对所述第二特征向量进行第二归一化处理，得到目标特征向量；

19、将所述目标特征向量输入至下一层的神经网络，并将所述下一层的神经网络作为新的当前层的神经网络，重新执行所述通过当前层的神经网络对输入的目标特征向量进行多头注意力计算，得到多个注意力向量的步骤，直至所述当前层的神经网络为最后一层神经网络；

20、将最后一层神经网络输出的目标特征向量确定为所述目标特征生成单元对应的目标语音特征。

21、作为一种可选的实施方式，所述将所述至少一种语音特征及所述初始频谱向量进行融合，得到目标频谱向量，包括：

22、根据所述至少一种语音特征及所述初始频谱向量分别对应的权重值，对所述至少一种语音特征及所述初始频谱向量进行加权融合，得到目标频谱向量。

23、作为一种可选的实施方式，在所述获取原始文本之前，所述方法还包括：

24、获取样本音素序列集合，所述样本音素序列集合包括多个样本音素序列；

25、对每个所述样本音素序列进行音素切分，得到音素时长序列、音素间隔序列以及频谱序列；

26、将所述样本音素序列及对应的音素时长序列、音素间隔序列以及频谱序列输入待训练的语音模型，通过所述待训练的语音模型的前端模块根据输入的样本音素序列确定预测时长特征、预测韵律特征以及预测高音特征，根据所述预测时长特征及输入的音素时长序列之间的第一误差、所述预测韵律特征及输入的音素间隔序列之间的第二误差、所述预测高音特征与输入的频谱序列之间的第三误差调整所述待训练的语音模型的模型参数，以得到训练后的语音模型。

27、本技术实施例公开一种语音合成装置，所述装置包括：

28、获取模块，用于获取原始文本；

29、优化模块，用于通过训练得到的语音模型提取所述原始文本的语音特征，并根据所述语音特征对所述原始文本对应的初始频谱向量进行优化，得到目标频谱向量；其中，所述语音模型包括前端模块、语音合成tts模型及后端模块，所述前端模块用于基于多头注意力机制提取所述原始文本对应的至少一种语音特征，所述tts模型用于生成所述原始文本对应的初始频谱向量，所述后端模块用于将所述至少一种语音特征及所述初始频谱向量进行融合，得到目标频谱向量；

30、生成模块，用于根据所述目标频谱向量生成目标语音。

31、本技术实施例公开一种电子设备，包括存储器及处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器实现本技术实施例公开的任意一种语音合成方法。

32、本技术实施例公开一种计算机可读存储介质，其存储计算机程序，其中，所述计算机程序被处理器执行时实现本技术实施例公开的任意一种语音合成方法。

33、与相关技术相比，本技术实施例具有以下有益效果：

34、本技术实施例提供了一种语音合成的方法、装置、电子设备及存储介质，获取原始文本，通过训练得到的语音模型提取原始文本的语音特征，并根据语音特征对原始文本对应的初始频谱向量进行优化，得到目标频谱向量，再根据目标频谱向量生成目标语音；其中，语音模型包括前端模块、语音合成tts模型及后端模块，前端模块用于基于多头注意力机制提取原始文本对应的至少一种语音特征，tts模型用于生成原始文本对应的初始频谱向量，后端模块用于将至少一种语音特征及初始频谱向量进行融合，得到目标频谱向量，根据目标频谱向量生成目标语音。在本技术实施例中，通过训练得到的语音模型自动提取原始文本的至少一种语音特征，解决了手动设计特征导致效率低的问题，并利用原始文本的至少一种语音特征对tts模型生成的初始频谱向量进行优化，能够提高对合成语音的调整效率，同时也提高了合成语音的自然度和流畅度。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吕召彪赵文博许程冲肖清
技术所有人：联通（广东）产业互联网有限公司
我是此专利的发明人