基于自回归式大语言模型的零样本语音合成方法及装置与流程

文档序号：40831186发布日期：2025-02-06 17:06阅读：199来源：国知局

本申请涉及音频处理，具体而言，涉及一种基于自回归式大语言模型的零样本语音合成方法及装置。

背景技术：

1、现有的语音合成模型，通常是先使用一个发音对象的语音数据(包含音频和音频对应的文本描述信息)训练语音合成模型，以使训练好的语音合成模型能够按照上述发音对象的发音特征(如，音色、语调、朗读情绪等)生成与输入文本信息匹配的合成语音。但是，当用户想要获取按照其他发音对象的发音特征生成的合成语音时，则需要根据新增的其他发音对象的语音数据对上述语音合成模型进行新一轮次的训练，从而导致用户无法灵活自由地选择待合成语音所对应的发音对象，并且在新增可选择的发音对象时也会使得模型训练时间增长，致使语音合成效率降低。

技术实现思路

1、有鉴于此，本申请提供一种基于自回归式大语言模型的零样本语音合成方法及装置，通过构建零样本的语音合成模型，使得用户只需在语音合成阶段添加目标发音对象的少量参考音频即可，无需使用目标发音对象的语音数据对原有的语音合成模型进行重复训练，有效地提高了零样本语音合成能力，有利于提高语音合成时对于发音对象的选择灵活度以及减轻语音合成模型的模型训练成本。

2、为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

3、第一方面，本申请实施例提供了一种基于自回归式大语言模型的零样本语音合成方法，所述零样本语音合成方法包括：

4、将参考音频的音频编码特征、参考文本的文本编码特征、目标文本的目标文本编码特征输入预先训练好的大语言模型中，得到所述大语言模型输出的目标序列；其中，所述参考文本是与所述参考音频匹配的文本信息；所述目标序列对应的音频特征与所述参考音频匹配，所述目标序列对应的语义特征与所述参考文本匹配；

5、将所述目标序列输入预先训练好的扩散模型中，得到所述扩散模型输出的所述目标序列对应的目标梅尔谱；

6、将所述目标梅尔谱输入预先训练好的声码器中，得到所述声码器输出的所述目标梅尔谱对应的目标音频，并将所述目标音频确定为所述参考音频和所述目标文本对应的语音合成结果。

7、第二方面，本申请实施例提供了一种基于自回归式大语言模型的零样本语音合成装置，所述零样本语音合成装置包括：

8、第一处理模块，用于将参考音频的音频编码特征、参考文本的文本编码特征、目标文本的目标文本编码特征输入预先训练好的大语言模型中，得到所述大语言模型输出的目标序列；其中，所述参考文本是与所述参考音频匹配的文本信息；所述目标序列对应的音频特征与所述参考音频匹配，所述目标序列对应的语义特征与所述参考文本匹配；

9、第二处理模块，用于将所述目标序列输入预先训练好的扩散模型中，得到所述扩散模型输出的所述目标序列对应的目标梅尔谱；

10、第三处理模块，用于将所述目标梅尔谱输入预先训练好的声码器中，得到所述声码器输出的所述目标梅尔谱对应的目标音频，并将所述目标音频确定为所述参考音频和所述目标文本对应的语音合成结果。

11、第三方面，本申请实施例提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的基于自回归式大语言模型的零样本语音合成方法的步骤。

12、第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述的基于自回归式大语言模型的零样本语音合成方法的步骤。

13、本申请的实施例提供的技术方案可以包括以下有益效果：

14、本申请实施例提供的一种基于自回归式大语言模型的零样本语音合成方法及装置，将参考音频的音频编码特征、参考文本的文本编码特征、目标文本的目标文本编码特征输入预先训练好的大语言模型中，得到大语言模型输出的目标序列；将目标序列输入预先训练好的扩散模型中，得到扩散模型输出的目标序列对应的目标梅尔谱；将目标梅尔谱输入预先训练好的声码器中，得到声码器输出的目标梅尔谱对应的目标音频，并将目标音频确定为参考音频和目标文本对应的语音合成结果。这样，通过构建零样本的语音合成模型，使得用户只需在语音合成阶段添加目标发音对象的少量参考音频即可，无需使用目标发音对象的语音数据对原有的语音合成模型进行重复训练，有效地提高了零样本语音合成能力，有利于提高语音合成时对于发音对象的选择灵活度以及减轻语音合成模型的模型训练成本。

技术特征：

1.一种基于自回归式大语言模型的零样本语音合成方法，其特征在于，所述零样本语音合成方法包括：

2.根据权利要求1所述的零样本语音合成方法，其特征在于，通过以下方法获取所述参考音频的音频编码特征：

3.根据权利要求2所述的零样本语音合成方法，其特征在于，所述对所述参考音频进行离散化处理，得到所述参考音频的离散音频特征，包括：

4.根据权利要求1所述的零样本语音合成方法，其特征在于，通过以下方法获取所述参考文本的文本编码特征和所述目标文本的目标文本编码特征：

5.根据权利要求1所述的零样本语音合成方法，其特征在于，通过以下方法训练得到所述大语言模型：

6.根据权利要求5所述的零样本语音合成方法，其特征在于，通过以下方法确定所述目标样本序列与该音频样本数据之间的音频特征损失以及所述目标样本序列与所述待处理文本之间的语义特征损失：

7.根据权利要求1所述的零样本语音合成方法，其特征在于，所述声码器表征将生成器中的一维卷积替换为一维深度可分离卷积之后的hifigan声码器。

8.一种基于自回归式大语言模型的零样本语音合成装置，其特征在于，所述零样本语音合成装置包括：

9.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的基于自回归式大语言模型的零样本语音合成方法的步骤。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7任一所述的基于自回归式大语言模型的零样本语音合成方法的步骤。

技术总结
本申请提供了一种基于自回归式大语言模型的零样本语音合成方法及装置，该方法包括：将参考音频的音频编码特征、参考文本的文本编码特征、目标文本的目标文本编码特征输入预先训练好的大语言模型中，得到大语言模型输出的目标序列；将目标序列输入预先训练好的扩散模型中，得到扩散模型输出的目标序列对应的目标梅尔谱；将目标梅尔谱输入预先训练好的声码器中，得到声码器输出的目标梅尔谱对应的目标音频，并将目标音频确定为参考音频和目标文本对应的语音合成结果。这样，使得用户只需在语音合成阶段添加目标发音对象的少量参考音频即可，无需使用目标发音对象的语音数据对原有的语音合成模型进行重复训练，有效地提高了零样本语音合成能力。

技术研发人员：张德俊,孟凡芹,郑榕
受保护的技术使用者：北京远鉴信息技术有限公司
技术研发日：
技术公布日：2025/2/5

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张德俊,孟凡芹,郑榕
技术所有人：北京远鉴信息技术有限公司
我是此专利的发明人

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！