音频合成方法、训练方法、装置、设备及存储介质与流程

文档序号：36711155发布日期：2024-01-16 12:06阅读：38来源：国知局

本申请涉及人工智能技术，尤其涉及一种音频合成方法、音频合成模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术：

1、人工智能(ai，artificial intelligence)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，例如自然语言处理技术以及机器学习/深度学习等几大方向，随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

2、音频合成是人工智能领域的重要应用之一，能够通过机械的、电子的方法产生人造音频。

3、相关技术中对于音频的合成方式比较粗糙，通常是先通过声学模型预测出文本数据的梅尔频谱图，然后通过声码器结合梅尔频谱图生成音频波形，以对文本数据对应的梅尔频谱图进行合成，以得到文本数据对应的音频数据，这种合成方式无法实现音频的精准合成，容易导致合成音频中的伪像，从而影响用户体验正常的音频合成。

技术实现思路

1、本申请实施例提供一种音频合成方法、音频合成模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够提高音频合成的质量以及表达性。

2、本申请实施例的技术方案是这样实现的：

3、本申请实施例提供一种音频合成方法，包括：

4、基于目标文本的语言信息以及待合成的目标风格信息，调用音频合成模型，其中，所述音频合成模型包括先验编码器以及波形解码器；

5、通过所述先验编码器，对所述语言信息以及所述目标风格信息进行音频帧生成处理，得到所述目标文本对应的音频帧的音频特征；

6、通过所述先验编码器，对所述音频特征进行归一化流处理，得到所述目标文本的隐藏变量；

7、通过所述波形解码器，对所述目标文本的隐藏变量进行波形解码处理，得到符合所述目标风格信息描述的音频风格且与所述目标文本对应的合成波形。

8、本申请实施例提供一种音频合成模型的训练方法，音频合成模型包括先验编码器、后验编码器、波形解码器、鉴别器；所述方法包括：

9、获取文本样本的样本语言信息、合成的样本风格信息、所述文本样本的波形标注以及所述波形标注对应的频谱图；

10、通过所述后验编码器，对所述波形标注对应的频谱图以及所述样本风格信息进行编码处理，得到所述频谱图的隐藏变量；

11、通过所述波形解码器，对所述频谱图的隐藏变量进行波形解码处理，得到符合所述样本风格信息描述的音频风格且与所述文本样本对应的合成波形；

12、通过所述鉴别器，对所述合成波形进行鉴别处理，得到鉴别结果；

13、通过所述先验编码器，对所述样本语言信息以及所述样本风格信息进行编码处理，得到所述文本样本的隐藏变量；

14、基于所述文本样本的隐藏变量、所述频谱图的隐藏变量以及所述鉴别结果，对所述音频合成模型进行训练，得到训练好的音频合成模型。

15、本申请实施例提供一种音频合成装置，包括：

16、调用模块，用于基于目标文本的语言信息以及待合成的目标风格信息，调用音频合成模型，其中，所述音频合成模型包括先验编码器以及波形解码器；

17、生成模块，用于通过所述先验编码器，对所述语言信息以及所述目标风格信息进行音频帧生成处理，得到所述目标文本对应的音频帧的音频特征；

18、归一化模块，用于通过所述先验编码器，对所述音频特征进行归一化流处理，得到所述目标文本的隐藏变量；

19、波形解码模块，用于通过所述波形解码器，对所述目标文本的隐藏变量进行波形解码处理，得到符合所述目标风格信息描述的音频风格且与所述目标文本对应的合成波形。

20、本申请实施例提供一种音频合成模型的训练装置，音频合成模型包括先验编码器、后验编码器、波形解码器、鉴别器；所述装置包括：

21、获取模块，用于获取文本样本的样本语言信息、合成的样本风格信息、所述文本样本的波形标注以及所述波形标注对应的频谱图；

22、后验模块，用于通过所述后验编码器，对所述波形标注对应的频谱图以及所述样本风格信息进行编码处理，得到所述频谱图的隐藏变量；

23、解码模块，用于通过所述波形解码器，对所述频谱图的隐藏变量进行波形解码处理，得到符合所述样本风格信息描述的音频风格且与所述文本样本对应的合成波形；

24、鉴别模块，用于通过所述鉴别器，对所述合成波形以及所述波形标注进行鉴别处理，得到鉴别结果；

25、先验模块，用于通过所述先验编码器，对所述样本语言信息以及所述样本风格信息进行编码处理，得到所述文本样本的隐藏变量；

26、训练模块，用于基于所述文本样本的隐藏变量、所述频谱图的隐藏变量以及所述鉴别结果，对所述音频合成模型进行训练，得到训练好的音频合成模型。

27、本申请实施例提供一种电子设备，所述电子设备包括：

28、存储器，用于存储计算机程序或计算机可执行指令；

29、处理器，用于执行所述存储器中存储的计算机程序或计算机可执行指令时，实现本申请实施例提供的音频合成方法，或音频合成模型的训练方法。

30、本申请实施例提供一种计算机可读存储介质，存储有计算机程序或计算机可执行指令，所述计算机程序或计算机可执行指令被处理器执行时实现本申请实施例提供的音频合成方法，或音频合成模型的训练方法。

31、本申请实施例提供一种计算机程序产品，包括计算机程序或计算机可执行指令，所述计算机程序或计算机可执行指令被处理器执行时实现本申请实施例提供的音频合成方法，或音频合成模型的训练方法。

32、本申请实施例具有以下有益效果：

33、通过先验编码生成目标文本对应的音频帧的音频特征，并对音频特征进行归一化流处理，得到目标文本的隐藏变量，然后通过波形解码器，对目标文本的隐藏变量进行波形解码，直接生成合成波形，相较于相关技术，无需通过声码器结合梅尔频谱图这一中间产物来生成合成波形，避免伪像的产生，从而基于准确的隐藏变量实现精准地音频生成，提高音频合成的质量以及表达性。

技术特征：

1.一种音频合成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述音频特征进行归一化流处理，得到所述目标文本的隐藏变量，包括：

3.根据权利要求1所述的方法，其特征在于，

4.根据权利要求3所述的方法，其特征在于，所述对所述卷积结果进行抗锯齿多周期合成操作，得到语义特征，包括：

5.根据权利要求1所述的方法，其特征在于，所述通过所述先验编码器，对所述语言信息以及所述目标风格信息进行音频帧生成处理，得到所述目标文本对应的音频帧的音频特征，包括：

6.根据权利要求5所述的方法，其特征在于，

7.根据权利要求6所述的方法，其特征在于，

8.根据权利要求7所述的方法，其特征在于，

9.根据权利要求5所述的方法，其特征在于，

10.根据权利要求9所述的方法，其特征在于，所述通过所述帧级编码器，对所述目标风格信息以及所述音频帧的初始特征进行融合处理，得到所述目标文本对应的音频帧的音频特征，包括：

11.一种音频合成模型的训练方法，其特征在于，音频合成模型包括先验编码器、后验编码器、波形解码器、鉴别器；

12.根据权利要求11所述的方法，其特征在于，所述基于所述文本样本的隐藏变量、所述频谱图的隐藏变量以及所述鉴别结果，对所述音频合成模型进行训练，包括：

13.根据权利要求11所述的方法，其特征在于，所述通过所述后验编码器，对所述波形标注对应的频谱图以及所述样本风格信息进行编码处理，得到所述频谱图的隐藏变量，包括：

14.一种音频合成装置，其特征在于，所述装置包括：

15.一种电子设备，其特征在于，所述电子设备包括：

16.一种计算机可读存储介质，其特征在于，存储有计算机程序或者计算机可执行指令，所述计算机程序或计算机可执行指令被处理器执行时实现权利要求1至10任一项所述的音频合成方法，或权利要求11至13任一项所述的音频合成模型的训练方法。

17.一种计算机程序产品，包括计算机程序或计算机可执行指令，其特征在于，所述计算机程序或计算机可执行指令被处理器执行时实现权利要求1至10任一项所述的音频合成方法，或权利要求11至13任一项所述的音频合成模型的训练方法。

技术总结
本申请提供了一种音频合成方法、音频合成模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品；涉及人工智能技术；方法包括：基于目标文本的语言信息以及待合成的目标风格信息，调用音频合成模型，其中，音频合成模型包括先验编码器以及波形解码器；通过先验编码器，对语言信息以及目标风格信息进行音频帧生成处理，得到目标文本对应的音频帧的音频特征；通过先验编码器，对音频特征进行归一化流处理，得到目标文本的隐藏变量；通过波形解码器，对目标文本的隐藏变量进行波形解码处理，得到符合目标风格信息描述的音频风格且与目标文本对应的波形。通过本申请，能够提高音频合成的质量以及表达性。

技术研发人员：顾宇,翁超
受保护的技术使用者：腾讯科技（深圳）有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：顾宇,翁超
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人