一种音频生成方法、系统和相关装置与流程

文档序号：44895057发布日期：2026-03-13 22:51阅读：4来源：国知局

技术简介：
本专利针对传统文本到音频转换技术中拼接式合成方法存在的输出僵硬、情感缺失问题，提出通过语言信息和声学信息双维度分析实现音频生成。方案利用多个专家网络分别处理文本韵律和声学特征，通过语言门控网络选择适配模型，结合预测特征生成更自然的音频，提升发音准确度与韵律表现力。
关键词：文本到音频转换,专家网络

本申请涉及音频生成，特别是涉及一种音频生成方法、系统和相关装置。

背景技术：

1、在文本到音频转换技术发展的早期阶段，系统主要依赖于拼接式合成方法，即预先录制一个庞大的语音单元库（如音节、单词或短语），再根据输入文本从中选取对应的单元进行拼接。这种方法虽能保留录制语音的部分自然度，但其输出效果僵硬、缺乏情感变化，且对词汇量以外的文本适应性很差。

2、有鉴于此，如何提升音频转换的效果，成为亟待解决的问题。

技术实现思路

1、本申请主要解决的技术问题是提供一种音频生成方法、系统和相关装置，能够提升将目标文本转换为目标音频的效果。

2、为解决上述技术问题，本申请采用的一个技术方案是：提供一种音频生成方法，包括：获取待转换的目标文本，确定所述目标文本对应的语言信息和声学信息；其中，所述语言信息与所述目标文本的文本元素相关，所述声学信息与所述目标文本匹配的参考频谱相关；从多个第一专家网络中确定与所述语言信息匹配的第一目标网络，利用所述第一目标网络获取与所述语言信息匹配的韵律预测特征，从多个第二专家网络中确定与所述声学信息匹配的第二目标网络，利用所述第二目标网络获取与所述声学信息匹配的声学预测特征；基于所述韵律预测特征和所述声学预测特征，生成所述目标文本转换后的目标音频。

3、为解决上述技术问题，本申请采用的另一个技术方案是：提供一种音频生成系统，包括：获取模块，用于获取待转换的目标文本，确定所述目标文本对应的语言信息和声学信息；其中，所述语言信息与所述目标文本的文本元素相关，所述声学信息与所述目标文本匹配的参考频谱相关；处理模块，用于从多个第一专家网络中确定与所述语言信息匹配的第一目标网络，利用所述第一目标网络获取与所述语言信息匹配的韵律预测特征，从多个第二专家网络中确定与所述声学信息匹配的第二目标网络，利用所述第二目标网络获取与所述声学信息匹配的声学预测特征；转换模块，用于基于所述韵律预测特征和所述声学预测特征，生成所述目标文本转换后的目标音频。

4、为解决上述技术问题，本申请采用的另一个技术方案是：提供一种电子设备，包括：相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现如上述技术方案中提到的方法。

5、为解决上述技术问题，本申请采用的又一个技术方案是：提供一种计算机可读存储介质，其上存储有程序指令，所述程序指令被处理器执行时实现如上述技术方案中提到的方法。

6、本申请的有益效果是：区别于现有技术的情况，本申请提出的音频生成方法，在获取到待转换的目标文本后，根据目标文本得到语言信息和声学信息两种不同维度的信息。针对上述不同维度的信息，从多个第一专家网络中确定与语言信息匹配的第一目标网络，并利用第一目标网络根据语言信息进行音频韵律的预测，得到韵律预测特征；以及，从多个第二专家网络中确定与声学信息匹配的第二目标网络，并利用第二目标网络根据声学信息进行声学特征的预测，得到声学预测特征。根据预测得到的韵律预测特征和声学预测特征，将目标文本转换为目标音频，以提高目标音频在发音准确度和韵律丰富度上的表现效果。

技术特征：

1.一种音频生成方法，其特征在于，包括：

2.根据权利要求1所述的音频生成方法，其特征在于，

3.根据权利要求2所述的音频生成方法，其特征在于，所述从多个第一专家网络中确定与所述语言信息匹配的第一目标网络，利用所述第一目标网络获取与所述语言信息匹配的韵律预测特征，包括：

4.根据权利要求3所述的音频生成方法，其特征在于，所述第一编码模块包括多个第一网络集合，每个所述第一网络集合中包括多个所述第一专家网络，所述基于所述语言信息，利用所述语言门控网络从所有所述第一专家网络中确定第一目标网络，包括：

5.根据权利要求2所述的音频生成方法，其特征在于，所述音频生成模型还包括依次耦接的第一解码模块和第二解码模块，所述第一解码网络包括多个第三专家网络和至少一个第三共享网络，所述第二解码网络包括多个第四专家网络和至少一个第四共享网络，所述基于所述韵律预测特征和所述声学预测特征，生成所述目标文本转换后的目标音频，包括：

6.根据权利要求2所述的音频生成方法，其特征在于，所述音频生成模型的训练过程包括：

7.根据权利要求1所述的音频生成方法，其特征在于，所述语言信息的获取步骤，包括：

8.根据权利要求7所述的音频生成方法，其特征在于，所述音素分析模型是利用多个训练文本进行训练得到的，所述音素分析模型的训练过程包括：

9.一种音频生成系统，其特征在于，包括：

10.一种电子设备，其特征在于，包括：相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现如权利要求1-8中任一项所述的方法。

11.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令被处理器执行时实现如权利要求1-8中任一项所述的方法。

技术总结
本申请公开了一种音频生成方法、系统和相关装置，该方法包括：获取待转换的目标文本，确定所述目标文本对应的语言信息和声学信息；其中，所述语言信息与所述目标文本的文本元素相关，所述声学信息与所述目标文本匹配的参考频谱相关；从多个第一专家网络中确定与所述语言信息匹配的第一目标网络，利用所述第一目标网络获取与所述语言信息匹配的韵律预测特征，从多个第二专家网络中确定与所述声学信息匹配的第二目标网络，利用所述第二目标网络获取与所述声学信息匹配的声学预测特征；基于所述韵律预测特征和所述声学预测特征，生成所述目标文本转换后的目标音频。通过上述方式，本申请能够提升将目标文本转换为目标音频的效果。

技术研发人员：张威,蔡明琦,朱荣华,倪嘉禾,孙磊,高建清,刘聪
受保护的技术使用者：科大讯飞股份有限公司
技术研发日：
技术公布日：2026/3/12

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张威,蔡明琦,朱荣华,倪嘉禾,孙磊,高建清,刘聪
技术所有人：科大讯飞股份有限公司
我是此专利的发明人

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！