本发明属于语音到音频生成,尤其涉及语音到音频生成系统、训练方法、电子设备和存储介质。
背景技术:
1、相关技术中,asr(automatic speech recognition,自动语音识别)系统能够将语音转换为文本,但通常不涉及音频生成。tta(text-to-audio,文本到音频)模型能够根据文本描述生成相应的音频。跨模态音频生成模型能够基于文本、音频或视觉信息生成音频,但通常不直接处理语音输入。
2、发明人发现,上述技术缺乏直接从语音到音频的生成能力,需要通过中间步骤如asr,增加了复杂性和延迟。并且上述技术未能充分利用语音中的语义信息来指导音频生成。
技术实现思路
1、本发明实施例提供一种语音到音频生成系统、方法、电子设备和存储介质,用于至少解决上述技术问题之一。
2、第一方面,本发明实施例提供一种语音到音频生成系统,包括:语音编码器,用于提取输入语音中与声音事件相关的特征;桥接网络,用于将所述与声音事件相关的特征映射到语义特征,其中,所述语义特征用于指导音频生成模块生成音频;以及音频生成模块,包括潜在扩散模型、变分自编码器和声码器,其中,所述潜在扩散模型用于从所述输入语音中生成音频的潜在表示,所述变分自编码器用于基于所述音频的潜在表示重建频谱图,所述声码器用于将频谱图转换成波形。
3、第二方面,本发明实施例还提供一种语音到音频生成系统的训练方法,用于第一方面所述的语音到音频生成系统,包括:第一阶段,对所述桥接网络进行预训练;第二阶段,对所述桥接网络进行微调,其中,微调时冻结所有其他模块;以及第三阶段,对所述潜在扩散模型进行微调,其中,微调时冻结所有其他模块。
4、第三方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的语音到音频生成系统的训练方法的步骤。
5、第四方面,本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述方法的步骤。
6、第五方面,本发明实施例还提供一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现第一方面所述方法的步骤。
7、在本申请实施例的方法中,提高了从语音到音频的生成质量,增强了人机交互的自然性和互动性。进一步的,推动了语音交互系统的发展,为未来更复杂的语音理解和生成任务提供了基础。更深进一步的,为音频内容的自动生成和编辑提供了新的可能性,有助于丰富多媒体内容的创作和分发。
1.一种语音到音频生成系统,包括:
2.根据权利要求1所述的系统,其中,所述潜在扩散模型包括:
3.根据权利要求1所述的系统,其中,所述变分自编码器包括:
4.根据权利要求1所述的系统,其中,所述语音编码器为hubert或wavlm。
5.根据权利要求1所述的系统,其中,所述桥接网络为多层感知机(mlp)或q-former。
6.一种语音到音频生成系统的训练方法,用于权利要求1-3中任一项所述的语音到音频生成系统,包括:
7.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求6所述方法的步骤。
8.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求6所述方法的步骤。