本公开涉及视频生成,尤其涉及一种视频生成模型的训练方法及装置。
背景技术:
1、目标生成视频的方法往往是用户上传文本、图像和音频等信息,基于用户上传的信息生成用户想要的视频。但是在某些场景中,用户无法提供过多的信息,只能给出一个场景或者一个主题,用户提供的信息少会导致生成的视频质量差。
技术实现思路
1、有鉴于此,本公开实施例提供了一种视频生成模型的训练方法、装置、电子设备及计算机可读存储介质,以解决现有技术中,基于少量信息生成视频质量差的问题。
2、本公开实施例的第一方面,提供了一种视频生成模型的训练方法,包括:构建语音生成网络和视频合成网络,利用文本生成网络、语音生成网络、图像生成网络和视频合成网络构建视频生成模型;获取视频生成指令,将视频生成指令输入视频生成模型:通过文本生成网络生成视频生成指令对应的文本;通过语音生成网络将文本转换为语音;通过图像生成网络生成文本对应的图像;通过视频合成网络将语音和图像合成为视频;依据视频生成指令确定视频的奖励,依据奖励优化视频生成模型的模型参数,以完成对视频生成模型的训练。
3、本公开实施例的第二方面,提供了一种视频生成模型的训练装置,包括:构建模块,被配置为构建语音生成网络和视频合成网络,利用文本生成网络、语音生成网络、图像生成网络和视频合成网络构建视频生成模型;获取模块,被配置为获取视频生成指令,将视频生成指令输入视频生成模型:第一处理模块,被配置为通过文本生成网络生成视频生成指令对应的文本;第二处理模块,被配置为通过语音生成网络将文本转换为语音;第三处理模块,被配置为通过图像生成网络生成文本对应的图像;第四处理模块,被配置为通过视频合成网络将语音和图像合成为视频;优化模块,被配置为依据视频生成指令确定视频的奖励,依据奖励优化视频生成模型的模型参数,以完成对视频生成模型的训练。
4、本公开实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
5、本公开实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
6、本公开实施例与现有技术相比存在的有益效果是:因为本公开实施例通过构建语音生成网络和视频合成网络,利用文本生成网络、语音生成网络、图像生成网络和视频合成网络构建视频生成模型;获取视频生成指令,将视频生成指令输入视频生成模型:通过文本生成网络生成视频生成指令对应的文本;通过语音生成网络将文本转换为语音;通过图像生成网络生成文本对应的图像;通过视频合成网络将语音和图像合成为视频;依据视频生成指令确定视频的奖励,依据奖励优化视频生成模型的模型参数,以完成对视频生成模型的训练。采用上述技术手段,可以解决现有技术中,基于少量信息生成视频质量差的问题,进而提高生成视频质量。
1.一种视频生成模型的训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,构建语音生成网络和视频合成网络,包括:
3.根据权利要求1所述的方法,其特征在于,利用文本生成网络、所述语音生成网络、图像生成网络和所述视频合成网络构建视频生成模型,包括:
4.根据权利要求1所述的方法,其特征在于,依据所述视频生成指令确定所述视频的奖励,包括:
5.根据权利要求1所述的方法,其特征在于,通过所述文本生成网络生成所述视频生成指令对应的文本之后,所述方法还包括:
6.根据权利要求5所述的方法,其特征在于,利用对比学习损失函数计算所述语音特征和所述图像特征之间的特征对齐损失之后,所述方法还包括:
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
8.一种视频生成模型的训练装置,其特征在于,包括:
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。