视频生成模型的训练方法及装置与流程

文档序号：37755393发布日期：2024-04-25 10:42阅读：3来源：国知局

本公开涉及视频生成，尤其涉及一种视频生成模型的训练方法及装置。

背景技术：

1、目标生成视频的方法往往是用户上传文本、图像和音频等信息，基于用户上传的信息生成用户想要的视频。但是在某些场景中，用户无法提供过多的信息，只能给出一个场景或者一个主题，用户提供的信息少会导致生成的视频质量差。

技术实现思路

1、有鉴于此，本公开实施例提供了一种视频生成模型的训练方法、装置、电子设备及计算机可读存储介质，以解决现有技术中，基于少量信息生成视频质量差的问题。

2、本公开实施例的第一方面，提供了一种视频生成模型的训练方法，包括：构建语音生成网络和视频合成网络，利用文本生成网络、语音生成网络、图像生成网络和视频合成网络构建视频生成模型；获取视频生成指令，将视频生成指令输入视频生成模型：通过文本生成网络生成视频生成指令对应的文本；通过语音生成网络将文本转换为语音；通过图像生成网络生成文本对应的图像；通过视频合成网络将语音和图像合成为视频；依据视频生成指令确定视频的奖励，依据奖励优化视频生成模型的模型参数，以完成对视频生成模型的训练。

3、本公开实施例的第二方面，提供了一种视频生成模型的训练装置，包括：构建模块，被配置为构建语音生成网络和视频合成网络，利用文本生成网络、语音生成网络、图像生成网络和视频合成网络构建视频生成模型；获取模块，被配置为获取视频生成指令，将视频生成指令输入视频生成模型：第一处理模块，被配置为通过文本生成网络生成视频生成指令对应的文本；第二处理模块，被配置为通过语音生成网络将文本转换为语音；第三处理模块，被配置为通过图像生成网络生成文本对应的图像；第四处理模块，被配置为通过视频合成网络将语音和图像合成为视频；优化模块，被配置为依据视频生成指令确定视频的奖励，依据奖励优化视频生成模型的模型参数，以完成对视频生成模型的训练。

4、本公开实施例的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。

5、本公开实施例的第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

6、本公开实施例与现有技术相比存在的有益效果是：因为本公开实施例通过构建语音生成网络和视频合成网络，利用文本生成网络、语音生成网络、图像生成网络和视频合成网络构建视频生成模型；获取视频生成指令，将视频生成指令输入视频生成模型：通过文本生成网络生成视频生成指令对应的文本；通过语音生成网络将文本转换为语音；通过图像生成网络生成文本对应的图像；通过视频合成网络将语音和图像合成为视频；依据视频生成指令确定视频的奖励，依据奖励优化视频生成模型的模型参数，以完成对视频生成模型的训练。采用上述技术手段，可以解决现有技术中，基于少量信息生成视频质量差的问题，进而提高生成视频质量。

技术特征：

1.一种视频生成模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，构建语音生成网络和视频合成网络，包括：

3.根据权利要求1所述的方法，其特征在于，利用文本生成网络、所述语音生成网络、图像生成网络和所述视频合成网络构建视频生成模型，包括：

4.根据权利要求1所述的方法，其特征在于，依据所述视频生成指令确定所述视频的奖励，包括：

5.根据权利要求1所述的方法，其特征在于，通过所述文本生成网络生成所述视频生成指令对应的文本之后，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，利用对比学习损失函数计算所述语音特征和所述图像特征之间的特征对齐损失之后，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.一种视频生成模型的训练装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。

技术总结
本公开提供了一种视频生成模型的训练方法及装置。该方法包括：构建语音生成网络和视频合成网络，利用文本生成网络、语音生成网络、图像生成网络和视频合成网络构建视频生成模型；获取视频生成指令，将视频生成指令输入视频生成模型：通过文本生成网络生成视频生成指令对应的文本；通过语音生成网络将文本转换为语音；通过图像生成网络生成文本对应的图像；通过视频合成网络将语音和图像合成为视频；依据视频生成指令确定视频的奖励，依据奖励优化视频生成模型的模型参数，以完成对视频生成模型的训练。采用上述技术手段，解决现有技术中，基于少量信息生成视频质量差的问题。

技术研发人员：王洪洪
受保护的技术使用者：深圳须弥云图空间科技有限公司
技术研发日：
技术公布日：2024/4/24

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王洪洪
技术所有人：深圳须弥云图空间科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。