基于文本提示词和图像驱动的内容生成方法、设备、介质与流程

文档序号:37731280发布日期:2024-04-23 12:17阅读:8来源:国知局
本发明涉及图像驱动,尤其是涉及一种基于文本提示词和图像驱动的内容生成方法、设备、介质。
背景技术
::1、图像驱动技术是指用户给定一张图像的前提下,由图像出发生成视频的技术,现有的图像驱动技术存在如下缺点:2、(1)生成结果与给定图像的原图差异大。当模型对图像进行驱动时,现有的方法生成的视频与原图相似度较低,甚至会改变原图内容,尤其是会明显改变物体的一些细节特征。3、(2)生成内容无法控制。在以文本作为条件生成指定动效时,现有的方法往往难以响应生成文本中指定的内容,达不到文本控制的效果。4、(3)无法控制生成内容的动作幅度。在进行文本中描述的动效生成时,现有方法缺乏对动作幅度控制的方法,无法对动作幅度近进行控制。5、基于文本提示词的图像驱动技术是指用户在给定一张图像的情况下,可以通过给定文本提示词的方式,来从这张给定图像出发,生成视频。生成的视频应当还原图像内容,保留图像细节与人、物的特征;并根据文本信息,生成符合文本提示词的流畅的动效。6、现有的技术方案主要是基于扩散模型的文本视频生成方法(animatediff)与控制网络(controlnet)来实现图像驱动。在该技术方案中,首先将文本提示词通过clip文本编码器编码,之后将得到的文本编码输入到扩散模型中来指导生成过程符合文本提示词;其中,该扩散模型是在文本-图片的二维模型(stable diffusion)上经过时间维度的拓展得到的,该拓展使得模型可以生成连续的视频而没有闪烁;同时,给定的图片会通过控制网络controlnet进行特征提取,作用在扩散模型的特征图上,从而控制视频生成的结果符合给定图像。然而,该技术存在如下缺点:7、(1)通过结合一个文本生成视频的模型animatediff来生成视频,同时使用controlnet在生成过程中注入图片信息得到图片控制的效果。这样的技术方案受限于,controlnet在对给定图片进行特征提取的过程中,图片的细节信息会有所丢失,导致图像驱动后无法还原给定图片中的细节。具体而言,尽管能保持输入图像的主体内容与结构,但无法还原人、物特征以及画面细节。8、(2)现有方案在训练的过程中,文本提示词更多起到对画面的主要视觉内容进行控制的作用,使得和动作、事件相关的动效的控制受到限制。具体表现为,将文本作为条件时,对文本条件的响应能力较差,受文本控制较弱。在文本提示与生成图像内容存在不相符时,现有方法往往只能生成内容相对静止的画面,而缺少了对文本的响应,无法让图像根据文本提示词的描述动起来。9、(3)现有方案的输入只有文本提示词、图像,用户无法显式地控制画面内容变化的程度。给定一张图像和对应的文本提示词,现有的技术方案仅能得到一些随机的结果,而无法显式控制画面动效的剧烈程度。10、综上,当前缺少一种图像驱动的内容生成方法,以克服或部分克服前述问题。技术实现思路1、本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于文本提示词和图像驱动的内容生成方法,以更好编码和保留给定条件帧的细节。2、本发明的目的可以通过以下技术方案来实现:3、本发明的一个方面,提供了一种基于文本提示词和图像驱动的内容生成方法,基于给定的文本提示词和给定的图像,利用预训练好的图像驱动模型生成视频,所述图像驱动模型的训练过程包括如下步骤:4、获取包括输入文本、给定条件帧、目标视频帧序列和帧间一致性编码的样本,其中,基于所述给定条件帧和所述目标视频帧序列计算所述帧间一致性编码;5、对所述给定条件帧进行编码,得到图像编码,基于所述图像编码和所述帧间一致性编码,通过条件编码得到条件帧特征;6、初始化噪声帧,通过特征提取得到噪声特征;7、基于所述条件帧特征、所述噪声特征和所述输入文本,得到输出编码并进行去噪,作为新的噪声帧,完成本轮迭代,重复本步骤进行多次迭代;8、基于多次迭代后的去噪后的输出编码,得到输出视频帧,基于所述目标视频帧序列和所述输出视频帧更新所述图像驱动模型的参数,完成针对所述样本的训练。9、作为优选的技术方案,所述图像驱动模型包括:10、条件编码模块,用于基于所述图像编码和所述帧间一致性编码得到条件帧特征;11、原始输入模块,用于基于所述噪声帧得到噪声特征;12、至少一组unet模块和时序模块,用于基于所述条件帧特征、所述噪声特征和所述输入文本经编码得到的文本编码,得到输出编码。13、作为优选的技术方案,所述unet模块用于基于文本编码逐帧处理视频帧,所述时序模块用于对齐视频帧。14、作为优选的技术方案,所述原始输入模块和所述unet模块预先训练好,在所述图像驱动模型训练的过程中不更新参数。15、作为优选的技术方案,通过将所述图像编码和所述帧间一致性编码在通道维度上拼接并极性条件编码,得到所述条件帧特征。16、作为优选的技术方案,所述帧间一致性编码的计算过程包括:17、计算给定条件帧与所述目标视频帧序列中每一帧在预设色彩空间上的1-范数距离,基于样本集中的最大值进行全局归一化处理,得到帧间一致性编码。18、作为优选的技术方案,针对处于样本集中a%以下或b%以上的1-范数距离,分别替换为a%、b%处的1-范数距离。19、作为优选的技术方案,所述帧间一致性编码采用下式计算:20、21、其中,为第i个给定条件帧和第j个目标视频帧序列帧在hsv色彩空间上的1-范数距离,dmax为样本集中的最大的1-范数距离,为得到的帧间一致性编码,smax和smin为归一化的超参数,d5表示样本集中5%的统计量对应的1-范数距离,d95表示95%的统计量对应的1-范数距离,:=表示定义为。22、本发明的另一个方面,提供了一种电子设备,包括:一个或多个处理器以及存储器,所述存储器内储存有一个或多个程序,所述一个或多个程序包括用于执行上述基于文本提示词和图像驱动的内容生成方法的指令。23、本发明的另一个方面,提供了一种计算机可读存储介质,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行上述基于文本提示词和图像驱动的内容生成方法的指令。24、与现有技术相比,本发明至少具有以下优点之一:25、(1)更好编码和保留给定条件帧的细节:通过对图像驱动任务构建了一个条件编码模块,该模块能够兼容现有的文本生成图像、文本生成视频模型,以给定条件帧和帧间一致性为输入,能更好编码和保留条件帧的细节,能够将给定条件帧的有效信息保留下来,并通过编码再加入到原始输入模块对噪声的编码中去。通过这样的设计,能够根据输入的帧间一致性显式地编码和保留条件帧中的信息和细节,能够生成更好的还原生成图像内容的视频片段。26、(2)提高生成视频的稳定性和可控性:本技术对现有训练数据集的扩充,除了条件帧、目标条件帧,还包含了条件帧和目标条件帧的帧间一致性,通过条件编码模型显式编码条件帧信息,同时对条件编码模型和时序模型进行微调,显示出了更好的对文本提示词的响应,能够有效地生成相关的动效。27、(3)动效的剧烈程度可控:将动作过快或静止的数据映射到特定的输入区间,通过在推理时回避该输入区间以获得高质量的生成结果。同时,训练结束后,可以通过调整输入的帧间一致性数值来控制生成视频中动效的剧烈程度。帧间一致性的输入不仅能够让用户通过避免设置极小值来避免生成动画过于剧烈的低质量画面,同时还能让用户在合理的数值范围内调整生成视频的动效剧烈程度,达到更可控的图像驱动效果。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1