一种基于文图生成模型的语言跟踪图像编辑方法

文档序号：37781915发布日期：2024-04-30 16:52阅读：10来源：国知局

本发明涉及图像处理，特别涉及一种基于文图生成模型的语言跟踪图像编辑方法。
背景技术：
：：1、文本到图像合成已成为计算机视觉和自然语言处理领域交叉的革命性领域，它能够从文本描述中生成视觉上引人入胜的图像。先锋模型如stable diffusion、dalle-2、imagen以及更近期的dalle-3，已经展示出生成艺术上连贯图像的卓越能力，吸引了学术界和工业界的广泛关注和研究兴趣。近年来，在使用生成对抗网络（generative adversarialnetworks, gans）的文本驱动图像处理领域取得了重大进展。然而，尽管gans在处理领域内数据方面取得了成功，它们在处理大型和多样化的数据时也面临挑战。除了gans，基于扩散的模型如dall-e2,imagen和stable diffusion在推进文本到图像合成领域的发展上也发挥了显著作用，它们在合成高保真度图像方面表现出卓越的性能。然而，这些模型并未提供生成图像的文本引导图像编辑能力。文本引导图像编辑是一项关键任务，涉及根据文本表达的要求对输入图像进行修改。在现有研究中，文本引导图像编辑方法可归纳为两类：无需训练和基于训练的方法。无需训练的方法被设计用于操作去噪过程中的图像生成。例如，sdedit创新性地将噪声添加到选定的引导图像上，作为初始噪声，取得了显着的结果。p2p更改交叉注意力图以控制图像的空间布局关系。基于训练的方法通过修改模型以结合特定领域的见解或集成补充的指导数据来构造新的理想图像。特别是，controlnet和t2i-adapter允许用户通过更改额外的网络模块，使用输入图像导向图像生成的方向。2、然而，已有的方法在多个实体替换等复杂编辑任务时可能会失败，特别是当源图像中包含多余信息时，可能导致编辑结果不理想。失败的原因包括在图像编辑过程中为了保持源图像的结构特征过度地引入源图像的特征信息，以及错误的交叉注意力对齐。技术实现思路1、为了克服现有技术存在的缺陷，本发明提供一种基于文图生成模型的语言跟踪图像编辑方法，以解决上述的问题。2、本发明解决其技术问题所采用的技术方案是：一种基于文图生成模型的语言跟踪图像编辑方法，包括以下步骤：3、s1：获取源文本提示、目标文本提示和编辑词；4、s2：分析目标文本提示的依赖关系，得到所有与编辑词有关系的单词并形成词汇对集合s；5、s3：获取噪声图像；当有源图像输入时，噪声图像利用源图像通过ddim反演得到；当没有源图像输入时，噪声图像通过随机数进行高斯采样得到；6、将源文本提示输入到文本编码器中得到源文本表征信息，将所述目标文本提示输入到文本编码器中得到目标文本表征信息；7、然后将源文本表征信息、目标文本表征信息和噪声图像输入到扩散模型中，并在扩散模型内重复执行以下步骤：8、s30：根据词汇对集合s，提取目标编辑图像生成过程中与词汇对集合s中单词对应的交叉注意力图，计算交叉注意力图损失值，并更新目标编辑图像生成过程中输入的噪声图像；9、s31：提取源图像在生成或重建过程中的自注意力图标记为源图像自注意力图，其中生成过程为利用源文本提示指导生成源图像的过程，重建过程为利用ddim反演得到的噪声图像再通过噪声图像重建得到源图像的过程；10、s32：利用源图像自注意力图替换目标编辑图像在生成过程中的自注意力图；11、s33：根据所述词汇对集合s，将目标编辑图像生成过程中与词汇对集合s中单词对应的交叉注意力图阈值化合并成掩膜；12、s34：利用掩膜更新目标编辑图像的噪声图像；13、重复执行步骤s30至步骤s34，直到执行完t个步数为止，t为预设定的步数，然后输出源图像的噪声图像和目标编辑图像的噪声图像；14、s4：对源图像的噪声图像和目标编辑图像的噪声图像通过vae图像解码器进行解码得到源图像和目标编辑图像，并输出。15、具体地，所述步骤s2包括：提取与编辑词有关系的单词，其中单词包括修饰词和被修饰词，对每个单词生成对应的交叉注意力图，对这些交叉注意力图两两组合得到多个子交叉注意力图对，在这些子交叉注意力图对中取出既有修饰词又有被修饰词的子交叉注意力图对标记为交叉注意力图对。16、值得说明的是，所述步骤s30的过程包括：将目标编辑图像在生成过程中正集包含的交叉注意力图对，标注为第一交叉注意力组；将目标编辑文本中不在词汇对集合s内的单词对应的所有交叉注意力图，标注为第二交叉注意力组；17、根据交叉注意力图正集损失函数计算第一交叉注意力组内交叉注意力图对的kl散度，并相加得到交叉注意力图正损失函数值：18、；19、其中s为词汇对集合，k为词汇对集合s的词汇对的个数，为词汇对中被修饰词m对应的交叉注意力图，为词汇对中修饰词n对应的交叉注意力图，为被修饰词m对应的交叉注意力图和修饰词n对应的交叉注意力图组成的交叉注意力图对；20、计算第一交叉注意力组与第二交叉注意力组内所有交叉注意力图的kl散度，相加得到交叉注意力图负损失函数值：21、；22、其中为词汇对中被修饰词m对应的交叉注意力图，为词汇对中修饰词n对应的交叉注意力图，为第二交叉注意力组中的交叉注意力图，u为第二交叉注意力组；23、计算交叉注意力图损失值：；24、根据交叉注意力图损失值计算当前步数t的梯度，更新当前噪声图像：，z为当前噪声图像为，为更新率。25、可选的，在所述步骤s32中，所述源图像的自注意力图为源图像在生成或重建过程中对应扩散模型自注意力层第4到第14层的自注意力图，以替换目标编辑图像在生成过程中对应扩散模型自注意力层第4到第14层的自注意力图。26、优选的，在所述步骤s33中，对词汇对集合s所有单词对应的目标编辑图像在生成过程中的交叉注意力图进行阈值化转化为二值图像，其中阈值化的阈值为0.4，然后将所有的二值图像取并，得到掩膜，并将掩膜标记为mask。27、值得说明的是，在所述步骤s34中，利用掩膜更新目标编辑图像的噪声图像的公式为：，其中为当前步下源图像的噪声图像，为当前步下目标编辑图像的噪声图像，为更新后目标编辑图像的噪声图像，为掩膜。28、优选的，在所述步骤s3中，ddim反演的过程通过反演公式进行：29、，经过t个步数的反演后得到包含t个噪声图像集合{}；其中，为第t步的扩散率，是一个预设定好的固定值，取值范围为[0.00085,0.012]，为扩散模型，为描述源图像的文本嵌入。30、具体地，在所述步骤s32中所述的自注意力图是在扩散模型的自注意力层中形成的中间计算值，计算公式为：31、；32、；33、；34、其中为自注意力层的查询值，为自注意力层的关键值，为扩散模型中的线性层，为扩散模型中的线性层，为扩散模型的自注意层在第t步得到的噪声模型，表示转置，d1是和的维度。35、优选的，在所述步骤s33中，所述的交叉注意力图是在扩散模型的交叉注意力层中形成的中间计算值，计算公式为：36、；37、；38、；39、其中是通过源文本提示得到的源文本表征信息或者通过目标文本提示得到的目标文本表征信息，为交叉注意力层的查询值，为交叉注意力层的关键值，为扩散模型中的线性层，为扩散模型中的线性层，为扩散模型的交叉注意力层在第t步得到的噪声模型，表示转置，d2是和的维度。40、本发明的有益效果在于：在所述基于文图生成模型的语言跟踪图像编辑方法中，充分利用预训练的文图生成模型在图像生成任务中的强大能力，深入研究注意力层对基于文本的图像编辑作用和输入提示中的复杂句子结构及依赖关系如何影响图像编辑的结果，并借由运用语言知识，在图像生成过程中操控注意力层中的中间表示，达到显著提升生成模型在图像编辑方面的性能的目的，提高图像编辑的质量。当前第1页12当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘冰雁
技术所有人：华南理工大学
我是此专利的发明人

上一篇：一种笔记本触控片生产用模切机的制作方法
上一篇：一种预制墙板用连接件

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。