交互式图像编辑方法、装置、可读存储介质及电子设备与流程

文档序号:26800200发布日期:2021-09-29 01:46阅读:173来源:国知局
交互式图像编辑方法、装置、可读存储介质及电子设备与流程

1.本发明涉及图像编辑领域,特别是涉及一种交互式图像编辑方法、装置、可读存储介质及电子设备。


背景技术:

2.基于文本描述的交互式图像编辑旨在通过一段文本描述实现对图像的交互式编辑。文本语言是人类最为重要和普遍的交流方式之一,利用文本语言描述来实现对图像的交互编辑是现代人工智能在图像处理领域的一个重要研究方向。
3.尽管现有方法在基于文本描述的图像交互编辑问题上取得了一定进展,可以初步理解文本描述中的编辑意图,但如何保障编辑的空间注意力与文本注意力的联合一致性、与非编辑区域的解耦仍是主要难点。
4.目前已有的基于文本的图像编辑方法主要通过编码器分别将文本信息与图像数据编码到隐变量语义流形空间中,在高水平的语义流形空间,利用文本信息编码和图像语义属性编码的组合和运算,实现文本信息引导的交互式编辑,最终通过解码器生成编辑结果。此类方法主要为文本到图像生成任务的延伸,缺乏对编辑与非编辑区域的界定与约束,生成结果大多在非编辑区域会发生较明显的变化,导致编辑后的图像质量不高。


技术实现要素:

5.鉴于上述状况,有必要针对现有技术中基于文本的图像编辑方法,其编辑后的图像质量不高的问题,提供一种交互式图像编辑方法、装置、可读存储介质及电子设备。
6.一种交互式图像编辑方法,包括:对原始图像进行属性特征提取,得到图像属性特征;对所述原始图像对应的描述性文本进行上下文语义的词嵌入与编码得到文本特征;对所述图像属性特征与文本特征进行融合,得到融合特征;提取所述原始图像的整体结构特征;将所述整体结构特征与所述融合特征做空间注意力融合处理,得到被编辑区域的修正结构特征;对被编辑区域的修正结构特征做非编辑区域的结构特征补全,得到修正后的整体结构特征;将修正后的整体结构特征输入至生成器中,以使所述生成器基于融合特征指导,生成与所述描述性文本匹配的图像。
7.进一步的,上述交互式图像编辑方法,其中,所述对原始图像进行属性特征提取,得到图像属性特征的步骤包括:将原始图像输入至图像属性编码器中,以使所述图像属性编码器利用inception

v3编码抽取其最后一层向量输出得到全局属性特征;
将全局属性特征作为所述图像属性编码器输入,利用由超参定义的一组多层感知机,估计出输入图像所对应的维度为的高斯混合分布,得到图像属性特征。
8.进一步的,上述交互式图像编辑方法,其中,所述对所述原始图像对应的描述性文本进行上下文语义的词嵌入与编码得到文本特征的步骤包括:所述原始图像对应的描述性文本通过词表映射得到一组单词索引,进行嵌入得到所述描述性文本长度的词向量;将所述描述性文本长度的词向量输入至文本编码器中,获取每个时序节点的输出向量,得到文本特征。
9.进一步的,上述交互式图像编辑方法,其中,所述对所述图像属性特征与文本特征进行融合,得到融合特征的步骤包括:将图像属性特征与所述文本特征中的每个词向量作列向方向拼接,得到拼接特征;将拼接特征输入至bi

lstm模型中,并获取所述bi

lstm模型中每一时序节点的输出信息,得到对应单词与图像属性分布的融合特征;取所述bi

lstm模型的末节点隐层输出向量作为图像属性

文本融合编码,将所述图像属性

文本融合编码经过一组多层感知机,解耦出融合后的图像属性分布所对应的参数向量组。
10.进一步的,上述交互式图像编辑方法,其中,所述将修正后的整体结构特征输入至生成器中,以使所述生成器基于融合特征指导,生成与所述描述性文本匹配的图像的步骤包括:将参数向量组转化给当前生成中图像,作为生成器结构中的变参;将修正后的整体结构特征输入至所述生成器中,经过多次上采样与卷积组合块的处理,输出与所述描述性文本匹配的图像。
11.进一步的,上述交互式图像编辑方法,其中,所述对原始图像进行属性特征提取的步骤之前还包括:利用图像属性编码器、文本编码器、内容编码器、融合器和生成器构建交互式图像编辑模型;采用交叉循环的方式对构建的所述交互式图像编辑模型进行训练。
12.进一步的,上述交互式图像编辑方法,其中,所述对原始图像进行属性特征提取的步骤之前还包括:采用damsm算法对所述图像属性编码器与所述文本编码器做映射空间对齐的预训练。
13.本发明还公开了一种交互式图像编辑装置,包括:图像属性特征提取模块,用于对原始图像进行属性特征提取,得到图像属性特征;文本特征编码模块,用于对所述原始图像对应的描述性文本进行上下文语义的词嵌入与编码得到文本特征;融合模块,用于对所述图像属性特征与文本特征进行融合,得到融合特征;整体结构提取模块,用于提取所述原始图像的整体结构特征;融合处理模块,用于将所述整体结构特征与所述融合特征做空间注意力融合处
理,得到被编辑区域的修正结构特征;结构补全模块,用于对被编辑区域的修正结构特征做非编辑区域的结构特征补全,得到修正后的整体结构特征;输入模块,用于将修正后的整体结构特征输入至生成器中,以使所述生成器基于融合特征指导,生成与所述描述性文本匹配的图像。
14.进一步的,上述交互式图像编辑装置,还包括:模型构建模块,用于利用图像属性编码器、文本编码器、内容编码器、融合器和生成器构建交互式图像编辑模型;模型训练模块,用于采用交叉循环的方式对构建的所述整个交互式图像编辑模型进行训练。
15.进一步的,上述交互式图像编辑装置,还包括:预训练模块,用于采用damsm算法对所述图像属性编码器与所述文本编码器做映射空间对齐的预训练。
16.本发明还公开了一种可读存储介质,其上存储有程序,所述程序被处理器执行时实现上述任一所述的方法。
17.本发明还公开了一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如权利要求1-7任意一项所述的方法。
18.本发明能够分离出图像的内容与属性特征,通过将文本语义特征融入到图像属性特征中,实现了真正的文本约束的图像编辑,克服了现有方法重新从文本生成图像的复杂性和不可控性,从而能更好的保留与文本描述无关的区域仅对描述对象作出修改,且在高质量图像的编辑上具有更快的速度。
附图说明
19.图1为本发明实施例中交互式图像编辑模型的结构示意图;图2为本发明实施例中交互式图像编辑方法的流程图;图3为本发明实施例中融合器的结构示意图;图4为本发明实施例中图像编辑效果质量的对比实验结果;图5为本发明实施例中对循环保一致性训练方式的消融实验可视化结果;图6为本发明实施例中对图像属性与内容解耦实验的效果可视化结果;图7为本发明实施例中交互式图像编辑装置的结构框图。
具体实施方式
20.下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
21.参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的
实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
22.本发明方法要求模型在具有某类物体数据集下经过训练,数据集中包括该类物体的单目标图像与描述该图像的一组对应文本。输入图像无特殊尺寸要求,最优情况下分辨率需要为256x256,图像内被编辑目标显著;输入文本应为英文字符串,无需特定的描述格式。本发明实施例中的交互式图像编辑方法可采用如图1的交互式图像编辑模型实现,该模型包括图像属性编码器ea、文本编码器et、内容编码器ec、融合器fuser和生成器g,图中lattr为属性编辑后的分布约束对应文中kl损失,adain(adaptive instance normalization)为自适应实例标准化。
23.请参阅图2,为本发明一实施例中的交互式图像编辑方法,包括步骤s11~s17。
24.步骤s11,对原始图像进行属性特征提取,得到图像属性特征。
25.为能够更好的提取到图像的属性特征,可以采用inception

v3网络结构作为图像属性编码器的核心结构,在提取出图像的局部与全局特征后,采用多个不同的多层感知机来求当前特征的分布,具体实施步骤如下:s111:将原始图像作为该编码器的输入,利用inception

v3编码得到图像的局部属性特征,和全局属性特征,其中,,,其中,为实空间,为图像通道数,为特征的通道数,为图像的尺寸,为局部特征的尺寸;s112:将作为输入,利用由超参定义的一组多层感知机以假设所处理图像所具有的最大属性类别数量,估计出输入图像所对应的维度为的高斯混合分布,得到图像属性特征,,其中为属性分量个数。该图像属性特征即表示为输出的参数向量组。
26.步骤s12,对所述原始图像对应的描述性文本进行上下文语义的词嵌入与编码得到文本特征。
27.具体实施时,先对文本进行初步词嵌入,再使用循环神经网络处理初步的词嵌入结果,获得文本基于上下文语义的词嵌入结果,与文本的句嵌入向量(全局编码),其具体实施步骤如下:s121:将长度为的描述性文本通过词表映射得到一组单词索引,并进行嵌入得到该描述性文本长度的词向量,,其中,表示词向量维度;s122:采用双向长短时记忆模型(bi

long

short term memory,bi

lstm)结构作为基于上下文的文本编码器,将输入,获取每个时序节点的输出向量作为该节点输入单词依赖上下文的词嵌入结果,得到该文本的最终词嵌入结果,即文本特征,其中;s123:取bi

lstm最后一个时序节点的隐层输出作为该文本的句编码,用作damsm算法中的自监督变量。
28.步骤s13,对所述图像属性特征与文本特征进行融合,得到融合特征。
29.具体实施时,将上述步骤s11得到的图像属性特征和步骤s12得到的文本特征做拼接,经过循环网络作具有时序依赖的融合操作,输出每个时序节点的结果与尾节点的隐层结果,进一步将隐层结果经过以多层感知机求得融合后的图像属性分布,具体实施过程如
下:s131:融合器的核心结构如图3所示,图3中mlp为一组多层感知机,lstm为长短时记忆模型,将图像属性特征,与文本特征中每个词向量作列向方向拼接(操作
“”
)得到,,即:,,为文本的第i个词向量;s132:采用bi

lstm对图像文本特征做融合,即作为输入,时序起始节点的隐层输入由随机噪声初始化以增强编辑的多样性,取每一时序节点输出为对应单词与图像属性特征的融合特征,;s133:取bi

lstm末节点隐层输出向量为图像属性

文本融合编码,将该编码经过个不同的多层感知机,解耦出融合后的图像属性分布所对应的参数向量组,记为。
30.步骤s14,采用带有残差结构的cnn作为内容编码器,提取所述原始图像的整体结构特征。
31.步骤s15,将所述整体结构特征与所述融合特征做空间注意力融合处理,得到被编辑区域的修正结构特征。
32.步骤s16,对被编辑区域的修正结构特征做非编辑区域的结构特征补全,得到修正后的整体结构特征。
33.将原始图像经过内容编码器编码后,将结果与步骤s13得到的融合特征进行空间注意力处理,求得融合特征在内容编码上所对应的位置,再经过skip connection重新恢复非融合特征所对应的位置,具体实施过程如下:原始图像作为编码器的输入,输出得到图像的整体结构特征,;将与图像属性

文本的融合特征做空间注意力融合处理,得到被编辑区域的修正结构特征,其中空间注意力融合处理的方法具体如下式:采用skip connection结构,对做非编辑相关区域的结构特征补全,得到修正后的整体结构特征,即。
34.步骤s17,将修正后的整体结构特征输入至生成器中,以使所述生成器基于融合特征指导,生成与所述描述性文本匹配的图像。
35.生成器基于融合特征指导,对原始图像内容编码结果进行再处理,生成编辑后图,其具体实施步骤如下:s171:采用adaptive instance normalization(adain)作为该生成器的主要归一化方法,从而以类似风格迁移的方式,将参数向量组转化给当前生成的图像,因此经过仿射变换处理调整为生成器可接收维度,作为生成器结构中的变参;s172:生成器输入为修正后的整体结构特征,经过多次上采样与卷
积组合块的处理,输出得到经文本作用的图像,。
36.可以理解的,在进行交互式图像编辑前,需要对模型进行训练。
37.首先,联合预训练图像属性编码器与文本编码器,再按s11~s17对模型进行预训练来实现初始化,最后采用循环交叉的方法对模型进行训练,具体实施步骤如下:m1:采用deep affined multi

modal similarity model(damsm)对图像属性特征编码器(attribute encoder)与文本编码器(text encoder)做映射空间对齐的预训练,damsm算法具体为:n1:对文本特征与图像属性特征作乘积,并沿词嵌入维度方向利用softmax进行归一化处理,即:,,;具体地,其中,为为文本特征w的转置,为中在(i, j)位置的分量表示第i个单词与图像第j个区域的相似性,定义为对该相似性沿文本空间方向(句长)归一化结果。
38.n2:计算联合区域内容向量,从而动态求出各局部区域与文本中每个单词得关联性:;所谓区域内容向量,动态表示了第i个单词与图像各区域的相关性;为的第j行向量,即为图像的第j个区域的特征;为图像第j个区域与第i个单词沿图像空间方向归一化结果;决定了局部相关子区域特征在参与计算区域内容向量时的比重。
39.n3:利用n2中求得关联性计算图像区域与文本单词的匹配得分:;;其中为文本的第i个词向量,为超参数用来扩大相关程度高的文本

图像区域对在相关性得分计算中的影响程度。
40.n4:由n3中得分计算方法,计算一个batch内所有样本对的已知图像和其文本是否匹配的条件概率分布,并用相同方法求得已知文本和其图像是否匹配的条件概率分布:;
;其中,分别为batch中第i个图像与第i个文本;为超参数,用来平滑计算结果,其效果为通过实验得出。
41.n5:利用以上求得分布计算损失:;;其中,为将以上与所相关所有式子中文本词嵌入与图像局部特征,分别替换为文本句嵌入与图像全局特征所求得结果。
42.通过damsm算法来训练图像属性编码器与文本编码器在映射编码空间上的一致性。
43.m2:以训练样本数据作为模型的输入,按照步骤s11~s17以重建原始图像为目标对所有模块进行预训练,以初始化模型参数,其中训练样本数据包括多个用于训练的图像和对应的文本。
44.m3:采用交叉循环重建方式对模型整体训练。模型输入每次为包括n个元组的一个batch,每个元组内为一个图像和一个对应的文本;取每个batch内逆序文本与顺序图像,组成新的元组,即每个图像对应一个不匹配的文本按照步骤s11~s17输入模型,得到与文本匹配的编辑后图像;将每个batch内的所有作为新的输入图像与顺序文本,组成新的元组,即每个图像对应一个不匹配的文本,此文本为其编辑前图像的匹配的文本,故按照步骤s11~s17输入模型后假设得到还原后的图像,依此假设图像应尽可能近似原始图像。采用匹配文本的重建、非匹配与匹配文本的交叉重建以及图像在编辑前后属性分布的相似性,作为主要自监督信息构建损失函数,实现对模型的训练优化。
45.交叉训练过程中的目标函数为:;其中为图像循环重建损失,为采用匹配文本编辑图像后输出图像的重建损失,为图像本身编码解码后的重建损失,为编辑后图像属性分布与目标属性分布的kl距离,为生成器的对抗损失,为经循环编辑后属性分布的重建损失,、、和分别表示超参数。
46.令为生成器,记;则;
;;;;其中,为数据
“”
在batch维度上的倒序;用来计算两个分布间的kl距离;,,分别对应原始图像的属性分布、编辑后图像的属性分布以及经过循环编辑后重建图像的属性分布;,分别为辨别器的条件与无条件情况下的判别结果,表示文本t的倒序排列,为求期望值函数,c为通道,w和h分别为图像的宽度和高度,chw即为通道、图像的宽度、高度三者的乘积。
47.对应的辨别器目标函数为:。
48.采用一种循环交叉训练的方式,解决了在此类编辑任务中对模型训练时无监督的问题。
49.进一步的,对优化后的模型进行以下相关实验。
50.将本发明实施例中的模型与现有开源工作的量化对比实验,如下表所示:本发明在caltech

ucsd birds 200(cub)数据集上分别与manigan、tagan两种方法进行了实验比较。cub数据集包括8855张训练图像,2933张测试图像。本发明采用的量化指标包括inception score(is),text

image similarity(sim),l1

pixel difference (diff)以及manipulative precision(mp)。其中is用来衡量编辑后图像的质量与真实性,sim度量了编辑图像与输入文本的相似性,diff表示编辑图像与原始输入图像的像素级差异性,mp衡量了图像的编辑效果。具体地,mp由sim与diff定义为:。根据三种方法在2933张测试图像上的平均得分,可以看出本发明在四种量化评价指标上均优于现有方法。最高的mp值表明了本发明在文本

图像编辑的一致性上取得了最优的效果,is值反应了本发明编辑结果更加真实自然。
51.此外,本发明实验中设计了用户学习对三种模型的编辑结果进行了主观测试分
享。本文邀请了50名年龄范围在15~50岁的用户进行了主观视觉质量调查,通过向用户随机交替展示这三种方法中的其中两种编辑结果,来让用户点击出编辑效果更好的一张,从实验结果表明更多的用户倾向于对本文模型的编辑结果。
52.并且与现有开源工作的编辑质量对比实验,如图4所示。从视觉观测上来看,本发明在文本描述语义相关的目标编辑上取得了更好的结果。此外,由于本发明算法并非从零开始生成图像,而是仅针对文本描述内容进行修改,所以输出结果不会整体改变编辑图像的形态,对于文本描述无关的区域尤其是背景能够保持的更好。
53.为验证本发明中循环保一致性训练方法的有效性,进行了对循环训练的消融实验,如图5所示。图中为模型训练过程中所输出的编辑结果,其中n

ep表示模型在全体训练集上迭代的次数,w/ cyc表示采用了循环保一致性的训练方式,w/o cyc表示不采用循环训练的方式。通过结果可以发现去掉循环一致性约束后模型不但无法实现有效的编辑,而且由于失去了监督,输出结果在粗糙编辑效果与重建原图的状态振荡,模型难以收敛。
54.图像内容与属性的解耦可视化,如图6所示。该实验结果验证本发明确实能够将图像的外形、背景等信息与文本描述的色彩等属性分离开来,有效分解出了图像的内容特征,验证了解耦模型的有效性。
55.本发明采用编码器将文本与图像属性信息编码到隐变量流行空间中,再利用循环神经网络通过文本编码对图像属性的分布进行操作,求取基于文本的图像属性分布;采用额外的编码器对图像进行内容编码,同时加以文本

图像属性融合特征的注意力约束,解耦出编辑与非编辑区域的图像结构;通过adaptive instance normalization作为生成器结构中主要的归一化方式,以类似风格迁移的方式恢复出编辑后图像;通过交叉循环训练的方式,约束交叉前后对应图像属性分布的相似性,以达到编辑目的,同时约束循环前后图像的重建结果来保持输出图像的质量。由于采用一阶段直接生成的方式,以及图像内容和属性的分离,本发明具有编辑速度快、编辑效果显著、编辑目标于非编辑目标区域解耦良好的优点,适合用于采用自然语言文本对彩色且含有单物体图像的编辑。
56.请参阅图7,为本发明一实施例中的交互式图像编辑装置,包括:图像属性特征提取模块10,用于对原始图像进行属性特征提取,得到图像属性特征;文本特征编码模块20,用于对所述原始图像对应的描述性文本进行上下文语义的词嵌入与编码得到文本特征;融合模块30,用于对所述图像属性特征与文本特征进行融合,得到融合特征;整体结构提取模块40,用于提取所述原始图像的整体结构特征;融合处理模块50,用于将所述整体结构特征与所述融合特征做空间注意力融合处理,得到被编辑区域的修正结构特征;结构补全模块60,用于对被编辑区域的修正结构特征做非编辑区域的结构特征补全,得到修正后的整体结构特征;输入模块70,用于将修正后的整体结构特征输入至生成器中,以使所述生成器基于融合特征指导,生成与所述描述性文本匹配的图像。
57.进一步的,上述交互式图像编辑装置,还包括:模型构建模块,用于利用图像属性编码器、文本编码器、内容编码器、融合器和生
成器构建交互式图像编辑模型;模型训练模块,用于采用交叉循环的方式对构建的所述整个交互式图像编辑模型进行训练。
58.进一步的,上述交互式图像编辑装置,还包括:预训练模块,用于采用damsm算法对所述图像属性编码器与所述文本编码器做映射空间对齐的预训练。
59.本发明实施例所提供的交互式图像编辑装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
60.本发明还提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述的交互式图像编辑方法。
61.本发明还公开了一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现上述交互式图像编辑方法方法。
62.本领域技术人员可以理解,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或装置(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或装置取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或装置而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或装置或结合这些指令执行系统、装置或装置而使用的装置。
63.计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
64.应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或它们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
65.在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、
ꢀ“
示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
66.以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员
来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1