基于单图像生成对抗网络的语义图像类比方法与流程

文档序号:23342310发布日期:2020-12-18 16:39阅读:166来源:国知局
基于单图像生成对抗网络的语义图像类比方法与流程

本发明涉及图像处理技术领域,尤其涉及一种基于单图像生成对抗网络的语义图像类比方法。



背景技术:

诸如可变自动编码器(variationalauto-encoder,vae)和生成对抗网络(generativeadversarialnetwork,gan)的可生成模型在以可生成方式对自然图像布局进行建模方面取得了长足的进步。通过将诸如类标签,文本,边线或分割图之类的附加信号作为输入,条件生成模型可以可控方式生成照片级逼真的样本,这在诸如交互设计和艺术风格转移之类的许多多媒体应用中很有用。

具体来说,分割图为生成模型提供了密集的像素级指导,并使用户能够在空间上控制预期的实例,这比像类标签或样式这样的图像级指导要灵活得多。

isola等人提出pix2pix模型显示了给定密集条件信号(包括草图和分割图)的条件gan生成可控图像的能力(phillipisola,jun-yanzhu,tinghuizhou,andalexeia.efros.2017.image-to-imagetranslationwithconditionaladversarialnetworks.inproceedingsoftheieee/cvfconferenceoncomputervisionandpatternrecognition(cvpr).5967–5976)。wang等人用粗到细生成器和多尺度鉴别器扩展上述框架,以生成具有高分辨率细节的图像(ting-chunwang,ming-yuliu,jun-yanzhu,andrewtao,jankautz,andbryancatanzaro.2018.high-resolutionimagesynthesisandsemanticmanipulationwithconditionalgans.inproceedingsoftheieee/cvfconferenceoncomputervisionandpatternrecognition(cvpr).8798–8807)。park等人提出了一种空间自适应的归一化技术(spade),该技术使用语义图来预测仿射变换参数,以调制归一化层中的激活(taesungpark,ming-yuliu,ting-chunwang,andjun-yanzhu.2019.semanticimagesynthesiswithspatially-adaptivenormalization.inproceedingsoftheieee/cvfconferenceoncomputervisionandpatternrecognition(cvpr).2337–2346)。通常,这些方法需要一个大型训练数据集才能将分割类别标签映射到整个数据集的图像块外观。但是,在生成的图像中某个标签实例的出现仅限于该标签在训练数据集中的外观,因此限制了这些模型在随机自然图像上的泛化能力。

另一方面,最近针对单图像gan的研究表明,有可能从单个图像的内部补丁布局中学习生成模型。ingan定义了调整大小的转换,并训练了一个生成模型来捕获内部补丁统计信息以进行重新定向(assafshocher,shaibagon,phillipisola,andmichalirani.2019.ingan:capturingandretargetingthe"dna"ofanaturalimage.inproceedingsoftheieee/cvfinternationalconferenceoncomputervision(iccv).4491–4500)。singan利用多阶段训练方案生成无条件图像,该条件可从噪声中生成任意大小的图像(tamarrottshaham,talidekel,andtomermichaeli.2019.singan:learningagenerativemodelfromasinglenaturalimage.inproceedingsoftheieee/cvfinternationalconferenceoncomputervision(iccv).4569–4579)。kernelgan使用深度线性生成器并对其进行约束,以学习针对盲超分辨率的图像特定的降级内核(sefibell-kligler,assafshocher,andmichalirani.2019.blindsuper-resolutionkernelestimationusinganinternal-gan.inadvancesinneuralinformationprocessingsystems32:annualconferenceonneuralinformationprocessingsystems(neurips).284–293)。尽管这些特定于图像的gan独立于数据集并产生可喜的结果,但单幅图像内补丁的语义含义仍然鲜有探索。



技术实现要素:

本发明的目的是提供一种基于单图像生成对抗网络的语义图像类比方法,所产生的结果视觉质量和符合准确性都达到了最优。

本发明的目的是通过以下技术方案实现的:

一种基于单图像生成对抗网络的语义图像类比方法,通过编码器、生成器、辅助分类器及鉴别器构成的网络模型实现;其中:

训练阶段:在每次训练迭代期间,对于给定的源图像及对应的源语义分割图像,进行相同的随机扩充操作,获得对应的增强图像和增强语义分割图像;对于源语义分割图像及增强语义分割图像通过相同的编码器提取出各自的特征张量,再通过生成器中的语义特征转换模块基于两个特征张量预测图像域中的变换参数,从而变换参数的指导下结合源图像生成目标图像;目标图像将分别输入至鉴别器与辅助分类器,各自预测目标图像与增强图像的得分图以及目标图像对应的目标语义分割图像;利用目标图像与源图像之间的外观相似度损失、基于得分图得到的目标图像与增强图像特征匹配损失、以及目标语义分割图像与增强语义分割图像之间的语义对齐损失构建总损失函数进行训练;

推断阶段:将源图像及对应的源语义分割图像、以及指定的语义分割图像输入至语义图像类比网络,输出与指定的语义分割图像相同语义布局的图像。

由上述本发明提供的技术方案可以看出,能够在给定任意图像和其语义分割图的情况下训练出专属于给定图像的生成模型,该模型能够根据期望语义布局的不同对源图像进行重新组合,生成符合目标语义布局的图像,达到语义图像类比的效果。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。

图1为本发明实施例提供的语义图像类比概念图示;

图2为本发明实施例提供的一种基于单图像生成对抗网络的语义图像类比方法的示意图;

图3是为本发明实施例提供的sft模块的计算流程图;

图4是为本发明实施例提供的本发明图像生成效果与现有图像类比方法的视觉效果对比;

图5是为本发明实施例提供的本发明图像生成效果与与现有单图像gan方法的视觉效果对比;

图6是为本发明实施例提供的本发明图像生成效果与现有语义图像翻译方法的视觉效果对比;

图7是为本发明实施例提供的本发明在语义图像类比任务上的视觉效果;

图8是为本发明实施例提供的本发明在图像物体移除任务上的视觉效果;

图9是为本发明实施例提供的本发明在人脸编辑任务上的视觉效果;

图10是为本发明实施例提供的本发明在边缘到图像翻译任务上的视觉效果。

具体实施方式

下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。

本发明实施例提供一种基于单图像生成对抗网络的语义图像类比方法,通过条件单图像gan,训练了一个生成模型,该模型通过在源图像本身,而不是外部数据集中的分段标签生成语义可控制的图像。将此任务命名为“语义图像类比”,作为“图像类比”(aaronhertzmann,charlese.jacobs,nuriaoliver,briancurless,anddavidsalesin.2001.imageanalogies.inproceedingsofthe28thannualconferenceoncomputergraphicsandinteractivetechniques.327–340)的一种变体,并定义如下。

给定源图像i及其对应的语义分割图p,以及一些其他语义分割图p',合成新的目标图像i',使得:

上式中,::表示类别关系。

如图1中所示,目标图像i'(虚线框中的四个图像)应该与源图像i的外观和目标分割区p'(虚线框四个分割图像)的布局都匹配。任务设置旨在以从p到p'的相同方式找到从i到i'的类似转换。此外,还使用两个指标来评估从语义图像类比模型生成的图像的质量:图像块级别距离和语义对齐分数。前者限制原始图像i是生成图像i'的补丁的唯一来源,而后者则强制生成图像i'必须具有与目标分割图p'对齐的语义布局。

在实践中,可以编辑源分割图p或提供具有相似上下文的另一幅图像以获得目标分割图p'。然后,生成器可以从源图像i生成语义对齐的目标图像i',类似于从p获得p'的方式。与现有方法的比较表明,在定量和定性评估方面,本发明提供的方法均具有优势。由于灵活的任务设置,因此所提出的方法可以轻松扩展到各种应用,包括对象移除,面部编辑和自然图像的草图到图像生成。

如图2所示,为本发明提供一种基于单图像生成对抗网络的语义图像类比方法的主要原理,通过编码器、生成器、辅助分类器及鉴别器构成的网络模型实现;其中:

训练阶段:我们设计了一个自监督框架,用于从单个图像训练条件gan。在每次训练迭代期间,对于给定的源图像isource及对应的源语义分割图像psource,进行相同的随机扩充操作,获得对应的增强图像iaug和增强语义分割图像paug;对于源语义分割图像及增强语义分割图像通过相同的编码器提取出各自的特征张量,再通过生成器中的语义特征转换模块基于两个特征张量预测图像域中的变换参数,从而在变换参数的指导下结合源图像生成目标图像itarget;目标图像将分别输入至鉴别器与辅助分类器,各自预测目标图像与增强图像的得分图以及目标图像对应的目标语义分割图像;利用目标图像与源图像之间的外观相似度损失、基于得分图得到的目标图像与增强图像特征匹配损失、以及目标语义分割图像与增强语义分割图像之间的语义对齐损失构建总损失函数进行训练;

在训练过程中,逐渐增加增强的随机性。由于生成器是同态的,因此当ptarget与psource相同时,可以很好地重构源图像。此处的ptarget是一般的表示,在训练中实际上ptarget=paug,因而在下面的训练过程中两者可以混用。

本发明实施例中,采用采样和重建两种模式交替训练。采样模式下,也就是上文介绍的方式,即生成器以增强语义分割图像为指导,以生成外观与增强图像iaug相同且语义布局与增强语义分割图像paug相同的目标图像。重建模式与采样模式的工作过程相同,直接输入为给定的源图像及对应的源语义分割图像,利用源语义分割图像重构源图像。

推断阶段:将源图像及对应的源语义分割图像、以及指定的语义分割图像输入至语义图像类比网络,输出与指定的语义分割图像相同语义布局的图像。

训练完成后,网络模型能够在给定任意形状布局的语义分割图的情况下生成与所给语义分割图相吻合的目标图像,既保留源图像的内容信息,又能与目标语义布局相吻合。如图1所示,训练好的网络模型可以根据给定的形状来改变源图像马的形状。

为了便于理解,下面针对本发明的原理及过程做详细的介绍。

本发明的技术原理是单图像的生成对抗网络。对于单张图像,训练一个以其语义分割图为条件的生成对抗网络(即生成模型),其主要包含前文提到的生成器、辅助分类器及鉴别器,采用一系列新颖的设计建立语义分割图与图像像素之间的语义关联,进而利用这种关联通过语义分割图达到重新组合图像的目的。

将语义图像类比任务转换为补丁级别的布局匹配问题,并在语义分割域中进行了转换指导。为此,需要解决三个主要挑战:从单个图像训练生成模型的配对数据源,从分割域到图像域提供指导的条件方案,以及对生成的样本(即生成器的输出)进行适当的监督。为了完成此任务,提出了一种整合以下三个基本部分的新颖方法:

1)设计了一种具有渐进数据增强策略的自我监督培训框架。通过与增强分割和原始分割进行交替优化,成功地从单个图像训练了条件gan,这很好地概括了看不见的变换。

2)设计了一个语义特征转换模块,该模块将转换参数从分割域转换为图像域。

3)设计了一个语义感知的补丁一致性损失,它鼓励转换后的图像仅包含源图像中的补丁。与语义对齐约束一起,它使我们的生成器可以生成具有目标语义布局的真实图像。

如图1所示,训练阶段主要步骤包括:

步骤1、给定源图像isource及对应的源语义分割图像psource,首先执行随机扩充以获得增强图像iaug和增强语义分割图像paug,然后将源语义分割图像psource和增强语义分割图像paug输入相同的编码器e(即,图1中的eseg)以分别提取特征。

本发明实施例中,所述随机扩充操作包括如下操作中的一种或多种的结合:随机翻转、大小调整、旋转和裁剪中。随着训练步骤线性增加这些操作的随机性,这种渐进策略可以帮助编码器在训练的早期迭代中学习源图像的外观。

步骤2、设计了语义特征转换(semanticfeaturetranslation,sft)模块,来从特征张量预测图像域中的变换参数。

通过sft模块将转换参数从分割域显式转换为图像域,如图3所示。将从源语义分割图像psource到增强语义分割图像paug的转换建模为特征级别的线性变换。因此,对于源语义分割图像的特征张量fsource以及增强语义分割图像的特征张量faug进行逐元素作比和作差,得到的特征缩放张量fscale和特征移位张量fshift用于后续下采样阶段,对于第l个下采样阶段,计算:

其中,分别为第l个下采样阶段中从特征张量faug、特征张量fsource提取出的特征张量;例如,下采样次数为k,则两个特征张量被划分为k个部分,每一个下采样阶段取出相应部分带入上述进行计算。

使用特征缩放张量和特征移位张量来近似作为分割图变换的缩放因子和移位因子,如图3所示,可以使用两个sft单元对从分割域到图像域的转换过程进行建模,分别处理得到图像域的缩放因子和移位因子sft单元的参数通过训练过程学习得到。

步骤3,从sft模块,得到了图像域的缩放因子和移位因子(γimg,βimg),生成器g的编码器-解码器部分在的指导下映射到目标图像。

对于生成器中的第l+1每个下采样阶段,输出特征张量由下式得到:

其中,ds代表下采样模块(即编码器),mean和std分别代表取均值和标准差;。

生成器的上采样模块(即解码器)再将下采样阶段输出的图像特征张量映射到图像域,从而生成的目标图像。本发明实施例中,生成器为具有k个下采样块和k个上采样块的编码器-解码器结构;每个块包含一个步长为3的3×3卷积层,以及一个步长为2的4×4卷积层或转置卷积层,用于下采样或上采样,且每个块还使用光谱归一化、批归一化和leakyrelu激活操作。示例性的,起始频道数为32,在下采样期间将其加倍。

示例性的,可以设置k=3,三个下采样块的每个阶段都会接收然后按上式输出而上采样块的输入是输出是目标图像itarget。

步骤4、鉴别器d将增强图像iaug作为真实样本,并将生成目标图像itarget作为伪样本。同时,所生成的图像也被输入到辅助分类器s中以预测其分割图。

本发明实施例中,鉴别器是完全卷积的patchgan(phillipisola,jun-yanzhu,tinghuizhou,andalexeia.efros.2017.image-to-imagetranslationwithconditionaladversarialnetworks.inproceedingsoftheieee/cvfconferenceoncomputervisionandpatternrecognition(cvpr).5967–5976),它预测得分图以区分真实和假样本。

本发明实施例中,辅助分类器(图2中的segmentationnetwork)中使用deeplabv3架构(liang-chiehchen,yukunzhu,georgepapandreou,florianschroff,andhartwigadam.2018.encoder-decoderwithatrousseparableconvolutionforsemanticimagesegmentation.inproceedingsoftheeuropeanconferenceoncomputervision(eccv),vol.11211.833–851)的简化版本进行语义分割。

步骤5、构建损失函数训练所设计的自监督网络。

根据语义图像类比的任务设置,生成的图像应满足以下要求:1)与源图像内容一致;2)语义布局与目标分割图对齐。因此,提出图像块相干损失(patchcohenrenceloss)来衡量生成的图像和源图像之间的外观相似度。并提出语义对齐损失(semanticalignmentloss),由辅助分类器从目标图像预测的目标语义分割图像和源语义分割图像psource之间的一致性衡量。具体来说:

1)通过图像块相干损失来衡量生成的图像和源图像之间的外观相似度,如果生成器生成在源图像中找不到的对应的图像块,则此约束将对生成器g造成不利影响,定义为源图像和目标图像之间的图像块距离下限的平均值:

其中,ntarget是目标图像itarget中的图像块数量,isource表示源图像,g(isource)=itarget;uclass和vclass表示图像块up和vq的分割标签,d(·)是距离度量函数。这一损失放松了像素距离的位置依赖性。相反,我们将图像视为视觉特征词袋包。对于目标图像中的每个图像块,运行最近邻搜索,以从源图像中找到具有相同类标签的最相似图像块,然后取其距离的平均值。我们从经验上发现,尽管其他特征描述符也适用,但是来自预训练的vgg网络(karensimonyanandandrewzisserman.2015.verydeepconvolutionalnet-worksforlarge-scaleimagerecognition.inproceedingsofthe3rdinternationalconferenceonlearningrepresentations(iclr))的特征会产生良好的结果。

2)使用辅助分类器来预测目标图像的分割图(即目标语义分割图像)。然后,计算了预测的分割图和增强分割图之间的交叉熵(ce)损失。生成器的语义对齐损失定义为:

其中,ce表示交叉熵损失,其中,ppredict=s(g(isource))=s(itarget),ppredict为目标语义分割图像(辅助分类器s的输出)。

3)使用最小二乘gan损失作为对抗约束,并从鉴别器中获取特征以计算增强图像与生成的图像之间的特征匹配损失图像。

总损失函数为:

其中,表示外观相似度损失,表示语义对齐损失;λseg、λgan和λfm均为超参数,实验中均设置为1.0。

本发明实施例中,采用采样和重建两种模式交替训练;

采样模式也即前文介绍的步骤1~步骤5,生成器以增强语义分割图像为指导,以生成外观与增强图像iaug相同且语义布局与增强语义分割图像paug相同的目标图像.

重建模式与采样模式的工作过程相同,区别在于,无需执行步骤1中的执行随机操作,直接输入为给定的源图像及对应的源语义分割图像,利用源语义分割图像重构源图像;总损失函数中略有不同,即少了外观相似度损失外观相似度损失被替换为输出的重构图像和源图像之间的l1重建损失,特征匹配损失及语义对齐损失各自为目标图像与源图像之间、目标语义分割图像与源语义分割图像之间的损失。

推断阶段,网络模型参数已经固定,此时给定源图像isource及对应的源语义分割图像psource,以及指定的语义分割图像(可以通过编辑psource得到,也可以采用其他方式得到);然后,将两幅语义分割图像输入至编码器e,再执行步骤2~步骤3,得到的图像与指定的语义分割图像相吻合,又保留源图像的内容信息。

为验证本发明的有效性,分别在数量指标和视觉效果方面评估本发明上述方法的性能。

将语义图像类比任务应用于来自不同数据集的图像,包括coco-stuff,ade20k,celebamask-hq和网络(即网络中的随机选取的自然图片)。本发明上述方法的结果以及比较方法在以下两个方面进行评估:1)源图像和目标图像之间的外观相似性;2)目标图像与目标分割图的语义一致性。

为了评估生成图像与源图像的外观相似性,通过以下方式进行用户研究。从coco-stuff数据集中随机选择10对具有相同类别标签的图像。对于每对图像,以一个图像作为源图像,另一幅图像用于提供目标布局,我们使用图像类比(aaronhertzmann,charlese.jacobs,nuriaoliver,briancurless,anddavidsalesin.2001.imageanalogies.inproceedingsofthe28thannualconferenceoncomputergraphicsandinteractivetechniques.327–340,ia)和深度图像类比(jingliao,yuanyao,luyuan,ganghua,andsingbingkang.2017.visualattributetransferthroughdeepimageanalogy.acmtrans.graph.36,4(2017),120:1–120:15,dia)方法将源图像转移到另一幅图像的布局中。ia和dia是与本发明上述方法最相关的两个工作。dia需要一对图像作为源和目标,而本发明上述方法和ia只需要一个源图像和两个分割图。以随机顺序显示结果,并要求20个用户对外观相似性进行排名,并以源图像作为参考。然后,计算每种方法在所有图像和用户中的平均排名(avg.userranking)。表1显示了本发明上述方法(our)相对于两个竞争对手的优越性。

表1在语义对齐指标下的性能和用户主观评测性能

为了评估生成的图像与目标分割图的语义一致性,使用detectron2的全景分割模型来预测生成的图像的分割图,然后计算目标分割的逐像素精度(pixelaccuracy)和平均相交比例(miou)。用于评估的图像与用户研究中的图像相同。如表1所示,该方法达到了最高的精度。

在图4,图5和图6中,跟当前最优的图像类比算法ia和dia、单图片生成对抗网络模型singan(tamarrottshaham,talidekel,andtomermichaeli.2019.singan:learningagenerativemodelfromasinglenaturalimage.inproceedingsoftheieee/cvfinternationalconferenceoncomputervision(iccv).4569–4579)以及分割图到图像翻译模型spade(taesungpark,ming-yuliu,ting-chunwang,andjun-yanzhu.2019.semanticimagesynthesiswithspatially-adaptivenormalization.inproceedingsoftheieee/cvfconferenceoncomputervisionandpatternrecognition(cvpr).2337–2346)进行的视觉质量比较,本发明上述方法会生成内容一致且语义分布对齐的结果,当源图像和目标图像在语义上不相似时,ia倾向于用重复的纹理填充,dia则会产生不真实的结果。在不考虑语义结构的情况下,singan编辑通常会更改未编辑的区域并产生不希望的纹理,或仅使粘贴的对象模糊化,这导致了非常相似的编辑结果版本。虽然spade的生成结果在语义上与目标布局一致,但其内容仅限于训练数据集,并且会丢失源图像的外观。我们的方法产生的图像在外观上忠实于源图像,并在语义上与目标布局保持一致。

本发明上述方法可以通过图像的分割图对图像进行语义处理。可以在源语义分割图中移动,调整大小或删除实例,以获得目标布局。如图7所示,本发明上述方法通过任意语义更改产生高质量的结果,同时很好地保留了更改后实例的局部外观。

我们灵活的语义图像类比任务设置可实现各种应用。由于密集的条件输入,可以使用像素级控制将图像中的图像块重新组合。在图8、图9和图10中,展示了本发明上述方法的三个应用,包括1)物体移除,其中可以通过将语义分割图中的类标签修改为背景类来轻松移除不需要的对象,2)人脸编辑,其中可以通过更改分割图中人脸的形状来编辑人脸图像,以及3)边缘到图像生成,在这里可以使用其他空间条件(例如边缘图)作为条件输入。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1