一种基于判别区域候选对抗网络的图像转图像翻译方法与流程

文档序号:16540574发布日期:2019-01-08 20:20阅读:193来源:国知局
一种基于判别区域候选对抗网络的图像转图像翻译方法与流程

本发明涉及图像处理技术领域,特别涉及一种基于判别区域候选对抗网络的图像转图像翻译方法。



背景技术:

从人类视觉感知的角度来看,我们认为一幅合成的图像是假的,通常是因为它包含局部伪影。虽然乍看之下看起来很真实,但我们仍可以通过凝视仅约1000ms就很容易地分辨出真伪。人类有能力从粗糙的结构到精细的细节中绘制出一个真实的场景,就是我们通常在关注一个物体的细节的同时得到一个场景的全局结构,并理解它是如何和周围的环境相关联的。

人们在开发自动的图像翻译系统方面已经做了许多努力。直接的方法是在像素空间上优化l1或l2损失,然而二者都存在模糊的问题。因此,一些工作增加了对抗损失,以在空间和光谱维度上产生清晰的图像。除了gan损失外,感知损失已经应用于图像转图像的翻译任务中,但它局限于预训练的深度模型和训练数据集。尽管在评估实际图像和生成图像的差异中存在着各种各样的损失,但是用gan进行图像转图像的翻译时仍然会遇到伪影和不平滑颜色分布问题,并且由于高维分布,甚至难以生成高分辨率的真实图片。



技术实现要素:

本发明提供一种基于判别区域候选对抗网络的图像转图像翻译方法,以解决现有技术中图像转图像翻译中的出现的伪影、不平衡颜色分布以及转化后的图像分辨率不高等技术问题,通过本发明提出的基于判别区域候选对抗网络的图像转图像翻译方法可以合成高分辨率、真实细节且更少伪影的高质量图像。

一种基于判别区域候选对抗网络的图像转图像翻译方法,所述判别区域候选对抗网络包括生成器、图像块判别器和修正器,该方法包括如下步骤:

s1:将真实图像的语义分割图输入到所述生成器,生成第一图像;

s2:将所述第一图像输入所述图像块判别器中,通过所述图像块判别器预测得到得分图;

s3:使用滑动窗口在所述得分图中找到最明显的伪影区域图像块,将所述伪影区域图像块映射到所述第一图像中,得到所述第一图像中的判别区域;

s4:使用所述判别区域对所述的真实图像进行掩模运算,得到掩模后的假图像;

s5:将所述真实图像和所述掩模后的假图像输入到所述修正器中,用于判断输入图像的真假;

s6:所述生成器根据所述修正器的修正生成更接近所述真实图像的图像。

进一步地,给定一个分辨率为wi×wi的语义分割图,并且由图像块判别器处理为ws×ws大小的得分图,如果想要获得w*×w*的判别区域,则得分图的滑动窗口的尺寸为w×w,其中,w=w*×ws/wi。

进一步地,所述判别区域dr是经所述判别区域候选对抗网络映射得到的区域,即:其中,式中,为判别区域的中心坐标,τ为第一图像与得分图之间的距离,(xc,yc)为得分图的中心坐标。

进一步地,所述判别区域候选对抗网络总的目标函数为:

l(g,dp,r)=(1-λ)ld(g,dp)+λlr(g,r)+ll1(g),其中,ld(g,dp)为图像块判别器的损失,lr(g,r)为修正器的损失,ll1(g)为γ损失。

进一步地,所述图像块判别器的损失为:

ld(g,dp)=ey[logdp(x,y)]+ex,z[log(1-dp(x,g(x,z)))],

式中,dp为图像块判别器,x为真实图像的语义分割图,y为真实图像,g(x,z)为第一图像,ey[logdp(x,y)]表示将真实图像的语义分割图x和真实图像y输入到图像块判别器后得到的概率,该概率在0到1之间,真实图像的标签为1,计算该概率与1之间的损失,ex,z[log(1-dp(x,g(x,z)))]表示将真实图像的语义分割图x和第一图像g(x,z)输入到图像块判别器后得到的概率,该概率在0到1之间,假图的标签为0,计算该概率与0之间的损失。

进一步地,所述修正器的损失为:

式中,r为修正器,ymask为掩模后的假图像,α为超参数,δ为真实图像的语义分割图x上的随机噪声,为真实图像的语义分割图x的梯度,ey[logr(x,y)]表示将真实图像的语义分割图x和真实图像y输入到修正器后得到的概率,该概率在0到1之间,真实图像的标签为1,计算该概率与1之间的损失,ex,z[log(1-r(x,ymask))]表示将真实图像的语义分割图x和掩模后的假图像ymask输入到修正器后得到的概率,该概率在0到1之间,假图的标签为0,计算该概率与0之间的损失,表示添加一个正规化的损失修正器作为梯度惩罚。

进一步地,所述γ损失为:

式中,dr为判别区域,yr为与第一图像g(x,z)上的判别区域对应的真实图像上的区域,fdrpnet(g(x,z))为第一图像g(x,z)上的判别区域,β和γ为超参数,||*||1为范数,表示两个元素之间差值的绝对值之和;ex,y,z[||y-g(x,z)||1为真实图像y和第一图像g(x,z)之间的损失,为与第一图像g(x,z)上的判别区域对应的真实图像上的区域yr与第一图像g(x,z)上的判别区域fdrpnet(g(x,z))之间的损失。

本发明提供了一种基于判别区域候选对抗网络的图像转图像翻译方法,具有以下优点:本方法可以合成高分辨率、真实细节且更少伪影的高质量图像。

附图说明

为了更清楚地说明本发明实施例或现有技术中的方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图来获得其他的附图。

图1(a)为用于语义分割图的真实图像示意图;

图1(b)为语义分割图示意图;

图2为本申请实施例的方法流程示意图;

图3为本申请实施例的drpans训练提高合成图像质量的过程示意图;

图4为本申请实施例的分别针对第一图像和真实图像的得分图示意图;

图5为本申请实施例提出的drpans用于高质量图像到图像翻译的必要性示意图;

图6为本申请实施例drpans与id-cgan相比,具有不同大小的判别区域的定性结果对比示意图;

图7为本申请实施例drpans与pix2pix相比,用于翻译真实语义标签的定性结果对比示意图;

图8为本申请实施例drpans与pix2pix相比,用于航拍照片到地图以及地图到航拍图片的翻译结果对比示意图;

图9为本申请实施例drpans与crn、pix2pix相比,用于抽象图像到真实图像的结果对比示意图;

图10为本申请事实例drpans与其他方法相比,从边缘到真实以及从素描到真实的翻译结果对比示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的组件或具有相同或类似功能的组件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。

需要说明的是在本发明中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

实施例

本申请实施例为本申请的优选实施例。

一种基于判别区域候选对抗网络的图像转图像翻译方法,本申请实施例提出了针对高质量的图像转图像翻译的判别区域候选对抗网络(drpans,discriminativeregionproposaladversarialnetworks),该判别区域候选对抗网络包括生成器、图像块判别器和修正器,其中,图像块判别器(patchdiscriminator)采用patchgan马尔科夫性的判别器来提取判别区域产生掩模后的假图像。

如图2所示,该方法包括如下步骤:

s1:将真实图像的语义分割图输入到所述生成器,生成第一图像;

其中,图像语义分割就是机器自动分割并识别出图像中的内容,语义分割图是将真实图像经过图像语义分割后得到的图像。如图1所示,图1(a)为真实图像,图1(b)为该真实图像对应的语义分割图。

所述的第一图像是假图(fakemap)。

s2:将所述第一图像输入所述图像块判别器中,通过所述图像块判别器预测得到得分图;

通过所述图像块判别器预测得到得分图的具体方法为:

对输入所述图像块判别器的第一图像按矩阵进行分区,比如分为10*10的矩阵分区,如图4所示,经过所述图像块判别器的神经网络得到的矩阵上数值之和,其中,矩阵中的每一个值代表着判别区域对应位置的真假程度,对应的矩阵块中的图像越真,得分越接近1,对应的矩阵块中的图像越假,得分越接近0。得分图的得分越高,说明第一图像越真,得分图的得分越低,说明第一图像越假。

s3:使用滑动窗口在所述得分图中找到最明显的伪影区域图像块,将所述伪影区域图像块映射到所述第一图像中,得到所述第一图像中的判别区域;

s4:使用所述判别区域对所述的真实图像进行掩模运算,得到掩模后的假图像;

s5:将所述真实图像和所述掩模后的假图像输入到所述修正器中,用于判断输入图像的真假;

s6:所述生成器根据所述修正器的修正生成更接近所述真实图像的图像。

如图3所示,显示了如何提高合成图像质量的过程。可以看出,随着drpans继续训练,掩模后的假图像的判别区域(右)发生变化,因此合成图像的质量(左)得到改善同时产生了更亮(分数更高)的得分图(第一个和最后一个)。尽管在训练很多次之后很难将合成样本与实际样本区分开来,本申请实施例的drpans仍然可以在细节上不断修正生成器来优化以获得高质量结果。

首先基于图像块判别器产生有意义的得分图,它的应用不仅限于图片合成。图4为通过预先训练图像块判别器patchgan在不同图像质量等级(假和真)得分图的输出结果。其中,第一列input表示的是真实图像的语义分割图,第二列fake表示的是生成的第一图像,第三列scoremap表示的是生成的第一图像的得分图,第四列real表示的是真实的图像,第五列scoremap表示的是真实图像的得分图,可以看出,具有明显伪影和形状变形的假样本得分图,其连接区域较暗且分数更低。相比之下,真实样本的得分图更明亮且具有更高的分数。从它的可视化角度来说,可以提出判别区域找到最暗的部分,判别区域具有极好的寻找假的区域特性。

基于图4,本申请实施例中给定一个分辨率为wi×wi的语义分割图,并且由图像块判别器处理为ws×ws大小的得分图,如果想要获得w*×w*的判别区域,首先计算得分图的滑动窗口的尺寸为w×w,其中,w=w*×ws/wi;

根据判别区域的中心坐标以及判别区域的边长w*,从合成的第一图像中提取出图像块判别器认为最假的区域,即为判别区域(discriminativeregion),所述判别区域dr是经所述判别区域候选对抗网络映射得到的区域,即:dr=fdrpnet(x*c,y*c,w*),其中,式中,为判别区域的中心坐标,τ为第一图像与得分图之间的距离。

要想实现高质量的图像转图像的翻译,不仅需要优化独立的局部区域,还要重视假判别区域与周围的真实区域之间的联系,只有这样,才可以将假判别区域连接到真实区域,为生成器提供修正。因此,本申请实施例采用假判别区域对相应的真实图像做掩模,生成掩模后的假图像,然后设计一个使用cnn(卷积神经网络)修正器来区分真伪,从而优化合成高质量的图像生成器。

对于图像转图像的翻译任务,不仅想要生成逼真的样本,还希望通过不同的条件输入来实现多样性。本发明提出的判别区域候选对抗网络包含一个生成器g、一个图像块判别器dp和一个修正器r。生成器g通过图像块判别器dp和修正器r以及l1进行优化,因此,总的目标函数为:

l(g,dp,r)=(1-λ)ld(g,dp)+λlr(g,r)+ll1(g),其中,ld(g,dp)为图像块判别器的损失,lr(g,r)为修正器的损失,ll1(g)为γ损失。

原生成对抗网络gans存在不稳定和模式崩溃的问题。因此本申请实施例改进了gans的训练。为了稳定地训练具有高度多样性合成能力的drpans,本申请实施例修改drpans作为修正器r的损失,并使用原始目标函数来训练patchdiscriminator(图像块判别器)。

所述图像块判别器的损失为:ld(g,dp)=ey[logdp(x,y)]+ex,z[log(1-dp(x,g(x,z)))],

式中,dp为图像块判别器,x为真实图像的语义分割图,y为真实图像,g(x,z)为第一图像,ey[logdp(x,y)]表示将真实图像的语义分割图x和真实图像y输入到图像块判别器后得到的概率,该概率在0到1之间,真实图像的标签为1,计算该概率与1之间的损失,ex,z[log(1-dp(x,g(x,z)))]表示将真实图像的语义分割图x和第一图像g(x,z)输入到图像块判别器后得到的概率,该概率在0到1之间,假图的标签为0,计算该概率与0之间的损失。

gans中判别器d的目标是要想真实图像越接近1越好,生成器g生成的假图越接近0越好,所以,希望dp(x,y)越接近1越好,dp(x,g(x,z))越接近0越好。

对于修正器r,为了区分非常相似的真实图像和掩模后的假图像真实ymask=m(g(x,z)),其中,m(·)表示掩码操作,本申请实施例添加了一个正则化的损失修正器作为惩罚。

所述修正器的损失为:

式中,r为修正器,ymask为掩模后的假图像,α为超参数,δ为真实图像的语义分割图x上的随机噪声,为真实图像的语义分割图x的梯度,ey[logr(x,y)]表示将真实图像的语义分割图x和真实图像y输入到修正器后得到的概率,该概率在0到1之间,真实图像的标签为1,计算该概率与1之间的损失,ex,z[log(1-r(x,ymask))]表示将真实图像的语义分割图x和掩模后的假图像ymask输入到修正器后得到的概率,该概率在0到1之间,假图的标签为0,计算该概率与0之间的损失,表示添加一个正规化的损失修正器作为梯度惩罚。

之前的研究发现,将gans目标和传统的损失(如l2和l1的距离)结合到一起是有益的。考虑到l1的损失比l2的损失产生更少的模糊,在整个输入图像和生成器的局部判别区域上提供了额外的l1损失用于正则化:

式中,dr为判别区域,yr为与第一图像g(x,z)上的判别区域对应的真实图像上的区域,fdrpnet(g(x,z))为第一图像g(x,z)上的判别区域,β和γ为超参数,||*||1为范数,表示两个元素之间差值的绝对值之和;ex,y,z[||y-g(x,z)||1为真实图像y和第一图像g(x,z)之间的损失,为与第一图像g(x,z)上的判别区域对应的真实图像上的区域yr与第一图像g(x,z)上的判别区域fdrpnet(g(x,z))之间的损失。

本发明提出的判别区域候选对抗网络架构:对于生成器r,使用其具有说服力的单图像超分辨率架构。采用卷积层和反卷积层分别进行上采样和下采样,以及9个用于任务学习的残差块。每一层都用批处理化归一化和relu作为激活函数。对于图像块判别器,主要用70×70的patchgan实现。修正器是在对所有输入有全局视图的dcgan上修改的判别器。在判别器和修正器的末尾,采用sigmoid作为激活函数来输出概率。

本申请实施例的训练过程为:通过最小化l(g,dp,r)来学习drpans参数,并使用mini-batchsgd和应用adam优化器。为了学习掩模后的假图像与真实图像之间的区别,修正器r添加了梯度惩罚作为正则化的方案,其强制修正器参数是x中的利普希茨连续。通过实验发现超参数α设置为10,在各种数据集上工作稳健。将步长的数量设置为1,并在不同的任务中将mini-batch的大小分配到1~4。

为了评估本发明提出的方法在图像转图像翻译中的性能,本实施例部署了关于不同级别的翻译任务实验,将本发明的方法与现有技术进行比较。对于不同的任务,使用不同的评估指标,包括人类感知研究和自动定量测量。

1)评估指标

图像质量评估。psnr(peaksignaltonoiseratio,峰值信噪比),ssim(structuralsimilarityindexmeasurementsystem,结构失真评价)和vif(varianceinflationfactor,方差膨胀因子)都是低级计算机视觉任务(如去模糊,去雾和图像恢复)中最受欢迎的评估指标之一。因此,对于除雨和卫星地图到地图的任务,本实施例中采用psnr,ssim,vif和reco(relativeedgecoherence,相对边缘相干性)来验证结果的性能。

图像分割评估指标。本实施例中使用cityscapesbenchmark(城市景观基准)的标准度量来评价cityscapes数据集上的实际到语义标签任务,包括每像素精度,每类精度和classiou(intersectionoverunion)。

amazonmechanicalturk(amt)。amt在许多任务中被用作黄金度量来评估合成图像的真实性,并且本实施例将其用作语义标签到真实图像和地图到卫星地图翻译的任务评价度量。

fcn-8sscore。使用现成的分类器进行自动定量测量的结果是,如果生成的图像是真实的,则在真实图像上训练的分类器也能够正确地对合成图像进行分类。本实施例使用fcn-8sscore来评价cityscapes数据集上的实际任务的语义标签。

2)判别区域候选对抗网络drpans

为了研究drpans对修正合成和候选区域与实际区域之间不同的损失情况影响,本实施例设计了一个实验。从预训练的patchgan开始,继续进行多个渠道训练:继续使用patchgan进行训练;继续使用patchgan在l1损失判别和真实区域的条件下进行训练;继续使用patchgan和修正器进行训练。

patchdiscrimininator(简称patchd)以有效地从图像中发现最假或真实的区域(见图4),但很难改善这些区域的细节,这是由于patchd很难捕获高维分布。在这种情况下,本发明提出对于判别区域候选对抗网络drpnet(增加patchd的强度),并且设计了一个修正器以逐渐消除视觉伪影,从而把它变成低维估计问题。这可以被视为“自上而下”的过程,不同于其他逐渐“自下而上”图像生成方法。图5显示了本实施例提出的drpans用于高质量图像到图像翻译的必要性,这说明在平衡l1损失的情况下继续训练patchd无助于减少伪影。带l1损失的drpans可以平滑伪影,但是没有在细节上进行锐化,而带有修正器的drpans超过了patchd的性能而且视觉伪影更少。修正器和l1损失组合起来可以减少被patchd忽略的伪影。本实施例还发现假掩模操作可以提高某些样本中整个图像的流畅性(例如,门和墙之间的连接)。因此,在以下实验中实现了具有假掩模的drpans。

3)低级翻译

首先,将本发明的模型应用到两个低级翻译任务中,这些任务只与图像的外观翻译有关,例如,在去雨任务中,不需要更改输入样本的内容和纹理。因此在eqn.9中设置λ=1,仅使用修正器进行图像合成。

单幅图像去雨。图6显示了与id-cgan(imagede-rainingconditionalgeneraladversarialnetwork,图像去雨有条件一般对抗网络)相比,本发明的drpans具有不同大小的判别区域的定性结果,而且drpans的性能优于id-cgan,不仅更有效,还有更鲜艳的色彩和清晰的细节。表1显示了由psnr,ssim,vif和reco指标评估的相应定量结果,最佳结果(粗体字)由本发明的drpans实现。

4)真实到抽象的翻译

在两个真实到抽象的翻译任务上实现本发明提出的drpans,这需要多对一的抽象能力。

真实的语义标签。对于真实语义标签任务,本实施例在最常用的两个数据集上测试了drpans模型:cityscapes和facades。图7显示了本发明的drpans与cityscapes数据集上的pix2pix相比,用于翻译真实语义标签的定性结果,drpans可以合成比pix2pix更接近真实目标的结果,同时,表2中的定量结果依据每像素精度,每类精度和classiou也可以说明这一结论。

卫星地图到地图。本实施例还将航拍照片上的drpans应用于地图任务,并使用512×512分辨率的成对图像实现实验。图8的顶行显示了本发明的drpans与pix2pix相比的定性结果,表明本发明的drpans可以正确地将航拍照片上的高速公路翻译为地图上的橙色线,而pix2pix不能。

地图到卫星地图。相对于卫星地图到地图任务,本实施例还在地图到卫星地图任务测试本发明的drpans,定性结果显示在图8的底行,这清楚地表明本发明的drpans可以合成比pix2pix更高质量的航拍照片。

5)抽象到真实翻译

此外,本实施例还演示了本发明提出的drpans的几个抽象到真实的任务,可以翻译一个到多个:语义标签到照片,地图到卫星地图,边缘到真实,以及素描到真实。

语义标签到真实。对于实际任务的语义标签,翻译模型旨在从语义标签中合成真实世界的图像。基于cgan(生成对抗网络)的方法无法捕捉现实世界中的细节,并且受到变形和模糊问题的困扰。基于cnn(卷积神经网络)的方法(例如crn)可以合成高分辨率但平滑的不是真实的结果。图9显示了结果的定性比较,从图中可以看出,与pix2pix和crn相比,本发明的drpans可以以高质量(更清晰,更低失真,高分辨率)合成最真实的结果。

对gan的评估仍然是一个具有挑战性的问题。许多工作使用现成的分类器作为合成图像的自动测量。表3显示了fcn-8s模型分段的性能评估,本发明的drpans在每像素精度上超过pix2pix10%,并且在每级精度和classiou上也实现了最高性能。

人类感知验证。本实施例通过amt评估抽象到真实语义标签对照片和地图到卫星地图的性能。对于真伪的研究,本实施例遵循感知研究协议,从30个参与者中收集每一个算法的数据。每个参与者有1000毫秒的时间看一个样本。本实施例还比较了不同算法之间合成图像的真实程度。表格4说明由drpans合成的图像比现有技术(drpan18.2%>crn9.4%>pix2pix3.3%)更加真实。而且与pix2pix和crn相比,drpans合成的图像更逼真95.2%和75.7%。表格5显示了地图到卫星地图任务的比较结果,本发明的drpans分别以超过pix2pix18.7%的和cyclegan26.8%的的比率瞒过了参与者。

边缘到真实和素描到真实。对于边缘到真实和素描到真实任务,以前的工作经常遇到两个问题:一个是当边缘等输入稀疏时,很容易在区域中生成伪影和人造颜色分布;另一个是很难处理素描之类的异常输入。本实施例在utzappos50k数据集和handbag数据集上测试了本发明的drpans模型。图10表明本发明的模型也能很好地处理这两个问题。

以上具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1