一种基于新型生成对抗网络的眼部图像修复方法与流程

文档序号:14912365发布日期:2018-07-10 23:46阅读:142来源:国知局

本发明涉及图像处理领域,尤其是涉及了一种基于新型生成对抗网络的眼部图像修复方法。



背景技术:

眼部图像修复是图像处理中的一个重要内容,其目的是利用图像现有的信息来恢复丢失的信息,常用于公安、交通、医学、军事侦查等领域。具体地,在公安领域,可用于公安图片中的人脸鉴别以及不完整图片的复原。在交通领域,可以利用图像修复分析交通事故,去除事故图片的噪音。在医学领域,有助于X光肺部图像增晰、超声波图像处理等。而在军事领域,刑事取证中读取眼部图像的关键信息至关重要。但是在公安、医学、军事侦察以及日常生活的活体检测中常常由于摄像设备光学系统的失真、调焦不准、相对运动或人物眨眼闭眼等造成图像的模糊,使得信息的提取变得困难,消除图像中的噪声影响也越来越重要,比如从快速运动的人群中识别出嫌疑人、从公安刑事影像资料中提取证明或进行技术鉴定等等,这些重要应用都需要通过图像修复技术来尽可能地去除失真,进行人物闭眼图像恢复等,因此对于眼部图像修复的技术研究具有重要的现实意义。

本发明提出了一种基于新型生成对抗网络的眼部图像修复方法,引入新型生成对抗网络(ExGAN),使用由生成器创建的第二个图像相关信息指导生成器,随着越来越多的数据集被开发,假设特定对象的第二图像合理存在,修复面部图像时,采用同一个人在不同时间或不同姿势的第二图像作为参考图像,ExGAN在保留原始照片特征的同时,利用参考数据,提出基于参考图像和代码进行修复的方法。本发明使用参考图像区域内的样本信息进行修复,使用一个感知代码描述该对象,在对抗网络中的多个点上插入额外信息,增加其描述能力,有利于产生如原图像一样高质量、栩栩如生的个性化修复效果。



技术实现要素:

针对眼部图像修复,本发明提出了一种基于新型生成对抗网络的眼部图像修复方法,引入新型生成对抗网络(ExGAN),使用由生成器创建的第二个图像相关信息指导生成器,修复面部图像时,采用同一个人在不同时间或不同姿势的第二图像作为参考图像,ExGAN在保留原始照片特征的同时,利用参考数据,分别提出基于参考图像和代码进行修复的方法。

为解决上述问题,提出了一种基于新型生成对抗网络的眼部图像修复方法,其主要内容包括:

(一)眼部图像修复;

(二)新型生成对抗网络;

(三)模型架构。

其中,所述的眼部图像修复,使用参考图像区域内的样本信息进行修复,使用一个感知代码描述该对象,在对抗网络中的多个点上插入额外信息,增加其描述能力,产生更真实的修复效果。

其中,所述的新型生成对抗网络,引入新型生成对抗网络(ExGAN),生成器创建图像后,得到第二个图像,使用第二个图像的相关信息指导生成器,随着越来越多的数据集被开发,假设特定对象的第二图像合理存在,修复面部图像时,采用同一个人在不同时间或不同姿势的第二图像作为参考图像,网络通过学习,将这些信息合并为一个语义指南,生成正确的修复结果,ExGAN在保留原始照片特征的同时,利用参考数据,在ExGAN中提出两种独立的方法来修复图像:首先是基于参考图像进行修复的方法,在生成器G中参考图像ri作为向导,在鉴别器D中使用参考图像ri作为附加信息来确定所生成的图像是否为真;其次是基于代码的修复方法,在信息区域创建感知代码ci,将人眼图像的压缩版本存储在向量中,其中每个目标都以附加信息ri和ci为条件,为目标添加额外的内容损失项。

进一步地,所述的鉴别器,鉴别器处理整个人脸图像和放大的眼睛图像,全局对抗性损失强化整体语义的一致性,局部对抗性损失确保所生成输出的细节以及清晰度,全局卷积分支和局部卷积分支的输出通过连接形成一个S形函数,在鉴别器D中输入参考图像,将额外的全局卷积分支添加到鉴别器中,把三个分支的输出连接起来。

进一步地,所述的基于参考图像进行修复,训练集xi中的每个图像都存在一个对应的参考图像ri,训练集X被定义为一个元组X={(x1,r1)},在眼部图像修复中,ri是xi中同一个人不同姿态的图像,在xi中移除修补程序生成新图像zi,将学习目标定义为:

为了更好的普遍化,在训练集xi中对应地给定一组参考图像集合Ri,将训练集扩展到一个元组集合:X={x1×R1,…,xn×Rn},该集合由每个需要的修复图像及其参考图像之间的笛卡尔乘积组成。

进一步地,所述的基于代码的修复,数据集中每个图像的像素数为|I|,假设存在一个压缩函数其中N<<|I|,对于每个需要修复的图像zi及其相应的参考图像ri,使用ri生成代码ci=C(ri),鉴于已编码的样本信息,将对抗目标定义为:

其中,压缩函数是一个将实例投影到某个流形上的通用深度网络,等式(2)中的最后一项是感知区域中的生成图像G(zi,ci)与原始参考图像ri距离的可选损失,与测量低维流形中生成图像和参考图像之间的距离相对应,如果生成器G是完全卷积的,当输入ci时,需要修改其架构以便处理任意数量的向量。

进一步地,所述的压缩函数,为了生成感知代码ci,为压缩函数C训练一个单独的自动编码器,在训练C期间,编码器选取单只眼睛作为输入,自动编码器的解码器分成左右分支,分别对应左右眼不同的目标,以确保编码器学习双眼的共同特征时没有重复,通过编码对特征进行区分,每只眼睛都用128维度的浮点向量进行编码,通过组合这些编码形成256维度的眼图编码。

其中,所述的模型架构,使用了一个标准卷积生成器,其瓶颈区域包含扩张的卷积,由于生成眼睛图像比一般的修复内容更受限制,所以网络内层的通道数较少,在生成器中输入一个RGB图像,移动需要修复的部分,堆叠一个单通道二进制掩码,指示要填充的区域,生成器通过采用额外的四个通道并参考图像的RGB值,以及另一个单通道掩码表明眼睛的位置,在训练前,所有被检测到的眼睛位置与数据集一起存储。

进一步地,所述的生成器,该生成器使用编码器和解码器的结构,共有4个下采样和上采样层,具有256维度的全连接瓶颈层,瓶颈层与眼部代码连接,输出的总体维度为512,眼睛代码通过等式(2)的感知损失项,附加到鉴别器固定尺寸的倒数第二个输出上,由于代码的256个维度大于原始鉴别器的两个输出,因此在最后一个S形函数前,通过一个较小的双层完全连接网络对全局和局部输出代码进行实验,以此自动学习代码和卷积鉴别器之间的最佳权重。

进一步地,所述的数据集,ExGAN需要一个包含每个图像对的数据集,但是由于这种类型的数据集并不常见,为了规避现有数据集的局限性,开发大约200万个2D对齐图像作为内部训练集,数据集确保每个人至少有3张图像,训练集中的每个图像都包含一张睁眼睛的图像,在各种环境和照明条件下拍摄的高分辨率图像使得ExGAN能够对各种输入照片进行内部修复,并且无噪声图像和非极端姿势图像提高了生成的眼睛质量和清晰度。

附图说明

图1是本发明一种基于新型生成对抗网络的眼部图像修复方法的系统框架图。

图2是本发明一种基于新型生成对抗网络的眼部图像修复方法的系统流程图。

图3是本发明一种基于新型生成对抗网络的眼部图像修复方法的重建损失比较图

图4是本发明一种基于新型生成对抗网络的眼部图像修复方法的感知结果比较图。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于新型生成对抗网络的眼部图像修复方法的系统框架图。主要包括眼部图像修复、新型生成对抗网络、模型架构。

其中,所述的眼部图像修复,使用参考图像区域内的样本信息进行修复,使用一个感知代码描述该对象,在对抗网络中的多个点上插入额外信息,增加其描述能力,产生更真实的修复效果。

其中,所述的新型生成对抗网络,引入新型生成对抗网络(ExGAN),生成器创建图像后,得到第二个图像,使用第二个图像的相关信息指导生成器,随着越来越多的数据集被开发,假设特定对象的第二图像合理存在,修复面部图像时,采用同一个人在不同时间或不同姿势的第二图像作为参考图像,网络通过学习,将这些信息合并为一个语义指南,生成正确的修复结果,ExGAN在保留原始照片特征的同时,利用参考数据,在ExGAN中提出两种独立的方法来修复图像:首先是基于参考图像进行修复的方法,在生成器G中参考图像ri作为向导,在鉴别器D中使用参考图像ri作为附加信息来确定所生成的图像是否为真;其次是基于代码的修复方法,在信息区域创建感知代码ci,将人眼图像的压缩版本存储在向量中,其中每个目标都以附加信息ri和ci为条件,为目标添加额外的内容损失项。

进一步地,所述的鉴别器,鉴别器处理整个人脸图像和放大的眼睛图像,全局对抗性损失强化整体语义的一致性,局部对抗性损失确保所生成输出的细节以及清晰度,全局卷积分支和局部卷积分支的输出通过连接形成一个S形函数,在鉴别器D中输入参考图像,将额外的全局卷积分支添加到鉴别器中,把三个分支的输出连接起来。

进一步地,所述的基于参考图像进行修复,训练集xi中的每个图像都存在一个对应的参考图像ri,训练集X被定义为一个元组X={(x1,r1)},在眼部图像修复中,ri是xi中同一个人不同姿态的图像,在xi中移除修补程序生成新图像zi,将学习目标定义为:

为了更好的普遍化,在训练集xi中对应地给定一组参考图像集合Ri,将训练集扩展到一个元组集合:X={x1×R1,…,xn×Rn},该集合由每个需要的修复图像及其参考图像之间的笛卡尔乘积组成。

进一步地,所述的基于代码的修复,数据集中每个图像的像素数为|I|,假设存在一个压缩函数其中N<<|I|,对于每个需要修复的图像zi及其相应的参考图像ri,使用ri生成代码ci=C(ri),鉴于已编码的样本信息,将对抗目标定义为:

其中,压缩函数是一个将实例投影到某个流形上的通用深度网络,等式(2)中的最后一项是感知区域中的生成图像G(zi,ci)与原始参考图像ri距离的可选损失,与测量低维流形中生成图像和参考图像之间的距离相对应,如果生成器G是完全卷积的,当输入ci时,需要修改其架构以便处理任意数量的向量。

进一步地,所述的压缩函数,为了生成感知代码ci,为压缩函数C训练一个单独的自动编码器,在训练C期间,编码器选取单只眼睛作为输入,自动编码器的解码器分成左右分支,分别对应左右眼不同的目标,以确保编码器学习双眼的共同特征时没有重复,通过编码对特征进行区分,每只眼睛都用128维度的浮点向量进行编码,通过组合这些编码形成256维度的眼图编码。

其中,所述的模型架构,使用了一个标准卷积生成器,其瓶颈区域包含扩张的卷积,由于生成眼睛图像比一般的修复内容更受限制,所以网络内层的通道数较少,在生成器中输入一个RGB图像,移动需要修复的部分,堆叠一个单通道二进制掩码,指示要填充的区域,生成器通过采用额外的四个通道并参考图像的RGB值,以及另一个单通道掩码表明眼睛的位置,在训练前,所有被检测到的眼睛位置与数据集一起存储。

进一步地,所述的生成器,该生成器使用编码器和解码器的结构,共有4个下采样和上采样层,具有256维度的全连接瓶颈层,瓶颈层与眼部代码连接,输出的总体维度为512,眼睛代码通过等式(2)的感知损失项,附加到鉴别器固定尺寸的倒数第二个输出上,由于代码的256个维度大于原始鉴别器的两个输出,因此在最后一个S形函数前,通过一个较小的双层完全连接网络对全局和局部输出代码进行实验,以此自动学习代码和卷积鉴别器之间的最佳权重。

进一步地,所述的数据集,ExGAN需要一个包含每个图像对的数据集,但是由于这种类型的数据集并不常见,为了规避现有数据集的局限性,开发大约200万个2D对齐图像作为内部训练集,数据集确保每个人至少有3张图像,训练集中的每个图像都包含一张睁眼睛的图像,在各种环境和照明条件下拍摄的高分辨率图像使得ExGAN能够对各种输入照片进行内部修复,并且无噪声图像和非极端姿势图像提高了生成的眼睛质量和清晰度。

图2是本发明一种基于新型生成对抗网络的眼部图像修复方法的系统流程图。整体训练流程可概括为(1)从输入图像中标出眼睛;(2)以参考图像或代码作为指导对图像进行修复;(3)通过输入图像与被修复图像之间的重构损失来计算生成器参数的梯度;(4)通过参考图像,被修复的图像以及标定图像计算鉴别器参数的梯度;(5)通过发生器可以反向传播鉴别器的错误,使用感知损失来更新生成器的参数,在基于参考图像的ExGAN中,压缩函数是一个恒等函数。

图3是本发明一种基于新型生成对抗网络的眼部图像修复方法的重建损失比较图。该图展示了ExGAN对整体重建损失的影响。随着眼部代码的增加,可以明显看出基于代码和基于参考图像的损失减少幅度明显大于非GAN的内容损失。

图4是本发明一种基于新型生成对抗网络的眼部图像修复方法的感知结果比较图。比较生成对抗网络(GAN)和ExGAN产生的感知结果。(a)是标定图像,(b)是未采用ExGAN的结果,(c)是基于参考图像的结果,(d)是基于代码的结果。从图中可以看出,每个ExGAN都产生了优异的感知结果,其中基于代码的示例模型产生的结果最为逼真。

对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1