基于新型条件对抗生成网络的抗模式崩溃鲁棒图像生成方法与流程

文档序号:15145506发布日期:2018-08-10 20:24阅读:784来源:国知局

本发明属于图像建模、计算机视觉、图像生成领域,涉及一种基于新型条件对抗生成网络的抗模式崩溃鲁棒图像生成方法,主要用于指定类别标签的大规模图像生成。



背景技术:

随着人工智能和深度学习的飞速发展,以大规模数据为基础的机器学习方法得到了越来越广泛的认可和应用。然而,再优秀的智能分析算法也必须以高质量的输入信息为基本前提,低质量的输入信息必然直接影响算法的整体分析效果。但是,有标签的数据集耗费大量的人工进行繁琐细致的标定,为保证数据质量,还需要额外的标签校验和核对的过程,耗时耗力。因此,在人工智能算法不断进步的今天,对有标定的数据的质量和数据有着越来越高要求的今天,通过生成模型算法在生成大量的低成本的有标签的可以以假乱真的数据,是具有直观实际意义的应用研究技术。

对抗生成启发自博弈论中的二人零和博弈,经典对抗生成模型中的两位博弈方分别由生成器和判别式器充当。生成器捕捉样本数据的分布,用服从某一分布(均匀分布,高斯分布等)的噪声生成一个类似真实训练数据的样本,追求效果是越像真实样本越好;判别模型是一个二分类器,估计一个样本来自于训练数据(而非生成数据)的概率,如果样本来自于真实的训练数据,判别器输出大概率,否则,判别输出小概率。对抗生成网络被用于图像建模取得了良好的效果,在一些数据集上已经可以通过图灵测试。

为了约束生成图像的标签类别,需要在生成器生成的过程中加入一定的条件约束,在以往的相关研究中,有一些针对条件生成模型工作,但是这些方法有各自的缺陷,一些受到严重模式崩溃的困扰,而另一些虽然没有出现明显的模式崩溃问题,但是生成的图像变化程度不大,即生成图像的多样性受到损害。

本发明对比现有相关技术方法,该技术具有适应性强、鲁棒性好,使用阶段只需要指定所需图像的类别,过程不需人工干预,训练阶段耗时短,训练过程稳定,充分保持了生成图像多样性和真实性的平衡等优点。此外,本发明还引入权值共享的构建策略,在不损失原有性能的前提下,大大提升了训练速度并减少了存储开销。



技术实现要素:

本发明的目的是克服现有技术中存在的不足,提出一种能够大规模生成指定类别标签的具有多样性的图像的方法。为实现该功能,本发明设计了由“方法训练阶段”和“在线使用阶段”两部分构成的综合性方法策略,具体技术实现方案如下。

基于新型条件对抗生成网络的抗模式崩溃鲁棒图像生成方法,基本步骤包括:

方法训练阶段:

(1)搭建由十种不同类目真实图像构建的训练样本集合,并进行归一化处理,标定各种类图像相对应的类别标签;

(2)真实图像组成的训练样本集合,进行归一化处理,并标定各种类图像相对应的类别标签;

(3)使用随机数生成器产生不同的随机向量以及相对应的模拟的类别标签作为本模型的生成器的输入,经过全连接层、反卷积层、批归一化层和激活层后,输出28*28大小的图像;

(4)将步骤(2)生成的28*28大小的图像与将步骤(1)中收集整理的真实图像输入本模型的判别器以及分类器中;

(5)以(3)中经过判别器的全连接层、卷积层、批归一化层和激活层后的输出的1维向量与其相应预期输出的1维向量之间的差距优化判别器,判别器的优化目标函数为:

ld=e[logp(d=real|x)]+e[logp(d=fake|g(z,yg))],

其中,e表示熵,d表示判别器,g表示生成器;x为真实图像,d=real表示判别器的输出预期为真实图像;z表示噪声向量,yg表示期望生成图像的标签,g(z,yg)为生成图像,d=fake表示判别器的输出预期为生成图片图像。

(6)以(3)中经过分类器的的全连接层、卷积层、批归一化层和激活层后的输出的10维向量与其相应预期输出的10维向量之间的差距优化分类器,分类器的优化目标函数为:

lc=e[logp(c=yx|x)]+e[logp(c=yg|g(z,yg))],

其中,e表示熵,c表示分类器;x为真实图像,yx表示真实图像的标签,c=yx表示分类器的输出预期为真实图像的标签;z表示噪声向量,yg表示期望生成图像的标签,g(z,yg)为生成图像,c=yg表示判别器的输出预期为期望生成图像的标签;

(7)以欺骗判别器和使分类器得到预期输出为目标优化生成器,即结合步骤(4)(5)中所述的针对生成器的差距项共同优化生成器,生成器的优化目标函数为:

lg=e[logp(d=real|g(z,yg))]+e[logp(c=yg|g(z,yg))],

其中,e表示熵,c表示分类器,d表示判别器,g表示生成器;x为真实图像,d=real表示判别器的输出预期为真实图像,c=yx表示分类器的输出预期为真实图像的标签;z表示噪声向量,yg表示期望生成图像的标签,g(z,yg)为生成图像,c=yg表示判别器的输出预期为期望生成图像的标签;

(8)反复进行上述(2)~(6)步骤,直至模型收敛,即损失值不再明显下降,图像质量客观评分inceptionscore不再上升,衡量真实分布与模拟分布的差异指标fréchetinceptiondistance不再降低为止,并保存本模型生成器的参数以便在线使用阶段使用;

在线使用阶段:

(9)加载本模型的生成器的参数;

(10)将预想生成的类别标签输入模型生成器,得到所期望类别的生成图像并保存。

本发明是一种基于新型条件对抗生成网络的抗模式崩溃鲁棒图像生成方法,跟现有技术相比,本发明的主要优势在于:

(1)本发明以额外的分类器输出来约束生成器的生成过程,从而达到生成指定类别图像的目的,同时保留判别器,使生成器在可以欺骗过判别器的前提下,生成更加多样的图像,更具实际的应用价值。此外,由于额外类别标签信息的加入,从而进一步拓宽了方法的性能,增强了鲁棒性。

(2)由于采用了权值共享的技术,本发明在保持生成效果不下降的前提下,大大降低了参数量,简化了网络结构,因此本发明训练阶段的耗时较短,训练过程较稳定。

(3)本发明采用的判别器与分类器分别训练但同时约束生成器的策略,既能够通过分类器的输出有效控制生成器的生成过程,同时又能够充分利用判别器整体综合判别生成图像的真假程度,从而既保证了生成图像的质量又维持了生成图像的多样性,做到二者的完美平衡。

(4)本发明的自动化程度高,实际使用阶段基本不需要人工干预,也不需要根据具体输入数据的差异进行人工参数调整,鲁棒性好。

(5)本发明不针对任何既定类别的图像数据,在整体策略方面更具普遍性,经过相应训练后可以生成任意种类的图像,适用范围更广,因此对比一般性方法有更广阔的应用前景。

附图说明

本发明方法网络结构框架图。

具体实施方式

本发明融合了判别器、生成器和分类器,同时保持了训练过程的稳定,取得了多样化的生成效果。下文将对本发明实施方法进行更为具体的介绍和描述:

方法训练阶段:

本发明的抗模式崩溃鲁棒图像生成模型需要在一定数量训练样本进行训练,因此,本发明方法的实施首先面临训练数据的选取和清洗问题。为保证多个类别的训练样本均衡,本发明以同样数目的十类(类别标签分别是t恤,裤子,套衫,裙子,外套,凉鞋,汗衫,运动鞋,包,裸靴)灰度图像作为训练样本。由于采用生成模型的方法,对样本数量具有较高的要求,在具体操作过程中,十类图像每类各选取6000张图像,共计60000张灰度图像进行训练。

对原始训练图像数据进行预处理和统一标准化,去除个体样本之间由非核心因素造成的图像内容差异,是进行基于条件对抗生成网络的抗模式崩溃的图像生成和模型学习搭建的基本前提和必要阶段。本发明设计的具体预处理为进行图像的灰度统一化工作,每幅图像上的每个像素的灰度值均减去该图像的灰度均值并除以其灰度标准差。以此作为深度神经网络的输入数据。另一方面,本发明对图像的类别标签数据进行了独热编码,将原始的一维数据拓展到十位(与类别标签数目相同),便于后续优化生成器、判别器和分类器的交叉熵的计算。

由于对确定的算法来说,与输入相对应的输出也是确定的,为了使生成同类别图像具有多样性,引入了随机生成的噪声向量z,并将其与期望生成图像的类别标签y(独热编码形式)拼接在一起作为模型生成器的输入。模型的生成器的输出为合成的图像,将其和真实的图像放在一起作为模型判别器和分类器的输入,模型判别器判断输入图片的真假程度,而分类器判断输入图片所属的标签类别。

在模型的优化策略和参数的学习策略方面,考虑到本发明的使用的是深度网络结构,神经元和可学习参数众多,故采用梯度下降的方法进行权值学习和调整。总体上来讲,判别器的优化目标是区分真假图片,而分类器的优化目标是正确分类图片,生成器的优化目标是使其合成的图像骗过判别器并且能够被分类器正确分类。具体上来说,本发明在判别器的输出端评估了输入图像的真实程度,并将其与真正的标签进行比较,其差异程度通过梯度反向传播的形式优化判别器,分类器与之类似。而生成器通过其生成结果在判别器的输出与真实图像之间的差异通过adam算法优化自身权值。我们不断进行上述过程训练整个模型,同时计算公平客观的指标inceptionscore和fréchetinceptiondistance(fid)来指示生成图片效果质量,同时我们也在训练过程提供生成样本可以供手动查看。经过大量实验验证,本发明所设计的优化策略是有效且切实可行的。

最终,本发明对学习到的权值进行存储,便于以后扩展类别训练或下个在线使用阶段使用。

在线使用阶段:

当通过离线过程完成对本发明方法的学习构建之后,本发明方法即可在线全自动使用,只需要确定生成图像的类别,不需要任何人工干预,即可实现大规模指定标签图像数据的生成工作。

对待任意一幅输入的待判别图像,本发明方法将依次采用下列处理分析步骤进行图像生成:

首先,确定需要生成的图像类别标签,同时生成噪声向量(具体方法与处理训练样本的相同)。随后建立与训练过程中使用的生成器相匹配的图模型。而后将离线学习阶段保存的参数文件加载到定义好的图模型中。最后将根据输入的向量和生成器的参数进行反卷积、密集卷积和批归一化等计算操作,最终得到指定类别的输出图像。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1