一种面向收敛性保障的无监督双向生成自动编码方法及系统

文档序号:26396236发布日期:2021-08-24 16:06阅读:155来源:国知局
一种面向收敛性保障的无监督双向生成自动编码方法及系统

本发明涉及编码器技术领域,具体地,涉及一种面向收敛性保障的无监督双向生成自动编码方法及系统,更为具体地,涉及一种面向收敛性保障的无监督双向生成自动编码器。



背景技术:

自动编码器(ae)是用于有效编码数据以减少维数的学习算法。近年来,自动编码器已经广泛应用于各种领域,例如图像分类和重建,推荐系统和异常检测等。

当前,关于自动编码器的研究集中在同时提高图像生成和表征的能力。这意味着自动编码器应该学习生成器/解码器和编码器之间的双向映射关系。具体来说,生成器/解码器专注于从隐变量空间到数据空间的映射,而编码器旨在提取从数据空间到隐变量空间的逆映射中的语义相关特征表示。生成对抗网络(gan)作为最先进的生成模型,具有强大的映射能力,尤其是在泛化方面。因此,基于gan网络研究自动编码器是一种可行的方法。

一些先前的工作提出了在自动编码器中利用gan或对抗模型的方法,例如aae,alae和bigan。例如,aae在训练编码器时将gan框架通用化,并使编码结果的分布接近高斯分布。alae利用stylegan框架通过从真实图像的样式编码结果中重建图像来训练自动编码器。

然而,这些工作大多存在两个局限性。首先,它们不能在映射和逆映射之间取得良好的折衷。例如,aae和alae通常将训练过程视为单向优化,而不考虑生成器和编码器之间的权衡。其次,在某些双向网络中收敛性无法保证。例如,bigan通过区分隐变量空间和数据空间的联合分布来实现映射和逆映射,但收敛性能不好。另外,在bigan中没有对表征能力进行优化。

专利文献cn111402179a(申请号:202010169306.5)公开了一种结合对抗自编码器和生成对抗网络的图像合成方法及系统。该方法包括构造包括两组不同类别的编码器、两组不同类别的第一判别器和一组解码器的增强型对抗自动编码器;构造包括生成器和第二判别器的改进后条件式生成对抗网络;将人工分割血管树图像和原始眼底视网膜图像作为训练数据,对结合增强型对抗自动编码器和改进后条件式生成对抗网络进行迭代训练,得到最优血管树图像生成器和最优眼底视网膜图像生成器;基于最优血管树图像生成器和最优眼底视网膜图像生成器对待处理的人工分割血管树图像进行眼底视网膜图像合成,得到合成图像。

本发明提出了bi-gae,这是一种基于bigan的无监督生成自动编码器。首先,本发明设计了两种方案来权衡映射和逆映射。具体来说,本发明在基于ssim损失函数的映射中引入了一个引导项,该引导项促使模型遵循人类视觉模式来生成图像。此外,本发明利用嵌入式gan来计算另外一个引导项,从而增强了逆映射中与语义相关的表征能力。这两种方案的协作增强了隐变量空间和数据空间之间的双向信息扩展,从而提高了bi-gae的整体性能。其次,本发明使用wasserstein距离来保证有效的梯度计算,而嵌入式gan利用mmd来增强鉴别器接近收敛时bi-gae的收敛性。



技术实现要素:

针对现有技术中的缺陷,本发明的目的是提供一种面向收敛性保障的无监督双向生成自动编码方法及系统。

根据本发明提供的一种面向收敛性保障的无监督双向生成自动编码方法,包括:

步骤s1:批数据(x,z)通过编码器e和生成器g同时生成编码结果e(x)和生成数据g(z),完成从隐变量空间向数据空间的映射和从数据空间向隐变量空间的反向映射;

步骤s2:图像空间数据与隐变量空间数据通过卷积块fx和fz,分别对图像空间数据与隐变量空间数据进行信息提取,得到提取后的图像空间数据和提取后的隐变量空间数据

步骤s3:根据提取后的图像空间数据和提取后的隐变量空间数据训练判别器d,直至损失函数最小;

步骤s4:图像数据利用训练后的编码器e,完成编码过程并生成编码结果,将编码结果输入训练后的生成器g,获得重建图像数据结果,进而完成图像数据的重建工作,实现了图像空间与隐变量空间双向映射过程的整体协同优化,提升表征能力和图像生成能力。

优选地,所述生成器g和编码器e分别使用dcgan结构中的卷积网络模块和解卷积网络模块。

优选地,所述步骤s3中损失函数包括:wasserstein距离;

其中,表示wasserstein距离;d表示输入数据对的相似概率;fx和fz表示卷积块。

优选地,还包括:引入嵌入式mmd鉴别器模块dz,并复用卷积块fx和fz,编码器e和生成器g实现嵌入式gan网络,利用嵌入式gan网络减少z和重建结果e(g(z))分布间的mmd距离加强整体双向结构的收敛性并加强编码器的语义相关表征能力。

优选地,所述利用嵌入式gan网络减少z和重建结果e(g(z))分布间的mmd距离加强整体双向结构的收敛性并加强编码器的语义相关表征能力包括:

步骤s5:编码结果e(x)通过生成器g重建生成数据g(e(x));生成数据g(z)通过编码器e重建编码结果e(g(z));

步骤s6:利用嵌入式mmd鉴别器模块dz计算得到z与e(g(z))间分布的mmd差异损失函数并利用损失函数优化嵌入式mmd鉴别器模块dz;

其中,pz表示隐变量空间分布;yz=dz(z);yz'=dz(z');z,z'表示在隐变量空间上的采样;表示隐变量z重建结果,生成数据再编码结果;表示的条件概率分布;λ1表示梯度惩罚项权重参数;表示对上获取的梯度;σ表示krep符合的高斯分布的方差系数;e即自然对数的底数常数;ε表示对z与其重建结果求加权采样时的权重参数;

步骤s7:利用优化的嵌入式mmd鉴别器模块dz,求解z与e(g(z))间分布关于编码器e和生成器g的mmd损失函数

其中,kf表示高斯核函数;b1,bu分别表示a,b间l2距离的下界与上界参数;

步骤s8:利用损失函数生成编码空间上的引导项tz,进而完成嵌入式gan网络的训练;

其中,∝1表示与重建操作的像素级l2损失的加权系数;nb表示数据批大小;原隐变量z与重建结果间的l2损失;

步骤s9:通过训练后的嵌入式gan网络优化当前bi-gae双向结构的收敛性,并且生成的引导项进一步提升编码器e的语义表征能力。

优选地,还包括:利用ssim模块根据真实图像x和重构图像g(e(x))计算得到引导项tx,增强生成器的人眼视觉特征生成能力;

ssim关注亮度(luminance,l(x,x′))、对比度(contrast)和结构(structure)(联合使用cs(x,x′)衡量)

lmsssim(x,x′)=1-msssim(x,x′)(8)

其中,x′=g(e(x));lmsssim(x,x′)表示ssim损失函数,α2表示ssim损失与损失的加权系数;表示x与重建结果间的l1损失值,lmγm表示经过m个高斯滤波器后的l(x,x′)的结果;γ表示衰减参数;m表示高斯滤波器的数量;c1表示常量参数;表示经过第j个滤波器生成的结果;ηj表示相应窗口衰减系数若x的大小为(si×si),则第j个滤波器窗口规模为pj表示过滤器窗口,μx,μx′分别表示x,x′的平均值;σx,σx′分别表示x,x′的标准差。

根据本发明提供的一种面向收敛性保障的无监督双向生成自动编码系统,包括:

模块m1:批数据(x,z)通过编码器e和生成器g同时生成编码结果e(x)和生成数据g(z),完成从隐变量空间向数据空间的映射和从数据空间向隐变量空间的反向映射;

模块m2:图像空间数据与隐变量空间数据通过卷积块fx和fz,分别对图像空间数据与隐变量空间数据进行信息提取,得到提取后的图像空间数据和提取后的隐变量空间数据

模块m3:根据提取后的图像空间数据和提取后的隐变量空间数据训练判别器d,直至损失函数最小;

模块m4:图像数据利用训练后的编码器e,完成编码过程并生成编码结果,将编码结果输入训练后的生成器g,获得重建图像数据结果,进而完成图像数据的重建工作,实现了图像空间与隐变量空间双向映射过程的整体协同优化,提升表征能力和图像生成能力。

优选地,所述模块m3中损失函数包括:wasserstein距离;

其中,表示wasserstein距离;d表示输入数据对的相似概率;fx和fz表示卷积块。

优选地,还包括:引入嵌入式mmd鉴别器模块dz,并复用卷积块fx和fz,编码器e和生成器g实现嵌入式gan网络,利用嵌入式gan网络减少z和重建结果e(g(z))分布间的mmd距离加强整体双向结构的收敛性并加强编码器的语义相关表征能力;

所述利用嵌入式gan网络减少z和重建结果e(g(z))分布间的mmd距离加强整体双向结构的收敛性并加强编码器的语义相关表征能力包括:

模块m5:编码结果e(x)通过生成器g重建生成数据g(e(x));生成数据g(z)通过编码器e重建编码结果e(g(z));

模块m6:利用嵌入式mmd鉴别器模块dz计算得到z与e(g(z))间分布的mmd差异损失函数并利用损失函数优化嵌入式mmd鉴别器模块dz;

其中,pz表示隐变量空间分布;yz=dz(z);yz′=dz(z′);z,z′表示在隐变量空间上的采样;表示隐变量z重建结果,生成数据再编码结果;表示的条件概率分布;λ1表示梯度惩罚项权重参数;表示对上获取的梯度;σ表示krep符合的高斯分布的方差系数;e即自然对数的底数常数;ε表示对z与其重建结果求加权采样时的权重参数;

模块m7:利用优化的嵌入式mmd鉴别器模块dz,求解z与e(g(z))间分布关于编码器e和生成器g的mmd损失函数

其中,kf表示高斯核函数;bl,bu分别表示a,b间l2距离的下界与上界参数;

模块m8:利用损失函数生成编码空间上的引导项tz,进而完成嵌入式gan网络的训练;

其中,∝1表示与重建操作的像素级l2损失的加权系数;nb表示数据批大小;原隐变量z与重建结果间的l2损失;

模块m9:通过训练后的嵌入式gan网络优化当前bi-gae双向结构的收敛性,并且生成的引导项进一步提升编码器e的语义表征能力。

优选地,还包括:利用ssim模块根据真实图像x和重构图像g(e(x))计算得到引导项tx,增强生成器的人眼视觉特征生成能力;

ssim关注亮度(1uminance,l(x,x′))、对比度(contrast)和结构(structure)(联合使用cs(x,x′)衡量)

lmsssim(x,x′)=1-msssim(x,x′)(19)

其中,x′=g(e(x));lmsssim(x,x′)表示ssim损失函数,α2表示ssim损失与损失的加权系数;表示x与重建结果间的l1损失值,lmγm表示经过m个高斯滤波器后的l(x,x′)的结果;γ表示衰减参数;m表示高斯滤波器的数量;c1表示常量参数;表示经过第j个滤波器生成的结果;ηj表示相应窗口衰减系数若x的大小为(si×si),则第j个滤波器窗口规模为pj表示过滤器窗口,μx,μx′分别表示x,x′的平均值;σx,σx′分别表示x,x′的标准差。

与现有技术相比,本发明具有如下的有益效果:

1、本发明提出的面向收敛性保障的无监督双向生成自动编码器,可以通过稳定的收敛来改善隐变量空间和数据空间之间的信息扩展;

2、本发明在损失函数中引入了一个引导荐,以优化按照人类视觉模式在映射中的图像重建和生成;

3、本发明嵌入了gan用于计算在逆映射中增强语义相关特征表示的引导项,以加强自动编码器的收敛性。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:

图1为本发明的逻辑框架图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明公开了一种面向收敛性保障的无监督双向生成自动编码器。改进自动编码器的生成和表征能力是机器学习领域的一个热门研究问题。但是,在稳定收敛的同时优化双向映射具有很大挑战性。大多数现有的自动编码器无法自动权衡编码器与解码器/生成器之间的双向映射。本发明提出了bi-gae,这是一种基于bigan的无监督双向生成自动编码器。首先,我们在损失函数中引入两个引导项,用于增强信息扩展以遵循映射中的人类视觉模型并改善逆映射中与语义相关的表征能力。此外,我们嵌入了一个gan以改善bi-gae收敛性和表征能力。实验结果表明,bi-gae在生成和表征上均具有竞争优势,并且收敛稳定。与同类方法相比,bi-gae的表征能力将高分辨率图像的分类精度提高了约6.607%。此外,在图像重建中,bi-gae将结构相似性(ssim)指标增加0.017,将弗雷歇起始距离(fid)减少3.098。

实施例1

根据本发明提供的一种面向收敛性保障的无监督双向生成自动编码方法,包括:

步骤s1:批数据(x,z)通过编码器e和生成器g同时生成编码结果e(x)和生成数据g(z),完成从隐变量空间向数据空间的映射和从数据空间向隐变量空间的反向映射;

步骤s2:图像空间数据与隐变量空间数据通过卷积块fx和fz,分别对图像空间数据与隐变量空间数据进行信息提取,得到提取后的图像空间数据和提取后的隐变量空间数据

步骤s3:根据提取后的图像空间数据和提取后的隐变量空间数据训练判别器d,直至损失函数最小;

步骤s4:图像数据利用训练后的编码器e,完成编码过程并生成编码结果,将编码结果输入训练后的生成器g,获得重建图像数据结果,进而完成图像数据的重建工作,实现了图像空间与隐变量空间双向映射过程的整体协同优化,提升表征能力和图像生成能力。

具体地,所述生成器g和编码器e分别使用dcgan结构中的卷积网络模块和解卷积网络模块。

具体地,所述步骤s3中损失函数包括:wasserstein距离;

其中,表示wasserstein距离;d表示输入数据对的相似概率;fx和fz表示卷积块。

具体地,还包括:引入嵌入式mmd鉴别器模块dz,并复用卷积块fx和fz,编码器e和生成器g实现嵌入式gan网络,利用嵌入式gan网络减少z和重建结果e(g(z))分布间的mmd距离加强整体双向结构的收敛性并加强编码器的语义相关表征能力。

具体地,所述利用嵌入式gan网络减少z和重建结果e(g(z))分布间的mmd距离加强整体双向结构的收敛性并加强编码器的语义相关表征能力包括:

步骤s5:编码结果e(x)通过生成器g重建生成数据g(e(x));生成数据g(z)通过编码器e重建编码结果e(g(z));

步骤s6:利用嵌入式mmd鉴别器模块dz计算得到z与e(g(z))间分布的mmd差异损失函数并利用损失函数优化嵌入式mmd鉴别器模块dz;

其中,pz表示隐变量空间分布;yz=dz(z);yz′=dz(z′);z,z′表示在隐变量空间上的采样;表示隐变量z重建结果,生成数据再编码结果;表示的条件概率分布;λ1表示梯度惩罚项权重参数;表示对上获取的梯度;σ表示krep符合的高斯分布的方差系数;e即自然对数的底数常数;ε表示对z与其重建结果求加权采样时的权重参数;

步骤s7:利用优化的嵌入式mmd鉴别器模块dz,求解z与e(g(z))间分布关于编码器e和生成器g的mmd损失函数

其中,kf表示高斯核函数;bl,bu分别表示a,b间l2距离的下界与上界参数;

步骤s8:利用损失函数生成编码空间上的引导项tz,进而完成嵌入式gan网络的训练;

其中,∝1表示与重建操作的像素级l2损失的加权系数;nb表示数据批大小;原隐变量z与重建结果间的l2损失;

步骤s9:通过训练后的嵌入式gan网络优化当前bi-gae双向结构的收敛性,并且生成的引导项进一步提升编码器e的语义表征能力。

具体地,还包括:利用ssim模块根据真实图像x和重构图像g(e(x))计算得到引导项tx,增强生成器的人眼视觉特征生成能力;

ssim关注亮度(luminance,l(x,x′))、对比度(contrast)和结构(structure)(联合使用cs(x,x′)衡量)

lmsssim(x,x′)=1-msssim(x,x′)(8)

其中,x′=g(e(x));lmsssim(x,x′)表示ssim损失函数,α2表示ssim损失与损失的加权系数;表示x与重建结果间的l1损失值,lmγm表示经过m个高斯滤波器后的l(x,x′)的结果;γ表示衰减参数;m表示高斯滤波器的数量;c1表示常量参数;表示经过第j个滤波器生成的结果;ηj表示相应窗口衰减系数若x的大小为(si×si),则第j个滤波器窗口规模为pj表示过滤器窗口,μx,μx′分别表示x,x′的平均值;σx,σx′分别表示x,x′的标准差。

本发明提供的面向收敛性保障的无监督双向生成自动编码系统,可以通过本发明提供的面向收敛性保障的无监督双向生成自动编码方法中的步骤流程实现。本领域技术人员,可以将所述面向收敛性保障的无监督双向生成自动编码方法理解为面向收敛性保障的无监督双向生成自动编码系统的一个优选例。

实施例2

实施例2是实施例1的优选例

为了克服现有自动编码器在双向映射权衡和收敛性方面的不足,本发明提供了一种基于bigan的无监督生成自动编码器,有效提升自动编码器的生成和表征能力。

本发明提供了一种无监督的生成式自动编码器,该编码器可以同时实现映射和逆映射的权衡和联合优化。针对bigan的局限性,本发明对bi-gae进行了两个主要优化。首先,本发明引入wasserstein距离并嵌入gan以增强bi-gae的收敛性。为了估计联合分布的wasserstein距离,本发明设计了两个卷积块用于bi-gae中的特征提取。本发明从理论上证明了bi-gae的收敛性。本发明分别为生成器和编码器引入了两个项,它们实现了映射和逆映射中的信息扩展。这些扩展有效地实现双向映射之间的权衡。

图1所示,本发明提出的面向收敛性保障的无监督双向生成自动编码器的框架。与bigan相似,bi-gae的主体部分包括一个生成器g,一个编码器e和一个鉴别器d。作为双向映射编码器,该架构的双向优化目标分别为:(1)隐变量向数据空间的映射(生成器g);(2)数据空间向隐变量空间(编码空间)的逆映射。相比于当前常见的编码器与生成式编码器,该架构技术方案的基本改进思想包括:(1)利用数据空间与隐变量空间的联合分布来实现图像空间与隐变量空间双向映射的同时优化并进而实现了双向过程的整体协同优化;(2)在双向映射训练过程中分别引入了引导机制,保证了该双向架构的收敛性并针对生成器的视觉性与编码器的语义相关表征性分别进行了优化。上述思想在技术方案的具体实现上基于bigan的基本架构,引入了wasserstein距离作为鉴别器d的判断指标并设计了4个具体的嵌入模块来实现双向映射过程中的两个引导机制。

如图1所示,bi-gae的主体部分基于bigan结构,在具体实现上bi-gae的编码器e和生成器g分别使用dcgan结构中的卷积网络模块和解卷积网络模块。bi-gae中在主体结构中选择引入wasserstein距离作为判别器d(具体由dcgan中的卷积块实现)中判别联合分布分布距离的指标,相应地,为了实现数据空间和隐变量空间的联立与特征提取,我们引入了两个特征提取卷积块fx和fz,将数据空间和隐变量空间的特征提取为向量并输入d。针对上文所述的两种引导机制,我们利用ssim模块计算真实数据x和相应重建数据g(e(x))之间的结构性差异;对于编码空间,我们进一步嵌入基于mmd的对抗网络模块,通过减小z和重建结果e(g(z))分布间的mmd距离从而进一步加强整体双向结构的收敛性并加强编码器的语义相关表征能力。上述双向训练过程、wasserstein距离、两个引导机制以及四个嵌入模块构成的技术方案将在下文进一步详细阐述。

在每一次批训练过程中,bi-gae输入的批数据为(x,z),即输入编码器e的数据空间批实例x与输入生成器g的隐变量空间正态分布批采样z。具体训练过程如下:

(1)利用(x,z),编码器e和生成器g同时生成编码结果e(x)和生成数据g(z)。该步骤同时完成从隐变量空间向数据空间的映射和从数据空间向隐变量空间的反向映射。

(2)通过获得了图像空间数据与隐变量空间数据参考bigan的双向训练思路,以联合分布(x,e(x))为依据数据,以(g(z),z)为生成数据,通过判别器来判断两个联合分布的差距。核心思路即训练判别器d使之尽可能拉大依据分布与生成分布的判断距离,而对于同步训练的编码器e与生成器g,则利用优化后的d,输出分布wasserstein距离差异判断结果进行训练,目标是尽量使d无法分辨两个分布,即d求得的生成数据相对于依据数据的判断距离尽量小。这一核心思路是沿用bigan的核心原理,这一目标的数学含义可以说是两个联合概率相等,即认为双向优化成功完成。我们可以认为{x,e(x)}联合分布为px,e=pe(z|x)p(x),{g(z),z}联合分布为pg,z=p(z)pg(x|z),p(x),p(z)为数据空间、隐空间的真实分布,pe,pg为编码器和生成器的条件分布。因此在联合分布相同的前提下,可以分别实现pe与p(z),p(x)与pg的匹配,从而完成了编码器与生成器的同步优化。为了保障收敛性,我们引入了wasserstein距离替换了bigan中的kl散度的概念。

(3)在主体流程的基础上,我们根据编码结果e(x)获得x重建结果g(e(x)),根据生成结果g(z)获得z重建结果e(g(z))。利用mmd嵌入网络根据(e(g(z)),z)引导编码器e向语义表征强化的方向、利用ssim模块根据(g(e(x)),x)引导生成器g向满足人眼视觉特征的方向同时进行优化。

为了解决bigan难以收敛的问题,我们需要在bigan结构中引入wasserstein距离作为损失函数,因此先从图像空间的中提取信息,因此设计了两个卷积模块fx和fz来完成这一过程。

为了令生成器g的生成能力满足人眼视觉特征,我们使用结构相似度索引方法(structuralsimilarityindexingmethod,ssim)损失为生成器构造自引导项tx,该引导项作为生成器损失函数的一部分。tx的整体求解流程为:在(g(e(x)),x)间引入ssim模块来计算重构图像空间与原图像空间之间的相似度损失值;

为了解决wasserstein在判别器临近收敛时的估测无效问题,我们在现有结构的基础上嵌套了一个以mmd为基础的嵌入式gan模型。该嵌入模型实际上复用了编码器e和生成器g,相应地,应引入嵌入式gan的判别器。

引入wasserstein距离

传统的bigan网络针对联合数据空间进行优化,设图像数据空间x分布为p(x),隐变量数据空间z分布为p(z),其判别器d训练目标为最大化概率pd(y|x,z)其中(y=1|(x,e(x)));(y=0|(x,e(x))),即最大化判断准确性,而对于生成器g和训练器e则正好相反。因此bigan这一双向结构的训练目标为:

其中,d(.)为输入数据对的相似概率,g(.),e(.)则为生成器和编码器的输出结果。

如公式(1)所示,在估计依据数据空间(x,e(x))和生成数据空间(g(z),z)之间的判断距离时,传统的bigan使用jensen-shannon(js)散度或者kullback-leibler(kl)散度来进行衡量。然而上述散度存在明显的问题,即在d趋向于收敛时,以公式(1)相关损失函数的梯度是无效的,因此导致bigan结构的训练失效。因此优化bigan双向结构的收敛性的一个有效方式即为引入距离衡量,使得相应损失函数的梯度在任意时刻都是有效且非0的。综上所述,wasserstein距离被引入到bi-gae中。对于依据数据分布px和生成数据分布pg,在实际应用中估计二个分布间的wasserstein距离,即w,如下所示:

其中,gθ(·)和d(·)分别生成器g和判别器d的输出,e()表示期望。然而公式(2)中要求d(·)必须满足1-lipschit限制,同时wasserstein距离在d临近收敛时仍存在着无法正确估计w的问题,因此我们将通过进一步设计来解决这些问题。

在双向对抗网络中引入wasserstein距离,因此相应设计了两个卷积块fx和fz,分别对图像空间数据与隐变量空间数据进行信息提取,帮助两个信息拥有可进行聚合联立的数据形式(shape),令得到最终在bi-gae中对于依照数据空间和生成数据空间之间的wasserstein距离计算如下:

综上所述,相应地设计判别器-卷积块(d-fx-fz)的损失函数ldf和生成器-编码器(g-e)联合损失函数leg分别如公式(4)和(5)所示:

其中,nb为批大小,为保证满足1-lipschit限制,引入了梯度惩罚项(gradientpenaltyterm,gpterm)。在该惩罚项中,有

其中,tx作为针对生成能力的引导项,ε表示对真实数据样本x与生成数据样本求加权采样时的权重参数以及对真实隐空间数据样本z与编码结果样本求加权采样时的权重参数,λ表示梯段惩罚项权重系数,表示变量上求得的梯度,σ表示tx的权重参数。

嵌入一个基于mmd的gan网络

在引入wasserstein距离时,我们没有解决临近收敛时的wasserstein距离的无效估计问题,即在判别器d的参数趋向于收敛时,网络存在无法正确估计wasserstein距离的情况,从而导致无法使用正确的梯度对bi-gae进行训练。同时为了在编码器上实现增强数据空间向隐变量空间的映射中的语义表征能力,我们利用编码重构的误差设计引导项来实现这一个过程。上述两过程可以使用一个基于mmd的嵌入式gan网络来实现。

首先,我们简要叙述mmd嵌入式gan网络的流程。本发明引入了嵌入式mmd鉴别器模块dz,并复用卷积块fx和fz,编码器e和生成器g来实现嵌入式gan网络。对于完成了主体流程的输入隐变量z和其重建结果e(g(z)),本发明嵌入式gan网络的实现流程如下:

1)首先利用嵌入的dz模块求解z与e(g(z))间分布的mmd差异损失函数如公式(8)所示,利用该损失优化dz模块。

2)利用优化的dz模块,求解z与e(g(z))间分布关于e、g的mmd损失函数如公式(9)所示,并利用该损失函数生成编码空间上的引导项tz如公式(10)所示,进而完成嵌入式gan网络的训练。

该嵌入式gan网络进一步优化了当前bi-gae双向结构的收敛性,并且生成的引导项可以进一步提升编码器e的语义表征能力。基于mmd的嵌入式gan网络的理论推导和引导机制的设计如下文所示。

优化收敛性

针对wasserstein距离在d临近收敛时的估计失效问题,我们从wasserstein距离的计算方法上寻找解决方案,因为wasserstein距离本质上是最大均值差异(maximummeandiscrepancy,mmd)的一种特殊情况,即使用线性核的情况,因此当使用具有高阶高斯核的mmd作为指标衡量分布的差异可以进一步提升收敛性能。结合mmd的定义以及联合bi-gae中待求联合分布的特征,我们定义在图像数据与隐变量的联合分布空间上的mmd如下,并具有一个阈值e,{f}则为一个连续函数集:

其中,ef表示使用f衡量两分布的样本差距时获取的期望差异,可理解为反映分布的差异,当d的参数趋向于收敛时(即时),通过两个引理:引理1和引理2,我们使用的进行引入嵌入式gan结构先后收敛性的有效定量估计。

引理1:设我们可得类比公式(6)可知,我们使用批量样碎与zi在衡量函数f0上利用期望值之间的差异来作为的评估值,同理,使用函数g0,在批量样本与xi上评估σ即对于而言可取得的下界,而ε则为对于而言可取得的下界,由mmd定义可知,σ>0,ε>0。

证明:

类似,可证得

引理1的证明意味着当d在隐变量空间和图像数据空间分别取得收敛时,bi-gae在即在联合分布空间上取得整体收敛。

引理2:当f为连续函数时,

证明:假设令e(g(f(a)))-e(g(f(b)))>τ。令k=g·f,则有e(k(a))-e(k(b))>τ=m(a,b),与mmd的定义矛盾,因此有

引理2意味着mmd对于连续函数f(例如,bi-gae中训练过的g和e)是稳定的。由于bi-gae中嵌入的gan是基于mmd的,我们可以根据引理1和2推导出m(e(g(z)),z)的上限。

通过引理1和引理2,我们可以推导出定理1如下:

定理1:当d接近收敛时,在不引入嵌入式gan结构(即不新添加dz)的情况下,m(e(g(z)),z)的上限趋向于2e。

证明:

m(e(g(z)),z)≤m(e(g(z)),e(x))+m(e(x),z)

=m(x,g(z))+m(e(x),z)//引理1

=ε+σ≤2·max({ε,σ})≤2·e//引理2

而在引入了嵌入式gan,即新添加dz模块后,根据引理2和公式(6)可知,当dz收敛时,mmd应满足:

m′(e(g(z)),z)≤m′(x,g(z))+m′(e(x),z)≤e(7)

公式(7)意味着此时m′(e(g(z)),z)的上限可以被减小到e。同时,这一下降本质上是通过分别提升编码与真实隐变量空间(e(x),z)以及真实与生成图像空间(x,g(z))内的信息交互能力来提升bi-gae的收敛性。

1)增强编码语义表征能力

bi-gae在实现图像空间至隐变量空间的映射时的目标是在考虑解纠缠时增强语义相关的表征能力。根据公式(7),bi-gae中嵌入的gan通过减小m(e(x),z)实现了编码过程中的信息扩展,从而提升了表征能力。基于mmd的嵌入gan的损失由排斥项lrep和吸引项latt组成。在实际计算时,选择单一有界高斯核方法(核函数kf)来减少计算量。具体计算时令表示的条件概率分布。综上所述,dz损失函数和e-g(编码器-生成器)损失函数为分别如公式(8)和(9)所示:

其中yz=dz(z),yz′=dz(z′),pz表示隐变量空间分布,yz=dz(z),yz′=dz(z′),z,z′表示在隐变量空间上的采样,表示隐变量z重建结果,即生成数据再编码结果,如,表示的条件概率分布;λ1表示梯度惩罚项权重参数,表示对上获取的梯度;σ表示krep符合的高斯分布的方差系数;e即自然对数的底数常数(≈2.718281828459...);ε表示对z与其重建结果求加权采样时的权重参数。

其中,kf表示核函数(例如高斯核),bl,bu分别表示a,b间l2距离的下界与上界参数。

针对编码器-解码器,为了防止出现过大的元素级错误,因此利用l2损失作为正则项,最终可知对于编码器增强语义表征能力的引导项tz定义如下:

其中,∝1表示与重建操作的像素级l2损失的加权系数,nb表示数据批大小,即原隐变量z与重建结果间的l2损失;

3)引入ssim模块增强生成器的人眼视觉特征生成能力

在生成图像数据方面,bi-gae关注的目标之一是促进符合人类视觉模型的图像生成和重建。为了实现从隐变量空间向图像空间映射过程中的信息扩展,bi-gae引入了结构相似度索引方法(ssim),该方法包括三种人类视觉指标,即亮度(luminance)、对比度(contrast)和结构(structure)。因此,bi-gae在真实图像x和重构图像g(e(x))之间设计了一个引导项tx。

在训练编码器e和生成器g时,我们计算x′=g(e(x))。若x大小为(si×si),且存在m个高斯滤波器,则我们可以计算ms-ssim(multiplesizessim)如下:

其中,lmγm表示经过m个高斯滤波器后的l(x,x′)的结果,其中γ为衰减参数,m表示高斯滤波器的数量,c1为常量参数,表示经过第j个滤波器生成的结果,其中ηj为相应窗口衰减系数若x的大小为(si×si),则第j个滤波器窗口规模为第j个滤波器的大小为l(x,x′)与cs(x,x′)定义如下:

其中pj表示过滤器窗口,μx,μx′分别表示x,x′的平均值;σx,σx′分别表示x,x′的标准差。

相应的设计ssim损失函数为:

lmsssim(x,x′)=1-msssim(x,x′)(12)

类比tz,为了避免在重构过程中出现过大的像素级错误,我们需要添加正则项,考虑到图像空间的维度较高,为了防止l2损失函数潜在的过度惩罚的问题,因此我们在此使用l1损失函数来实现这一正则项,综上所述,我们对于生成器设计了自引导项tx如下:

其中默认有α2=0.84x′=g(e(x))表示ssim损失与损失的加权系数;表示x与重建结果间的l1损失值。

系统实现

bi-gae中的每个组件都是基于dcgan的源代码实现的。令θe,θg,θd,θdz和θf={θfx,θfz}分别表示e,g,d,dz和{fx,fz}的参数。相应地,本发明使用β1=0.5和β2=0.9三个自定义的adam优化器:分别为用于优化θg和θe的adameg,用于优化θf和θd的adamfd和用于优化dz的adamdz,其学习率分别为lreg,lrfd和lrdz。

bi-gae的运行过程包括4个步骤:

第1步:使用数据和潜在样本(x,z)来训练d和{fx,fz},并用公式(4)中的损失函数,即判别器d判断依据空间与推测空间联合分布的wasserstein损失。ldf进行迭代训练,该损失函数将用于更新判别器d和卷积特征提取模块f,该步骤重复,d次(默认为5次)。

第2步:使用另一批数据(x,z)来训练g和e,并用公式(5)中的损失函数leg训练g和e,从公式(5)描述可知,该损失即已优化的判别器判断的联合分布wasserstein距离和数据x与其重建结果之间的ssim差异损失的加权结果。给定x,计算x′=g(eng(x)),并使用(x,x′)计算等式(13)中的tx以训练g。

第3步:输入一批z来训练dz,并用公式(8)中的损失函数ldz进行迭代训练,该损失即进行分解后得出的z与z的重建结果e(g(z))之间的mmd损失。该步骤重复次(默认为3次)。

第4步:输入一批z来计算输入用等式(10)中损失函数tz来训练e。

整体过程在celeba-hq和mnist数据集上进行训练、测试时使用的参数的设置见表1,表1为本发明中的参数设置。

本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1