一种基于SwinTransformer生成对抗网络的图像生成方法

文档序号:37448916发布日期:2024-03-28 18:32阅读:9来源:国知局
一种基于Swin Transformer生成对抗网络的图像生成方法

本发明涉及.一种的图像生成方法,特别是涉及一种基于swin transformer生成对抗网络的图像生成方法。


背景技术:

1、近年来,随着硬件设备的不断更新,计算能力的不断增强,基于深度神经网络的生成模型——生成对抗网络(gan)也在快速发展。

2、生成对抗网络使用对抗性学习方法进行训练,可以在不借助外在条件约束的情况下达到最优效果,但优化过程面临着一个很大的挑战:即如何平衡生成器和判别器的性能,并且最终能够收敛在全局最优点。具有高精度的判别器可能会产生具有很少信息的梯度并导致模式崩溃问题,但弱判别器不能更好地引导生成器提高其学习能力。


技术实现思路

1、本发明的目的在于提供一种基于swin transformer生成对抗网络的图像生成方法,本发明针对模型不收敛和模式崩溃的问题,将swin transformer机制引入到判别器中提高判别能力,并使用自注意力代替卷积神经对生成器加以改进,提出一种基于swintransformer的生成对抗网络——stgan,旨在平衡生成器和判别器性能,解决模型训练不稳定性、训练效率低等问题,进而有效地提升了生成图像的质量和真实性。

2、本发明的目的是通过以下技术方案实现的:

3、一种基于swin transformer生成对抗网络的图像生成方法,所述方法通过将swintransformer机制引入到判别器,不断地调整每一层感受野的大小来产生分层特征图,在减少计算量的同时增强判别器的判别能力;此外,为了平衡生成器和判别器的性能,在生成器中加入自注意力机制并且使用频谱归一化层,提高生成器的特征学习能力,提升生成图像的质量;

4、所述方法基于swin transformer生成对抗网络——stgan包括建立stgan模型结构及swin transformer模块,以及基于移动窗口的自注意力计算模块和stgan模型训练;stgan的整体网络模型由两部分组成:用于生成图像的生成网络和用于对生成的图像进行鉴别的判别网络;stgan的生成网络模型结构,采用四层逆卷积神经网络进行上采样;csbr模块结构由逆卷积、频谱归一化、批量标准化和relu激活函数组成;其中,在生成网络中加入频谱归一化,引入利普希茨连续性约束,增强了神经网络对输入扰动的抗干扰性,使得训练过程更加稳定、模型更容易收敛;判别网络与生成网络结构相反,stgan的判别网络采用三阶段的swin transformer模块;swin transformer是一种具有移动窗口的自注意力模型,采用窗口划分法将自身注意力的计算限制在局部窗口上,利用滑动窗口机制增加相邻窗口之间的连接,既获得了近乎全局注意力的能力,又将计算量从图像大小的平方减少到线性,显著减小了运算量,提高了模型的推理速度;此外,通过特征融合在特征抽取之后进行下采样,从而增加了下一个窗口注意力运算在原始图像中的对应感受野,从而在多个尺度下对输入图像进行特征提取并分层计算特征图;基于移动窗口的自注意力计算模块采用在局部窗口内计算自注意力,窗口以非重叠的方式均匀地分割图像;先使用划分窗口的方法将自注意力的计算限制在一个局部的窗口中,与这一过程相对应的是swin transformer模块中的w-msa;然后使用滑窗机制增加相邻窗口之间的联系。

5、所述的一种基于swin transformer生成对抗网络的图像生成方法,所述stgan的生成网络模型结构,采用四层逆卷积神经网络进行上采样;首先将100维的噪声作为生成网络的输入,经过第一个csbr模块入进行上采样得到(512,4,4)的特征图,再经过第二个csbr模块进行上采样后得到(256,8,8)的特征图,经过第三个csbr模块进行上采样后得到(128,16,16)的特征图,将其送入自注意力模块进行计算,与原始只用卷积的模型不同,引入自注意力模块计算特征图中每个向量间的相关性,捕捉全局的信息来获得更大的感受野解决长距离依赖问题。之后再经过一个csbr模块对特征图进行上采样,将得到的(64,32,32)特征图再进行一次自注意力的计算,进行自注意力计算不改变特征图的尺寸;最后再经过一次逆卷积操作并使用tanh激活函数,输出64×64像素的三通道图片。

6、所述的一种基于swin transformer生成对抗网络的图像生成方法,所述swintransformer模块,其模型结构首先将64×64像素的三通道照片作为判别网络的输入,对其进行分块操作并添加相对位置编码,原来张量的维度是(64,64,3),经过分块操作之后,每个张量的维度的大小就变成了(16,16),尺寸缩小了4倍,通道数增大了16倍,将张量通道维度上进行拼接,得到的张量的大小就变成了(16,16,48);第一阶段,在进入swintransformer模块之前还需进行线性嵌入,即使用卷积将张量通道数48维映射到96维,张量维度是(16,16,96),经过swin transformer模块计算窗口注意力,输出和输入维度保持不变。之后进入第二阶段,首先做两倍的下采样缩小分辨率,并调整通道数从而形成不同尺寸的特征图,构建层级的transformer,因此,网络可以学习多尺寸的特征信息;之后再经过swin transformer模块得到(8,8,192)的张量;在第三阶段完成后,得到(4,4,384)的张量,将其展开成6144维向量,输入全连接层使用sigmoid激活函数将输出限制在0-1之间,用来表示真实图片的概率。

7、所述的.一种基于swintransformer生成对抗网络的图像生成方法,所述swintransformer模块由基于移位窗口的多头自注意力模块msa和两层中间具有gelu非线性激活函数的多层mlp感知器组成。

8、所述的一种基于swin transformer生成对抗网络的图像生成方法,所述swintransformer模块中的sw-msa,首先对图像进行分块和常规的窗口划分,特征图有4个窗口(每个窗口有4×4个小块),在移动窗口后得到9个窗口,这种移位窗口的方式,使得相邻的窗口可以进行信息交互。

9、本发明的优点与效果是:

10、具体从以下几个方面进行改进:

11、1.本发明针对生成图像缺乏远距离像素之间的关系问题,在生成网络中加入自注意力模块,捕捉全局的信息来获得更大的感受野解决长距离依赖问题。

12、2.本发明在判别网络中引入swin transformer机制,将注意力的计算限制在每个窗口内,减少了全局注意力计算量,降低训练的成本,提高训练效率。

13、3.本发明在生成网络中使用频谱归一化,能够更好地将模型与训练数据进行拟合,并且采用wassertein距离作为网络的距离衡量方式有效地解决梯度消失/爆炸的问题。



技术特征:

1.一种基于swin transformer生成对抗网络的图像生成方法,其特征在于,所述方法通过将swintransformer机制引入到判别器,不断地调整每一层感受野的大小来产生分层特征图,在减少计算量的同时增强判别器的判别能力;此外,为了平衡生成器和判别器的性能,在生成器中加入自注意力机制并且使用频谱归一化层,提高生成器的特征学习能力,提升生成图像的质量;所述方法基于swin transformer生成对抗网络——stgan包括建立stgan模型结构及swin transformer模块,以及基于移动窗口的自注意力计算模块和stgan模型训练;stgan的整体网络模型由两部分组成:用于生成图像的生成网络和用于对生成的图像进行鉴别的判别网络;stgan的生成网络模型结构,采用四层逆卷积神经网络进行上采样;csbr模块结构由逆卷积、频谱归一化、批量标准化和relu激活函数组成;其中,在生成网络中加入频谱归一化,引入利普希茨连续性约束,增强了神经网络对输入扰动的抗干扰性,使得训练过程更加稳定、模型更容易收敛;判别网络与生成网络结构相反,stgan的判别网络采用三阶段的swin transformer模块;swin transformer是一种具有移动窗口的自注意力模型,采用窗口划分法将自身注意力的计算限制在局部窗口上,利用滑动窗口机制增加相邻窗口之间的连接,既获得了近乎全局注意力的能力,又将计算量从图像大小的平方减少到线性,显著减小了运算量,提高了模型的推理速度;此外,通过特征融合在特征抽取之后进行下采样,从而增加了下一个窗口注意力运算在原始图像中的对应感受野,从而在多个尺度下对输入图像进行特征提取并分层计算特征图;基于移动窗口的自注意力计算模块采用在局部窗口内计算自注意力,窗口以非重叠的方式均匀地分割图像;先使用划分窗口的方法将自注意力的计算限制在一个局部的窗口中,与这一过程相对应的是swintransformer模块中的w-msa;然后使用滑窗机制增加相邻窗口之间的联系。

2.根据权利要求1所述的一种基于swin transformer生成对抗网络的图像生成方法,其特征在于,所述stgan的生成网络模型结构,采用四层逆卷积神经网络进行上采样;首先将100维的噪声作为生成网络的输入,经过第一个csbr模块入进行上采样得到(512,4,4)的特征图,再经过第二个csbr模块进行上采样后得到(256,8,8)的特征图,经过第三个csbr模块进行上采样后得到(128,16,16)的特征图,将其送入自注意力模块进行计算,与原始只用卷积的模型不同,引入自注意力模块计算特征图中每个向量间的相关性,捕捉全局的信息来获得更大的感受野解决长距离依赖问题。之后再经过一个csbr模块对特征图进行上采样,将得到的(64,32,32)特征图再进行一次自注意力的计算,进行自注意力计算不改变特征图的尺寸;最后再经过一次逆卷积操作并使用tanh激活函数,输出64×64像素的三通道图片。

3.根据权利要求1所述的一种基于swin transformer生成对抗网络的图像生成方法,其特征在于,所述swin transformer模块,其模型结构首先将64×64像素的三通道照片作为判别网络的输入,对其进行分块操作并添加相对位置编码,原来张量的维度是(64,64,3),经过分块操作之后,每个张量的维度的大小就变成了(16,16),尺寸缩小了4倍,通道数增大了16倍,将张量通道维度上进行拼接,得到的张量的大小就变成了(16,16,48);第一阶段,在进入swin transformer模块之前还需进行线性嵌入,即使用卷积将张量通道数48维映射到96维,张量维度是(16,16,96),经过swin transformer模块计算窗口注意力,输出和输入维度保持不变;之后进入第二阶段,首先做两倍的下采样缩小分辨率,并调整通道数从而形成不同尺寸的特征图,构建层级的transformer,因此,网络可以学习多尺寸的特征信息;之后再经过swin transformer模块得到(8,8,192)的张量;在第三阶段完成后,得到(4,4,384)的张量,将其展开成6144维向量,输入全连接层使用sigmoid激活函数将输出限制在0-1之间,用来表示真实图片的概率。

4.根据权利要求1所述的一种基于swin transformer生成对抗网络的图像生成方法,其特征在于,所述swin transformer模块由基于移位窗口的多头自注意力模块msa和两层中间具有gelu非线性激活函数的多层mlp感知器组成。

5.根据权利要求1所述的一种基于swin transformer生成对抗网络的图像生成方法,其特征在于,所述swin transformer模块中的sw-msa,首先对图像进行分块和常规的窗口划分,特征图有4个窗口(每个窗口有4×4个小块),在移动窗口后得到9个窗口,这种移位窗口的方式,使得相邻的窗口可以进行信息交互。


技术总结
一种基于Swin Transformer生成对抗网络的图像生成方法,涉及一种图像生成方法,该方法将SwinTransformer机制引入到判别器,不断地调整每一层感受野的大小来产生分层特征图,在减少计算量的同时增强判别器的判别能力。此外,为了平衡生成器和判别器的性能,在生成器中加入自注意力机制并且使用频谱归一化层,提高了生成器的特征学习能力,进一步提升了生成图像的质量。通过在CelebA数据集和LSUN数据集上与SAGAN等模型的实验对比,表明STGAN模型的训练稳定性和生成图像的质量都有所提高,结果可以看出STGAN模型生成的图片具有非常高的自然度和逼真度,有效地提升了生成图像的质量和真实性。

技术研发人员:刘俊,侯天宇,段雨岑,梁语萌,杜佳明,冯蕾
受保护的技术使用者:沈阳化工大学
技术研发日:
技术公布日:2024/3/27
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1