融合Transformer的生成对抗网络单幅图像去模糊方法

文档序号：35499436发布日期：2023-09-20 04:36阅读：61来源：国知局

本发明属于计算机视觉中的图像复原，特别涉及一种融合transformer的生成对抗网络单幅图像去模糊方法。

背景技术：

1、图像去模糊技术既能应用于日常生活的拍照摄影中，也能应用于对目标检测、语义分割等高级视觉任务数据进行数据预处理中，具有重要的现实意义与研究价值。深度学习方法由于其有效性与泛用性成为处理复杂的现实模糊的主流方法。

2、传统图像处理通过估计点扩散函数来确定运动模糊图像退化函数，但是真实世界的模糊更加复杂，极端情况下，需要对每个像素计算对应的模糊核函数，计算错误容易导致图像恢复不佳甚至图像失真。峰值信噪比作为去模糊效果的重要指标之一，在确保降低去模糊运算复杂度的同时，其值越难提高。

3、基于深度学习的图像去模糊方法有许多种，具有更强的泛用性，其中一些方法使用cnn网络辅助估计模糊图像的点扩散函数，这些方法在估计和处理复杂的空间模糊核时可能会遇到困难。其中有方法并不对模糊核直接估计，而是使用多尺度子网络输入结合cnn卷积网络获得了更大的感受野。在此技术基础上，在不同的子网络中共享了相应模块的权重，降低了网络的参数量，但子网络的堆叠仍会产生的大量的计算复杂度。transformer能够提供复杂模糊场景所需要的更大感受野，复用transform模块能够提供全局相关性，但是复杂度随图片输入分辨率大小二次方增长，不能对高分辨图像进行恢复。

4、综上，传统图像处理为每个像素的点扩散函数求解是一个不适定问题，基于cnn的多尺度网络能够处理复杂模糊，但子网络堆叠存在参数量大，复杂度高的缺点；复用transformer模块的网络对高分辨率图像的计算耗能过大，网络的计算量存在与输入图像分辨率大小二次方增长的不足，也忽略了卷积的局部相关性。

技术实现思路

1、为了解决以上问题，本发明提供一种融合transformer的生成对抗网络单幅图像去模糊方法，降低了网络复杂度的同时，扩大了感受野，能够对模糊图像进行高分辨率恢复。方法包括：

2、构建尺度特征重构增强模块xt，所述模块xt包括聚合模块st、映射模块dt、渲染模块pt；

3、所述聚合模块st同时获取窗口内的局部相关，获取不同窗口间的全局联系，通过ffn层增加输出的非线性表征能力，并使用卷积融合残差连接信息，输出信息聚合特征图；

4、所述映射模块dt获取高尺度高语义特征图与当前尺度特征图的相似矩阵，并与当前尺度特征图矩阵乘积得到多维度映射特征图；

5、所述渲染模块pt提取低尺度低语义特征图的概括信息矩阵与高层特征投影矩阵乘积，并叠加降采样的低层特征得到多维度渲染特征图；

6、处理待去模糊的目标图像以获取多尺度金字塔特征图，并输入至模块xt以重构尺度特征并强化其表征能力；

7、将解码后的强化表征能力的多尺度金字塔特征图进行合并，并恢复为原图大小，输出清晰的目标图像；

8、其中，所述重构尺度特征并强化其表征能力的方法包括；

9、将多尺度金字塔特征图中的多个尺度特征图分别输入聚合模块st得到强化表征能力的多尺度金字塔特征图；

10、或将多尺度金字塔特征图中的更高层特征图和当前尺度特征图组合输入映射模块dt，当前尺度特征图输入聚合模块st，二者的输出级联原尺度特征图合并，得到强化表征能力的多尺度金字塔特征图；

11、或将多尺度金字塔特征图中的更高层特征图和当前尺度特征图组合输入映射模块dt，更低层特征图和当前尺度特征图组合输入渲染模块pt，当前尺度特征图输入聚合模块st，三者的输出级联原尺度特征图合并，得到强化表征能力的多尺度金字塔特征图。

12、进一步地，输入至模块xt的多尺度金字塔特征图与其输出的强化表征能力的多尺度金字塔特征图数量一致。

13、进一步地，当重构尺度特征并强化其表征能力的方法中，采用聚合模块st、映射模块dt、渲染模块pt中两个或两个以上模块时，模块xt中的子模块之间采用并行方式运行。

14、进一步地，所述聚合模块st使用基于窗口的多头自注意力模块同时获取窗口内的局部相关，使用窗口位移后的多头自注意力模块获取不同窗口间的全局联系；所述映射模块dt通过点积获取高尺度高语义特征图与当前尺度特征图的相似矩阵，并与当前尺度特征图矩阵乘积得到多维度映射特征图；所述渲染模块pt通过全局平均池化提取低尺度低语义特征图的概括信息矩阵与高层特征投影矩阵乘积，并叠加降采样的低层特征得到多维度渲染特征图。

15、进一步地，所述方法包括以下步骤：

16、s1.获取数据集；获取模糊图像与清晰图像的图像对，用于制作去模糊任务的目标数据集；

17、s2.数据集预处理；对s1中获取的数据集进行预处理，将图像调整为合适大小；

18、s3.将数据集划分为训练集、验证集；

19、s4.构建尺度特征重构增强模块xt；

20、s5.构建整体网络，得到融合transformer的生成对抗网络xt-gan网络模型；

21、s6.训练xt-gan网络模型；

22、s7.通过训练后的xt-gan网络模型对单幅图像去模糊。

23、进一步地，所述步骤s1中，收集在不同场景下的模糊图像与清晰图像的图像对；步骤s2中，通过裁剪或填充将图像调整为合适大小；并对数据集进行标注，模糊图像对应连续清晰图像的中间帧，分别标注为模糊图像、清晰图像。

24、进一步地，所述步骤s5中，生成器采用ghostnet卷积网络前八层作为编码器主干网络，在主干网络前加入1个3×3卷积层、1个数据标准化层、1个relu激活层进行输入特征的预处理，将模块xt插入至解码器主干网络后加强其输出的金字塔特征，解码器网络模块负责将图片尺寸恢复，使用2个vgg19作为判别器，得到xt-gan网络模型。

25、进一步地，所述步骤s6中，训练的策略包括：batchsize的大小设置为1，使用adam作为训练速率优化器，训练2000个epoch，训练开始后使用3个epoch的冻结训练预热模型，之后使用学习率10-4继续训练至50epoch，并使用线性衰减策略继续降低学习率，在第2000个epoch时衰减至10-7；数据增强使用了随机裁剪、随机动态模糊、随机中值模糊、随机图像压缩、随机锐化和随机灰度，st的head-num设置为4。

26、进一步地，步骤s7中，单幅图像去模糊的方法包括：将待去模糊的目标图像尺寸进行预处理后输入至xt-gan网络模型中，运行xt-gan网络模型以输出清晰图像。

27、进一步地，所述尺寸预处理的方法包括以下步骤：

28、t1.获取所输入图像的高h和宽w；

29、t2.计算网络所需图像最小高度h和宽度w；其中h＝(h//32+1)*32，w＝(w//32+1)*32，//表示整除；

30、t3.判断是否需要填充图像，如果h<h或w<w则进行填充。

31、与现有技术相比，上述技术方案之一或多个技术方案能达到至少以下有益效果之一：

32、本发明融合transformer的生成对抗网络单幅图像去模糊方法，

33、1、使用端对端的网络去模糊方法，只需要输入待去模糊的图片，就能直接得到去模糊结果，降低了时间成本，检测速度更快。

34、2、以fpn金字塔特征作为多尺度特征输入的轻量级替代，避免了多尺度子网络的堆叠，降低了网络的复杂度。

35、3、提出以xt模块取代了常用的上采样的金字塔融合方式，强化并重构了输出的金字塔特征，扩大了感受野。

36、4、由于使用卷积网络各层提取的高度相关的金字塔多尺度特征，xt结构的transformer模块使用了并行计算的方式，避免了模块的复用堆叠，同时能够结合局部与全局信息，关联不同尺度的特征，以较小的复杂度完成了对卷积金字塔特征处理，提高了准确率。

37、5、xt-gan网络模型保留了原始特征更多的尺度信息的同时降低了复杂度，同时更适用于去模糊网络的小批次训练，避免了因使用bn标准化时，不同批次特征方差差距过大的问题。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：熊智霖黄学雨施浩宇
技术所有人：江西理工大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。