一种基于文本引导的图像超分辨方法

文档序号：37929281发布日期：2024-05-11 00:08阅读：来源：国知局

技术特征：

1.一种基于文本引导的图像超分辨方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于文本引导的图像超分辨方法，其特征在于，步骤s1中，使用cub和celeba数据集制作高分辨率图像块与低分辨率图像块训练集和测试集，其中cub为一种公开的鸟类数据集，其中每张图像均提供了图像的文本信息；celeba为一种公开的人脸数据集，其中每张图像均提供了图像的文本信息；

3.根据权利要求2所述的基于文本引导的图像超分辨方法，其特征在于，步骤s1中，构建的网络模型是由多种模块组成的，分别为图像编码器、迭代细化生成器、预训练的文本编码器、预训练的clip网络、深度图像融合模块以及提示预测器模块；

4.根据权利要求3所述的基于文本引导的图像超分辨方法，其特征在于，所述预训练的文本编码器是使用的clip文本编码器，用于获取文本特征信息，得到的是1x15的特征向量。

5.根据权利要求3所述的基于文本引导的图像超分辨方法，其特征在于，所述的网络模型中，

6.根据权利要求3所述的基于文本引导的图像超分辨方法，其特征在于，使用clip-vit32：clip-vit32模型的网络架构主要由两部分组成：一个是视觉处理器，采用了visiontransformer(vit)的编码器；另一个是文本处理器，采用了一个简单的前馈神经网络；这两部分共同组成了clip-vit32模型，使其能够同时处理图像和文本数据。

7.根据权利要求3所述的基于文本引导的图像超分辨方法，其特征在于，所述多模态融合通过仿射变换来实现，其主要方式是将文本特征向量经过两个多层感知器，得到通道级的缩放和偏移，使用这两个参数对图像特征通道进行缩放偏移得到融合后的文本信息特征，在每一次融合后，使用函数rule对其进行非线性变换，使得融合后的图像特征更加复杂，在使用文本向量之前，使用softmax()函数对其进行权重的重新计算，具体表示如公式(3)所示：

8.根据权利要求3所述的基于文本引导的图像超分辨方法，其特征在于，使用基于clip模型的判别器，首先使用clip网络对图像特征进行提取，然后将提取到的多层特征信息进行进一步的收集、融合，用来做对抗损失，对抗损失的表达如公式(4)所示：

9.根据权利要求3所述的基于文本引导的图像超分辨方法，其特征在于，在步骤s3中，采用adam优化算法，其中设置α＝0.0001去训练网络；采用梯度下降法更新网络参数，用公式(5)表示：

10.根据权利要求3所述的基于文本引导的图像超分辨方法，其特征在于，生成网络的损失函数包含三个部分：l1损失，感知损失和生成对抗损失，具体表达式如公式(6)所示：

技术总结
本发明属于图像处理技术领域，具体涉及一种基于文本引导的图像超分辨方法，包括如下步骤：S1、利用已有的数据集，制作高分辨率与低分辨率图像数据集；S2、构建基于文本提示的神经网络模型，用于模型训练；S3、依据步骤S1制作的数据集对步骤S2构建的网络进行训练和测试，保存网络参数；S4、将一张低分辨率图片和其对应的文本信息作为网络的输入，利用步骤S2学习得到的参数重建一张高分辨率的图像作为输出。本发明考虑到现实场景超分的复杂场景，使用文本信息来对网络进行指导，通过文本信息与低清图片信息之间的互补，指导低清图片生成更多的信息，使得在低清图像特别模糊的情况下仍然能够恢复出较好的细节信息。

技术研发人员：刘恒,蒋志浩,储岳中
受保护的技术使用者：安徽工业大学
技术研发日：
技术公布日：2024/5/10

完整全部详细技术资料下载

当前第2页1 2