1.一种基于文本引导的图像超分辨方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于文本引导的图像超分辨方法,其特征在于,步骤s1中,使用cub和celeba数据集制作高分辨率图像块与低分辨率图像块训练集和测试集,其中cub为一种公开的鸟类数据集,其中每张图像均提供了图像的文本信息;celeba为一种公开的人脸数据集,其中每张图像均提供了图像的文本信息;
3.根据权利要求2所述的基于文本引导的图像超分辨方法,其特征在于,步骤s1中,构建的网络模型是由多种模块组成的,分别为图像编码器、迭代细化生成器、预训练的文本编码器、预训练的clip网络、深度图像融合模块以及提示预测器模块;
4.根据权利要求3所述的基于文本引导的图像超分辨方法,其特征在于,所述预训练的文本编码器是使用的clip文本编码器,用于获取文本特征信息,得到的是1x15的特征向量。
5.根据权利要求3所述的基于文本引导的图像超分辨方法,其特征在于,所述的网络模型中,
6.根据权利要求3所述的基于文本引导的图像超分辨方法,其特征在于,使用clip-vit32:clip-vit32模型的网络架构主要由两部分组成:一个是视觉处理器,采用了visiontransformer(vit)的编码器;另一个是文本处理器,采用了一个简单的前馈神经网络;这两部分共同组成了clip-vit32模型,使其能够同时处理图像和文本数据。
7.根据权利要求3所述的基于文本引导的图像超分辨方法,其特征在于,所述多模态融合通过仿射变换来实现,其主要方式是将文本特征向量经过两个多层感知器,得到通道级的缩放和偏移,使用这两个参数对图像特征通道进行缩放偏移得到融合后的文本信息特征,在每一次融合后,使用函数rule对其进行非线性变换,使得融合后的图像特征更加复杂,在使用文本向量之前,使用softmax()函数对其进行权重的重新计算,具体表示如公式(3)所示:
8.根据权利要求3所述的基于文本引导的图像超分辨方法,其特征在于,使用基于clip模型的判别器,首先使用clip网络对图像特征进行提取,然后将提取到的多层特征信息进行进一步的收集、融合,用来做对抗损失,对抗损失的表达如公式(4)所示:
9.根据权利要求3所述的基于文本引导的图像超分辨方法,其特征在于,在步骤s3中,采用adam优化算法,其中设置α=0.0001去训练网络;采用梯度下降法更新网络参数,用公式(5)表示:
10.根据权利要求3所述的基于文本引导的图像超分辨方法,其特征在于,生成网络的损失函数包含三个部分:l1损失,感知损失和生成对抗损失,具体表达式如公式(6)所示: