本发明属于遥感图像生成领域,更具体地涉及一种基于扩散模型的态势不变遥感图像生成方法。
背景技术:
1、遥感图像生成能够为遥感图像分析提供多样性的训练数据,也能够为图像解译算法提供测试数据,有广泛的应用前景。然而,如何生成稳定可控的图像是目前基于扩散模型的图像生成模型亟需解决的难题。在自然场景图像生成领域,研究者们能够通过人脸重绘对生成图像中五官进行合理排布和缩放消除人脸畸变,使得人脸部分更加逼真自然。在遥感图像生成领域,想要按照某种态势分布生成包含某类目标的遥感图像,常见做法是不断修改提示词,生成大量的近似图像,从中挑选最符合要求的图像,这种做法不仅效率低,而且成功率也不高。为此,将参考图像的态势引入到图像生成过程中将大幅提升遥感图像生成的可控程度和成功率以及效率。
技术实现思路
1、本发明的目的是为了提升遥感图像生成效能,根据参考图像和提示词生成稳定可控的指定态势的遥感图像,提出了一种基于扩散模型的态势不变遥感图像生成方法。
2、本发明采用的技术方案为:
3、一种基于扩散模型的态势不变遥感图像生成方法,包括以下步骤:
4、步骤1,数据预处理:对遥感图像进行关键点标注,关键点包括遥感图像中飞机目标的机头、机身、机翼和尾翼的位置坐标以及舰船目标的舰首、甲板、舷号和舰艉的位置坐标,并用关键线连接在结构上有依赖关系的关键点,关键点和关键线组成描述目标态势的图,然后将描述目标态势的图转换为邻接矩阵,并通过高斯核函数将关键点映射为热点图,将热点图和邻接矩阵拼接为态势张量;
5、步骤2,搭建hourglass网络,包括串联的三个hourglass模块,每个hourglass模块包括卷积路和跳级路,卷积路包含三个卷积层,每个卷积层之后紧跟一个池化层,跳级路包含一个卷积核尺寸为1的卷积层;其中,池化层采用焦点池化操作,并且在焦点池化后增加relu激活层;
6、步骤3,关键点和关键线检测:将态势张量输入到hourglass网络,hourglass网络输出态势检测张量,并设置损失函数为态势张量与输出态势检测张量之间的focal loss损失,通过adam优化算法最小化损失函数,更新hourglass网络中的参数直至训练收敛,得到训练好的hourglass网络,通过训练好的hourglass网络得到态势检测张量;
7、步骤4,搭建多级交叉注意力模块,多级交叉注意力模块的输入为噪声向量、态势向量和文本向量,经过多级交叉注意力模块的三级交叉注意力计算过程,得到注意力向量;其中,噪声向量、态势向量和文本向量分别为随机噪声图、态势检测张量和文本张量经过线性层后得到的向量,随机噪声图为随机产生的与态势检测张量尺寸一致的随机噪声矩阵,文本张量由一段描述性的文本语言经过clip大语言模型编码后产生;
8、步骤5,搭建去噪网络,去噪网络包括网络结构和去噪策略两部分,其中网络结构采用unet网络,网络的输入为注意力向量,输出为生成遥感图像,去噪策略采用ddim去噪方法;
9、步骤6,将注意力向量经过去噪网络得到生成遥感图像,生成遥感图像的态势图与所选的遥感图像态势相同。
10、进一步的,步骤1中的所述邻接矩阵为01方阵,维度为关键点的最大值,一幅遥感图像的关键点数量上限设置为128,则邻接矩阵为128×128的方阵,当第i个关键点与第j个关键点有依赖关系时,方阵中的元素li,j=1,否则li,j=0,并设置热点图的尺寸为128×128。
11、进一步的,步骤2中所述焦点池化包括4个单向最大池化操作和一个加法操作,4个单向最大池化操作分别为自右向左的最大化池化、自底向上的最大化池化操作、自右下向左上的最大化池化操作和自左下向右上的最大化池化操作,将4个单向池化操作的结果逐像素相加得到焦点池化结果。
12、进一步的于,步骤4中所述三级交叉注意力计算过程具体为:
13、第一级为态势向量与噪声向量进行注意力计算得到向量a,态势向量经过线性变换得到q1矩阵,噪声向量经过线性变换得到k1矩阵和v1矩阵,则
14、
15、式中,dk表示q1矩阵的维度;
16、第二级为噪声向量与文本向量进行注意力计算得到向量b,噪声向量经过线性变换得到q2矩阵,文本向量经过线性变换得到k2矩阵和v2矩阵;
17、第三级为文本向量与态势向量进行注意力计算得到向量c,文本向量经过线性变换得到q3矩阵,态势向量经过线性变换得到k3矩阵和v3矩阵;
18、将向量a、向量b和向量c逐像素相加的到注意力向量。
19、本发明相对于现有技术的优点为:
20、(1)能够为遥感图像分析提供多样性的训练数据,也能够为图像解译算法提供测试数据;
21、(2)能够根据参考图像和提示词生成指定态势的遥感图像;
22、(3)能够避免为了挑选最符合要求的图像而生成大量的近似图像,提升生成效率。
1.一种基于扩散模型的态势不变遥感图像生成方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于扩散模型的态势不变遥感图像生成方法,其特征在于,步骤1中的所述邻接矩阵为01方阵,维度为关键点的最大值,一幅遥感图像的关键点数量上限设置为128,则邻接矩阵为128×128的方阵,当第i个关键点与第j个关键点有依赖关系时,方阵中的元素li,j=1,否则li,j=0,并设置热点图的尺寸为128×128。
3.根据权利要求1所述的一种基于扩散模型的态势不变遥感图像生成方法,其特征在于,步骤2中所述焦点池化包括4个单向最大池化操作和一个加法操作,4个单向最大池化操作分别为自右向左的最大化池化、自底向上的最大化池化操作、自右下向左上的最大化池化操作和自左下向右上的最大化池化操作,将4个单向池化操作的结果逐像素相加得到焦点池化结果。
4.根据权利要求1所述的一种基于扩散模型的态势不变遥感图像生成方法,其特征在于,步骤4中所述三级交叉注意力计算过程具体为: