本发明属于遥感图像分割,具体涉及一种基于视觉基础大模型微调的遥感图像交互式分割方法。
背景技术:
1、随着遥感技术不断发展,遥感卫星不断的发射,收集海量的遥感卫星图像数据成为可能,如高分卫星可以在全球范围内捕获大量高分辨率的遥感图像。在这个遥感大数据时代,大量的遥感图像数据带来了大量的应用机会,地球观测项目逐步增加,同时也提出了许多挑战;在这些挑战中,卫星图像的图像分割已经成为最引人关注的基础问题之一,因为它是一个广泛应用于城市监测、城市管理、交通管理、农业、自动制图和导航等领域的关键技术,具有非常重要的作用。
2、传统的图像分割算法性能具有上限,没有充分融入专家知识,结果难以直接应用,遥感图像数据集仍然依赖于人工标注。之前的交互式图像分割方法有两个主要的发展方向:提高推理预测速度,快速得到预测分割结果,比如从brs的反向传导和在线优化[jang wd,kim c s.interactive image segmentation via backpropagating refinementscheme[c]//proceedings of the ieee/cvf conference on computer vision andpattern recognition.2019:5297-5306],到f-brs只在特定层反向传导[sofiiuk k,petrov i,barinova o,et al.f-brs:rethinking backpropagating refinement forinteractive segmentation[c]//proceedings of the ieee/cvf conference oncomputer vision and pattern recognition.2020:8623-8632],再到ritm的纯前馈网络[sofiiuk k,petrov i a,konushin a.reviving iterative training with maskguidance for interactive segmentation[c]//2022 ieee international conferenceon image processing(icip).ieee,2022:3141-3145],推理速度得到极大提升;提高方法的分割性能和鲁棒性,得到高质量高准确率的预测分割结果,如segment anything model[kirillov a,mintun e,ravi n,et al.segment anything[j].arxiv preprint arxiv:2304.02643,2023]使用超大数据集训练模型,得到了令人印象深刻的分割能力和零样本迁移能力,在实现过程中,研究人员发现如segment anything model视觉基础大模型无法精准高效地实现遥感图像分割,在遥感领域的潜力仍然需要挖掘。
3、因此,如何充分利用视觉基础大模型的分割能力,让视觉基础大模型适应遥感领域,并通过人机交互结合专家知识来进一步提升分割效果和分割效率成为一个重要的问题。
技术实现思路
1、鉴于上述,本发明提供了一种基于视觉基础大模型微调的遥感图像交互式分割方法,能够通过联合微调策略充分利用视觉基础大模型性能,随着人机交互逐步修正,分割出用户期望的目标对象的掩膜,从而提高遥感图像分割的准确率和效率。
2、一种基于视觉基础大模型微调的遥感图像交互式分割方法,包括如下步骤:
3、(1)获取视觉基础大模型及其预训练后的模型参数文件,同时获取目标遥感数据集并对其中的遥感图像进行预处理;所述视觉基础大模型包含图像编码器、提示编码器、掩膜解码器三部分;
4、(2)对图像编码器结构进行微调,即通过增加适应层以提高其特征提取能力;训练时,冻结图像编码器的预训练参数,利用目标遥感数据集训练适应层参数,将预处理后的遥感图像输入图像编码器中,得到图像嵌入向量;
5、(3)利用提示模拟器生成正点击和负点击作为交互提示输入至提示编码器中,得到提示嵌入向量;
6、(4)对掩膜解码器结构进行微调,将图像嵌入向量和提示嵌入向量输入掩膜解码器中,得到预测掩膜;
7、(5)设计适当的损失函数对视觉基础大模型进行训练;
8、(6)将待分割的遥感图像以及用户点击交互信息输入至训练好的模型中,即可直接输出对应的预测掩膜作为图像分割结果。
9、进一步地,所述步骤(1)中获取的视觉基础大模型为segment anything model且采用sa-1b数据集对其预训练,其中图像编码器用于对图像进行特征提取得到包含图像特征信息的嵌入向量,提示编码器用于对图像进行提示交互处理得到包含提示特征信息的嵌入向量,掩膜解码器用于对上述两组嵌入向量进行掩膜处理得到预测掩膜,最终实现对于图像的交互式分割。
10、进一步地,所述目标遥感数据集包含待标注图像、待修正掩膜图像、采集到的遥感图像以及交互点坐标(用户点击遥感图像产生的坐标)。
11、进一步地,所述步骤(1)中对遥感图像进行预处理的方式为:利用前置波段转换器将rgb-ir四波段的遥感图像通过波段选择以转换为rgb三通道的遥感图像,转换过程中先提取rgb波段得到一张三通道图像,再提取ir波段替换原图像中的r波段得到另一张三通道图像,训练时将两张三通道图像同时送入训练,确保所有输入图像数据在相同的格式下进行处理。
12、进一步地,所述图像编码器采用由mae(masked auto encoder)预训练的视觉transformer,其由12个vit单元级联构成,每个vit单元并行增加适应层;每个vit单元由layernorm、多头注意力机制层、layernorm、多层感知机依次连接组成;适应层的输出与多层感知机的输出合并,适应层包含两个低秩参数矩阵mdown和mup,输入向量先与矩阵mdown点乘进行下投影,然后通过relu激活后与矩阵mup点乘进行上投影,最后乘以一个缩放系数fscale后输出;训练时,冻结图像编码器预训练参数,只对矩阵mdown和mup的数值进行调整。
13、进一步地,所述步骤(3)中在首次训练时初始化提示模拟器,提示模拟器会模拟用户交互得到正点击或负点击,即模拟交互式采样的方式从真值掩膜中采样一个像素或合适半径的实心圆生成一个正点击,其为用于分割出目标对象掩膜的点击;从背景中模拟交互式采样一个像素或合适半径的实心圆生成一个负点击,其为用于去除不属于目标对象的掩膜的点击;在非首次训练时,提示模拟器会在真值掩膜覆盖而预测掩膜未覆盖的真阴区域模拟交互式采样一个像素或合适半径的实心圆作为正点击,在真值掩膜未覆盖而预测掩膜覆盖的假阳区域模拟交互式采样一个像素或合适半径的实心圆作为负点击;提示模拟器会将其生成的所有点击作为交互提示输入至提示编码器中通过位置编码生成提示嵌入向量。
14、进一步地,所述模拟交互式采样的方式即通过模拟人工点击的聚集性、显著性、边缘性、最大区分性等策略所设计相应的采样方式。
15、进一步地,所述掩膜解码器由提示自注意力机制层、提示-图像交叉注意力机制层、图像向量上采样层、多层感知机依次连接组成,得到各像素成为掩膜的概率,进而通过阈值控制得到预测掩膜;所述图像向量上采样层由转置卷积层、layernorm、gelu激活函数、转置卷积层、gelu激活函数依次连接组成。
16、进一步地,所述损失函数的表达式如下:
17、
18、
19、
20、其中:l为总损失函数,lce为交叉熵损失,lfl为聚焦损失,si为预测掩膜中第i个像素点的置信度,gi为真值掩膜中第i个像素点的置信度,γ为可调节因子,n为掩膜的总像素点数量。
21、本发明方法是一个完整的基于视觉基础大模型微调的遥感图像交互式分割流程,核心模型包括带适应层的图像编码器、提示编码器、掩膜解码器,实现了完整的人机交互循环,包括图像波段转换、图像编码器原参数冻结和适应层参数训练、提示编码器接收模拟点击输入和参数训练、掩膜解码器参数训练和反馈、提示模拟器模拟点击生成、提示编码器接收用户点击输入、掩膜解码器预测掩膜输出。
22、本发明提出了一种基于视觉基础大模型的联合微调策略,在训练时同时微调图像编码器的适应层、提示编码器和掩膜解码器,使模型更加适应目标遥感数据集。本发明提出了交叉熵和聚焦损失的加权组合损失函数用于计算预测掩膜和真值掩膜的损失,根据损失对需要微调的参数进行调整。本发明为了支持rgb-ir四波段和rgb三波段的遥感图像,使用四波段转三波段的前置波段转换器,确保输入图像编码器的图像为三通道图像。为了使得提示编码器可训练,本发明提出了一种自动化迭代反馈的提示模拟策略,根据模拟交互式采样及预测掩膜和真值掩膜的差异生成下一次正负点击对用于模拟分割点击交互。
23、本发明组建了完整实用的交互式遥感图像分割训练和推理流程,通过用户点击交互,迭代输出或修正预测掩膜,提高了遥感图像分割的准确率和效率,为实用高效的遥感图像标注提供新方法。