本发明属于sar影像解译,具体涉及一种基于全局-局部语义对齐的sar影像预训练大模型地物提取方法、系统、设备及介质。
背景技术:
1、遥感影像地物提取在军用和民用领域都具有极大的研究价值和意义。随着遥感成像技术的不断进步,成像方式亦日益多样化。合成孔径雷达(synthetic aperture radar,sar)则是遥感领域的重要技术,它是一种微波成像雷达,采用主动成像方式,不受天气、光线以及云层的影响,突破了光学遥感受天气等外界条件影响的局限性,在遥感领域发挥了不可替代的作用。因此,合成孔径雷达是对地观测必不可少的遥感手段。
2、sar影像地物提取任务是遥感领域的热门课题,其任务目标是将影像中的每一个像素预测至相应的类别,以获得整幅影像的地物覆盖类别示意图。sar影像地物提取任务在全球地表覆盖、城市规划、灾害防控等领域中具有广泛的应用。例如,可以对农田、森林等土地资源进行动态监测和评估,实现农业精准管理和生态保护;可以对城市建设、用地规划等进行空间分析和优化,提高城市规划和管理的科学性和有效性;可以对自然灾害、气候变化等进行风险评估和应对,为减灾防灾提供支持。
3、近年来,随着深度学习技术的发展,基于神经网络的分类算法,在sar影像地物提取任务中展现出了优异的性能。然而,这些基于神经网络的地物提取算法,通常是有监督式的,即需要大量的标签数据进行监督训练,使网络参数得到正确的调整,从而获得较好的分类结果。然而,获取sar影像的像素级标签不仅需要专业知识,还非常耗时,标注过程耗费大量的人力和物力。随着遥感技术的快速发展,每时每刻都产生了大量的遥感数据。如何充分利用这些无标签的数据,为下游sar影像地物提取任务提供有益的信息,使得在标签数据不足的情况下,仍能训练得到效果好的地物提取模型,是迫切攻克的问题。
4、公开号为cn116977744a的专利申请文件,公开了一种基于对比学习与子空间的小样本跨域高光谱图像分类方法。该方法通过使用子空间改进的原型网络对源域与目标域的嵌入特征进行分类,提高嵌入特征信息的利用率。并通过域鉴别器构建连接源域与目标域的整体模型,实现域对齐,同时减少训练花费。进一步引入对比学习分析源域样本间的相关性与差异性,结合子空间与域鉴别,进一步提升跨域小样本的分类精度。但该方法的不足在于仅针对高光谱图像,由于sar图像特征明显区别于高光谱图像,故该方法面对sar图像时鲁棒性不足,分类结果差。
5、公开号为cn114724030a的专利申请文件,公开了一种基于对比学习的极化sar地物分类方法。该方法根据极化sar数据独特的散射特性,设计了可行的数据增强方式,通过设计辅助任务对无标签的数据进行预训练,得到比较好的预训练模型,而后使用少量有标签的数据对预训练模型进行微调,使其更好地应用在极化sar图像的地物分类任务中。但该方法的不足在于其数据增强方法仅针对极化sar图像,无法泛化到其他的sar图像,其次没有考虑地物提取任务的特性,仅使用对比学习方法学习实例级特征,而忽视了局部语义信息,导致地物提取性能损失,并且该方法预训练数据量不足,无法充分挖掘数据的潜在信息,导致泛化性能不足。
技术实现思路
1、为了克服上述现有技术的不足,本发明的目的在于提供一种基于全局-局部语义对齐的sar影像预训练大模型地物提取方法、系统、设备及介质,通过设计的实例分支和局部语义分支,能够充分利用构造的海量无标签sar影像数据集对深层网络进行预训练,从数据中学习潜在的全局和局部语义信息,促进了sar影像地物提取任务的性能。
2、为了实现上述目的,本发明采取的技术方案是:
3、一种基于全局-局部语义对齐的sar影像预训练大模型地物提取方法,包括以下步骤:
4、步骤1,采集海量sar影像数据,并进行预处理,制作数据集,将数据集划分为预训练数据集和下游微调数据集,并将下游微调数据集划分为训练集、验证集和测试集;
5、步骤2,对步骤1中预训练数据集进行数据增强,生成同一影像的两视图以及视图间对应的局部框;
6、步骤3,构建全局-局部语义对齐预训练网络,使用步骤2生成的同一影像的两视图以及视图间对应的局部框,进行网络训练,得到预训练权重;
7、步骤4,加载步骤3的预训练权重到下游地物提取网络中的骨干网络,使用步骤1中下游微调数据集的训练集和验证集进行微调,得到地物提取模型;
8、步骤5,将步骤4得到的地物提取模型在步骤1中下游微调数据的测试集进行测试,得到预测结果图,对预测结果图进行性能评估。
9、所述步骤1的具体过程为:
10、步骤1.1,采集海量sar影像数据;
11、步骤1.2,对步骤1.1获取的sar影像数据进行多视处理、正射校正以及位深转换的处理,并选取部分处理后的sar影像进行人工地物类别标注;
12、步骤1.3,将步骤1.2处理后的sar影像数据划分为预训练数据集和下游微调数据集;
13、步骤1.4,将步骤1.3得到的下游微调数据集划分为训练集、验证集和测试集。
14、所述步骤2进行数据增强,生成同一影像的两视图,并生成视图间对应局部框的具体过程为:
15、步骤2.1,生成同一影像的两视图:使用i表示预训练数据集中的影像,数据增强策略包括随机裁剪、缩放、亮度和对比度抖动、高斯模糊与随机水平翻转,使用rc(.)表示随机裁剪操作,使用aug(.)表示其余的数据增强操作,先对步骤1.3预训练数据集中的影像进行两次随机裁剪,得到r1=rc1(i)和r2=rc2(i),再对裁剪后的影像进行后续数据增强操作,得到v1=aug1(r1)和v2=aug2(r2),即得到同一影像的两视图;
16、步骤2.2,生成视图间对应的局部框:为对齐局部语义信息,即当两个局部区域对应相同的空间区域时,最小化这两个局部区域的特征表示,使其具有相同的语义信息,需生成具有相同空间区域的局部框,具体流程为:
17、步骤2.2.1,首先找到两个随机裁剪视图(r1,r2)的重合区域is(r1,r2),其中is(r1,r2)表示在随机裁剪视图r1和r2中生成重合的空间区域;
18、步骤2.2.2,在找到重合的空间区域后,随机在重合区域is中采样一个框b=(x,y,w,h),其中(x,y,w,h)用于表示框b的坐标;
19、步骤2.2.3,将框b转换为每个视图v1和v2中的对应坐标,可记为bi=(xi,yi,wi,hi),i∈{1,2};
20、步骤2.2.4,生成更多的局部框,同时获取多对局部表示;即得到坐标框和其中k={1,…,k},k为图像中生成局部框的总数,计算新生成的候选框与已生成框的iou,即交集和并集的比例大小,如果大于50%,则拒绝该候选框;重复这个过程,直到保留的框的数量达到k。
21、所述步骤3构建全局-局部语义对齐预训练网络,进行网络训练具体过程为:
22、步骤3.1,构建预训练网络框架:所述预训练网络框架包括两个神经网络,即由一组参数θ定义的在线网络和由ξ参数定义的目标网络;目标网络提供训练在线网络的回归目标,而目标网络的参数ξ通过一个带衰减参数τ的指数移动平均来跟随在线网络的参数θ,即ξ←τξ+(1-τ)θ;使用的编码网络为resnet-101;
23、步骤3.2,构建实例分支:在训练过程中,同一样本的对应数据增强为一对正样本对,而其他样本为负样本,假设批次大小为n,那么每一个样本最多只有2(n-1)个负样本,对于队列中的样本,记为{k0,k1,…,km},即队列存储了m个负样本;每次迭代会依据“先入先出”的原则更新n个负样本,构建实例分支的具体流程为:
24、步骤3.2.1,将步骤2.1得到的两个视图(v1,v2)各自输入到步骤3.1构建的两个编码网络(fθ,fξ)中,得到特征图m1=fθ(v1)和m2=fξ(v2);
25、步骤3.2.2,将步骤3.2.1得到的特征图m1和m2全局平均池化,即gap,得到图像的实例级特征g1和g2;
26、步骤3.2.3,使用一个投射头将提取的全局特征映射到高维的特征表示空间,使用一个带有一层隐藏层地多层感知机(mlp)作为投射头,其可以表示为:
27、p1=p(g1)=w(2)σ(w(1)g1),p2=p(g2)
28、其中,p(.)表示投影头,w表示全连接层,σ(.)表示relu激活函数;
29、步骤3.2.4,使用infornce损失作为实例分支的损失函数:
30、
31、其中,τ>0是温度超参数,用于调整损失;
32、步骤3.3,构建局部语义分支:将步骤2.2.1得到的两个视图之间的重合区域is(r1,r2)匹配的局部框用于构架局部语义分支,用于增强网络的局部特征学习能力,其具体流程为:
33、步骤3.3.1,在步骤2.2.4得到对应的坐标框和后,在特征图中裁剪相应区域,将其称为感兴趣区域,用roi表示,并通过1×1roialign来局部池化裁剪的特征图,即其中k={1,…,k},k为图像中生成框的总数;
34、步骤3.3.2,与实例分支相同,在得到池化特征之后,将其通过一个投射头,得到与在局部语义分支当中,在线网络之后接了一个预测头,进一步映射得到用于预测目标分支的输出对齐局部语义信息,以加强网络的局部特征表示;
35、步骤3.3.3,将语义一致性损失定义为归一化预测和归一化目标投影之间的均方误差,如下所示:
36、
37、其中,用于归一化特征向量;
38、步骤3.4,进行网络训练:预训练网络框架的整体损失函数可定义为:
39、l=l1+λl2
40、其中,λ是一个超参数,用于平衡实例分支和局部语义分支的损失;
41、梯度仅在在线网络中传播,目标网络的参数ξ通过一个带衰减参数τ的指数移动平均来跟随在线网络的参数θ,即ξ←τξ+(1-τ)θ;
42、在预训练过程中,记录损失变化,如果连续m个epoch损失不下降,则停止训练,保存预训练网络的权重。
43、所述步骤4加载预训练权重到下游地物提取网络中的骨干网络,进行微调的具体过程为:
44、步骤4.1,使用deeplabv3+作为下游地物提取网络,使用交叉熵损失进行下游地物提取网络的训练,其定义如下:
45、
46、其中,c表示类别数,yi表示第i类设置的真实标签,pi表示第i类的预测结果;
47、步骤4.2,加载步骤3.4得到的预训练权重到步骤4.1中下游地物提取网络中的骨干网络;
48、步骤4.3,利用步骤1.4中下游微调数据集中的训练集和验证集对步骤4.2中下游地物提取网络进行微调,在微调的过程中,采用以下流程:
49、步骤4.3.1,尝试一系列不同的学习率,以找到最适合模型的学习率;
50、步骤4.3.2,每经过l个训练周期,使用步骤1.4中下游微调数据集中的验证集评估模型的性能;
51、步骤4.3.3,如果连续l次验证结果显示精度没有提升,则停止当前学习率的训练;
52、步骤4.3.4,从这些学习率中挑选出表现最佳的模型,并将其保存为最终的地物提取模型。
53、所述步骤5性能评估的具体过程为:
54、将步骤4得到的地物提取模型在步骤1.4下游微调数据的测试集中进行测试,得到预测结果图,计算oa、kappa、miou和fwiou分类指标。
55、本发明还提供了一种基于全局-局部语义对齐的sar影像预训练大模型地物提取系统,包括:
56、海量sar影像数据采集模块,用于采集海量sar影像数据,并进行预处理,制作数据集,将数据集划分为预训练数据集和下游微调数据集,并将下游微调数据集划分为训练集、验证集和测试集;
57、预训练数据集处理模块,用于对预训练数据集进行数据增强,生成同一影像的两视图以及视图间对应的局部框;
58、全局-局部语义对齐预训练网络构建模块,用于构建全局-局部语义对齐预训练网络,使用生成的同一影像的两视图以及视图间对应的局部框,进行网络训练,得到预训练权重;
59、地物提取模型获取模块,用于加载预训练权重到下游地物提取网络中的骨干网络,使用步骤1中下游微调数据集的训练集和验证集进行微调,得到地物提取模型;
60、预测结果图性能评估模块,用于将地物提取模型在步骤1中下游微调数据的测试集进行测试,得到预测结果图,对预测结果图进行性能评估。
61、本发明还提供了一种基于全局-局部语义对齐的sar影像预训练大模型地物提取设备,包括:
62、存储器:存储上述一种基于全局-局部语义对齐的sar影像预训练大模型地物提取方法的计算机程序,为计算机可读取的设备;
63、处理器:用于执行所述计算机程序时实现所述的一种基于全局-局部语义对齐的sar影像预训练大模型地物提取方法。
64、本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时能够实现所述的一种基于全局-局部语义对齐的sar影像预训练大模型地物提取方法。
65、与现有技术相比,本发明具有以下优点:
66、第一:针对sar影像,收集了海量数据制作预训练数据集,让预训练大模型能充分挖掘sar影像的潜在信息,促进了下游地物提取任务的性能。
67、第二:针对sar地物提取任务特性,设计了双分支结构,实例分支通过学习影像实例的区别性来增强特征判别能力,而局部语义分支捕获遥感影像局部语义一致性。通过实例分支和局部语义分支的结合,实现全局和局部的语义对齐,两者之间的协同作用有助于模型理解整体场景结构和细粒度细节。
68、综上,本发明针对sar地物提取任务特性,设计了包含实例分支和局部语义分支的双分支预训练框架,并收集了海量sar数据制作预训练数据集,使预训练大模型能从海量数据中充分挖掘并理解影像的全局结构和局部细节,提升了模型的整体场景识别能力和细粒度地物的判别能力,使得模型能在仅使用有限的标注数据进行训练的情况下,依然能够实现卓越的性能,从而显著提高了sar地物提取任务的准确性和可靠性。