本发明涉及计算机模型的构建,特别是涉及一种面向遥感场景的视频大模型构建方法。
背景技术:
1、由于遥感视频具有时间和空间上的双重特征,而且遥感场景本身具有复杂的纹理背景,因此,遥感场景下的视频解译任务需要的模型需要具有较强的特征提取能力,同时要发掘视频的空间特征规律和时间特征规律。如何构建一种具有较强特征提取能力和特征规律发掘能力的面向遥感场景的视频大模型,是亟待解决的问题。
技术实现思路
1、本发明目的在于,提供一种面向遥感场景的视频大模型构建方法,构建了一种具有较强特征提取能力和特征规律发掘能力的面向遥感场景的视频大模型。
2、根据本发明,提供了一种面向遥感场景的视频大模型构建方法,包括以下步骤:
3、获取遥感图像集合a和目标视频集合b,a={a1,a2,…,an},an为a中第n帧遥感图像,n的取值范围为1到n,n为a中遥感图像的数量;b={b1,b2,…,bm},bm为b中第m个目标视频,m的取值范围为1到m,m为b中目标视频的数量,bm=(bm,1,bm,2,…,bm,q),bm,q为bm中第q帧目标图像,q的取值范围为1到q,q为目标视频中目标图像的数量,bm,1、bm,2、…、bm,q为连续拍摄的q帧目标图像;b中目标视频为卫星搭载遥感设备拍摄的视频或无人机搭载遥感设备拍摄的视频,所述遥感图像为卫星搭载遥感设备拍摄的图像。
4、利用a和b对神经网络模型进行训练,所述神经网络模型包括第一神经网络子模型和第二神经网络子模型,所述训练的过程包括:
5、遍历a,对an进行分块处理,并随机对an中的k*c块进行掩码处理;c为对an进行分块得到的块数量,k为预设掩码比例;利用掩码处理后的an对第一神经网络子模型进行训练,所述第一神经网络子模型为2d swin-transformer结构,所述第一神经网络子模型包括第一编码器和第一解码器。
6、遍历b,对bm中的第[im,im+l]帧图像进行掩码处理,im+l≤q,im≥1,l为预设掩码帧数量,im为bm中的起始掩码帧;利用掩码处理后的bm对第二神经网络子模型进行训练,所述第二子模型为3d swin-transformer结构,所述第二神经网络子模型包括第二编码器和第二解码器;所述对第一神经网络子模型进行训练与所述对第二神经网络子模型进行训练同时进行,所述第二编码器与所述第一编码器在训练的过程中存在权重共享。
7、本发明与现有技术相比具有明显的有益效果,借由上述技术方案,本发明提供的方法可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有以下有益效果:
8、本发明的面向遥感场景的视频大模型包括两个支路,第一支路对应于第一神经网络子模型,该支路对应的训练样本为遥感图像集合;第二支路对应于第二神经网络子模型,该支路对应的训练样本为目标视频集合,本发明的目标视频集合不但包括遥感视频(即卫星搭载遥感设备拍摄的视频),还包括无人机视频(无人机搭载遥感设备拍摄的视频),由于遥感视频不容易获取,因此可作为训练样本的遥感视频的数量较少;本发明通过引入无人机视频对视频样本数量进行了扩充,利用扩充后的视频样本对第二神经网络子模型进行训练可提高第二神经网络子模型的特征提取和规律发掘的能力,也提高了经训练的第二神经网络子模型的泛化能力,可应用于不同的偏时空预测的下游任务。
9、而且,本发明对第一神经网络子模型对应的遥感图像样本采用的掩码策略为随机掩码一部分像素点,通过该随机掩码策略来提高第一神经网络模型提取遥感图像的空间信息的能力;对第二神经网络子模型对应的目标视频样本采用的掩码策略为将目标视频中的某一帧作为起始帧,将该起始帧之后的固定长度的帧都进行掩码,通过该掩码策略来增大视频预测的难度,提高第二神经网络子模型提取视频中物体的时空连续信息的能力;本发明对第一神经网络子模型的训练过程与对第二神经网络子模型的训练过程同时进行,加快了对视频大模型的训练过程,且训练过程中第一神经网络子模型中的第一编码器与第二神经网络子模型中的第二编码器之间存在权重共享,由此,第二神经网络子模型就可以获取第一神经网络子模型提取遥感图像的空间信息的能力,进而提升了第二神经网络子模型自身提取遥感图像的空间信息的能力,有利于加快对第二神经网络子模型的训练过程。
1.一种面向遥感场景的视频大模型构建方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的面向遥感场景的视频大模型构建方法,其特征在于,40%≤k≤60%。
3.根据权利要求2所述的面向遥感场景的视频大模型构建方法,其特征在于,k=50%。
4.根据权利要求1所述的面向遥感场景的视频大模型构建方法,其特征在于,q=16,5≤l≤9。
5.根据权利要求4所述的面向遥感场景的视频大模型构建方法,其特征在于,l=7。
6.根据权利要求1所述的面向遥感场景的视频大模型构建方法,其特征在于,b中无人机搭载遥感设备拍摄的视频的数量大于b中卫星搭载遥感设备拍摄的视频的数量。
7.根据权利要求1所述的面向遥感场景的视频大模型构建方法,其特征在于,n和m的数量级均为百万级。