基于CLIP和持续学习的ISAR图像识别方法及系统

文档序号:37464628发布日期:2024-03-28 18:47阅读:12来源:国知局
基于CLIP和持续学习的ISAR图像识别方法及系统

本发明涉及深度学习及isar图像识别,具体地,涉及一种基于clip和持续学习的isar图像识别方法及系统。


背景技术:

1、isar是一种能够对非合作目标进行高分辨率成像的技术,具备超远距离成像的能力,能在各种天气、复杂环境下工作。通过对雷达回波信号在进行处理生成的isar图像中包含了目标的位置、距离、形状、相对姿态、运动状态等丰富的信息。近年来,基于深度学习的图像分类方法大获成功,在遥感、医疗、安防等许多领域都得到广泛应用。由其衍生出的基于深度学习的isar图像识别方法,也已经被证明了具有强大的性能,训练良好的深度神经网络能够以极快的速度和极高的准确率对大量isar图像进行识别。针对isar图像获取困难的问题,还发展了少样本识别的技术。但目前方法大多都只是基于isar图像以及标签信息来训练神经网络。

2、专利文献cn116994143a(申请号:cn202311044597.5)公开了一种基于复数区域图transformer的机动空间目标识别方法,加入了基于自监督学习策略的对比学习方法增强深度神经网络对isar图像的处理能力。这类方法通过进一步利用图像本身的特征,减少了对标签信息的依赖,但仍然没有很充分地利用isar图像以外的先验知识和提示信息。因此需要一种能够接收更多输入信息来提升深度神经网络对isar图像识别能力的方法。


技术实现思路

1、针对现有技术中的缺陷,本发明的目的是提供一种基于clip和持续学习的isar图像识别方法和系统。

2、根据本发明提供的基于clip和持续学习的isar图像识别方法,包括:

3、步骤1:进行isar图像预处理,生成相应说明文本;

4、步骤2:使用clip模型提取isar图像的图像特征和说明文本的文本特征;

5、步骤3:构建持续学习缓存模型,并进行参数微调;

6、步骤4:输入isar图像进行识别推理,根据输入的isar图像输出匹配程度最高的识别结果。

7、优选地,所述步骤1包括:

8、接收isar图像数据,进行数据增强,包括:旋转、翻转、裁剪、缩放、颜色变换、噪声注入和模糊处理;

9、制作相应的说明文本,说明文本中包含isar图像类别和数据增强方式;

10、得到isar图像数据集{xi}n,c与说明文本数据集{ti}n,c,其中n表示数据集中图像xi或文本ti的总数量,c表示类别数量。

11、优选地,所述步骤2包括:

12、使用clip模型的图像编码器fimage提取isar图像xi的图像特征fimage(xi;θ),使用clip模型的文本编码器ftext提取对应说明文本ti的文本特征ftext(ti;θ),其中θ表示clip模型的参数;对于clip模型,fimage(xi;θ)和ftext(ti;θ)都是512维的向量;

13、输入多组isar图像和说明文本,得到多对图像特征和文本特征;

14、对用于训练的数据集中所有图像和文本,都进行特征提取;

15、使用提取的图像特征和文本特征,计算出图像特征和文本特征之间的相似度得分:

16、sa,b,θ=cossim<fimage(xa;θ),ftext(tb;θ)>

17、其中:cossim<*,*>表示计算余弦相似度;当a=b时,sa,a,θ表示isar图像xa与其对应说明文本ta的特征的相似度得分;当a≠b时,sa,b,θ表示isar图像xa与isar图像xb对应的说明文本tb的特征的相似度得分。

18、优选地,所述步骤3包括:

19、随机从每个类别中抽取k张图像,共计得到c·k张图像,c表示类别数量,用这些图像的图像特征和标签真值独热编码分别为键和值,构建持续学习的初始缓存模型,该缓存模型包含共c·k个键值对,由图像特征向量构成的键部分表示为由标签真值独热编码构成的值部分表示为在训练过程中,微调缓存模型的键部分fcache,使得更好地反映数据集的图像特征;

20、在训练过程中,对于输入的每张isar图像xi的图像特征,计算其与各个类别对应说明文本tc的特征的相似度得分,得到一个c维向量fclip,即clip模型本身的分类器对图像xi的输出;

21、计算的图像特征fimage(xi;θ)与缓存模型中各图像特征的相似度得分,即:通过非线性变换将其从[-1,1]映射到[0,1],β是一个超参数,然后再与lcache相乘得到一个c维向量fcache,即持续学习缓存模型对图像xi的输出;

22、整个模型对图像xi的输出表示为fout=fclip+αfcache,其中α是超参数;

23、使用该输出fout与图像xi的真实类别标签构造交叉熵损失,对持续学习缓存模型键参数进行梯度下降优化。

24、优选地,所述步骤4包括:对于每个待识别的isar图像xtest,经由clip模型的图像编码器提取特征、clip模型本身的分类器计算输出、微调好的缓存模型计算输出,得到最终输出fout,经过softmax函数得到isar图像xtest的识别结果。

25、根据本发明提供的基于clip和持续学习的isar图像识别系统,包括:

26、模块m1:进行isar图像预处理,生成相应说明文本;

27、模块m2:使用clip模型提取isar图像的图像特征和说明文本的文本特征;

28、模块m3:构建持续学习缓存模型,并进行参数微调;

29、模块m4:输入isar图像进行识别推理,根据输入的isar图像输出匹配程度最高的识别结果。

30、优选地,所述模块m1包括:

31、接收isar图像数据,进行数据增强,包括:旋转、翻转、裁剪、缩放、颜色变换、噪声注入和模糊处理;

32、制作相应的说明文本,说明文本中包含isar图像类别和数据增强方式;

33、得到isar图像数据集{xi}n,c与说明文本数据集{ti}n,c,其中n表示数据集中图像xi或文本ti的总数量,c表示类别数量。

34、优选地,所述模块m2包括:

35、使用clip模型的图像编码器fimage提取isar图像xi的图像特征fimage(xi;θ),使用clip模型的文本编码器ftext提取对应说明文本ti的文本特征ftext(ti;θ),其中θ表示clip模型的参数;对于clip模型,fimage(xi;θ)和ftext(ti;θ)都是512维的向量;

36、输入多组isar图像和说明文本,得到多对图像特征和文本特征;

37、对用于训练的数据集中所有图像和文本,都进行特征提取;

38、使用提取的图像特征和文本特征,计算出图像特征和文本特征之间的相似度得分:

39、sa,b,θ=cossim<fimage(xa;θ),ftext(tb;θ)>

40、其中:cossim<*,*>表示计算余弦相似度;当a=b时,sa,a,θ表示isar图像xa与其对应说明文本ta的特征的相似度得分;当a≠b时,sa,b,θ表示isar图像xa与isar图像xb对应的说明文本tb的特征的相似度得分。

41、优选地,所述模块m3包括:

42、随机从每个类别中抽取k张图像,共计得到c·k张图像,c表示类别数量,用这些图像的图像特征和标签真值独热编码分别为键和值,构建持续学习的初始缓存模型,该缓存模型包含共c·k个键值对,由图像特征向量构成的键部分表示为由标签真值独热编码构成的值部分表示为在训练过程中,微调缓存模型的键部分fcache,使得更好地反映数据集的图像特征;

43、在训练过程中,对于输入的每张isar图像xi的图像特征,计算其与各个类别对应说明文本tc的特征的相似度得分,得到一个c维向量fclip,即clip模型本身的分类器对图像xi的输出;

44、计算的图像特征fimage(xi;θ)与缓存模型中各图像特征的相似度得分,即:通过非线性变换将其从[-1,1]映射到[0,1],β是一个超参数,然后再与lcache相乘得到一个c维向量fcache,即持续学习缓存模型对图像xi的输出;

45、整个模型对图像xi的输出表示为fout=fclip+αfcache,其中α是超参数;

46、使用该输出fout与图像xi的真实类别标签构造交叉熵损失,对持续学习缓存模型键参数进行梯度下降优化。

47、优选地,所述模块m4包括:对于每个待识别的isar图像xtest,经由clip模型的图像编码器提取特征、clip模型本身的分类器计算输出、微调好的缓存模型计算输出,得到最终输出fout,经过softmax函数得到isar图像xtest的识别结果。

48、与现有技术相比,本发明具有如下的有益效果:

49、(1)本发明利用clip模型强大的跨模态能力将isar图像和说明文本联系起来,使得isar图像识别方法与系统可以跨模态地处理更加丰富的信息;

50、(2)本发明采用持续学习方法抑制微调过程可能发生的灾难性遗忘,通过随机选取各类别图像构造缓存模型和微调缓存模型参数提升识别准确率;

51、(3)本发明在训练过程中只需微调缓存模型中的键部分的参数,需要调节的参数量为:c·k·512,c是待识别isar图像类别总数,k是与缓存大小配置有关的设定,典型取值如:4、8、16,参数量常见范围是:0.02m至1m,因而训练资源消耗极少。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1