一种基于卷积和注意力机制的图像差异识别方法与流程

文档序号:32987126发布日期:2023-01-17 22:54阅读:19来源:国知局
一种基于卷积和注意力机制的图像差异识别方法与流程

1.本发明涉及人工智能机器视觉的智能识别领域,具体涉及一种基于卷积和注意力机制的图像差异识别方法。


背景技术:

2.使用像机等图像传感器记录同一场景不同时刻的画面,对这些画面进行对比,从而甄别出场景的变化是一种常见的需求。例如,从遥感卫星拍摄的同一地点不同时期的地表变化图像,可以识别建筑、土壤、植被、重要设施等多种地表可观察事物的演变。或者,通过显微镜对别细胞、菌落等不同时刻的图像,可以观察实验的进展。再或者,通过照相机记录设备运转过程中不同时刻的画面,可以推理出设备破损、老化情况。这些场景中,大多数情形下,无法通过简单的图像颜色、像素值的变化自动识别出内容的变化,尤其是现实中拍摄时无法保证传感器姿态、拍摄环境、拍摄参数等多种条件一致,工业应用迫切需要一种健壮性的方法,可以允许在一定拍摄误差下智能识别出图像内容差异的技术。


技术实现要素:

3.本发明为了克服以上技术的不足,提供了一种可以对抗相机角度、位姿、参数、光照环境等变化的情形的基于卷积和注意力机制的图像差异识别方法。
4.本发明克服其技术问题所采用的技术方案是:一种基于卷积和注意力机制的图像差异识别方法,包括如下步骤:a)建立图像差异识别模型,该模型由查询编码器、解码器及分类器构成;b)将模板图像和对比图像输入到编码器中;c)将编码器的输出结果输入到解码器中进行解码,输出得到预测结果图像。
5.进一步的,步骤b)包括如下步骤:b-1)所述编码器n个查询编码层堆叠构成,每个查询编码器的输入来自上一个查询编码器的输出,n为大于等于2的正整数,每一个查询编码器由查询块和编码块构成;b-2)将模板图像输入到第一个查询编码层中的查询块,查询块利用卷积操作对模板图像进行编码,输出得到特征图;b-3)将第一个查询编码层中的查询块输出的特征图输入到第二个查询编码层中的查询块中,输出得到特征图;b-4)重复步骤b-3)直至第n个查询编码层的查询块输出特征图;b-5)将第一个查询编码层中的查询块输出的特征图切割为相同尺寸的多个子区域,将切割后的多个子区域进行线性投影后与经经过分割和线性投影之后的对比图像的编码一起输入到第一个查询编码层中的编码块中,编码块利用多头注意力模块进行再编码,输出最新的编码;b-6)将第一个查询编码层的编码块的输出复制两份,分别作为键和值输入到第二个查询编码层中的编码块中,将第二个查询编码层中的查询块输出的特征图切割为相同尺
寸的多个子区域,将切割后的多个子区域进行线性投影后输入到第二个查询编码层中的编码块中,输出得到特征图分割后的线性投影的输出;b-7)重复步骤b-6)直至第n个查询编码层的编码块输出编码特征。
6.进一步的,步骤c)包括如下步骤:c-1)将第n个查询编码层的编码块输出特征图分割后的输出转换为与第n个查询编码层的查询块输出特征图相同大小的特征矩阵,将两个特征矩阵拼接操作,得到多通道的特征矩阵;c-2)解码器由m个堆叠的卷积层构成,每个卷积层后设置上采样层,m为大于等于2的正整数;c-3)将多通道的特征矩阵输入到解码器中的第一个卷积层中,输出得到特征图;c-4)将特征图输入到解码器中的第一个上采样层中,输出得到上采样后的特征图;c-5)重复执行步骤c-3)至c-4),直至得到第m个上采样层输出的特征图,该特征图作为预测结果图像。
7.进一步的,还包括在步骤c)后执行如下步骤:d-1)收集一个模板数据集,该模板数据集包含多张模板图像,对模板图像进行标注,使用多边形覆盖标注的模板图像中有意义的实体;d-2)将标注的有意义的实体区域抠出,将抠出的图像粘贴到模板图像,得到该模板图像的对比图像;d-3)记录每个有意义的实体在粘贴到模板图像时的位置,得到对比图像相对于模板图像的变化区域,该变化区域作为动态区域,模板图像上其它区域作为静态区域,创建一张和模板图像大小相同的空白图像作为标签,在静态区域将其值设置为0,在动态区域将其值设置为1。
8.本发明的有益效果是:利用计算机程序和图像传感器拍摄的图像,可以自动实现多张图像之间的内容差异识别,为现实应用中通过图像对比识别敏感内容的需求提供了一种健壮的智能化对别方法。
附图说明
9.图1为本发明的模型结构图。
具体实施方式
10.下面结合附图1对本发明做进一步说明。
11.一种基于卷积和注意力机制的图像差异识别方法,包括如下步骤:a)建立图像差异识别模型,该模型由查询编码器、解码器及分类器构成。
12.b)将模板图像和对比图像输入到编码器中。
13.c)将编码器的输出结果输入到解码器中进行解码,输出得到预测结果图像。
14.模板图像和对比图像分别输入编码器,经过多层由查询块和编码块组成的查询编码层编码之后,输出到解码器。在训练阶段,输入样本对儿对应的标签、并设定损失函数对模型进行训练。在推理阶段,模型解码器输出预测结果。该方法可以依靠计算机程序运行,
自动识别两张主体内容相同但存在局部差异的图像,方法具有极高的健壮性,对图像间的相同内容区域不要求像素值对应,可以对抗相机角度、位姿、参数、光照环境等变化的情形。
15.实施例1:步骤b)包括如下步骤:b-1)所述编码器n个查询编码层堆叠构成,每个查询编码器的输入来自上一个查询编码器的输出,n为大于等于2的正整数,每一个查询编码器由查询块和编码块构成。
16.b-2)将模板图像输入到第一个查询编码层中的查询块,查询块利用卷积操作对模板图像进行编码,输出得到特征图。
17.b-3)将第一个查询编码层中的查询块输出的特征图输入到第二个查询编码层中的查询块中,输出得到特征图。
18.b-4)重复步骤b-3)直至第n个查询编码层的查询块输出特征图。
19.b-5)将第一个查询编码层中的查询块输出的特征图切割为相同尺寸的多个子区域,将切割后的多个子区域进行线性投影后与经经过分割和线性投影之后的对比图像的编码一起输入到第一个查询编码层中的编码块中,编码块利用多头注意力模块进行再编码,输出最新的编码。
20.b-6)将第一个查询编码层的编码块的输出复制两份,分别作为键和值输入到第二个查询编码层中的编码块中,将第二个查询编码层中的查询块输出的特征图切割为相同尺寸的多个子区域,将切割后的多个子区域进行线性投影后输入到第二个查询编码层中的编码块中,输出得到特征图分割后的线性投影的输出。
21.b-7)重复步骤b-6)直至第n个查询编码层的编码块输出编码特征。
22.实施例2:步骤c)包括如下步骤:c-1)将第n个查询编码层的编码块输出特征图分割后的输出转换为与第n个查询编码层的查询块输出特征图相同大小的特征矩阵,将两个特征矩阵拼接操作,得到多通道的特征矩阵。
23.c-2)解码器由m个堆叠的卷积层构成,每个卷积层后设置上采样层,m为大于等于2的正整数。
24.c-3)将多通道的特征矩阵输入到解码器中的第一个卷积层中,输出得到特征图。
25.c-4)将特征图输入到解码器中的第一个上采样层中,输出得到上采样后的特征图。
26.c-5)重复执行步骤c-3)至c-4),直至得到第m个上采样层输出的特征图,该特征图作为预测结果图像。
27.实施例3:为了训练上述模型,本方法提出了一种半自动构建数据集的方法。一个可用于训练的样本对由三部分组成,包括一张模板图像、一张对比图像和两者之间的标注,标注包括每个像素的类别,静态类或动态类。可用0表示静态类,1表示静态类。具体的,还包括在步骤c)后执行如下步骤:d-1)收集一个模板数据集,该模板数据集包含多张模板图像,对模板图像进行标注,使用多边形覆盖标注的模板图像中有意义的实体。
28.d-2)将标注的有意义的实体区域抠出,将抠出的图像粘贴到模板图像,得到该模板图像的对比图像。
29.d-3)记录每个有意义的实体在粘贴到模板图像时的位置,得到对比图像相对于模板图像的变化区域,该变化区域作为动态区域,模板图像上其它区域作为静态区域,创建一张和模板图像大小相同的空白图像作为标签,在静态区域将其值设置为0,在动态区域将其值设置为1。为了增加模型健壮性和泛化性,对生成的对比图像进行扰动,具体包括色彩、亮度等非位移类扰动,以及平推、旋转、透视变换等位移类扰动,在进行位移类扰动时,将这些扰动同时施加到标签。
30.为了更方便构建训练数据集,可以利用公开的语义分割图像数据集作为模板数据集,例如coco数据集,省去额外的模板图像标注。使用计算机编程,基于深度学习模型编程框架,例如pytorch等,构建步骤a)中图像差异识别模型。
31.最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1