基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准方法及系统

文档序号：35859082发布日期：2023-10-26 08:59阅读：71来源：国知局

本发明属于布匹图像配准，具体涉及一种注意力机制的transformer结构和多尺寸窗口的可形变图像配准方法及系统。

背景技术：

1、随着数字图像获取技术的快速发展，人们能够轻松地获得不同视角和不同时间点的图像数据。这些图像数据在海洋资源探测、医学影像诊断、遥感图像处理、目标异常检测等许多计算机视觉领域中扮演着重要角色。如声呐图像已经应用于海底目标检测、目标跟踪、路径规划等许多水下任务；医学图像在影像应用、病理分析中发挥着重要作用；遥感图像已经广泛应用于地图测绘、环境监测、天气预报等领域。然而，由于图像获取条件的不同，图像之间可能存在旋转、平移、缩放、畸变等变换，甚至图像对之间会出现比较复杂的非线性关系，导致图像之间不完全匹配，使得后续的图像分析和处理变得困难。因此在图像分析和处理之前都需要对图像进行配准。

2、目前，图像配准已经成为计算机视觉领域中重要问题之一，其研究在视频分析、模式识别和运动目标等方面有着广泛应用。但是在收集图像时，由于环境的复杂性和设备本身的限制，采集到的图像可能会受到噪声污染，甚至存在多种形式的失真。这些因素会导致图像具有较低的信噪比和分辨率以及纹理特征不明显等特性，并且不同视点之间的图像会呈现出比较复杂的非线性关系。另外，随着全球图像数据量的迅速增加，以及图像数据应用领域的不断拓展，对图像配准方法的速度和精度都提出了更高的要求，给图像配准带来了很大的挑战，需要不断改进图像配准方法。

3、传统的图像配准是基于sift、surf、orb等点特征。点特征在图像配准的特殊性下有效减少了错误匹配的数量，通过建立图像变换模型达到图像配准的目的。随着深度学习的发展，神经网络被用于图像配准。图像配准是通过神经网络提取图像特征。因此，它优于传统的图像配准方法。监督图像配准方法通过神经网络获得输入图像之间的变形模型参数，实现图像配准。无监督图像配准方法不需要手动构建图像变形模型并通过相似度评估图像匹配。由于图像配准中图像之间的复杂非线性变换，构建参数变形模型通常具有挑战性。近年来，基于形变场的无监督图像配准越来越受到关注。形变场是通过构建待配准图像各个像素的矢量位移，来实现图像的匹配。

4、现有的基于注意力机制的transformer结构虽然能对图像进行匹配，但传统的transformer仍然采用与单图像任务相同的注意力机制，只关注一个图像的相关性，而忽略了图像对之间的映射关系，限制了transformer寻找有效的配准特征进行精细配准。另外，在提取图像特征的过程中，全局对应的方式不能精细提取特征，限制了图像间不同信息的对应关系，可能会导致关键结构和细节的缺失等问题。

技术实现思路

1、为解决只关注单一图像的相关性和部分特征丢失的问题，本发明提出了一种基于交叉注意力的多尺寸窗口transformer网络图像配准方法及系统。本发明首先通过交叉注意力学习图像之间对应关系，利用其注意力机制计算图像对的相关性，促使特征在网络中自动匹配；其次，通过基于交叉注意力的特征融合模块来不断匹配和融合特征，将两个输入特征融合成一个注意信息，共享参数进行特征匹配；最后，利用多尺寸窗口着重于可变形配准的局部变换，获取细节信息，同时约束基本窗口和不同大小的搜索窗口之间的注意力计算。本发明提高了图像配准的精度，并且有利于应用在生产布匹过程中识别出瑕疵布匹，提高生产效率。

2、为实现上述目的，本发明采用以下技术方案：

3、基于交叉注意力的多尺寸窗口transformer网络布匹图像配准方法，其包括步骤：

4、s1.处理真实的布匹图像，并划分为训练集和测试集；

5、s2.创建双通道的transformer结构网络，将输入图像对分别划分为相同大小的图像块并线性编码，然后分别提取固定图像和移动图像的特征；

6、s3.来自双通道网络的特征块通过交换输入的顺序，通过两个cross attentiontransformer(cat)中的多尺寸窗口方法获得交叉注意力，将两个输入特征融合成一个注意力信息；

7、s4.将交叉融合后的特征块之间分别采用跳跃连接的方式进行聚合特征，最终获取输出形变场；

8、s5.利用得到的形变场和空间变换网络对布匹图像进行变形，得到配准后的图像，并计算固定图像和配准图像的相似度；

9、s6.将配准后的布匹图像与固定图像进行差分操作，根据差分后的图像的像素来识别瑕疵布匹。

10、进一步的，步骤s1中，对数据进行数据处理包括图像裁剪，得到训练集和测试集，并对训练集进行数据增强，将数据增强后的训练数据集输入网络。

11、进一步的，步骤s2中，利用双并行网络分别提取移动图像和固定图像的特征，两个网络通过特征融合进行通信，并且上下两个网络作用机制相同。这两个并行网络遵循unet结构的编码和解码部分，但用cross attention transformer块代替卷积，这些块在两个网络之间的注意力特征融合模块中发挥重要作用，促进特征在网络中自动匹配。本发明的网络不仅垂直交换交叉图像信息，并能保持水平细化功能。因为上下并行网络的机制相同，因此接下来介绍其中一个网络，下面称之为单通道网络。

12、单通道transformer架构，其过程如下：第一步，将输入的彩色图像通过图像块分割模块裁剪成没有重复区域的图像块，每个图像块都可以看成一个标记，其作用是连接输入图像像素的rgb值。在单通道网络中，把图像块大小设置为4×4，所以单个图像块的特征维度为48。在分割好的图像块上使用一个线性嵌入层，其作用是将维度为48的图像块映射到一个任意维度(c)。在这些图像块标记上通过几个改进的transformer块来提取特征，没有改变transformer块标记的数量(h/4×w/4)，并与线性嵌入模块一起被称为“步骤1”。

13、随着网络的深化，为了获取多层次特征，使用图像块合并模块去减少标记的数量。假定输入图像块合并模块的是一个4×4的特征图，图像块合并模块首先将相同颜色的块拼接在一起，形成四个2×2的图像块；然后连接这四个图像块的特征进行归一化操作；最后通过一个线性层做线性变化。此时，标记的数量则会减少为之前的4倍(2×分辨率的下采样)，而输出维度则会变为2c。

14、接着应用transformer块进行特征交换，保持分辨率为h/8×w/8。将图像块合并模块和特征转换的transformer块表示为“步骤2”。重复上述“步骤2”过程两次，记作“步骤3”和“步骤4”，此时输出分辨率分别为h/16×w/16和h/32×w/32。

15、进一步的，步骤s3中，利用两个cat块将两个输入特征融合成一个注意力信息，共享参数进行特征匹配；并且利用cat块中的多尺寸窗口方法以实现精确的局部对应，最终生成精细的形变流场。来自并行子网络的移动图像特征tm和固定图像特征tf通过交换输入的顺序，通过两个cat块获得相互注意力。然后另两个注意力输出返回到原来的通道，得到融合特征tmf和tfm，并为下一步更深入的交换信息做准备。在一个特征融合模块中，总共有k次通信，以获得足够的相互信息。通过两个网络之间的注意特征融合模块，来自不同语义信息的不同网络的特征进行频繁交换信息，因此，本发明的网络可以保持学习多层次语义特征来进行最终的精细配准。

16、这种新的注意力机制cat，用于图像对之间充分交换信息，统筹了匹配特征的表征性和多尺度性。假设b和s分别以不同的方式分为两组窗口，基本窗口集sba和搜索窗口集sse，用于下一个基于窗口的注意力计算。cat块的目的是通过注意力机制计算出从输入特征b到特征s具有相应相关性的新特征标记。sba和sse具有相同的个数，但窗口大小不同。将sba中的每个基窗口投影到查询集查询中，将每个搜索窗口通过线性层投影到知识集键和值中。然后，基于窗口的多头交叉注意(w-mca)计算两个窗口之间的交叉注意力，并将注意力添加到基窗口中，使每个基窗口从搜索窗口中获得相应的加权信息。最后，将新的输出集发送到具有gelu非线性的多层感知机中，为了提高其学习能力。在每个w-mca和每个mlp模块之前都使用了一个layernorm(ln)层，保证每一层有效进行。

17、多尺寸窗口分区包括两种不同的方法，窗口分区(wp)和窗口区域分区(wap)，以将输入特征标记b和s划分为不同大小的窗口。wp划分特征标记直接进入大小为n×h×w的基窗口集sba中，wap随着α、β的放大倍数扩大窗口大小。因此，基础和搜索窗口的大小计算为：

18、hba,wba＝h,w

19、hse,wse＝α·h,β·w

20、其中，hba、wba为基本窗口的大小，而hse、wse为搜索窗口的大小；为了获得相同数量的两个窗口集，wap利用一个滑动窗口，并将步幅设置为基本窗口大小，因此sse的大小为n×α·h×β·w。通过不同大小的对应窗口，cat块有效地计算了两个特征标记之间的交叉注意力，避免大跨度搜索而实现准确交换信息。

21、注意力表示的是将查询和一组键值对映射到输出的函数，其中查询、键、值和输出都为向量的形式。本发明提出的w-mca计算的是基本窗口和搜索窗口之间的交叉注意力，以获取精确的对应关系，k、q、v表示图像块映射出来的特征，其中k表示基础窗口映射出来的特征，q和v来自搜索窗口。其计算结果的值为加权和，其中分配给每个值的权重由查询和相应键之间的兼容性函数计算得到。

22、w-mca采用多头注意力来充分表示子空间，进行的是查询和键的点积运算，首先把每个键都除以接着使用一个softmax函数来得到这些值的权重。因此，交叉注意力计算表示为：

23、

24、其中，qba、kse、vse是查询矩阵、键矩阵和值矩阵。qba∈rn×s×c是sba和kse的线性投影，vse∈rn×μ·s×c是sse的线性投影，s＝h×w和μ＝α·β的线性投影，c是每个特征标记的维数。

25、进一步的，步骤s4中，将交叉融合后的特征块之间分别采用跳跃连接的方式进行聚合特征，最终获取输出形变场；

26、进一步的，步骤s5中，网络的损失函数由两部分组成：一是相似度损失，用meansquared error mean squared error(mse)来表示，用来度量移动图像和固定图像的相似度，并且惩罚二者之间的差异。二是正则化损失，它由一个超参数和一个正则项组成，正则项是对估计的形变场增加一个平滑性约束，防止形变场折叠程度过高。

27、mse表示真实值与估计值差平方的期望，它的值越小，表明预测效果越好。移动图像与预测图像的均方误差表示为：

28、

29、其中p表示移动图像和固定图像中的像素点，ω表示整个图像区域。

30、正则化是对形变场中的折叠进行惩罚，表示为：

31、

32、其中，r(θ)是一个正则项，表示在p点在x和y方向上的梯度。若用表示损失正则项的系数，则损失函数表示为：

33、

34、进一步的，步骤s6中，将配准后的布匹图像与固定图像进行差分操作，根据差分后的图像的像素来识别瑕疵布匹图像。这里采用设置阈值的思路，阈值大小和窗口大小事先设置，通过滑动窗口依次判断窗口内像素的平均值是否超过阈值，若超过阈值则该图像存在瑕疵，反之则没有瑕疵。

35、本发明还公开了一种基于交叉注意力的多尺寸窗口transformer网络布匹图像配准系统，用于执行上述方法，其包括如下模块：

36、数据集制作模块：将布匹图像对进行裁剪，并进一步划分成训练集和测试集；

37、双通道transformer结构模块：创建双通道的transformer结构网络，将输入图像对分别划分为相同大小的图像块并线性编码，然后分别提取固定图像和移动图像的特征；

38、特征融合模块：来自双通道网络的特征块通过交换输入的顺序，通过两个crossattention transformer(cat)中的多尺寸窗口方法获得交叉注意力，将两个输入特征融合成一个注意力信息；

39、特征聚合模块：将交叉融合后的特征块之间分别采用跳跃连接的方式进行聚合特征，最终获取输出形变场；

40、训练模块：利用均方误差损失和正则化损失对模型进行训练；

41、判定瑕疵模块：将配准后的布匹图像与固定图像进行差分操作，根据差分后的图像的像素来识别瑕疵布匹。

42、与现有技术相比，本发明的基于交叉注意力的多尺寸窗口transformer网络布匹图像配准方法及系统，首先，本发明利用基于交叉注意力的transformer块融合不同尺度的信息，有效应对图像对之间的映射问题；另外，利用多尺寸窗口着重于可形变的局部变换，获取细节特征以提高配准效果。本发明在交叉注意力transformer架构上，不断匹配和融合图像对特征，将两个输入特征融合成一个注意信息，共享参数进行特征匹配，可以更好的应对图像配准问题，从而完成瑕疵布匹识别的任务。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：邵佳维郭春生应娜杨萌
技术所有人：杭州电子科技大学
我是此专利的发明人

上一篇：电缆剪刀疲劳测试仪的制作方法
上一篇：一种车辆轨迹预测方法、装置、车辆及存储介质与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。