一种基于混合MLP结构的实时图像匹配方法

文档序号：35696266发布日期：2023-10-11 19:16阅读：34来源：国知局

本发明涉及计算机视觉和图像匹配，特别涉及一种基于混合mlp结构的实时图像匹配方法。

背景技术：

1、图像匹配作为视觉感知其中一个基础而关键的过程，连接着具有相同或相似属性的两个图像目标，是低层视觉通往高层视觉的纽带，是实现信息识别与整合以及从低维图像恢复高维结构的有效途径。图像匹配技术作为计算机视觉领域的重要研究方向之一，其目的在于快速准确地建立相似对象或者场景的对应关系，将己知图像的信息通过估计的对应关系转移到新图像上。特征匹配技术能够建立图像或目标之间的空间对应关系，可为后续诸如目标跟踪、三维几何重建、自主地面导航、增强现实、运动恢复结构等具体视觉任务提供先验知识，辅助相关任务提高效率和准确率。多层感知器(mlp)模型的最新进展为计算机视觉任务提供了新的有效的网络架构设计。与卷积神经网络(cnn)和视觉转换器相比，基于mlp的视觉主干具有更小的诱导偏差，可以提高样本利用效率，降低计算成本。

2、现有技术的不足之处在于，卷积神经网络(convolutional neural network)具有有限的感受野，可能无法区分不明显的区域。transformer注意力机制的全局接收域和位置编码使转换后的特征表示具有上下文和位置依赖性，但是具有非常高的计算和内存成本。

技术实现思路

1、本发明的目的克服现有技术存在的不足，为实现以上目的，采用一种基于混合mlp结构的实时图像匹配方法，以解决上述背景技术中提出的问题。

2、一种基于混合mlp结构的实时图像匹配方法，包括以下步骤：

3、步骤s1、获取图像数据，并通过局部特征提取对图像数据进行特征提取，得到特征图；

4、步骤s2、构建基于混合mlp架构的图像匹配模型对得到的特征图依据预设大小进行窗口划分，并经过mlp模块，融合不同空间位置的信息，输出得到空间混合层和通道混合层的特征；

5、步骤s3、将得到的特征输入匹配模型中，利用匹配模型的可微匹配层将特征匹配为置信矩阵，并根据置信阈值和相互最近邻准则选取置信矩阵中的匹配项，得到粗水平匹配结果；

6、步骤s4、将粗水平匹配结果输入mixer-wmlp模块进行若干次变换，最终得到具有亚像素精度的匹配，并通过校正和softmax得到最终的检测匹配结果。

7、作为本发明的进一步的方案：所述步骤s2中的具体步骤包括：

8、基于混合mlp架构构建图像匹配模型；

9、利用混合mlp架构的mixer-wmlp模块通过窗口划分在预设大小的窗口之间划分张量，得到粗水平级别的特征映射为(n,h,w,c)，其中划分为(num_windows,window_size,window_size,c)，n为特征映射的个数；

10、再经过两个mlp模块，融合来自不同空间位置的信息，形成nc空间混合层和通道混合层。

11、作为本发明的进一步的方案：所述mixer-wmlp模块中的具体步骤包括：

12、通过mixer-wmlp模块将特征图均匀划分为不重叠的窗口，并将每个窗口作为令牌展开，用于空间位置之间的令牌信息交换；

13、利用mlp模块依次映射列和行对空间域和通道域的信息进行整合，定义输入特征映射为h×w×c，窗口大小为m，则有h/m×w/m个窗口，计算复杂度，公式为：

14、ω(mlp)＝2α(hw)2c；

15、

16、其中，α第一个mlp节点展开因子，c表示特征维。

17、作为本发明的进一步的方案：所述步骤s3中的具体步骤包括：

18、将得到的特征输入匹配模型中，采用可微匹配层将转换后的特征匹配为置信矩阵pc；

19、然后根据置信阈值和相互最近邻准则选取pc中的匹配项，得到粗水平匹配结果mc。

20、作为本发明的进一步的方案：所述步骤s4中的具体步骤包括：

21、对得到的每一对粗水平匹配结果，首先定位粗水平匹配结果的位置然后划分为w×w的局部窗口；

22、通过mixer-wmlp模块对每个窗口内裁剪的特征进行nf次变换，得到and中心向量与互相关联，生成热图heatmap；

23、再计算其概率分布上的期望，得到具有亚像素精度的最终最终匹配mf，通过校正和softmax得到最终的检测匹配结果

24、与现有技术相比，本发明存在以下技术效果：

25、采用上述的技术方案，通过设计基于混合mlp架构的mixer-wmlp模块，通过将特征图划分为不重叠的窗口来获得一个接近全局的采样区域。得到图像匹配方法，降低了图像匹配的计算复杂度和运行时间。可应用于图像匹配的低级视觉任务。与现有技术中基于变压器的图像匹配方法相比，基于mixer-wmlp的maim算法减少了gpu的计算量，具有与变压器相当的全局域。由于maim的适用性代表了后续的研究目标，我们将考虑将maim应用于视觉任务，如视觉测程。本发明不仅具有较好的匹配效果，且减少了计算成本，更适合于复杂交通场景下的图像匹配。

技术特征：

1.一种基于混合mlp结构的实时图像匹配方法，其特征在于，包括以下步骤：

2.根据权利要求1所述一种基于混合mlp结构的实时图像匹配方法，其特征在于，所述步骤s2中的具体步骤包括：

3.根据权利要求2所述一种基于混合mlp结构的实时图像匹配方法，其特征在于，所述mixer-wmlp模块中的具体步骤包括：

4.根据权利要求1所述一种基于混合mlp结构的实时图像匹配方法，其特征在于，所述步骤s3中的具体步骤包括：

5.根据权利要求1所述一种基于混合mlp结构的实时图像匹配方法，其特征在于，所述步骤s4中的具体步骤包括：

技术总结
本发明公开了一种基于混合MLP结构的实时图像匹配方法，包括获取图像数据，并提取特征图；构建基于混合MLP架构对得到的特征图进行窗口划分，融合不同空间位置的信息，输出得到空间混合层和通道混合层的特征；并输入匹配模型中，利用匹配模型的可微匹配层将特征匹配为置信矩阵，并根据置信阈值和相互最近邻准则选取置信矩阵中的匹配项，得到粗水平匹配结果；将粗水平匹配结果输入Mixer‑WMLP模块进行若干次变换，最终得到具有亚像素精度的匹配，并通过校正和softmax得到最终的检测匹配结果。本发明通过设计基于混合MLP架构的图像匹配模型，降低了图像匹配的计算复杂度和运行时间，可应用于图像匹配的低级视觉任务，具有较好的匹配效果，且减少计算成本。

技术研发人员：孔斌,申志伟
受保护的技术使用者：中国科学院合肥物质科学研究院
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孔斌申志伟
技术所有人：中国科学院合肥物质科学研究院
我是此专利的发明人

上一篇：一种用于载运太阳能光伏板清洁装置的装运车
上一篇：一种网络授时测试方法和测试设备与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。