一种结合视角转换的遥感影像场景匹配方法

文档序号:33290200发布日期:2023-02-28 18:56阅读:87来源:国知局
一种结合视角转换的遥感影像场景匹配方法

1.本发明属于图像处理技术领域,具体涉及一种结合视角转换的遥感影像场景匹配方法。


背景技术:

2.跨视角影像匹配技术指通过地面影像(多角度侧视影像)与已知位置信息的卫星影像(空视影像)进行匹配,从而获取地面影像位置信息的一种技术。该技术在基于开源信息的目标跟踪定位、无全球定位系统(global positioning system,gps)等辅助信息的目标定位等方面具有重要价值,并对形成基于遥感影像的多层次全空间的监测体系具有重要意义。
3.早期的多尺度跨视角影像匹配算法多存在耗时长、易受到其他因素干扰、对影像质量要求较高、对大范围场景下的匹配任务的适用性较差等问题。考虑到传统的场景匹配方法在效率和精度上逐渐难以满足当前的任务需求,将深度学习技术引入到匹配工作中,在各项技术指标上都取得了不同程度的进步。目前较为主流的方法主要包括基于模型的方法和基于影像表征的方法。
4.基于模型的方法是根据现有模型或基于原始影像重建出的模型进行代表特征提取,发掘不同视角下的特征对应关系,再通过一定的匹配策略得到定位点。基于表征的方法是从影像中提取点线等特征,然后通过特征编码和描述对影像直接进行匹配。目前较为优异的算法几乎都是利用全局特征描述建立卫星影像与地面影像的图与图匹配关系,但是这种图与图之间的匹配关系只能适用于小幅卫星影像,在面对大幅卫星影像与地面影像直接匹配的任务时非常困难,往往需要对卫星影像进行裁剪方面的预处理。因此当建立空视影像与地面影像的匹配关系后只能进行大致的区域性定位。此外,这些方法大多依赖于大型数据集,并且不具备很好的泛化能力,例如在城市数据集上训练的模型在乡村地区往往不再适用,不同国家建筑风格的差异也会使模型精度大幅下降。


技术实现要素:

5.本发明的目的在于提供一种结合视角转换的遥感影像场景匹配方法,用以解决传统的场景匹配方法在精度上难以满足当前需求的问题。
6.为解决上述技术问题,本发明提供了一种结合视角转换的遥感影像场景匹配方法,该方法包括以下步骤:
7.1)获取某一目标的多视影像,并将所述多视影像进行视角转换,以得到该目标的空视影像;其中,空视影像是以俯视角度对目标进行拍摄的影像,多视影像是以不同个角度对目标进行拍摄的影像;
8.2)采用构建的特征提取模型提取所述空视影像的特征,以得到融合有高空间分辨率和丰富语义信息的空视影像融合特征;
9.所述特征提取模型为改进的vgg19网络模型,所述改进的vgg19网络模型包括特征
融合处理模块,特征融合处理模块用于对vgg19网络中的第三阶段池化前输出的低尺度特征c3、第四阶段池化前输出的中尺度特征c4和第五阶段池化前输出的高尺度特征c5,进行特征融合处理,且特征融合处理方式为:
10.将中尺度特征c4经过池化处理以得到第一特征,将低尺度特征c3经过一个卷积层以得到第二特征,将中尺度特征c4经过上采样处理以得到第三特征,将第二特征和第三特征进行融合处理,融合处理后再与第一特征进行融合以得到第一融合特征;
11.将高尺度特征c5经过池化处理以得到第四特征,将中尺度特征c4经过一个卷积层以得到第五特征,将高尺度特征c5经过上采样处理以得到第六特征,将第五特征和第六特征进行融合处理,融合处理后再与第四特征进行融合以得到第二融合特征;
12.将所述第一融合特征和所述第二融合特征进行融合处理,以得到最终的融合处理结果;
13.3)采用构建的特征提取模型提取卫星图像的各个区域的特征,以得到每个区域的卫星图像融合特征;
14.4)将空视影像融合特征分别和每个区域的卫星图像融合特征进行匹配,以找到与空视影像匹配度最佳的区域,实现场景匹配。
15.其有益效果为:由于低层特征分辨率较高,包含有更多位置信息,高层特征具有较强的语义信息,因此本发明对不同尺度的特征进行融合处理,以得到比较丰富的、包含有高空间分辨率和丰富语义信息的融合特征,具体处理方式为对vgg19网络模型进行改进,改进方式为设置有一个特征融合处理模块,该特征融合处理模块用于对vgg19网络中的第三阶段池化前输出的低尺度特征c3、第四阶段池化前输出的中尺度特征c4和第五阶段池化前输出的高尺度特征c5进行特征融合处理,从而同时提升网络对影像中小目标的匹配能力及抵抗大尺度差异的综合能力,再加入池化策略得到更丰富的特征信息,以得到最终的融合处理结果;将提取的空视影像融合特征分别和每个区域的卫星图像融合特征进行匹配,最终获得高质量的匹配结果,充分利用了不同尺度的特征,以实现场景匹配,提高了场景匹配的精度。
16.进一步地,步骤2)中,采用如下公式进行融合处理:
[0017][0018]
其中,为第二特征和第三特征进行融合处理后的特征时,相应的xi包括第二特征和第三特征;为第一融合特征时,相应的xi包括第二特征和第三特征进行融合处理后的特征和第一特征;为第五特征和第六特征进行融合处理后的特征时,相应的xi包括第五特征和第六特征;为第二融合特征时,相应的xi包括第五特征和第六特征进行融合处理后的特征和第四特征。
[0019]
进一步地,步骤2)中,采用如下公式进行融合处理以得到最终的融合处理结果:
[0020][0021]
其中,为最终的融合处理结果,n=2,相应的x1、x2分别为第一融合特征、第二融合特征。
[0022]
其有益效果为:根据提取到的特征,将多尺度特征加以融合,得到包含有高空间分
辨率和丰富语义信息的融合特征,充分利用影像的全局特征和局部特征,从而实现地空影像精确匹配。
[0023]
进一步地,步骤1)中,采用如下方法得到空视影像:
[0024]

获取目标的多视影像,进行点云重建,以得到目标的点云数据;
[0025]

定义投影面,按照如下公式将目标的点云数据投影至定义的投影面:
[0026][0027]
其中,t为样本x的协方差矩阵特征值构成的变换矩阵,x为重建点在坐标系变换前的值,x为离散三维点的均值;
[0028]

对投影后的点云数据进行插值运算得到数字表面模型dsm,利用得到的数字表面模型dsm进行如下计算,以得到空视影像图像点x
rec

[0029]
x
rec
=λ(x
dsm-x
dsm_min
)
[0030]
其中,λ为dsm与空视影像像素间的比例关系,x
dsm
为dsm上的值,x
dsm_min
为dsm的最小值。
[0031]
其有益效果为:将获取到的多视影像重建以得到目标点云数据,将重建点在坐标系变换前的值x与离散三维点的均值x作差,并与样本x的协方差矩阵特征值构成的变换矩阵t相乘,得到投影面为x
pca
。结合dsm与空视影像像素间的比例关系λ、dsm上的值x
dsm
、dsm的最小值x
dsm_min
,得到空视影像图像点x
rec
,进而实现地空影像精确匹配。
[0032]
进一步地,步骤4)中,采用质量感知模板匹配算法qatm实现融合特征匹配。
[0033]
进一步地,采用质量感知模板匹配算法qatm进行特征融合匹配时,根据定义的qatm(s,t)评估模板和影像之间的匹配得分,且qatm定义为特征s与特征t之间的似然乘积:
[0034]
qatm(s,t)=l(t|s)
·
l(s|t)
[0035][0036][0037]
其中,l(t|s)为与模板影像中的所有其他补丁相比当前补丁t的软排名,l(s|t)为s中匹配的t可能性分数,α为系数参数,ρ(
·
)是s和t之间预定义的相似性度量,fs和f
t
为s和t的特征表示;
[0038]
依据匹配质量得分,相应得到的匹配度最佳的区域为:
[0039][0040]
q(rs)=max{qatm(s,t)|t∈t}
[0041]
其中q(rs)表示匹配质量函数。
[0042]
其有益效果为:本发明qatm,引入特征金字塔模块来解决视角转换后模板影像与样本影像之间的尺度差异问题。将qatm定义为特征s与特征t之间的似然乘积,将系数参数α、s和t之间预定义的相似性度量ρ(
·
)相结合,并根据得到的结果qatm(s,t)评估模板和影像之间的匹配得分;再根据匹配质量函数q(rs),以得到匹配度最佳的区域为r
*
,进而实现地空影像精确匹配。
[0043]
进一步地,系数参数的最优值利用如下方式确定:
[0044][0045]
其中,l(t|s)
+
表示匹配相似度随α的增加而增加,l(t|s)-则相反,α
*
表示最优值。
[0046]
其有益效果为:根据匹配相似度随α的增减情况,得到系数参数的最优值α
*
,进而实现地空影像精确匹配。
[0047]
进一步地,池化处理为全局平均池化处理。
[0048]
其有益效果为:使用全局平均池化更加丰富的特征信息,以得到更加精确的匹配结果。
[0049]
进一步地,利用b样条拟合法进行插值运算得到数字表面模型dsm。
[0050]
其有益效果为:结合b样条拟合法插值运算,以得到数字表面模型dsm,进而实现地空影像精确匹配。
附图说明
[0051]
图1是本发明的方法流程图;
[0052]
图2是本发明的视角转换流程图;
[0053]
图3是本发明的特征提取与融合示意图;
[0054]
图4(a)是本发明的cvusa实验数据示例图;
[0055]
图4(b)是本发明的vo and hays实验数据示例图;
[0056]
图4(c)是本发明的google实验数据示例图;
[0057]
图4(d)是本发明的uav实验数据示例图;
[0058]
图5(a)是本发明的第一幅中心点偏移量可视化图示例图;
[0059]
图5(b)本发明的第二幅中心点偏移量可视化图示例图;
[0060]
图6(1a)-(1e)是本发明的第一个场景的多视图;
[0061]
图6(1f)是本发明的第一个场景的多视图生成空视影像结果图;
[0062]
图6(2a)-(2e)是本发明的第二个场景的多视图;
[0063]
图6(2f)是本发明的第二个场景的多视图生成空视影像结果图;
[0064]
图6(3a)-(3e)是本发明的第三个场景的多视图;
[0065]
图6(3f)是本发明的第三个场景的多视图生成空视影像结果图;
[0066]
图7(a)是本发明的城市待匹配影像在卫星影像上具体位置示例图;
[0067]
图7(b)是本发明的乡村待匹配影像在卫星影像上具体位置示例图;
[0068]
图8(1a)是本发明的第一个场景的标签影像;
[0069]
图8(1b)是本发明的第一个场景的方法一匹配结果图;
[0070]
图8(1c)是本发明的第一个场景的方法二匹配结果图;
[0071]
图8(1d)是本发明的第一个场景的本发明方法匹配结果图;
[0072]
图8(2a)是本发明的第二个场景的标签影像;
[0073]
图8(2b)是本发明的第二个场景的方法一匹配结果图;
[0074]
图8(2c)是本发明的第二个场景的方法二匹配结果图;
[0075]
图8(2d)是本发明的第二个场景的本发明方法匹配结果图;
[0076]
图8(3a)是本发明的第三个场景的标签影像;
[0077]
图8(3b)是本发明的第三个场景的方法一匹配结果图;
[0078]
图8(3c)是本发明的第三个场景的方法二匹配结果图;
[0079]
图8(3d)是本发明的第三个场景的本发明方法匹配结果图;
[0080]
图8(4a)是本发明的第四个场景的标签影像;
[0081]
图8(4b)是本发明的第四个场景的方法一匹配结果图;
[0082]
图8(4c)是本发明的第四个场景的方法二匹配结果图;
[0083]
图8(4d)是本发明的第四个场景的本发明方法匹配结果图;
[0084]
图8(5a)是本发明的第五个场景的标签影像;
[0085]
图8(5b)是本发明的第五个场景的方法一匹配结果图;
[0086]
图8(5c)是本发明的第五个场景的方法二匹配结果图;
[0087]
图8(5d)是本发明的第五个场景的本发明方法匹配结果图;
[0088]
图9是本发明的阈值-成功率曲线图;
[0089]
图10(a)是本发明的良好纹理影像数据示例图;
[0090]
图10(b)是本发明的良好影像数据示例图;
[0091]
图10(c)是本发明的瑕疵纹理影像数据示例图;
[0092]
图10(d)是本发明的瑕疵影像数据示例图。
具体实施方式
[0093]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例对本发明进行进一步详细说明。
[0094]
结合视角转换的遥感影像场景匹配方法实施例:
[0095]
本发明的一种结合视角转换的遥感影像场景匹配方法实施例,其简要方法流程如图1所示,整体分为三个部分。第一部分为多视影像视角转换,利用手持摄影设备的便携性和灵活性获取地面物体的多视影像,通过密集匹配建立目标点云后定义投影面,并利用主成分分析法(principal component analysis,pca)完成投影,生成空视影像;第二部分为多尺度特征提取与融合,利用vgg网络深层特征的语义信息和浅层特征的空间信息,使融合特征同时兼顾较高的分辨率和较强的语义信息以缓解对大尺度差异影像匹配困难问题;第三部分为深度模板匹配模块,该模块利用qatm获取匹配质量的软排名从而完成对匹配结果的筛选更新,最终获得高质量的匹配结果。该方法包括以下步骤:
[0096]
1)多视影像视角转换。获取某一目标的多视影像,并将所述多视影像进行视角转换,以得到该目标的空视影像;其中,空视影像是以俯视角度对目标进行拍摄的影像,多视影像是以不同个角度对目标进行拍摄的影像。
[0097]
基于地面影像的定位任务通常需要利用传感器携带的gps信息,但由于gps信号可能会受到遮挡、干扰等因素影响,在许多实际情况下使用gps来辅助地空影像的匹配与定位会受到限制。遥感影像具有视场大、物体旋转、物体小等特点,且蕴含丰富的纹理、颜色和形状等特征,利用这些特性可以完成遥感影像之间的相对定位。因此本发明选择影像视觉匹配模式,以视觉匹配模式代替gps方式进行地空影像匹配与定位任务。
[0098]
由于地面影像和空视影像剧烈的视角变化通常会导致在匹配时缺乏可靠的环境
特征,若可以通过地面多视影像完成地空影像的视角统一,或尽可能消除视角差异所造成的负面影响,则可以大幅提高地空影像匹配任务的可行性和准确度。考虑到如今影像的快速获取技术已经相当成熟,研究人员可以随时随地获取质量良好的数字影像。另一方面,密集匹配生成点云相较于其他方法的优势在于其成本较低、可以较大程度地保留目标物体的纹理信息,而这些纹理信息将会在地面影像和空视影像的匹配过程中起到至关重要的作用。因此利用摄影设备获取地面物体的多视影像,通过密集匹配方式生成点云后采用pca将点云投影在平面上即可完成视角转换。
[0099]
本发明目的是获取与空视影像相同或相似的视角,因此通过多视影像重建出点云后需要将其尽量转换为空视影像。获取点云数据后需要先对点云数据进行预处理,对数据进行筛选并剔除一些孤立点后生成待投影点云,选取空视视角平面作为主平面并建立模型坐标系。此时点云分布于三维空间内,本发明的实验数据均是对地观测数据,可假设点云的主要成分位于地面上。由于地形起伏等因素,假定平面和真实地面方向或许会有所差异,但夹角不大,因此这方面误差对结果造成的影响非常轻微。另一方面,由于点云数据是离散的,在选定主平面时需要进行平面拟合。拟合平面的方法有很多,最小二乘,随机采样一致性和pca都是常用的平面拟合算法,现有技术表明pca最适合处理此类实验数据。若将地面近似为一个平面,当点云基本位于一个平面上时,pca的第一主成分对应于该地面。将预处理后的三维点云数据作为样本点构造协方差矩阵,则最小特征值所对应的特征向量作为z轴,然后将离散点变换到坐标系中,舍弃点的z轴坐标将点云投影至主平面上完成视角转换。重建点在坐标系变换前后关系如式(1)所示:
[0100][0101]
其中,t为样本x的协方差矩阵特征值构成的变换矩阵,为离散三维点的均值。
[0102]
另一方面,获得密集点云后通过b样条拟合再内插即得到数字表面模型(dsm,digital surface model)。在得到dsm后,生成的空视影像图像点x
rec
与对应dsm上点x
dsm
之间投影计算如式(2)所示:
[0103]
x
rec
=λ(x
dsm-x
dsm_min
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0104]
其中,λ为dsm与空视影像像素间的比例关系,x
dsm_min
为dsm的最小值。最终视角转换的流程如图2所示。
[0105]
2)多尺度特征提取与融合。采用构建的特征提取模型提取所述空视影像的特征,以得到融合有高空间分辨率和丰富语义信息的空视影像融合特征;采用构建的特征提取模型提取卫星图像的各个区域的特征,以得到每个区域的卫星图像融合特征。
[0106]
qatm的匹配需要影像特征作为支撑,近年来深度学习技术在影像特征提取方面应用广泛。比如卷积神经网络(convolutional neural network,cnn)可以同时学习影像的全局特征和局部特征,这一性质在地空影像的场景匹配中即可同时兼顾图像与图像、特征点和特征点之间的对应关系。但目前大多数网络模型会将其提取的全局特征直接馈送至最后一个全连接层,卷积层所学习的局部特征往往被忽略。因此,本发明的设计目标是创建一个网络,从影像中提取多尺度特征并加以融合,充分利用影像的全局特征和局部特征,从而实现地空影像精确匹配。
[0107]
vgg通过增加网络深度来影响网络性能,采用连续的小卷积核来代替较大的卷积核,以多层非线性层增加网络深度来保证学习更复杂的模式。简单来说即使用多个3
×
3的
卷积核来代替较大的卷积核,其目的在于保证具有相同感受野的情况增加网络深度以提升网络性能,而深层网络所包含的多层卷积所提取的丰富特征正是研究所需要的。综上所述本发明选择vgg19作为基线网络从图像中提取特征,但直接利用vgg19模型提取特征进行匹配任务时存在尺度容忍度低和大量误匹配问题。因此,针对视角转换后模板与样本图像的尺度问题,本发明对vgg19加以修改。原始算法中使用的输出特征虽然在外观背景变化时具有较强的鲁棒性,但在尺度方面表现不佳。为了充分利用不同尺度的特征,本发明分别提取vgg19网络中conv3-4,conv4-4,conv5-4三个阶段池化前的输出作为低、中、高尺度特征,分别记作c3、c4、c5。低层特征分辨率较高,可包含更多位置信息。高层特征具有较强的语义信息,但分辨率较低。因此本发明使用特征金字塔网络将不同卷积层学习的特征进行融合以提升匹配时对尺度差异的容忍度。融合方式采用如式(1)所示的求和运算来处理,并添加相应的通道矩阵元素,形成新的特征:
[0108][0109]
特征金字塔网络结构中采用了自上而下和横向连接的特征传递方式,将具有较高空间分辨率的浅层特征和具有丰富语义信息的深层特征进行融合,从而同时提升网络对影像中小目标的匹配能力及抵抗大尺度差异的综合能力。最后加入全局平均池化策略以得到更丰富的特征信息,其具体结构如图3所示(以c3,c4为例)。
[0110]
具体处理方式为:将中尺度特征c4经过池化处理以得到第一特征,将低尺度特征c3经过一个卷积层以得到第二特征,将中尺度特征c4经过上采样处理以得到第三特征,将第二特征和第三特征进行融合处理,融合处理后再与第一特征进行融合以得到第一融合特征;
[0111]
3)深度模板匹配。将空视影像融合特征分别和每个区域的卫星图像融合特征进行匹配,以找到与空视影像匹配度最佳的区域,实现场景匹配。
[0112]
直接使用特征点寻找大尺度影像场景匹配上的对应关系往往会造成算法失效或大量误匹配,因此需要利用影像上多处特征进行聚合以弥补这方面的缺陷。本发明借鉴了模板匹配算法的思想,划定窗口扩充可利用特征点的同时界定范围,从而聚合局部特征的目的。qatm是一种可作用于深度神经网络的模板匹配算法,主要思想是利用所有匹配对之间的软排名(soft ranking)来评估匹配对的质量,即匹配结果的独特性。其匹配得分将准确反映匹配的区别程度,更重要的是其具有可学习的参数并且可以微分。因此,该方法可以与深度学习结合或嵌入到现有模型中,实现高精度匹配。这种根据窗口匹配得分来确定最佳匹配区域的算法极适用于大尺度场景匹配任务,若将融合特征输入到qatm中则可以很好的达到本发明目的。
[0113]
设有待测影像s(为卫星影像)和模板t(为空视影像),从中得到影像补丁s和模板补丁t,设fs和f
t
为s和t的特征表示,ρ(
·
)是s和t之间预定义的相似性度量。l(t|s)为与模板影像中的所有其他补丁相比当前补丁t的软排名,可视为激活层,l(s|t)为s中匹配的t可能性分数。为了评估匹配质量,算法定义quality(s,t)为评估s与t之间匹配质量得分,通过评定整体匹配质量最大化的地方来输出最佳匹配区域。则qatm可以定义为s与t之间的似然乘积:
[0114]
qatm(s,t)=l(t|s)
·
l(s|t)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0115][0116][0117]
当fs和f
t
相似时,ρ(
·
)会得出较高的值,当t和s真正匹配时,ρ(fs,f
t
)应该大于那些不匹配的情况ρ(
·
),即最高得分ρ(
·
)为最佳匹配。选择适当的α参数并用softmax激活后,理想的一对一情况下该分数应为1。α参数作用为使匹配的补丁排名得分尽可能接近1,不匹配的补丁的排名得分应尽可能接近0。因此训练合适的α则会极大程度提升匹配结果的效率与精度,其计算方式如式(7)所示。式中l(t|s)
+
表示匹配相似度随α的增加而增加,l(t|s)-则相反,α
*
表示最优值。获得s与t之间成对的结果时,感兴趣区域(region of interest,roi)的匹配质量可如公式(8)表示:
[0118][0119]
q(rs)=max{qatm(s,t)|t∈t}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0120]
其中q(sr)表示匹配质量函数。最终可以找到整体匹配质量最大化的区域,即最佳匹配区域r。
[0121][0122]
下面将本发明方法应用于具体的实例中说明本发明方法的有效性。
[0123]
1)实验数据与环境。
[0124]
本发明采用google earth l19-l20级郑州地区卫星影像、cvusa城市地区卫星影像、vo and hays波士顿城区卫星影像及无人机摄取的郑州地区、登封地区的影像作为空视影像,以手持摄影设备采集的目标影像作为地面多视角影像。空视影像数据空间分辨率在米级或亚米级,手持摄影设备以手机为主,采集高度在两米左右,数据详情如表1所示,图4(a)是本发明的cvusa实验数据示例图,图4(b)是本发明的vo and hays实验数据示例图,图4(c)是本发明的google实验数据示例图,图4(d)是本发明的uav实验数据示例图。本发明在特征融合与模板匹配模块采用深度学习方法,训练集和验证集采用vo and hays、cvusa部分城市区域影像和采集的登封地区无人机影像,测试集均为采集的郑州地区google earth影像和地面影像。实验样本总量为200张大幅卫星影像,200张无人机影像以及根据地面目标采集的约640张多视影像。其中根据地面目标采集的多视影像不参与训练,只用于视角转换模块。训练集、测试集和验证集划分比为7:2:1,其中测试集均为采集的郑州地区google earth影像和地面影像。网络采用adam优化器,学习率为0.00001,批大小(batch size)为4,共训练20次。
[0125]
表1数据集详情
[0126][0127]
实验中所有程序在windows系统上运行,使用python3.6及matlab2018进行编程,cpu为i9-9900,64gb。所用gpu为nvidia geforce rtx 3090 24gb,深度学习网络使用pytorch框架实现。除deformable diversity similarity(ddis)在matlab中进行外,其余网络均使用pycharm进行编译。
[0128]
2)评价方法。
[0129]
本发明使用匹配成功率、误匹配数量和中心点偏移量三个指标来评价网络性能。匹配成功率与误匹配数量作为比较各网络性能的评价指标,对各网络成功匹配的结果加入中心点偏移量作为进一步的评价指标。其中,当匹配结果与真实地面目标标注框重叠率超过60%时认为匹配成功,匹配成功数记为pa,匹配总数记为p,计算匹配成功率o,计算公式如下所示:
[0130][0131]
在本发明使用的实验数据中,符合实验要求的只有一对一的正确匹配,因此误匹配数量pb也是衡量网络性能的重要指标,其计算公式为:
[0132]
pb=p-paꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)
[0133]
中心点偏移量是以像素为单位计算匹配结果与真值标签之间的误差,能更精确地反映匹配误差的实际情况,具体表现为匹配结果和真值标签各自矩形框对角线交点的距离。该指标在各网络都能成功进行匹配而匹配成功率相差不大时,更能客观的评价网络性能,图5(a)是本发明的第一幅中心点偏移量可视化图示例图,图5(b)本发明的第二幅中心点偏移量可视化图示例图。
[0134]
3)实验结果与分析。
[0135]
a、视角转换与匹配结果。
[0136]
为了验证本发明提出的视角转换模块的有效性,在空视影像对应范围内通过手持摄影设备获取地面近景影像进行实验验证,实验范围为郑州市区和登封乡村地区。真实地面目标约为6.5m
×
6.5m,试验中在待定区域使用手持摄影设备采集了18张地面视角影像,采集影像尽量覆盖待定区域的全景,采集影像的数量取决于地面目标大小,如图6(1a)-(1e)、图6(2a)-(2e)和图6(3a)-(3e)所示,生成相应的空视影像如图6(1f)、6(2f)和6(3f)所示。试验结果表明,手持摄影设备所摄取的多视图影像经过视角转换可以生成质量良好的空视影像。生成相应的空视影像后则可以将其输入到后续的网络中,完成大尺度差异的地空匹配与定位任务,其数据示例如图7(a)、图7(b)所示。
[0137]
为验证本发明所设计多尺度质量感知模板匹配方法的有效性,利用相同的测试数据对比了几种较为先进的模板匹配方法,其中测试数据均为未参与训练的郑州地区空视影像,建筑风格与训练数据中的美国波士顿、西雅图等地存在较大差异。对比方法一为
deformable diversity similarity(ddis),对比方法二为未作改进的qatm。标签影像以及不同方法的匹配结果如图8(1a)-(1d)、图8(2a)-(2d)、图8(3a)-(3d)、图8(4a)-(4d)和图8(5a)-(5d)所示,其中前三行为城市地区匹配结果示例,后两行为乡村地区匹配结果示例。另一方面,由于地面侧视影像生成的空视影像目标较小且信息不丰富,大范围卫星影像必然包含大量相似信息。而在大多数地空匹配任务中,只有一对一的正确匹配才能被认为是准确而高效的,因此剔除误匹配也是影响方法有效性的主要因素。综合上述分析本发明选择非极大值抑制来剔除误匹配。本发明在采集的数据集上分别使用三种方法进行实验,根据试验结果绘制阈值和成功率曲线以确定最佳匹配关系,结果如图9所示。
[0138]
从图8(1a)-(1d)、图8(2a)-(2d)、图8(3a)-(3d)、图8(4a)-(4d)、图8(5a)-(5d)和图9的匹配结果可以看出,总体上ddis在多尺度跨视角影像匹配任务中表现相对其他算法处于劣势,而qatm在多数情况下虽然可以匹配到正确目标,但同时伴随着较多的误匹配。其原因主要在于:本发明采集的数据集在尺度方面差异过大,方法一不具备较高的尺度鲁棒性,而方法二仅使用vgg19深层特征,其特点在于语义信息丰富但缺失空间信息,因此伴随大量误匹配;此外vgg19网络较深,因此相对于方法一另外两种算法可以提取高维特征以抵抗大尺度差异造成的影响,而本发明方法相较于方法二加入了多尺度特征融合机制,提高了匹配的准确度。另一方面,乡村地区多为水库、农田、道路、丘陵等,其视野较为开阔。因此乡村地区的卫星影像较城市地区而言背景复杂度低,但缺少明显目标且存在大量相似的地面物体。从图8(1a)-(1d)、图8(2a)-(2d)、图8(3a)-(3d)、图8(4a)-(4d)、图8(5a)-(5d)的结果分析,当实验中能够获取具备可区分特征的地面目标时本发明方法在乡村地区仍能适用,但会伴随明显的多余误匹配。综合分析结果可知,本发明方法适用于具有明显特征的目标地区,与目标所在城市或乡村无关,在具有大量重复目标的区域本发明方法精度则有所降低。
[0139]
b、精度评价与消融实验。
[0140]
为了进一步探究本发明方法可行性,本发明分别选择在视角转换生成质量较好的纹理目标区域和多视图密集匹配生成的瑕疵影像(即生成的空视影像存在较大的扭曲变形或缺失)进行验证,数据示例如图10(a)、图10(b)、图10(c)和图10(d)所示。为了进一步评价本发明方法的泛化能力,分别在城市和乡村地区统计平均匹配成功率和平均误匹配数量,结果如表2所示。
[0141]
分析实验结果可知,本发明方法在城市和乡村地区都具备有效性。但由于乡村地区具备明显可区分性特征的目标较少,其精度较城市地区有所降低。另一方面,当地面多视影像不能覆盖目标区域或影像重叠度不足时则会出现如图10(c)和图10(d)所示的瑕疵影像。使用瑕疵影像输入到网络模型时会对结果产生负面影响,降低匹配精度,证明视角转换结果的质量直接影响到匹配结果的精度。并且瑕疵影像对城市区域的影响相对于乡村地区的影响更大,其原因可能在于瑕疵影像存在像素的缺失和特征的扭曲变形,降低了特征的可靠性导致产生误匹配。而在乡村地区本就存在大量相似目标,瑕疵影像特征可靠性降低对模型产生的影响与相似目标的易混淆性对网络造成的影响相似或相关,因此瑕疵影像对城市地区的影响较大,而对乡村地区的影响较小。
[0142]
表2城市-乡村实验结果对比
[0143][0144]
为了探究特征金字塔网络结构对匹配结果的影响及作用,本发明进行了消融实验:分别使用conv3-4、conv4-4、conv5-4、融合conv3-4和conv5-4、融合conv4-4和conv5-4以及本发明方法所提取的特征输入模型中,输入视角转换后数据、输入未视角转换数据、瑕疵影像分别得到其平均成功率来评价其作用和效果。另一方面,根据使用各种融合特征的网络最终的匹配结果统计中心点偏移量,可视化结果如图5(a)、图5(b)所示,图中小框为地面真值标签,大框为匹配结果,从匹配的可视化结果可以看出,匹配结果与真值标签的重叠率表现良好,但中心点偏移量更能体现匹配结果的准确性。另外,对15组地空匹配结果进行统计,计算其成功率及中心点偏移量,如表3所示,其中平均成功率低于20%视为方法失效,平均误匹配数多于5个视为方法失效。通过最终匹配结果对特征融合模块作用进行分析,融合conv3-4,conv4-4,conv5-4特征所获得的匹配成功率最高,这说明融合低层特征的空间信息和高层特征的语义信息会对整体结果产生积极影响,而所有方法输入未经视角转换的影像数据后在所设标准下均表现失效。中心点偏移量虽然都在5个像素以上,但本发明的目的是通过匹配获得地面目标的区域性定位结果,因此中心点偏移量误差在允许范围之内,对本发明方法有效性的影响较小。综合可知,在地空影像匹配任务中经过视角转换后使用融合特征减少尺度影响,提升了小目标的匹配精度。
[0145]
表3消融实验结果成功率
[0146][0147]
注:加粗字体为每列最优值,\表示方法失效
[0148]
综上,本发明具有如下特点:
[0149]
(1)由于低层特征分辨率较高,包含有更多位置信息,高层特征具有较强的语义信息,因此本发明对不同尺度的特征进行融合处理,以得到比较丰富的、包含有高空间分辨率和丰富语义信息的融合特征,具体处理方式为对vgg19网络模型进行改进,改进方式为设置有一个特征融合处理模块,该特征融合处理模块用于对vgg19网络中的第三阶段池化前输出的低尺度特征c3、第四阶段池化前输出的中尺度特征c4和第五阶段池化前输出的高尺度特征c5进行特征融合处理,从而同时提升网络对影像中小目标的匹配能力及抵抗大尺度差异的综合能力,再加入池化策略得到更丰富的特征信息,以得到最终的融合处理结果;将提
取的空视影像融合特征分别和每个区域的卫星图像融合特征进行匹配,最终获得高质量的匹配结果,充分利用了不同尺度的特征,以实现场景匹配,提高了场景匹配的精度。
[0150]
(2)根据提取到的特征,将多尺度特征加以融合,得到包含有高空间分辨率和丰富语义信息的融合特征,充分利用影像的全局特征和局部特征,从而实现地空影像精确匹配。
[0151]
(3)将获取到的多视影像重建以得到目标点云数据,将重建点在坐标系变换前的值x与离散三维点的均值作差,并与样本x的协方差矩阵特征值构成的变换矩阵t相乘,得到投影面为x
pca
。结合dsm与空视影像像素间的比例关系λ、dsm上的值x
dsm
、dsm的最小值x
dsm_min
,得到空视影像图像点x
rec
,进而实现地空影像精确匹配。
[0152]
(4)本发明qatm,引入特征金字塔模块来解决视角转换后模板影像与样本影像之间的尺度差异问题。将qatm定义为特征s与特征t之间的似然乘积,将系数参数α、s和t之间预定义的相似性度量ρ(
·
)相结合,并根据得到的结果qatm(s,t)评估模板和影像之间的匹配得分;再根据匹配质量函数q(rs),以得到匹配度最佳的区域为r
*
,进而实现地空影像精确匹配。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1