本发明涉及一种基于单目红外的夜间机器人视觉大视场三维构建方法,属于夜视红外图像处理领域。
背景技术:
由于红外成像系统分辨率等因素的限制,红外成像只能获取前方较窄场景范围的图像信息。通常红外图像的水平视场在40°范围内,存在较大的盲区,难以满足大范围观测场合的需求。大视场全景视觉重构可以弥补这一缺点。全景重构技术采用图像拼接技术对180°或360°方位角的空间场景图像进行拼接获得全景图像。
红外图像拼接的作用就是保证在不降低分辨率的情况下,通过图像配准将两幅或多幅红外图像拼接成一幅红外大视场图像,该方法能够减少图像间的冗余信息,同时能够扩展观测空间。红外大视场拼接技术一般应用于红外目标跟踪、识别等军事领域。
红外大视场图像扩大了场景范围,有利于操作人员全面了解场景信息,但是人类视觉特性告诉我们,人们在观察、感知世界的时候,不仅要通过物体表面特征进行识别,还要通过物体空间的深度信息来定位目标物体的位置及其大小。研究表明,三维图像的空间感和深度信息能够更加逼真地反映真实场景。因而对缺乏深度感的红外图像进行三维显示具有重要意义。
红外图像三维重建对场景中的目标物体进行深度估计,能够反映出红外图像中各景物的远近关系,有助于对场景内容的理解。将单幅红外图像三维重建扩展到红外大视场三维重建,可以以立体感、宽视野的形式显示场景环境,有助于全面了解整个场景以及场景中各目标的深度位置关系,非常适于视觉导航、移动监控以及远程指挥等场合。
目前国内外对于红外图像拼接通常采用基于特征的方法,利用两幅图像中的特征点,如边界点、拐点、角点等。目前常用特征算子有:harris特征算子、sift(scale-invariantfeaturetransform)/surf算子,以及orb算子。harris角点检测算子选择局部灰度变化最明显的点作为特征点,但是不满足多尺度不变性。orb是一种局部不变特征描述子,对照片图像的平移、旋转、缩放等变换具有不变性。sift、surf特征算子提取图像中的局部性特征具有尺度不变性,且对于光线、噪声、微视角改变具有很好的鲁棒性。sift算子能够有效地提取红外图像中的特征点,并且特征点分布均匀。
近年来,单幅图像建模的研究已成为热点,但是一幅图像无法完全重构出对应的三维模型,因此许多研究学者提出利用图像中已知的几何信息进行三维重建。debevec等人利用物体的几何形状信息,实现结构化的场景交互式建模。zhang等提出利用一些约束条件,如物体表面的位置、轮廓、皱痕等生成三维表面。也有学者以射影几何为出发点,提出将齐次坐标的向量运算特性应用到交点拟合之中以实现单幅图像三维重构的方法。针对红外图像信噪比低,表面纹理非常不清晰的情况下,沈振一等提出基于面板参数马尔可夫随机场模型的单目红外图像三维重建算法,该算法对红外图像三维重建具有较好的适应性。
技术实现要素:
本发明的目的是利用超像素分割与马尔可夫场相结合的方法获得场景中各小超像素面板之间的结构信息和深度信息,得到大视场的深度估计图并且实现红外图像大视场三维重建。
为了达到上述目的,本发明的技术方案是提供了一种基于单目红外的夜间机器人视觉大视场三维构建方法,其特征在于,包括以下步骤:
步骤1、在同一水平面内旋转拍摄一系列180°范围内的红外图像,得到序列图像;
步骤2、通过柱面投影变换公式将序列图像投影到柱面空间坐标系中;
步骤3、在柱面空间坐标系中,选取序列图像中的第一帧红外图像作为参考图像,通过lm算法优化序列图像中其他红外图像到参考图像的变换矩阵,使得多幅图像拼接时的累计误差最小,其中,序列图像中任意相邻的两幅红外图像之间的变换矩阵通过以下步骤得到:
步骤3.1、通过相位相关法计算两幅相邻红外图像之间的位移量,以确定其重合区域,在重合区域中提取sift特征点,同时根据图像水平位移量和渐入渐出法,生成加权图;
步骤3.2、对步骤3.1提取的sift特征点,首先采用相似性度量的方法,进行特征点粗匹配,寻找相邻红外图像间的关键匹配对,之后采用ransac(randomsampleconsensus)鲁棒性估计算法消除伪匹配点,利用正确的匹配点对估计单应性矩阵参数,以确定相邻红外图像之间的变换矩阵;
步骤4、根据步骤3得到的变换矩阵将序列图像中的所有红外图像进行配准对齐,然后采用多分辨率方法分解红外图像,在多尺度空间采用步骤3.1得到的加权图进行加权融合,从而得到大视场红外拼接图像;
步骤5、对大视场红外拼接图像进行三维重建,构建红外大视场三维模型。
优选地,所述步骤5包括以下步骤:
步骤5.1、对大视场红外拼接图像进行超像素分割以及多尺度特征提取;
步骤5.2、将步骤5.1得到的分割图像和经过多尺度特征提取得到的特征信息输入到已训练的面板参数马尔可夫模型中,进行面板参数估计;
步骤5.3、根据面板参数马尔可夫模型,对大视场红外拼接图像进行深度估计,并构建红外大视场三维模型。
本发明根据现有研究的不足,针对红外图像的具体特点,在参考单幅图像的三维重建研究的基础上,提出一种适用于单目红外的夜间机器人视觉大视场三维构建方法,以达到将单幅红外图像三维重建扩展到红外大视场三维重建,全面了解整个场景以及场景中各目标的深度位置关系的目标。
通过本发明得到的红外大视场图像扩大了场景范围,有利于操作人员全面了解场景信息,红外大视场三维重建可以立体感、宽视野的形式显示场景环境,有助于全面了解整个场景以及场景中各目标的深度位置关系。
附图说明
图1:基于点特征算子的红外图像的大视场拼接算法流程图;
图2:红外大视场图像的三维重建处理流程图;
图3:原红外图像序列及红外大视场图像的结果图;
图4:面板参数示意图;
图5:本发明红外大视场图像三维重建的结果图,其中,图5(a)为红外大视场图像,图5(b)为大视场红外图像的深度图,图5(c)-图5(e)为三个不同视角的大视场三维重建结果。
具体实施方式
为使本发明更明显易懂,兹以优选实施例,并配合附图作详细说明如下。
如图1所示,本发明采用相位相关法估计待拼接图像位移量,确定重合区域。接着在重合区域中采用sift特征算子提取特征,将全局特征匹配转换成局部重合区域匹配,从而大大缩减了特征提取和匹配时间,同时提高了匹配点利用率。利用图像位移量生成加权图,在多尺度空间合成图像,能够消除模糊和拼接缝隙,从而实现无缝拼接。对于多幅红外图像拼接,对各红外图像到参考图像的变换矩阵进行优化调整,以消除级联变换导致的累计误差。
如图2所示,本发明基于pp-mrf面板参数估计的方法,通过超像素分割得到红外大视场图像在纹理和亮度上相近的一系列小的区域面板,然后估计面板参数马尔可夫模型,获得场景中各小超像素面板之间的结构信息和深度信息以进行红外大视场三维重建。
以下分别对上述关键技术进行详细说明。
1、红外图像sift特征点提取
相位相关法在频域中计算两幅图像间的互功率谱,再经过傅里叶反变换到空间域中得到冲激响应函数最大值的位置即为图像间的位移量,如式(1)所示:
式(1)中,f1(ε,η)表示图像1的频域变换,
通过图像间的位移量可以确定重合区域,在重合区域中,提取sift特征点,大大缩短图像配准时间。sift(scale-invariantfeaturetransform)方法,是一种检测并描述图像中局部特征的算法,通过高斯卷积核形成多尺度空间,并且在尺度空间寻找极值点,提取极值点的位置、尺度及旋转不变量等特征。因此,sift特征点不仅具有尺度不变性,而且对于光线、噪声、微视角改变具有很好的鲁棒性。
sift特征点提取具体步骤包括:1、生成多尺度空间,并检测尺度空间极值点;2、精确定位极值点;3、确定关键点主方向;4、生成关键点描述子。
sift特征点的提取由高斯差(differenceofgaussians,dog)尺度空间的局部极值确定。这里的局部极值是指一个3×3×3邻域范围内的极大值(或极小值)元素。提取后,对局部极值进行三维二次函数曲线拟合以获取关键点的精确位置并且进行滤波以消除低对比度响应,最后对关键点的邻域窗口内采样,并用统计邻域像素的梯度方向,以确定关键点的主方向。
sift描述子是图像梯度的三维空间直方图,用以表征关键点的外观。每一像素的梯度都作为三维基本特征向量的一个样点,由像素位置及梯度方向组成。每个样点的权重由梯度范数决定,累加进三维直方图h,组成区域的sift描述子。方向量化为八个区间。然后在每4×4的小块上计算8个方向的梯度方向,即可形成一个种子点,实际计算中对每个关键点使用4×4共16个种子点来描述,以增强匹配的稳健性,这样一个关键点就可以形成128维的sift特征向量。
2、基于lm算法的红外图像配准
对待拼接图像特征点,首先采用相似性度量的方法,进行特征点粗匹配。经过特征点对的匹配过程后,就可以根据点对的坐标计算图像间变换模型的参数。ransac方法具有较好的鲁棒性,能够有效剔除外点即伪匹配点,同时利用内点对单应性矩阵进行参数估计。
对于多幅红外图像拼接,需要将所有待拼接红外图像变换到图像序列中的一个参考图像,通常采用级联的方法求解远离参考图像的红外图像到参考图像的变换矩阵,但是这种连接它们之间的变换会导致累计误差,使得最终全景红外图像出现较大偏差和重影。因此,需要拼接过程中对各红外图像到参考图像的变换矩阵进行优化调整。
实验中,选取第一帧红外图像作为参考图像。假设hij表示红外图像ii到相邻红外图像ij的变换矩阵,且红外图像ij到参考图像的变换矩阵为hj,则ii到参考图像的变换矩阵hi=hijhj。通过优化各红外图像到参考图像的变换矩阵,使得多幅图像拼接时的累计误差最小。
给定一组匹配点
式(2)中,
式(3)中,e表示误差总和,s(i,j)表示红外图像ii和ij之间特征匹配对的集合,f(x)是一个误差函数,可以用式(4)表示:
式(4)中,以σ=∞来初始化,最后取σ=2个像素。这是一个非线性最小均方问题,因此使用lm(levenberg-marquardt)算法进行求解。通过最小化误差值来调整红外图像到参考图像的单应性矩阵,从而实现对hj的调整。
3、红外图像大视场拼接
经过配准对齐之后,采用多分辨率的方法,将图像分解到多尺度空间,在各尺度空间中采用加权融合算子进行融合,然后通过图像重构得到完整的无缝隙的合成图像。假设待拼接图像分别为i1、i2,r表示两图像的重合区域,则有:
li(x,y,σ)=gi(x,y,kσ)-gi(x,y,σ)(6)
gi(x,y,σ)=i(x,y)*g(x,y,σ)(7)
式(5)、(6)、(7)中,l、g分别表示拉普拉斯金字塔和高斯金字塔,σ为对应尺度空间,k为乘积因子,取
为了保持实际场景中各对象之间的空间约束关系,本实施例先将原红外图像序列映射到统一的柱面坐标空间上得到柱面图像序列,再按照前面介绍的方式1-3拼接得到大视场红外图像,结果如图3所示。
4、超像素分割与多尺度特征提取
超像素分割方法能够较好地描述区域信息,并对图像的噪声、遮挡和阴影等具有较好的鲁棒性。每个超像素区域内的像素点都具有相似的属性,并且对这些超像素区域面板建立马尔可夫模型从而估计出图像深度信息。超像素分割方法将红外图像进行分割成很小的像素块,然后对每个像素块进行特征提取,以得到区域内的形状、亮度和纹理,以及像素块与周围超像素块间的连接关系特征。本实施例采用law’s掩膜来对超像素块进行多尺度特征提取。
通过上述方法提取得到的特征较好的包含了超像素本身的纹理、灰度、方向梯度、位置和形状等特征,同时也包含了相邻超像素间的关系特征,能够很好的反映图像的局部特征和全局特征。
5、基于面板参数马尔可夫模型的大视场三维重建
通过特征提取后,再进行相应的面板参数估计,推断超像素面板的位置和方向。
首先面板参数
为了对单目红外图像进行三维重建,还需要考虑超像素面板间的结构特征,如邻接、共面、共线等图像特性,建立马尔可夫模型:
式(8)中,αi为超像素i的面板参数,假设超像素块i共包含si像素点,
上式中第一项条件概率密度函数f1(αi|xi,vi,ri;θ)表示面板参数αi与像素点局部特征xi之间进行的建模,θ为待整定的参数。第二项f2(αi,αj|yi,j,ri,rj)主要针对超像素i,j间存在闭合曲线边界时的建模,此时需要考虑面板间的邻接性、共面和共线性。设像素si,sj分别来自超像素i,j,则f2有如下定义:
通过不同的h(·)函数和像素对{si,sj}来判断超像素块之间是否存在邻接性、共面性和共线性特征。
pp-mrf模型如上式所示,采用来自康奈尔大学计算机学院官方网站上的训练图像和对应的深度图像对pp-mrf模型进行学习训练,得到模型的参数θ。本实施例将直接采用已训练好的pp-mrf模型对红外大视场图像进行深度估计和三维重建。