类地重力场环境下室内场景单目视觉空间识别方法

文档序号:6620119阅读:318来源:国知局
类地重力场环境下室内场景单目视觉空间识别方法
【专利摘要】一种类地重力场环境下室内场景单目视觉空间识别方法,其特征是它包括以下步骤:首先,对图像进行基于像素色彩及空间位置的超像素图像分割;其次,基于人类视觉多尺度感知特性的色彩空间谱聚类方法将超像素图像进一步聚类;对色彩分类图块进行基于轮廓形态谱聚类;采用室外重力场视觉模糊分布密度函数进行室内场景的初步空间分类;利用曼哈顿强度特性将具有强立面轮廓特征的图块归类成立面;基于室内场景透视原理对天花板与立面、地面与立面边界进行搜索;采用室内重力场视觉模糊分布密度函数进行室内场景图像空间识别;基于地面与天花板透视原理标注室内空间生成深度图。本发明实用性、棒性强。
【专利说明】类地重力场环境下室内场景单目视觉空间识别方法

【技术领域】
[0001]本发明涉及一种可以广泛应用于如机器视觉室内空间导航、目标测量、目标追踪与定位等领域的室内场景图像单目视觉空间识别方法,尤其是一种将重力场、透视投影原理及视觉空间尺度作为机器视觉空间识别的重要线索,实现对室内场景图像的视觉空间识别的方法,具体地说是一种类地重力场环境下室内场景单目视觉空间识别方法。

【背景技术】
[0002]本发明仅涉及类地重力场环境下的场景,因此需要对类地重力场环境给予必要的定义,本方法中所谓的类地重力场是指以硅酸盐岩石为主要成分的星体表面所构成的重力场环境,如:地球、火星、月球等重力场环境。图1给出了在万有引力场中场景图像的分类。而在类地重力场环境下的场景图像又可以分为两类,分别是通常所说的室外和室内场景图像,本发明的应用对象为室内场景。
[0003]目前对室内场景图像进行空间识别的方法主要有:动态贝叶斯网络模型法(DBN)、基于”盒子模型”的结构化学习法(SL)以及几何推理法(GR)等。这些方法能够对一些类型的室内场景图像产生一定的三维空间识别。
[0004]1.动态贝叶斯网络模型法(DBN)
[0005]Erick等人采用动态贝叶斯网络模型,以斯坦福大学校园的建筑物室内场景为训练集,通过反复机器学习获得了对建筑物室内空间识别的模型,并对由因特网上的谷歌图片(http://images.google, com)收索到44张分辨率相似的室内场景图片进行测试,该方法模型对地板边界的平均识别率为80%,对图像3D重构的平均准确率为66%。Erick等人在其文章中对其提出的方法产生的错误进行了分析,其主要原因在于该方法依赖图像中对灭点检测的准确性,当室内空间存在较多不规则物体时将影响其方法对空间中平行线灭点的检测,从而带来空间识别的错误。此外,当场景中出现弧形墙面时则该方法的错误率将会更大。
[0006]2.基于“盒子模型”的结构化学习法(SL)
[0007]Varsha等人基于Derek等人提出的“盒子模型”假设,引入了一种结构化的机器学习方法,通过对308张由网上获得的室内场景图像进行训练学习,其中随机抽取了 204张图像用于训练,104张图像用于测试。该方法数据集图像空间识别情况是,其对室内空间平面的像素识别错误率在26.5%?21.2%之间;对室内空间中墙角识别的错误率为7.4%?6.3% Jarsha等人对其方法所产生的错误进行了分析,其主要原因也在于该方法依赖灭点检测的准确性。
[0008]3.几何推理法(GR)
[0009]David C.等人提出采用几何推理法来对室内场景图像进行空间识别,即通过提取室内场景图像中的线段集合,并通过对线段进行相对合理的推理解释,来重构建筑物的室内3D空间,该方法忽略了室内场景中障碍物的存在,比如:室内场景中的人体、家具等。从其推理模型中可以看出(如图2所示),该方法仅适合摄像机在平视或接近平视条件下的墙面与天花板及地面间有明确直线交界线其障碍物较少的室内场景空间。
[0010]本发明在继承“盒内假想方法”(Thinking Inside the Box)的基础上,提出将室内空间定义为“任意形状盒子模型”,并将重力场、透视投影原理及视觉空间尺度作为机器视觉空间识别的重要线索,实现室内场景图像的空间识别,该方法不需要进行机器学习。


【发明内容】

[0011]本发明的目的是针对现有的各类室内场景图像空间识别方法存在的精度低、误差率大的问题,发明一种类地重力场环境下室内场景单目视觉空间识别方法,这种方法在继承“盒内假想方法”(Thinking Inside the Box)的基础上,通过分析重力场中室内环境空间特点,采用构造模糊函数的方法来构建重力场室内场景视觉空间识别模型,该模型不依赖于室内场景图像中的灭点信息。其基本思想是,在室内空间中,主导性结构物体为地面、墙面和天花板,而且它们相互之间的关系往往是正交的,因此采用“盒子模型”是可行的,但是本发明所采用的盒子模型并不是立方体,而是由底面即地面和有顶盖即天花板的“任意形状的盒子”。本发明抛弃了以往研究中提出的寻找平行线灭点方法来认知室内3D空间的方法,而是将重力场因素加入到“任意形状盒子模型”中作为约束条件,即在重力场的作用下,除了气体以外几乎所有的物体(除利用空气动力学原理的飞行器)都需要地面的支撑,如天花板需要墙体的支撑,墙体需要地面的支持,室内家具等物体必须处于地面的支持状态下才是稳定的。因此本发明中的室内场景3D空间识别方法从立面物体识别着手,以立面物体为线索推导出室内空间中的天花板和地面,进而实现对室内场景的空间认知与识别。
[0012]本发明的技术方案是:
[0013]一种类地重力场环境下室内场景单目视觉空间识别方法,其特征是它包括以下步骤,如图3所示:
[0014]首先,对图像进行基于像素色彩及空间位置的超像素图像分割,形成具有一定密度的超像素图像;
[0015]其次,基于人类视觉多尺度感知特性的色彩空间谱聚类方法将超像素图像进一步聚类,生成接近人类视觉色彩分类感知的图块图像,以降维超像素图像;
[0016]第三,对色彩分类图块进行基于轮廓形态谱聚类,将立面物体的图像聚类成大立面图块;
[0017]第四,采用室外重力场视觉模糊分布密度函数进行室内场景的初步空间分类,初步找出可能的天花板、立面及地面的空间区域;
[0018]第五,并利用曼哈顿强度特性将具有强立面轮廓特征的图块归类成立面;
[0019]第六,基于室内场景透视原理的天花板与立面、地面与立面边界进行搜索;
[0020]第七,采用室内重力场视觉模糊分布密度函数进行室内场景图像空间识别;
[0021 ] 第八,基于地面与天花板透视原理标注室内空间生成深度图。
[0022]所述的多尺度感知特性的色彩空间谱聚类方法是先采用简单线性迭代聚类方法即SLIC(Simple Linear Iterative Clustering)进行超像素聚类,它以像素的CIELAB色彩空间的L、a、b值及像素的X,y轴坐标构建5维空间,并定义了规范化的距离测量方法Ds,具体定义如下:

【权利要求】
1.一种类地重力场环境下室内场景单目视觉空间识别方法,其特征是它包括以下步骤: 首先,对图像进行基于像素色彩及空间位置的超像素图像分割,形成具有一定密度的超像素图像; 其次,基于人类视觉多尺度感知特性的色彩空间谱聚类方法将超像素图像进一步聚类,生成接近人类视觉色彩分类感知的图块图像,以降维超像素图像; 第三,对色彩分类图块进行基于轮廓形态谱聚类,将立面物体的图像聚类成大立面图块; 第四,采用室外重力场视觉模糊分布密度函数进行室内场景的初步空间分类,初步找出可能的天花板、立面及地面的空间区域; 第五,利用曼哈顿强度特性将具有强立面轮廓特征的图块归类成立面; 第六,基于室内场景透视原理对天花板与立面、地面与立面边界进行搜索; 第七,采用室内重力场视觉模糊分布密度函数进行室内场景图像空间识别; 第八,基于地面与天花板透视原理标注室内空间生成深度图。
2.根据权利要求1 所述的方法,其特征是所述的多尺度感知特性的色彩空间谱聚类方法是先采用简单线性迭代聚类方法即SLIC(Simple Linear Iterative Clustering)进行超像素聚类,它以像素的CIELAB色彩空间的L、a、b值及像素的x,y轴坐标构建5维空间,并定义了规范化的距离测量方法Ds,具体定义如下:
其中:ck = [lk,ak,bk,Xk, yk]T为聚类的中心;[li; ai; bi; xi; yJT为图像像素点的5维空间坐标;N为图像的像素数;K为期望获得的超像素的数目;S为超像素中心栅格间距;DS为色彩Iab距离dlab和dxy基于S的规范化距离;m为可控的超像素密度因子;其次采用以下方法进行多尺度特性色彩空间谱聚类: (1)将SLIC方法所产生的η个超像素作为无向权值图G的顶点V= Iv1, V2, , νη}; (2)构建邻接矩阵,i= 1,2...n ;j = I,2...n,其中,η为超像素的个数;
(3)构建权值邻接矩阵,i= l,2...n ;j = l,2...n ;
其中权值w(i,j)为相邻两个超像素之间的规范化CIELAB颜色直方图Bhattacharyya系数进行度量计算,具体构建方法是将图像的色彩空间转换到CIELab空间,并将L通道的取值范围划分为8级等分,a通道的取值范围划分为16等分,将b通道的取值范围划分成16个等级,其中将L通道取值范围划分为8级的目的是降低色彩亮度变化对权值的扰动,每个超像素在8X 16X 16 = 2048维度的空间计算值直方图为:
对于权值W(i, j)的取值通过增加一个基于Bhattacharyya系数的色彩距离的约束条件进行选取,选取条件为:
当 W(i,j) ^ 0.71 ^ cos45° 时,则令 W(i,j) = O ; 增加此约束条件的目的是提高相邻超像素间色彩的相似性阈值以提高方法的干扰能力和鲁棒性;
(4)构建度矩阵,i= 1,2...n ;j = 1,2...η ;
(5)构建规范化Laplacian矩阵,采用Normalized_cut准则来计算规范化的Laplacian 矩阵:
(6)计算Lsym进行特征值分解,并取前K个最小特征值所对应的特征向量,V1,V2,,Vk;,其中K= [0.1Xn],即取η的10%作为图像聚类特征向量的维度,从而实现将超像素图像降维到接近10%以下的目的; (7)将V1,V2,..., Vk排列组成Rnxk矩阵并将矩阵中的每个元素取绝对值得矩阵U ; (8)对于i= 1,2...n,令yi e Rk为矩阵U的第i行向量; (9)对非零的Yie Rk向量进行归一化,并用Bhattacharyya系数法进行聚类,其中Bhattacharyya距离的Bu阈值为cos20° ^ 0.95,即当Bu≥0.95时,超像素间进行聚类; (10)采用以下方法对每个谱聚类图块进行聚类,生成接近人类视觉色彩分类感知的图块图像: ①构建颜色多尺度空间模型: 采用一个以a = 0,b = O为圆心,Rm为半径的圆柱体将CIELAB色彩空间分割成两个部分: 对于在ab平面上投影的模长大于Rm的颜色向量,采用两个颜色向量在ab平面投影向量间的夹角和颜色向量在ab平面上投影的模长之差的绝对值作为颜色聚类的近似性测度,具体的数学表达如下:

其中:5和S为两个颜色向量在ab平面投影向量,AmT分别为两向量聚类夹角的阈值和模长之差的阈值,θ τ的取值范围为θτ = 5~20°,AmT的取值范围为Λπιτ =.15 ~40 ; 对于在ab平面上投影的模长小于Rm的颜色向量,则采用两个颜色向量在ab平面投影向量间的夹角,其表达式同(10)式,以及向量在L上的亮度差作为其颜色聚类的近似性测度,具体的数学表达如下: AL = |La-Lj ^ ALt (12) 其中:Λ Lt的取值范围为ALt = 5~20。 ②应用颜色多尺度空间模型进行图像聚类: a.计算每个聚类图块平均色彩向量值,并将向量投影到ab平面上; b.计算每个聚类图块平均色彩向量值投影在ab平面上向量的模长,并根据向量在ab平面上的模长将其归于不同的测度空间; c.对相邻图块类采用式(10)进行向量间的夹角的计算; d.以公式(10)(11) (12)为判据,将符合条件的图块进行聚类; e.重复a~d步,直到收敛。
3.根据权利要求1所述的方法,其特征是为了提高重力场视觉模糊分布密度函数对天花板、地面和立面物体判断的准确度,需要对图块进行基于几何包含关系的聚类,以消除孤岛图块,所谓孤岛图块是指一个或多个图块被一个大图块完全包围的图块,几何包含关系的聚类方法能将孤岛图块聚类成完全包围该孤岛的大图块;图像中非镂空图块是指:其轮廓边界的线积分值等于其外轮廓线积分值的图形区域,即图块的轮廓线就是其唯一的轮廓线,其判据的数学表达式为:
图像中镂空图块是指:其外轮廓线积分值小于其轮廓边界线积分值的图形区域,其判据的数学表达式为:
几何包含关系的聚类方法为: (1)寻找镂空图块,其判据为当Nb-nb> O时则图块为镂空图块,其中Nb为图块所有边界的像素值,nb为图块外边界的像素值,如果Nb-nb > O则进入下一步,否则图块不为镂空图块则退出进程,并遍历其它图块以寻找镂空图块;直到遍历所有图块且没有镂空图块时退出; (2)以外边界为边界以原图块的标记值来填充图块; (3)以填充图块代替原镂空图块。 (4)返回第一步。
4.根据权利要求1所述的方法,其特征是所述的基于图块轮廓形态的谱聚类方法为:(1)对聚类图像中的所有图块边缘轮廓进行Hough直线提取; (2)在[0,180]角度区间范围,以4°为一区间,将[0,180]区间分为45个小区间,并统计场景图像中各角度区间中的直线段总长,并归一化后形成统计直方图; (3)构造一个窗口函数wK(X),即在[0,4]、[84,96]以及[176,180]区间内设置采样窗口。
(4)将统计直方图与窗口函数Wk(X)相乘,并将其结果进行求和得到直方图在[0,4]、[84,96]以及[176,180]区间内的能量E' H ; (5)将整个统计直方图进行求和运算得Eh; (6)根据公式将E,H除以Eh,得曼哈顿方向强度Sm;
(7)当两相邻图块的曼哈顿方向强度Sm≥0.75时,构建向量e(i) = (e1,e2,e3),其中,e1; e2,e3分别是,图块轮廓直线方向直方图在[0,4]、[84,96]以及[176,180]区间内的数值; (8)求取其相邻超像素之间的Bhattacharyya系数值Bk(i, j)为:
(9)当BK(i,j)≥0.9时图块聚类。
5.根据权利要求1所述的方法,其特征是室外重力场视觉模糊分布密度函数分类方法为: (1)设定图像的视平线的位置;视平线为过摄像机的光心并与地平面或水平面平行的直线,而图像中的水平线为过视平线与摄像机成像靶面的交点与地平面或水平面平行的直线,直线为成像靶面视平线所在的位置,需要指出的是由于摄像机视角的变化,其视平线的位置将会在图像成像靶面中上下移动,即视平线不一定在图像的中间位置; (2)构造地面重力场视觉模糊分布密度函数G: 当 Hg ≥ Hs 时:令
当 Hg < Hs 时:G(x) = -S(x)
其中:n = 1,2,3......N,N e正整数,通常取n = I即可。 (3)构造天空重力场视觉模糊分布密度函数S:
其中:n = 1,2,3......N,N e正整数,通常取n = I即可。 (4)计算立面物体重力场视觉模糊分布密度函数V:

(5)对聚类图块中各像素在图像垂直方向上与地面模糊分布密度函数G、天空模糊分布密度函数S以及立面物体模糊分布密度函数V,在(-?,?)范围内相乘并求其期望值,公式如下:
其中:叫为聚类图块在第i行的像素个数,rb为聚类图块的最下延,rt为图块的最上延,则图块的分类为:
其中:S代表天空、V代表立面、G代表地面。
6.根据权利要求1所述的方法,其特征是室内重力场视觉模糊分布密度函数方法为: (1)构造地面重力场视觉模糊分布密度函数G:
其中:n = 1,2,3......N,N e正整数,本发明中的实验取n = I ; (2)构造天花板重力场视觉模糊分布密度函数C:
其中:n = 1,2,3......N,N e正整数,本发明中的实验取n = I ; (3)构造立面物体重力场视觉模糊分布密度函数V:
(4)对聚类图块中各像素在图像垂直方向上与地面模糊分布密度函数G、天花板模糊分布密度函数C以及立面物体模糊分布密度函数V,在(-?,?)范围内相乘并求其期望值,公式如下:
其中:叫为聚类图块在第i行的像素个数,rb为聚类图块的最下延,rt为图块的最上延,则图块的分类为:
其中:C代表天花板、V代表立面、G代表地面。
7.根据权利要求1所述的方法,其特征是室内空间中天花板、地面与立面的边界线预测估计方法: (1)对室内初步分类图像中每行像素中的天花板像素的个数进行累加统计,得η个I?,其中:4 - O ? 4下标i代表像素的行号,上标c代表天花板像素; (2)对室内初步分类图像中每行像素中地面像素的个数进行累加统计,得m个弓,其中:Lgj^O,马下标j代表像素的行号,上标g代表地面像素; (3)令
(4)分别以μ。和μg为均值计算标准差S。和Sg,公式如下:
(5)直线cc’位置的确定,首先取fAA,……A,}中所有大于y「1.96S。的IJ,组成新的集合,……,并在此集合中寻找与视平线00’距离d。最小的水平线作为天花板与立面边界的预测估计线cc’ ; (6)直线cc’位置的确定,首先取……中所有大于118-1.96\的15,组成新的集合弓.……qj,并在此集合中寻找与视平线00’距离dg最小的水平线作为天花板与立面边界的预测估计线gg’。
8.根据权利要求1所述的方法,其特征是基于地面与天花板透视原理标注室内空间深度图生成方法包括 (1)构建基于地面的深度模型; 该模型首先假设地面是水平连续延展且较为平整,视觉成像系统有明确的方向性,即图像上缘为3D空间的正上方,下缘为3D空间的正下方; 地面深度信息与图像中地面像素位置的透视投影关系如下:
其中:Η为摄像机距地面的高度,β为摄像机光轴与视平线的夹角,深度投影角α为视平线00’与直线op的夹角,其取值范围为(0,β + tan-1^], ρ,为地面上的ρ点在成像靶面上的投影,f为镜头焦距,h为成像靶面上的视平线到P’点的距离,则摄像机可感知的地面距离d取值范围为(Hcotp + tarT1.),+00)。 (2)构建基于地面的图像深度图;由地面深度与摄像机距地面的高度H和深度投影角a的关系式(34)知,当H为常数时,可以用a的值来表示地面在摄像机投影的各像素点深度,将ae(0,沒+ tern?1合]的取值映射到 CIELAB色彩空间的(-f, I)的色环上,并将天空的颜色定义为色环彳处的颜色; (3)生成基于天花板的图像深度图,先假设天花板是一个与地面平行的水平面,并在此基础上将天花板的深度图标注方法采用上述相同基于地面的图像深度图的标注方法,对天花板的深度进行标注。
【文档编号】G06K9/66GK104077611SQ201410335080
【公开日】2014年10月1日 申请日期:2014年7月14日 优先权日:2014年7月14日
【发明者】郑李明, 崔兵兵 申请人:金陵科技学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1