一种图像物体大小恒常性计算方法

文档序号:6560951阅读:290来源:国知局
专利名称:一种图像物体大小恒常性计算方法
技术领域
本发明涉及一种图像物体大小恒常性计算方法,属于计算机视觉、图像理解与模式识别的技术领域。
背景技术
根据几何光学知识,物体在视网膜的映像轮廓不同于物体的轮廓,会随着人和环境不断变化,而且几乎每时每刻都在发生变化。但是外界的物体看上去都是一样的,有着标准的形状、大小、颜色、明度和位置关系。例如,随着观察者与桌子的相对运动或照明的变化,桌子的视网膜映像发生了很大的变化,但我们对它的感知却基本上没有变化。这种现象称作知觉恒常性。视觉心理学的研究表明尽管物体视网膜映像的大小在变,但看上去它的大小基本不变,这一现象被称为大小恒常性。
知觉恒常性是人类感知世界最重要、最突出的方面,它使人类视觉系统能超越不完全的、易于失真的、模糊的、二维视网膜映像,而建立起丰富的、稳定的、通常正确的、三维客观世界表象,恒常性理论对图像物体识别有着特别重要的意义。因为随着成像视点的变化,客观世界中的任一物体都可以产生无限多个二维图像投影,所以从二维图像出发,识别出对应的客观世界物体是一对多的数学问题,也是计算机视觉中的难题之一。恒常性理论最吸引人的地方是面对连续变化的刺激特征,物体能被稳定、唯一地感知。所以恒常性理论特别有助于解决物体识别中的视点不变难题。
恒常性主要包含如下种类大小恒常性、形状恒常性、明度恒常性及颜色恒常性等。大小是标识物体的一个重要属性。例如,在日常生活中,矮个子被感知为小孩的概率较大,高个子被感知为成年人的概率较大。而且,正确感知物体的大小具有重要的生物学意义。对许多食肉动物而言,小老虎是它们可能的美餐,而大老虎则是它们的杀手。故自动计算图像物体的正常大小对于图像物体识别无疑是十分重要的,这也正是图像物体大小恒常性计算的意义及应用所在。
尽管视觉心理学早已揭示了人类视觉系统大小恒常性的计算理论,但是多年来,计算机学者没有应用此项成果来解决计算机视觉问题,所以计算机也就一直没能获得图像物体大小恒常性感知的能力。本发明提出了一种图像物体大小恒常性的计算方法,试图使计算机像人一样,对单幅二维图像中的各物体能实现相对大小恒常性感知。

发明内容
本发明的目的是通过如下技术方案实现的,图像物体大小恒常性计算方法包括步骤如下(1)用天空检测技术计算出图像中间线;(2)在图像地面部分,计算出从图像底端边线到中间线的深度变化最快方向直线,得到它的斜率;(3)计算各图像物体中点处相对感知深度;(4)计算各图像物体的恒常性大小。
上述方法的步骤(1)中,图像天空部分(包括天花板)的颜色一致性较好,布局较简单,利用这个特性,用天空检测技术计算出中间线L1,把图像地面部分从整幅图像中分离出来。上述方法的步骤(2)中,用线性透视与纹理梯度两种深度线索来计算地面深度变化最快方向直线L2,并提出了两种深度线索进行融合的方法。上述方法的步骤(3)中,L2与L1的交点V(Vx,Vy)为图像中的感知深度最大的点称为灭点。L2与图像地面底端边线的交点U(Ux,Uy),为图像中的感知深度最小的点,称之为近点U。近点U的感知深度最小,设为DU,它的值等于相机离客观世界场景最近成像点的距离除以相机成像系数B。在图像地面部分各点感知深度的变化规律是从近点U到图像中间线,沿着深度变化最快方向直线L2,图像深度值线性递增,直至灭点V达到最大;与深度变化最快方向直线L2相垂直的直线上的所有点具有相同的深度(等深线)。例如直线L3过点P(m,n)且与L2垂直,则L3上的所有点的感知深度与点P相同。故点P的相对感知深度可用近点U到L3的距离DU-L3表示。这样就可以计算出图像地面各点的相对感知深度。上述方法的步骤(4)中,提出了图像物体感知大小计算公式S=B×A×D。S为物体的感知大小,A为物体的成像视角,D为物体的感知深度(也称感知距离),即人类视觉系统感知到的图像上物体在成像时离照相机的距离,B为与眼睛(相机)有关的成像系数。
本发明的技术效果在于该方法完全模拟了人类视觉系统大小恒常性的实现原理。本发明的另一个特点是,力图使用简单的数学建立复杂的恒常性计算模型,这也是与人视觉系统的机理是一致的,


图1是本发明图像物体大小恒常性计算方法的处理流程示意图;图2是本发明图像物体感知深度计算示意图。
具体实施例方式
下面结合附图和具体实施方式
对本发明作进一步描述。
如图1所示,图像物体大小恒常性计算方法的输入是单幅二维直立图像;输出是图像中的各物体在一维维度上和指定方向上(一般是垂直或水平方向)的相对感知大小;相机模型为针孔成像模型。直立图像是指图像天空位于图像中间线的上面,图像地面位于图像中间线的下面。
根据大小恒常性理论,要实现对图像中各物体相对大小恒常性感知,需要正确计算图像物体的成像视角A和相对感知深度D。成像视角A可用物体在图像中的一维大小表示,即可用它在图像中沿某一方向覆盖的像素点数量表示。对给定轮廓的图像物体,计算机能轻易完成这项计算任务。我们假定图像物体的轮廓都是人工给定的。在计算中,所有图像物体的参数是使用MATLAB环境提供的Ginput(n)与Imcrop(I)的函数手工交互实现的。
现在剩下的工作是计算图像物体的相对深度D。从视觉心理学关于人类视觉感知深度线索的有关结论出发,我们提出了一种简单的、有效的求解方法,其计算原理如图2所示。首先,利用物体在图像中的高度与大气透视两种深度线索,用天空检测技术计算出中间线L1,把图像地面部分从整幅图像中分离出来。其次,在图像地面部分,利用线性透视与纹理梯度两种深度线索,可算出从图像底端边线到中间线的深度变化最快方向直线L2。L2与L1的交点V(Vx,Vy)为图像中的感知深度最大的点,即灭点。L2与图像地面底端边线的交点U(Ux,Uy),为图像中的感知深度最小的点,称之为近点。心理学对人类视觉系统的研究表明,在一定的范围内,图像深度感知是线性变化的。故从近点U向图像中间线,沿着深度变化最快方向直线L2,图像深度值线性递增,直至灭点V达到最大。最后,计算图像地面相对感知深度图。与L2相垂直的直线上的所有点具有相同的深度。如直线L3过点P(m,n)且与L2垂直,则L3上的所有点的感知深度与点P相同。故点P的相对感知深度可用近点U到L3的距离Du-L3表示。这样就可以自动计算出图像地面各点的相对感知深度,进而形成稠密相对感知深度图。
得到了各物体的成像视角A和相对感知深度D,计算机就能实现图像物体相对大小恒常性计算,计算公式如下S=B×A×D (1)S为物体的感知大小,A为物体的成像视角,D为物体的感知深度(也称感知距离),即人类视觉系统感知到的图像上物体在成像时离照相机的距离,B为与眼睛(相机)有关的成像系数(对于同一次成像,B值对所有物体都是相同的)。物体的成像视角A可用物体在图像中的一维大小来表示。
相对大小恒常性的计算过程如图1所示,下面对其中的主要步骤进行详细说明。
1、计算中间线L1室外深度图像一般同时包含低处的地面部分与高处的天空部分,室内深度图像一般也同时包含低处地板部分与高处的天花板部分。我们分别统称室外图像的天空部分与室内图像的天花板部分为图像天空,地面部分与地板部分为图像地面,并称图像天空与图像地面的分界线为中间线。图像有时也没有中间线,此时只有地面部分。
图像天空部分(包括天花板)的颜色一致性较好,布局较简单。利用这个特性,使用图像分割技术能将天空分离出来。因色调Hue(H)分量对彩色描述能力相对来说与人的视觉最接近,故先把RGB空间转换成HSI空间。因待处理图像都是直立的,故在图像的上半部分必定存在天空区域,故仅对图像的上半部分进行统计,计算一维颜色直方图。具有最大值的直方条(Bin)对应的H值就是天空的H值,记作HSKY。为了提高计算速度和避免地面部分的单点被误判为天空,图像被分成2*2的小块,它的H值为4个像素的平均值。设W为任一图像小块,它的H值记为Hw,如果|HSKY-Hw|<=TI*HSKY,则块W属于天空。TI为相似性阈值,实验取值为0.05。天空的计算在整幅图像上进行。若计算出天空的面积小于图像的5%,我们便认为此图像中不包含天空。图像每列中位于最下方的天空点形成天地分界线。用最小二乘法把天地分界线拟合成水平直线,这条水平直线就是中间线L1。
当图像中不包含天空时,中间线一般退缩到图像的顶端边线或两侧边之一。因为所有的图像都是直立的,中间线不会出现在图像的底端边线。此时,中间线的位置由灭点位置与深度变化最快方向直线L2决定。当图像中包含天空时,图像地面是由中间线、底端边线及两侧边所形成的区域;当图像中不包含天空时,图像地面是整幅图像。
2.计算地面深度变化最快方向直线L2心理学的内容可知,线性透视与纹理梯度两种深度线索可用来指示地面深度变化最快方向。这两种线索仅在图像地面部分有效,所以计算直线L2的图像支持范围仅是图像地面部分。单独利用线性透视线索,可算出一条从图像底端边线到中间线的深度变化最快方向直线,我们称此直线为线性透视直线LP。单独利用纹理梯度线索,也可算出一条从图像底端边线到中间线的深度变化最快方向直线,我们称此直线为纹理梯度直线LT。LP与LT的计算方法稍后介绍,现在假设这两条直线已经求出。一般情况下,这两条直线不会重合,所以在共同指示地面深度变化最快方向时,不可避免地会产生冲突。因这两条直线都是用最小二乘法拟合产生的,故可以认为,直线的相对拟合误差越大,它所指示的深度变化最快方向越不准确。一种冲突的解决办法是两直线以各自的相对拟合误差为权,线性组合来求解地面深度变化最快方向直线L2,相对拟合误差越大,对应直线的组合权值越小,具体方法如下设深度变化最快方向直线L2、线性透视直线LP、纹理梯度直线LT的相对拟合误差分别为δ2、δP、δT,它们斜率对应的角分别为θ2、θP、θT,所有θ的取值范围为[-π/2,π/2],则有θ2=θP×δT/(δT+δP)+θT×δP/(δT+δP)(2)δ2=δP×δP/(δT+δP)+δT×δP/(δT+δP) (3)于是,直线L2由它的斜率对应角θ2和直线LP与LT的交点唯一确定。下面分别介绍直线LP与LT的计算方法。
2.1求解线性透视直线LP客观世界中向远处延伸的平行线,在图像平面中将靠得越来越近,甚至会聚。这样一组线称为会聚线,它们的会聚点称为灭点。在图像中,平行线指示平坦的表面,会聚线指示向远处延伸的表面。对于室外图像,线性透视效果一般仅出现在图像地面部分。但对于室内图像,同时作用于地面部分与天空部分。线性透视的深度感知规律是图像中的物体离灭点越近,感知深度越大,反之越小。同时,会聚线的中心线也能指出图像感知深度变化最快的方向。
对每幅图像,先使用Hough变换技术找出最长的10条直线分别对应的图像点集,然后用最小二乘法把这些点集分别拟合成直线,并得到每条直线的方程、斜率对应角θ及相对拟合误差δ。利用类似式(2)、式(3)的思想,由这10条直线以各自的相对拟合误差为权线性组合,易得到线性透视直线LP的斜率对应角θP、相对拟合误差δP及直线方程。
2.2求解纹理梯度直线LT由视觉心理学的内容可知表面离观察者越远,纹理变得越小。其原因是离视点越近,相同面积的视网膜(成像平面)区域包含的同质物体越少,即图像分辨率越大,纹理元素的尺寸越大。在物体内部区域,像素亮度的差异小,故物体一般被感知为同质区域。这也就意味着从统计意义上讲,离视点越近,相同图像区域内的像素亮度差异之和应越小。为此,我们用各像素点的亮度差异度作为它的纹理梯度,并用它进一步求解纹理梯度直线LT,具体的计算过程如下(1)设I(m,n)为图像地面任一像素点处的亮度I=(R+G+B)/3,按下式计算该点处的亮度差异度Idiff(m,n)。Z1决定各像素亮度差异的计算范围,取1,2,3中的某个值为宜。
Idiff(m,n)=(Σi=-Z1Z1Σj=-Z1Z1|I(m,n)-I(m+i,n+j)|)/(2Z1+1)2---(4)]]>(2)将图像地面部分均匀地分成Z2*Z2小块,设水平方向(行)与垂直方向(列)的块数分别为S,T。每块的亮度差异度Mdiff为块中所有点的像素亮度差异度Idiff之和,找出每行(水平方向)中具有最小亮度差异度Mdiff的块,分别记作R1,R2,...,RT-1,RT。从统计意义上讲,块R1,R2,...,RT-1,RT代表各行中离视点最近的区域。Z2的值不宜过大,取5左右为宜。
(3)用最小二乘法对块R1,R2,...,RT-1,RT的中心点坐标进行拟合,便可计算出纹理梯度直线LT的斜率对应角θT、相对拟合误差δT及直线方程。
3.计算图像地面感知深度图如图2所示,近点U的感知深度最小,设为DU,它的值等于相机离客观世界场景最近成像点的距离除以相机成像系数B。在图像地面部分各点感知深度的变化规律是从近点U到图像中间线,沿着深度变化最快方向直线L2,图像深度值线性递增,直至灭点V达到最大;与深度变化最快方向直线L2相垂直的直线上的所有点具有相同的深度(等深线)。设P(m,n)为图像地面部分任一坐标为m,n的像素点,求解点P(m,n)处的相对感知深度DP的方法如下设深度变化最快方向直线L2的斜率为K2,直线L3过点P(m,n)且垂直于直线L2,故直线L3的斜率K3=-1/K2,则直线L3的方程为X+K2Y-mK2-n=0 (5)设近点U到直线L3的距离为DU-L3,则有DU-L3=|Ux+K2Uy-mK2-n|/(1+K22)1/2(6)故点P(m,n)处的感知深度DP为DP=DU+DU-L3(7)一般情况,近点的感知深度DU难以估计,考虑它与DU-L3相比小得多,故在后面的实验中不予考虑,被设为0。
4.计算图像物体的感知大小利用式(1)计算各图像物体的感知大小。因为我们只计算相对感知大小,故可将式(1)的中B值设为1。
S=B×A×D=A×D (8)本发明的其他变化和修改对本领域技术人员是显而易见的,本发明并不局限于所述的具体实施方式
。因此,与本发明所公开内容的真正实质和基本原则范围内的任何/所有修改、变化或等效变换,都属于本发明的权利要求保护范围。
权利要求
1.一种图像物体大小恒常性计算方法,其特征在于它包括以下步骤(1)用天空检测技术计算出图像中间线;(2)在图像地面部分,计算出从图像底端边线到中间线的深度变化最快方向直线,得到它的斜率;(3)计算各图像物体中点处相对感知深度;(4)计算各图像物体的视觉感知大小,作为大小恒常性的计算结果。
2.根据权利要求1所述的一种图像物体大小恒常性计算方法,其特征在于步骤(1)中,图像天空部分(包括天花板)的颜色一致性较好,布局较简单,利用这个特性,使用图像分割技术能将天空分离出来。
3.根据权利要求1所述的一种图像物体大小恒常性计算方法,其特征在于步骤(2)中,用线性透视与纹理梯度两种深度线索来计算地面深度变化最快方向直线,并提出了两种深度线索进行融合的方法。
4.根据权利要求1、3所述的一种图像物体大小恒常性计算方法,其特征在于步骤(2)中,用线性透视深度线索来计算地面深度变化最快方向直线时,先使用Hough变换技术找出最长的10条直线分别对应的图像点集,然后用最小二乘法把这些点集分别拟合成直线,并得到每条直线的方程、斜率对应角θ及相对拟合误差δ,最后,由这10条直线以各自的相对拟合误差为权线性组合,得到线性透视直线LP的斜率对应角θP、相对拟合误差δP及直线方程。
5.如权利要求1、3、4所述的一种图像物体大小恒常性计算方法,其特征在于步骤(2)中,提出了一种利用纹理梯度线索计算地面深度变化最快方向直线(直线L2)的方法,主要步骤如下(1)设I(m,n)为图像地面任一像素点处的亮度I=(R+G+B)/3,按下式计算该点处的亮度差异度Idiff(m,n)。Idiff(m,n)=(Σi=-Z1Z1Σj=-Z1Z1|I(m,n)-I(m+i,n+i))/(2Z1+1)2]]>Z1决定各像素亮度差异的计算范围,实验表明取1,2,3中的某个值为宜。(2)将图像地面部分均匀地分成Z2*Z2小块,设水平方向(行)与垂直方向(列)的块数分别为S,T。每块的亮度差异度Mdiff为块中所有点的像素亮度差异度Idiff之和,找出每行(水平方向)中具有最小亮度差异度Mdiff的块,分别记作R1,R2,...,RT-1,RT。从统计意义上讲,块R1,R2,...,RT-1,RT代表各行中离视点最近的区域。(3)用最小二乘法对块R1,R2,...,RT-1,RT的中心点坐标进行拟合,便可计算出纹理梯度直线LT的斜率对应角θT、相对拟合误差δT及直线方程。
6.根据权利要求1所述的一种图像物体大小恒常性计算方法,其特征在于步骤(3)中,提出了图像物体中点处相对感知深度计算方法。地面深度变化最快方向直线L2与图像地面底端边线的交点U(Ux,Uy),为图像中的感知深度最小的点,称之为近点。近点U的感知深度设为DU,它的值等于相机离客观世界场景最近成像点的距离除以相机成像系数B。设P(m,n)为图像地面部分任一坐标为m,n的像素点,设深度变化最快方向直线L2的斜率为K2,直线L3过点P(m,n)且垂直于直线L2,故直线L3的斜率K3=-1/K2,则直线L3的方程为X+K2Y-mK2-n=0。设近点U到直线L3的距离为DU-L3,则有DU-L3=|Ux+K2Uy-mK2-n|/(1+K22)1/2。则点P(m,n)处的感知深度DP计算公式为DP=DU+DU-L3
7.根据权利要求1所述的一种图像物体大小恒常性计算方法,其特征在于步骤(4)中,提出了图像物体感知大小计算公式S=B×A×D。S为物体的感知大小,A为物体的成像视角,D为物体的感知深度(也称感知距离),即人类视觉系统感知到的图像上物体在成像时离照相机的距离,B为与眼睛(相机)有关的成像系数(对于同一次成像,B值对所有物体都是相同的)。
全文摘要
本发明公开了一种图像物体大小恒常性的计算方法,属于计算机视觉、图像理解与模式识别的技术领域。知觉恒常性是人类感知世界最重要、最突出的方面。大小恒常性是最重要的知觉恒常性之一。本发明能使计算机像人一样,对单幅二维图像中的各物体能实现大小恒常性感知,因为该方法完全模拟了人类视觉系统大小恒常性的机制。它的主要步骤包括用天空检测技术计算出图像中间线;在图像地面部分计算出从图像底端边线到中间线的深度变化最快方向直线参数;计算各图像物体中点处感知深度;计算各图像物体的恒常性大小。本发明特别有助于解决物体识别中的视点不变难题,可用于图像物体的识别。
文档编号G06K9/34GK1945629SQ200610113910
公开日2007年4月11日 申请日期2006年10月20日 优先权日2006年10月20日
发明者须德, 吴爱民, 郎丛妍, 李兵 申请人:北京交通大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1