用来从抽样数据抽取整合直方图的计算机实施方法

文档序号:6566371阅读:249来源:国知局
专利名称:用来从抽样数据抽取整合直方图的计算机实施方法
技术领域
本发明一般涉及表示和搜索真实信号的数据样本,并且更具体地说,涉及借助于从数据样本抽取的直方图表示和搜索以检测对象。
背景技术
如图1中所示,直方图100是‘条带(bin)’101的阵列。每个条带与抽样数据集的值的范围102相对应。条带‘计数’在特定范围中样本值出现的频率103。换句话说,直方图表示在数据集中样本的频率分布。
例如,抽样彩色图像的直方图‘计数’在每个条带中具有相同颜色值的象素的数量。因而,直方图是从抽样数据集到非负实数集+R的映像。
从概率的观点看,直方图的标准化生成模拟数据集的概率密度的离散函数。直方图可用来确定数据集的统计性质,如分布、散布、及分离。
直方图用在多种计算机视觉应用程序中,如基于对象的索引和检索,C.Carson,M.Thomas,S.Belongie,J.M.Hellerstein和J.Malik,“BlobworldA system for region-based image indexing and retrieval”,Proceedings of ICVS,1999和J.Huang,S.Kumar,M.Mitra,W.J.Zhu、和R.Zabih,“Image indexing using color correlograms”,Proceedings of CVPR,1997;图像分段,D.A.Forsyth和J.Ponce.“Computer VisionA Modern Approach”,Prentice Hall,2002和S.Ruiz-Correa,L.G.Shapiro、和M.Meila,“A new paradigm forrecognizing 3-D object shapes from range data”,Proceedings ofCVPR,2003;对象检测,C.Papageorgiou,M.Oren、和T.Poggio,“Ageneral framework for object detection”,Proceedings of ICCV,1998;及对象跟踪,D.Comaniciu,V.Ramesh和P.Meer,“Real-timetracking of nonrigid objects using mean shift”,Proceedings of CVPR,2000。
一种脸部检测器由P.Viola和M.Jones描述,“Robust real-timeface detection”,Proceedings of ICCV,第II页,744,2001。如由Viola等描述那样,有可能确定在线性时间中在图像上扫描的矩形窗口内的强度值之和,而对于每个可能窗口不重复求和算子。对于每个矩形和,要求恒定数量的运算,以确定对于分立矩形的和多次。这定义累计或积分强度图像,其中每个象素保持在象素左边和上方的所有值之和,该所有值包括象素本身的值。对于整个图像借助于每象素仅四次算术运算,可确定积分强度图像。人们从在图像的左上角象素中的窗口开始扫描,首先向右并且然后向下。函数把在积分图像中的当前象素值确定为是在当前象素上方和左边的所有象素强度之和减去左上的象素值。对于在边界处的适当修改,借助于另外四次算术运算可确定在矩形中的图像函数之和。因而,借助于线性量的运算,在线性时间内可确定对于任何矩形的图像函数之和,以建造积分图像。
不幸的是,抽取和搜索传统直方图是耗时的。只有穷尽搜索能提供全局最佳。次最佳搜索,如梯度下降和应用程序专用约束条件,可加速搜索。然而,依赖于最优解的计算机视觉应用程序,如对象检测和跟踪,要求直方图抽取的理论突破。
在传统上,穷尽搜索要求测量在具体直方图与所有可能目标区域的直方图之间的所有距离。这个过程要求用于对中在每个可能点处的区域,例如象素,的直方图的产生。在其中在不同标度,即不同目标区域标度(尺寸),下进行搜索的情况下,过程重复与标度数量一样多的次数。
图2表示传统直方图搜索的伪代码200。至今,这种传统方法是保证找到用于基于直方图的搜索的全局最佳的唯一已知方案。希望把直方图抽取和搜索直方图的速度改进几个数量级。

发明内容
本发明提供一种用来从笛卡尔(Cartesian)抽样数据空间中的可能目标区域抽取整合直方图(integral histogram)、和搜索抽取的直方图的方法。
本发明采用数据点的空间排列,并且通过从原点开始和沿预定扫描线扫描过剩余点而递归地传播聚集的直方图。矩形区域的直方图通过交叉在四个角部点处的整合直方图而确定。在每个步骤处,使用在以前处理的相邻点处的整合直方图的值,更新单个条带。在整合直方图传播之后,仅使用少量的简单算术运算就可建造任何目标区域的直方图。
根据本发明的方法具有三个显著优点。该方法与传统手段相比极快。该方法可实时地采用穷尽搜索过程,这至今对于最复杂的视觉应用程序是不实用的。该方法可扩展到更高数据尺寸、均匀和非均匀带条形成、及多目标标度,而不牺牲其优点。该方法也能够实现更高级直方图特征的描述,这些更高级直方图特征能够实现在直方图内的空间信息的整合。
具有不同数量的条带、数据尺寸、及数据结构的数值分析证明,根据本发明的整合直方图方法显著减小要求运算的数量。
该方法可用来实时地检测视频对象。


图1是现有技术直方图;图2是现有技术直方图抽取方法的伪代码;图3是根据本发明的直方图抽取方法的伪代码;图4是穿过图像中的象素的扫描线的方块图;图5是递归整合直方图建造的方块图;图6是递归整合直方图建造的方块图;
图7是把在输入图像中的目标交通标志映像到类似相似性映像图上的图;图8是把在输入图像中的纹理映像到相似性映像图上的图;图9比较使用传统平均移动对象跟踪在视频中的对象跟踪和借助于根据本发明的整合直方图的跟踪;图10是根据本发明的整合直方图的空间组合的方块图;图11是根据本发明的整合直方图的体系结构组合的方块图;及图12是根据整合直方图的模型基组合的方块图。
具体实施例方式
整合直方图根据本发明的整合直方图由递归传播方法从抽样数据中抽取。该方法在笛卡尔空间中工作。该方法可扩展到任何尺寸数据空间和任何张量表示中。
函数f,如x→f(x),定义在d-维真实值笛卡尔空间 中,其中,x=[x1,...,xd]是在空间中的样本点。函数f映像到k维张量上,即f(x)=[g1,...,gk]。d-维数据空间约束在范围N1,...,Nd内,即0≤xi≤Ni。
整合直方图H(x,b)沿点x0,x1,...的扫描线定义,从而H(x,b)=∪p=0xQ(f(p)),---(1)]]>其中Q(.)给出当前点的对应条带,并且∪是如下定义的合并算子。
直方图H(x,b)的条带b的值等于直方图的以前扫描点的条带值之和,即所有Q(f(p))之和,而p<x。换句话说,H(x,b)是在原点与当前点‘之间’的较大笛卡尔区域的直方图,并且0≤p1≤x1,0≤p2≤x2,...等等。
注意,H(x,b)等于在空间中所有数据点的直方图,因为N=[N1,...,Nd]是空间的边界。
因此,整合直方图可递归地得到为H(x)=H(x-1)∪Q(f(x)) (2)使用初始条件H(0)=0,即直方图的所有条带初始是空的。
然后,目标区域T[p-,p+]的直方图,其中p-<p+,把在区域的边界点处的传播整合直方图值确定为h(T,b)=H(p+,b)-Σi≠1dH([p-i,p+j],b)+(d-1)H(p-,b),---(3)]]>这对于2-D数据集成为h(T,b)=H(p+1,p+2,b)-H(p-1,p+2,b)-H(p+1,p-2,b)+H(p-1,p-2,b)注意区域由如下约束p-1≤x1≤p+1,...,p-d≤xN≤p+d与传统直方图建造相反,根据本发明的整合直方图方法对于每个可能区域不重复直方图抽取。
图3表示根据本发明从抽样数据抽取整合直方图的方法的伪代码300。
对于每个可能点,并且对于每个目标点,获得当前值,求出条带,及增大带条值。然后,对于每个可能标度,对于每个可能点,及对于每个条带,计算与以前条带的交点,标准化,和计算在直方图之间的距离。
在2-D数据的情况下,例如N1×N2灰度级图像,参数是d=2,k=1,并且数据空间限制在竖直和水平图像尺寸N1,N2内。
如图4中所示,用于图像402的扫描线401可按左到右、和顶部到底部的顺序分配给象素403。
如图5和6中所示,递归可表达为对所有b=1,...,BH(x1,x2,b)=H(x1-1,x2,b)+H(x1,x2-1,b)-H(x1-1,x2-1,b)+Q(f(x1,x2))(4)这种传播借助于属于当前数据点(象素)I(x,y)504的条带的值的增量,通过使用三个以前直方图501-503的条带的交点把当前点的直方图条带分别分配到左、顶部、及左上。
如下章节分析当与传统直方图相比较时抽取整合直方图的计算成本。分析被包括,因为分析显著地表明,整合直方图方法远优于传统直方图抽取方法。
整数数据在这种情况下,抽样输入数据是d-维阵列,其中用于每维的值的范围是具有相关k-维张量的Nd。直方图是k-维的,具有用于每维的B个相同条带。条带尺寸是整数。此外,用于直方图的目标窗口与目标对象的尺寸相对应,M1×...×Md。
传统直方图匹配算法需要7d-3+k次运算,以确定在d-维输入张量中的当前值;75k次运算,以确定对应条带指数;及一次运算,以增大条带值。条带指数可由浮点乘法和然后浮点到整数变换而确定。这个选项的成本,(109k),高于划分本身(75k)。在已经处理在目标窗口中的所有M1×...×Md点之后,借助于点的数量标准化直方图条带,这要求Bk次浮点乘法,因而就相对成本而论是4Bk次运算。这些运算对于N1×...×Nd直方图匹配的每一个重复。
ΠjdNj---(5)]]>注意,对于不同窗口尺寸组合Ms=1,...,Ss,其中Ss代表用于维s的范围的最大尺寸,以上过程被重复,从而用于传统方法的运算总数是[(7d+76k-2)ΠjdMj+4Bk]ΠidNjΠsdSj---(6)]]>对于具有整合直方图的传播所要求的运算数量是3(7k-3)+2k=23k-9,除获得张量值的当前值的成本(7d-3+k)之外,求出对应条带的指数(75k),及累加得到的条带值,这对于在数字空间中的所有点重复。
然后,抽取直方图所要求运算数量是[(7d+99k-11)]ΠtdNi]]>直方图交点使用4(7k-3)+3k=31k-12次运算。对于每个直方图,标准化结果使用Bk次浮点划分,即4Bk次运算。然后,所有N1×...×Nd直方图和所有可能搜索窗口尺寸匹配的成本仅是[7d+99k-11+(31k-12+4Bk)ΠsdSs]ΠtdNi---(7)]]>
传统方法相对于整合直方图方法的计算负载的比率是r=[(7d+76k-2)ΠjdMj+4Bk]ΠsdSs7d+99k-11+(31k-12+4Bk)ΠsdSs---(8)]]>浮点数据浮点数据把对于每个点用于每个划分的运算的数量从75k增加到100k。条带值增量成本成为四,这在以前是一。用于传统方法的总成本成为[(7d+101k+1)ΠjdMj+4Bk]ΠidNiΠsdSs---(9)]]>对于整合直方图方法,用来求出条带指数的步骤的复杂性增大到100k。在传播阶段中,添加的成本从2k增大到8k。在交点计算中,成本成为[7d+130k-11(40k-12+4Bk)ΠsdSs]ΠidNi---(10)]]>二的幂的条带尺寸注意,通过使用二的幂的条带尺寸优化是可能的。使用逐位移动算子,能以成本的分数实现划分算子。比如,代之以除以64,数可向右移动六位。按平均和依赖于位移动的数量,条带指数的计算从75k降到2k。然后,对于整数数据使用传统方法的总运算数量成为[(7d+3k-2)ΠjdMj+4Bk]ΠidNiΠsdSs---(11)]]>对于具有二的幂的条带尺寸的整合直方图,总成本下降到[31k+7d+1+(43k+1+100Bk)ΠsdSs]ΠidNi---(12)]]>匹配而没有标准化对于某些应用程序,目标对象在其原始尺寸下搜索而不用定标,或者具有与通过二的幂的缩减抽样相对应的半尺寸的定标因数,即半尺寸、四分之一尺寸、等等。在这样的情况下,进一步的计算减少是可能的,因为对于相同尺寸匹配不需要直方图标准化,并且对于更小的半尺寸实现显著减少,因为划分可使用逐位右移算子进行。对于2-s的定标因数,其中s=0代表无定标,s≤1代表减小尺寸,对于整数数据的传统方法的必要计算成为[(7d+35k+4)ΠjdMj+5(1-δ(s))Bk]ΠidNi---(13)]]>用于整合直方图的成本成为[7d+26k-11+(31k-12+4Bk)ΠsdSs]ΠidNi---(14)]]>注意,除以上成本外,传统方法具有另一种重要缺点。在每次计算之后,直方图阵列值被重新初始化。这带来额外开销。
应用时序数据对于1D抽样数据,如具有长度M的声频信号的时序和具有总条带数量B的直方图、和高达S个数据点的目标尺寸范围,以上分析的参数成为d=1和k=1,比率成为r1=(81M+4B)S95+(19+4B)S---(15)]]>惊奇地,整合直方图相对于传统方法把时序抽样数据的处理时间改进高达3.5×104倍。比如,对于32-条带直方图要求搜索包含104点的时序数据的普通任务比传统方法快3,347倍。
灰度级图像对于M1×M2灰度级图像和搜索窗口尺寸范围S1、S2,以上分析的参数成为d=2和k=1,并且比率是r2=[88M1M2+4B]S1S2102+(50+4B)S1S2---(16)]]>两维数据在使用灰度级监视视频和单色航空成像的视觉应用程序中非常普遍。例如,问题是使用16条带直方图在三种不同分级结构分辨率,即64×64、32×32、及16×16,下求出64×64目标图案。根据本发明的方法求出目标图案快2,345倍。借助于上述其它优化,与传统方法相比,整个过程可加速6×104的因数。
彩色图像对于具有3D直方图的彩色图像,其中每个点具有张量形式的三个颜色值,参数成为d=2和k=3。如果搜索是对于在图像尺寸中具有S1、S2模板窗口尺寸,则比率是r3=[240M1M2+4B3]S1S2300+(81+4B3)S1S2---(17)]]>即使对于使用用于以四位编码的每个颜色通道的直方图,即十六个条带,在二十个标度下搜索100×100对象模型的常规模型匹配任务,过程也加速146倍。依据条带的数量和目标尺寸,节省可高达7×105。
体数据对于体数据,参数是d=3和k=1。在更高维空间中的搜索在特征选择和分类问题中是基本的。对应比率是r4=[95M1M2M3+4B]S1S2S3109+(81+4B)S1S2S3---(18)]]>整合直方图方法在更高维中变得更加便利。节省可高达15×107。对于使用100-条带直方图搜索在原始尺寸(S=1)下搜索103×103×103目标体积,本发明可实现惊人的1.6×108倍改进。
对象检测如图7中所示,对象检测应用程序把图像701作为输入。目标是交通标志702。对于目标对象的搜索使用用于每个通道的15-条带彩色直方图。整合直方图用来建造类似的相似性映像图703,该相似性映像图703类似于传统相似性映像图。然而,在传统3.2Ghz处理器上,整合直方图方法运行63毫秒,而传统方法需要两分钟,几乎2000倍改进。
纹理检测如图8中所示,整合直方图也可用于纹理检测应用程序。这个应用程序把纹理图像801作为输入。任务是检测纹理802和803。检测的纹理表示在对应相似性映像图804和805中。整合直方图具有梯度定向的24-条带直方图。整合直方图用88毫秒,而传统方法需要大于五分钟的处理时间,增大3400的因数。注意,即使这样一种简单直方图也提供用于纹理分段的足够信息。也有可能组合直方图,以限定诸如Haar子波之类的高级特征。
我们确定逐象素纹理特征,并且建造用于图像数据的张量。每个张量是包括对应纹理分量的向量,如梯度大小、方位、颜色、及边缘;以及其它滤波器响应,如Gabor滤波器、离散Fourier、及余弦变换系数。
我们使用张量确定纹理的直方图。比如,如果我们具有k个不同纹理分量,那么我们的张量是[1×k]张量。在张量中的每个元素指示用于当前象素的对应纹理特征的值。我们也规定用于传感器中的每个元素的量化步骤,这些元素如用于第1、第2、...、第d特征的K1、K2、...、Kd,其中d能是大的正整数。然后整合直方图是K1×K2×...×Kd,对于每个目标区域/数据范围使用传统方法的这样一种较高维直方图的建造需要指数时间,这对于大多数纹理检测应用程序是禁止的。然而,整合直方图方法提供计算负载的高度减少,特别是当数据的维数增加时。
高级特征如图10-12中所示,使用根据本发明的空间的、分级结构的、及基于模型的整合直方图组合,可容易地确定高级特征。
图10表示围绕中心点p 1010的直方图h1、h2、h3、及h4的空间组合。组合直方图h(p)1020由(h1-h2+h3-h4)给出。高级特征由在图像中的区域的对应直方图的相加或相减建造。
图11表示在点p 1105处对中的直方图h1、h2、及h3的分级结构组合。代之以在单个标度上建造直方图,高级特征由在不同同心区域内的多个直方图建造。直方图根据是h1∪h2∪h3的h(p)被组合以形成聚集直方图,而捕获下层数据分布的多标度性质。
图12表示用于脸部的直方图的模型基组合,该组合包括头发颜色1201、眼睛颜色1202、脸部纹理1203、皮肤颜色1204、及嘴唇颜色1205。组合直方图h(p)1210是∪ihi。
这些组合能够实现空间信息的整合以及数据值的分布。
跟踪例子图9对于在输入视频中的跟踪对象,例如在大街场景中的行人,把整合直方图方法与传统直方图方法相比较。输入是帧序列901。序列902表示传统平均移动跟踪的结果。注意,传统方法未能跟踪行人,并且代之以跟踪静止阴影。序列903表示跟踪对象,如在使用整合直方图方法的序列904中正确跟踪的那样。
在对象的初始化之后,确定在原始直方图与对中在每个象素上的对象窗口的直方图之间的彩色直方图相似性得分。注意,使用传统方法,这样一种相似性确定非常慢。整合直方图方法与称作平均移动的基于梯度下降的方法(见以上的Comaniciu等的文献)相比较。
平均移动方法在大多数情况下使用Bhattacharya距离估计直方图相似性,该距离仅在其原始核心内,该核心是对象的窗口。平均移动迭代对于每个颜色通道使用16-条带直方图。然而,平均移动只估计在有限搜索区域内的相似性。结果,对于其中对象重新定位在帧之间较大、并且在连续帧中的对象窗口之间没有重叠的情形,这注定会失败,如在序列902中表示的那样。
整合直方图使得能够在比较恒定小量的时间例如55毫秒内确定在整个图像平面上的相似性。因而,借助于整合直方图方法,现在有可能在较高帧速率下准确地跟踪对象。
本发明的效果本发明提供一种用来抽取和搜索在笛卡尔空间中的所有可能区域的直方图的计算有效方法。整合直方图提供用于直方图基应用程序的最佳和完整方案。
整合直方图方法与传统方法相比可加快搜索过程大于数千倍。
该方法可扩展到任何维数据空间和任何张量表示。
另外,该方法为了进一步的特征选择和分类目的能够实现高级直方图特征的建造。
其中实时要求至今是瓶颈的多种计算机视觉应用程序,如视频对象检测和跟踪,可从整合直方图方法受益。
尽管把优选实施例作为例子已经描述了本发明,但要理解,在本发明的精神和范围内可以进行各种其它适应和修改。因此,附属权利要求书的目的是,覆盖进入本发明的真正精神和范围内的所有这样的变更和修改。
权利要求
1.一种用来从抽样数据抽取整合直方图的计算机实施方法,包括从真实-字信号获得样本集;按预定顺序扫描样本集;及对于每个当前样本建造整合直方图,整合直方图整合当前样本的直方图和以前扫描样本的整合直方图。
2.根据权利要求1所述的方法,其中,扫描是按左到右和然后顶部到底部的顺序。
3.根据权利要求1所述的方法,其中,样本集是d维阵列,并且其中用于每一维的值的范围是具有相关k-维张量的Nd。
4.根据权利要求1所述的方法,其中,整合直方图包括多个条带,并且每个条带的尺寸是整数。
5.根据权利要求4所述的方法,其中,该尺寸是二的幂。
6.根据权利要求1所述的方法,其中,样本集是一维时序。
7.根据权利要求1所述的方法,其中,样本集是两维灰度级图像。
8.根据权利要求1所述的方法,其中,样本集是彩色图像。
9.根据权利要求1所述的方法,其中,样本集是体数据。
10.根据权利要求1所述的方法,其中,样本集是视频,并且还包括由整合直方图建造相似性映像。
11.根据权利要求10所述的方法,其中,相似性映像用来检测在图像中的对象。
12.根据权利要求10所述的方法,其中,相似性映像用来检测在图像中的纹理。
13.根据权利要求1所述的方法,还包括空间地组合整合直方图。
14.根据权利要求1所述的方法,还包括分级组合整合直方图。
15.根据权利要求1所述的方法,还包括根据模型组合整合直方图。
16.根据权利要求1所述的方法,其中,样本集是图像,并且还包括根据在笛卡尔空间的角部点,规定在图像中的目标区域;确定用于目标区域的整合直方图;及相对于在图像中的目标区域的尺寸把整合直方图标准化,以得到标准化直方图。
17.根据权利要求16所述的方法,还包括把与在图像中的最大目标区域相对应的右下角部点的整合直方图的条带值添加到在图像中与最小目标区域相对应的左上角部点的整合直方图的条带值上,及减去右上和左下角部点整合直方图的条带值。
18.根据权利要求17所述的方法,还包括确定在标准化直方图与目标区域的整合直方图之间的距离。
19.根据权利要求1所述的方法,其中,样本集是图像,并且还包括通过组合整合直方图的强度、颜色、纹理、梯度、运动、方位、模板匹配、及图像的图像滤波器响应,建造高级特征。
全文摘要
本发明涉及用来从抽样数据抽取整合直方图的计算机实施方法,其中所述计算机实施方法从抽样数据,如时序数据、图像、及体数据,抽取整合直方图。首先,从真实-字信号获得样本集。按预定顺序扫描样本集。对于每个当前样本,建造整合直方图,该整合直方图整合当前样本的直方图和以前扫描样本的整合直方图。
文档编号G06F17/18GK101069192SQ200680001019
公开日2007年11月7日 申请日期2006年2月3日 优先权日2005年2月7日
发明者法蒂·M.·波利克力 申请人:三菱电机株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1