视觉对象检测的制作方法

文档序号:6436116阅读:106来源:国知局
专利名称:视觉对象检测的制作方法
技术领域
本发明涉及一种在二维图像中检测并定位对象(结构)的方法。实际应用包括遥感、多对象识别和医学成像。
背景技术
交叉关联(cross-correlation),也称为模板匹配,是一种在图像匹配中普遍应用的技术(W.K.Pratt,Digital Image Processing.John Wiley andSons 1978,New York,pp.526-566,以及D.Barnea和H.Silverman,“Aclass of algorithms for fast image registration”,IEEE Trans.Computing.,vol21,no.2,pp.179-186,1972)。但是,其存在很多不足,包括宽泛并且没有很好限定(即,不突出)的最大值、对噪声敏感、以及对所匹配的图像或图案中的非常微小的几何失真缺乏鲁棒性。此外,该技术的计算成本非常高,尤其在除了平移以外还允许对图案或图像进行比例缩放和旋转变化的情况下。
另一组图像匹配技术是基于几何矩(geometric moment)或者矩不变量(moment invariant)(M.K.Hu,“Visual pattern recognition by momentinvariants”,IRE Trans.Information Theory,vol.8,pp.179-187,1962;M.R.Teague,“Image analysis via the general theory of moments”,J.Opt.Soc.Am.,vol.70,no.8,pp.920-930,1980以及Y.S Abu-Mostafa和D.Psaltis,“Recognition aspects of moment invariants”,IEEE Trans.PAMI,vol.6,no.6,pp.698-706,1984)。大部分方法是在使用基于矩的匹配技术之前将灰度级或者彩色图像转换成二元化的灰度级图像。通常,只使用低阶矩。然而,如(Y.S Abu-Mostafa和D.Psaltis,“Recognition aspects of momentinvariants”,IEEE Trans.PAMI,vol.6,no.6,pp.698-706,1984)中所提到的,基于矩不变量的图像匹配具有很低的识别能力。
另一种可能的方法是使用傅立叶变换的相位信息。这些方法包括只有相位匹配的滤波器(J.L.Horner和P D.Gianino,“Phase only matchedfiltering”,Applied optics,vol.23,no.6,pp.812-816,1984和E.D.Castro和C.Morandi“Registration of translated and rotated images using finite FourierTransforms”,IEEE Trans.PAMI,vol.9,no.5,pp.700-703,1987)。这里的问题在于图像的谱相位并不是对于旋转和缩放不变。为了解决此问题,提出了采用Fourier-Mellin变换(FMI)(该变换对于平移是不变的,并且将旋转和比例缩放表示为参数空间中的平移)(Y.Sheng和H.H.Arsenault,“Experiments on pattern recognition using invariant Fourier-Mellindescriptors”,J.Opt.Soc.Am.,vol.3,no.6,pp.771-776,1986)。不幸的是,FMI描述符的基于关联的匹配也会产生没有很好限定的最大值。
大部分的上述技术还受另一重要问题的困扰,即,为了达到好的效果,需要从“背景”中分割出所关注的视觉对象或区域。分割是一个非常复杂的问题,对于该问题没有令人满意的通用、可靠并且鲁棒的解决方案。

发明内容
本发明提出了一种用于视觉对象检测和定位的新方法,其具有高识别能力并且不需要预先进行分割。该检测处理非常快,通常比标准的基于关联的方法快2到5个数量级,并且即使对有有噪声的图像也能提供可靠的结果。
在所附权利要求中提出了本发明的多个方面。
本发明的一个方面提供了一种表示图像的方法,其包括对图像进行处理以产生对图像的边缘进行了突出的第二图像(例如,强度梯度图像(intensity gradient image)),并得到基于该第二图像区域的空间积分或旋转不变表示的描述符。本发明的其它方面包括所得到的描述符;所得到的描述符的各种应用,包括检索和匹配方法、用于执行所述方法以及得到和/或使用该描述符或者表示的装置。应该注意,描述符的使用包括存储或者其它被动使用和主动使用。


下面参照

本发明的实施例,附图中图1是本发明实施例的示意图;图2是本发明实施例的流程图;图3表示ART分量的卷积掩码(convolution mask);图4a和4b表示一图像及其强度梯度图像;图5a和5b表示在图4的图像中检测到的多个对象的图像;图6是根据本发明实施例的系统的简图;图7是根据本发明另一实施例的系统的简图。
具体实施例方式
本发明的实施例涉及一种图像描述符,其支持视觉对象的快速检索,而不必进行任何分割。图1表示从单个样本中视觉检索/识别多个对象时所涉及的步骤和处理。首先,从原始图像10中的预定形状(优选为圆形)区域R1、R2、...、Rn中提取出本发明的描述符D1、D2、...、Dn(可以离线进行)。将这些分量描述符组合为图像描述符30,并与表示提取出这些分量的对应区域的链接一起存储在数据库中。当进行视觉对象的检索时,用户只在原始图像或者某些其它图像中显示样本对象20。例如,可以通过在所关注对象周围规定一圆圈来完成此操作。然后从样本区域中提取出描述符40,并由匹配系统50将其与从数据库中的所有图像中离线提取并存储在描述符数据库中的描述符进行匹配(比较)。该匹配处理表示描述符之间高度相似的区域很可能包含相似的视觉对象,并且以适当的形式将该区域提供给用户,例如,显示在显示器60上。
本实施例的一个方面是这些描述符的一种新设计。将本发明中提出的描述符设计为使得不必将图像分割为对象和背景区域。这很重要,因为如果需要进行这种预先分割,则在不知道检索对象的情况下不能提取描述符。这意味着不能离线地进行描述符的提取,因为通常无法预先知道对象对象,将图像分割成所有可能关注的“对象”是不可能的或不切实际的。由于处理能力的限制,尤其在涉及大的图像数据库时,对整个数据库在线地进行分割和描述符的提取通常不可行的。
当采用本实施例中所公开的描述符时,不需要进行对象/背景分割,并且可以根据离线提取的描述符非常快速地进行检索。此外,检索结果较好,因为它们不依赖于质量往往较差的分割处理。
图2示出了描述符的提取过程。将输入图像110导入模块120,该模块120计算各个像素位置处的强度梯度。例如,可以在互联网上的本领域教科书和论文中找到计算强度梯度的方法。将所得到的图像称为“梯度图像”。然后在模块130中将该梯度图像分成多个区域,优选地,这些区域互相重叠。所使用区域的大小应该与所关注对象的大小大致对应。例如,可以通过观看图像并观察图像中的对象的索引编著者来对此进行设定。另选地,例如,可以设置一区域,其面积占整个图像的预定比例。各个区域的大小可以不同。也可以使用选择图像区域的其它方法。这些区域可以与内容(例如,图像中的对象)无关。由模块140对各个区域的强度梯度图像计算矩描述符。优选的矩为Zernike矩(例如,参见M.K.Hu,“Visual pattern recognition by moment invariants”,IRE Trans.Information Theory,vol.8,pp.179-187,1962)或者ART矩(例如,参见Introduction to MPEG-7,pub.J.Wiley,2002),但是也可以采用其它类型的矩。模块150从所有计算出的矩中选择某些矩(特征),并将它们进行组合以形成特征向量。例如,对于ART矩,12个角度分量和5个径向分量的组合可以产生良好的结果。图3表示60个实ART分量和虚ART分量的卷积掩码。在模块170中对特征向量进行量化,以减小所需的存储容量,并且随后将其保存在磁盘上或者系统存储器中。对于每像素8比特分辨率的典型光学图像,统一量化为每分量6比特或5比特可以获得良好的结果,但是可以使用不同的范围以适合不同的情况。例如,可以利用特征向量之间的差异的L1或L2范数来计算由对应描述符所描述的两个区域之间的距离(或不相似度)。
怎样从二元图像(例如,对象的分割图像)中提取基于矩的描述符以对所关注对象进行检索是公知的。但是,本实施例提出了使用强度梯度图像,或者边缘强度(edge strength)图像作为对象描述符。边缘图像可能含有对象外部边界以及对象内部特征,此外,其对于对象和背景强度不敏感。
图4(a)表示一示例图像及其强度梯度图(b)。图5(a)表示在将左侧的飞机作为检索的样本对象之后,在图像中识别到的多个对象。图5(b)表示所检测到的对象,基于相似度的测量从左到右排列。
例如,依照下述两种不同的方法,本发明还可以应用于多谱图像。
在第一种方法中,由图6中所示的多谱单元来替代强度梯度计算单元110。该图表示一多谱图像的梯度计算的示例,该多谱图像具有3个分量A、B和C。这些分量可以是R、G、B颜色分量,或者Y、U、V颜色分量,或者可以使用任何其它适当的颜色空间。在第一步骤中,将图像分离成带分量(band component)210、220和230,并且由单元240、250和260分别计算各个带中的梯度幅值。然后在分量梯度整合单元270中将这些分量梯度幅值组合在一起。组合这些梯度幅值分量的一种较好的方法是加权平均,其中在乘以适当权值之后将分量幅值相加。然后将所获得的多谱梯度280用作为图像细分单元130的输入,并以与前述相同的方式进行处理。当将检索对象样本提供给系统时,采用与在从数据库图像中提取描述符时使用的相同的梯度组合方法。对梯度进行组合后,使用与前面的示例中给出的相同方法来提取描述符。
在第二种方法中,如图7所示,对于各个图像带分别提取并存储描述符。如前所述,将输入图像300分离成分量带310、320、330,并且在模块340、350、360中对各个带分别提取描述符。存储所有分量描述符。以类似的方式提取检索样本对象的描述符,即,计算各个带的独立描述符。可以在各个带中分别进行描述符的匹配,并通过例如加权平均来组合匹配分值。另选地,可以只根据单个带或者多个带的子集进行检索。可以看出,第二种方法更为灵活,但是需要更多的存储空间。
在匹配过程之后,可以根据相似度或者与一阈值进行比较等,对结果进行排序,并且可以显示该结果。
在本说明书中,除了根据上下文很明显的之外,图像一词表示整个图像或者图像的一个区域。类似地,图像的区域可以表示整个图像。图像包括帧或场,并且与静态图像或者一系列图像(例如,电影或者视频)或一组相关图像中的一个图像相关。
该图像可以为灰度图像或彩色图像,或者另一类型的多谱图像(例如,IR、UV或其它电磁图像),或者声像等。
本发明可以应用于例如进行了适当的软件和/或硬件改进的计算机系统。本发明的多个方面可以以软件和/或硬件的形式或者在专用设备中实现,或者可以提供专用模块(例如芯片)。可以将根据本发明实施例的装置中的系统组件设置为远离其它组件。例如,本发明可以以检索引擎的形式来实现,该检索引擎包括存储图像和相关描述符的数据库,其中例如通过互联网来远程输入查询。可以将描述符以及与其相关的图像分别存储。
上述实施例涉及产生图像的梯度图像,并得到该梯度图像的一个或多个区域的描述符。也可以采用对图像的边缘进行突出的其它技术来代替梯度图像。
这些实施例使用基于矩的技术来得到图像的多个区域的描述符。但是,也可以使用其它技术,特别在这些技术涉及各个区域的空间积分(例如,求和、加权求和等),并且/或者所得到的区域表示/描述符是旋转不变的情况下。
权利要求
1.一种表示图像的方法,该方法包括处理所述图像以产生对所述图像中的边缘进行了突出的第二图像;以及得到所述第二图像的多个区域中的每一个区域的描述符,其中得到所述第二图像的一个区域的描述符包括所述区域的空间积分和/或得到基本上旋转不变的描述符。
2.根据权利要求1所述的方法,包括将多个区域的描述符进行组合或者关联以产生所述图像的描述符。
3.根据权利要求1所述的方法,其中所述多个区域中的至少两个区域交叠。
4.根据权利要求2或权利要求3所述的方法,其中所述多个区域中的至少一个区域基本上是旋转对称的。
5.根据权利要求4所述的方法,其中所述旋转对称区域是一个或更多个基本上为圆形、六边形、正方形等的区域。
6.根据权利要求5所述的方法,包括将所述第二图像划分为多个区域。
7.根据权利要求2到6中的任意一项所述的方法,其中所述的区域与图像内容无关。
8.根据权利要求2到7中的任意一项所述的方法,包括将所述多个区域描述符进行组合以形成图像描述符。
9.根据上述任一权利要求所述的方法,其中基于所述第二图像得到描述符的所述步骤包括基于矩的技术。
10.根据权利要求8所述的方法,包括得到Zernike矩或者ART矩。
11.根据权利要求8或权利要求9所述的方法,包括使用所述矩的子集来得到描述符。
12.根据上述任一权利要求所述的方法,其中处理所述图像以产生第二图像的所述步骤包括产生梯度图像。
13.根据上述任一权利要求所述的方法,其中所述图像是灰度级图像,并且所述第二图像是强度梯度图像。
14.根据权利要求1到12中的任意一项所述的方法,其中所述图像是多谱图像,其中从一个或多个分量中的每一个得到梯度图像。
15.根据权利要求14所述的方法,其中例如通过求和、平均或者加权平均来组合像素各个分量的梯度值。
16.一种使用上述任一权利要求所述的方法而得到的图像描述符。
17.一种图像描述符,包括对所述图像的边缘进行了突出的第二图像的至少一种表示。
18.根据权利要求17所述的描述符,包括所述图像的所述第二图像的多个区域的表示的组合。
19.根据权利要求17或权利要求18所述的描述符,其中所述第二图像是梯度图像。
20.根据权利要求17到19中的任意一项所述的描述符,其中所述表示包括基于矩的表示。
21.权利要求16到20中的任意一项所述的描述符的应用。
22.一种对权利要求16到20中的任意一项所述的描述符进行编码、传输或解码的方法。
23.一种匹配方法,其包括将权利要求16到20中的任意一项所述的一个或多个查询描述符与权利要求16到20中的任意一项所述的一个或多个参考描述符进行比较。
24.一种检索图像的方法,其包括输入权利要求16到20中的任意一项所述的查询描述符,或者输入查询图像并使用权利要求1到15中的任意一项所述的方法得到描述符;以及将所述查询描述符与权利要求16到20中的任意一项所述的一个或多个参考描述符进行比较。
25.一种装置,该装置被设置用来执行如权利要求1到15或者22到24中的任意一项所述的方法。
26.根据权利要求25所述的装置,包括处理装置和存储装置。
27.一种装置,用于存储多个如权利要求16到20中的任意一项所述的描述符。
28.一种计算机程序,用于执行权利要求1到15或22到24中的任意一项所述的方法,或者一种用于存储该计算机程序的存储介质。
全文摘要
一种表示图像的方法,其包括处理该图像以产生对该图像中的边缘进行了突出的第二图像(例如,强度梯度图像),并且得到基于该第二图像的多个区域的空间积分或者旋转不变表示的描述符。
文档编号G06T7/60GK1614622SQ20041008862
公开日2005年5月11日 申请日期2004年11月5日 优先权日2003年11月7日
发明者米罗斯瓦夫·博贝尔 申请人:三菱电机株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1