利用形状进行目标表示与检索的方法和装置的制作方法

文档序号：6398394阅读：221来源：国知局

专利名称：利用形状进行目标表示与检索的方法和装置的制作方法
技术领域：
本发明涉及用于利用形状对图像中的目标进行表示的方法和设备，特别在检索中使用。本发明还涉及用于利用形状表示法对图像中的目标进行检索的方法和设备。
背景技术：
众所周知，利用出现在图像中的目标的表示来存储静止或者视频图像，例如在图像库中。在检索方法中使用这些表示使得图像包含供以后要恢复的令人感兴趣的目标。这些表示可以基于目标的各种不同的特征包括色彩、纹理和形状。
已知有许多方法用于表示图像中目标的形状。已知的方法包括链式编码(chain coding)、四树法(quad-tree)和曲率比例空间表示法(curvature scale space representation)。
为了在图像检索系统中进行检索，用户通过给系统提供被搜寻目标的草图或图像，或者选择一幅存储在系统中目标的视图(view)来输入查询。然后，该系统导出或获得该查询目标的一个表示并且通过适当的匹配算法将该查询表示与存储在数据库中的表示进行比较。将最接近的匹配表示在显示单元上。
在大多数情况下，出现在视频图像中的目标是三维真实目标在二维图像平面上的投影。所以，出现在图像中目标的二维形状或外形依赖于诸如观察位置、观察角度以及拍摄装置和光学系统参数等因素。因此，目标将具有与不同的观察视图相关的不同的外形。
已知的图像数据库系统的一个缺点是具有不同外形的一个目标的不同的视图被处理成了不同的目标。作为结果，例如，如果用户输入一个基于目标A的前视图的查询，并且该目标A只出现在来自后视图和侧视图的视频序列中，结果无法成功匹配并且无法恢复该目标。

发明内容
本发明提供了一种对出现在数字图像中的目标进行表示的方法，该方法包括导出对应于该目标的多个不同的二维视图的表示。
本发明还提供了一种匹配目标的方法，该方法包括通过处理对应于目标图像的信号来输入查询和将该查询与目标的不同视图的多个表示进行比较，以找到最接近的一个匹配或一些匹配。

下面将参照以下附图描述本发明的实施方案，其中图1是根据本发明的实施方案的系统的方框图；图2是展示如何获得针对一个目标的描述符的示意图；图3是展示如何获得针对目标的描述符的流程图；图4是展示用于检索的设备和方法示意图；图5是展示检索方法的流程图。
具体实施例方式
图1展示了一个根据本发明的实施方案的系统。该系统包括控制单元2诸如用于控制系统运行的计算机、与控制单元2相连接的用于显示包括图像和文本的输出的显示单元4例如监视器、以及用于给控制单元2输入指令的指示装置6例如鼠标。该系统还包括存储多个视频序列的数字版本的图像数据库8以及存储描述符信息的描述符数据库10，这将在下文中针对出现在存储图像数据库8中的视频序列中的每一个的目标进行更详细的描述。图像数据库8和描述符数据库10均与控制单元2相连接。
在该实施方案中，系统的单元(element)在单个一位置(例如图像库)上被提供，在该位置上系统的组成部分被永久地链接。
参照图2和图3将对根据本发明的实施方案的目标的描述符的导出方法进行描述。将针对一个具有相对简单形状的的目标，目前情况下是一个圆柱形目标对该方法进行描述。
在该实例中，该圆柱形目标在存储在图像数据库8中的视频序列中出现二次。参照图2，第一次出现时该目标外形对应视图1，该视图是一个侧视图，第二次出现时该目标的外形对应于视图3，该视图是侧视图和俯视图。
现在参照图3对该方法的步骤进行描述。
数据库索引器(database indexer)识别二个外形属于同一个目标以及该三维目标对应的外形是一个圆柱形(步骤10)。对于视图1和视图3中的每一个，采用曲率比例空间(CSS)表示来导出形状描述符(步骤20)。另外，该数据库索引器选择任意另外的被认为代表目标的视图，即使它们不在被考虑的视频序列中出现(步骤30)。在该实例中，选择视图2即该圆柱体的俯视图作为代表。也获得了该视图的CSS表示(步骤40)。
Farzin Mokhtarian，Sadegh Abbassi，Josef Kittler等人的“通过曲率比例空间进行加强和有效的形状索引”大不列颠机器版本大会会议录，53页-62页，爱丁堡，英国，1996年(“Robust andEfficient Shape Indexing through Curvature Scale Space”FarzinMokhtarian，Sadegh Abbassi，Josef Kittler，Proc.BritishMachine Vision Conference，pp.53-62，Edinburgh，UK，1996)一文对曲率比例空间表示进行了描述并且结合在此作为参考。简要说来，形状外形的曲率表示是采用对曲线平滑来进行的。该曲线被考虑成许多的不同的演化阶段。更具体而言，在演化的每一个阶段的曲率函数中确认曲率的零交叉。通过将这些来自所有演化步骤的零交叉组合得到一个曲率零交叉图。该图的一个轴对应σ，它代表曲线的演化参数并且另一个轴对应曲线的弧长参数υ。那么形状由图形中的轮廓线最大值的位置表示。
除了该目标的代表视图的CSS形状表示，还获得了一个独立于该目标视图的全局三维形状参数(步骤50)。在该实例中，该全局参数是目标在现实生活中的体积。该体积可能已知，或者参照出现在视频序列中的其它目标可以大致估计，例如可以大致估计人的外形尺寸。
将全局参数与该视图形状描述符组合，以形成三维目标形状描述符(步骤60)。
对所有令人感兴趣的出现在图像数据库8中的图像中的目标可以通过上述方式获得三维目标形状描述符。根据任何给定目标的复杂程度来使用该目标的视图的数目以及这些视图。有些目标在三维目标描述符中可能没有全局参数，例如如果不知道或者不容易导出体积值。每一视图有一个参考指针指明它在视频序列中的哪一帧中出现，以及是该帧中的哪一个目标，例如，目标的视图可以具有一个指针指明它出现在第1000帧中并且是第3号目标。
在采用不同形状表示方法中的其它实施方案中，该视图的数目和特征依赖于所使用的形状表示。例如，对由于视图几何变化引起的形状变形不敏感的方法需要较小的视图数目。
该描述符数据库10为存储在图像数据库8中的视频序列中的目标存储三维目标形状描述符。
现在参照图4和图5对在视频序列中进行目标检索的方法进行描述。
用户通过输入查询来启动检索。该查询通过指示装置6在显示单元4上画出一个或者更多的形状外形(步骤62)。在该实例中，输入了二个查询外形100。这些是查询视图。该用户还输入了代表他正在检索的目标的体积参数(步骤64)。
然后，控制单元2对每一个查询视图导出CSS视图描述符(步骤66)。
在另一个实施方案中，用户通过选择一个查询形状或者从由控制单元2在显示单元4上显示的形状菜单中选择形状来输入查询。在该实施方案中，有可能在描述符数据库10中已经能够获得该视图描述符。
该查询体积参数与该查询视图描述符被组合形成一个三维的目标描述符。
然后系统为确定该查询目标描述符与存储在描述符数据库10中的目标描述符之间的相似性进行匹配操作，这在下文中被描述为模型目标描述符(model object descriptor)。在描述符数据库中有选择器205按照顺序选择每一个模型目标描述符(步骤68)并且对每一个目标描述符按照其顺序进行以下步骤。
首先，由比较器200获得一个全局相似测量(global similaritymeasure)GS(步骤70)，对查询目标描述符和模型目标描述符使用该全局参数。在该实施方案中，通过将查询体积参数与模型体积参数之比作为从数据库中采用的描述符来导出GS。如果该比位于间隔(1/c，c)中其中c＞1，那么认为目标相似并且GS取值为0。不然的话，GS取值为无穷大。C的值根据应用而定。例如，对电影片，c＝5。
如果至少查询描述符和模型目标描述符中的一个不具有全局参数值，那么GS＝0。
如果GS≠0那么从该描述符数据库中选一个新的模型目标描述符；如果GS＝0，那么进行如下的视图描述符比较(步骤72)。
利用匹配功能在比较器810中将每一个查询视图描述符与每一个针对被考虑的模型目标描述符的视图描述符进行比较以导出视图相似测量(步骤74)。第i个查询视图描述符与第j模型视图描述符的比较导致产生一个视图相似测量sij。
更详细的描述如下，利用选择器600选择该查询视图描述符并且利用选择器700选择该数据库视图描述符。首先，将针对第一查询视图的视图描述符与来自数据库的模型目标描述符中的每一个视图描述符进行比较。为每一对利用合适的匹配算法计算视图相似值s。在本实施方案中，利用在上述Mokhtarian，Abbasi和Kittler一文中所描述的匹配算法计算视图相似值s。在使用该具体的相似测量时，该视图相似值越小，该匹配就越接近。这导致对该第一查询视图产生一组k个视图相似测量，这里k是被考虑模型目标描述符中的视图描述符的数目，并且该k个测量被存储在全局和局部相似组合器(combiner)820中。
然后计算视图相似值并将其存储以便采用相似的方式对第二查询视图描述符和来自数据库的模型视图描述符进行处理，由此得到另外k个视图相似测量。
对于每一个查询视图，选择考虑的数据库描述符值的最小视图相似值(步骤76)。该最小值是相应查询视图与被考虑的目标描述符中的视图之一之间最接近匹配的测量。这导致产生p个最小视图相似值，这里p是查询视图的数目。在该实例中，p＝2。
针对该查询描述符和被考虑的模型目标描述符采用一个总体相似测量S作为p个相似值的中值(median)(步骤78)。它表示该查询描述符与考虑了所有视图的模型目标描述符之间的匹配接近程度。因此，如果一个查询视图与该数据库描述符中的一个视图紧密地匹配，而其它查询视图与数据库描述符中的任何视图不紧密地匹配，那么这在S中以一个中间值反映出来。
对描述符数据库8中的每一个目标描述符重复上述步骤，结果产生n个相似测量S，其中n是该描述符数据库中的三维目标描述符的数目(步骤80)。然后从表示最接近匹配的最低值开始对这n个相似测量进行排序(步骤82)。然后选定m个最低值，其中m是由用户选定或者控制单元的设置所确定的一个值，并且在显示单元4上显示来自对应于包括该目标的m个视频序列中的每一个的图像(步骤84)。
根据本发明，将单个目标的多个视图进行存储，以形成一个完整的或者准完整的外形形状的描述。如果仅存储被认为对于恢复是重要的视图，那么该表示可以准完整的。例如，对典型的存储正片的数据库，只将汽车的前、后和俯视图作为统一的表示来存储，但是没有将汽车的底视图存储，因为不可能采用该视图作为查询。
根据本发明的系统可以提供给，例如图像库。另一种情况，该数据库与系统控制单元的距离可以很远，该数据库通过临时连接如电话线或者互联网与控制单元相连接。可以在永久存储或者便携式数据存储介质诸如CD-ROM或者DVD中提供图像和描述符数据库。
所述系统的部件诸如选择器和比较器可以以软件或者硬件的形式提供。尽管对本发明以计算机系统的形式进行了描述，但是它可以以其它的形式实施，例如采用专用芯片。
虽然给出了表示二维形状目标的方法以及计算表示2个形状之间相似值的方法的具体实例，但是可以采用任何适合的这种方法。
构成完整或者准完整的形状描述的各种目标视图可以由例如制片商提供。例如，在影片中包括一辆汽车，制片商可以安排拍摄20张不同的汽车视图供在数据库中对影片标注索引使用。另一种情况，可以在目标的所有不同的视图之间按照顺序提供链接使得可以找到该视图，并且当包括了该目标的第一幅视图的数据时，例如，可以提供不出现在该序列中的任何有用视图的形状。
例如，本发明还可以用于出于检验或者过滤的目的而进行的图像匹配。
本发明可以应用于单一图像，以及按照图像顺序的图像，诸如来自影片或者视频图像的图像，或者以某种方式相关联的图像集，诸如位于相同网页上的图像。
权利要求
1.通过处理对应于图像或图像序列的信号来检索图像或图像序列中的目标的一种方法，该方法包括以下步骤以一个目标的至少一个二维外形的形式输入查询，和导出查询目标的描述符；或以至少一个二维目标的描述符的形式输入查询；将所述查询描述符与存储的用于图像中的目标的目标描述符进行比较；和选择和显示对应于包含其相应描述符与查询描述符之间的比较指示该查询与所述目标之间的相似程度的目标的图像的至少一个结果，其中对于至少存储的描述符，一个目标的描述符包括此目标的第一外形的视图描述符和在不同视图中此目标的外形的至少一个附加视图描述符，将这两个或多个视图描述符进行相关，以形成目标描述符，和/或此描述符包括与此目标的形状和/或大小相关并且与此目标在图像中的视图无关的描述符。
2.如权利要求1所述的方法，其中对于存储的对应于是一个图像序列一部分的一个图像的描述符，至少一个附加视图描述符对应于出现在此图像序列中的其他地方的此目标的视图。
3.如权利要求2所述的方法，其中对应于存储描述符的图像来自视频。
4.如任何一项前面权利要求所述的方法，其中使用曲率比例空间表示法来导出所述视图描述符。
5.如权利要求1所述的方法，其中相关的视图描述符索引相应的图像或图像序列。
6.如权利要求1所述的方法，其中所述视图无关的描述符对应于所述目标的体积。
7.如权利要求1所述的方法，其中以一个目标的2个或多个二维外形的形式输入查询，和其中为每一个所述外形导出一个查询视图描述符，并且其中比较步骤包括将每一个所述查询视图描述符与每一个存储的目标描述符中的每一个视图描述符进行比较，以导出多个视图相似值。
8.如权利要求7所述的方法，其中分析所述视图相似值，以导出目标相似值。
9.如权利要求1，7或8之一所述的方法，其中至少一些目标描述符包括视图无关的描述符，所述视图无关的描述符与所述目标的形状和/或大小相关而与所述目标的视图无关，并且其中所述方法包括输入视图无关的查询值，以及比较步骤包括将所述查询值与用于存储的目标描述符的视图无关的描述符进行比较。
10.一种控制装置，用于导出图像中的目标的表示，所述控制装置被编程为执行如权利要求1所述的方法。
11.用于导出图像中的目标的表示的一种设备，包括如权利要求10所述的控制装置和用于存储图像和/或图像表示的存储装置。
12.如权利要求11所述的设备，其中所述存储装置是图像数据库和/或描述符数据库。
13.如权利要求11或12所述的设备，还包括显示装置。
14.如权利要求11所述的设备，还包括指示装置。
全文摘要
本发明涉及供检索使用的对出现在静止或视频图像中的目标进行表示的方法，其中的目标出现在具有第一的二维外形的图像中，通过对相应图像的信号进行处理，包括导出该目标第一外形的视图描述符以及导出至少一个在不同视图中的目标的外形的视图描述符，并且将二个或者更多的视图描述符进行关联以形成一个目标描述符。
文档编号G06K9/00GK1534521SQ20041003439
公开日2004年10月6日申请日期2000年4月28日优先权日1999年4月29日
发明者M·博贝, M 博贝申请人:三菱电机信息技术中心欧洲有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：M.博贝
技术所有人：三菱电机株式会社
我是此专利的发明人

上一篇：电话、计算机、遥控器、相机专用的智慧型按键的制作方法
上一篇：采用原立体数据组进行数字减影血管造影的方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。