表示和搜索图像中的对象的方法和装置的制作方法

文档序号:7963810阅读:223来源:国知局
专利名称:表示和搜索图像中的对象的方法和装置的制作方法
技术领域
本发明涉及用于表示图像中的对象的方法和装置,尤其是用于例如在多媒体数据库中搜索的方法和装置。本发明还涉及用于搜索图像中的对象的方法和装置。
众所周知,利用出现在图像中的对象的表示,例如在图像库中存储静止或视频图像。表示用在搜索方法中使包含感兴趣的对象的图像能够被检索。表示可能基于对象的各种特征,包括色彩、纹理和形状。
已知各种用于表示图像中对象的形状的方法。已知方法包括链码法、四元树法以及曲率标度空间表示法。
为了在图像搜索系统中进行搜索,用户通过向系统提供所找对象的草图或图像,或者通过选择存储在系统中的对象的视图,从而输入查询。然后系统导出或获取查询对象的表示,并且把查询表示与存储在数据库中的图像表示通过适当的匹配方法进行比较。把最接近的匹配结果显示在显示器上。
在大多数情况下,出现在视频图像中的对象是三维实物在二维像平面上的投影。因而,出现在图像中的对象的二维形状或轮廓以及可见对象表面的色彩和纹理取决于诸如观察位置、观察角度以及摄相机和光学系统参数之类的因素。因此,对象具有与不同视图相关的诸如轮廓、形状、色彩、纹理等不同的特征。
将本申请的共同待审的专利申请PCT/GB00/01662通过引用结合于此,该申请公开了一种用于表示出现在图像中的对象的方法和装置,其中,导出对象在多个不同二维视图中的表示并使之相关而构成对象表示。所述表示最好是对象形状的表示,但是也可以是例如不同视图中的色彩或纹理的表示。
当对静止图像或电影等中的对象运用上述方法时,会有与图像相关的若干形状或其它描述符来表示与不同视图相关的对象特征。但是,通常这些视图中任何一个在原始图像中都是可见的。其中一些特征可能与对象的不可见部分相关,而且仅用于描述对象的三维属性。
如果无法确定对象的多个视图中哪些可见、哪些不可见,搜索方法就不能准确地找到指定视图。例如,利用侧视图搜索描述汽车的图像,还会找到汽车的顶视图和正视图。
本发明的思想在于使用可见性标记,标明哪些描述符实际上是关于这些描述符所链接到的图像或电影内的可见特征。
因此,本发明提供一种表示图像中出现的对象的方法,所述方法包括导出对象的多个视图描述符,各视图描述符对应于对象的不同视图;以及指明何时视图对应于图像中出现的对象的一个视图。
在PCT/GB00/01662中公开的发明中,形状描述符与一段多媒体内容内出现的对象相关。这些描述符描述了不同视图中对象的形状。这些视图可以是多媒体素材中或者可见的或者不可见的。可见性标记存储这种可见性信息。
当得到各个视图的可见性数据时,所述搜索方法能够在需要时滤出不可见视图内的对象。
下面参照附图描述本发明的实施例,图中

图1是根据本发明的一个实施例的系统的框图;图2是说明视频序列中对象的表示的示意图;图3是说明静止图像中对象的表示的示意图;图4是说明第一搜索方法的结果的示意图;图5是说明第二搜索方法的结果的示意图。
图1中表示根据本发明的实施例的系统。所述系统包括控制单元2,比如用于控制系统操作的计算机;显示单元4,比如监视器,它与控制单元2相连,用于显示包括图像和文本的输出;以及指示装置6,比如鼠标,用于向控制单元2输入指令。所述系统还包括图像数据库8,它存储多个静止图像的数字形式,并且以视频序列的形式存储图像组;以及描述符数据库10,它存储关于图像数据库8中存储的静止图像和视频序列的每一个中出现的对象的描述符信息,下文会详细描述。图像数据库8和描述符数据库10各连接到控制单元2。
在本实施例中,系统的各要素在单个位置上提供,如图像库,其中系统的各部分是永久地链接的。
下面描述根据本发明的实施例导出对象的描述符的方法。首先,就具有相对简单形状的对象(本例中为圆柱形对象)描述本方法。
在本例中,在图像数据库8中存储的视频序列中,圆柱形对象出现两次。参照图2,在第一次出现时,对象轮廓对应于视图1,这是从侧面看的视图,在第二次出现时,对象轮廓对应于视图3,这是从侧面上方看的透视图。
数据库索引器(indexer)识别出这两个轮廓是同一对象的,并且对应于这些轮廓的三维对象是圆柱体。对于视图1和视图3中的每一个,导出采用曲率标度空间(CSS)表示的形状描述符。而且,数据库索引器选择被认为是代表该对象的任何附加视图,即使它们未出现在所考虑的视频序列中。在本例中,选择视图2作为代表,视图2是从上方看的圆柱体的视图。还获取该视图的CSS表示。
论文“通过曲率标度空间的健壮和有效的形状索引”(由FarzinMokhtarian,Sadegh Abbassi和Josef Kittler发表,见于Proc.BritishMachine Vision Conference,第53-62页,Edinburgh,UK1996)描述了一种曲率标度空间表示的方法,现将其通过引用结合于此。简言之,表示形状的轮廓的曲线通过平滑该曲线而得到演化。在演化的多个不同阶段上考虑曲线。更明确地说,在演化的各阶段上,在曲率函数中识别曲率过零点。通过将来自演化的所有阶段的过零点组合,得到曲率过零点的曲线图。该曲线图的一条轴对应于σ,它表示曲线的演化参数,另一条轴对应于曲线弧长参数u。形状则由曲线图中轮廓的最大值的位置来表示。
对于每个视图,形成视图描述符,包括适当的CSS表示。视图描述符可包括其他信息,诸如PCT/GB00/01662中描述的全程参数,或者相应可见表面的色彩/纹理属性。
将视图形状描述符组合而形成3D对象形状描述符。此外,可见性标记与对象描述符相关,指示在视频序列中的至少一帧中给定视图是否是可见的。在本实例中,可见性标记构成各视图描述符的一部分。因此,这里,视图1和视图3的视图描述符均包括可见性标记“1”,指示该视图在视频的一帧中是可见的,视图2的视图描述符具有可见性标记“0”,指示该视图在任何帧中都不可见。
对于出现在图像数据库8中的图像或图像组中的所有感兴趣的对象,以上述方式得到3D对象形状描述符。
作为另一实例,参照图3,对图片中出现的汽车导出三个视图。对各视图中的汽车轮廓,按照上述方式获得包括CSS表示的相应的视图描述符。第一视图对应于图片中的视图,因而,相关的视图描述符具有可见性标记“1”,指明这是一个可见视图。另两个视图的视图描述符具有可见性标记“0”,指明它们对应于图片中未示出的视图。在本例中,当从图片中抽取轮廓时,确定可见性标记。换言之,如果一个形状是直接从图片中抽取的,则它得到可见性标记“1”,但如果该形状是通过索引器选择的,则它具有可见性标记“0”。另外,可见性标记可以在后来通过查看来手工添加。
各视图描述符还具有参考指针,指示它出现在哪个图像中或者哪个视频序列中的哪一帧中,还指示它是图像或帧中的哪个对象,例如,一个对象的视图可能具有指针,指示它出现在视频181的帧1000中,它是第3号对象。
描述符数据库10存储关于图像数据库8中存储的图像和视频序列中的对象的3D对象形状描述符。
在上述实施例中,对于出现在视频序列中的对象,对整个序列导出一组视图描述符,并且用视图描述符来指示相关视图是否出现在该序列的至少一帧中。在另一实施例中,分别处理各帧。更具体地说,对出现在帧中的对象导出一组视图描述符,并且可见性标记指示相关视图是否出现在该帧中,而不管它是否出现在该序列的另一帧中。在另一备选实施例中,对出现在视频序列中的对象导出一组视图描述符,而且对各帧导出并存储一组相应的可见性标记。
在搜索图像中的对象的方法中使用可见性标记,如下所述。
用户通过输入查询发起搜索。该查询是利用指示装置6在显示单元4上画出一个或多个形状轮廓而输入的。然后,控制单元2对查询视图导出CSS视图描述符。或者,用户可在由控制单元2在显示单元4上显示的形状菜单中选择一个或多个查询形状而输入查询。在这种情况下,描述符数据库10中可能已有视图描述符。用户还通过检查一个框来指示是否搜索应当限制在与查询视图相同的视图中。如果不这样限定搜索,则基本上按照PCT/GB00/01662中描述的,通过确定查询对象描述符与描述符数据库10中存储的对象描述符(下文称为模型对象描述符)之间的相似性,执行搜索和匹配程序。
简言之,在比较器中,对于所考虑的模型对象描述符,将各个查询视图描述符与各个模型视图描述符相比,使用匹配函数导出视图相似性度量。第i个查询视图描述符与第j个模型视图描述符的比较产生视图相似性度量Si,j。当有一个以上的查询视图时,取视图相似性度量的中值作为对象相似性度量S。
匹配程序产生n个相似性度量S,其中n是描述符数据库中的3D对象描述符的数量。然后,从指示最接近匹配的最小值开始对n个相似性度量进行排序。然后选择m个最小值,其中m是用户选择的值或者由控制单元的设置所确定的值,而且在显示单元4上显示包括对象的相应的m个图像(其中的一些可以是视频序列中的图像)。
如果搜索限制在与查询视图相同的视图,则在搜索过程中滤出不可见模型视图。这可以通过利用匹配函数来匹配查询视图描述符与模型视图描述符来完成,其中该模型视图描述符指明相应的视图在图像中是可见的。换言之,当利用匹配函数计算相似性度量时,具有可见性标记“0”的模型视图描述符被省去。或者,可以对所有模型视图描述符计算视图相似性度量,但是从进一步处理中省去关于可见性标记为零的模型视图描述符的结果。或者,当选择供显示的搜索结果时,可以考虑该可见性标记。当显示匹配程序的结果时,在视频序列的情况下,显示包含匹配视图的帧。
图4表示PCT/GB00/01662中公开的多视图搜索方法如何寻找和返回同样形状但不是与查询项相同的视图的结果。图5从另一方面说明各视图描述符内的可见性标记如何能帮助返回同样形状而且是与查询项相同的视图的结果。
根据本发明的系统可以例如设置在图像库中。或者,数据库可以远离系统的控制单元,通过临时连接(如电话线)或网络(比如因特网)连接到控制单元。可以例如在永久存储器或便携式数据存储媒体、如CD-ROM或DVD中设置图像和描述符数据库。
所述系统的各部件、如选择器和比较器可以软件或硬件形式设置。尽管本发明以计算机系统的形式来描述,但是它可以用其它形式、如利用专用芯片来实现。
已经给出表示对象的2D形状的方法和计算表示两形状之间相似性的值的方法的特定实例,但是,可以使用任何适当的这类方法。
构成完整或准完整形状描述的对象的各种视图可以由制片人来提供。例如,在包括汽车的电影中,制片人可以安排拍摄20个不同的汽车场景,用以在数据库中为该电影编索引。或者,可以在序列中的对象的所有不同视图之间设置链接,使这些视图能够被找到,序列中未出现的任何有用视图的形状可以例如在包括对象的第一视图的数据时提供。
本发明还可用于例如为验证目的而匹配各对象的图像,或者用于滤波。
本发明适用于单个图像、图像序列中的图像(如电影或视频中的图像)、或者以某种方式(如在同一网页上)相联系的图像集。
在上述实施例中,视图描述符是从不同视图中的对象形状导出的。可以从对象的其它特征、比如或者代替形状或者作为形状的一部分的色彩或纹理导出。对象的各种特征如形状、色彩、纹理可以单独或结合起来构成视图描述符的基础,并且视图描述符可以基于不同视图的不同特征。
权利要求
1.一种产生表示在一个图像或一组图像中出现的对象的数据的方法,该方法包括导出所述对象的多个视图描述符,每个视图描述符对应于所述对象的一个不同视图,还包括将所述视图描述符同信息相联系以产生所述数据,该信息指明相应的视图是否对应于所述图像或所述图像组中出现的所述对象的一个视图,其中,至少一个视图描述符包括所述相应视图中所述对象的形状的一个表示。
2.如权利要求1所述的方法,其特征在于所述信息是一个标记,该标记指明所述相应的视图是否出现在所述图像或所述图像组中至少一个图像中。
3.如权利要求1所述的方法,其特征在于包括对于各个视图描述符,为所述图像或所述图像组中的每个图像指明所述相应的视图是否对应于所述图像中出现的所述对象的一个视图。
4.如权利要求1所述的方法,其特征在于,所述图像组是图像序列。
5.如权利要求4所述的方法,其特征在于,所述图像序列是来自一段视频信号或电影。
6.如权利要求1所述的方法,其特征在于,所述包括所述相应视图中所述对象的形状的一个表示的视图描述符是利用曲率标度空间表示导出的。
7.如权利要求1所述的方法,其特征在于,该方法是用于为搜索的目的而给图像或图像组编索引。
8.一种用来控制系统操作的控制单元,该系统适于产生表示一个图像或图像组中出现的对象的数据,其中,该控制单元导出所述对象的多个视图描述符,各个视图描述符对应于所述对象的不同视图,还包括将所述视图描述符同信息相联系以产生所述数据,该信息指明所述相应的视图是否对应于所述图像或所述图像组中出现的所述对象的一个视图,其中,至少一个视图描述符包括所述相应视图中所述对象的形状的一个表示。
9.一种适于产生表示图像中出现的对象的数据的系统,该系统包括如权利要求8所述的控制单元。
10.如权利要求9所述的系统,该系统包括连接到所述控制单元的存储装置,用来存储诸图像和/或诸图像的表示。
11.如权利要求10所述的系统,其中所述存储装置是图像数据库和/或描述符数据库。
12.如权利要求9所述的系统,包括连接于所述控制单元的显示单元,用来显示输出,和/或包括将指令输入到所述控制单元的设备。
全文摘要
一种表示图像中出现的对象的方法,该方法包括导出所述对象的多个视图描述符,各个视图描述符对应于所述对象的不同视图,并将两个或两个以上视图描述符相联系,所述方法包括为各个视图描述符指示何时相应的视图对应于图像中出现的对象的视图。
文档编号H04N5/91GK1963812SQ20061009449
公开日2007年5月16日 申请日期2001年7月6日 优先权日2000年7月7日
发明者M·博伯, J·库珀 申请人:三菱电机株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1