三维物体识别用图像数据库的制作方法、处理装置以及处理用程序的制作方法

文档序号:6593433阅读:149来源:国知局
专利名称:三维物体识别用图像数据库的制作方法、处理装置以及处理用程序的制作方法
技术领域
本发明涉及一种三维物体识别用图像数据库的制作方法、处理装置以及处理用 程序。更详细地说,本发明涉及如下一种图像数据库的制作方法、处理装置以及处理程 序构建将从视点观察三维物体得到的多个图像登记于物体的模型的图像数据库,并从 该图像数据库中检索与由作为检索问题(Query:查询对象)的、图像示出的物体一致的 模型,并将该模型所涉及的物体输出为识别结果。
背景技术
近年来,随着数字照相机的普及、高性能化,数字照相机以及使用该数字照相 机的设备作为新的信息设备而广受瞩目。另外,由于硬盘的大容量化,个人逐渐能够持 有大量的图像数据。与此相伴地,对大量的数字图像、运动图像进行处理的研究开始盛 行。作为其中的一个领域,存在一种对存在于图像中的三维物体进行识别的研究。关于从图像中识别三维物体的方法,可以分为大致识别物体的类别的方法和识 别实例的方法。前者作为结果返回椅子、机动车等物体的类别,而与此相对地,后者对 例如机动车的特定模型等实例进行识别。在本发明中,聚焦于后者的实例识别来开展讨 论。其中,特别着眼于使用SIFI (Scale-Invariant FeatureTransform:尺度不变特征转换) 等局部描述符的三维物体识别(例如,参照非专利文献1)。在现有方法中,除了根据从 各种角度拍摄的物体的图像、通过局部描述符的对照来构建物体的三维表面模型以用于 识别的方法(例如,参照非专利文献2、3)以外,还有不使用三维模型而以从图像中提取 出的局部描述符而作成模型来与未知的图像进行对照的方法(例如,参照非专利文献4、 5)等。本发明与后者的研究(approach)有关。在这种研究的方法中,最为单纯的一种是从在多种条件下拍摄到的物体图像中 提取多个局部描述符、将它们全部登记于模型的方法。该单纯的研究的优点在于能够容 易地实现高精确度的识别,但是由于所得到的局部描述符的数量庞大,因此存在局部描 述符的匹配处理会耗费极长的时间的问题、以及进行识别时所需的存储器容量极大而难 以进行大规模的物体识别的问题。对于前者的问题,必须提高局部描述符的最邻近搜索的效率。因此作为解决该 问题的一个方法,有一种使用局部描述符的近似最邻近搜索的方法。通过在物体识别 中引进该方法,能够高速且高精确度地识别物体,这一点已由野口等人进行了报告(例 如,参照非专利文献6、专利文献1)。另一方面,对于后者的问题,识别所需的存储器容量中的模型容量(模型所需 的存储器容量)是支配性的,因此削减模型容量成为了主要问题另外,使用局部描述符的三维物体识别法中,不进行物体的三维模型构建的方 法具有如下优点只要存在拍摄物体而得到的图像就能够通过提取局部描述符来简单地 构建模型。在这种简单的方法中,为了得到三维物体识别的精确度,需要将各种条件下拍摄的很多图像用于模型构建。一般来说,从一张图像中可提取数十乃至数千个局部描 述符,因此,一个物体的模型化会受到极多的局部描述符的干预,对这些局部描述符的 处理成为中心问题。现有方法多使用将局部描述符矢量量化以置换为被称为“visual word”的代表 矢量的方法。在对未知的图像进行识别的情况下,也将从该未知图像中得到的局部描 述符置换为visualword来进行对照。已知在进行物体实例的识别的情况下,如果visual word(视觉词)的数量增加,则识别率也会相应地提高,虽然这与识别对象是什么有关。 例如,Nister等人对使用1600万个visual word的例子进行了报告(参照非专利文献4)。 在使用大量的visual word的情况下,无法忽视局部描述符与visual word的对照所需的计 算时间,从而需要使用树型结构等各种数据结构来提速(参照非专利文献4、5)。这种使用大量的visual word的方法中最为极端的一种是不进行矢量量化而全部 使用局部描述符的“事例”的方法。在该研究中,虽然能够期待高识别率,但是会产生 记录模型所需的存储器容量变得庞大的问题。另外,识别方法中最为单纯的一种应该是对成为上述的事例的多个局部描述符 附加物体的标签,通过与从未知图像中得到的局部描述符进行对照来投票给物体的标 签。通常利用最邻近搜索来进行对照。在这种过程中,只要对从未知图像中得到的局部 描述符分配正确的标签即可,因此不需事先记录所有的局部描述符。在此,“投票”在 信息处理的领域中是用于局部统计证据的处理,即指如下的处理根据所得到的证据对 选择项中的某一个加分,从而选择在统计了所有证据后最终得到最高分数的选择项。一 般来说,各证据持有不同分数的票。作为一种在保证与记录所有局部描述符的情况的效果完全(或几乎)相同但同时 删除不需要的局部描述符的方法,提出了一种被叫做“condensing”的方法。例如,和 田等人提出了一种在高维空间中也能够有效应用的方法(例如,参照非专利文献7)。专利文献1 国际公开第2008/026414号文件非专禾ll 文献 1 D.Lowe “ Distinctive Image Features fromScale-Invariant Keypoints “,International Journal of Computer Vision, Vol.60, No.2, pp.91-110 (2004)非专利文献2 : F.Rothganger,S.Lazebnik, C.schmid andJ.Ponce “ 3D Object Modeling and Recognition fromPhotographs and Image Sequences “,Ponce et al.,Eds., TowardCategory-Level Object Recognition, LNCS4170, Springer, pp.105-126 (2006)非专利文献3: D.Lowe “ Local Feature View Clustering for3D Object Recognition",Proc.CVPR2001, Springer, pp.682-688 (2001)非专禾丨J 文献 4 : D.Nister and H.Stewenius " ScalableRecognition with a Vocabulary Tree",Proc.CVPR2006, pp.775-781 (2006)非专利文献 5 : S.Obdrzalek and J.Matas : " Sub-Linearlndexing for Large Scale Object Recognition “ , British Machine Vision Conference (BMVC), pp.1-10 (2005)非专利文献6:野口和人、黄瀬浩一、岩村雅一“近似最近傍探索^多段階 化(二 J 3物体 高速認識〃、画像 認識 理解* >求”力K (MIRU2007)論文集、 OS-B2-02, pp.lll-118(2007)非专利文献7:加藤丈和、和田俊和“近接性V 7 7 (二基3 <効率的 condensing <0 r丨j 文 A i 評価〃、信学技報 PRMU、Vol.103, No.96,
pp,19-24(2003)

发明内容
发明要解决的问题在野口等人的方法(参照非专利文献6)等的近似最邻近搜索中,通过多数表决 来识别物体。考虑到这种情况时可知并非所有的投票都正确也是可以的。虽然是二维平 面物体的情况,但是已知得到97%以上的识别率所需的对照的精确度充其量为15%左右 (参照非专利文献6)。着眼于这一点,考虑能够以比利用condensing得到的局部描述符 还要少的局部描述符来构建物体模型。换言之,作为削减模型容量的方法,考虑对登记于模型的局部描述符进行取舍 选择来削减模型容量。此时,需要在确保物体的识别率的同时削减登记于模型的局部描 述符的数量。总之,如果将局部描述符全部登记于模型,则能够高精确度地识别三维物体, 但是局部描述符的数量庞大,因此存在模型所需的存储器容量变得极大的问题。用于解决问题的方案基于以上的观点,本发明对降低识别率的可能性较低的局部描述符进行取舍选 择,来制作能够进行高精确度的物体识别的低容量模型。并且,提供一种使用该模型的 图像数据库的制作方法、处理装置以及处理程序。本发明提供了一种三维物体识别用图像数据库的制作方法,该方法具备以下工 序提取工序,从表示一个三维物体从不同的视点看到的多个图像中提取分别表现各图 像的各处的局部特征的矢量作为多个局部描述符;模型制作工序,评价各矢量对上述三 维物体的识别的贡献度,选择具有正面贡献的矢量,使用所选择的各矢量来制作进行系 统化以能够执行近似最邻近搜索的上述三维物体的模型;以及登记工序,对表示上述三 维物体的图像以及所制作出的物体模型附加识别上述三维物体的物体标识符来登记于上 述图像数据库,各工序是由计算机执行的,上述登记工序登记上述物体模型和与其对应 的物体标识符使得能够进行以下动作在多个物体模型被登记于上述图像数据库、并提 供了表示所关注的三维物体的一个图像作为查询对象时,计算机以与上述提取工序同样 的过程从上述查询对象中提取多个查询对象局部描述符,使用上述近似最邻近搜索的算 法从上述图像数据库所登记的物体模型中检索作为各查询对象局部描述符的邻近矢量的 矢量,获取附加于该邻近矢量的物体标识符,将由该物体标识符指定的三维物体决定为 候补,根据各查询对象局部描述符和与其对应的邻近矢量之间的相似度和/或差异度来 决定至少一个三维物体,上述模型制作工序以下面的方式评价各矢量的贡献在从某个 三维物体的某个图像中提取出的矢量与来自该三维物体的不同的视点的图像所涉及的其 它矢量近似最邻近的情况下,认为该矢量作出了正面贡献,在上述矢量与不同的三维物 体的图像所涉及的其它矢量近似最邻近的情况下,认为该矢量做出了负面贡献。另外,在其它观点下,本发明提供了一种三维物体识别用图像数据库的处理装 置,该处理装置具备提取部,其从表示从不同的视点看到的一个三维物体的多个图像 中提取分别表现各图像的各处的局部特征的矢量作为多个局部描述符;模型制作部,其评价各矢量对上述三维物体的识别的贡献度,选择具有正面贡献的矢量,使用所选择的 各矢量来制作进行系统化以能够执行近似最邻近搜索的上述三维物体的模型;登记部, 其对表示上述三维物体的图像以及所制作出的物体模型附加识别上述三维物体的物体标 识符来登记于上述图像数据库;以及检索部,其在多个物体模型被登记于上述图像数据 库、而提供了表示所关注的三维物体的一个图像作为查询对象时,计算机以与上述提取 工序同样的过程从上述查询对象中提取多个查询对象局部描述符,使用上述近似最邻近 搜索的算法从上述图像数据库所登记的物体模型中检索作为各查询对象局部描述符的邻 近矢量的矢量,获取附加于该邻近矢量的物体标识符,将由该物体标识符指定的三维物 体决定为候补,根据各查询对象局部描述符和与其对应的邻近矢量之间的相似度和/或 差异度来决定至少一个三维物体,其中,上述模型制作部以下面的方式评价各矢量的贡 献在从某个三维物体的某个图像中提取出的矢量与来自该三维物体的不同的视点的图 像所涉及的其它矢量近似最邻近的情况下,认为该矢量作出了正面贡献,在上述矢量与 不同的三维物体的图像所涉及的其它矢量近似最邻近的情况下,认为该矢量做出了负面贡献。并且,从不同的观点来看,本发明提供了一种三维物体识别用图像数据库的处 理程序,该处理程序使计算机作为以下各部而发挥功能提取部,其从表示从不同的视 点看到的一个三维物体的多个图像中提取分别表现各图像的各处的局部特征的矢量作为 多个局部描述符;模型制作部,其评价各矢量对上述三维物体的识别的贡献度,选择具 有正面贡献的矢量,使用所选择的各矢量来制作进行系统化以能够执行近似最邻近搜索 的上述三维物体的模型;登记部,其对表示上述三维物体的图像以及所制作出的物体模 型附加识别上述三维物体的物体标识符来登记于上述图像数据库;以及检索部,其在 多个物体模型被登记于上述图像数据库、而提供了表示所关注的三维物体的一个图像作 为查询对象时,计算机以与上述提取工序同样的过程从上述查询对象中提取多个查询对 象局部描述符,使用上述近似最邻近搜索的算法从上述图像数据库所登记的物体模型中 检索作为各查询对象局部描述符的邻近矢量的矢量,获取附加于该邻近矢量的物体标识 符,将由该物体标识符指定的三维物体决定为候补,根据各查询对象局部描述符和与其 对应的邻近矢量之间的相似度和/或差异度来决定至少一个三维物体,其中,上述模型 制作部以下面的方式评价各矢量的贡献在从某个三维物体的某个图像中提取出的矢量 与来自该三维物体的不同的视点的图像所涉及的其它矢量近似最邻近的情况下,认为该 矢量作出了正面贡献,在上述矢量与不同的三维物体的图像所涉及的其它矢量近似最邻 近的情况下,认为该矢量做出了负面贡献。本发明的特征的一个侧面在于,通过使用大量图像的物体识别仿真,求出各局 部描述符对物体识别的贡献度(正面干预性)以及造成障碍的程度(负面干预性),据此 对局部描述符进行取舍选择。发明的效果在本发明的三维物体识别用图像数据库的制作方法中,上述模型制作工序以下 面的方式评价各矢量的贡献来选择用于模型的局部描述符在从某个三维物体的某个图 像中提取出的矢量与来自该三维物体的不同的视点的图像所涉及的其它矢量近似最邻近 的情况下,认为该矢量作出了正面贡献,在上述矢量与不同的三维物体的图像所涉及的其它矢量近似最邻近的情况下,认为该矢量做出了负面贡献,因此,能够对降低识别率 的可能性较低的局部描述符进行取舍选择,从而制作实现高精确度的物体识别的低容量 模型。在本发明中,局部描述符以矢量表现图像的局部特征。其具体的方式例如是 SIFT。在后述的实施方式中,应用了 PCA-SIFT作为局部描述符的一例。另外,对物体的识别进行贡献指的是该局部描述符有助于提高识别率。在局部 描述符中,存在在表示要识别的物体的多个图像中对很多图像都有助于其物体识别的局 部描述符。认为在将这种局部描述符在模型中登记的情况下,相同张数的图像的识别所 需的局部描述符的数量较少即可。将这种局部描述符认作对制作物体的模型有效的局部 描述符,给予高评价。并且,将各局部描述符系统化为能够进行邻近搜索指的是从要登记到图像数据 库的物体的图像中提取局部描述符、将这些局部描述符与上述物体相对应地登记于数据 库。在提供了某个局部描述符时,从登记于上述数据库的局部描述符之中决定邻近的局 部描述符的处理即是邻近搜索。评价是否邻近的方法的一例是,计算两个矢量的距离, 将最短距离的认作邻近。在此,通过上述邻近搜索而决定的局部描述符,检索结果的局 部描述符并非一定最邻近检索问题的局部描述符,但是需要邻近(类似于)该检索问题的 局部描述符。例如,在后述的实施方式中,应用了近似最邻近(通过近似处理找到的好 像是最邻近的邻近,不保证是真正的最邻近)作为邻近搜索。在此不应用最邻近搜索而 应用近似最邻近搜索的理由主要是为了缩短搜索所需的处理时间。另外,根据与检索问题的各局部描述符的相似度或差异度从候补中指定一个物 体指的是利用规定的方法测量检索问题的各局部描述符与各候补之间的相似度或差异 度、从而指定与检索问题最类似的一个物体。其具体的一例为以下的方法从被登记于 模型的各局部描述符中搜索检索问题的各局部描述符的邻近的局部描述符,对搜索结果 的局部描述符所涉及的物体进行投票,将得到最多票数的物体指定为与检索问题最类似 的物体。下面,对本发明的较佳方式进行说明。另外,上述模型制作工序也可以在从不同的视点观察与要进行评价的对象矢量 所涉及的三维物体相同的物体而得到的图像以及不同的三维物体所涉及的图像中检索并 指定与上述对象矢量近似最邻近的矢量,在从与对象矢量所涉及的三维物体相同的物体 中得到各近似最近邻的矢量的情况下加分,根据所计算出的分数对构成上述物体模型的 矢量进行取舍选择。这样,在提供了要登记于数据库的物体所涉及的来自多个视点的图 像时,能够对某个物体的来自某个视点的图像所涉及的各局部描述符进行评价,从而选 择是否用于该物体的模型。或者,上述模型制作工序也可以在从不同的视点观察与要进行评价的对象矢量 所涉及的三维物体相同的物体而得到的图像以及不同的三维物体所涉及的图像中检索并 指定与上述对象矢量近似最邻近的矢量,在从与对象矢量所涉及的三维物体相同的物体 中得到各近似最近邻的矢量的情况下加分,在从不同的三维物体所涉及的图像中得到各 近似最近邻的矢量的情况下减分,根据所计算出的分数对构成上述物体模型的矢量进行 取舍选择。
另外,上述模型制作工序也可以对在从不同的视点观察要进行登记的三维物体 而得到的各图像中提取的各矢量的分数进行计算。这样,对各物体的来自各视点的图像 所涉及的各局部描述符进行评价,从而能够决定用于各物体模型的局部描述符。并且,上述模型制作工序也可以对在从不同的视点观察同一物体而得到的各图 像中提取出的矢量进行取舍选择,使得在物体模型中使用大致均等数量的该矢量。这 样,各模型中包含大致均等的各视点所涉及的局部描述符,因此不管检索问题是哪个视 点所涉及的图像,都能够稳定地得到邻近搜索的结果,从而实现高识别率。上述模型制作工序也可以评价各矢量对三维物体的实例识别的贡献。在不仅以 物体的类别识别为目的、而也以物体的实例识别为目的的用途中,期望一种高精确度、 高速且存储器效率高的方法。visual word本质上是伴随着分组的,因此存在即使对类别 标签的识别有效也与实例标签的识别相矛盾的侧面。,本发明的方法被认作是特别有效 于实例标签的识别的。但是,并非排除了对于类别标签的识别以及使用visual word的方 法的应用。也能够将多个在此所示的各种较佳方式进行组合。


图1是表示本发明所涉及的模型登记处理的流程的说明图。图2是表示本发明所涉及的正面干预性的局部描述符(成为多个局部描述符的最 邻近的局部描述符)的特性的说明图。图3是表示本实施方式所涉及的Greedy的特征点的选择方法的一例的说明图。图4是表示本实施方式中实验例所涉及的帧图像张数以及每1帧图像的局部描述 符的平均提取数量的说明图。图5是表示本实施方式中的实验例中使用的图像数据库COIL-lOO的帧图像的例 的图。图6是表示本实施方式中的第一实验结果的图表(图4的11个物体的识别结果 的图表)。图7是表示本实施方式中的第二实验结果的图表(COIL-lOO的识别结果的图 表)。图8是表示向本实施方式所涉及的三维物体识别用图像数据库登记图像的登记 过程的流程图。图9是表示以通过图8的过程登记图像而得到的图像数据库为对象进行识别(检 索)时的过程的流程图。图10是表示本发明的三维物体识别用图像数据库的处理装置的功能性结构的框 图。附图标记说明1:处理装置;11:提取部;13:模型制作部;15:登记部;17:检索部; 21:要登记的物体所涉及的帧图像;23:检索问题的图像;25:图像数据库;27:识
别结果。
具体实施例方式下面,使用附图来进一步详细叙述本发明。此外,在以下的说明中,所有点都 是例示的,而不应被理解为是对本发明的限定。《实施方式》1.概要图1中示出了本发明所涉及的模型登记处理的流程。当登记于模型时,在局部 描述符中存在使物体识别的识别率提高的局部描述符和使识别率降低的局部描述符。在 本发明中,为了调查局部描述符使识别率怎样变化,使用模型构建用的图像进行物体识 别仿真。在本发明中,在进行物体识别仿真时,将局部描述符以提高物体识别的识别率 的方式进行干预的情况称为“正面干预性”,将局部描述符以降低识别率的方式进行干 预的情况称为“负面干预性”。在局部描述符中,存在能够正面干预很多图像的识别的局部描述符。认为在将 这种局部描述符登记于模型的情况下,相同张数的图像的识别所需的局部描述符的数量 较少即可。因此,在本发明中,认为这种局部描述符是用于实现如下目的的有效的局部 描述符,该目的为制作实现高精确度的物体识别的低容量模型。此时,这种局部描 述符中也存在对一部分图像进行负面干预的局部描述符。具有负面干预性的局部描述符 在物体识别仿真中会引起错误对应。因此,认为当将这种局部描述符登记于模型时,在 对未知图像进行识别时,这种局部描述符进行负面干预的可能性较高。因此,在本发明 中,认为负面干预的图像越少的局部描述符引起错误投票的可能性越低,而且是越有效 的局部描述符。基于以上的想法,本发明根据物体识别仿真的结果来调查局部描述符的干预性 及其性质,从而尽可能地删除具有负面干预性的局部描述符,而寻找对达到目的有效 的、具有正面干预性的局部描述符的组合。但是寻找该组合的问题即是大规模的组合最 优化问题,因此求出最优解是较为困难的。因此,在本发明中,提出了一种将对达到目 的有效的局部描述符Greedy地(或许不是最优解但是能够达到目的地)在模型中登记的 方法。在本发明中,将使识别对象物体旋转来进行拍摄而得到的图像称为帧图像,将 其用作模型构建用图像。另外,在本发明中,使用PCA-SIFT作为局部描述符的提取方 法。对于 PCA-SIFT,例如在 Y.Ke and R.Sukthankar “ PCA-SIFT A moredistinctive representation for local image descriptors “,Proc.ofCVPR2004, Vol.2, pp.506-513 (2004) 中进行了公开。下面,具体说明在模型被制作出之前进行的各处理。2.物体识别仿真在本发明中,使用帧图像进行物体识别仿真,求出各局部描述符与哪个图像的 局部描述符相对应,调查怎样干预了物体识别率。在本节中,对该物体识别仿真进行说 明。在本实施方式中,在物体识别仿真中使用野口等人的方法(参照非专利文献6、 专利文献1)。在本方法中,首先,为了进行局部描述符的近似邻近搜索而构建模型,将 数据登记在哈希表上。接着,从未知的图像中求出局部描述符,将该局部描述符作为查 询对象,通过近似邻近搜索在哈希表中求出所对应的局部描述符。然后,对相对应的局部描述符的物体进行投票。对从未知的图像中得到的所有局部描述符进行以上动作,将 得票数最多的物体认作识别结果。在物体识别仿真中,将从某个帧图像中得到的局部描 述符作为查询对象,将从剩余的帧图像中得到的局部描述符全部登记于模型来进行该物 体识别仿真。此时,在成为查询对象的邻近的局部描述符是从与查询对象相同的物体中得到 的局部描述符的情况下,该局部描述符能够对查询对象进行正确的投票,从而能够以提 高物体识别的识别率的方式进行干预。因此,在本实施方式中,将这种局部描述符认作 具有正面干预性的局部描述符。另外,在成为查询对象的邻近的局部描述符是从与查询 对象不同的物体中得到的局部描述符的情况下,该局部描述符以降低物体识别的识别率 的方式进行干预。因此,在本实施方式中,将这种局部描述符认作具有负面干预性的局 部描述符。在物体识别仿真中,对所有帧图像进行该处理,调查所有局部描述符的干预 性。3.局部描述符对物体识别的干预性及其性质3.1.正面干预性及其性质对具有正面干预性的局部描述符的性质进行说明。根据物体识别仿真的结果, 在具有正面干预性的局部描述符中,如图2所示,存在在特征空间内成为多个局部描述 符的最邻近的局部描述符。这样,认为在局部描述符中,在将能够正面干预更多图像的 识别的局部描述符登记于模型的情况下,相同张数的图像的识别所需的局部描述符的数 量较少即可。g卩,与将仅能够正面干预一张图像的n个局部描述符登记于模型的情况相比, 在登记对n张图像正面干预的1个局部描述符情况下的为了识别n张图像所登记的局部描 述符的数量较少。基于这种想法,在本实施方式中,在物体识别仿真中,认为越是能够 对更多图像的识别进行正面干预的局部描述符对达到目的越有效。因此,在本发明中, 作为判断有正面干预性的局部描述符的有效性的基准,以能够对多少张图像进行正面干 预为判断基准,将该张数设为评价值氐。S卩,可以说Ei越大的局部描述符,在物体识 别仿真中对越多的图像具有正面干预性,因此对制作低容量模型越有效。3.2.负面干预性及其性质对具有负面干预性的局部描述符的性质进行说明。负面干预性意味着在进行负 面干预的局部描述符的邻近存在从其它物体中得到的局部描述符。因此,认为当将这种 局部描述符登记于模型时,在对未知的图像进行识别时,进行负面干预的可能性较高。 基于这种想法,在本实施方式中,认为进行负面干预的局部描述符对达到目的不怎么有 效。但是,在具有负面干预性的局部描述符中,也存在对某个图像示出正面干预性 的局部描述符。因此,不能说表示负面干预性的局部描述符对达到目的完全无效。例如 假设某个局部描述符对n张图像进行正面干预,而对一张图像进行负面干预。此时,与 将仅能够正面干预一张图像的n个局部描述符登记于模型的情况相比,在将该对一张图 像进行负面干预的局部描述符和对被该局部描述符负面干预的图像进行正面干预的局部 描述符这两个局部描述符登记于模型的情况下的为了识别n张图像所需的局部描述符的 数量较少。因此,在本发明中,为了在具有负面干预性的局部描述符中寻找有效的局部描述符,以对多少张图像进行负面干预为基准来求出局部描述符的有效性。将该张数设 为评价值E2。S卩,意味着评价值E2越小的局部描述符,在局部描述符的邻近越少存在从 其它物体中得到的局部描述符。认为这种局部描述符引起错误识别的可能性较低,因此 可以说对达到目的有效。4.向模型进行登记为了制作实现高精确度的物体识别的低容量模型,需要尽可能地删除具有负面 干预性的局部描述符,而寻找对达到目的有效的具有正面干预性的局部描述符的组合。 因此,在本节中,详细说明根据基于物体识别仿真的结果而得到的局部描述符的干预性 和有效性来求出达到目的的局部描述符的组合的方法。其中,本实施方式假定下面所示 的前提条件成立来制作模型。在物体识别仿真中得到的艮、E2是将从除查询对象图像以 外的帧图像中得到的局部描述符全部登记于模型时的值。但是,在某个局部描述符没有 被登记于模型的情况下,对该局部描述符进行正面或负面干预的局部描述符会对其它局 部描述符进行正面或负面干预,而存在Ep E2的值发生变化的可能性。在本实施方式 中,作为前提条件,假定该影响较小,而认为氏、E2的值不发生变化。4.1.用于登记的评价基准1在本节中,叙述用于根据基于物体识别仿真的结果而得到的局部描述符的干预 性和有效性来登记于模型的具体评价基准。通过物体识别仿真,求出了表示具有正面干预性的局部描述符的有效性的评价 值氐和表示示出负面干预性的局部描述符的有效性的评价值E2。此时,氐的值越大而 玛的值越小的局部描述符对达到目的越有效。因此在本实施方式中,以氐-艮的值为用 于在模型中进行登记的评价基准,按该值从大到小的顺序将局部描述符登记于模型。4.2.用于登记的评价基准2在本实施方式中,在以氐-艮的值为评价基准将局部描述符登记于模型时,有时 会存在氐-艮的值相等的局部描述符。在本节中,对在这种情况下决定将局部描述符登 记于模型的顺序的评价基准进行说明。在本实施方式中,在进行物体识别仿真时,计算并保存与成为各局部描述符的 邻近的局部描述符之间的距离。认为通过该距离计算,如果在特征空间内成为查询对象 的局部描述符与具有正确的物体ID的局部描述符之间的距离较近,则该局部描述符进行 正确投票的可能性变高。另外,认为如果在特征空间内成为查询对象的局部描述符与具 有错误的物体ID的局部描述符之间的距离较远,则进行错误投票的可能性变低。因此, 在本实施方式中,使用该距离信息来决定将局部描述符登记于模型的顺序。下面具体地 进行说明。在本实施方式中,在物体仿真中,在成为查询对象的局部描述符的物体ID与成 为该局部描述符的最邻近的局部描述符的物体ID相等时,将该局部描述符之间的距离设 为Dlt)意味着,即使在氐-艮相等的局部描述符中,该0工的值越小,在成为查询对象 的局部描述符的邻近越存在具有相同物体ID的局部描述符。因此,从拍摄其它物体得到 的未知的图像中得到的局部描述符成为查询对象的最邻近局部描述符的可能性低于所找 到的成为最邻近的局部描述符。另外,在具有与成为查询对象的局部描述符不同的物体 ID的局部描述符中,将查询对象和与该查询对象距离最近的局部描述符之间的距离设为D2。意味着,该込的值越大,在成为查询对象的局部描述符的邻近越少存在具有其它物 体ID的局部描述符。因此,从拍摄相同的物体而得到的未知的图像中得到的局部描述符 成为查询对象的最邻近局部描述符的可能性高于具有其它物体ID的局部描述符。因此, 在本实施方式中,使用该。工和込。将[式1]E3 = D2/D!设定为局部描述符的登记评价基准,在氐-氏的值相等时,按氐的值从大到小的 顺序登记于模型。其中,在求出E3的值时需要考虑以下三点。第一点,由于使用哈希表近似地求出成为查询对象的局部描述符的邻近点,因 此有时在邻近并不存在具有其它物体ID的局部描述符。认为这种局部描述符即使登记于 模型引起错误识别的可能性也较低。因此在这种情况下,将込的值设为⑴。第二点, 存在成为查询对象的局部描述符与成为最邻近的局部描述符的物体ID不同的情况。认为 当将这种局部描述符登记于模型时引起错误识别的可能性较高。因此,在这种情况下, 使氐=0。第三点,存在完全无法求出位于成为查询对象的局部描述符的邻近的局部描 述符的情况。这意味着这种局部描述符对大量存在的帧图像的哪个图像的识别都不进行 干预。因此,这种局部描述符对识别率产生影响的可能性较低。因此,在这种情况下, 使 E3 = 0。4.3.向模型进行的登记方法在本实施方式中使用的物体识别系统中,调查从查询对象图像中得到的各局部 描述符与被登记于模型的局部描述符之间的对应,对相对应的局部描述符的物体进行投 票,将得票数最多的物体作为识别结果。即,即使比其它物体多得一票的物体也成为识 别结果。因此,需要在尽可能少的局部描述符中寻找不管将哪个图像作为查询对象、正 确物体的得票数都最多的局部描述符的组合。在本发明中,提出了一种使用上述的登记 于模型的登记评价基准来利用Greedy的方法求出局部描述符的组合的方法。下面说明具 体的处理。认为为了不管将哪个图像作为查询对象图像都正确地进行识别,需要至少能够 完全正确识别帧图像。在物体识别仿真中求出对各帧图像进行正面干预的局部描述符。 根据该信息,在本实施方式中以能够完全正确识别帧图像的方式构建模型。因此,对每 个物体设定图像表[式2]X=......,XN)以获知通过将某个局部描述符登记于模型、能够识别出哪个帧图像。在此, N是构建某个物体的模型时所使用的图像的张数,图像表X表示在将ID是纟的图像设 为查询对象时、当前所登记的模型能够获得多少票的正确票。此时,在每次将某个局部 描述符登记于模型时,都在物体识别仿真中对每个该局部描述符所正面干预的帧图像投 一票。另外,在所登记的局部描述符也具有负面干预性的情况下,从在进行物体识别仿 真时错误地进行票的物体的图像的图像表中减去一票。这意味着如果某个图像被减去一 票,则为了正确识别该图像,需要将局部描述符登记于模型以使该图像能够得到两票以 上的正确识别的票数。因此,在本实施方式中,将图像表的最低得票数s设定为s= 1,将在每次将局部描述符登记于模型时、剩余的局部描述符所能够正面干预的图像中的、 在该时刻图像表的值不足s的图像的张数作为新的评价值E’工的值,按E’厂艮的值从 大到小的顺序将局部描述符Greedy地在模型中进行登记。图3示出了具体例。设从物体A中提取出的局部描述符f是在进行物体识别仿 真时对物体A的图像ID1、2、4、5进行正面干预、对物体B的图像ID为1、3的图像进 行负面干预的局部描述符。当将该f登记于模型时,如图3的(a)所示,对物体A的图 像表XA进行投票,而减去物体B的图像表票数。接着,设从物体A中提取出的局 部描述符g是在进行物体识别仿真时对物体A的图像ID1、2、3进行正面干预、对物体 B的图像ID1的图像进行负面干预的局部描述符。在此,在g所能够正面干预的图像ID 中,在当前时刻制作出的模型中未能正面干预的图像ID仅是物体A的图像ID3。因而,
g的新评价值E,工为£,1 = 1。在此,假如想要将g登记于模型,则图像表为图3的 (b)。在本实施方式中,将登记于模型的局部描述符的总数设为阈值t,在图像表的值 全部为s以上时,如果被登记于模型的局部描述符的数量不足t个,则为了能够更稳定地 识别物体,使图像表的最低得票数s的数量一个一个地增加,并按E’ i-E2的值从大到小 的顺序登记局部描述符,使得所有图像表的值变为s以上。重复以上的处理,直到登记 于模型的局部描述符的登记数量达到t个。《流程图和框图》图8是表示将图像登记在本实施方式所涉及的三维物体识别用图像数据库的登 记过程的流程图。如图8所示,当输入从多个视点观察要登记的物体而得到的各帧图像 时,进行处理的计算机首先从该物体所涉及的各帧图像中提取局部描述符(步骤S11)。 接着,以某个帧图像的各局部描述符为查询对象,将从剩余的帧图像中得到的局部描述 符登记于所有模型来进行物体识别仿真。作为物体识别仿真的结果,得到与该局部描述 符的正面干预性有关的分数。得到同一帧图像的各局部描述符的分数(步骤S13)。接 着,判断要登记的物体的所有帧图像是否都得到了分数(步骤S15)。如果存在未处理的 帧图像(步骤S15:否),则以下一个帧图像或其它物体的帧图像为对象(步骤S17),重 复上述步骤S13的物体识别仿真。如果对各帧图像的物体识别仿真已结束(步骤S15 :是),则选择对对象物体的 各帧图像的识别正面干预性较高的局部描述符(步骤S19)。选择局部描述符的顺序的具 体例如图3所涉及的说明。重复对对象的物体的局部描述符的选择,直到选择出规定数 量(在图3的说明中为t个)的局部描述符(步骤S21)。然后,将所选择出的各局部描 述符作为对象的物体所涉及的模型登记于图像数据库(步骤S23)。接着,调查是否剩余 有要登记的物体(步骤S25),在剩余有要登记的其它物体的情况下(步骤S25:否),例 程返回到步骤S11,重复处理。如果所有物体所涉及的模型的登记都已结束(步骤S25: 是),则结束向图像数据库进行登记的登记处理。图9是表示以通过图8的过程登记了图像的图像数据库作为对象进行识别(检 索)时的过程的流程图。如图9所示,当输入检索问题的图像时,进行处理的计算机首 先从检索问题中提取局部描述符(步骤S31)。接着,在图像数据库内所登记的局部描述 符中决定最邻近所提取出的局部描述符的局部描述符。然后,对模型中包含所决定的局部描述符的物体投一票(步骤S33)。接着,对于检索问题的各局部描述符,判断是否已 对进行了最邻近搜索的结果所涉及的物体进行了投票(步骤S35)。对于检索 问题的各局部描述符,进行上述步骤S33的投票处理。如果已结束对 所有局部描述符的投票(步骤S35:是),则将得到最多得票数的物体输出为识别结果 (步骤S37)。接着,对本发明的三维物体识别用图像数据库的处理装置的结构进行说明。图10是表示本发明的三维物体识别用图像数据库的处理装置的功能性结构的框 图。在图10中,在将三维物体的模型登记于图像数据库25时,提供表示要登记的物体 的多个帧图像21作为处理装置1的输入。而作为输出将对象物体所涉及的模型登记于图 像数据库25。另一方面,在对登记于图像数据库25的模型所涉及的物体进行检索时,提 供检索问题23作为处理装置1的输入。处理装置1参照图像数据库25,输出用于指定登 记于图像数据库25的物体的信息。提取部11从作为输入而提供的帧图像21或检索问题23中提取特征矢量。模型 制作部13进行物体识别仿真来在从各帧图像中提取出的局部描述符中选择对图像识别有 效的局部描述符,将所选择出的局部描述符系统化为能够进行最邻近搜索,来制作对象 物体所涉及的模型。登记部15将制作出的模型登记于图像数据库。在输入了检索问题 23时,检索部17通过最邻近搜索处理在登记于图像数据库25的局部描述符中决定最邻近 从该检索问题23中提取出的局部描述符的局部描述符。然后,对包含所决定的局部描述 符的图像进行投票,根据检索问题的各局部描述符所涉及的投票的结果从登记于图像数 据库25的物体中指定一个物体。将所指定的物体27的识别信息输出为识别结果。实现图10的提取部11、模型制作部13、登记部15、检索部17的功能的硬件主 要是计算机和存储器。即,计算机通过执行规定的物体识别用图像数据库的处理程序来 实现各部的功能。《实验例》使用图4所示的11个物体和COIL-IOO来进行本实验。首先,说明在对11个物体进行的实验中所使用的数据集。在本实验中,使用 从使三维物体旋转一圈而由高清晰度摄像机(索尼股份公司制产品型号HDC-HC1,分辨 率740480)拍摄的运动图像中得到的全部帧图像作为用于模型构建的图像。全部帧图 像为13086张,所得到的局部描述符数量约为250万个,整个模型容量为191.3MB。图 4示出使用的物体、各物体的模型制作中使用的帧图像的张数、以及从一张帧图像提取的 局部描述符的平均提取数。改变拍摄模型构建用的图像的时间和照明条件,以使三维物 体每旋转10度拍摄一次的方式,对每一个物体准备36张拍摄图像作为查询对象图像。接着,说明COIL-IOO进行的实验。COIL-IOO是指使100个物体每旋转5度进 行一次拍摄而得到的图像数据库。在本实验中,在每5度拍摄一次得到的72张图像中, 将角度为0°、10°、20°、…、350°的每个物体36张图像用作模型构建用图像。将角 度为5°、15°、25°、…、355°的每个物体36张图像用作查询对象图像。从模型构建 用的全部图像中得到的局部描述符数量约为18万个,此时的模型的容量为13.6MB。图 5中示出了所使用的帧图像的例。在两个实验中,在三维物体识别方法中,使用野口等人的方法。在本实施方式中进行的物体识别仿真中所使用的参数和在本实验中所使用的参数是相同的。在本实验中,对使用该实施方式制作的模型的识别率与从全部局部描述符中随机地进行取舍选择的模型的识别率进行比较。在随机的方法中,每次制作出10种模型。图6中示出了使用11个物体进行的实验的结果。其中,随机方法示出10个模 型的平均识别率。根据实验结果,可知与随机进行选择的模型相比,本实施方式即使容 量减少也是有效的。在此,注意识别率为最高的98.73%的t = 25000的模型的结果。在 该模型中,“人偶2”和“手表”中分别有一张图像引起错误识别,“人偶6”有三张 图像引起错误识别。引起错误识别的图像是由于对其它物体的投票多于正确物体、完全 没有得票这些理由而错误识别的。认为投给其它物体的票数多于投给正确物体的票数这 个问题是由以下状况而引起的被登记的各局部描述符的距离最短的局部描述符,从未 删除局部描述符的状态时起由于局部描述符的取舍选择而发生了变化。接着,图7中示出了使用COIL-IOO进行的实验结果。其中,随机方法表示10 个模型的平均识别率。在此,注意识别率为96%的t = 25000的模型的结果。在该模型 中,“objl5”是识别率最低的。关于由“objl5”引起错误识别的图像,存在5张其它 物体得票数较多的图像,存在1张完全没有得票的图像。作为引起错误识别的原因,列 举了从图像中得到的局部描述符的数量较少的情况。因此,认为需要对所得到的局部描 述符的数量较少的物体设定能够将很多局部描述符在模型中进行登记的评价基准。如上所述,在本实施方式和实验例中,示出了在使用了局部描述符的三维物体 识别中、为了能够以尽可能少的局部描述符高精确度地进行识别而通过对局部描述符进 行取舍选择来削减存储器容量的方法。以11个物体为对象得到的实验结果是,在削减约 百分之一的容量的模型中得到98.73%的识别率。另外,以COIL-IOO为对象得到的实验 结果是,在削减约七分之一的容量的模型中得到96%的识别率。除上述实施方式以外,本发明还具有各种变形例。不应理解为这些变形例不属 于本发明的范围。本发明中应该包含与权利要求均等的含义和上述范围内的所有变形。
权利要求
1.一种三维物体识别用图像数据库的制作方法,具备以下工序提取工序,从表示一个三维物体从不同的视点看到的多个图像中提取分别表现各图 像的各处的局部特征的矢量作为多个局部描述符;模型制作工序,通过评价各矢量对上述三维物体的识别贡献度、选择具有正面贡献 的矢量、并组织所选择的各矢量使得各矢量适用于能够执行近似最邻近搜索,来制作上 述三维物体的模型;以及登记工序,对表示上述三维物体的图像以及所制作出的物体模型附加识别上述三维 物体的物体标识符,并在上述图像数据库中进行登记, 各工序是由计算机执行的,上述登记工序登记上述物体模型和与其对应的物体标识符使得能够进行以下动作 在多个物体模型被登记于上述图像数据库、并提供了所关注的三维物体的一个图像作为 查询对象时,计算机以与上述提取工序同样的过程从上述查询对象中提取多个查询对象 局部描述符,使用上述近似最邻近搜索的算法从上述图像数据库所登记的物体模型中检 索作为各查询对象局部描述符的邻近矢量的矢量,获取附加于该邻近矢量的物体标识 符,将由该物体标识符指定的三维物体决定为候补,根据各查询对象局部描述符和与其 对应的邻近矢量之间的相似度和/或差异度来决定至少一个三维物体,上述模型制作工序以下面的方式评价各矢量的贡献度在从某个三维物体的某个图 像中提取出的矢量与来自该三维物体的不同的视点的图像所涉及的其它矢量近似最邻近 的情况下,认为该矢量作出了正面贡献;在上述矢量与不同的三维物体的图像所涉及的 其它矢量近似最邻近的情况下,认为该矢量做出了负面贡献。
2.根据权利要求1所述的方法,其特征在于,上述模型制作工序包括在以下的矢量中检索并指定与上述对象矢量近似最邻近的矢量从不同的视点观察 与应该进行评价的对象矢量所涉及的三维物体相同的物体得到的图像以及从不同的三维 物体所涉及的图像提取出的矢量,在从与对象矢量所涉及的三维物体相同的物体中得到各近似最近邻的矢量的情况下 加分,根据所计算出的分数对构成上述物体模型的矢量进行取舍选择。
3.根据权利要求2所述的方法,其特征在于,上述模型制作工序对在从不同的视点观察应该进行登记的三维物体而得到的各图像 中提取的各矢量的分数进行计算。
4.根据权利要求2或3所述的方法,其特征在于,上述模型制作工序对在从不同的视点观察同一物体而得到的各图像中提取出的矢量 进行取舍选择,使得在物体模型中大致均等地使用提取出的矢量。
5.根据权利要求1 4中的任一项所述的方法,其特征在于, 上述模型制作工序评价各矢量对三维物体实例的识别的贡献度。
6.一种三维物体识别用图像数据库的处理装置,具备提取部,其从表示一个三维物体从不同的视点看到的多个图像中提取分别表现各图 像的各处的局部特征的矢量作为多个局部描述符;模型制作部,其通过评价各矢量对上述三维物体的识别的贡献度、选择具有正面贡献的矢量、并组织所选择的各矢量使得各矢量适用于执行近似最邻近搜索,来制作上述 三维物体的物体模型;登记部,其对表示上述三维物体的图像以及所制作出的物体模型附加识别上述三维 物体的物体标识符来登记于上述图像数据库;以及检索部,其在多个物体模型被登记于上述图像数据库、并提供了表示所关注的三维 物体的一个图像作为查询对象时,计算机以与上述提取部同样的方式从上述查询对象中 提取多个查询对象局部描述符,使用上述近似最邻近搜索的算法从上述图像数据库所登 记的物体模型中检索作为各查询对象局部描述符的邻近矢量的矢量,获取附加于该邻近 矢量的物体标识符,将由该物体标识符指定的三维物体决定为候补,根据各查询对象局 部描述符和与其对应的邻近矢量之间的相似度和/或差异度来决定至少一个三维物体,其中,上述模型制作部以下面的方式评价各矢量的贡献度在从某个三维物体的某 个图像中提取出的矢量与来自该三维物体的不同的视点的图像所涉及的其它矢量近似最 邻近的情况下,认为该矢量作出了正面贡献;在上述矢量与不同的三维物体的图像所涉 及的其它矢量近似最邻近的情况下,认为该矢量做出了负面贡献。
7. —种三维物体识别用图像数据库的处理程序,使计算机作为以下各部而发挥功能提取部,其从表示一个三维物体从不同的视点看到的多个图像中提取分别表现各图 像的各处的局部特征的矢量作为多个局部描述符;模型制作部,其通过评价各矢量对上述三维物体的识别的贡献度、选择具有正面贡 献的矢量、并组织所选择的各矢量使得各矢量适用于执行近似最邻近搜索,来制作上述 三维物体的物体模型;登记部,其对表示上述三维物体的图像以及所制作出的物体模型附加识别上述三维 物体的物体标识符来登记于上述图像数据库;以及检索部,其在多个物体模型被登记于上述图像数据库、并提供了表示所关注的三维 物体的一个图像作为查询对象时,计算机以与上述提取部同样的方式从上述查询对象中 提取多个查询对象局部描述符,使用上述近似最邻近搜索的算法从上述图像数据库所登 记的物体模型中检索作为各查询对象局部描述符的邻近矢量的矢量,获取附加于该邻近 矢量的物体标识符,将由该物体标识符指定的三维物体决定为候补,根据各查询对象局 部描述符和与其对应的邻近矢量之间的相似度和/或差异度来决定至少一个三维物体,其中,上述模型制作部以下面的方式评价各矢量的贡献度在从某个三维物体的某 个图像中提取出的矢量与来自该三维物体的不同的视点的图像所涉及的其它矢量近似最 邻近的情况下,认为该矢量作出了正面贡献;在上述矢量与不同的三维物体的图像所涉 及的其它矢量近似最邻近的情况下,认为该矢量做出了负面贡献。
全文摘要
本发明提供图像数据库的制作方法、用于执行该方法的处理程序以及进行该处理的处理装置,该图像数据库生成能够进行高精确度的物体识别的低容量模型,并使用该模型。本发明涉及一种三维物体识别用图像数据库的制作方法、用于执行该方法的处理程序以及进行该处理的处理装置,该方法具备以下工序提取工序,在从不同的视点观察三维物体而得到的多个图像中提取作为局部描述符的矢量;模型制作工序,评价各局部描述符对上述三维物体的识别的贡献度,使用满足基准的各矢量来制作进行系统化以能够执行近似最邻近搜索的三维物体模型;以及登记工序,对所制作出的物体模型附加物体标识符来登记于图像数据库,其中,上述模型制作工序以下面的方式评价各矢量的贡献在从某个三维物体的某个图像中提取出的矢量与来自该三维物体的不同的视点的图像所涉及的其它矢量近似最邻近的情况下,认为该矢量作出了正面贡献,在上述矢量与不同的三维物体的图像所涉及的其它矢量近似最邻近的情况下,认为该矢量做出了负面贡献。
文档编号G06F17/30GK102016910SQ20098011554
公开日2011年4月13日 申请日期2009年4月27日 优先权日2008年4月30日
发明者三宅弘志, 井上胜文, 黄濑浩一 申请人:公立大学法人大阪府立大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1