图像处理装置、图像处理方法和程序的制作方法

文档序号:6461241阅读:165来源:国知局
专利名称:图像处理装置、图像处理方法和程序的制作方法
技术领域
本发明涉及图像处理装置、图像处理方法和程序,并且更具体地,涉及被配置以执行实时精确跟踪的图像处理装置、图像处理方法和程序。

背景技术
例如,提出图像处理装置,作为被配置来从输入图像识别登记的模型图像的图像处理装置,在该图像处理装置中以预定的比率降低输入的图像的分辨率,产生由具有两个或更多不同分辨率的图像组成的多分辨率图像,并且在这些多分辨率图像的每个分辨率的图像中的特征点的特征量、和模型图像的特征量之间进行比较,由此根据作为一对具有相似特征量的特征点的候选对应特征点对,估计模型图像的输入图像中的位置和姿态(例如,下面参考专利文献1日本专利公开No.2006-065399)。


发明内容
然而,因为上述相关技术的图像处理装置产生多分辨率图像,并且在所有分辨率的图像中的特征量之间进行比较,所以执行用于估计输入图像中的模型图像的位置和姿态的处理花费比较长的时间。另外,例如因为上述相关技术的图像处理装置在数据库中登记的大量模型图像的特征量之间进行比较,所以随着数据库中的数据量增大,执行处理花费的时间更长。因此,相关技术的图像处理装置难以根据由该图像处理装置估计的位置和姿态,实时跟踪输入图像中的模型图像。
因此,本发明处理与相关技术的方法和装置相关联的上面识别的以及其它问题,并且通过提供一种被配置来提供模型图像的精确实时跟踪的图像处理装置、图像处理方法和程序,解决所处理的问题。
在执行本发明的实施例中,提供一种图像处理装置,用于从拍摄图像识别对应于预先登记的登记图像的物体,包括 图像拍摄器,配置其以拍摄被摄体的图像,从而获得被摄体的拍摄图像; 识别器,配置其以从拍摄图像识别对应于登记图像的物体; 第一指定区域跟踪器,配置其以执行用于在拍摄图像中跟踪第一跟踪区域的第一指定区域跟踪处理,该第一跟踪区域根据识别器的识别结果指定;以及 第二指定区域跟踪器,配置其以执行用于跟踪第二指定区域的第二指定区域跟踪处理,该第二指定区域根据第一指定区域跟踪处理的结果指定。
在执行本发明的另一个实施例中,提供了一种用于图像处理装置的图像处理方法,该图像处理装置用于从拍摄图像识别对应于登记图像的物体,该方法包括如下步骤 拍摄被摄体的图像以获得被摄体的拍摄图像; 从拍摄图像识别对应于登记图像的物体; 执行用于在拍摄图像中跟踪第一跟踪区域的第一指定区域跟踪处理,该第一跟踪区域根据识别步骤中的的识别结果指定;以及 执行用于跟踪第二指定区域的第二指定区域跟踪处理,该第二指定区域根据第一指定区域跟踪处理的结果指定。
在执行本发明的另一个实施例中,提供了一种被配置以使计算机执行识别处理的程序,该识别处理用于从拍摄图像识别对应于预先登记的登记图像的物体,包括如下步骤 拍摄被摄体的图像以获得被摄体的拍摄图像; 从拍摄图像识别对应于登记图像的物体; 执行用于在拍摄图像中跟踪第一跟踪区域的第一指定区域跟踪处理,该第一跟踪区域根据识别步骤中的识别结果指定;以及 执行用于跟踪第二指定区域的第二指定区域跟踪处理,该第二指定区域根据第一指定区域跟踪处理的结果指定。
在执行本发明的另一个实施例中,提供一种图像处理装置,用于从拍摄图像识别对应于预先登记的登记图像的物体,该图像处理装置包括 图像拍摄器,配置其以拍摄被摄体的图像,从而获得对应于被摄体的拍摄图像; 识别器,配置其以从拍摄图像识别对应于登记图像的物体; 两个指定区域跟踪器,配置其以执行第一指定区域跟踪处理和第二指定区域跟踪处理,该第一指定区域跟踪处理用于在拍摄图像中跟踪根据识别器的识别结果指定的第一指定区域,该第二指定区域跟踪处理用于在拍摄图像中根据第一指定区域跟踪处理的结果跟踪第二指定区域, 其中两个指定区域跟踪器交替地执行第二指定区域跟踪处理,两个指定区域跟踪器之一开始第一指定区域跟踪处理,而另一个正在执行第二指定区域跟踪处理。
在执行本发明的另一个实施例中,提供一种图像处理方法,用于从拍摄图像识别对应于预先登记的登记图像的物体,该方法包括如下步骤 拍摄被摄体的图像以获得对应于被摄体的拍摄图像; 从拍摄图像识别对应于登记图像的物体; 由两个指定区域跟踪器执行第一指定区域跟踪处理和第二指定区域跟踪处理,该第一指定区域跟踪处理用于在拍摄图像中跟踪根据识别器的识别结果指定的第一指定区域,该第二指定区域跟踪处理用于在拍摄图像中跟踪根据第一指定区域跟踪处理的结果指定的第二指定区域, 其中当一指定区域跟踪处理和第二指定区域跟踪处理之一正在执行第二指定区域跟踪处理时,另一个开始第一指定区域跟踪处理,因此交替地执行第二指定区域跟踪处理,该第一指定区域跟踪处理用于在拍摄图像中跟踪根据识别结果指定的一跟踪区域,该第二指定区域跟踪处理用于根据第一指定区域跟踪处理的结果在拍摄图像中跟踪第二指定区域。
在执行本发明的另一个实施例中,提供一种被配置来使计算机执行识别处理的程序,该识别处理用于从拍摄图像识别对应于预先登记的登记图像的物体,包括如下步骤 拍摄被摄体的图像以获得被摄体的拍摄图像; 从拍摄图像识别对应于登记图像的物体; 由两个指定区域跟踪器执行第一指定区域跟踪处理和第二指定区域跟踪处理,该第一指定区域跟踪处理用于在拍摄图像中跟踪根据识别器的识别结果指定的第一指定区域,该第二指定区域跟踪处理用于在拍摄图像中跟踪根据第一指定区域跟踪处理的结果指定的第二指定区域, 其中当第一指定区域跟踪处理和第二指定区域跟踪处理之一正在执行第二指定区域跟踪处理时,另一个开始第一指定区域跟踪处理,因此交替地执行第二指定区域跟踪处理,该第一指定区域跟踪处理用于在拍摄图像中跟踪根据识别结果指定的第一跟踪区域,该第二指定区域跟踪处理用于在拍摄图像中跟踪根据第一指定区域跟踪处理的结果指定的第二指定区域。



从下面参考附图对各实施例的描述,本发明的其它目的和方面将变得明显,附图中 图1是说明作为本发明的一个实施例实践的图像处理系统的概要的示意图; 图2是说明作为本发明的一个实施例实践的图像处理装置的示范性配置的方块图; 图3是说明作为本发明的另一个实施例实践的、图2中显示的识别块的示范性配置的方块图; 图4是指示要由图3中显示的学习块执行的学习处理的流程图; 图5是指示要由图3中显示的学习块执行的学习处理的另一个流程图; 图6是说明分辨率图像的图; 图7是说明DoG滤波器的刻度空间的图; 图8是说明特征点的邻域(neighborhood)的浓度(concentration)梯度方向的图; 图9是说明直方图频率的计算方法的图; 图10是说明示范性方向直方图的另一个图; 图11是说明示范性方向直方图的另一个图; 图12是说明示范性方向直方图的另一个图; 图13是说明提取特征量的处理的图; 图14是说明重采样的例子的图; 图15是指示存储处理的流程图; 图16是指示第一实时跟踪处理的流程图; 图17是说明作为本发明的一个实施例实践的、图2中显示的指定区域跟踪块的示范性配置的方块图; 图18是指示图16中显示的第一指定区域跟踪处理的流程图; 图19A和19B是说明光流的计算的图; 图20是说明代表性的仿射矩阵的图; 图21是说明代表性的仿射矩阵的另一个图; 图22是指示第二实时跟踪处理的流程图; 图23是说明示范性的合成图像的图; 图24是说明另一个示范性的合成图像的图; 图25是说明另一个示范性的合成图像的图; 图26是说明屏幕和校正图像的区域的图; 图27是说明合成图像的图; 图28是说明图2中显示的指定区域跟踪块的示范性配置的方块图; 图29是指示图22中显示的第二指定区域跟踪处理的流程图; 图30A、30B、30C和30D是说明图2中显示的图像处理装置中的处理的时序的图; 图31A、31B和31C是说明要由图2中显示的图像处理装置获得的效果的图; 图32A、32B和32C是说明要由图2中显示的图像处理装置获得的效果的图; 图33A、33B和33C是说明要由图2中显示的图像处理装置获得的效果的图; 图34是指示要由图2中显示的识别块执行的一般物体识别处理的流程图; 图35从图34中显示的流程图继续的流程图; 图36从图35中显示的流程图继续的流程图; 图37是说明在学习和处理的多分辨率的图; 图38是说明特征量之间的比较的图; 图39是说明内露层(inlier)和外露层(outlier)的图; 图40是指示估计处理的细节的流程图; 图41是说明估计处理的图; 图42是说明作为本发明的另一个实施例实践的图像处理装置的示范性配置的方块图; 图43是指示要由图42中显示的图像处理装置执行的第一实时跟踪处理的流程图; 图44是指示要由图42中显示的图像处理装置执行的第二实时处理的流程图; 图45A、45B、45C和45D是说明要由图42中显示的图像处理装置执行的处理的时序的图; 图46是说明作为本发明的一个实施例实践的眼镜类型的可佩带计算机的概要的示意图;以及 图47是说明作为本发明的另一个实施例实践的眼镜类型的可佩带计算机的概要的示意图。

具体实施例方式 参考附图,该发明将通过其实施例更详细地说明。
现在参考图1,显示作为本发明的一个实施例实践的图像处理系统1。
图像处理系统1由图像处理装置11A以及经由网络12(如因特网)连接到其的图像处理装置11B组成。由图像处理装置11A成像的被摄体A(人A)经由网络12与由图像处理装置11B成像的被摄体B(人B)通信。
更具体地,图像处理装置11A上安排的图像拾取块21A拍摄被摄体A的图像。图像处理装置11A经由网络12发送被摄体A的拍摄图像给图像处理装置11B。另一方面,图像处理装置11B上安排的图像拾取块21B拍摄被摄体B的图像。图像处理装置11B经由网络12发送被摄体B的拍摄图像给图像处理装置11A。
从图像处理装置11B接收的被摄体B的拍摄图像显示在图像处理装置11A上安排的输出块27A的整个屏幕上。应该注意,如图1中所示,由图像拾取块21A获取的被摄体A的拍摄图像也显示在位于输出块27A的屏幕的右上的窗口27TA中。
类似地,从图像处理装置11A接收的被摄体A的拍摄图像显示在图像处理装置11B上安排的输出块27B的整个屏幕上。由图像拾取块21B获取的被摄体B的拍摄图像也显示在位于输出块27B的屏幕的右上的窗口27TB中。
如图1中所示,如果被摄体A用手拿着登记照片的印刷品、或者其显示部件上显示登记的静止或运动图像(以下统称为登记图像)的数字相机或移动电话,那么图像处理装置11A识别物体的位置和姿态(这个例子中登记图像的图像),该物体对应于由图像拾取块21A拍摄的被摄体A的拍摄图像中的登记图像。然后,根据识别的位置和姿态,图像处理装置11A将对应于被摄体A的拍摄图像中的登记图像的物体(以下合适时称为目标物体)变为登记图像。
即,在被摄体A的拍摄图像中,由被摄体A手持的照片印刷品、或者由被摄体A手持的数字相机或移动电话的显示部件上显示的静止图像或运动图像,被改变为该照片或者静止图像或运动图像的登记图像。图像处理装置11A经由网络12向图像处理装置11B发送改变后的被摄体A的拍摄图像。因此,图像处理装置11B的输出块27B将作为登记图像自身的图像显示为被摄体A的拍摄图像的目标物体,使得与包括改变之前的图像的被摄体A的拍摄图像的显示相比,被摄体B可以更清楚地看到由被摄体A持有的图像。
下面,除非另外表明,图像处理装置11A和图像处理装置11B将统称为图像处理装置11。类似地,图像拾取块21A和图像拾取块21B将统称为图像拾取块21,并且输出块27A和输出块27B将统称为输出块27。
参考图2,显示说明图像处理装置11的示范性配置的方块图。
图2中显示的图像处理装置11由图像拾取块21、存储块22、识别块23、跟踪单元24、校正图像产生块25、合成块26、输出块27、控制块28和服务器29组成。
由摄像机组成的图像拾取块21拍摄被摄体的图像,该摄像机具有这样的光电转换设备,如CCD(电荷耦合设备)传感器或CMOS(互补金属氧化物半导体),用于将光学图像转换为电信号。图像拾取块21因此以拍摄的帧为单位提供图像给存储块22、识别块23、跟踪单元24和合成块26作为输入图像。
存储块22存储由图像拾取块21提供的输入图像。配置存储块22以存储例如100帧的输入图像。如果从图像拾取块21提供多于100帧的图像,那么从存储块22删除时间最远的图像。因此,存储最近的100帧的图像。
根据从图像拾取块21提供的输入图像、对应于从控制块28提供的识别的目标物体的登记图像、以及登记图像的ID(以下称为登记ID),识别块23识别输入图像中的目标物体。识别块23向跟踪单元24提供输入图像的帧号、对应于作为识别的结果得到的输入图像中包括的目标物体的登记ID、以及指示目标物体的位置和姿态的物体参数。
输入图像的帧号表示,例如按照由图像拾取块21拍摄的图像的顺序给予每帧的号码。登记ID是每个登记图像唯一的ID,因此与每个登记图像一致地登记。后面将参考图3详细地说明识别块23。
跟踪处理分割为两个线程,使得跟踪单元24由每个执行两个线程之一的指定区域跟踪块41和指定区域跟踪块42配置。
指定区域跟踪块41根据从识别块23提供的帧号,从存储块22读取输入图像。指定区域跟踪块41根据从识别块23提供的物体参数,指定要作为指定区域跟踪的区域。指定区域跟踪块41跟踪从存储块22读取的输入图像中的指定区域。指定区域跟踪块41向指定区域跟踪块42提供从识别块23接收的登记ID和物体参数。后面将参考图17详细说明指定区域跟踪块41。
指定区域跟踪块42根据从指定区域跟踪块41接收的物体参数,指定要作为指定区域跟踪的区域。指定区域跟踪块42跟踪从图像拾取块21提供的输入图像中的指定区域。指定区域跟踪块42向校正图像产生块25提供从指定区域跟踪块41接收的登记ID、以及作为跟踪的结果得到的物体参数。后面将参考图28详细说明指定区域跟踪块42。
校正图像产生块25向控制块28提供从指定区域跟踪块42接收的登记ID,因此向控制块28请求对应于该登记ID的登记图像。根据响应该请求从控制块28接收的登记图像、以及从指定区域跟踪块42接收的物体参数,校正图像产生块25产生具有与目标物体的大小和姿态相同的大小和姿态的登记图像,作为用于校正输入图像的校正图像。校正图像产生块25向合成块26提供从指定区域跟踪块42接收的物体参数和产生的校正图像。
根据从校正图像产生块25接收的物体参数,合成块26将从图像拾取块21接收的输入图像与从校正图像产生块25接收的校正图像合成,以向输出块27和控制块28提供作为合成的结果得到的合成图像。输出块27在屏幕的右上窗口27T上显示从合成块26接收的合成图像,并且同时在整个屏幕上显示经由网络12和控制块28从其接收的另一个图像处理装置11拍摄的图像。
控制块28从服务器29读取登记图像和登记ID,并且向识别块23提供这些图像和ID。根据从校正图像产生块25接收的登记ID,控制块28也从服务器29读取相应的登记图像,并且向校正图像产生块25提供提供该图像。另外,控制块28经由网络12向另一个图像处理装置11发送从合成块26接收的合成图像。控制块28经由网络12从另一个图像处理装置11接收该图像,并且向输出块27提供接收的图像。
另外,控制块28经由网络12从另一个未显示的设备接收登记图像,并且例如以接收的顺序将登记ID给予接收的登记图像。控制块28向服务器29提供接收的登记图像和给其的登记ID用于登记。服务器29使从控制块28提供的登记ID和登记图像相关联,并且登记该图像和ID。应该注意该服务器29可以经由网络12连接到控制块28。
参考图3,显示图2中显示的识别块23的详细配置。识别块23由两个组件(学习块111和识别块112)构成,配置其以识别每个输入图像中的目标物体。
学习块111由多分辨率产生块121、特征点提取块122、特征量提取块123和登记图像字典登记块124组成。
多分辨率产生块121从由控制块28输入的登记图像产生具有多分辨率的图像。特征点提取块122从具有由多分辨率产生块121产生的多分辨率的每个图像提取特征点。特征量提取块123提取由特征点提取块122提取的每个特征点的特征量。登记图像字典登记块124使由特征量提取块123提取的登记图像的特征量组、与从控制块28输入的登记ID相关,并且登记相关的特征量组和登记ID。应该注意登记图像字典登记块124实际上在服务器29中建立。数据的传递经由控制块28执行。
识别块112由多分辨率产生块131、特征点提取块132、特征量提取块133、kd树构造块134、特征量比较块135和估计块136组成。
多分辨率产生块131从图像拾取块21提供的输入图像产生具有多分辨率的图像。特征点提取块132从由多分辨率产生块131产生的每个多分辨率图像提取特征点。特征量提取块133提取由特征点提取块132提取的每个特征点的特征量。要由多分辨率产生块131、特征点提取块132和特征量提取块133执行的处理操作,与由学习块111中的多分辨率产生块121、特征点提取块122和特征量提取块123中执行的那些相同。
kd树构造块134从登记图像字典登记块124中登记的特征量构造kd树。特征量比较块135在由特征量提取块133提取的特征量、和对应于所有目标物体的所有登记图像(或者,如果对每个目标物体执行处理,那么对应于每个目标物体的每个登记图像)的特征量组之间进行比较,该所有目标物体经受由kd树构造块134构造的kd树中表达的识别。根据该比较的结果,估计块136为了目标图像检查输入图像,并且如果发现目标图像,那么估计其位置和姿态,因此输出物体参数,该物体参数指示对应于检测的目标物体的登记ID以及估计的位置和姿态。
应该注意学习块111和识别块112不需要总是同时存在。作为由学习块111预先学习的结果,在识别块112上安排登记图像字典登记块124、或者以无线通信方式使用登记图像字典登记块124也是可实践的。
下面参考图4和5中显示的流程图说明学习块111中的学习处理。当用户命令开始学习处理时,该处理开始。应该注意后面将参考图34到36说明要在识别块112中执行的一般物体识别处理。
多分辨率产生块121重复步骤S11到S27的处理操作,直到在随后说明的步骤S28中发现所有登记图像被处理。首先,在步骤S11中,多分辨率产生块121选择选择一个未处理的登记图像。在步骤S12中,多分辨率产生块121产生多分辨率组。更具体地,多分辨率产生块121以预先确定的比例因子缩小经受学习的登记图像,以产生多分辨率图像组。例如,让来自作为具有最低分辨率的图像的原始图像的缩小因子为α,以及要输出的多分辨率图像的数目为N(包括原始图像),则通过用缩小因子α×(N-k)以线性插值方式缩小原始图像I
,产生具有第k(对原始图像,k=0)个多分辨率的分辨率图像I[k]。
另一种方法是可能的,在该方法中,用于产生具有低一阶(step)分辨率的图像的缩小因子为γ(固定值);即,通过用缩小因子γ[k]以线性插值方式缩小I
产生I[k]。
参考图6,显示当参数N=10、α=0.1时产生的多分辨率图像组。在图6中所示的例子中,产生总共10阶的多分辨率图像;即,通过用缩小因子0.9缩小原始图像I
得到的图像I[1],通过用缩小因子0.8缩小原始图像I
得到的图像I[2],...,以及通过用缩小因子0.1缩小原始图像I
得到的图像I[19]。当用于指定缩小比率的系数k的值增大时,图像在大小上进一步减小,使得当系数k的值增大时,每帧的图像帧本身进一步减小。
接下来,特征点提取块122重复步骤S13到S26的处理操作,直到在后面说明的步骤S27中发现所有分辨率图像被处理,因此提取特征点(比例不变特征点),如果发生图像的放大-缩小变换(或比例变换),那么从由多分辨率产生块121产生的每个分辨率图像I[k](k=0...,N-1)健壮地(robust)提取该特征点。比例不变特征点提取方法包括一种方法,其中构造图像的比例(scale)空间,并且在每个比例图像的DoG(高斯差分)滤波器的局部最大点(局部预定范围中的最大点)和局部最小点(局部预定范围中的最小点)中,提取其位置不随比例方向上的变化而改变的点作为比例特征点(D.Lowe,“Object recognition from local scale-invariant features,”International Conferenceon ComputerVision会议记录,第2卷,第1150-1157页,1999年9月20-25日,Corfu,Greece);以及另一种方法,其中构造图像的比例空间,并且在由Harris拐角检测器从比例图像提取的拐角点(corner point)中,提取给出比例空间图像的LoG(高斯拉普拉斯)滤波器的局部最大的拐角点作为特征点(K.Mikolajczyk,C.Schmit,“Indexing based on scale invariant interest points,”.International Conference on ComputerVision,523-531,2001年7月)。只要可以提取比例不变特征,任何方法可以应用到特征点提取块122。
下面根据由D.Lowe提出的技术(“Distinctive image features fromscale-invariant keypoints,”被the International Journal of Computer Vision接受出版,2004)说明一种方法,作为提取比例不变特征点的方法。在提出的方法中,经由经受比例不变特征点的提取的图像的比例空间表达,从作为特征点涉及的图像的DoG滤波器输出,提取考虑比例方向的局部最大点和局部最小点(T.Lindeberg,“Scale-spaceA framework for handling image structures atmultiple scales,”Journal ofApplied Statistics,vol.21,No.2,pp.224-270,1994)。
因此,在步骤S13中,特征点提取块122选择分辨率图像的未处理的分辨率图像。接下来,在步骤S14中,特征点提取块122产生比例空间分辨率图像。即,产生经受比例不变特征点提取的图像I的比例空间(由多分辨率产生块121产生的分辨率图像(k=0,1,2...,9的分辨率图像)之一提供经受比例不变特征点提取的图像)。由通过使用下面等式(1)中所示的二维高斯函数,通过用σ=ksσ0对经受比例不变特征点提取的图像I执行卷积积分(或高斯滤波),产生比例空间的第s个(s=0...,S-1)分辨率图像Ls。
在上面的等式(1)中,σ0表示用于确定意在经受比例不变特征点提取的图像I的噪声抵消的模糊程度的参数,并且k表示与比例空间的分辨率共同的模糊程度相关联的常数因子,该k不同于分辨率图像I[k]的k。应该注意图像的水平方向是X轴,而垂直方向是Y轴。
参考图7,显示这样产生的示范性比例空间。在这个例子中,图像I具有通过使用下面显示的五个二维高斯函数产生的分辨率图像L0到L4。
在上面的等式(2)到(6)中,等式(2)到(6)中的每个的右手侧的卷积积分的符号的右手项指示下面的等式。即,右手项基本上与上面的等式(1)相同。
在图(7)中,分辨率级别的数目是S=5。
接下来,在步骤S15中,特征点提取块122计算DoG滤波器输出图像。即,计算这样得到的经受特征点提取的图像I的比例空间的每个分辨率图像Ls的DoG滤波器输出图像。该DoG滤波器(一种用于在图像的边缘增强中使用的二阶差分滤波器)经常以LoG滤波器用作近似模型用于这样的处理,该处理从要由人类光学系统中的外侧膝状体(lateral geniculate body)接替(relay)的视网膜开始执行。通过获得两个高斯滤波器输出图像之间的差别,可以有效地获得DoG滤波器的输出。即,如图7中的中间列所示,通过从高一阶的层上的分辨率图像Ls+1减去分辨率图像Ls(即Ls+1-Ls),得到具有第s个(s=0,...,S-2)分辨率的DoG滤波器输出图像Ds。
在步骤S16中,特征点提取块122提取比例不变特征点。更具体地,在DoG滤波器输出图像Ds(s=1,...,S-3)上的像素中,在DoG滤波器输出图像Ds的直接相邻区域(在本实施例中,在预定位置的3×3像素的区域)、以及与低一阶的DoG滤波器输出图像Ds-1和高一阶的DoG滤波器输出图像Ds+1处于相同位置(或者对应位置)的直接相邻区域中的总共27个像素中,特征点提取块122提取提供局部最大(27个像素的最高值)和局部最小(27个像素的最低值)的像素作为比例不变特征点,然后该比例不变特征点作为特征点集合Ks(s=1....,S-3)保存。在图7的右端列中,显示这个特征点集合Ks。这样提取的特征点是对因子=k2的分辨率改变具有位置不变性(即,比例不变)的比例不变特征点。
特征点提取块122重复步骤S13到S16的处理操作,直到在后面说明的步骤S27中确定所有分辨率图像已经被处理,为由多分辨率产生块121产生的多分辨率级别图像I[k]的每个提取比例不变特征点集合。
接下来,特征量提取块123重复步骤S17到S25的处理操作,直到在步骤S26中确定所有特征点已经被处理,由此在从每个多分辨率级别图像I[k]提取的每个特征点提取特征量。下面,在每个特征点的特征量称为特征点特征量或依赖于上下文简单称为特征量。
对特征点特征量,特征量对每个图像的旋转变换和亮度变化不变。可以应用两个或更多个特征量到一个特征点。在这种情况下,在后面的特征量比较块135中,不同特征量之间的积分比较结果的处理是必不可少的。在本实施例的情况下,使用从涉及的特征点提取的图像的特征点邻域的浓度(concentration)梯度(gradation)信息(在每个点的浓度梯度强度和浓度梯度方向)得到的两个特征量。这些特征量之一是由涉及的特征点相邻区域中占优势的浓度梯度方向(以下称为正则(canonical)方向)校正的方向直方图,而另一个是由正则方向校正的维度上(dimensionally)退化的浓度梯度向量。
通过用零在支配(dominant)方向上校正与特征点邻域的浓度梯度相关联的直方图(或者方向直方图),得到第一特征量(或者类型1的特征量)。为了提取这个第一特征量,特征量提取块123在步骤S17选择一个未处理的特征点。接下来,在步骤S18中,特征量提取块123得到浓度梯度强度Mx,y和方向Rx,y。即,如图8中所示,分别由等式(8)和(9)得到特征点邻域(在本实施例中,落在涉及的特征点P周围的7像素直径(3.5像素半径)的范围内的各像素)的浓度梯度强度Mx,y和方向Rx,y。在这些等式中,x、y表示在为其得到浓度梯度的像素图像上的坐标,并且Ix,y表示其像素值。
Rx,y=tan-1(Ix,y+1-Ix,y,Ix+1,y-Ix,y) …(9) 接下来,在步骤S19中,特征量提取块123产生方向直方图,更具体地,根据特征点邻域每个像素的方向Rx,y,将每个像素的频率累加到具有类间隔Δθ和类标记360度/Δθ的直方图(在本实施例中,Δθ=10度)对应的类。此时,如图9中所示,为了最小化对类的量化误差的影响,对于频率(图9中的垂直轴),累加方向Rx,y上与类(图9中的水平轴)的中心值的距离的接近成比例的各值。即,令最接近方向Rx,y的两个类为g和g+1,并且每个类的中心值和方向Rx,y之间的距离为d1和d2,则要加到类g和g+1的频率值分别为d2/(d1+d2)和d1/(d1+d2)。因此,最小化量化误差。
在步骤S20中,特征量提取块123归一化频率。即,通过将方向直方图的频率除以特征点邻域像素的数目(或者,落在7个像素直径内的像素数),归一化频率。因此,只在梯度方向上的累加可以提供对亮度变化强大的特征量。
更进一步地,特征量提取块123在步骤S21中提取正则方向,并且在步骤S22中由提取的正则方向归一化角度。更具体地,为了提供对旋转变换不变的特征量,正则方向被提取为用于给出得到的方向直方图的强峰的角度,并且移动直方图以便将该角度设置为该正则方向变为零度,因此执行角度归一化。在与拐角周围提取的特征点相关联的直方图中,沿垂直于拐角的边的方向出现两个或更多个强峰,使得产生校正(或归一化)以便使每个强峰的度数变为零度的方向直方图。即,为正则方向的数目分别产生特征量。其上每个峰是正则方向的参考是峰方向,该峰方向给出例如最大累积值的80%或更多的累积值。
例如,在图10中显示的方向直方图中,存在两个峰,即角度80度的频率V80和角度200度的频率V200。即,角度80度和角度200度提供正则方向。在这种情况下,如图11中所示,产生以角度80度作为归一化到零度的正则方向的直方图、以及以角度200度作为归一化到零度的正则方向的直方图。
由上述处理得到的类型1的特征量是与方向直方图的类标记相同维数的特征向量(在本实施例中,36(=360度/10度))维向量,即,包含指示类度数的36个数的向量)。
接下来,获得低维度再生浓度梯度向量作为第二特征量(或者类型2的特征量)。当类型1特征量忽略特征点邻域像素的空间排列,只注意特征点邻域局部区域中浓度梯度向量的方向上的趋势(频率)时,类型2特征量注意特征点邻域中每个浓度梯度向量的空间排列。使用这两种类型的特征量,通过随后要说明的技术对特征量进行的比较,实现了对观察点变化和亮度变化强大的识别。
为了提取类型2量,特征量提取块123在步骤S23旋转地校正特征点邻域图像。即,旋转地校正特征点邻域图像,使得由上述处理得到的特征点邻域的正则方向变为零度。进而,在步骤S24中,特征量提取块123计算浓度梯度向量集合。例如,如果图13的上部中显示的特征点邻域的像素的浓度梯度如图10中显示分布,那么如上所述,正则方向在80度和200度。因此,如图13的中间行的左侧所示,在这种情况下顺时针旋转特征点邻域图像,使得80度的正则方向变为零度。然后,计算该图像的浓度梯度向量集合。这最终等价于得到图11中所示的方向直方图的浓度梯度向量集合,该方向直方图通过以设置到零度的图10中显示的角度80度的正则方向执行归一化得到。
类似地,如图13的中间行的右侧中所示,旋转校正特征点邻域图像,使得200度的正则方向变为零度。然后,计算这个图像的浓度梯度向量集合。这最终等价于得到图12中所示的方向直方图的浓度梯度向量集合,该方向直方图通过以设置到零度的图10中显示的角度200度的正则方向执行归一化得到。
在步骤S25中,特征量提取块123在维度上退化浓度梯度向量集合。即,为了能够吸收等于特征点提取位置中的几个像素的位移,例如如图13的底部的左侧和右侧所示,通过以线性插值方式重采样,该浓度梯度向量集合从近似内接于具有7个像素的直径的圆的正方形中的5×5像素的向量集合退化为3×3像素向量集合。
更具体地,如图14中所示,从下面的等式,通过用距与其邻近的4个原始图像像素的距离的比率计算重采样图像的像素值,执行线性插值重采样。
f(X,Y)=(1-q)·[(1-p)·f(x,y)+p·f(x+1,y)]+q·[(1-p)·f(x,y+1)+p·f(x+1,y+1)] ...(10) 在上面的等式(10)中,如图14中所示,(X,Y)表示重采样图像的像素,(x,y)、(x+1,y)、(x,y+1)、(x+1,y+1)表示重采样图像(X,Y)邻域的原始图像像素,f(a,b)表示坐标(a,b)的像素值,以及p、q是在x坐标方向和y坐标方向从邻近像素到重采样图像(X,Y)的距离比。
因此,通过将维度退化向量的x和y分量施加到特征向量的每一维,得到类型2特征量。如果通过线性插值重采样将图像重采样到3×3向量集合,那么得到18(=3×3×2)维的特征量。
应该注意重采样之后的目标图像大小低于原始图像大小的一半,然后在大小上每0.5减小原始图像,并且当已经得到等于或大于目标大小的最小0.5乘法大小的图像时,从该图像执行等式(10)的重采样,因此最小化重采样误差。例如,如果通过线性插值重采样要创建原始图像0.2倍大的图像,那么对与通过两次乘以0.5重采样得到的原始图像0.25倍大的图像,执行等式(10)的线性插值重采样。
在步骤S26中,特征量提取块123确定是否已经处理了所有特征点。如果发现任何未处理的特征点,那么过程返回到步骤S17以从那里重复上述操作。如果在步骤S26中发现处理了所有特征点(即,如果已经对所有特征点执行了步骤S17到S25的处理操作),那么特征点提取块122在步骤S27确定是否已经处理了所有分辨率图像。如果发现任何未处理的分辨率图像,那么过程返回到步骤S13以从那里重复上述操作。如果发现对所有分辨率图像处理了步骤S13到S25的处理操作,那么多分辨率产生块121在步骤S28中确定是否已经处理了所有登记图像。如果发现任何未处理的登记图像,那么过程返回到步骤S11以从那里重复上述操作。如果发现对所有登记图像执行了步骤S11到S25的处理操作,那么过程转到步骤S29。
在步骤S29中,登记图像字典登记块124标记如上所述提取的特征点特征量,并且登记标记的特征点特征量。在这种情况下,执行标记以便允许对具有特定ID的特定登记图像的特定特征量的引用,该特定ID从具有特定登记ID的登记图像的特定多分辨率图像组的特定图像的特定比例提取。标记的特征点特征量在登记图像字典登记块124中登记。
如上所述,预先在登记图像字典登记块124中登记对应于要识别的目标物体的登记图像。
如果识别块23具有学习块111和识别块112,那么识别块112可以使用该登记图像字典登记块124而不改变。如果将学习块111和识别块112配置为分别的图像处理装置,那么存储如上所述必要信息的登记图像字典登记块124,可以安排在具有识别块112的图像处理装置上,或者以有线或无线方式可用。
下面参考图15中所示的流程图说明要在图像处理装置11中执行的存储处理。当例如由用户命令开始电视通信时,开始该存储处理。
在步骤S101中,图像拾取块21拾取被摄体的图像,并且提供结果输入图像给存储块22、识别块23、跟踪单元24和合成块26。在步骤S102中,存储块22存储从图像拾取块21接收的100帧的输入图像。如果多于100帧的输入图像进入,那么用新图像顺序地重写较旧的图像,存储最近100帧的图像。
在步骤S103中,图像拾取块21确定是否用户已经命令结束电视通信。如果发现还未命令电视通信的结束,那么过程返回到步骤S101以从那里重复上述过程。如果发现命令电视通信的结束,那么处理到达结束。
因此,当图像拾取块21正在执行图像获得处理时,存储块22中存储最近100帧的输入图像。
下面参考图16中所示的流程图说明要在图像处理装置11中执行的第一实时跟踪处理。当登记ID、帧号和物体参数通过随后要参考图34到36说明的识别块23的一般物体识别处理输出时,第一实时跟踪处理开始。
虽然一般物体识别处理的细节随后将参考图34到36说明,但是如果由这个处理从输入图像识别对应于由学习处理登记的登记图像的目标物体,那么输出被识别图像的登记ID、帧号和物体参数。
在步骤S131中,跟踪单元24的指定区域跟踪块41执行第一指定区域跟踪处理,用于根据从识别块23输入的物体参数跟踪指定区域。虽然该第一指定区域跟踪处理的细节随后将参考图18说明,但是通过该跟踪处理,对根据由识别块23得到的识别结果指定的指定区域执行快速跟踪处理。
在步骤S132中,指定区域跟踪块41确定是否用户已经命令结束电视通信。如果发现还未命令结束电视通信,那么过程返回到步骤S131以从那里重复上述处理。如果发现命令结束电视通信,那么处理到达结束。
图2中显示的指定区域跟踪块41具有如图17所示的配置,以便执行第一指定区域跟踪处理。
图17中所示的指定区域跟踪块41具有区域指定块141、特征点提取块142、光流计算块143、仿射矩阵计算块144、误差计算块145和分数计算块146。
从识别块23或分数计算块146向区域指定块141提供物体参数。根据提供的物体参数,区域指定块141指定指定区域,并且向特征点提取块142提供指定区域。
从识别块23向特征点提取块142提供帧号。根据提供的帧号,特征点提取块142从存储块22读取输入图像作为要处理的输入图像(以下称为目标输入图像)。
特征点提取块142以与例如图3中所示的特征点提取块122基本相同的方式,从目标输入图像提取特征点。根据从区域指定块141提供的指定区域,特征点提取块142删除提取的特征点中位于指定区域外的特征点,并且暂时保存指示位于指定区域内的特征点的特征点信息。同时,特征点提取块142向光流计算块143提供目标输入图像的指定区域内的特征点的特征点信息(以下称为目标帧特征点信息)、目标输入图像之前一帧的输入图像(以下称为以前输入图像)的指定区域内的特征点的特征点信息(以下称为以前帧特征点信息)、以及目标输入图像。特征点提取块142还向误差计算块145提供目标帧特征点信息和以前帧特征点信息。
根据从特征点提取块142提供的目标帧特征点信息、以前帧特征点信息和目标输入图像,光流计算块143计算光流作为每个特征点的移动信息,并且向仿射矩阵计算块144提供计算的光流。
在从光流计算块143提供的特征点的光流中,仿射矩阵计算块144从三个特征点的光流计算用于仿射变换的仿射矩阵。仿射矩阵计算块144然后向误差计算块145提供计算的仿射矩阵。
误差计算块145将每个特征点的位置乘以从仿射矩阵计算块144提供的仿射矩阵,该特征点由从特征点提取块142提供的以前帧特征点信息指示。然后,误差计算块145计算由该乘法计算的每个特征点的位置、和由从特征点提取块142提供的目标帧特征点信息指示的每个特征点的位置之间的误差,并且向分数计算块146提供每个特征点中的误差和仿射矩阵。
在从误差计算块145提供的误差中,分数计算块146确定是否存在任何小于预设阈值T的误差。依赖于该判决的结果,分数计算块146确定对应于该误差的仿射矩阵的分数。应该注意确定该分数,使得当具有误差小于阈值T的特征点的数目增大时,分数增大。
在目标输入图像的仿射矩阵中,分数计算块146选择具有最大分数的一个作为指定区域中的典型仿射矩阵。分数计算块146向区域指定块141提供典型仿射矩阵的参数作为物体参数。登记ID也从识别块23提供给分数计算块146。当预定时间到来时,分数计算块146向指定区域跟踪块42提供该登记ID和典型仿射矩阵的参数作为物体参数。
下面参考图18中所示的流程图,说明图16中所示的步骤S131的第一指定区域跟踪处理的细节。
在步骤S151中,区域指定块141根据物体参数指定指定区域,该物体参数作为由识别块23执行的一般物体识别处理的结果得到。即,根据物体参数的位置信息(或坐标数据),指定经历跟踪的指定区域,并且将该指定区域提供给特征点提取块142。在步骤S152中,根据包括从识别块23提供的识别的目标物体的帧的帧号,特征点提取块142作为目标输入图像,从存储块22中存储的输入图像读取具有该帧号的输入图像。在步骤S153中,特征点提取块142从目标输入图像提取特征点。该特征点可以类似于上面图4中所示的步骤S 16中说明的那个。
在步骤S154中,特征点提取块142从步骤S153中提取的特征点,删除位于从区域指定块141提供的指定区域外的特征点,并且暂时保存指示指定区域内的特征点的位置的特征点信息。同时,特征点提取块142向光流计算块143提供目标帧特征点信息、以前帧特征点信息和目标图像,并且向误差计算块145提供目标帧特征点信息和以前帧特征点信息。
在步骤S155中,根据从特征点提取块142接收的目标帧特征点信息和以前帧特征点信息,光流计算块143通过使用例如LK(Lucas Kanade)方法,计算每个特征点的光流。
下面参考图19说明该计算。应该注意,图19显示这样的例子其中通过LK方法计算在垂直于光轴的方向上的特征点P的光流。
在光流的计算中,分析其位置由目标帧特征点信息指示的特征点、和其位置由以前帧特征点信息指示的特征点之间的移动。更具体地,从输入图像形成具有逐渐降低的分辨率的两个或更多图像,并且在具有降低的分辨率的图像之间进行比较。这能够最小化用于分析特征点之间的移动必要的计算量。
如图19A和19B中所示,如果由图像拾取块21在时间t-1拾取的以前输入图像151A、和在时间t拾取的目标输入图像151B的像素的数量每个是320×240,那么光流计算块143根据以前输入图像151A,产生具有160×120像素的图像152A(其分辨率降低到该以前输入图像151A的分辨率的1/4)和具有80×60像素的图像153B(其分辨率降低到图像152A的分辨率的1/4)。类似地,光流计算块143根据目标输入图像151B,产生具有160×120像素的图像152B(其分辨率降低到该以前输入图像151A的分辨率的1/4)和具有80×60像素的图像153B(其分辨率降低到图像152B的分辨率的1/4)。
应该注意,图像152A(152B)和153A(153B)是与具有原始的320×240像素的以前输入图像151A(目标输入图像151B)在相同屏幕区域中的图像,但是通过减少像素数降低了分辨率。目标输入图像151B、图像152B和图像153B保存在光流计算块143中,以用于下一个目标输入图像的特征点的光流的计算。即,以前输入图像151A、图像152A和图像153A在以前计算时保存。
首先,光流计算块143在具有最低分辨率的图像153A和图像153B之间进行比较,用于分析特征点P的粗略移动。因为图像153A和图像153B在像素数上低并且因此要求小数目的搜索范围,所以可以以低负载执行光流的计算。在图像153A和图像153B之间进行比较,光流计算块143以简化的方式,得到从时间t的特征点P(t-1)指向时间t的特征点P(t)的向量,作为特征点P(t)的光流。
接下来,在图像153A和图像153B中已经检测到特征点P的光流的范围的周围,光流计算块143为了更详细地分析特征点P的移动,在图像152A和图像152B之间进行比较。当与图像153A和图像153B比较时,图像152A和图像152B的像素数更大,但是通过分析图像153A和图像153B缩小搜索范围,可以减轻计算处理的负载。
然后,在图像152A和图像152B中已经检测到特征点P的光流的范围的周围,光流计算块143为了更详细地分析特征点P的移动,在每个由图像拾取块21拾取的320×240像素的目标输入图像151B、和以前输入图像151A之间进行比较。这里,通过分析图像152A和图像152B进一步缩小搜索范围,使得通过使用每个具有最大像素数的目标输入图像151B和以前输入图像151A,可以以较少的负载和较高的精度计算特征点P(t)的光流。
如图19中所示,当对每个时间依赖的帧分析特征点的移动时,LK方法可以防止处理量增大,因此以最小化的时间延迟分析时间依赖的图像的移动。基于LK方法的光流的图像处理可以通过这样的技术执行,该技术在主页“http://robots.standford.edu/cs223b04/algo tracking.pdf”中的论文“PyramidalImplementation of the Lucas Kanade Feature Tracker Description of the algorithm;Jean-Yves Bouguet,Intel Corporation,Microprocess Research Labs”中说明。因此,将LK方法应用到在光流计算强大的特征点、以通过使用具有逐渐变化的分辨率的图像分析特征点的移动,可以以相对短的时间和高的精度计算特征点的光流。
光流的计算可以通过除了LK方法外的方法执行。例如,已知的块匹配方法或已知的梯度方法可以应用到光流的计算。
如上所述计算的每个特征点的光流提供给仿射矩阵计算块144。接下来,在步骤S156中,仿射矩阵计算块144从对应于从光流计算块143提供的光流的特征点选择三个特征点。
在步骤S157中,仿射矩阵计算块144从步骤S156中选择的三个特征点的光流计算仿射矩阵,用于对三个特征点执行仿射变换。仿射变换是这样的变换在该变换中,对具有添加到平移(translation)的扩张(dilation)以及旋转(欧几里得变换)的相似的平移,允许剪切,因此保持几何性质,使得原始图中线上的点在变换之后也排列在线上,并且原始图中的平行线在变换之后也是平行线。
用于执行仿射变换的仿射矩阵如下。到以前图像的特征点的光流[x y]T的目标输入图像的特征点的光流[u v]T的仿射变换由下面的等式(11)给出。
在上面的等式(1)中,ai(i=1...,4)表示用于确定旋转、扩张和剪切的参数,并且[b1,b2]表示平移参数。要计算的仿射矩阵参数(或者仿射变换参数)是6个,a1,...,a4以及b1和b2,使得三组特征点允许确定仿射矩阵。即,仿射变换所必需的仿射矩阵(或者仿射变换参数)的计算要求三组或更多组特征点。因此,在步骤S156中,选择三个特征点,以及在步骤S157中,从这三个特征点的光流计算仿射矩阵。仿射矩阵计算块144提供由这个计算得到的仿射矩阵给误差计算块145。
在步骤S158中,误差计算块145将从仿射矩阵计算块144接收的仿射矩阵乘以每个特征点的位置,该特征点的位置由从特征点提取块142接收的以前帧特征点信息指示。在步骤S159中,误差计算块145计算由乘法得到的每个特征点的位置、和由从特征点提取块142接收的目标帧特征点信息指示的每个特征点的位置之间的误差,并且提供得到的误差和仿射矩阵给分数计算块146。
在步骤S160中,分数计算块146在从误差计算块145接收的特征点的误差中,确定是否存在任何小于预设阈值T的误差。如果在步骤S160中发现小于预设阈值T的误差,那么分数计算块146将与误差一起接收的仿射矩阵的分数递增其误差小于预设阈值T的特征点数。应该注意,要增大的值可以是预定值,或者是对应于误差的值。
另一方面,如果不存在小于阈值T的误差,即如果发现所有特征点的误差等于或大于阈值T,那么省略步骤S161。即,分数计算块146不增大分数。
在步骤S162中,分数计算块146确定是否目标输入图像中仿射矩阵的计算已经重复预定次数。这里也可以实践的是确定是否已经提供预定数目的仿射矩阵。如果在步骤S162中发现计算未重复预定次数,那么过程返回到步骤S156,在该步骤S156中,仿射矩阵计算块144重新选择三个特征点,并且对选择的特征点重复上述处理。
另一方面,如果发现目标输入图像中仿射矩阵的计算重复预定次数,那么在步骤S163中,分数计算块146选择目标输入图像中具有仿射矩阵的最大分数的仿射矩阵,作为指定区域的典型仿射矩阵。
下面参考图20和21说明如上所述选择的典型仿射矩阵。在图20和21所示的例子中,输入图像160用作目标输入图像,在该输入图像160中,当作为登记图像的照片161围绕位于用户手腕上的点162旋转时,持有照片161的用户的手被取作被摄体。
应该注意,在图20中,每个圆圈标记、每个三角形标记和每个十字标记表示输入图像160中要提取的特征点。对指定区域163,指定输入图像160中的照片161的图像区域。
由圆圈标记的每个特征点是位于输入图像160中的指定区域163中的照片161上的特征点。由三角形标记的每个特征点是位于指定区域163中的照片161和手之间的边界的特征点。由十字标记的每个特征点是位于输入图像160中的指定区域163外的特征点。因此,在输入图像160中提取的特征点中,在步骤S154的处理中由特征点提取块142删除十字标记的特征点。
在位于指定区域163中由圆圈和三角形标记的特征点中,指定区域跟踪块41从三个特征点的光流计算仿射矩阵。例如,如图21中所示,如果在照片161围绕点162移动的情况下拍摄输入图像160,那么输入图像160中的三个特征点n1到n3的光流,是从以前输入图像中的三个特征点m1到m3的位置到特征点n1到n3的向量v1到v3。从这些向量v1到v3计算仿射矩阵。
如果通过使用该仿射矩阵计算的特征点的位置的误差小于阈值T,那么将分数增大这些特征点的数目,并且选择具有最大分数的仿射矩阵作为典型仿射矩阵,使得选择具有指定区域163中最小误差的仿射矩阵作为典型仿射矩阵。因此,不是对应于位于指定区域163的局部部分中手的边界中的三角形标记的特征点的仿射矩阵,而是对应于位于指定区域163的整体中的照片161上的圆圈标记的特征点的仿射矩阵,被选择为典型仿射矩阵。即,可以选择受噪声行为影响小的仿射矩阵作为典型仿射矩阵。
在步骤S164中,分数计算块146确定是否已经处理了预定数目的输入图像作为目标输入图像,即,已经为预定数目的帧选择了典型仿射矩阵。如随后参考图30将说明的,该预定数目的帧等于输入图像的帧的数目,该输入图像从用于一般物体识别处理的输入图像的拾取、到根据由该一般物体识别处理输入的物体参数对指定区域的第一指定区域跟踪处理的结束拍摄。
如果在步骤S164中发现对于预先确定的数目的帧的输入图像还未作为目标输入图像处理,那么分数计算块146提供典型仿射矩阵的参数给区域指定块141作为物体参数。在步骤S165中,区域指定块141根据接收的物体参数移动指定区域。应该注意,指定区域的位移表示指定区域的移动以及其姿势的改变。然后,区域指定块141提供位移的指定区域给特征点提取块142。
在步骤S166中,特征点提取块142作为目标输入图像读取具有这样的帧号的输入图像,该帧号接着作为目标输入图像紧前面读取的输入图像的帧号。然后,过程返回到步骤S153以从那里重复上述处理。
另一方面,如果在步骤S164中发现处理了对于预定数目的帧的输入图像,那么在步骤S167中,分数计算块146输出典型仿射矩阵的参数给指定区域跟踪块42作为物体参数,该物体参数作为指定区域跟踪处理以及从识别块23接收的登记ID的结果得到。然后,过程返回到图16中所示的步骤S131。
如上所述,可以快速执行第一指定区域跟踪处理,因此使得能够实时跟踪。
下面参考图22中所示的流程图,说明要由图2中所示的图像处理装置11执行的第二实时跟踪处理。
在步骤S181中,跟踪单元24的指定区域跟踪块42执行第二指定区域跟踪处理,用于跟踪由物体参数指定的指定区域,该物体参数从图18中所示步骤S167中的指定区域跟踪块41输出。随后将参考图29说明该第二指定区域跟踪处理的细节。这是基本上类似于图16中所示步骤S131中执行的第一指定区域跟踪处理的快速跟踪操作。
在步骤S182中,作为用于校正输入图像的校正图像,校正图像产生块25根据从控制块28接收的登记图像,产生与输入图像中的目标物体(由识别块23通过一般物体识别处理识别的物体)的那些相同的大小和姿态的登记图像,从而响应基于从指定区域跟踪块42提供的登记ID、以及从指定区域跟踪块42接收的物体参数的请求。校正图像产生块25提供产生的校正图像和从指定区域跟踪块42接收的物体参数给合成块26。
在步骤S183中,合成块26确定是否用于显示输入图像的屏幕的面积S1、和从校正图像产生块25接收的校正图像的面积S2的比值等于或大于参考值。如果发现该比值等于或大于参考值,那么在步骤S184中,合成块26根据从校正图像产生块25接收的物体参数,将校正图像和从图像拾取块21接收的输入图像中由指定区域跟踪块42指定的指定区域合成。然后,合成块26提供合成的图像给输出块27和控制块28。结果,经由网络12,在与输出块27连接的其他图像处理装置11的输出部分的屏幕上,显示其校正图像嵌入在输入图像的指定区域中的图像。
例如,如果将持有具有显示的登记图像的数字相机170的人取为被摄体,并且作为结果得到输入图像171,那么作为与输入图像171的那些相同的大小和姿态的登记图像的校正图像173,嵌入对应于登记图像的目标物体的区域,该区域是如图23中所示的输入图像171的指定区域172。因此,用户可以清楚地看见显示在数字相机170上的登记图像,该登记图像由图像拾取块21拍摄,几乎感觉不到由图像合成导致的奇怪。
如图24中所示,还可以如下实践作为校正图像181产生登记图像,该登记图像具有与输入图像171中的目标物体的大小相同的大小,并且具有面向图像拾取块21的光轴的姿态,并且在指定区域172中以其中心匹配地显示该校正图像181,而不是产生具有与输入图像171中的目标物体的那些相同的大小和姿态的登记图像,作为格式转换块173。在这种情况下,如果用户不能安排数字相机170上显示的登记图像为面向图像拾取块21的光轴,例如可以显示面向的登记图像,因此提供这样的图像给用户,在该图像中可以更容易地看见登记图像。
如图25中所示,除了将格式转换块173嵌入到输入图像171的指定区域172中,在预定区域191上显示登记图像192而不嵌入也是可实践的。
另一方面,如果在步骤S183中发现屏幕的正方形尺寸(measure)S1和校正图像的面积S2的比率低于参考值,那么在步骤S185中,合成块26将校正图像作为整个屏幕的图像,和从图像拾取块21接收的输入图像(基本上,产生由校正图像代替的整个输入图像得到的图像)合成,并且提供作为结果的合成图像给输出块27和控制块28。因此,经由网络12连接到涉及的图像处理装置11的输出块27的另一图像处理装置11的输出块27上,显示校正图像。
例如,如图26中所示,如果校正图像202的面积S2(指定区域203的面积S21与非指定区域204的面积S22的和,该非指定区域204对应于校正图像202中的指定区域203)较大,那么非指定区域204的面积S22变得比具有面积S1的屏幕201中的指定区域203的面积S21更大。即,在这种情况下,如果校正图像202与指定区域203合成,那么校正区域202变为校正图像202的局部。因此,用户不能识别已经变为被摄体的登记图像。
因此,如果发现与校正图像的面积S2的比率低于参考值,那么合成块26将校正图像205与从图像拾取块21接收的输入图像合成,作为整个屏幕206的图像,例如如图27中所示。作为结果,屏幕206上显示全屏大小的校正图像205。因此,如果用户将登记图像放得离图像拾取块21太近,只拍摄登记图像的一部分,那么用户可以识别登记图像。
步骤S184或步骤S185的处理之后,过程返回到步骤S186,在该步骤S186中,指定区域跟踪块42确定是否用户已经命令结束电视通信。如果在步骤S186发现用户没有命令结束电视通信,那么重复步骤S181到S185的处理操作,直到命令结束电视通信。当在步骤S186中发现命令结束电视通信时,那么上述处理到达结束。
为了执行图22中所示的步骤S181的第二指定区域跟踪处理,图2中显示的指定区域跟踪块42具有如图28中所示的配置。
图28中显示的指定区域跟踪块42具有区域指定块211、特征点提取块212、光流计算块213、仿射矩阵计算块214、误差计算块215和分数计算块216。
物体参数从指定区域跟踪块41的分数计算块146或者指定区域跟踪块42的分数计算块216,提供给区域指定块211。当使用图17中所示的区域指定块141时,区域指定块211根据提供的物体参数指定指定的区域,并且提供指定的区域给特征点提取块212。
输入图像从图像拾取块21提供给特征点提取块212。通过将提供的输入图像用于目标输入图像,特征点提取块212以与特征点提取块122(图3)和特征点提取块142(图17)相同的方式,从该目标输入图像提取特征点。类似于特征点提取块142,特征点提取块212根据从区域指定块211提供的指定区域,在提取的特征点中删除任何位于指定区域外的特征点,暂时保存特征点信息。特征点提取块212也提供目标帧特征点信息、以前帧特征点信息和目标输入图像给光流计算块213。特征点提取块212提供目标帧特征点信息和以前帧特征点信息给误差计算块215。
光流计算块213、仿射矩阵计算块214和误差计算块215的功能与图17中所示的光流计算块143、仿射矩阵计算块144和误差计算块145的功能相同,使得其说明将省略。
类似于图17中所示的分数计算块146,分数计算块216确定在从误差计算块215提供的误差中是否存在低于预定阈值T的误差。类似于分数计算块146,分数计算块216根据判决的结果,确定对应于该误差的仿射矩阵的分数。
类似于分数计算块146,分数计算块216在目标输入图像的仿射矩阵中,选择具有最大分数的仿射矩阵作为指定区域中的典型仿射矩阵。类似于分数计算块146,分数计算块216提供典型仿射矩阵的参数给区域指定块211作为物体参数。登记ID也从分数计算块146提供给分数计算块216。当预定时间到来时,分数计算块216将型仿射矩阵的参数与该登记ID一起提供典给校正图像产生块25。
因此,指定区域跟踪块42的配置基本上与指定区域跟踪块41的配置相同。
下面参考图29中所示的流程图说明图22中所示的步骤S181的第二指定区域跟踪处理的细节。
在步骤S201中,区域指定块211确定是否物体参数已经从指定区域跟踪块41输入。如果在步骤S201中发现物体参数从指定区域跟踪块41输入,那么在步骤S202中,区域指定块211根据从指定区域跟踪块41接收的物体参数指定指定区域,提供指定区域给特征点提取块212。
另一方面,如果发现没有物体参数从指定区域跟踪块41输入,那么在步骤S203中,根据随后要说明的步骤S216中要从分数计算块216提供的物体参数,区域指定块211移动指定区域,提供指定区域给特征点提取块212。
步骤S202或步骤S203的处理之后,过程转到步骤S204,其中特征点提取块212得到从图像拾取块21提供的输入图像作为目标输入图像。步骤S205到S215的处理操作与图18中所示的步骤S153到S163的那些相同,因此将省略其说明。
在步骤S215中,选择典型仿射矩阵,以及在步骤S216中,分数计算块216向校正图像产生块25输出典型仿射矩阵的参数与从分数计算块146接收的登记ID作为物体参数,该物体参数作为指定区域的跟踪的结果得到,同时输出物体参数给区域指定块211。然后,过程返回到图22中所示的步骤S181。
如上所述,基本上与由指定区域跟踪块41进行的第一指定区域跟踪处理相同,由指定区域跟踪块42进行的第二指定区域跟踪处理,可以执行快速处理,从而使得能够实时跟踪。当第一指定区域跟踪处理中通过使用从识别块23提供的信息设置要跟踪的初始值时,在第二指定区域跟踪处理中通过使用从指定区域跟踪块41提供的信息设置初始值。当第一指定区域跟踪处理中要处理的图像是存储块22中存储的输入图像时,第二指定区域跟踪处理中图像是从图像拾取块21实时提供的输入图像。
下面参考图30说明图2中所示的图像处理装置11中的处理时序。
应该注意,在图30中,水平方向表示时间。在图30中,每个方块指示在对应于水平方向的时间处理的帧。在每个方块中或上面写的数字指示那个帧的帧号。
如图30的A中所示,在图15中所示的图像拍摄处理中,被摄体由图像拍摄块21拍摄,并且作为输入图像得到以帧为单位的拍摄图像。在图30中所示的例子中,首先登记的输入图像的帧号是”2。
还在图30中所示的例子中,如B中所示,在随后要参考图34到36说明的一般物体识别处理开始的时间与该处理结束的时间之间,拍摄并存储5帧的输入图像。因此,如图30的B中所示,在一般物体识别处理中,在该处理开始时从图像拍摄块21输入的每5帧的输入图像用作目标输入图像。更具体地,在图30中所示的例子中,具有帧号”2、”7、”12、”17...等的输入图像顺序地提供输入图像。
如图30的C中所示,当通过一般物体识别处理从识别块23输入物体参数时,图18中所示的第一指定区域跟踪处理开始。在该第一指定区域跟踪处理中,用于得到在处理开始时输入的物体参数的输入图像提供目标输入图像,即,具有从识别块23提供的帧号的每个输入图像提供目标输入图像,直到最后存储的输入图像用作目标输入图像。即,从拍摄具有从识别块23提供的帧号的输入图像的时间、到第一指定区域跟踪处理已经顺序地结束的时间,拍摄的每个输入图像提供目标输入图像。
应该注意,在图30中所示的例子中,从拍摄具有从识别块23提供的帧号的输入图像的时间到第一指定区域跟踪处理已经结束的时间,拍摄并存储7帧的输入图像。因此,在第一指定区域跟踪处理中,7帧的输入图像提供目标输入图像。
如上所述,在第一指定区域跟踪处理中,在从拍摄用于一般物体识别处理的输入图像的时间、到第一指定区域跟踪处理已经结束的时间拍摄的输入图像中,跟踪指定区域。因此,第一指定区域跟踪处理中输出的物体参数是这样的输入图像的指定区域的跟踪的结果,该输入图像在第二指定区域跟踪处理开始紧前面拍摄。
如图30的D中所示,当物体参数已经通过第一指定区域跟踪处理从指定区域跟踪块41输入、或者在物体参数的输入之后输入图像已经输入时,图29中所示的第二指定区域跟踪处理开始。在该第二指定区域跟踪处理中,使用在处理开始时拍摄的输入图像作为目标图像执行处理。
如上所述,第一指定区域跟踪处理中输出的物体参数是输入图像中指定区域的跟踪的结果,该输入图像在第二指定区域跟踪处理的开始紧前面拍摄,使得在第二指定区域跟踪处理中,根据该物体参数跟踪指定区域允许在处理的开始时拍摄的输入图像中的实时跟踪。因此,当执行准确但花时间的一般物体识别处理时,图2中所示的图像处理装置11允许根据该一般物体识别处理的结果实时跟踪,因此提供实时精确跟踪。
如图30中所示,在本实施例中,第二指定区域跟踪处理不继续到第一指定区域跟踪处理,该第一指定区域跟踪处理根据第二帧到第八帧执行,并且从第一指定区域跟踪处理到第二指定区域跟踪处理进行移动;但是一般物体识别处理和第一指定区域跟踪处理每5帧执行,并且每次这些处理操作执行时重新开始第二指定区域跟踪处理。该配置允许比不重新开始第二指定区域跟踪处理的配置更精确的跟踪。
下面参考图31到33说明要由图2中所示的图像处理装置11提供的效果。
首先,将参考图31说明要由图像拍摄块21实时拍摄的图像。在图31中所示的例子中,在图31A中所示的其目标物体的显示区域(以下称为目标物体区域)是区域P1的输入图像221拍摄之后,拍摄图31B中所示的其目标物体区域是P2的输入图像222,以及拍摄图31C中所示的其目标物体区域是P3的输入图像223。即,拍摄用户从右下到左上移动照片的各状态。
下面参考图32说明这样的情形在该情形中,执行根据作为一般物体识别处理的结果得到的物体参数跟踪指定区域的跟踪处理,并且通过使用作为该处理的结果得到的物体参数产生合成图像。即,下面说明识别块23和指定区域跟踪块41组合的情况。应该注意,在这种情况下,从提供一般物体识别处理中的目标输入图像的输入图像的拍摄、到跟踪处理的开始拍摄的输入图像用于跟踪。
类似于图31的情况,在图32中所示的例子中,顺序拍摄输入图像221(图32A)、输入图像222(图32B)和输入图像223(图32C)。如上所述,通过使用输入图像(该输入图像从拍摄提供一般物体识别处理中的目标输入图像的输入图像的时间、到跟踪处理已经开始的时间拍摄)执行跟踪处理,使得如果根据输入图像223(该输入图像223在通过使用作为跟踪处理的结果得到的物体参数合成时拍摄)产生合成图像,那么在跟踪处理的开始时拍摄的输入图像223之前,根据输入图像221中的物体参数,产生具有在输入图像223的区域P1中嵌入的校正图像的合成图像。因此,校正图像的显示位置延迟跟踪处理的开始和合成的时间之间的时间。
相反,如果执行第一指定区域跟踪处理,该第一指定区域跟踪处理用于根据物体参数(该物体参数作为一般物体识别处理的结果得到)跟踪指定区域,那么执行第二指定区域跟踪处理,用于根据作为第一指定区域跟踪处理的结果得到的物体参数跟踪指定区域,并且通过使用作为第二指定区域跟踪处理的结果得到的物体参数产生合成图像,即,如果由识别块23、指定区域跟踪块41和指定区域跟踪块42执行跟踪,那么得到图33中所示的例子。
在图33中所示的例子中,如图31和32中所示的例子顺序地拍摄输入图像221到223。如上所述,在第一指定区域跟踪处理中,从拍摄提供一般物体识别处理中的目标输入图像的输入图像的时间、到第一指定区域跟踪处理已经结束的时间拍摄的输入图像,提供目标输入图像,使得在第二指定区域跟踪处理中,根据作为第一指定区域跟踪处理的结果得到的物体参数跟踪指定区域,允许在第二指定区域跟踪处理的开始时拍摄的每个输入图像中的实时跟踪。
因此,如图33C中所示,如果拍摄输入图像223,那么根据作为输入图像223中实时跟踪的结果得到的物体参数,产生具有在输入图像223的目标物体的区域P3中嵌入的校正图像的合成图像。
下面参考图34到36中显示的流程图,说明要由图2中显示的识别块23执行的一般物体识别处理。
在步骤S331到S347中,多分辨率产生块131、特征点提取块132和特征量提取块133使用此时进入的输入图像用于目标输入图像,并且对该目标输入图像执行与要由图4和5中所示的步骤S11到S27中的学习块111的多分辨率产生块121、特征点提取块122和特征量提取块123执行的那些基本相同的处理操作。因此,为了简化说明将省略这些处理操作的说明。但是,由识别和学习之间的参数N和α确定的多分辨率图像的配置存在差别。
当多分辨率产生块121以宽放大范围和高精度在学习时产生多分辨率图像时,多分辨率产生块131以粗精度在识别时产生多分辨率图像。更具体地,当本实施例中应用的参数在步骤S12的学习时是N=10和α=0.1时,在步骤S332中的识别时应用的参数是N=2和α=0.5。其原因如下。
(1)为了增强识别的精度,希望通过使用更多数量的特征点特征量信息进行特征量的比较。即,希望从更多多分辨率图像提取特征点。
(2)为了得到比例变化的健壮性,希望尽可能扩宽每个多分辨率图像的配置的比例范围。
(3)因为在登记图像的学习时不需要太重视实时性,所以可以增加登记图像的多分辨率图像的数目,以通过扩宽比例范围提取和保存特征点特征量。
(4)在本实施例中,通过使用kd树的k最近邻居(k-NN)搜索(随后要说明),在从每个目标输入图像提取的特征点特征量之间进行比较,该kd树从所有登记图像的特征点特征量构建,使得用于比较特征量的计算开销随着从每个目标输入图像提取的特征点的数目增大而增大,但是关于登记图像特征点的数目,如果从所有登记图像构造kd树,那么计算开销可以限制在logn的量级(即,O(logn)),其中n表示图像特征点的总数。
(5)另一方面,因为在识别时强调实时性,所以有必要通过降低多分辨率图像的数目尽可能降低计算开销。
(6)但是,如果只使用目标输入图像而不从目标输入图像产生多分辨率图像,并且每个目标输入图像中的登记图像的大小大于原始登记图像的大小,那么该目标物体的识别失效。
因为这些原因,当如图37中所示,尽管在以更宽的范围(N=10,α=0.1)学习以提取更多特征点时,从登记图像产生更多(k=0到9)多分辨率图像,然而在识别时(N=2,α=0.5)从目标输入图像产生最少必要的(k=0,1)多分辨率图像以提取特征点,并且通过对kd树应用k-NN搜索进行特征量比较,从而实现计算开销低和识别精度好的识别处理。图37显示原始登记图像太大、并因此没有具有对应于该原始登记图像的比例的层的目标物体,但是降低原始登记图像(k=0)0.5倍(k=1),以提供具有对应于原始登记图像的比例的层的目标物体。
当已经对所有特征点和所有分辨率图像执行了步骤S331到S345的处理操作时,则过程进行到步骤S348。
如随后将说明的,从目标输入图像提取的每个特征点特征量(维度退化浓度梯度向量组)与登记图像的每个特征点特征量比较,该特征点特征量要与相似的登记图像特征点特征量组合作为候选对应特征点对。最简单的特征量比较方法是全部搜索方法。在这种方法中,对于目标输入图像的每个特征点特征量,执行具有所有登记图像的所有特征点特征量的特征量之间的相似度,并且根据得到的相似度选择相应的特征点对。但是,全部搜索方法在计算开销方面不现实。所以在本实施例中,为了为必要的数据快速搜索大量的数据组,使用树搜索方法,该树搜索方法使用称为kd树的数据结构(J.H.Friedman,J.L.Bentley,R.A.Finkel,“An algorithm for finding best matches inlogarithmic expected time”ACM Transactions on Mathematical Software,Vol.3,No.3,pp.209-226,1977年9月)。kd树表示k维的树结构。
如果迄今为止只有在登记图像字典登记块124中通过学习过程登记的一部分登记图像可以识别,那么在步骤S348中,kd树构造块134只从要识别的登记图像的所有特征点特征量构造kd树。在本实施例中,构造类型1特征量的36d树(k=36)和类型2特征量的类型2树的18d树(k=18)。每个树的每个叶(或端节点)保存具有标签的一个特征点特征量,该标签指示从具有哪个登记ID的多分辨率图像的哪个图像的哪个比例提取一个特定的特征点特征量。
另一方面,为了识别在登记图像字典登记块124中登记的所有登记图像,每次额外学习登记图像时构造树,将构造的树登记到登记图像字典登记块124中。在这种情况下,省略步骤S348中kd树构造的处理。
在步骤S349中,特征量比较块135选择目标输入图像中未处理的特征点。在步骤S350中,特征量比较块135使目标输入图像的类型1特征点特征量和相似的k个登记图像的特征点特征量成对。类似地,在步骤S351中,特征量比较块135使目标输入图像的类型2特征点特征量和相似的k个登记图像的特征点特征量成对。
即,由特征量比较块135根据k-NN搜索方法(k-NN方法的k的值与kd树的k的值可能不同(或者相同)),使由特征点提取块132和特征量提取块133提取的目标输入图像的每个特征点特征量、与在特征量上相似的k个(在图38中所示的例子中为4)登记图像特征点特征量成对。在本实施例中,下面等式(12)中所示的欧几里得距离(随着这个距离的值增大,相似度降低)用于在对类型1特征量的k-NN搜索中使用的差异度,并且下面等式(13)中所示的余弦相关值(随着这个余弦相关值的值增大,相似度增大)用于类型2特征量的相似度。
在上面的等式(12)中,uv和vv指示要为差异度计算的特征量向量,un和vn是指示uv和vv的n维的值,并且N指示uv和vv向量的维度的数量。
在上面的等式(13)中,uv和vv指示要为相似度计算的特征量向量,并且uv.vv指示向量的内积。在提取在特征量上互相类似的k个对中,可以插入阈值判决,用于确定差异度(对类型1特征量)和相似度(对于类型2特征量)。上述的余弦相关值用于类型2特征量的相似度计算比例,以防止特征量受由于亮度变化而造成的局部浓度梯度向量的强度变化的影响。也可实践的是将uv和vv向量归一化到1,以对类型2特征量使用归一化向量的欧几里得距离作为差异度,而不是根据余弦相关值使用相似度。在这种情况下,特征量也变得不受由于亮度变化而造成的局部浓度梯度向量的强度变化的影响。
特征量比较块135对每个目标输入图像的特征点执行步骤S349到S351的处理操作。在步骤S352中,特征量比较块135确定是否已经处理了所有特征点。如果发现任何未处理的特征点,则过程返回到步骤S349以从那里重复上述处理。如果在步骤S352中发现处理了所有特征点,那么过程进行到步骤S353。
因为使用两种类型(类型1和类型2)的特征量,所以在通过上述方法、对于每个特征量类型得到用于输入的目标输入图像的特征点的特征点对之后,特征量比较块135在步骤S353中只选择对类型1和类型2共同提取的特征点对,作为候选对应特征点对,为每个登记图像分类得到的候选对应特征点对。然后,提供这些候选对应特征点给估计块136。为了对每个登记图像执行处理,估计块136在将这些对传递到下面的阶段之前,为每个登记图像分类提取的候选对应特征点对,因此使处理更有效率。
图38以示意的方式显示上述处理。kd树构造块134产生类型1的36d树结构和类型2的18d树结构。为了类型1特征量的4个相似对,通过k-NN搜索(在这个例子中,k=4)从目标输入图像的特征量搜索类型1特征量的36d树结构。在这个例子中,为如类似于类型1特征量36d树结构的五边形、三角形、圆形和十字形,搜索目标输入图像中由正方形表示的特征点特征量(在这个图中,正方形、五边形、三角形、圆形和十字形指示特征点特征量)。更进一步地,为了类型2特征量的4个相似对,类型2特征量18d树结构通过k-NN搜索方法搜索。在这个例子中,如类似于类型2特征量18d树结构中的平行四边形、十字形、圆形或菱形,检索(retrieve)目标输入图像中的正方形。
从类型1特征量的4个相似对和类型2特征量的4个相似对选择共同相似对组。在这个例子中,存在类型1特征量的4个相似对,即正方形和五边形、正方形和三角形、正方形和圆形以及正方形和十字形。另一方面,存在类型2特征量的4个相似对,即正方形和平行四边形、正方形和十字形、正方形和圆形以及正方形和菱形。因此,正方形和圆形以及正方形和十字形的相似对是这两种类型共同的特征点对,使得选择这些对作为候选对应特征点对(或集合)。
也可实践的是,为每个特征量类型和每个登记图像构造kd树,以对每个登记图像搜索目标输入图像的每个特征点特征量的k-NN,而不是从所有登记图像的所有特征点特征量构造一个kd树,以为每个特征量类型搜索目标输入图像的每个特征点特征量的k-NN。在任何一种情况下,输出是为每个登记图像分类的候选对应特征点对组,并因此以后要说明的随后的处理变得对两种情况相同。
上述处理允许在特征点邻域提取局部浓度梯度信息相似的对组(或者登记图像特征点和目标输入图像特征点的对);但是,宏观地,因此获得的对组不仅包括与目标物体的位置姿态不矛盾的“真特征点对(内露层)”(在该“真特征点对(内露层)”中,相应特征点的空间位置关系对应登记图像),而且包括与位置姿态矛盾的“假特征对(外露层)”。
图39以示意的方式显示内露层和外露层。如图中所示,当图的左侧中显示的三角形登记图像对应图的右侧中显示的目标输入图像中的三角形检测的目标物体时,登记图像的三角形的顶点邻域的特征点P1到P4达到分别对应检测的目标物体的特征点P11到P14。即,特征点P1对应特征点P11,特征点P2对应特征点P12,特征点P3对应特征点P13以及特征点P4对应特征点P14。因此,这些候选对应特征点对配置内露层。应该注意,在图39中,内露层由实线指示。
另一方面,登记图像的特征点P位于近似三角形的中心,并且特征点P6位于三角形的外围邻域的外面。相反,与特征点P5成对的目标输入图像的特征点P15、以及与特征点P6成对的目标输入图像的特征点P16,位于远离检测的目标物体。即,特征点P5和特征点P15的候选对应特征点对、以及特征点P6和特征点P16的候选对应特征点对是外露层。应该注意,在图39中,外露层由虚线指示。
对于从候选对应特征点对获得物体参数(该物体参数用于确定目标物体的目标输入图像中的位置和姿态)的方法,可能的方法是由最小平方估计获得估计的图像变换参数。目标物体的位置和姿态可以通过重复排除如下对、和通过使用剩余的对由最小平方估计获得估计的图像变换参数的处理更精确地获得,在所述对中结果估计的目标物体位置和姿态与空间位置关系之间存在矛盾。
但是,如果候选对应特征点对中外露层的数目大,或者如果存在任何极度偏离真图像变换参数的外露层,那么已知通过最小平方估计的估计结果一般不令人满意(Hartley R.,Zisserman A.,“Multiple View Geometry in ComputerVision,”Chapter 3,pp.69-116,Cambridge University Press,2000)。因此,本实施例的估计块136在一些图像变换的限制下,从候选对应特征点对的空间位置关系提取“真特征点对(内露层)”,并且通过使用提取的内露层,估计用于确定目标物体的位置姿态的图像变换参数。
对受到识别的每个登记图像执行估计块136的该估计处理,以确定是否对每个登记图像存在目标物体,因此如果发现相应的目标物体,那么估计位置姿态。下面说明中的候选对应特征点对表示这样的对组,其中只有与候选对应特征点对中涉及的登记图像相关联的对是特征量比较块135的输出。
图像变换包括欧几里得变换、相似变换、仿射变换和投射变换。在本实施例中,将对仿射变换的限制下执行位置姿态估计的情况进行详细说明。如上所述,不能计算仿射变换参数,除非存在三个或更多特征点集合,使得在步骤S354中选择一个未处理的登记图像,估计块136在步骤S354中确定是否存在三个或更多候选对应特征点对(集合)。
如果候选对应特征点对的数目是2或更小,那么估计块136在步骤S356中确定目标输入图像中不存在目标物体,或者目标物体位置姿态的检测失败,因此输出“识别无效“。另一方面,如果发现三个或更多候选对应特征点集合,那么它指示目标物体位置姿态的检测有效,使得估计块136执行仿射变换参数的估计。因此,估计块136在步骤S357中执行坐标变换。即,候选对应特征点集合的登记图像特征点位置姿态变换为原始登记图像上的位置坐标,并且同时,目标输入图像特征点位置坐标变换为输入原始图像的位置坐标。然后,在步骤S358中,估计块136执行估计处理。
现在,设由候选对应特征点的3个集合组成的对组P为([x1y1]T,[u1v1]T)、([x2y2]T,[u2v2]T)、([x3y3]T,[u3v3]T),然后对组P和仿射变换参数的关系以下面的关系式[14]中所示的线性系统表达。
使用上面的关系式(14),当重写为Axv=bv(下标V指示前面的是向量(例如xv的x))时,仿射变换参数xv的最小平方解由下面的等式(15)给出。
xv=A-1bv(15) 如果重复地从候选对应特征点集合组随机选择对组P,以便在一个或更多外露层中混合,那么该仿射变换参数分散地投射在参数空间中。另一方面,如果重复地随机选择只由内露层组成的对组P,那么仿射变换参数变得与目标物体位置姿态的真仿射变换参数非常近似,即在参数空间中距离近。因此,重复从候选对应特征点集合组随机选择对组P、以将仿射变换参数投射到参数空间中的处理,导致内露层形成参数空间中高度集中(或者成员的数目高)的簇(cluster),导致外露层以分散的方式出现。即,在参数空间中成簇(clustering)导致具有最多成员的簇的元素提供内露层。
下面参考图40中所示的流程图说明要由估计块136执行的估计处理的细节。为了由估计块136成簇,使用NN(最近邻居)方法。因为上述参数b1、b2依赖于登记图像取各种值,所以成簇中成簇阈值的选择也依赖于x-空间中的登记图像。因此,在如下假定下,估计块136只在定义参数a1,...,a4(以下表示为av)的参数空间中执行成簇,该假定是很少发现给出仿射变换参数的对组P,在该对组中,真参数和参数a1,...,a4之间存在相似度,但是参数b1、b2不同。应该注意,即使发生上述假定不能建立的情况,在由参数b1、b2组成的独立于av空间的参数空间中也可以执行成簇,以通过考虑成簇的结果容易地防止该问题。
首先,在步骤S401中,估计块136执行初始化处理。更具体地,指示重复的数目的变量的计数值cnt设置为1,并且从候选对应特征点集合组随机选择3对作为对组P1,因此得到仿射变换参数av1。另外,估计块136设置指示簇的数目的变量N为1,在仿射变换参数空间av中创建围绕av1的簇Z1。估计块136设置这个簇Z1的质心cv1为av1,以及指示簇成员的数目的变量nz1为1,因此更新计数值cnt为2。
接下来,在步骤S402中,估计块136从候选对应特征点集合组随机选择3对作为对组Pcnt,因此计算仿射变换参数aVcnt。然后,估计块136将得到的仿射变换参数aVcnt投射到参数空间中。
在步骤S403中,估计块136通过NN方法使仿射变换参数空间成簇。更具体地,估计块136根据下面的等式(16),得到仿射变换参数aVcnt和每个簇Zi之间到质心cvi(i=1,...,N)的距离d(aVcnt,cvi)的最小距离dmin。
dmin=min1≤i≤N{d(aVcnt,cVi)}...(16) 然后,如果对预定的阈值τ(例如τ=0.1)dmin<τ,那么估计块136使aVcnt属于给出dmin的Zi,因此在包括aVcnt的所有成员中更新簇Zi的质心ci。簇Zi的成员数nzi等于nzi+1。另一方面,如果dmin≥τ,那么估计块136创建新的簇ZN+1,在该新的簇ZN+1中,aVcnt是仿射变换参数空间aV中的质心cVN+1,设置该簇的成员数nzN+1为1以及簇的数目N为N+1。
接下来,在步骤S404中,估计块136确定是否满足重复结束条件。重复结束条件可以是例如最大成员数目超过预定阈值(例如15)、并且最大成员数目和次最大成员数目之间的差别超过预定阈值(例如3)或者重复计数器的计数值cnt超过预定阈值(例如5000)。如果在步骤S404中发现不满足重复结束条件(判决为否),那么估计块136在步骤S405中设置重复的数目的计数值cnt为cnt+1,在此过程返回到步骤S402以从那里重复上述处理。
另一方面,如果如果在步骤S404中发现满足重复结束条件(判决为是),那么在步骤S406中,如果由上述处理得到的内露层的数目小于3对,那么因为仿射变换参数未确定,所以估计块136输出识别的结果为“未检测到目标物体”;如果提取的内露层的数目是3对或更多,那么估计块136根据内露层,通过最小平方方法估计用于确定目标物体位置姿态的仿射变换参数,以输出估计的仿射变换参数作为识别的结果。
如果内露层是([xIN1 yIN1]T,[uIN1 vIN1]T)、([xIN2 yIN2]T,[uIN2 vIN2]T)等,那么以下面的关系式(17)中所示的线性系统,表达内露层和仿射变换参数之间的关系。
当上面的关系式重新写为AINxVIN=bVIN时,仿射变换参数xVIN的最小平方解由下面的等式(18)给出。
xVIN=(AINT AIN)1AINTbVIN…(18) 在步骤S406中,估计块136估计该仿射变换参数xVIN为物体参数。估计块136使该物体参数与对应于步骤S354中选择的登记图像的登记ID相关,并且保存该相关信息。
再次参考图36,在步骤S358或S356的处理之后,估计块136在步骤S359中确定是否已经处理了所有登记图像。如果发现任何未处理的登记图像,那么过程返回到步骤S354以从那里重复上述处理。如果在步骤S359中发现处理了所有登记图像,那么在步骤S360中,估计块136将在步骤S406中保存的物体参数和登记ID,与目标输入图像的帧号一起,输出到指定区域跟踪块41。
在步骤S361中,多分辨率产生块131确定用户是否已经命令电视通信的结束。如果未发现命令结束电视通信,那么过程返回到步骤S331以从那里开始上述处理。如果发现命令结束电视通信,那么过程到达结束。
对每个要识别的登记图像执行图36中所示的步骤S354到S359的处理操作。该处理在图41中以示意的方式显示。在该例子中,首先从候选对应特征点集合组p1到p6随机选择3个候选对应特征点集合组p1、p3和p4,并且根据选择的组得到的仿射变换参数被投射到参数空间中。接下来,随机选择3个候选对应特征点集合组p3、p4和p6,并且根据这些组得到的仿射变换参数被投射到参数空间中。重复类似的处理以在该例子中选择3个候选对应特征点集合组p5、p4和p1,并且根据这些组得到仿射变换参数以投射到参数空间中。然后,在参数空间中,相邻仿射变换参数成簇,并且应用最小平方方法到成簇的仿射变换参数以确定物体参数。
如果其许多包括在候选对应特征点集合组中,那么上述技术允许排除外露层,因此精确地执行位置姿态估计(或者物体参数获得)。
在上述实施例中,已经详细说明详述了仿射变换的限制下的位置姿态估计。在仿射变换的限制下,在平面区域中支配的三维物体(如例如盒子或书)可行执行对该支配平面的观察点变化健壮的位置姿态估计。但是,执行对在曲面与凹陷和凸起中支配的三维物体健壮的位置姿态估计,需要扩展仿射变换限制到投射变换限制。应该注意,也在这种情况下,只有要估计的变换参数的维数增大,并且因此可以容易地扩展上述技术。
这样得到的目标物体的位置姿态在图37和39中以虚线表示。如这些图中所示,在本实施例中,不仅检测对应于登记图像的目标物体的存在或不存在,而且如果目标物体存在,那么估计并输出其位置姿态。
应该注意,因为由估计块136估计的目标物体的位置姿态表示相对于目标输入图像的目标物体的位置姿态,所以如果目标物体的位置姿态被认为是参考位置姿态,那么估计块136对登记图像估计目标物体的位置姿态。
在上面的说明中,阈值τ是常数值。在重复步骤S402到S405的处理中也可实践的是使用所谓的退火(annealing)方法的技术,在该退火方法中,首先使用相对大的阈值τ使用粗内露层提取,并且随着重复数目的增大,使用更小的阈值τ。这种方法允许精确地提取内露层。
在上面的说明中,通过重复从候选对应特征点集合组随机选择对(集合)组P、投射得到的仿射变换参数到参数空间中、并且使用具有最大成员数目的簇的元素作为内露层的处理,根据最小平方方法估计物体参数。但是,也可实践的是,使用具有最大成员数目的簇的质心作为物体参数。另外,可以由3个或更多特征点配置每个对。
如上所述,对于每个登记图像将由特征量比较块135为每个登记图像提取的特征点对分类,并且对每个登记图像由估计块136执行位置姿态估计,使得即使对每个目标输入图像中包括两个或更多登记图像的图像,也可以识别每个目标物体登记图像。
在上述实施例中,在第一指定区域跟踪处理和第二指定区域跟踪处理的每个中选择3个特征点。但是,也可实践的是选择多于3个特征点。
在上述实施例中,从第一指定区域跟踪处理和第二指定区域跟踪处理的每个中的光流计算仿射矩阵。也可实践的是计算投射变换矩阵。在这种情况下,选择4个或更多个特征点,并且从这些特征点的光流计算投射变换矩阵。
在图2中所示的图像处理装置11中,第一指定区域跟踪处理和第二指定区域跟踪处理分别由指定区域跟踪块41和指定区域跟踪块42执行,作为分开的线程。但是,也可实践的是由两个指定区域跟踪块交替执行第一和第二指定区域跟踪处理操作。
参考图42,显示说明图像处理装置11的示范性配置的方块图,其中由两个指定区域跟踪块交替执行第一和第二指定区域跟踪处理操作。
图42中所示的图像处理装置11具有图像拾取块21、存储块22、识别块23、合成块26、输出块27、控制块28、服务器29、跟踪单元301和校正图像产生块302。应该注意,参考图42,类似于那些以前参考图2说明的组件由相同的参考号码表示,并因此为了说明的简洁将省略其说明。
跟踪单元301具有指定区域跟踪块311和指定区域跟踪块312。指定区域跟踪块311和指定区域跟踪块312,每个由图17中所示的指定区域跟踪块41和图28中所示的指定区域跟踪块42的组合配置,因此执行图18中所示的第一指定区域跟踪处理和图29中所示的第二指定区域跟踪处理。指定区域跟踪块311和指定区域跟踪块312将从识别块23接收的识别ID和作为第二指定区域跟踪处理的结果得到的物体参数,提供给校正图像产生块302。
校正图像产生块302提供从指定区域跟踪块311或指定区域跟踪块312接收的登记ID给控制块28,因此向控制块28请求对应于这个登记ID的登记图像。根据响应于请求从控制块28提供的登记图像、以及从指定区域跟踪块311或指定区域跟踪块312接收的物体参数,校正图像产生块302产生具有与目标物体的那些相同大小和姿态的登记图像,作为校正图像。校正图像产生块302将从指定区域跟踪块311或指定区域跟踪块312接收的物体参数和产生的校正图像,提供给合成块26。
如上所述,因为图42中所示的图像处理装置11的跟踪单元301具有有相同配置的指定区域跟踪块311和指定区域跟踪块312,所以可以容易地进行跟踪单元301的开发、修改和维护。
要在存储块22中执行的存储处理如参考图15所说明的。
下面参考图43中所示的流程图说明要由图42中所示的图像处理装置11执行的第一实时跟踪处理。
在步骤S531中,通过使用在图15的步骤S101中从图像拾取块21输入的输入图像作为目标输入图像,识别块23执行图34到36中所示的一般物体识别处理。
在步骤S532中,识别块23确定用户是否已经命令结束电视通信,并且重复步骤S531的处理,直到命令电视通信的结束。如果在步骤S532中发现命令结束电视通信,那么过程到达结束。
下面参考图44所示的流程图,说明要由图42中所示的图像处理装置11执行的第二实时跟踪处理。当例如登记ID、帧号和物体参数作为步骤S531中执行的一般物体识别处理的结果从识别块23输出时,该第二实时跟踪处理由指定区域跟踪块311和指定区域跟踪块312的每个执行。
在步骤S561中,指定区域跟踪块311和指定区域跟踪块312每个确定是否已经到达其处理时序。例如,指定区域跟踪块311和指定区域跟踪块312确定如果已经捕获来自识别块23的以前输出,那么时序还未到达该时间。因此,指定区域跟踪块311和指定区域跟踪块312确定每次登记ID、帧号和物体参数从识别块23输出时,其时序已经交替到来。
如果在步骤S561中发现时序不是用于自身处理的时序,那么指定区域跟踪块311或指定区域跟踪块312结束处理。另一方面,如果在步骤S561中发现时序是用于自身处理的时序(识别块23的输出不是最后捕获的),那么指定区域跟踪块311或指定区域跟踪块312在步骤S562中捕获识别块23的输出。
在步骤S563中,指定区域跟踪块311或指定区域跟踪块312执行图18中所示的第一指定区域跟踪处理。在步骤S564中,指定区域跟踪块311或指定区域跟踪块312执行图29中所示的第二指定区域跟踪处理。步骤S565到S568的处理操作与图22中所示的步骤S 182到S 185的那些相同,并因此将省略其说明。
下面参考图45A、45B、45C和45D说明要由图42中所示的图像处理装置11执行的处理的时序。
应该注意,图45A、45B、45C和45D中的水平方向如图30A、30B、30C和30D指示时间。参考图45A、45B、45C和45D,每个正方形指示要在对应于水平位置的时间执行的帧,并且在每个正方形中或上面显示的号码如图30A、30B、30C和30D指示该帧的帧号。
图45A中所示的存储处理和图45B中所示的一般物体识别处理,分别与图30A中所示的存储处理和图30B中所示的一般物体识别处理相同,使得将省略其说明。
如图45C中所示,当输出的数目(如通过由识别块23执行的一般物体识别处理得到的物体参数)是奇数时,通过指定区域跟踪块311的处理开始。在通过指定区域跟踪块311的第一指定区域跟踪处理中,如图30C中所示的第一指定区域跟踪处理,用于得到处理开始时输入的物体参数的输入图像提供目标输入图像,即,具有从识别块23提供的帧号的每个输入图像提供目标输入图像,直到最后存储的输入图像用作目标输入图像。
接下来,当已经通过第一指定区域跟踪处理计算了物体参数时,如图30D中所示的第二指定区域跟踪处理,通过使用在处理开始时拍摄的输入图像作为目标输入图像,执行第二指定区域跟踪处理。然后,每次从图像拾取块21输入输入图像时,通过使用输入图像作为目标输入图像执行该第二指定区域跟踪处理,直到通过指定区域跟踪块312的第一指定区域跟踪处理结束。
即,通过使用下述图像作为目标输入图像,执行第二指定区域跟踪处理,该图像在通过指定区域跟踪块311的第一指定区域跟踪处理的结束、和通过指定区域跟踪块312的第一指定区域跟踪处理的结束之间拍摄。
在通过指定区域跟踪块311的第一指定区域跟踪处理的结束、和通过指定区域跟踪块312的第一指定区域跟踪处理的结束之间拍摄的输入图像的帧的数目,等于在通过指定区域跟踪块311的第一指定区域跟踪处理、和通过指定区域跟踪块312的第一指定区域跟踪处理的开始之间(即,在一般物体识别处理必需的时间段期间)拍摄的输入图像的帧的数目。在图45A、45B、45C和45D中所示的例子中,如图30A、30B、30C和30D中所示的例子,一般物体识别处理必需的时间等于等于存储5帧输入图像所需的时间,使得用作第二指定区域跟踪处理中的目标输入图像的输入图像的帧的数目是5。
如图45D中所示,当输出的数目(如通过由识别块23执行的一般物体识别处理得到的物体参数)是偶数时,通过指定区域跟踪块312的处理开始。通过指定区域跟踪块312第一指定区域跟踪处理和第二指定区域跟踪处理,只是在时序上不同于通过图45C中所示的指定区域跟踪块311的处理,并且因此通过指定区域跟踪块312第一指定区域跟踪处理和第二指定区域跟踪处理,以与通过指定区域跟踪块311的处理基本相同的方式执行。
如上所述,在图42中所示的图像处理装置11中,通过指定区域跟踪块311的第二指定区域跟踪处理,执行从该处理的开始到通过指定区域跟踪块312的第二指定区域跟踪处理的开始拍摄的每个输入图像的跟踪,并且通过指定区域跟踪块312的第二指定区域跟踪处理,执行从该处理的开始到通过指定区域跟踪块311的第二指定区域跟踪处理的开始拍摄的每个输入图像的跟踪。因此,图42中所示的图像处理装置11可以执行由图像拾取块21拍摄的每个输入图像的实时跟踪。
在上面的说明中,图像处理装置11执行能够以较小负载快速处理的第一和第二指定区域跟踪处理、以及与负载更大的一般物体识别处理组合的处理,使快速处理困难。但是,也可实践的是与第一和第二指定区域跟踪处理组合的识别处理是除了一般物体识别处理外的任何识别处理。例如,图像处理装置11可以执行这样的处理,在该处理中,第一和第二指定区域跟踪处理与计算机码识别处理或精度比前者低的颜色识别处理组合。在这种情况下,根据由计算机码识别处理或颜色识别处理松散识别的位置和姿态,图像处理装置11可以执行第一和第二指定区域跟踪处理,因此更详细地识别每个目标物体的位置和姿态。
在上面的说明中,本发明应用到执行电视通信的图像处理装置。但是显然,本发明也可以应用到任何执行跟踪的图像处理装置。
图46和47显示对其应用了本发明的眼镜类型的可佩带计算机的概要。
如图46中所示,当用户佩带眼镜类型的可佩带计算机401、并且观看用计算机码402A打印的一张纸402时,眼镜类型的可佩带计算机401通过未显示的成像块拍摄那张纸402的图像,因此通过使用作为图像拍摄的结果得到的输入图像411,执行计算机码识别处理以及第一和第二指定区域跟踪处理。因此,计算输入图像411中计算机码402A的物体参数。然后,根据得到的物体参数和预先存储的与计算机码402A相关联的关联图像421,眼镜类型的可佩带计算机401在未显示的输出块上显示具有关联图像421的合成图像412,该相关联的图像421嵌入在输入图像411中的计算机码402A的区域中。
因此,移动那张纸402,用户能够移动合成图像412中的关联图像421的位置,或者放大或缩小关联图像421的大小。
如图47中所示,当用户佩带眼镜类型的计算机401并且观察例如位于街道上的海报501时,眼镜类型的可佩带计算机401通过未显示的成像块拍摄海报501的图像,并且通过使用作为图像拍摄的结果得到的输入图像511,执行一般物体识别处理以及第一和第二指定区域跟踪处理。因此,计算输入图像511中海报501的物体参数。然后,根据得到的物体参数以及作为与预先存储的海报501相关联的关联图像、用于广告的移动图像521,眼镜类型的可佩带计算机401在未显示的输出块上显示具有移动图像的合成图像512,该移动图像521嵌入在输入图像511中的海报501的区域中。
因此,广告者可以例如只通过将海报501放在街道上,向用户提供可以包括比海报501更多条信息的移动图像521。
应该注意,在图46中所示的例子中,关联图像421嵌入在输入图像411中的计算机码402A的区域中;但是,关联图像421的大小和姿态可能与计算机码402A的那些不同。例如,如图24中所示的例子,具有面向眼镜类型的可佩带计算机401的成像拍摄块的光轴的姿态的关联图像421,可以用与输入图像411中的计算机码402A的大小相同的大小显示。这对图47中所示的例子也保持正确。
上述处理操作的序列可以由软件以及硬件执行。
这里应该注意,用于说明记录在记录介质中的每个程序的步骤,不仅包括以时间依赖的方式顺序执行的处理操作,而且包括并发或离散执行的处理操作。
也应该注意,这里使用的术语“系统”表示由多个组成元件配置的整个装置。
虽然已经使用特定术语说明了本发明的优选实施例,但是这样的说明只是为了说明目的,并且要理解的是,可以进行改变和变化而不背离权利要求书的精神或范围。
相关申请的交叉引用
本发明包含涉及于2007年2月20日向日本专利局提交的日本专利申请JP 2007-038853的主题,这里通过引用合并该申请的全部内容。
权利要求
1.一种图像处理装置,用于从拍摄图像识别对应于预先登记的登记图像的物体,该图像处理装置包括
图像拍摄器,被配置来拍摄被摄体的图像以获得所述被摄体的所述拍摄图像;
识别器,被配置来从所述拍摄图像识别对应于所述登记图像的物体;
第一指定区域跟踪器,被配置来执行第一指定区域跟踪处理,用于跟踪所述拍摄图像中、根据由所述识别器的识别的结果指定的第一跟踪区域;以及
第二指定区域跟踪器,被配置来执行第二指定区域跟踪处理,用于跟踪根据所述第一指定区域跟踪处理的结果指定的第二指定区域。
2.根据权利要求1所述的图像处理装置,其中所述第一指定区域跟踪器在范围从用于由所述识别器在识别中使用的图像的拍摄、到所述第一指定区域跟踪处理的结束的时间段中,对每个拍摄图像执行所述第一指定区域跟踪处理。
3.根据权利要求1所述的图像处理装置,还包括
产生器,被配置来根据所述第二指定区域跟踪处理的结果和所述登记图像,产生具有与所述物体的大小和姿态基本相同的大小和相同的姿态的登记图像,作为用于校正所述拍摄图像的校正图像;以及
合成器,被配置来根据所述第二指定区域跟踪处理的结果,将所述校正图像与所述拍摄图像中的所述第二指定区域合成。
4.根据权利要求3所述的图像处理装置,其中如果用于显示所述拍摄图像的屏幕的面积与所述校正图像的面积的比率等于或高于参考值,那么所述合成器将所述校正图像与所述拍摄图像中的所述第二指定区域合成,而如果所述比率低于所述参考值,那么将所述校正图像和所述拍摄图像合成,作为用于其整个中的所述屏幕的图像。
5.根据权利要求1所述的图像处理装置,还包括
产生器,被配置来根据所述第二指定区域跟踪处理的结果和所述登记图像,产生具有与所述物体的大小基本相同的大小和预定姿态的登记图像,作为用于校正所述拍摄图像的校正图像;以及
合成器,被配置来根据所述第二指定区域跟踪处理的结果,将所述校正图像和所述拍摄图像中的所述第二指定区域的位置合成。
6.根据权利要求1所述的图像处理装置,还包括
产生器,被配置来根据所述第二指定区域跟踪处理的结果和与所述登记图像相关联的关联图像,产生具有与所述物体的大小和姿态基本相同的大小和相同的姿态的关联图像,作为用于校正所述拍摄图像的校正图像;以及
合成器,被配置来根据所述第二指定区域跟踪处理的结果,将所述校正图像和所述拍摄图像中的所述第二指定区域合成。
7.根据权利要求1所述的图像处理装置,其中所述第一指定区域跟踪器具有
第一指定器,被配置来指定所述第一指定区域;
第一提取器,被配置来提取所述拍摄图像中的所述第一指定区域中的第一特征点;
第一计算器,被配置来计算指示所述第一特征点的移动的第一移动信息;
第一参数计算器,被配置来从所述第一移动信息计算指示所述第一指定区域的位置和姿态的第一参数;
第一误差计算器,被配置来计算第一误差,该第一误差是乘法值和指示所述拍摄图像中的所述第一指定区域中的第一特征点的位置的值之间的误差,该乘法值通过将所述第一参数乘以如下值得到,该值指示所述拍摄图像之前拍摄的拍摄图像的所述第一指定区域中的第一特征点的位置;以及
第二分数计算器,被配置来根据所述第一误差计算所述第一参数的第一分数;
其中所述第一指定器根据具有其最高的所述第一分数的所述第一参数,移动所述第一指定区域,
所述第二指定区域跟踪器具有
第二指定器,被配置来根据所述第一参数指定所述第二指定区域;
第二提取器,被配置来提取所述拍摄图像中的所述第二指定区域中的第二特征点;
第二计算器,被配置来计算指示所述第二特征点的移动的第二移动信息;
第二参数计算器,被配置来从所述第二移动信息计算指示所述第二指定区域的位置和姿态的第二参数;
第二误差计算器,被配置来计算第二误差,该第二误差是乘法值和指示所述拍摄图像中的所述第二指定区域中的第二特征点的位置的值之间的误差,该乘法值通过将所述第二参数乘以如下值得到,该值指示所述拍摄图像之前拍摄的拍摄图像的所述第二指定区域中的第一特征点的位置;以及
分数计算器,被配置来根据所述第二误差计算所述第二参数的第二分数;
其中所述第二指定器根据具有其最高的所述第二分数的所述第二参数,移动所述第二指定区域。
8.根据权利要求7所述的图像处理装置,其中所述第一移动信息和所述第二移动信息每个是光流。
9.根据权利要求7所述的图像处理装置,其中所述第一参数和所述第二参数每个是仿射变换和投射变换的参数的至少之一。
10.根据权利要求7所述的图像处理装置,其中所述第一参数计算器从至少三个所述第一特征点和至少四个所述第一特征点的至少之一的所述第一移动信息,计算所述第一参数;以及
所述第二参数计算器从至少三个所述第二特征点和至少四个所述第二特征点的至少之一的所述第二移动信息,计算所述第二参数。
11.一种用于图像处理装置的图像处理方法,用于从拍摄图像识别对应于登记图像的物体,该方法包含如下步骤
拍摄被摄体的图像以获得所述被摄体的所述拍摄图像;
从所述拍摄图像识别对应于所述登记图像的物体;
执行第一指定区域跟踪处理,用于跟踪所述拍摄图像中、根据所述识别步骤中识别的结果指定的第一跟踪区域;以及
执行第二指定区域跟踪处理,用于跟踪根据所述第一指定区域跟踪处理的结果指定的第二指定区域。
12.一种被配置来使计算机执行识别处理的程序,该识别处理用于从拍摄图像识别对应于预先登记的登记图像的物体,包含如下步骤
拍摄被摄体的图像以获得所述被摄体的所述拍摄图像;
从所述拍摄图像识别对应于所述登记图像的物体;
执行第一指定区域跟踪处理,用于跟踪所述拍摄图像中、根据由所述识别步骤中识别的结果指定的第一跟踪区域;以及
执行第二指定区域跟踪处理,用于跟踪根据所述第一指定区域跟踪处理的结果指定的第二指定区域。
13.一种图像处理装置,用于从拍摄图像识别对应于预先登记的登记图像的物体,该图像处理装置包含
图像拍摄器,被配置来拍摄被摄体的图像,以获得对应于所述被摄体的所述拍摄图像;
识别器,被配置来从所述拍摄图像识别对应于所述登记图像的物体;
两个指定区域跟踪器,被配置来执行第一指定区域跟踪处理和第二指定区域跟踪处理,该第一指定区域跟踪处理用于跟踪所述拍摄图像中、根据由所述识别器的识别的结果指定的第一指定区域,该第二指定区域跟踪处理跟踪所述拍摄图像中、根据所述第一指定区域跟踪处理的结果指定的第二指定区域,
其中所述两个指定区域跟踪器交替执行所述第二指定区域跟踪处理,所述两个指定区域跟踪器之一开始所述第一指定区域跟踪处理,同时另一个正执行所述第二指定区域跟踪处理。
14.根据权利要求13所述的图像处理装置,其中所述两个指定区域跟踪器之一,在范围从用于由所述识别器在识别中使用的拍摄图像的拍摄、到所述第一指定区域跟踪处理的结束的时间段中拍摄的每个拍摄图像中,执行所述第一指定区域跟踪处理,并且在范围从所述第一指定区域跟踪处理的结束、到由其他指定区域跟踪器执行的所述第一指定区域跟踪处理的结束的时间段中拍摄的每个拍摄图像中,执行所述第二指定区域跟踪处理。
15.一种用于图像处理装置的图像处理方法,用于从拍摄图像识别对应于预先登记的登记图像的物体,包含如下步骤
拍摄被摄体的图像以获得对应于所述被摄体的所述拍摄图像;
从所述拍摄图像识别对应于所述登记图像的物体;
由两个指定区域跟踪器执行第一指定区域跟踪处理和第二指定区域跟踪处理,该第一指定区域跟踪处理用于跟踪所述拍摄图像中、根据由所述识别器识别的结果指定的第一指定区域,该第二指定区域跟踪处理用于跟踪所述拍摄图像中、根据所述第一指定区域跟踪处理的结果指定的第二指定区域,
其中当第一指定区域跟踪处理和第二指定区域跟踪处理之一正在执行所述第二指定区域跟踪处理时,另一个开始所述第一指定区域跟踪处理,由此交替执行所述第二指定区域跟踪处理,该第一指定区域跟踪处理用于跟踪所述拍摄图像中、根据所述识别的结果指定的第一指定区域,该第二指定区域跟踪处理用于根据所述第一指定区域跟踪处理的结果,跟踪所述拍摄图像中的第二指定区域。
16.一种被配置来使计算机执行识别处理的程序,该识别处理用于从拍摄图像识别对应于预先登记的登记图像的物体,包含如下步骤
拍摄被摄体的图像以获得对应于所述被摄体的所述拍摄图像;
从所述拍摄图像识别对应于所述登记图像的物体;
由两个指定区域跟踪器执行第一指定区域跟踪处理和第二指定区域跟踪处理,该第一指定区域跟踪处理用于跟踪所述拍摄图像中、根据由所述识别器的识别的结果指定的第一指定区域,该第二指定区域跟踪处理用于跟踪所述拍摄图像中、根据所述第一指定区域跟踪处理的结果指定的第二指定区域,
其中当第一指定区域跟踪处理和第二指定区域跟踪处理之一正在执行所述第二指定区域跟踪处理时,另一个开始所述第一指定区域跟踪处理,由此交替执行所述第二指定区域跟踪处理,该第一指定区域跟踪处理用于跟踪所述拍摄图像中、根据所述识别的结果指定的第一指定区域,该第二指定区域跟踪处理用于根据所述第一指定区域跟踪处理的结果,跟踪所述拍摄图像中的第二指定区域。
17.一种图像处理装置,用于从拍摄图像识别对应于登记图像的物体,该图像处理装置包含
图像拍摄装置,被配置来拍摄被摄体的图像以获得所述被摄体的所述拍摄图像;
识别装置,被配置来从所述拍摄图像识别对应于所述登记图像的物体;
第一指定区域跟踪装置,被配置来执行第一指定区域跟踪处理,用于跟踪所述拍摄图像中、根据由所述识别装置的识别的结果指定的第一跟踪区域;以及
第二指定区域跟踪装置,被配置来执行第二指定区域跟踪处理,用于跟踪根据所述第一指定区域跟踪处理的结果指定的第二指定区域。
全文摘要
这里公开了一种图像处理装置,用于从拍摄图像识别对应于预先登记的登记图像的物体,该图像处理装置包括图像拍摄器,被配置来拍摄被摄体的图像以获得被摄体的拍摄图像;识别器,被配置来从拍摄图像识别对应于登记图像的物体;第一指定区域跟踪器,被配置来执行第一指定区域跟踪处理,用于跟踪拍摄图像中、根据由识别器的识别的结果指定的第一跟踪区域;以及第二指定区域跟踪器,被配置来执行第二指定区域跟踪处理,用于跟踪根据第一指定区域跟踪处理的结果指定的第二指定区域。
文档编号G06K9/62GK101251897SQ20081008126
公开日2008年8月27日 申请日期2008年2月20日 优先权日2007年2月20日
发明者鹤见辰吾 申请人:索尼株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1