图像序列中对象实时表示的混合跟踪的方法、计算机程序和设备的制作方法

文档序号：6351243阅读：118来源：国知局

专利名称：：图像序列中对象实时表示的混合跟踪的方法、计算机程序和设备的制作方法
技术领域：
：本发明涉及图像分析，更为特别地涉及图像序列中对象实时表示的混合跟踪的方法、计算机程序和设备，特别是用于增强现实的应用。
背景技术：
：增强现实的目的在于在视频流的图像中插入一个或多个虚拟对象。根据应用类型，这些虚拟对象的位置和取向可通过由图像表示的场景的外部数据来确定，例如通过直接来自于游戏场景的坐标，或通过与该场景的某些元素相关的数据，例如所述场景的特别点如游戏者的手或背景元素的坐标。当位置和取向通过与该场景的某些元素相关的数据来确定时，会需要根据摄像机的运动或这些元素本身在场景中的运动对这些元素进行跟踪。对象识别(英语术语也称为objectrecognition或objectindexation)算法允许在一帧图像或来自图像传感器如摄像机的一图像序列中识别某些对象的表示的存在。此夕卜，这些算法经常能够根据摄像机的基准位置确定所识别对象的近似位置。作为说明，洛桑联邦理工大学(6colePolytechniqueFederaledeLausanne)开发出一种这类算法。在初始化阶段期间，不同的对象表示的特征元素根据分类结构如二进制决策树、或根据也被称为FERNS类型的决策结构的多分支结构，进行存储和组织，所述特征元素也被称为描述符，例如包括兴趣点和其形成一图像部分的周围环境的组集。通过比较围绕图像中事先探测到的兴趣点所提取的图像部分的像素pixel(英语术语PictureElement的首字母缩合词)的强度，这些结构在识别阶段期间允许对图像中表示的对象进行简单和快速的分类。兴趣点在图像中用方向梯度高值表示位置，兴趣点例如是Harris、FAST、SURF(英语术语Speeded-UpRobustFeatures的首字母缩合词，即加速稳健特征)、SIFT(英语术语Scale-InvariantFeatureTransform的首字母缩合词，即尺度不变特征变换)、MSER(英语术语MaximallyStableExtremalRegion的首字母缩合词，即最稳定极值区域)或YAPE(英语术语YetAnotherPointExtractor的首字母缩合词)的类型。基于前面创建的决策结构而在根据所识别的兴趣点从初始化时所用的图像和所分析图像中提取的图像部分之间进行的匹配，允许识别与数据库中存在的对象的对应。这些对应允许确定所分析图像中表示的一个或多个对象的身份和提取其近似姿态。至于跟踪算法，它们允许在真实场景中非常精确地找到其几何形状信息通常是可用的对象的姿态即位置和朝向，或者以等同方式找到摄制该对象的摄像机的位置和朝向的外部参数，例如借助于图像分析。作为说明，存在一种可视跟踪算法，这种算法基于视频流的当前图像的兴趣点与英语术语称为keyframe(关键帧)、在系统初始化时获得的关键图像的兴趣点、或在运行可视跟踪期间更新的关键图像的兴趣点的匹配。这些关键图像显示系统中记录的对象的特征。算法因而允许在真实场景中找到其三维网格(3D)以3D模式的形式可用的对象的姿态，或等同地找到摄制该对象的摄像机的位置和朝向的外部参数。当前图像首先用旨在探测兴趣点的操作符进行处理。然后，将围绕这些兴趣点提取的图像部分与围绕在一个或多个被记录的关键图像中预先探测到的兴趣点所提取的图像部分进行比较，以便在这些图像对之间找到较大数量的对应或匹配，以估计所述对象的姿态。为此，关键图像这里由三个元素组成从视频流截取的图像、在该图像中出现的实际对象的姿态(朝向和位置)和构成用于捕获该图像的摄像机的特征的内部参数。关键图像是从视频流提取的图像，借助定点装置如鼠标的使用，要跟踪的对象已手动地安置在这些图像中。关键图像优选地构成同一对象在多帧图像中的姿态的特征。关键图像“离线地”、即在跟踪应用的通常模式外被创建和记录。有利的是要注意，对于平面类型的目标或对象例如杂志，这些关键图像可直接地利用所述对象的例如位图或JPEG格式的一帧可用图像生成。在初始化跟踪应用程序时，离线关键图像被处理，以便根据在启动所述跟踪应用程序时所选择的参数定位兴趣点。对于每种类型的应用程序使用以经验方式规定这些参数，这些参数允许调适探测和匹配应用程序以获得根据实际环境的特征对对象姿态估计的更好估计质量。然后，在当前图像中实际对象的表示处在接近该相同对象在离线关键图像之一中表示的姿态的姿态时，匹配数量变大。因而可发现允许覆盖(Caler)该对象的三维模型在实际对象上的仿射变换。在建立这类对应时,跟踪算法转换到通常模式(r6gimepermanent)。从一巾贞图像到另一帧图像跟踪对象移动，可能的偏差借助于初始化时所选择的离线关键图像中容纳的信息进行补偿。合适的是要注意到，出于精度需要，离线关键图像可通过使用前帧图像的估计姿态进行重投影。所述重投影因此允许具有一关键图像，该关键图像包含与当前图像的对象表示相似的对象表示，因此可允许算法以兴趣点和对于转动非稳健的描述符进行运行。一般性地，图像的点p是真实场景的点P的投影，关系为Pl1PeTp^cP，其中PI是摄像机的内部参数即其焦距、图像中心和偏移的矩阵，PE是摄像机的外部参数即摄像机在实际空间中的位置的矩阵，而Tp—。是与被跟踪对象相关的基点和与摄像机相关的基点之间的转换矩阵(matricedepassage)。这里,仅仅考虑相对于摄像机相对位置的对象相对位置，这就意味着将真实场景的基点定位在摄像机的光学中心处。因此产生关系式P^P1-Tp^c-P0矩阵PI是已知的，跟踪问题因此在于确定矩阵Tp—。，即相对于摄像机基点的对象的位置和朝向。为此，使用所谓“错误极小化”算法，以便通过使用几何模型上的全部三维对应和当前图像中及关键图像中的全部二维(2D)对应来找到对于估计Tp—。的最优解。作为示例，允许消除测量错误(错误的2D/3D对应)的RANSAC(英语术语RANdomSAmpleConsensus的首字母缩合词，即随机采样一致性)类型的算法或PROSAC(英语术语PROgressiveSAmpleConsensus的首字母缩合词，即渐进采样一致性)类型的算法可与Levenberg-Marquardt(列文伯格-马夸尔特法)类型的算法加以组合，以快速地向减小重投影误差的最优解收敛。不过，当错误测量变得过大时，即当当前图像和当前关键图像之间的匹配数量变得过小时，跟踪经受失同步(认为对象姿态估计不再足够相干)和需要新的初始化阶段。还存在一种对象跟踪算法，称为“KLTfeatureTracker即KLT特征点跟踪”，其允许跟踪图像序列中的特征点和估计时间光流(英语术语称为opticalflow),即两帧相继图像之间的像素移动。这种方法因此旨在通过估计像素V在这两帧图像间的移动d，在图像J中找到看来与图像I的像素u最相似的像素V。换句话说，像素V的坐标能以如下方式来表达v=u+d=[ux+dx,uy+dy]描述符查找和跟踪应用工具是在公共域中提出，其以英特尔公司开发的以OpenCV(英语术语OpenComputerVision的首字母缩合词，即开发源代码计算机视觉库)名称已知。该应用工具特别是提出平滑的子采样图像金字塔的使用，以提高对图像中跟踪对象的快速移动或摄像机的快速移动的解决方案的稳健性。更为确切的说，解决方案这里在于通过寻找图像J的图像部分P2找到图像I的图像部分P1的位置，所述图像部分P2与图像I的图像部分P1最相似。当对于该分辨率找到第一满意结果时，对金字塔结构执行迭代，在其中进行新的移动估计。进程重复直到(例如由图像传感器所获得的)初始图像的分辨率。不过，这些识别和跟踪算法的使用就计算而言特别地昂贵，使不具有强大处理器的系统例如轻量级平台如移动电话的性能崩溃。此外，这些算法通常对噪音、快速移动和亮度变化不足够稳健。这些算法因此并不适合于在具有较弱功率处理器的装置如移动电话和一般质量的图像传感器中使用。
发明内容本发明允许解决前述问题中的至少一个。因此，本发明的目的在于一种借助至少一关键图像在图像序列中混合跟踪至少一对象的表示的计算机用的方法，所述方法包括如下步骤一采集包括所述至少一对象的表示的所述图像序列的第一图像和第二图像；一识别所述第一图像的至少一第一图像部分，所述第一图像的所述至少一第一图像部分包括所述至少一对象的表示的至少一部分；一从所述至少一关键图像提取至少一第二图像部分，所述关键图像的所述至少一第二图像部分包括所述至少一对象的表示的至少一部分；一根据所述第一图像的所述至少一第一图像部分，估计与所述第一图像的所述至少一第一图像部分相似的所述第二图像的至少一第一图像部分的相对姿态；一查找与所述关键图像的所述至少一第二图像部分相似的所述第一图像或第二图像的至少一第二图像部分；和一根据所述第一图像部分和所述第二图像部分的相对姿态估计所述至少一对象的相对姿态。根据本发明的方法因此允许根据关键图像和前帧图像在一图像序列中跟踪对象表示，而不需要较大的计算资源。所述方法因此可被使用在轻量级平台如移动电话上。根据一具体实施方式，识别所述第一图像的至少一第一图像部分的所述识别步骤包括提取所述第一图像的所述至少一第一图像部分的提取步骤；并且，估计所述第二图像的至少一第一图像部分的相对姿态的所述估计步骤包括在所述第二图像中查找与所述第一图像的所述至少一第一图像部分相似的所述第二图像的所述至少一第一图像部分的查找步骤。根据本发明的方法因此允许根据关键图像和前面图像通过图像分析在图像序列中跟踪对象表示。有利地，查找与所述第一图像的所述至少一第一图像部分相似的所述第二图像的所述至少一第一图像部分的所述查找步骤使用KLT类型的查找算法。图像部分的相似性查找因而不要求昂贵的重投影步骤。优选地，所述至少一第二图像部分根据所述关键图像的预先确定的至少一兴趣点从所述至少一关键图像中提取。所述方法因此允许使用可优化对象跟踪质量的特别点。有利地，所述方法此外包括选择步骤，该步骤选择所述至少一兴趣点，以在必要的计算质量方面选择恰当的兴趣点。有利地，所述方法此外包括生效步骤，其使所选择的至少一兴趣点生效，以在结果质量方面选择恰当的兴趣点。根据一具体实施方式，查找与所述关键图像的所述至少一第二图像部分相似的所述第一图像或第二图像的至少一第二图像部分的所述查找步骤使用允许有效地获得良好质量的结果的KLT类型的算法。依旧根据一具体实施方式，查找与所述关键图像的所述至少一第二图像部分相似的所述第一图像或第二图像的至少一第二图像部分的所述查找步骤包括重投影步骤，该步骤根据所述至少一对象的估计姿态重投影所述关键图像的所述至少一第二图像部分，以改善所获得结果的质量。依旧根据一具体实施方式，所述方法此外包括在所述至少一第二图像中确定至少一兴趣点的确定步骤。依旧根据一具体实施方式，查找与所述第一图像的所述至少一第一图像部分相似的所述第二图像的所述至少一第一图像部分的所述查找步骤使用至少两种不同的通过相似性查找图像部分的算法。这类实施方式允许使跟踪方法更为稳健。依旧根据一具体实施方式，估计所述第二图像的至少一第一图像部分的相对姿态的所述估计步骤和/或查找所述第一图像或第二图像的至少一第二图像部分的所述查找步骤包括通过使用在前面图像上进行的对所述至少一对象的相对姿态的估计的至少一估计结果来预测姿态的步骤。因此，根据本发明的方法允许结合图像分析和预测性计算，以在必要的计算的数量和质量方面优化结果。本发明的对象还在于一种计算机程序，所述计算机程序包括当所述程序在计算机上运行时适于实施前述方法的每个步骤的一些指令。本发明的对象还在于一种设备，所述设备包括适于实施前述方法的每个步骤的部件。所述计算机程序和设备所带来的优点与前文所述及的优点相类似。本发明的其它的优点、目的和特征将在接下来的作为非限定性示例参照附图进行的详细说明中得到展示，附图中一图I示出根据本发明的图像序列中对象表示跟踪的混合算法示例的一些步骤；一图2示出图I上所示的图像序列中对象表示跟踪的混合算法的初始化阶段的一实施例；—图3包括图3a和图3b,示出图I上所示的图像序列中对象表示跟踪的混合算法的使用阶段的第一实施方式；-图4示意性地示出图I上所示的图像序列中对象表示跟踪的混合算法的使用阶段的第二实施方式；—图5示出在参照图4所示的实施方式中使用、以估计前帧图像和当前帧图像的元素之间的仿射变换的KLT类型算法示例；-图6示意性地示出图I上所示的图像序列中对象表示跟踪的混合算法的使用阶段的第三实施方式；-图7示意性地示出根据用于实施图I上所示的图像序列中对象表示跟踪的混合算法的使用阶段的第四实施方式的对象跟踪算法示例的一些步骤；一图8示意性地示出在图7上所示的跟踪算法的实施；一图9示意性地示出根据用于实施图I上所示的在图像序列中跟踪对象表示的混合算法的使用阶段的第四实施方式的对象跟踪算法示例的一变型的一些步骤；和一图10示出适于实施本发明的硬件结构的一示例。具体实施例方式图I示出根据本发明的在图像序列中跟踪对象表示的混合算法100的示例的一些步骤。所述算法包括初始化阶段105和使用阶段110。初始化阶段105的目的特别是在一帧图像中识别一个或多个对象表示(步骤115)和估计对象姿态(步骤120)。初始化阶段参照图2更为详细地加以描述。在使用阶段110中，在初始化期间已识别出其表示的对象在图像序列中被跟踪(步骤125)，以估计这些对象的姿态(步骤130)。使用阶段参照图3a、图7和图9更为详细地进行描述。这里观察到的是，当跟踪对象在使用阶段期间丢失时，即当系统经受失同步(decrochage)时,优选执行新的初始化阶段。图2示出图I上所示的在图像序列中跟踪对象表示的混合算法100的初始化阶段(105)的实施例。如前文所指出的，初始化阶段允许识别位于图像传感器(例如摄像机)的视野中的一个或多个对象，所述对象的表示在源自该传感器的图像中是可看见的，继而初始化阶段对于每个所识别的对象提供尽可能精确的姿态。根据一具体实施方式，对象识别和对象姿态估计是建立在兴趣点的确定和决策结构的使用的基础上的。因而，原理在于应用操作符，所述操作符允许在来自图像传感器的给定图像中探测兴趣点如FAST、YAPE,HARRIS或MSER类型的兴趣点。将位于所识别兴趣点周围的图像部分与在所使用的二进制决策结构中存储的图像部分进行比较，以获得概率列表，概率列表旨在指示这些点与已归类到决策结构中和形成知识数据库的对象的点(也被称为“类，，)的相似性。为了获得稳健的结果和限制所需计算的资源，有利地使用FERNS类型的决策结构。使用于初始化阶段的当前图像200这里从图像传感器采集而得。优选地，例如借助于3X3高斯滤波器平滑该当前图像(步骤205)，以减少噪音的存在(噪音会干扰在浏览二进制决策结构时获得的统计结果)。为方便该滤波器在轻量级平台如移动电话上的使用，对该滤波器进行优化。特别地，这类优化在于使用能以2的乘方形式表示的对称滤波器，使得通过像素值编码偏移实行滤波。下一步骤的目的在于在经过平滑的当前图像中探测兴趣点(步骤210)。根据一优选实施方式，所探测到的兴趣点是FAST类型的这里提请注意的是，通过围绕该帧图像的每个像素创建具有预定周长、例如16个像素的Bresenham圆(布兰森汉姆圆),确定FAST类型的兴趣点。如果邻近该圆的强度全都大于或小于中心像素强度的像素的数目超过预定阈值(例如9、10、11或12)，则每个所述点被视为一兴趣点。此外，通常应用后处理步骤，以仅选择给定邻域中最适当的兴趣点。在探测当前图像的兴趣点后，浏览所使用的决策结构215(步骤220)，以确定当前图像的位于这些探测到的兴趣点周围的图像部分和与预先存储在这些结构中的兴趣点相关的图像部分之间的最优对应225。这里观察到的是，在以标准方式进行的决策结构创建(步骤230)中，如有需要多个对象被集中到同一组结构中。多个对象在同一组中的集中旨在优化匹配方法，同时限制对于每个对象的匹配和识别错误估计的步骤的数量。因此，单一的可用对象子组在步骤220的过程中被浏览，仅仅与最常匹配的对象的对应被保留。继而选择最优匹配(步骤235)。为此，选取属于前面选择的组的、以最大概率值具有最大匹配数量的对象。继而，基于预先选择的匹配使用RANSAC类型算法(步骤240)，以重投影所识别对象的模型的兴趣点，来估计对象识别错误。这样，如果不存在足够的正确匹配兴趣点，即如果足够数目的探测兴趣点与它们基于对象模型的重投影(英语术语称为inlier(内点))之间的错误大于给定阈值T(步骤245)，则没有正确地识别出当前组中的任何对象。在此情形下，对下一对象组重复前面的步骤(步骤220到240)。在低功率平台的背景下，有利的是使用容纳尽可能多数量的对象的组。不过需要注意的是，具有相似纹理元素的两个对象理想地应被隔开，以不损害识别方法的稳健性。如果相反地存在足够的正确匹配点，则估计所识别对象的精确姿态250(步骤255),例如通过使用一算法如Levenberg-Marquardt算法进行估计。参照图2描述的这里基于多分支结构的使用的解决方案，具有许多优点，在其优点中有当前图像中探测的兴趣点的鲁棒匹配、用于识别对象和估计其姿态的有限处理时间以及集中多个对象在同一结构组(当要识别的对象数量较大时其也较大)下的可能性。多分支机构的构造优选地被优化，以允许限制每个对象所占据的存储量(需要使用大约100个点来合适地在结构中表示一对象，这100个点典型地占据大约lMo(兆字节))。当一个或多个对象在当前图像中被识别出和其估计姿态相符合、也就是足够的匹配数量具有较少的重投影误差时，可使用这些匹配和这些姿态来初始化对象跟踪方法。根据第一实施方式，跟踪方法使用前面图像的递归信息和对应被跟踪对象的一个或多个关键图像的信息。这里提请注意的是，关键图像可被视为对象的二维表示，对象的三维姿态与该二维表示相关联。多个关键图像可被使用来根据多个视点表示一对象。在多个关键图像中对一关键图像的选取，是基于被跟踪对象的表示的相似性和/或这些对象的估计姿态的。包括图3a和图3b的图3示出第一实施方式。图3a示出跟踪算法的某些步骤，而图3b示出该算法的实施。第一步骤(步骤300)在于探测当前图像305的兴趣点。尽管会使用多种类型的兴趣点，但这里所使用的兴趣点是FAST类型的兴趣点。这些兴趣点因而可在轻量级平台如移动电话上被确定。继而将位于探测到的兴趣点周围的图像部分与围绕前面图像315的兴趣点(在处理前面图像时或初始化时，这些兴趣点已经被确定)提取的图像部分进行比较，以在前面图像和当前图像之间建立相关性，即建立前面图像的兴趣点和当前图像的兴趣点之间的对应列表(步骤310)。这种相关性可特别是借助ZNCC(英语术语Zero-meanNormalCrossCorrelation的首字母缩合词，即零均值归一化互相关)类型的图像部分强度比较的操作符来实现。每个这样匹配的点因此在关键图像中具有对应物(其被递归存储)，对于所述方法的接下来的步骤，该对应物有利地被停用。继而，未与前面图像的兴趣点相匹配的当前图像的兴趣点被使用来在当前图像和所用关键图像325(其可特别是根据基于前面图像的估计的对象姿态来确定)之间建立相关性。为此，围绕关键图像的有效兴趣点(即其在前面图像中不具有对应物)的图像部分根据基于前面图像的估计的姿态被重投影，继而与这样的图像部分进行比较(步骤320):所述图像部分与未同前面图像的兴趣点相匹配的当前图像的兴趣点相关联。再一次，这种相关性可特别是借助ZNCC类型的图像部分强度比较操作符在重投影于当前图像上的点和当前图像的邻近点之间实现。继而通过使用当前图像的兴趣点与前面图像及关键图像的兴趣点之间建立的对应来估计对象姿态(步骤330)。优选地，通过比较当前图像中所探测的和匹配的点的位置与以预定阈值重投影关键图像的对应3D坐标所获得的理论位置，来通过使用对象的估计姿态，消除相关性错误。因此，当前图像的仅仅有效兴趣点被使用来处理下面图像。在与所用关键图像的兴趣点进行匹配之前与前面图像进行递归匹配，这允许避免重投影关键图像的一大部分。每个递归匹配实际上在关键图像上具有一基准，对于当前图像没有处理关键图像的已经匹配的点。这允许较大地节约处理时间，因为图像重投影和匹配操作就计算而言是特别繁重的。这里可以观察到，如果如前文所述与前面图像的一图像部分相似的当前图像的一部分图像的相对姿态可通过图像分析来估计，则也可通过基于在一组前面图像中观察到的相似图像部分的姿态的变化进行预测来估计该相对姿态。该第一实施方式允许进行非常快速的处理，不过所估计的姿态不是完美的。为将其改进，可添加使用KLT类型算法跟踪兴趣点的步骤(优选地将该算法加以修正，以限制在计算能力方面的需要)。因此，根据第二实施方式，兴趣点跟踪步骤(步骤310’)在递归关联步骤(步骤310)之后被添加。该步骤的目的在于确定未与当前图像的兴趣点匹配的前面图像的兴趣点在当前图像中的移动。只有根据递归关联(步骤310)和兴趣点跟踪(步骤310’)在当前图像中未被匹配的关键图像兴趣点继而被重投影，以确定当前图像和关键图像之间的相关性(步骤230)。对象姿态估计以与参照图3所描述的方式相似的方式进行估计。图4示意性地示出该跟踪算法的实施。该实施方式比起前面实施方式允许获得更好的结果(所估计的位置更为稳定和对光流更为稳健)。还可使用较少数目的兴趣点。不过，会观察到偏差。此外，由于递归匹配和KLT类型匹配之间的参数选择，实施起来是更为复杂的。图5示意性地示出在该实施方式中使用以估计前面图像的元素和当前图像的元素之间的仿射变换的KLT类型算法示例。KLT算法这里被修正以允许其在轻量级平台如移动电话上应用。第一步骤(步骤500)的目的在于构建用于当前图像的第一图像金字塔和用于前面图像的第二图像金字塔。这些金字塔中的每一个这里都包括五层，最底层对应于来自图像传感器的图像。有利地，图像在子采样前用5X5核高斯滤波器进行平滑(它们各自的尺寸大小例如被二除)。平滑核系数优选是整数值，理想的是二的乘方，以减少进行的基础操作数量。此夕卜，这里进行子采样而没有二进制插值，由于平滑其不是必需的。表示所考虑的图像部分在前面图像和当前图像之间的移动的变量dx和dy被初始化成零(步骤505)。同样地，表示金字塔的当前层的变量level被初始化成最大值(称为nblevels)，这里为五。这里观察到的是，变量dx和dy允许确定子像素坐标，即其分辨率低于一像素的大小。不过，为简化计算，除比例因子外执行这些计算以仅处理整数。定中心在所处理的兴趣点上并具有(x，y)为坐标的图像部分Pl继而在金字塔的level层从前面图像提取(步骤510)。这类图像部分典型地具有5X5或7X7像素的大小。继而确定该图像部分的高斯导数(步骤515)。该计算优选地撇开比例因子进行，以仅仅以整数来工作。继而，定中心在所述点上并具有(x+dx，y+dy)为坐标的图像部分P2在金字塔的level层从当前图像进行提取(步骤520)。变量dx和dy的值然后在这里根据高斯-牛顿算法进行估算(步骤525)。该步骤允许估算极小化前面图像的一部分和当前图像的一部分之间的差别的变量dx和dy。将该估算迭代多次，以允许向局部最小值收敛，从而由于使用不同的图像阶层而导致总的最小值。再一次，对于这些计算使用整数，这允许较大的性能增益。继而执行测试(步骤530)，以确定是否达到该算法的预定的迭代数量和是否变量dx和dy位于预定的范围中。在否定的情形下,重复前面的步骤(步骤520和525)。在相反的情形下，使变量level增量I(步骤535)和执行测试(步骤540)，以确定是否金字塔的所有层已被处理。重复步骤510到540，直到变量dx和dy已在较大分辨率的图像上进行估值。有利地，仅仅数个兴趣点在图像金字塔的低分辨率阶层(即上层)被处理。因此，待跟踪对象的仅仅中心点优选地在最高层(例如40X30)中进行处理，在该对象上均匀分布的四个点在直接下层(例如80X60)中被处理。上阶层允许近似地估计两个图像之间的较大运动。下阶层这里以标准的方式被处理。在下阶层中估算的位移(dx，dy)这里应用在直接下层上。这些下层允许使所找到点的位置精确。根据第三实施方式，参照图3所描述的关联步骤(步骤310)由如参照图4所描述的KLT类型的兴趣点跟踪的步骤(步骤310’)来替代。换句话说，前面图像和当前图像之间的兴趣点的跟踪在这里仅借助于KLT类型的算法来实施。图6示意性地示出该跟踪算法的实施。该实施方式允许获得估计姿态的良好稳定性，此外估计姿态对光流是稳健的。也可使用较少数目的兴趣点。不过，会观察到较大的偏差。根据第四实施方式，跟踪方法仅仅使用KLT类型的算法，而不需要在当前图像中探测兴趣点。可通过使用前文所述的修正的KLT算法在轻量级平台、如移动电话上实时地应用该稳定且稳健的该实施方式。图7示意地示出根据该第四实施方式的对象跟踪算法的一些步骤。如所示出的，通过在前面图像和当前图像中查找相类似的图像部分，以递归的方式跟踪预先确定的点。继而借助于这些2D/3D对应(考虑到被递归跟踪的点保留在关键图像的兴趣点上的初始基准，3D坐标通过兴趣点在关键图像中的位置给出)，对姿态进行估计。继而在关键图像中选择新的兴趣点和在当前图像中查找对应点，以允许处理下面图像。更为确切的说，第一步骤在于在当前图像700中跟踪在前面图像中所识别的点705或在初始化阶段后与关键图像所匹配的点(步骤710)。这种对点的跟踪在这里借助于前文所述的修正的KLT操作符来实施。对于这样在前面图像中所识别的每个点，其允许在当前图像中获得对应点。这样被跟踪的点允许获得一系列2D/3D对应(这些点在当前图像中的2D位置和在关键图像中的3D位置)。如前文所指出的，这些对应在这里以亚像素精度被估计。该组对应继而被使用在姿态估计方法中(步骤715、720和725)，所述姿态估计方法允许估计具有六个自由度(三个位置自由度和三个朝向自由度)的态矢量，其构成所跟踪对象在前面图像和当前图像之间的移动的特征。为此，一步骤的目的在于估计第一姿态(步骤715)，第一姿态可被使用来消除点跟踪所引起的错误匹配(步骤720)。这里，姿态以标准的方式根据前面图像的点和当前图像的点的匹配来进行估计。为消除源自点跟踪的错误匹配，使用允许的最大重投影阈值(例如4像素的欧几里德距离)，以检验在前面图像中所识别的和根据估计姿态所重投影的点与该姿态相符。为此，前面图像中所识别的每个点的3D坐标通过使用前面估计的姿态被投影。重投影误差通过在所重投影的2D坐标和跟踪点的跟踪2D坐标之间的欧几里德距离给出。当前图像中所跟踪的对象的姿态730然后通过仅使用正确匹配点735来进行估计(步骤725)。作为选择，可通过使用基于跟踪点和重投影点之间的距离的错误加权函数，将一权重与被视为正确的每个对应进行关联。这类错误加权典型地利用所有平方重投影误差(或残差)和用于当前样本的平方重投影误差根据所估计的中值进行计算。因此，可根据加权基于正确匹配的点改进被跟踪对象的姿态。对于高斯-牛顿算法的每次迭代，其直接影响计算。在该步骤时，允许的最大重投影阈值被减小(例如减小到2或I像素的欧几里德距离)，以消除在KLT跟踪算法时趋于偏离的点。在估计被跟踪对象的姿态后，确定应被使用来在下一图像中跟踪对象的点765。有利地，这些点集合来自前面图像的、在当前图像中被正确匹配的点(即在重投影步骤时生效的点)和关键图像的兴趣点。换句话说，在下一图像中所使用的点是从前面图像的、在当前图像中被正确跟踪的点和使用关键图像所获得的新点的组合。这种点组合允许避免对象跟踪方法的偏差。关键图像的应被使用的兴趣点750基于关键图像的兴趣点745通过重投影在当前图像中被确定(步骤740)。可实施关键图像的兴趣点的多种类型选择一使用关键图像的所有有效兴趣点(即其在前面图像中不具有对应物)。这是最昂贵的方案，因为在关键图像中很多点是潜在可用的。此外，当这些兴趣点构建在不同的关键图像上时，这些兴趣点在不同的阶层被构建以改善初始化阶段，这进一步增加在关键图像上可用的兴趣点的数目。一根据当前图像中被跟踪对象的尺寸大小选择兴趣点。对象在当前图像中的尺寸大小是已知的(当前图像中的像素面积)，可根据最恰当的阶层来选择兴趣点。例如，当对象靠近摄像机时和通过所述方法处理的当前图像为320X240像素时，可能建议选择对应最接近该值(320X240)的阶层的兴趣点。这种选择允许识别当被跟踪对象面对摄像机靠近或远离时可被稳健地跟踪的兴趣点。不过，很多兴趣点会这样被选择，这会引起较大的计算量。一根据与关键图像组合的网格选择兴趣点。大小为NXM的网格这里在关键图像上被构建，以选择兴趣点。因此可按在当前图像上可见网格的每个单元选择一兴趣点，优选是最恰当的兴趣点。例如，对于大小为7X5的网格，可选择关键图像的35个兴趣点。当对象离开摄像机视野时，兴趣点选择算法可按每个网格单元选择多个兴趣点，以保留恒定的被跟踪点数。该网格具有双重优点允许选择在对象表面上均匀分布的兴趣点(这特别是允许稳定所估计的最终姿态)，和避免选择相互接近的兴趣点(它们可被视为是无效的)。继而，根据前面所估计的当前姿态的信息，提取和重投影所述关键图像的位于兴趣点周围的图像部分(步骤755)。可以观察到，重投影的图像部分与当前图像非常相似，一般具有较大的强度变化。这种重投影就计算而言是昂贵的，因为对于目的图像的每个像素，需要根据联系两图像的反射影变换在源图像中找到亚像素坐标。因此，在目的图像部分中的一像素对应于源图像的多个像素的插值。为了优化计算，插值可有利地通过使用最接近的技术进行替代。在下一步骤中，在关键图像的重投影部分和当前图像的对应部分之间进行比较，以仅仅使与当前图像的对应部分相似的重投影图像部分相关联的所选兴趣点生效(步骤760)。该生效步骤可包括如下步骤一将根据当前姿态重投影在当前图像中的、与所选兴趣点相关联的图像部分进行匹配。KLT跟踪方法优选地对光照变化是稳健的，因为关键图像和当前图像之间的比色差会较大；和—通过例如使用ZNCC类型或SAD(英语术语SumofAbsoluteDifferences的首字母缩合词，即绝对差值和)类型的操作符，来使所进行的匹配生效。通过图像部分比较的生效步骤对于防止与所使用的KLT跟踪操作符相关的可能偏差是重要的。这样选择和生效的兴趣点被添加到应被使用来在下一图像中跟踪对象的递归点组765中。图8示意性地示出该跟踪算法的实施。作为选择，可在选择和生效应被用来在下一图像中跟踪对象的兴趣点之后，估计当前图像中的被跟踪对象的姿态，以避免会在某些对象类型上出现的偏差。当对象具有显著的轮廓、例如黑色边缘时，这特别地可被观察到，因为KLT跟踪方法所使用的兴趣点会趋向于跟踪这些轮廓和给出不当的2D/3D对应(英语术语被称为outlier即外点)。图9示意性地示出根据第四实施方式的对象跟踪算法的这类变型的某些步骤。如前所述，第一步骤(步骤710’)的目的在于在当前图像700中跟踪前面图像中所识别的点705或在初始化阶段后与关键图像匹配的点。再一次，这种对点的跟踪在这里借助于前文所述的修正的KLT操作符来实施。对于这样在前面图像中所识别的每个点，其允许在下一图像中获得一对应点。下一步骤(步骤740’)的目的在于在关键图像中选择兴趣点。该步骤与步骤740相似。不过，所选择的兴趣点被使用来估计当前图像中被跟踪对象的姿态，这些兴趣点不能相对于该姿态进行重投影，但如有需要，可相对于根据前面图像所确定的姿态进行重投影。为了改善和简化递归点跟踪(步骤710’)和关键图像点跟踪(步骤740’)，有利地可使用线性的姿态预测模型。因此，通过使用前面姿态的历史纪录，可预测当前图像中所查找兴趣点的位置和因此避免需要构建和浏览较大尺寸的图像金字塔，不再要求最小的分辨率水平。围绕所选兴趣点的图像部分被提取和根据前面图像中被跟踪对象的姿态重投影，以根据一跟踪算法、这里是KLT算法，将所述图像部分与当前图像的部分进行比较，以便将这些兴趣点与当前图像的对应点进行匹配(步骤770)。如同对前面图像的点和当前图像的点之间的匹配允许确定前面图像的这些点和当前图像的对应点之间的仿射变换，关键图像的点和当前图像的对应点之间的匹配允许在关键图像的所选择的兴趣点和当前图像的对应点之间确定仿射变换。前面图像的点和当前图像的对应点之间的匹配与关键图像的点和当前图像的对应点之间的匹配，允许以标准的方式确定被跟踪对象的姿态730’(步骤775)。这里所描述的根据前述实施方式之一实施的方法特别适于非平面对象的跟踪，尤其是在具有有限处理资源的系统如移动电话中。因此，所述方法可被使用例如来在一图像序列中跟踪面孔。图10示出适于实施本发明、特别是参照图I、图2、图3a、图5、图7和图9所描述的算法的硬件结构的示例。这类设备例如是移动电话、个人助理、或个人手提电脑或上网本型电脑。设备1000这里包括通信总线1005，以下器件与通信总线相连接—中央处理器或微处理器101CKCPU,英语术语CentralProcessingUnit的首字母缩合词);一只读存储器1015(ROM,英语术语ReadOnlyMemory的首字母缩合词),其可包括实施本发明所需的程序；一读写存储器或高速缓存存储器1020(RAM,英语术语RandomAccessMemory的首字母缩合词)，其包括适于记录在运行前述程序中产生和改变的变量和参数的寄存器；和一通信界面1050，其适于传输和接收数据。设备1000还优选地具有以下元件一屏幕1025，其特别允许显示真实场景，该真实场景如通过图像传感器1060观察到的，图像传感器1060通过输入/输出接口1055与总线1005相连接，真实场景优选地增加有虚拟对象，其可用作与使用者的图形界面，使用者可借助于键盘和鼠标1030或如触摸屏或遥控器的其它定点装置与根据本发明的程序进行交互；一硬盘1035，其可包括前述程序和根据本发明已处理的或待处理的数据，例如校正表；和一存储卡读取器1040，其适于接纳存储卡1045和在其中读取或在其中写入根据本发明已处理的或待处理的数据。通信总线允许包括在设备1000中或与该设备相连接的不同元件之间的通信和协同运作性。总线的表示不是限定性的，特别是，中央处理器可直接地或通过设备1000的另一元件将指令传输给设备1000的任何元件。允许可编程设备实施根据本发明的进程的每个程序的可执行代码，可以例如存储在硬盘1035或只读存储器1015中。根据一变型，存储卡1045可包含数据特别是所探测事件和可被调用的命令之间的对应表、以及前述程序的可执行代码，所述可执行代码一旦被设备1000读取，就被存储在硬盘1035中。根据另一变型，程序的可执行代码可通过界面1050至少部分地被接收，以与前述方式相同的方式进行存储。更为一般性地，所述程序可在被运行前加载到设备1000的存储部件之一中。中央处理器1010将控制和管理根据本发明的所述程序的软件代码部分或指令的运行，指令被存储在硬盘1035中或只读存储器1015中或前述的其它存储元件中。在通电时，存储在非易失性存储器、例如硬盘1035或只读存储器1015中的所述程序，被传输到读写存储器1020中，因而读写存储器1020包含所述程序的可执行代码。自然地，为满足特定需求，本发明领域技术人员将可在前述的说明书中应用修改。权利要求1.借助至少一关键图像在图像序列中混合跟踪至少一对象的表示的计算机用的方法，其特征在于，所述方法包括如下步骤一采集包括所述至少一对象的表示的所述图像序列的第一图像和第二图像；一识别所述第一图像的至少一第一图像部分，所述第一图像的所述至少一第一图像部分包括所述至少一对象的表示的至少一部分；一从所述至少一关键图像提取至少一第二图像部分，所述关键图像的所述至少一第二图像部分包括所述至少一对象的表示的至少一部分；一根据所述第一图像的所述至少一第一图像部分，估计与所述第一图像的所述至少一第一图像部分相似的所述第二图像的至少一第一图像部分的相对姿态；一查找(320，760，770)与所述关键图像的所述至少一第二图像部分相似的所述第一图像或第二图像的至少一第二图像部分；和一根据所述第一图像部分和所述第二图像部分的相对姿态，估计(330，725，775)所述至少一对象的相对姿态。2.根据权利要求I所述的方法，其特征在于，识别所述第一图像的至少一第一图像部分的识别步骤包括提取所述第一图像的所述至少一第一图像部分的提取步骤(510);并且，估计所述第二图像的至少一第一图像部分的相对姿态的估计步骤包括在所述第二图像中查找与所述第一图像的所述至少一第一图像部分相似的所述第二图像的所述至少一第一图像部分的查找步骤(310，710，710’)。3.根据权利要求2所述的方法，其特征在于，查找与所述第一图像的所述至少一第一图像部分相似的所述第二图像的所述至少一第一图像部分的所述查找步骤使用KLT类型的查找算法。4.根据前述权利要求中任一项所述的方法，其特征在于，所述至少一第二图像部分根据所述关键图像的预先确定的至少一兴趣点从所述至少一关键图像中提取。5.根据权利要求4所述的方法，其特征在于，所述方法此外包括选择所述至少一兴趣点的选择步骤(740，740’)。6.根据权利要求5所述的方法，其特征在于，所述方法此外包括使所选择的所述至少一兴趣点生效的生效步骤(760)。7.根据前述权利要求中任一项所述的方法，其特征在于，查找与所述关键图像的所述至少一第二图像部分相似的所述第一图像或第二图像的至少一第二图像部分的查找步骤使用KLT类型的算法。8.根据前述权利要求中任一项所述的方法，其特征在于，查找与所述关键图像的所述至少一第二图像部分相似的所述第一图像或第二图像的至少一第二图像部分的查找步骤包括根据所述至少一对象的估计姿态重投影所述关键图像的所述至少一第二图像部分的重投影步骤。9.根据权利要求I到4中任一项所述的方法，其特征在于，所述方法此外包括在所述至少一第二图像中确定至少一兴趣点的确定步骤。10.根据权利要求9所述的方法，其特征在于，查找与所述第一图像的所述至少一第一图像部分相似的所述第二图像的所述至少一第一图像部分的查找步骤使用至少两种不同的通过相似性查找图像部分的算法。11.根据前述权利要求中任一项所述的方法，其特征在于，估计所述第二图像的至少一第一图像部分的相对姿态的估计步骤和/或查找所述第一图像或第二图像的至少一第二图像部分的查找步骤包括使用在前面图像上进行的对所述至少一对象的相对姿态的估计的至少一估计结果来预测姿态的姿态预测步骤。12.计算机程序，所述计算机程序包括指令，当所述计算机程序在计算机上运行时，这些指令适于实施根据前述权利要求中任一项所述的方法的每个步骤。13.设备，其包括适于实施根据权利要求I到11中任一项所述的方法的每个步骤的部件。全文摘要本发明的目的特别在于借助至少一关键图像在图像序列中对对象表示进行混合跟踪。在采集包括被跟踪对象的表示的第一和第二图像后，在第一图像中识别出第一图像部分和从关键图像中提取第二图像部分。估计与第一图像的第一图像部分相似的所述第二图像的第一图像部分的相对姿态。查找与关键图像的第二图像部分相似的第一或第二图像的第二图像部分。继而根据第一图像部分和第二图像部分的相对姿态估计对象的相对姿态。文档编号G06K9/64GK102640185SQ201080054062公开日2012年8月15日申请日期2010年10月12日优先权日2009年10月20日发明者J·沙穆,N·利韦,T·帕基耶申请人:全浸公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：N·利韦;T·帕基耶;J·沙穆
技术所有人：全浸公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。