使用轨迹分段分析的双向跟踪的制作方法

文档序号:6569209阅读:381来源:国知局
专利名称:使用轨迹分段分析的双向跟踪的制作方法
使用轨迹分段分析的双向跟踪扭旦 冃足对指定对象(即目标对象)的视觉跟踪是具有许多有用的应用的计算机视 觉的领域。例如,可以在视频监控、人机界面、数字视频编辑等中使用视觉跟 踪。 一般地,视觉跟踪在给定观察(诸如视频序列)期间跟踪目标对象。不幸 的是,视觉跟踪技术在几种情况下难以跟踪目标对象。例如, 一种情况是当目标对象经历突然移动时,诸如来自目标对象自身的 意外动态改变或来自照相机的突然移动,视觉跟踪技术将难以跟踪目标对象。 另一种情况是当类似样子的对象接近目标对象时,视觉跟踪技术将有困难。在 这种情况下,跟踪技术难以区分两个对象中哪个是目标对象。当遮挡发生且目 标对象部分或完全被另一对象遮掩时,视觉跟踪也是有困难的。总体而言,大多数跟踪技术基于直至时间t的观察使用递归估计来估计目 标对象在当前时间t的位置。在贝叶斯构架中,跟踪问题通常被公式化为给定 所有观察^'情况下,状态^的时间演化后验分布的递归估计,这样使得<formula>formula see original document page 6</formula>(1)递归估计有两个主要的优势l)高S 的计算;以及2)自然符合实时或在线跟 踪应用。然而,许多真实世界的应用适合离线跟踪的类别,诸如视频监控中的事件 统计、基于对象的视频压縮、家庭视频编辑、视频评注、视觉动作捕捉等。因 此,也将递归方式应用于离线视觉跟踪。当完成这个时, 一般首先通过指定一 个或多个关键帧将长输入视频序列分解成短序列。指定的关键帧可以是视频序 列中的任何帧。每个关键帧包含指定要跟踪的对象(即目标对象)的对象模板。 使用这些经分解的短序列的视觉跟踪通常被称为基于关键帧的跟踪。递归方式 于是以前向或后向中应用到每个短序列。然而,该方法通常在序列中间某处失 败。当这种情况发生时,就在失败的位置添加另一关键帧。虽然添加新的关键帧改进了视觉跟踪的结果,但是使用试凑法方式添加新 的关键帧是极端耗时的。因此,持续需要改善用于离线应用的跟踪技术。概述本视频跟踪技术基于从整体状态序列的开始和结束关键帧获取的两个对象模板输出目标对象的最大后验(MAP)解答。该技术首先通过在序列的每个帧中生成本地二维模式的稀疏集来最小化序列的整体状态空间。二维模式被转 换成三维体中的三维点。使用谱聚技术来群集三维点,其中每个群集对应于目 标对象的可能的轨迹分段。如果在序列中有遮挡,那么就生成遮挡分段,这样 可以获得目标对象的最佳轨迹。提供本概述以便用简化的形式介绍将在以下详细描述中进一步描述的一 些概念。本概述并不旨在确定所要求保护的主题的关键或必要特征,也不旨在 用于帮助确定所要求保护的主题的范围。附图简述参考附图描述了非限制性和非穷尽性的实施例,其中在所有各种视图中, 除非另外指明,否则相同的参考编号指示相同的部件。为方便起见,参考编号 的最左面的位标识了该参考编号首次出现所在的特定附图。

图1是依照一个实施例可以用于实现此处所描述的视频跟踪技术的说明 性系统。图2是示出依照一个实施例有效地减小状态空间使得可以高效地获取 MAP解答的示例性视频跟踪过程的流程图。图3是示出依照一个实施例适用于图2的视频跟踪过程的示例性轨迹分段 分析过程的流程图。图4是示出依照一个实施例可以为每个帧独立执行的二维提取过程的流 程图。该过程适用于图3的轨迹分段分析过程。图5是一组示例性说明,其中顶行显示来自视频序列的经简化的帧,而底 行显示来自图4的示例性二维提取过程的结果。图6是示出依照一个实施例使用谱聚的示例性三维轨迹分段提取过程的 流程图。该过程适用于图3的示例性轨迹分段分析过程。图7是示出依照一个实施例的示例性遮挡分析过程的流程图。该过程适用于图2的示例性视频跟踪过程。图8是示出依照一个实施例的示例性双向树成长过程的流程图。该过程适 用于图7的示例性遮挡分析过程。图9是描绘图7所示的遮挡分析过程期间生成的示例性遮挡轨迹的图表。 图10-13是示出依照本跟踪技术的一个实施例,在各个处理阶段的结果的 一组示例性图表。图14示出依照本跟踪技术的一个实施例,用作各个处理阶段中的输入的 来自视频序列的若干个经简化的示例性帧。在该示例中,各个处理阶段生成图 10-13中的该组图表。详细描述以下描述针对基于从整体状态序列的开始和结束关键帧获取的两个对象 模板,输出后标对象的最大后验(MAP)解答的视频跟踪技术。总体而言,该 技术首先通过在序列的每个帧中生成本地二维模式的稀疏集来最小化序列的 整体状态空伺。二维模式被转换成三维体中的三维点。使用谱聚技术来群集三 维点,其中每个群集对应于目标对象的可能的轨迹分段。如果在序列中有遮挡, 那么就生成遮挡分段,这样可以获得目标对象的最佳轨迹。本视频跟踪技术处 理突然移动、含糊不清以及短/长时段的遮挡。现在详细描述本视频跟踪技术的 这些和其他方面。图1是依照一个实施例用于实现此处描述的视频跟踪技术的说明性系统。 该系统包括诸如计算设备100的计算设备。计算设备100表示任何类型的计算 设备,诸如个人计算机、膝上型计算机、服务器、游戏控制台、手持式或移动 设备(例如蜂窝电话、数字助理)等。在最基本的配置中,计算设备100通常 至少包含一个处理单元102和系统存储器104。根据确切的配置和计算设备的 类型,存储器104可以是易失性的(诸如RAM)、非易失性的(诸如ROM、 闪存等等)或这两者的某种组合。系统存储器104通常包括操作系统106、 一 个或多个程序模块108,并且可以包括程序数据110。对于本视频跟踪技术而 言,程序模块108可以包括用于实现视频跟踪技术的一个或多个组件140。此 外,程序模块108可以包括使用在组件140中实现的视频跟踪技术的图形应用程序142。或者,操作系统106可以包括用于实现视频跟踪技术的一个或多个 组件。程序数据110可以包括视频序列150。在图1中用虚线112内的那些组 件说明了该基本配置。设备100也可能具有附加的特征或功能。例如,计算设备100可能也包含 附加的数据存储设备(可移动的和/或不可移动的),诸如磁盘、光盘或磁带。 这种附加的存储器在图1中由可移动存储器120和不可移动存储器122示出。 计算机存储介质可以包括易失性和非易失性、可移动和不可移动介质,它们以 任何用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的 方法或技术来实现。系统存储器104、可移动存储器120和不可移动存储器122 都是计算机存储介质的例子。计算机存储介质包括但不限于RAM、 ROM、 EEPROM、闪存或其它存储技术、CD-ROM、数字通用盘(DVD)或其它光存 储器、磁性卡带、磁带、磁盘存储器或其它磁性存储设备、或任何其它可以被 用于存储期望信息且可由计算设备100访问的媒质。任何这样的计算机存储介 质可以是设备100的部分。计算设备100也可以具有诸如键盘、鼠标、笔、语音输入设备、触摸输入 设备等的输出设备124。计算设备100也可以包含允许设备诸如通过网络与其 他计算设备130通信的通信连接128。通信连接128是通信介质的一个示例。 通信介质一般具体化为计算机可读指令、数据结构、程序模块或其他数据。通 过示例而非局限,通信介质包含诸如有线网络或直接连线连接等有线介质以及 诸如声音、RF、红外线和其它无线介质等无线介质。计算机可读介质可以是可 由计算机访问的任何可用介质。通过示例而非限制,计算机可读介质可以包括 "计算机存储介质"和"通信介质"。本申请中所描述的各种模块和技术可在诸如程序模块的由一个或多个计 算机或其他设备执行的计算机可执行指令的一般上下文中描述。 一般而言,程 序模块包括执行特定任务或实现具体抽象数据类型的例程、程序、对象、组件、 数据结构等。这些程序模块等可以作为本机代码执行或诸如在虚拟机或可在其 他运行时(Just-in-Time)编译执行环境中下载和执行。通常,程序模块的功能 在各个实施例中可以按照需要来组合或分布。这些模块和技术的实现可以存储 在某种形式的计算机可读介质上或通过某种形式的计算机可读介质发送。在描述本跟踪技术的细节之前,将描鴻用于本跟踪技术的状态模型和观察 模型。状态模型和观察模型应用基于关键帧的构架。对于状态模型,目标对象 被表示为矩形及={/^*叫5*^,其中P是中央矩形,而S是比例因数,ffl和^是 分别是目标模板的固定宽度和高度。该对象的状态可以被示为x-^力e^,其 中义是状态空间。状态《是指第一关键帧A中的状态,而状态x,是指最后一关 键帧/,中的状态。对于本跟踪技术,这些状态》和&都是已知的。观察模型是目标对象的色彩统计。对象的色彩模型被表示为柱状图 /;-",;^,其中在RGB色彩空间中有H (通常H-8X8X8)个柱(bin)。状 态x。的相关联的柱状图/K;c。)和状态;c,的相关联的柱状图/z(:c,)之间的巴氏 (Bhattacharyya)距离如下定义^陶竭]=1 -1^") "'). (2) 该模型捕捉全局色彩i计。在另一实施例中,如果有目标对象的某一空一 配置,则可使用最复杂的多部分色彩模型。例如,在一个实现中,使用诸如 Patrick Perez, C. Hue、 J. Vermaak禾卩M. Gangnet在European Conf. on Computer Vision会报巻1, 2002年版中第611-675页中描述的色彩模型等多部分色彩模 型。对于轨迹优化,在给定视频序列或观察7 = ^1,''',力}和已知的两个状态 时,整体状态序列^ = &2「,xr—J的后验在一阶马尔可夫独立假设下可以如下表示<formula>formula see original document page 10</formula> (3)其中使用巴氏距离如下定义局^痕迹^UI^、,&):<formula>formula see original document page 10</formula>(4)其中 2是方差参数。方差参数测量状态x,的色彩柱状图到关键帧/t中的W;c,)或关键帧4中的;K;c,)之间最近的色彩柱状图之间的相似程度。两个相邻的状态之间的势函数^0c,,x,+》被定义为<formula>formula see original document page 10</formula> (5)其中= ||a + A+1||2 ++ &+1||2是状态JC,和、.之间的相似程度。参数 是 控制平滑强度的方差参数,而-是位置差异和比例差异之间的权重。由此,/ 是对目标对象的整体轨迹;r- {x。,...,訂)的平滑度限制。基于关键帧的跟踪的目标是获取公式(3)的MAP解答,如下所述 X* = arg max P(X|Y). (6)然而,确定MAP解答的复杂性O是(9(7^7),其中N是一个帧中离散状 态的数目,而T是输入视频的帧数目。由此,对于320 x 240的视频,量化状 态空间即使对于本状态表示也是非常大的。因此,本双向跟踪技术集中在用有 效且高效的方式减小状态空间。图2是示出有效地减小状态空间使得可以高效地获取MAP解答的示例性 视频跟踪过程200的流程图。在框202处开始视频跟踪过程,其中在视频序列 中指定开始和结束帧。开始和结束帧被称为关键帧。处理继续到框204。在框204处,从开始帧内获取目标对象的初始状态,而从结束帧中获取目 标对象的最终状态。初始状态和最终状态可以由用户选择。例如,用户可以在 目标对象周围放置矩形。接着可以基于帧内矩形的位置来确定初始状态和最终 状态。处理继续到框206处。在框206处,执行轨迹分段分析。简而言之,稍后结合图3详细描述的轨 迹分段分析试图标识视频序列中目标对象最可能存在的位置(即模式)。为效 率起见,轨迹分段分析首先组合二维模式提取,以便找出目标对象最可能的位 置,接着在这些所标识的位置应用三维轨迹提取。处理继续到框208处。在框208处,执行遮挡分析。简而言之,稍后结合图7详细描述的遮挡分 析试图移除由遮挡引起的中断。这使得可以跟踪目标对象的完整轨迹。处理继 续到框210处。在框210处,执行轨迹优化。在获取轨迹分段(框206)和遮挡分段(框 208)的组后,通过轨迹优化计算两个关键帧之间的单个最佳轨迹。简而言之, 以由粗到精的方式执行稍后详细描述的轨迹优化,以便获取更准确的跟踪结 果。在粗略轨迹优化过程的一个实施例中,在每个帧中使用三个离散比例因数 来均匀地对所计算的分段周围的状态采样,以便确定最佳轨迹。在精细轨迹优 化过程的一个实施例中,在每个帧中使用五个离散比例因数来对最佳轨迹周围的状态采样。现在将更详细地描述这些框中的每一个。图3是示出适用于图2的视频跟踪过程的示例性轨迹分段分析过程300 的流程图。轨迹分段分析过程300从框302处开始,其中在每个帧中执行二维 提取。简而言之,稍后结合图4详细描述的二维提取过程试图显著减小整体状 态空间,这样可以对更为稀疏的状态集执行跟踪。处理继续到框304。在框304处,当减小了状态空间之后,确定少量的三维轨迹分段。总体而 言,二维模式需要被转换到三维空间,以便获取目标对象的真正轨迹。简而言 之,稍后结合图6详细描述的三维轨迹分段提取过程试图从其中分段表示有意 义的轨迹的部分的所有点中提取多个轨迹分段。轨迹分段提取过程试图获取每 个分段的可能的最长长度和/或可能的最小分段数目。本视频跟踪技术应用谱聚 技术,以便获取这些三维轨迹分段。 一旦这些轨迹分段被提取,那么过程300 完成。现在将更为详细地描述框302和304两者。图4示出了适用于图3所示的过程300的框302的二维提取过程400的流 程图。为每个帧独立地执行过程400。 二维提取过程400从框402开始,其中 使用关键帧中的对象的色彩柱状图预过滤帧,这样能够使用较少的采样。处理 继续到框404处。在框404处,本跟踪技术的一个实施例获取每个帧中的开始位置集。这些 开始位置是通过均匀地对帧中的位置采样来确定的。可以使用3-5的离散级别 来执行縮放。在进一步的细化(框406)中,基于目标对象大小来设置空间采 样间隔。例如,可以将空间采样建设设置为略微小于目标对象的一半大小。处 理继续到框408处。在框408处,计算出痕迹表面。在一个实施例中,使用巴氏距离来定义局 部痕迹^0,lx,,^x。。接着使用以下公式来计算痕迹表面VO,- I x,.,^,;^) ~ exp(-min(52[/ (x,),/zO》],52[/2(;v;;),/z(;^)]〉/20^)(7)参数C7〗是方差参数。巴氏距离测量状态JC,的色彩柱状图/70C,)到关键帧A中的//00或关键帧/r中的/Kx》之间最近的色彩柱状图之间的相似程度。处理继续 到框410处。在框410处,基于痕迹表面来标识模式。总而言之,最可能的位置(即模 式)是痕迹表面上的峰值(即局部最大值)处。每个"最可能的"2D模式表示其观察类似于关键帧中的对象模板的状态;c'。换而言之,局部痕迹 y(少l;c',;c,,&)为高。为了高效地找到这些模式, 一个实施例(框412)使用均值漂移算法,它是用于寻找点采样分布的最接近模式的非参数统计方法。总体 而言,给定初始位置,均值漂移算法计使用以下公式用核函数G计算巻积痕迹 表面的梯度方向Ap = ~^-. (8)由此,给定图像中的初始位置/7,均值漂移依照上述公式计算出新的位置;/ = /7 + AP,其中G是核函数,并且对对象的矩形中的象素《执行求和。均值 漂移向量Ap与使用核函数G的遮蔽计算的巻积表面的梯度方向相反。由于该 特性,确定均值漂移算法提供了用于确定目标对象的局部模式的高效迭代方 法。因此,均值漂移算法独立于每个开始位置运行。在收敛之后,来自均值漂 移算法的结果是多个局部模式。处理继续到框408处。在框414处,生成局部二维模式的稀疏集。在一个实施例中(框416), 如果相应的状态模式x'具有p(y,l;c') S0.5的局部痕迹,那么就拒绝模式。在进 一步的细化中(框418),可以合并很接近的模式。结果是每个帧中局部模式 的稀疏集,如图5中所示。现在参考图5,示出了一组图示。顶行显示来自视频序列的简化帧(例如 帧502、 504、 506),而底行显示来自以上在图4中描述的二维提取过程的结 果(例如局部二维模式512、 514、 516的稀疏集)。简化帧显示目标对象510 以及与目标对象相同的另一对象508的(例如相同的颜色、相同的大小)。即 使从简化帧移除了背景细节,但是本视频跟踪技术在处理期间考虑其背景细 节。总体而言,视频序列示出了在每个帧的左侧上个人(未示出)所持有的绿 色杯子510。绿色杯子510是目标对象且正被跟踪。在每个帧右侧上的另一个 人(未示出)持有相同的杯子508。在帧502处,这两个人都持有他们的杯子, 这样使得杯子被触及,并且处于相同的高度。在帧504处,右侧的个人放下了 杯子508。在帧506中,右侧的个人将杯子508移动通过杯子510的前方,并 且部分地遮挡住了杯子510的左下角。本跟踪技术分别为每个帧502、 504和 506确定了一组局部二维模式512、 514、 516。局部二维模式512、 514和516 中的分组522、 524、 526分别对应于图像中的两个绿色杯子(杯子508和510)。局部二维模式512、 514和516中的分组532、 534、 536分别对应于具有与关 键帧中的目标模板(即绿色杯子510)相似的色彩统计的相应帧中的背景区域 (未示出)。依照本跟踪技术的一个实施例,每个帧中的局部二维模式组接着表示用于 进一步跟踪目的的状态空间。如局部二维模式512-516组所示,状态空间被显 著地减小。这种状态空间的减少允许进一步分析以便更为高效地执行跟踪目 的。相反,其他跟踪技术使用整体连续状态序列空间,其由于非线性动力学和 非高斯观察而具有庞大数目的局部最小值。例如,基于梯度的技术通常在局部 最小值处陷入困境。给定320x240的视频,使用用离散隐马尔可夫模型(HMM) 表示的Viterbi算法来计算MAP解答的技术必须处理较大的量化状态空间。由 此,本跟踪技术中的二维提取过程提供了用于显著减小状态空间的高效技术, 这导致更为高效的跟踪分析。图6是示出适用于图3所示的过程300中的框3054的示例性三维轨迹分段提取过程的流程图。总体而言,轨迹分段分析过程600使用谱聚。过程600在框602处开始,其中在图4中所示的二维提取过程期间确定的二维模式点被转换成三维体。为了获取目标对象的真正轨迹,尤其是如果目标对象跟随曲线轨迹,那么点被转换成三维体。对于每个二维模式,获取三维体中的三维点 气其中凡和/ 分别是空间位置和时间位置(帧数)。处理继续到框604处。在框604处,给定识3中的点集M = {附 }二 ,构建相似矩阵(affinity matrix), 其中诉3是三维欧几里得空间。在一个实施例中,基本相似矩阵^e识^定义如 下4 =eXp(-|A—巧『/2ct〗—。f/2cT,2) (9)其中比例参数C7p和C7,控制相似矩阵^分别在空间和时间上以多快的速度随两点m,和^之间的距离分开。在本跟踪技术的另一实施例中,可以使用更为复 杂但是昂贵的相似矩阵4'来鼓励更为紧凑的轨迹分段。该相似矩阵4/可以定 义如下4' = " + (1 - a) exp(-S2 [/z(附,),/<m )] / 2q2). (10)最后的项考虑两个模式(mi,mj)的外观(例如色彩柱状图)之间的相似程度。变 量a是权重因数。合适的权重因数可以是值0.5。处理继续到框606处。在框606处,三维点被分割成群集。各种谱聚技术可用来将三维点分成群 集。这些各种谱聚技术各自以略微不同的方式分析特征向量。在本视频跟踪技 术的一个实施例中,使用Ng的算法,它同时为K类群集使用K个特征向量。 对于该技术,构建矩阵"zr"Uzr"2,其中"是对角矩阵(D一lx)。基于丄产i的最大特征向量,计算矩阵五-h,…,^]e5RM,其中是^矩阵丄的标准化的《个最大特征向量组。接着将矩阵五中的每行当作9^中的点。常规《均值算 法接着将点群集成《个群集中。如果矩阵五的行/被分配给群集h那么原始 的点被分配给群集h处理继续到框608处。在框608处,基于群集获取轨迹分段。例如,群集A:中的所有3D点被作 为轨迹分段7^来对待。对于所有的群集这样做,以便获取《个轨迹分段7> = {7>,, — ,7^}。使用为本视频跟踪技术描述的谱聚,产生多个"有用"轨迹 分段。由此,三维轨迹提取过程基于二维局部模式M成功地提取多个三维对 象轨迹7h。每个对象轨迹表示三维体中所跟踪对象的可能的分段。与其他群集技术相比,谱聚的实施例将单位球体表面的三维数据点嵌入在 由L的K个最大特征向量确定的K维空间中。这使得可以分割原始三维空间 中的曲线轨迹或流形(manifold),这导致更为有用的轨迹分段。相反,使用 标准K均值群集确定的每个群集需要是凸区域。由此,如果轨迹是高度弯曲的 和/或轨迹的某些分区不是凸区域,那么不能获取"真正"轨迹。一旦提取了轨迹分段,那么就执行分析以确定目标对象在视频序列的部分 期间可能被遮挡的概率。现在结合图7更详细地描述在图2的框208中示出的 该分析。如果没有对目标对象的遮挡,那么所提取的轨迹分段可以被用于确定 对轨迹优化的状态空间采样。然而,通常在输入视频的某些部分期间会有对目 标对象的部分或完全遮挡,且处理继续遮挡推理。图7是示出适用于图2的视频跟踪过程的示例性遮挡分析过程的流程图。 因为在输入视频中发生的部分或完全遮挡不包括在已经提取的分段中,因此需 要获取附加的遮挡轨迹分段。这些遮挡轨迹分段接着会对应于遮挡阶段期间的 状态。遮挡分析是基于在分析多个视频序列的轨迹分段时识别出的若干个观察的。这些观察导致对于遮挡分析的双向、树成长算法。在描述遮挡分析之前, 首先讨论其所基于的观察。在对象轨迹分段之间推断和采样遮挡分段。包括关 键帧中的对象模板的轨迹分段是在"真正"对象轨迹中。应该排除与包含对象 模板的分段平行的任何轨迹分段。如果两个分段之间的重叠时间和最短距离不 超过某些经验阀值,那么它们可以被认为是平行的。在沿着时间轴的两个重叠 轨迹分段之间不存在遮挡分段。对于每个遮挡分段有某些速度和时间限制。基于这些观察,阐明用于遮挡分析的本双向、树成长过程。图7是示出适用于图2中所示的视频跟踪过程200的框208的示例性遮挡分析过程的流程图。 过程700从框702处开始,在其中构建树。在过程700的一个实施例中,使用 自从相应的状态中的对象模板获取的两个状态(例如初始和最终状态)中的任 何一个成长的一棵树执行过程700。在另一实施例中,可以使用多棵树来执行 过程700。例如,如果构建两棵树,那么一棵树成长自初始状态,而另一棵树 成长自最终状态。接着树会相遇以便形成目标对象的完整轨迹。以下讨论描述 了使用两棵树的过程700。如将要描述的,在该实施例中,来自两棵树的信息 可以被共享,以便获取对完整的轨迹的更好的确定。由此,在框702中,构建 两棵树TA和Te。两棵树都具有空的根节点。总体而言,树被用于基于先前标 识的轨迹分段来确定遮挡分段。遮挡分段接着连接脱开的轨迹分段对。这是通 过从树中排除多个对象轨迹并将多个遮挡轨迹添加到树上来完成的,如以下将 描述的。处理继续到框704处。在框704处,定位包含关键帧中的对象模板的轨迹分段。在多棵树实施例中,可以定位两个这种轨迹分段,并且将轨迹分段之一添加到每棵树r,和z;,作为活动节点。处理继续到框706处。在框706处,剩余的轨迹分段被分类到活动候选列表中。总而言之,活动 候选列表中的分段接着或者被排除,或者被用于确定遮挡分段。过程继续到框 708处。在框708处,从活动候选列表中移除活动候选列表中的与活动节点平行的 轨迹分段。如果两个分段之间的重叠时间和最短距离不超过某些经验阀值,那 么它们是平行的。在一个示例性实现中,时间阀值是30个帧,而距离阀值是 50个象素。处理继续到框710处。在框710处,执行双向树成长过程。总而言之,稍后结合图8描述的双向 树成长过程每次使树成长一步直至在树中没有活动的叶节点。树成长过程确定 可能的遮挡分段。 一旦完成了框710,那么也完成了遮挡分析过程700。图8是示出适用于图7中所示的遮挡分析过程的示例性双向树成长过程 800的流程图。对每个没有子节点的活动叶节点执行过程800。可以对每棵树 执行过程800。过程从框802处开始。在框802处,从活动候选列表选择轨迹分段作为当前活动节点(即先前活 动节点的活动叶节点)。所选的活动叶节点此时上不具有子节点。处理继续到 框804处。在框804处,确定当前活动节点的Q最佳遮挡分段。可以在活动候选列 表中执行前向检索,以便标识出沿着时间轴与其他轨迹分段重叠的轨迹分段7>*。接着可以在活动叶节点rz的轨迹分段和这些所标识的轨迹分段7>*的每一个之间生成Q最佳遮挡分段。在一个实施例中,基于4+W。,确定Q最佳遮 挡分段,其中y-10是权重因数。丄。和S。是两个连接的轨迹分段之间假设的B样条的长度(象素)和最大速度(像素X帧")。总而言之,B样条被用于生成与在时伺上两个脱开的轨迹z;和7;相关的缺少的遮挡分段o。给定 ;和 ;中的所有点{附;B样条被拟合的,其中B样条K"-2^。^"k使用加权最小平方 ^S二咖;)l卜"/)-附"2 (11) 其中— A)/AT'是帧。中B样条的时间参数表示。即使B样条的参数表示是近似值,但是发现它能够得出好的结果。权重函数"O,)被定义为exp(乂'l卜-巧(12)其中^和《是7V;中的最后一帧数和7>2中的第一帧数。比例参数^被设置成20。 使用权重函数,可以对C^和C"附近的点给予较大的权重。最后,A和7Vi之 间拟合的B样条被采样为遮挡分段O。处理继续到判定框806处。在判定框806处,作出判定在Q最佳遮挡分段中是否有任一个达到另一 端。换而言之,是否有遮挡分段中的之一碰到被设置为另一树中当前活动节点 的轨迹分段。另一树中的当前活动节点可以是包含对象模板的轨迹分段或被在 对其他树的处理期间被设置为活动节点的其他轨迹分段之一。如果Q最佳遮挡 分段之一达到另一端,那么处理继续到框814处。否则,处理继续到判定框808 处。在判定框808处,作出判定Q最佳遮挡分段之一是否是主遮挡分段。该 可选判断是基于轨迹分段之一是否具有用于£。 + ^。的值,所述值显著小于其他轨迹分段的值。如果有主遮挡分段,那么处理继续到框810处。否则处理继续 到框812处。在框810处,添加主Q最佳遮挡分段作为子节点,并且将其设置为当前 活动节点。先前的活动节点被设置为非活动的,因为它现在具有子节点。处理 接着继续使用该当前活动节点到框804处。在框812处,如果没有主Q最佳遮挡分段,那么将Q最佳遮挡分段的每 一个添加到活动候选列表中。通过这样做,可以连接多个遮挡分段,直至一个 可以与轨迹分段连接。处理接着循环回到框802,以便从活动候选列表选择"分 段"(遮挡分段或轨迹分段),并如上所述地继续。在框814处,如果Q最佳遮挡分段之一达到另一端,那么将该遮挡分段 添加到树的另一端。在具有两棵树的实施例中,遮挡分段被添加到两棵树,并 且被设置为非活动的。遮挡分段则是两棵树之间的桥梁。处理继续到框816处。在框816处,在树中使用B样条内插来连接沿着时间轴的中断。结果是 从初始状态到最终状态的可能的轨迹路径,它包括轨迹分段和遮挡分段。处理 然后完成。对没有任何子节点的每个子节点执行过程800。 一旦一节点具有子节点 (例如至少一个Q最佳遮挡分段),那么对该节点的处理完成。当在任一树中 不再有任何活动节点或者不再有被标识将初始状态连接到最终状态的轨迹,那 么过程800完成。会注意到轨迹分段与遮挡分段连接,因为在轨迹分段分析过 程300期间,获取最长的可能轨迹分段。因此,通常,轨迹分段不与其他轨迹 分段相连接。的遮挡分析过程期间生成的遮挡轨迹分段的图 示。如所示,有两个轨迹分段7b和7>2。点m;是二维局部模式,而7>/和7>2 是三维视频体中的三维轨迹分段。O是轨迹分段7>7和7>2之间的推断出的遮 挡轨迹分段。依照使用轨迹优化的本视频跟踪技术(图2中的框210),当获取了对象 轨迹和遮挡轨迹组之后,通过对这些轨迹采样来计算两个关键帧中的单个最佳 轨迹。本视频跟踪技术执行轨迹优化,以便获取更为准确的跟踪结果。轨迹优 化用由粗到精的方式执行上述公式(3)。在一个实施例中,为由粗到精的方 式选择两个级别。第一级别(即粗略级别),其中采样是空间向下采样的,可 以使用每个帧中的三个离散比例因数对计算出的分段周围的M (例如 500-1000)个状态进行均匀地采样。这些状态可以在自分段的较小的半径内选 择,诸如5个象素的半径。在该粗略级别中使用常规离散隐马尔可夫模型 (HMM)来计算最佳轨迹。使用从该粗略级别计算出的最佳轨迹,使用下一 级别(例如精细级别)来确定最终的最佳轨迹。下一级别可以使用每个帧中的 五个离散比例因数来对最佳解答周围的M个状态进行采样。即使精细级别使 用每个帧中的五个离散比例因数,但是计算不是过高的,因为状态的数目被显 著地降低了。例如,对于10秒的视频,轨迹优化大约采用8秒。图10-13是依照本跟踪技术示出各个处理阶段的结果的一组图表1000、 1100、 1200和1300。图14中示出了得出图1000、 1100、 1200和1300的视频 序列1400的简化帧。开始帧(#000)指定目标对象1404的初始状态1402, 而结束帧(#179)指定目标对象的最终状态1406。总体而言,视频序列1400 示出了两个相同杯子的移动。简化帧不示出背景,而是集中在相同的杯子彼此 相对的移动上。在帧#000中,个人(未示出)持有两个相同的杯子1404和1414, 使得杯子1404比杯子1414高大约半个杯子的长度。杯子1414的右下角被部 分地遮挡,并且在视频序列1400的所有的帧中保持在几乎相同的位置中。相 反,杯子1404在每个帧中移动。现在描述杯子1404在各帧中的移动。会注意 到每个帧作为矩形框1410,该矩形框1410表示依照本跟踪技术确定的目标对 象的预测位置。每个帧也示出了表示帧中目标对象的实际位置的阴影区1412。 由于目标对象的遮挡,阴影区域1412的大小根据目标对象遮挡的程度变化。在帧#016中,杯子1404垂直向下移动,使得其在杯子1414下方。在帧 #027中,被子1404向右移动,这样使得其在杯子1414的右下方。在帧#028-035 期间,杯子1404在持有杯子1414的个人手臂的下移动,并且最终位于杯子1414 右方且稍微高于其的位置处。因为杯子1404在个人的左臂之后,所以相当的 遮挡,如帧#035中所示。在帧弁052中,杯子1404被向上移动,并且大约在 杯子1414的直接上方。在帧#065中,杯子1404被置于与杯子1414相同的高 度,并且在杯子1414的左方,有少量的遮盖。在帧弁086处,杯子1404被降 低,并且被稍微地移动到帧中的左侧。在帧糾98中,杯子1404被置于杯子1414 的下方,并且因杯子1404前方的个人的手(未示出)而被部分地遮挡。在帧 弁105处,杯子1404被移动到持有杯子1414的个人的左臂的后方。由此,杯 子1404几乎被完全遮挡。然而,有趣的是,预测位置1410准确地预测到杯子 1404将位于的位置。在帧#132中,杯子被稍微举高,使得可越过个人的左臂 (未示出)看见一小部分。在帧#147中,杯子1404被移动到帧的顶部,并且 被持有杯子1404的个人的手指几乎完全遮挡。由此,如视频序列1410所示, 本跟踪技术准确地预测目标对象的位置,即使当目标对象变为被完全遮盖。在 图10中示出了跟踪技术在各个处理阶段本的结果。图表1000和IIOO示出了三维中两个二维模式的视图,其中在本跟踪技术 的二维提取过程期间生成二维模式点。垂直轴是序列中的帧号。另一轴是每个 帧中目标对象的x、 y位置。向下到中心的相对直线对应于视频序列1400中的 同一杯子1414。图表1200示出了在使用谱聚执行三维轨迹分段分析之后获取 的有用的轨迹分段。因为在视频序列部分期间目标对象被完全遮挡,所以没有 从初始状态到最终状态的一条轨迹。图表1300示出了在执行遮挡分析后,目 标对象的最佳轨迹。虚线矩形中的圆圈表示填入的遮挡分段。由此,如所述的,本跟踪技术成功地处理了部分或完全遮挡。本跟踪技术 采用新颖的轨迹分段表示来从三维视频体中可能的对象轨迹获取少量的轨迹 分段。使用谱聚方法从输入视频提取轨迹分段。有了该表示,通过使用轨迹分 段以使用由粗到精的方式采用离散隐马尔可夫模型来获取MAP解答。此外, 本跟踪技术采用遮挡分析过程来健壮地推断目标对象的可能的遮挡轨迹分段。现在讨论可用于本跟踪技术的典型的参数设置。群集数目K的选择是群集中的公开问题。因为在本跟踪技术的遮挡分析中有分组机制,所以确定稍微大于"最佳"的K是可以接受的。因此,可以设置群集数目K,使得K-7或 K=10。在二维模式提取中,G是高斯核函数,其标准偏差卩j以是关键帧中目标 对象的大约1/6的大小。在三维轨迹提取中,比例参数^和"'可以分别被设置 成10和20。在轨迹优化中,方差参数 和 可以分别被设置成10和1。如上所述,使用轨迹分析的本双向跟踪将整个视频序列和两个关键帧中信 息作为输入,并且输出贝叶斯构架中目标对象的整体状态序列的MAP解答。 双向跟踪是基于轨迹分析的,所述轨迹分析从输入视频提取多个三维轨迹,即 对象跟踪的紧凑表示。接着,在轨迹级别推断遮挡轨迹。最后,以由粗到细的 方式通过轨迹优化来获取MAP解答。实验结果示出了本技术关于突然移动、 含糊不清、短时间和长时间遮挡的健壮性。本双向跟踪技术可以被应用于许多离线应用。其中可应用该技术的一个新 的领域是在线广告。对于该应用,可以"点击"移动目标以便自动地链接到相 关的网站。因为本双向跟踪技术准确地跟踪目标对象,因为可以将移动目标对 象的位置给予潜在的应用以供其自身使用。可以为本跟踪技术想象该应用和许 多其他应用。虽然示出和描述了示例性实施例和应用,但是应该理解本发明不限于 上述精确配置和资源。对本领域的技术人员显而易见的是可以对排列、操 作以及本申请中所公开的系统和方法的细节作出各种修改、改变和变更, 而不背离所作权利要求的发明的范围。
权利要求
1. 存储用于执行一方法的计算机可执行指令的至少一种计算机可读介质,所述方法包括确定视频序列(1400)的两个关键帧(#000和#179);获取(204)目标对象(1404)在所述两个关键帧之一中的第一状态(1402)以及所述目标对象在另一关键帧中的第二状态(1406);以及基于所述第一和第二状态,从所述一个关键帧到所述另一关键帧跟踪(200)帧中的所述目标对象。
2. 如权利要求1所述的计算机可读介质,其特征在于,其中对所述目标 对象的跟踪包括对所述帧执行二维提取,以便获取所述目标对象的多个局部二维(2D) 模式;基于所述局部二维模式的稀疏集执行三维轨迹分段提取,以便获取所述目 标对象的多个三维轨迹分段;基于所述多个轨迹分段执行遮挡分析,以便获取连接所述多个轨迹分段的 两个脱开的轨迹分段的一个遮挡分段;以及基于所述轨迹分段以及所述遮挡分段,用由粗到精的方式执行轨迹优化, 以便获取所述目标对象的最佳轨迹。
3. 如权利要求2所述的计算机可读介质,其特征在于,其中执行所述二 维提取包括计算痕迹表面;以及将均值漂移算法应用于计算所计算出的痕迹表面的梯度方向,得出所述目 标对象的局部二维模式。
4. 如权利要求3所述的计算机可读介质,其特征在于,其中三维轨迹分 段提取包括将所述二维模式转换成三维体中的三维点;使用谱聚技术将所述三维点分割成群集,所述谱聚技术同时为K类群集使用K个特征向量;以及基于所述群集获取所述有用的轨迹分段。
5. —种计算机实现的方法,包括指定(202)视频序列(1400)中的开始(#000)和结束帧(#179);获取目标对象(1404)在所述开始帧内的初始状态(1402)以及所述目标 对象在所述结束帧中的最终状态(1406);对以所述开始帧开始并以所述结束帧结束的帧执行二维提取(302),以 便基于所述初始状态和所述最终状态获取所述帧中的目标对象的局部二维模 式(512)的稀疏集;以及基于所述局部二维(2D)模式的稀疏集执行三维轨迹分段提取(304), 以便获取所述目标对象的多个三维轨迹分段(Tn)。
6. 如权利要求5所述的计算机实现方法,其特征在于,其中执行所述 二维提取包括计算痕迹表面;以及将均值漂移算法应用于计算所计算出的痕迹表面的梯度方向,得出所述目 标对象的局部二维模式。
7. 如权利要求6所述的计算机实现方法,其特征在于,还包括在应用 所述均值漂移算法之前使用所述目标对象的色彩柱状图来预过滤所述帧。
8. 如权利要求6所述的计算机实现方法,其特征在于,还包括通过均 匀地采样所述帧中的位置并且独立于每个开始位置运行所述均值漂移算法 来确定多个开始位置。
9. 如权利要求8所述的计算机实现方法,其特征在于,其中均匀采样 包括将空间采样间隔设置成稍微小于所述目标对象的一半大小。
10. 如权利要求6所述的计算机实现方法,其特征在于,还包括如果 所述相应的痕迹小于预定的值,则拒绝所述局部二维模式之一。
11. 如权利要求6所述的计算机实现方法,其特征在于,还包括当所 述两个二维模式在彼此之间某个距离以内时,就将所述局部二维模式合并 成一个局部二维模式。
12. 如权利要求5所述的计算机实现方法,其特征在于,其中执行三 维轨迹分段提取包括-将所述二维模式转换成三维体中的三维点;使用谱聚技术将所述三维点分割成群集,所述谱聚技术同时为K类群集 使用K个特征向量;以及基于所述群集获取所述有用的轨迹分段。
13. 如权利要求12所述的计算机实现方法,其特征在于,还包括基于 所述多个轨迹分段执行遮挡分析,以便获取连接所述多个轨迹分段的两个脱 开的轨迹分段的至少一个遮挡轨迹分段。
14. 如权利要求13所述的计算机实现方法,其特征在于,其中执行遮 挡分析包括a) 构建一树,所述树的根节点为空;b) 将包含所述关键帧中的对象模板的一个轨迹添加到所述树中,作为 活动节点;C)将剩余的轨迹添加到候选列表中;d) 在所述候选列表中基于所述轨迹是否与对应于所述活动节点的轨迹 平行排除轨迹;e) 当所述树中有活动节点时,从所述候选列表选出所述轨迹之一作为 当前活动节点;f) 确定至少一个Q最佳遮挡分段;g) 如果所述Q最佳分段没有达到期望的轨迹分段,那么将所述至少一 个Q最佳遮挡分段添加到所述候选列表中;以及h) 重复e-g直至Q最佳分段达到所述期望轨迹分段;以及i) 连接所述轨迹和所述Q最佳遮挡分段以作出所述目标对象的完整轨迹。
15. 如权利要求13所述的计算机实现方法,其特征在于,还包括基于 所述有用的轨迹分段以及所述遮挡轨迹分段,用由粗到精的方式执行轨迹优 化,以便获取所述目标对象的最佳轨迹。
16. 如权利要求15所述的计算机实现方法,其特征在于,其中用由粗 到精的方式执行轨迹优化包括空间上向下采样所述帧并且使用三个离散比例 因数在每个帧中所述轨迹分段周围的所述位置均匀地采样以便获取所述最佳轨迹。
17. 如权利要求5所述的计算机实现方法,其特征在于,其中用由精 细方式执行轨迹优化包括使用每个帧中的五个离散级别的比例因数来均匀地 对所述优化轨迹周围的所述位置进行采样以获取最终最佳轨迹。
18. —种计算设备,包括 一处理器(102);一存储器(104),多个指令(140)被载入到其中,所述多个指令当有所 述处理器执行时,执行用于跟踪视频序列(1400)中的目标对象(1404)的方 法(200),所述视频序列被分解成若干个短序列,所述较短的序列具有开始 帧(#000)和结束帧(#179),所述方法包括a) 为一个短序列的每个帧生成(406) —组局部二维模式(512),每个局 部二维模式标识所述帧中具有与在所述开始帧中标识的所述目标对象类似的视觉统计的位置(HM);b) 基于所述局部二维模式组,获取(608)所述目标对象的多个三维轨 迹分段(Tr!和Tr2);c) 获取(208)连接所述多个三维轨迹分段的两个脱开的轨迹分段(Tn 和Tr2)的至少一个遮挡分段(O);以及d) 基于所述多个三维轨迹分段和所述至少一个遮挡分段,确定(210) 最佳轨迹(1300)。
19. 如权利要求18所述的系统,其特征在于,其中获取所述多个三维轨 迹分段包括将所述局部二维模式组转换成三维体中的三维点、使用谱聚将所述 三维点分割成群集以及基于所述群集获取所述三维轨迹分段。
20. 如权利要求19所述的系统,其特征在于,其中获取所述至少一个遮 挡分段包括执行双向树成长过程。
全文摘要
本视频跟踪技术基于从整体状态序列的开始和结束关键帧获取的两个对象模板输出目标对象的最大后验(MAP)解答。该技术首先通过在该序列的每个帧中生成局部二维模式的稀疏集来最小化序列的整体状态空间。该二维模式被转换成三维体内的三维点。使用谱聚技术来群集该三维点,其中每个群集对应于该目标对象的可能的轨迹分段。如果在该序列中有遮挡,则生成遮挡分段,使得可以获取该目标对象的最佳轨迹。
文档编号G06T7/20GK101283376SQ200680037803
公开日2008年10月8日 申请日期2006年10月13日 优先权日2005年10月14日
发明者H-Y·沈, J·孙, W·张, X·唐 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1