采用单个相机检测运动物体的方法和系统与流程

文档序号:11591648阅读:278来源:国知局

相关申请

本申请要求2015年11月13日提交的、题目为“采用单个相机检测运动物体的方法和系统”的美国临时申请62/255,289的优先权,其整体内容通过引用结合到本文中。

本公开的方面涉及通过在单个单目相机获得的串流影像中分割运动物体来检测运动物体的方法和系统。更特别地,本公开的方面涉及获取和分析输入图像序列,其包括多个时帧{i1,i2,i3…it},并对于每个it,确定和输出二元掩模yt,其中yt中的每个元表示相关的像素是否属于运动物体。



技术实现要素:

本公开可以在线跟踪点特征并保存点轨迹的集合。对于每个点轨迹,通过使用来自多视图几何图形的约束条件来测量似然性,以确定其是否属于运动物体。另外,基于从点轨迹接收到的响应,可以在全部帧上构建条件随机域(crf)以获得运动物体分割。

本公开的这些方面的其他益处和新颖特征的一部分通过以下的说明书列出,一部分对于本领域技术人员来说在检验以下内容或通过实践本公开而学习时将变得更加显而易见。

附图说明

所述系统和方法的不同示例性方面将参考以下附图进行详细描述,其中:

图1显示了根据本公开的不同方面的追踪和检测不同运动物体的示例,所述运动物体包括公共街道上的运动货车、骑车人和行人;

图2显示了根据本公开的不同方面的极线约束的理论和相关数学方程;

图3显示了根据本公开的不同方面的用于产生点轨迹的相邻帧之间的示例性光流;

图4显示了根据本公开的不同方面的用于点轨迹的极线运动物体分数(ems)的示例性示意图;

图5显示了根据本公开的不同方面的用于不同点轨迹的ems的示例性示意图和列表;

图6(a)-(e)是显示了根据本公开的不同方面的极线约束结果的示例性屏幕截图;

图7显示了根据本公开的不同方面的极线约束的退化情况的示例性示意图;

图8显示了根据本公开的不同方面的三焦距约束理论和相关的数学方程;

图9(a)-(e)是显示了根据本公开的不同方面的三焦距约束结果的示例性屏幕截图;

图10显示了根据本公开的不同方面的在超像素上形成条件随机域(crf)的示例性结果;

图11(a)-(b)是根据本公开的不同方面的示例性运动分割结果;

图12(a)-(i)是显示了根据本公开的不同方面的另外的定性结果的示例性屏幕截图;

图13显示了根据本公开的不同方面的检测运动物体的方法的示例性流程图;

图14提供了根据本公开的不同方面的不同硬件部件和其他特征的示例性系统图;

图15是根据本公开的不同方面的不同示例性系统部件的示例性框图。

具体实施方式

本公开的这些和其他特征和益处在以下的不同示例性方面的详细说明中描述,或从中变得明显。然而,很明显,这些方面可以在没有这些具体细节的情况下实施。

参考图1,本公开特别是在由单个相机捕捉的串流影像中检测运动物体,例如,运动的车辆、行人和实质上的任何运动的物体。运动物体的检测和基于运动的追踪对于动作识别、交通监测和自动车辆安全来说是重要的。例如,在驾驶的情况下,运动物体在安全问题上来说通常是重要的。而且,当运动物体被其他物体完全地或部分地阻碍时会发生阻塞。当部分阻塞时,从静止的图像中检测运动物体是困难的。然而,如果运动的部分可以在影像中被检测到的话,这可以帮助解决阻塞问题。如图1所示,对于由单目相机获得的影像的每一帧来说,对于每个运动物体(例如左边的运动货车,中间的骑车人,和右边的行人)的二元掩模或片段集合可以被输出以指示像素是否属于运动物体。这里,二元掩模可以指二元图像,其具有和正在处理的图像相同的尺寸,并且掩模可以对于所有像素包括1’s,其为感兴趣区域的部分,并且其他任何地方包括0’s。根据本公开的方面,可以输出全部帧的二元掩模,其中每个像素可以被标记为运动的或静止的。为了在帧t实现该目的,可以计算前方和后方的光流场直到可以形成帧t和长期点轨迹的集合。每个轨迹可以通过点的集合表示。当前集合中的每个轨迹可以在当前帧t结束。基于指示轨迹是否在运动物体上的几何图形,可以向每个轨迹分配运动物体分数。每个轨迹上的分数可以被用于将图像划分为运动的物体区域和静止的物体区域。

物体的运动状态(在本文中可交换地称为运动物体)可以使用几何图形进行测量。例如,在最基本的情况下,当相机以严格向前的方向运动时,人们通常看见从相机中心运动远离的所有静止的点并且在图像的中心具有扩展焦点。用于检测运动物体的提示可以包括外观和紧凑性,以及其他提示。例如,在处理运动分割时,可以提取点轨迹并且可以基于诸如速度的属性对这些轨迹执行聚类。然而,虽然该方法执行聚类,可能缺乏对哪些聚类对应于真实运动物体的理解。可替代地,可以执行后处理以通过检查颜色以及其他因素来提取运动物体。子空间跟踪也可以基于使用正交相机模型的假设来进行,其中所有背景点轨迹都位于低维空间中。此外,可以在运动物体检测中通过对先前帧应用局部仿射变换来补偿相机运动,之后进行背景减除以获得运动掩模,来执行自运动补偿背景减除。

根据本公开的方面,选择的几何约束可以被用于获取运动提示,特别考虑物体可以从静止到运动的转变或其他方式的转变。令i:(x,t)→it(x)是在域d上定义的图像序列,并且it表示在时间t的帧。图像序列i中的特征点可以被追踪,并且轨迹集合可以被构建,其中对于每个轨迹,τ是初始帧并且t是最终或当前帧。轨迹可以通过点的集合表示。对于每一帧,可以将分数分配给这些轨迹以确定是否它们在运动的或静止的物体上。运动物体分数可以被另外用于将图像域划分成静止物体的区域和运动物体的区域。在图像序列i中,静止物体的轨迹可以遵循由相机运动引起的几何性约束。

几何运动约束可以比如外貌以及其他的提示提供更多信息。例如,真实的运动提示可以被需要以捕捉汽车从运动状态到静止状态的转变。

当相机是静止的,3d点可以被投影到图像平面内的相同点上,当相机运动时,由于相机运动,静止的3d点的投影可以在图像平面上运动,并且可以遵循某些约束。如此,为了检测运动物体,或更特别地,为了测量点轨迹的运动,两种多视图几何图形信息可以被使用,也就是说,双视图之间的极线约束,和来自三视图中的三焦距约束。在不同视图中的场景中的静止点的投影中的偏移可能由相机运动引起。假设场景中的多数点是静止的,从点对应变化的相对相机姿态变化可以被估计。运动物体上的点通常是这样的估计值的离群值,并且根据其如何拟合模型,点的运动可以因此被测量。

极线约束

如图2所示,通过建立左视图中的点与右视图中的线之间的映射,极线约束描述了两幅视图之间的静止3d点的投影之间的关系,反之亦然。极线约束由两个相机之间的基本矩阵或基础矩阵描述。给定两个帧中的静止点的m个点对应,满足以下方程:

其中fij表示基础矩阵的系数。在本公开中,如图3中所示,连续的帧之间的光流可以被计算以获取点对应,并且产生密集的长期点轨迹。在图像序列中给定两个随意的帧,对于场景中任何固定的背景点,满足以下方程:

其中分别是帧τ和τ′中3d点的投影,并且是基础矩阵,其将两个帧之间的相机的相对姿态变化编码。对于任意两个帧,从点轨迹给定对应,可以使用最小中值平方(lmeds)来估计f。在帧t,从帧τ到t的每个帧对之间可以估计基础矩阵。几何上,一个视图内的静止点的投影可以位于由在另一视图中的投影产生的极线上。对于运动物体,大体除了下面更详细讨论的退化情况之外,方程(1)可以不成立。根据本公开的方面,如图4所示,一对点对应的极线运动物体分数可以基于如下的极线约束计算:

其中限定了各视图中的相对极线,并且函数dpl(·)计算点到线的距离。该距离越大,轨迹属于运动物体的似然性越大。在帧t,给定当前的点轨迹集合zt,基础矩阵可以在当前帧t和所有的先前帧(只要在该帧和it之间存在足够数量的点轨迹)之间使用lmeds和8点算法进行估计。对于每个轨迹人们可以计算轨迹上的当前帧和所有先前点之间的极线运动物体分数。

为了考虑如图5所示的轨迹的历史,基于当前极线运动分数(ems)和先前的ems的两个测量可以被限定。第一测量可以使用轨迹的所有ems的加权平均,即,ems的加权平均(emsavg)如下限定:

这里,β∈[0,1]是衰减系数,其对来自先前帧的ems给予较小的权重,并且是归一化系数,如此较老的ems接收较小的权重。

除了平均极线运动物体分数,时间上的误差的变化也可以被分析以测量轨迹在运动物体上的似然性。根据本公开的方面,可以假定当τ>τ′>τ″时当目标物体持续地远离其初始位置运动时,该不等式可以特定地保持。尽管该假定可以被认为是限制性的,但是在城市驾驶场景中往往如此,这时目标物体通常不会返回到它们被观察到的初始位置。在该假设下,对于都是增长的序列。为了捕捉这种直觉,可以如下定义另一个极线运动物体分数:

其中[·]是指标函数,如果输入的不等式保持时其为1,并且其他情况为0,v是公差变量且是归一化系数。

图6(a)-(e)显示了根据本公开的方面的检测运动物体中多个示例性极线约束结果。例如,在图6(a)中,左边的运动车辆和右边的骑车人可以通过使用上述讨论的极线约束被检测和识别。另外,在图6(a)-(e)的每一个中,不仅运动物体与背景相比进行识别,而且还实时地跟踪每个运动物体的运动。

三焦距约束

然而,极线约束不能检测某个种类的运动,即,当物体以与相机相同的方向运动时,或更普通地,当物体在极面内运动时。在这样的情况下,特定点可以沿着极线运动,并且因此不能被极线约束检测。这被称为退化情况,如图7所示。为了克服退化情况中的问题,三个视图之间的三焦距约束可以被使用,如图8中所示,通过对三个帧内的静止点或线的投影的关系进行编码,并且可以通过张量t表示。对于三个点对应,满足以下约束:

这里,下标编码点的三个坐标,并且等式对于所有i,j=1,2,3保持。和在两个视图的情况不同,在第三幅视图中点的位置可以通过在两个视图中给定它的位置来确定。

给定三视图点对应其中t≥p>n>m≥τ在轨迹上,三聚焦运动物体分数(tms)可以如下限定:

其中是使用xm、xn在第三视图中的估计位置并且dpp(·)计算各点之间的欧几里得距离。三焦距张量可以使用lmeds估计,但是这样的三焦距张量的估计易于产生噪音。为了解决该问题,来自基础矩阵的极线可以首先被估计并且约束来自三焦距张量的极线不会远离这些估计值。不同于极线约束的情况,当前帧t和t-η和t-2η之间的三焦距张量可以被估计,其中η是帧差距,用于对于每个轨迹产生一个三焦距运动物体分数。而且,可以使用轨迹的时间支持来计算加权平均值以考虑历史,如下:

其中β∈[0,1]。

图9(a)-(e)显示了根据本公开的方面的检测运动物体中的多个示例性三焦距约束结果。例如,在图9(a)中,使用上述讨论的三焦距约束,左边的运动车辆和右边的骑车人可以被检测和识别。另外,在图9(b)-(e)的每一个中,不仅运动物体与背景相比进行识别,而且还实时地跟踪每个运动物体的运动。

运动物体分割

在关于点轨迹的运动对象/运动分数的上述讨论的观点中,这样的信息可以被传播到整个帧。这可以通过首先对帧分割来实现,以获取超像素并且用0/1标记来标记超像素,其中1指示超像素属于运动物体,并且0指示静止物体。接着,可以对超像素构建成对的crf,如图10所示。通过表示当前帧t中的每个超级像素为si和其对应的标记为yi,yi∈y,crf目标可以被如下限定:

其中ε是所有相邻超像素对的集合,并且eu,ep分别表示一元和成对特征。对于eu,以上方程(1)-(6)对于当前帧可以被连接。接下来,通过获取超像素内的所有轨迹的中值,来自点轨迹的响应可以被转移到超像素,并且如果对于各特征在超像素内没有轨迹时标记“0”。为了保持标记在时间上一致,可以将另一个特征添加到对点轨迹标记的历史进行编码的一元项。在帧t-1,在超像素标记之后,点轨迹的标记可以通过将超像素的标记分配到其内部的所有点轨迹来获得。在帧t,对于每个超像素,可以计算其中的前景点轨迹的百分比以确保时间上的平滑标记。可替换地,时间上的crf可以被建立,其中帧上的超像素可以被链接。两个超像素之间的成对特征ep可以由两个超像素的颜色和光流直方图之间的bhattacharyya系数组成。在该优化问题中,权重向量wu和wp可以通过结构支持向量机(svm)学习,并且优化问题可以通过对偶分解来解决。

图11(a)-(b)显示了根据本公开的方面的多个检测运动物体中的示例性运动物体分割的结果。另外,图12(a)-(i)是显示根据本公开的方面的检测运动物体中的定性结果的示例性屏幕截图。追踪数据集可以被建立成与不同输入图像序列相关联。本公开可以为每个物体添加二进制标记以辅助指示它是否正在运动。

图13是显示根据本公开的多个方面的用于检测运动物体的方法1400的示例性流程图。在图13中,本方法开始于框1302,获取由相机捕捉的串流影像。本方法还包括在框1304提取输入图像序列,其包括来自串流影像的一系列图像;在框1306对于系列图像中的至少一个追踪点特征并保留点轨迹的集合;在框1308,通过使用来自多视图几何图形的约束,对于每个点轨迹,测量似然性,以确定是否其属于运动物体;并且在框1310确定整个帧上的条件随机域(crf)以获得运动物体分割。

图14展示了用于根据本公开的方面的不同硬件部件和其他特征的示例性系统示意图。本公开可以使用硬件、软件、或其组合进行实施,并且可以在一个或多个计算机系统或其他处理系统中实施。在一个方面,本公开针对能够执行本文描述的功能的一个或多个计算机系统。这样的计算机系统的一个示例1400显示在图14中,并且计算机系统1400可以被实施以执行图13的方法1300。

计算机系统1400包括一个或多个处理器,例如处理器1404。处理器1404被连接到通信基础设施1406(例如通信总线、交叉后备地址寄存器或网络)。按照该示例性计算机系统描述不同软件方面。在阅读该说明后,对于相关领域技术人员来说如何使用其他计算机系统和/或架构实施本发明将变得清楚。

计算机系统1400可以包括显示交互装置1402,其从通信基础设施1406(或从未示出的帧缓存器)转发图形、文本和其他数据用于在显示单元1430显示。计算机系统1400还包括主存储器1408,优选为随机存取存储器(ram),并且还包括辅助存储器1410。辅助存储器1410可以包括例如硬盘驱动1412和/或可移除存储驱动1414,代表为软盘驱动、磁带驱动、光盘驱动等。可移除存储驱动1414以公知的方式从可移除存储单元1418读取和/或写入可移除存储单元1418。可移除存储单元1418,代表为软盘、磁带、光盘等,其通过可移除存储驱动1414读取和写入。需要明了的是,可移除存储单元1418包括计算机可用存储介质,其中已经存储了计算机软件和/或数据。

在可替代方面中,辅助存储器1410可以包括其他类似设备,其允许计算机程序或其他指令加载到计算机系统1400中。这样的设备可以包括例如,可移除存储单元1422和交互装置1420。这些的实例包括程序盒式存储器和盒式交互装置(例如在视频游戏设备中发现的),可移除存储器芯片(例如可擦除可编程只读存储器(eprom),或可编程只读存储器(prom))和相关套接件,和其他可移除存储单元1422和交互装置1420,其允许软件和数据被从可移除存储单元1422传送到计算机系统1400。

计算机系统1400也可以包括通信交互装置1424。通信交互装置1424允许软件和数据在计算机系统1400和外界设备之间传送。通信交互装置1424的实例可以包括调制解调器、网络交互装置(例如以太网卡)、通信端口、个人计算机存储卡国际协会(pcmcia)插槽和卡等。经通信交互装置1424传送的软件和数据是信号1428的形式,其可以是电子的、电磁的、光的或能够被通信交互装置1424接收的其他信号。这些信号1428通过通信路径(例如频道)1426被提供给通信交互装置1424。该路径1426运载信号1428并可以使用线或电缆、光纤、电话线、蜂窝链路、无线电频率(rf)链路和/或其他通信频道来实施。在该文件中,术语“计算机程序介质”和“计算机可用介质”被用于一般地表示例如可移除存储驱动1480、安装在硬盘驱动1470中的硬盘、和信号1428的介质。这些计算机程序产品向计算机系统1400提供软件。本公开涉及这样的计算机程序产品。

计算机程序(也指的是计算机控制逻辑)被存储在主存储器1408和/或辅助存储器1410中。计算机程序还可以经过通信交互装置1424被接收。这样的计算机程序,当被执行时,能够使得计算机系统1400实施本公开的特征,如本文所讨论的。特别地,计算机程序,当被执行时,能够使得处理器1410实施本公开的特征。因此,这样的计算机程序代表计算机系统1400的控制器。

在本公开使用软件执行的一个方面,所述软件可以被存储在计算机程序产品并使用可移除存储驱动1414、硬盘驱动1412或通信交互装置1420加载到计算机系统1400。控制逻辑(软件)当被处理器1404执行时,使得处理器1404执行本公开的功能,如本文所描述的。在另一方面,本公开主要通过硬件执行,例如使用例如特定用途集成电路(asic)的硬件部件。硬件状态机的应用以便执行本文所描述的功能对于相关领域的技术人员将是显而易见的。

在另一方面,本公开使用硬件和软件的结合执行。

图15是根据本公开的一个方面的不同示例性系统部件的框图。图15显示了根据本公开可用的通信系统1500。通信系统1500包括一个或多个存取器1560、1562(也指的是在本文中可互换地称为的一个或多个“用户”)和一个或多个终端1542、1566。在一个方面,根据本公开使用的数据是例如经终端1542、1566(例如个人计算机(pc)、小型计算机、大型计算机、微型计算机、电话设备或无线设备(例如个人数字助手(“pda”)或耦连到服务器1543(例如pc、小型计算机、大型计算机、微型计算机或其他设备包括处理器和数据存储器和/或经由例如网络1544(如因特网或内联网)连接到数据存储器,和耦合1545、1546、1564)的手持无线设备))通过存储器1560、1562输入和/或访问。耦合1545、1546、1564包括例如有线的、无线的或光纤链路。在另一方面,本公开的方法和系统在独立环境中运行,例如在单独的终端。

虽然本公开的多个方面已经结合上面列出的多个示例性特征进行了描述,不同替代物、改型、变型、改进和/或有效等价物,无论是已知的还是目前无法预见的,对于本领域至少普通技术人员来说都是显而易见的。因此,本公开的示例性方面如以上所列出的,意在是展示性的,而非限制性的。不同变化可以在没有背离其精神的前提下做出。因此,本公开的方面旨在包括所有已知的或以后开发的替代物、改型、变型、改进和/或有效等价物。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1