用于提高视频中的对象检测性能的系统和方法

文档序号：6534760阅读：165来源：国知局

用于提高视频中的对象检测性能的系统和方法
【专利摘要】一种用于训练特殊对象检测器辨别出现在用于目标域的帧序列中的前景对象的方法和系统。该帧序列描述不均匀背景中的前景对象的运动。在该序列的初始帧的高置信度子窗口中检测前景对象，其包括计算高置信度子窗口包括前景对象的置信度量并确定该置信度量超过指定置信度阈值。在出现在初始帧之后的后续帧的各正子窗口中跟踪前景对象。后续帧在指定短时间段内。使用正子窗口来训练特殊对象检测器检测目标域中的前景对象。正子窗口包括初始帧的子窗口和后续帧的各子窗口。
【专利说明】用于提高视频中的对象检测性能的系统和方法
【技术领域】
[0001]本发明一般地涉及视频中的对象检测且更具体地涉及提高视频中的对象检测的性能。
【背景技术】
[0002]对象检测在智能视频监控系统中起到基础作用。作为前提条件，在大视频数据库中或在实时视频流中自动地搜索感兴趣的对象的能力常常涉及到视频帧中的对象的检测和局部化。
[0003]传统监控系统通常应用背景建模技术[(C.Stauffer和W.Grimson, Adaptivebackground mixture models for real-time tracking, CVPR, 1998, I);(Y.Tian, M.Lu和 A.Hampapur, Robust and efficient foreground analysis for real-time videosurveillance, CVPR, 2005, I)]，用于检测场景中的移动对象，其在低活动性情形中是高效的且相当好地工作。然而，传统监控系统在其处理典型市区条件(诸如拥挤场景)和环境变化(像雨、雪、反射以及阴影)的能力方面是有限的。在拥挤场景中，多个对象被频繁地合并成单个运动斑点，从而损害较高水平的任务，诸如对象分类和属性的提取。
[0004]基于外观的对象检测器[(N.Dalal 和 B.Triggs.Histograms of orientedgradients for human detection, CVPR, 2005, I); (P.Felzenszwalb,R.Girshick,D.McAllester 和 D.Ramanan, Object detection with discriminatively trainedpart based models, IEEE Transactions on PAMI, 2010, I)]作为用以应对这些有挑战性的条件的很有前景的方向而出现。具体地，对于要求实时处理的应用而言，基于类哈尔(Haar-1ike)特征的级联检测器已被广泛地用于人脸[P.Viola和M.Jones.Robust Real-time Object Detection, International Journal of ComputerVision, 2004, I, 2, 3, 4],行人[P.Viola, M.Jones 和 D.Snowi, Detecting pedestriansusing patterns of motion and appearance, ICCV, 2003, I]和车辆[R.S.Feris, B.Siddiquie,Y.Zhai,J.Petterson,L.Brown 和 S.Pankanti, Attribute-based vehiclesearch in crowded surveillance videos, ICMR, 2011，I]的检测。虽然在此领域中已经实现的显著的进步，但现有技术对象检测器仍不能很好地一般化至不同的相机角度和照明条件。由于实际部署常常涉及到大量的监控相机，所以训练每个相机的检测器由于标注成本而是不可能的。已经提出了在线自适应方法[(V.Jair^PE.Learned-Miller, Online domainadaptation of a pre-trained cascade of classifiers, CVPR, 2011, I, 2);(S.Pan, 1.Tsang, J.Kwok 和 Q.Yang, Domain adaptation via transfer component analysis, IEEETransactions on Neural Networks, 2011, I, 2)]以使一般检测器适应于特定的域，但是该在线自适应方法通常要求来自目标域的少量的手动标签。大多数方法仅仅依赖于权值的自适应，同时保持原始检测器的相同的特征和相同的计算复杂性。
[0005] 已经提出了用于图像和视频中的对象检测的各种方法。基于可变形部分的模型[P.Felzenszwalb, R.Girshick, D.McAllester 和 D.Ramanan, Object detectionwith discriminatively trained part based models,IEEE Transactions onPAMI, 2010, I],基于取向梯度特征的直方图的分类器[N.Dalal和B.Triggs.Histogramsof oriented gradients for human detection, CVPR, 2005，I]以及卷积神经网络[Y.LeCun，K.Kavukvuoglu 和 C.Farabet，Convolutional networks and applications invision, ISCAS, 2010，I]是已在多个标准数据集中实现现有技术成果的成功方法的示例。然而，一般地，这些方法在常规机器上运行小于15帧每秒，并且因此可能不适用于要求每个服务器处理许多视频通道的监控应用。
[0006]级联检测器[(P.Felzenszwalb，R.Girshick 和 D.McAllester，Cascadeobject detection with deformable part models, CVPR, 2010, 2) ; (P.Viola 和M.Jones.Robust Real-time Object Detection,International Journal of ComputerVision, 2004，1，2，3，4)]已被普遍地釆用以获得高效的处理。Viola和Jones [P.Viola和M.Jones, Robust Real-time Object Detection,International Journal of ComputerVision, 2004，1，2，3，4]介绍了一种基于Adaboost分类器、使用快速至计算机的类哈尔特征的鲁棒且高效的检测器。在过去几年中已经提出了此算法的许多变体，包括不同的提高模型和不同的特征。用于级联检测器的置信度量尚未被很好地研究。
[0007]共同训练技术[(0.Javed，S.Ali 和 M.Shah，Online detection andclassification of moving objects using progressively improvingdetectors, CVPR, 2005，2) ; (P.Roth, H.Grabnerj D.Skocajj H.Bischof 和Leonardis,On-line conservative learning for person detection,PETSWorkshop, 2005, 2)]已通过在数据的不同视图上训练单独分类器，应用于提高特定域中的对象检测的性能。来自第一分类器的可信标记样本被用来补充第二分类器的训练集且反之亦然。共同训练的底层假设是数据的两个视图是统计独立的，其尤其是在从单个模态提取特征时可能被违背。
[0008]已经提出了多个在线自适应方法[(V.Jain 和 E.Learned-Miller.0nline domainadaptation of a pre-trained cascade of classifiers, CVPR, 2011，1，2) ; (S.Pan, 1.TsangjJ.Kwok 和 Q.Yang, Domain adaptation via transfer component analysis, IEEETransactions on Neural Networks，2011，1，2)]以使一般检测器适应于特定的域。通常，这些技术要求来自目标域的少数手动标签或者遭受捕捉在线数据以正确地更新分类器方面的不准确性。除少数例外[H.Grabner和H.Bischofj Online boostingand visiOn，CVPR，2006，2]，只有特征权值是自适应的且特征本身并不是。结果，自适应分类器一般地至少如原始检测器那样昂贵。在线学习已被应用于改善跟踪[(H.Grabnerj C.Leistner 和 H.Bischof，Sem1-supervised on-line boosting for robusttracking, ECCVj2008，2) ; (S.Avidanj Ensemble tracking, IEEE Transactions onPAMI, 2007，2)]，假设对象仅出现在一个位置上。
[0009]Feris 等人[R.S.Ferisj J.Pettersonj B.Siddi quie, L.Brown 和S.Pankanti, Large-scale vehicle detection in challenging urban surveillanceenvironments, WACV, 2011，2]提出了一种用以自动地从目标域收集训练数据并学习分类器的技术。然而，该技术要求用户输入以指定感兴趣区域和属性，诸如感兴趣对象的运动方向和可接受A S。最近，Siddiquie等人[B.Siddiquie，R.Ferisj A.Datta和L.Davis, Unsupervised model selection for view-1nvariant object detection insurveillance environments, ICPR, 2012, 2]提出了一种将场景几何约束考虑在内以从源域向目标域转移知识的方法。这种方法甚至能够实现比用来自目标域的样本训练的检测器更好的性能，但是要求覆盖不同姿势和照明条件的源域检测器的大电池。
[0010]存在用以基于超过可见光谱(诸如红外线)的亮度、色彩以及特征而将前景对象与背景区别开的现有算法。这些算法通常依赖于阈值(例如亮度阈值)来指示前景对象的存在。例如，可以由人来手动地调整阈值以解决照明的变化、相机响应等以确保车辆的图像胜过用以将车辆与背景区别开的可应用阈值。然而，手动调整过程是低效的且经受人为误差。

【发明内容】

[0011]本发明提供了一种用于训练特殊对象检测器，以辨别出现在用于目标域的帧序列中的前景对象的方法和系统。该帧序列描述不均匀背景中的前景对象的运动。在序列中的最后一个帧之前的序列中的每个帧对应于比序列中的紧接着的下一个帧所对应的时间更早的时间。前景对象在序列的初始帧的高置信度子窗口中被检测到。检测前景对象包括计算子窗口包括前景对象的置信度量，并确定该置信度量超过指定置信度阈值。在出现于帧序列中的初始帧之后的多个后续帧的各正子窗口中跟踪前景对象，其中，后续帧在指定的短时间段内。该正子窗口被馈送到学习引擎以供在训练特殊对象检测器检测目标域中的前景对象时使用,其中，正子窗口包括初始帧的子窗口和所述多个后续帧的各子窗口。
【专利附图】

【附图说明】
[0012]图1描述了根据本发明的实施例的用于级联检测器的置信度量的确定。
[0013]图2描述了根据本发明的实施例的高置信度检测和相应轨迹片段的示例。
[0014]图3描述了根据本发明的实施例的从拥挤交通场景自动提取的负补丁(patch)的示例。
[0015]图4描述了由使用本发明的置信度量的一般检测器选择的高置信度样本的示例。
[0016]图5A和5B描述了根据本发明的实施例的低活动性(图5A)和拥挤场景(图5B)中的一般域检测器与目标域中的自动生成检测器的比较。
[0017]图6描述了根据本发明的实施例用于一般检测器和特殊化检测器的特征数对比级数的图。
[0018]图7图示出根据本发明的实施例的用于训练特殊对象检测器辨别出现在用于目标域的帧序列中的前景对象的计算机系统。
[0019]图8是描述根据本发明的实施例的用于训练特殊对象检测器辨别出现在用于目标域的帧序列中的前景对象的特殊对象检测器的方法的流程图。
[0020]图9和10是描述根据本发明的实施例的用于计算用于高置信度子窗口的置信度量的方法的流程图。
[0021]图11和12是描述根据本发明的实施例的负子窗口的生成的流程图。
[0022]图13描述了根据本发明的实施例的在序列的帧中所描述的背景中具有前景对象的帧序列。
[0023]图14A-14D图示出根据本发明的实施例的直至发现包括前景对象的子窗口为止的从图14A至图14D的帧中的滑动窗口的连续移动。
[0024]图15A描述了根据本发明的实施例的初始帧中的高置信度子窗口。
[0025]图15B描述了根据本发明的实施例的相对于图15A的高置信度子窗口的多个相邻
子窗口。
【具体实施方式】
[0026]本发明提出了一种用以使用借助于更昂贵的一般域检测器获取的样本来自动地从视频创建高效且准确的特定域对象检测器的新型方法。本发明的方法不要求来自目标域的手动标签(例如，来自新相机的视场)。使用短时间段内的跟踪而从由一般检测器选择的高置信度样本自动地收集训练数据。在此背景下，基于常常被用于要求实时处理的计算机视觉应用的分类器的级联而针对检测器提出新型置信度量。本发明的新型方法在拥挤监控视频中的车辆检测的问题上得到证明，表明自动生成的检测器明显优于具有少得多的特征计算的原始一般检测器。
[0027]用于创建特定域对象检测器的本发明的新型方法可以在不要求来自目标域的手动标签的情况下实现，并且提供用于级联检测器的置信度量。这在计算机视觉中是个在很大程度上未解决的问题，因为当前工作仅仅将级联检测器视为没有关联置信度的二进制输出分类器。本发明的新型方法自动地从目标域收集训练样本。置信度量从目标域中的一般检测器选择高置信度检测样本，并且然后从短时间内的跟踪收集正样本(包含高置信度子窗口的初始帧之后的连续帧的轨迹片段)。这些正样本包含变化，诸如可以补充一般检测器的遮挡。还通过使用高置信度样本以及具有感兴趣对象的不同纵横比的样本周围的区域来生成负样本。通过根据自动收集的数据来训练特定域对象检测器，本发明相比于具有少得多的特征计算的一般检测器获得显著的准确度改善。实验分析显示出提出的方法对拥挤监控视频中的车辆检测问题的有用性。
[0028]本文中的详细描述包括以下小节:
[0029]A.用于级联检测器的置信度量
[0030]B.学习特定域检测器
[0031]B1.来自轨迹片段的正样本
[0032]B2.负样本
[0033]C.检测器学习
[0034]D.实验
[0035]E.未来工作
[0036]F.计算机系统
[0037]G.实施方式
[0038]A.用于级联检测器的置信度暈
[0039]级联检测器包括连续地(S卩，分级地)应用于将特定图像样本分类的一组级分类器。在此过程期间，如果任何级检测器将样本分类为负，则过程结束且样本理解被视为负的。只有当级联中的所有级检测器都将样本分类为负时，该结果才是正的。
[0040]本发明提出了一种与级联检测器的输出相关联的置信度量，允许根据置信度来将结果排序。置信度量确保高置信度证样本是真为正的，其能够用于自动数据收集。检测器FF(x)包括N个级分类器fi(x)，i = 1...N，其中，N表示分类的级数，并且N至少为2，并且其中，X表示帧的子窗口(即，图像样本)。用于级i (i=l…N)的级分类器可以在一个实施例中可以基于Boosting，其在等式(I)中被表示为用于具有用于级i的偏置Θ 1的输入图像样本X的弱分类器的线性组合，其中，偏置91充当阈值，并且其中，T是弱分类器Iiit(X)的总数且t指示级i处的第t弱分类器Iiit (X)。
[0041 ]
【权利要求】
1.一种用于训练特殊对象检测器以辨别出现在用于目标域的帧序列中的前景对象的方法，该帧序列描述了不均匀背景中的前景对象的运动，在序列中的最后一个帧之前的序列中的每个帧对应于比序列中的紧接着下一个帧所对应的时间更早的时间，该方法包括: 计算机系统的一个或多个处理器检测序列的初始帧的高置信度子窗口中的前景对象，其中，检测前景对象包括计算高置信度子窗口包括前景对象的置信度量，并确定置信度量超过指定置信度阈值；所述一个或多个处理器跟踪在帧序列中的初始帧之后出现的多个后续帧的各正子窗口中的前景对象，其中，该后续帧在指定短时间段内；以及所述一个或多个处理器向学习引擎馈送正子窗口，以便在训练特殊对象检测器检测目标域中的前景对象时使用，其中，所述正子窗口包括初始帧的子窗口和所述多个后续帧的各子窗口。
2.如权利要求1所述的方法，其中，该方法还包括: 所述一个或多个处理器随机地选择初始帧中的多个负子窗口，其中，所述多个负子窗口中的每个负子窗口具有超过高置信度子窗口的总面积的总面积，其中，所述多个负子窗口中的每个负子窗口位于小于距高置信度子窗口的指定距离阈值处，并且其中，所述多个负子窗口中的每个负子窗口不包括前景对象；所述一个或多个处理器将所述多个负子窗口中的每个负子窗口重新确定尺寸，以变得与高置信度子窗口一致；以及所述一个或多个处理器向学习引擎馈送所述多个负子窗口以便连同正子窗口一起在训练特殊对象检测器检测目标域中的前景对象时使用。
3.如权利要求1所述的方法，其中，该方法还包括: 所述一个或多个处理器随机地选择关于目标域的一组窗口；所述一个或多个处理器随机地选择该组窗口中的每个窗口中的负子窗口，其中，该组窗口中的每个窗口中的负子窗口具有不同于高置信度子窗口的纵横比的纵横比，并且其中，该组窗口中的每个窗口中的负子窗口不包括前景对象；所述一个或多个处理器将该组窗口中的每个窗口中的每个子窗口重新确定尺寸，以变得与高置信度子窗口一致；以及所述一个或多个处理器向该组窗口中的每个窗口中的负子窗口馈送学习引擎，以便连同正子窗口一起在训练特殊对象检测器检测目标域中的前景对象时使用。
4.如权利要求1所述的方法，其中，计算置信度量包括；相对于初始帧中的高置信度子窗口选择多个相邻子窗口，其中，每个相邻子窗口部分地而不是完全地与高置信度子窗口重叠，并且其中，相邻子窗口相互不同；计算用于高置信度子窗口和用于每个相邻子窗口的置信度分数，其中，用于高置信度子窗口中和每个相邻子窗口中的前景对象的置信度分数级分类器；以及从用于高置信度子窗口和每个相邻子窗口的置信度分数的比较分析来计算置信度量。
5.如权利要求4所述的方法，其中，确定所述置信度量超过指定置信度阈值包括最初确定置信度量不超过指定置信度阈值，随后迭代地执行选择多个相邻子窗口，计算置信度分数以及计算置信度量，其中，所述多个相邻子窗口中的相邻子窗口的总数在每次迭代中增加，直至确定置信度量超过指定置信度阈值。
6.如权利要求4所述的方法，其中，从比较分析来计算置信度量包括: 从由用于高置信度子窗口的置信度分数和用于每个相邻子窗口的置信度分数的联合形成的集合中选择K个最高置信度分数，其中，K在I至M+1范围内，并且其中，M表示相对于高置信度子窗口的相邻子窗口的总数；选择K个置信度分数的最小置信度分数；将最小置信度分数归一化至在指定范围内，其中，所述最小置信度分数变成置信度量；以及确认所述置信度量超过指定置信度阈值。
7.如权利要求6所述的方法，其中，K在2至M的范围内。
8.如权利要求4所述的方法，其中，每个相邻子窗口的面积以至少指定百分比与每个高置信度子窗口的面积重叠。
9.一种用于训练特殊对象检测器以辨别出现在用于目标域的帧序列中的前景对象的计算机系统，该帧序列描述了不均匀背景中的前景对象的运动，在序列中的最后一个帧之前的序列中的每个帧对应于比序列中的紧接着下一个帧所对应的时间更早的时间，该计算机系统包括: 一个或多个处理器；计算机可读存储器；计算机可读存储设备；第一程序指令，用以检测序列的初始帧的高置信度子窗口中的前景对象，其中，检测前景对象包括计算高置信度子窗口包括前景对象的置信度量，并确定置信度量超过指定置信度阈值；第二程序指令，用以跟踪在帧序列中的初始帧之后出现的多个后续帧的各正子窗口中的前景对象，其中，该后续帧在指定短时间段内；以及第三程序指令，用以向学习引擎馈送正子窗口，以便在训练特殊对象检测器检测目标域中的前景对象时使用，其中，所述正子窗口包括初始帧的子窗口和所述多个后续帧的各子窗口，其中，所述第一程序指令、所述第二程序指令以及所述第三程序指令被存储在计算机可读存储设备上，以便经由计算机可读存储器由一个或多个处理器来执行。
10.如权利要求9所述的计算机系统，其中，所述计算机系统还包括: 第四程序指令，用以随机地选择初始帧中的多个负子窗口，其中，所述多个负子窗口中的每个负子窗口具有超过高置信度子窗口的总面积的总面积，其中，所述多个负子窗口中的每个负子窗口位于小于距高置信度子窗口的指定距离阈值处，并且其中，所述多个负子窗口中的每个负子窗口不包括前景对象；第五程序指令，用以将所述多个负子窗口中的每个负子窗口重新确定尺寸，以变得与高置信度子窗口一致；以及第六程序指令，用以向学习引擎馈送所述多个负子窗口以便连同正子窗口一起在训练特殊对象检测器检测目标域中的前景对象时使用，其中，所述第四程序指令、所述第五程序指令以及所述第六程序指令被存储在计算机可读存储设备上，以便经由计算机可读存储器由一个或多个处理器来执行。
11.如权利要求9所述的计算机系统，其中，所述计算机系统还包括: 第四程序指令，用以随机地选择关于目标域的一组窗口；第五程序指令，用以随机地选择该组窗口中的每个窗口中的负子窗口，其中，该组窗口中的每个窗口中的负子窗口具有不同于高置信度子窗口的纵横比的纵横比，并且其中，该组窗口中的每个窗口中的负子窗口不包括前景对象；第六程序指令，用以将该组窗口中的每个窗口中的负子窗口重新确定尺寸，以变得与高置信度子窗口一致；以及第七程序指令，用以向该组窗口中的每个窗口中的负子窗口馈送学习引擎以便连同正子窗口一起在训练特殊对象检测器检测目标域中的前景对象时使用，其中，所述第四程序指令、所述第五程序指令、所述第六程序指令以及第七程序指令被存储在计算机可读存储设备上，以便经由计算机可读存储器由一个或多个处理器来执行。
12.如权利要求9所述的计算机系统，其中，计算置信度量包括: 相对于初始帧中的高置信度子窗口选择多个相邻子窗口，其中，每个相邻子窗口部分地而不是完全地与高置信度子窗口重叠，并且其中，相邻子窗口相互不同；计算用于高置信度子窗口和用于每个相邻子窗口的置信度分数，其中，用于高置信度子窗口中和每个相邻子窗口中的前景对象的置信度分数级分类器；以及从用于高置信度子窗口和每个相邻子窗口的置信度分数的比较分析来计算置信度量。
13.如权利要求12所述的计算机系统，其中，确定所述置信度量超过指定置信度阈值包括最初确定置信度量不超过指定置信度阈值，随后迭代地执行选择多个相邻子窗口，计算置信度分数以及计算置信度量，其中，所述多个相邻子窗口中的相邻子窗口的总数在每次迭代中增加，直至确定置信度量超过指定置信度阈值。
14.如权利要求12所述的计算机系统，其中，从比较分析来计算置信度量包括: 从由用于高置信度子窗口的置信度分数和用于每个相邻子窗口的置信度分数的联合形成的集合中选择K个最高置信度分数，其中，K在I至M+1范围内，并且其中，M表示相对于高置信度子窗口的相邻子窗口的总数；选择K个置信度分数的最小置信度分数；将最小置信度分数归一化至在指定范围内，其中，所述最小置信度分数变成置信度量；以及确认所述置信度量超过指定置信度阈值。
【文档编号】G06K9/66GK103914702SQ201410001472
【公开日】2014年7月9日申请日期:2014年1月2日优先权日:2013年1月2日
【发明者】A.达塔, R.S.菲利斯, S.U.潘坎蒂, 翟昀申请人:国际商业机器公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：A.达塔;R.S.菲利斯;S.U.潘坎蒂;翟昀
技术所有人：国际商业机器公司
我是此专利的发明人

上一篇：鼠标功能提供方法和实施所述方法的终端的制作方法
上一篇：一种基于中文文本情感识别的网络热点挖掘方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。