用于人检测和计数的在线学习系统的制作方法_2

文档序号：9620930阅读：来源：国知局

示例方法。在本发明的实施例中，诸如照相机102a之类的照相机捕捉视频帧的流。然后，诸如分类器103a之类的分类器在捕捉的视频帧的流中的视频帧内检测人的存在或不存在。在下文关于图2来讨论关于在视频帧中检测人的处理的进一步详情。接下来，照相机102a向度量服务器106输出关于视频帧中的人的诸如度量113a之类的度量。能够对于视频帧的流中的每个视频帧重复该处理并且可以定期地或随机地进行该处理。该方法进一步包括使用至少在视频帧的流中的视频帧的子集中的数据自动地更新分类器。在本发明的实施例中，使用可以被称为欧米伽形状的人的头部-肩部区域的边缘数据来更新分类器。因为该方法可以使用边缘导出的特征，所以其可以在拥挤场景中更准确地检测人。在下文关于图2来描述关于更新分类器的进一步详情。
[0032]因为使用从视频帧的流捕捉的数据来更新分类器，所以分类器能够针对其中视频帧的流被捕捉的环境来适配它本身。与不自动地更新分类器的现有解决方案相反，本发明的方法可以在不预先配置对象分类器的情况下进行操作。此外，因为分类器自动地更新，所以其能够根据改变的情况(诸如照明和照相机设置的改变)进行调整。这些优点提供非常灵活且更便宜地实施的度量收集系统。因为不需要用于更新分类器的预配置和人为干预，所以以较低的成本实现系统设置和维护。此外，因为许多现有的监测系统使用向下向前面向的照相机，所以可以在现有系统中容易地实施本发明的实施例。
[0033]图2是描绘根据本发明的原理的在图像的流中检测人的方法215的流程图。方法215从输入图像开始(216)。该图像可以是由诸如照相机102a-n之类的照相机所捕捉的视频帧的流中的视频帧。该图像被输入到方法215的两个处理220和230中。处理220收集用于训练和更新人分类器的训练数据样本。处理230在图像中检测人并且使用在本文所描述的利用通过子处理220生成的训练数据所训练的人分类器来输出检测结果(度量)。
[0034]处理230从输入图像开始(216)。在接收到图像之后，计算图像梯度信息并且提取方向梯度直方图(H0G)特征(231)。可以以现有技术中已知的任何方式计算图像梯度信息并且提取H0G特征。在实施例中，对于出现在场景中的对象的边缘信息计算图像梯度，其中场景可以是视频帧。可以方向性地计算梯度，即，可以在水平(X)方向和垂直(y)方向上计算梯度。因而，人们能够确定梯度出现在哪里和所确定的梯度的定向。可以对于输入图像的尺度空间中的每个扫描视窗计算H0G特征。对于尺度空间中的每个扫描视窗计算H0G特征可以考虑到要被执行的更彻底的梯度分析。基于输入图像的尺度会更容易地确定一些图像梯度，因而本发明的实施例对于尺度空间中的每个扫描视窗确定H0G特征，以便保证确定图像的所有梯度。此外，本发明的实施例通过设置在分析中考虑的梯度的阈值来考虑调整。例如，在实施例中，如果梯度太小，可以将其忽略。
[0035]可以将H0G特征表示为多维矢量，该多维矢量捕捉就梯度定向和相关联的量值而言在每个视窗内的图像梯度的统计信息。然而，这些矢量可能变得相当大，并且因此本发明的实施例向这些矢量应用线性判别分析(LDA)方法以减缩H0G特征的维数。LDA方法可以用于通过投射来减缩H0G特征的维度。可以以最大化正训练样本和负训练样本之间的分离为意图来进行该维数减缩，会在下文讨论训练样本。采用这些较低维度H0G特征以使用Adaboost方法训练强分类器。Adaboost方法组合多个弱分类器，使得强分类器具有非常高的检测率和低误检率。为了实现目标性能，S卩，高检测率和低误检率，将多个强分类器级联以形成最终的分类器。实际上，分类器可以使用基于的边缘H0G特征、而不是使用运动像素和/或肤色来检测人，这帮助使得分类器更能够在拥挤的零售环境中检测人。
[0036]在计算图像梯度并且提取H0G特征(231)之后，处理230的下一步骤是确定人分类器是否存在(232)。如现有技术中已知的，分类器能够被配置为检测人的存在或不存在。可以认为分类器是一函数，并且因此可以认为人分类器是一函数，诸如Αιχι+Α2χ2，或特征向量和分类器权重或参数的任何组合，其结果指出人的存在或不存在。分类器的变量(即，Xl和X2)可以等同于HOG特征，并且可以调整系数仏和A 2以改善分类器。
[0037]返回到步骤232，当不存在可用的人分类器时，该方法返回(234)。该返回可以使处理回到等待下一个图像(216)。人分类器的不存在不一定指出人分类器根本不存在，其可能简单地指出分类器没有系数，如上所述，或还不曾有训练。例如，在将执行该方法的照相机部署在具有无任何在先训练的分类器的场所中的情况下，这样的结果可能出现。然而，该结果没有问题，这是因为如在本文所解释的，一旦被部署，分类器可以被自动地训练。例如，如果在无在先训练的分类器的情况下部署了照相机，则可以在该方法的第一轮确定没有分类器存在，然而，在一些时间之后，可以自动地更新分类器，并且然后分类器将具有利用其能够确定人的存在或不存在的一些值。
[0038]如果在(232)确定人分类器存在，则处理继续进行并且向H0G特征应用分类器以检测人的存在或不存在(233)。在向H0G特征应用分类器之后，输出检测的结果(235)。该输出可以是向如在上文关于图1所描述的度量服务器，或可以是至对正在执行方法215的装置的任何通信地连接的点。可以在诸如照相机102a-n之类的照相机中执行该方法，或可以远离照相机执行该方法。
[0039]在执行以上描述的处理230时，方法215的其他子处理220可以同时地发生。在本发明的实施例中，以与子处理220相比高得多的速率执行处理230。例如，在例如照相机收集视频帧的流的本发明的实施例中，可以对于视频帧的流中的每个视频帧执行子处理230，并且可以对于视频帧的流中的每一百个视频帧执行子处理230。相应地可以由本领域普通技术人员选择执行方法215和其相关联的子处理220和230的速率。另外，可以例如基于时刻，或当前可用处理能力来自动地确定处理220和230发生的速率。
[0040]处理220的功能是开发训练样本。开发训练样本以调整在步骤233在处理230中所使用的分类器。尽管两个处理220和230都检测人，然而，在本发明的实施例中，子处理220可以是更处理器密集的，引起人的更准确的检测。因而，方法215的实施例使用处理220的更准确的(虽然更处理器密集的)人检测方法来训练处理230的分类器。
[0041]处理220是其中能够内联(即，当部署装置时)开发训练样本的方法。因而，如上所述，如果分类器在(232)不可用，可以使用子处理(220)自动地训练分类器。为此目的，处理220可以使用替换特征来识别视频帧中的人，以用于正样本收集。处理220从输入的图像开始(216)。根据该图像，可以提取运动像素和肤色像素(221)。在本发明的实施例中，可以采用背景差法来检测运动像素。从所提取的运动和肤色像素，能够形成运动斑点和色彩斑点(223)。利用这些斑点，能够经由欧米伽形状识别来检测头部-肩部区域(224)。处理220也可以使用模板匹配(222)来经由欧米伽形状识别检测头部-肩部(224)。另外地，也可以识别面部斑点，以用于头部-肩部对象的进一步确认。在美国专利申请第13/683，977号中给出关于这些技术的进一步详情，该专利申请的内容通过引用以其整体被合并于本文。
[0042]收集训练样本的处理也可以受益于人分类器的输出(237)。根据本发明的实施例，人分类器的输出也可以具有利用其已经检测到人的存在或不存在的在准确度方面的相关联的置信度。该置信度信息可以用于确定在收集训练样本时使用的分类器输出(237)
[0043]在上文描述了收集正训练样本(即，检测人的存在的样本)的处理220。该方法215也受益于负样本，S卩，检测人的不存在的样本。可以在时间域中和在空间域中两者中随机地收集负样本。例如，可以将没有运动的任何图像块或被证实不属于人的任何头部-肩部部分的任何运动图像块考虑为负样品的候选。
[0044]如上文提出的，可以在线(S卩，当部署了执行人检测的照相机或相关联的装置时)进行该处理。也可以脱机(即，在部署照相机或相关联的装置之前)收集训练样本。脱机收集样本还可以包括通过另一个照相机或设备收集训练样本并且然后使用这些结果来训练随后的分类器。如果可从脱机收集得到训练数据，则能够通过向该数据应用以上处理来提前训练将要在以上描述的方法中使用的基础分类器。因而，如果使用在上文描述的处理220开发更多照相机特定的训练样本，则该分类器可以充当如上所述能够进一步在运行中更新的种子分类器。然而，如果不是直接地从执行以上描述的处理的照相机获取用于植入分类器的训练数据，或如果使用在先照相机配置或设置获取了训练数据，则种子分类器可能不是很适合于执行以上描述的处理的照相机或装置。因为这些问题，本发明的实施例使用处理220收集训练数据(即，如上所述的正负样本)，并且自动地更新分类器。
[0045]如在上

完整全部详细技术资料下载

当前第2页1 2 3