在摄像机获取的场景的测试图像中检测人物的方法和系统的制作方法

文档序号:6618606阅读:289来源:国知局
专利名称:在摄像机获取的场景的测试图像中检测人物的方法和系统的制作方法
技术领域
本发明 一般地涉及计算机视觉,更具体地涉及在由摄像机获取的场 景的图像中检测人物。
背景技术
在由摄像机获取的场景的图像序列中检测人脸是相对容易的。然而, 检测人物仍是一个难题,原因在于由于衣着、关节和场景中的照明条件 而导致人物的外貌发生很大变化。
主要有两类使用计算机视觉方法来检测人物的方法,参见D. M. Gavrila、 "The visual analysis of human movement: A survey", Journal of Computer Vision and Image Understanding (CVIU), vol. 73, no. 1, pp. 82-98, 1999。 一类方法使用基于部分的分析,而另一类使用单个检测窗 分析。针对这些方法的不同特征和不同分类器是公知的。
基于部分的方法目的是处理由于人体关节而导致的人的外貌的巨大 可变性。在该方法中,每个部分被分别地检测,并且这些部分中的一些 或全部呈几何上看似合理的结构时检测出人物。
用图来描绘结构的方法通过利用弹簧连接的对象的多个部分来描述 一个对象。每个部分利用不同尺度和方向的高斯微分滤波器表示,参见 P. Felzenszwalb禾卩D. Huttenlocher 的"Pictorial structures for object recognition", International Journal of Computer Vision (IJCV), vol. 61, no. 1, pp.55-79, 2005。
另一种方法将多个部分表示为直圆柱体的投影,参见S. Ioffe和D. Forsyth的"Probabilistic methods for finding people", International Journal of Computer Vision (IJCV), vol. 43, no. 1, pp. 45-68, 2001。他们描述了 逐渐地将多个部分组装成一个完整的人体组件的方式。
另一种方法将多个部分表示为局部方向特征的共存,参见K.
Mikoajczyk、 C. Schmid禾口 A. Zisserman的"Human detection based on a probabilistic assembly of robust part detectors", European Conference on Computer Vision (ECCV), 2004。他们对特征进行检测,然后对多个部 分进行检测,最后基于这些部分的组装来检测人物。
检测窗方法包括使用倒角距离将边缘图像与数据集进行比较的方 》去,参见D. M. Gavrila禾口 V. Philomin的"Real-time object detection for smart vehicles", Conference on Computer Vision and Pattern Recognition(CVPR), 1999。另一个方法对用于运动人物的检测的时空信息进行处理,参见P. Viola、M. Jones禾卩D. Snow的"Detecting pedestrians using patterns of motion and appearance", International Conference on Computer Vision (ICCV), 2003。
第三种方法使用与多项式支持向量机(SVM)分类器相结合的基于 Haar的表示参见C. Papageorgiou禾口 T. Poggiom的"A trainable system for object detection", International Journal of Computer Vision (IJCV), vol. 38, no. 1, pp. 15-33, 2000。
Dalai & Triggs方法
另一种基于窗的方法使用梯度方向的直方图(HoG)的密集网格, 参见N. Dalai禾口 B. Triggs的"Histograms of oriented gradients for human detection" , Conference on Computer Vision and Pattern Recognition (CVPR), 2005,通过引用将其合并于此。
Dalai和Triggs对具有16x16像素固定大小的块计算直方图来表示检 测窗。该方法使用线性SVM分类器来检测人物。此外,该方法对于对象 表示是有用的,参见D. Lowe 的"Distinctive image features from scale-invariant key points" , International Journal of Computer Vision(IJCV), vol. 60, no. 2, pp.91-110, 2004; K. Mikolajczyk、 C. Schmid和A. Zisserman 的"Human detection based on a probabilistic assembly of robust part detectors", European Conference on Computer Vision (ECCV), 2004; 以 及J. M. S. Belongie禾口丄Puzicha的"Shape matching object recognition using
shape contexts", IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI), vol. 24, no. 24, pp. 509-522, 2002。
在Dalai & Triggs方法中,每个检测窗被划分为大小是8x8像素的单 元,并且每组2x2单元以滑动方式被结合成16x16的块,从而这些块彼 此重叠。从这些单元中提取图像特征,并且将这些特征分选(sort)至U9个 条(bin)的梯度直方图(HoG)中。每个窗由这些单元的所有特征向量 的级连向量表示。因而,每个块由被归一化为L2单元长度的36维特征 向量表示。每个64x128检测窗由7x15个块表示,得到每个检测窗总共 3780个特征。这些特征用于训练线性SVM分类器。
Dalai & Triggs方法依赖于以下组成部分。HoG是基本的构建块。跨 过整个固定大小检测窗的HoG的密集网格提供了对该检测窗的特征描 述。第三,与绝对值相对的是,在每个块之内的L2归一化步骤强调了关 于相邻单元的相对特性。他们使用了被训练用于对象/非对象分类的软常 规线性SVM。高斯核SVM以高得多的运行时间为代价而对性能略有提 咼。
不幸的是,Dalai & Triggs方法中的块具有相对小的固定16x16像素 大小。因而,在检测窗中仅能够检测到局部特征。它们不能够检测"大图 像"或者全局特征。
此外,Dalai & Triggs方法仅能够大约每秒一帧地处理320x240像素 图像,即使是非常稀疏的扫描方法也只能计算每幅图像大约800个检测 窗。因此,Dalai & Triggs方法对于实时应用来说是不适当的。
梯度方向的积分直方图(Integral Histograms of Orientated Gradients )
使用已知的矩形滤波器可以将积分图像用于Haar小波类型特征的非 常快速估计,参见P, Viola禾卩M. Jones的"Rapid object detection using a boosted cascade of simple features", Conference on Computer Vision and Pattern Recognition (CVPR), 2001;以及由Jones等人于2003年6月17 日提出的U. S.专利申请No. 10/463726, "Detecting Arbitrarily Oriented Objects in Images";通过引用将这两篇文献合并于此。
积分图像还可以用于对可变矩形图像区域计算直方图,参见RPorikli的"Integral histogram: A fast way to extract histograms in Cartesian spaces" , Conference on Computer Vision and Pattern Recognition ( CVPR), 2005;以及由Porikli于2005年2月7日提出的U. S.专利申请No. 11/052598, "Method for Extracting and Searching Integral Histograms of Data Samples";通过引用将这两篇文献合并于此。

发明内容
根据本发明的一个实施方式的方法和系统将级联分类器与从积分图 像中提取的特征结合起来,以实现快速和准确的人物检测。这些特征是 可变大小的块的HoG。这些HoG特征表现了人物的显著特性。这些块的 子集是从一个大的可能的块的集合中随机选择的。AdaBoost技术用于训 练级联分类器。根据图像被扫描的密度,该系统能够以高达每秒30帧的 速率来处理图像,同时保持与常规方法近似的精度。
发明效果
用于检测静态图像中的人物的方法将级联分类器与梯度方向特征的 直方图结合起来。另外,特征是从大小、位置和纵横比可变的块的非常 大的集合中提取出来,集合大小大约是常规方法的50倍。明显地,即使 具有大量的块,该方法也能够比常规方法快大约70倍地执行。该系统能 够以高达每秒30帧的速率处理图像,使得我们的方法适于实时应用。
尽管已经以优选实施方式为例描述了本发明,但应理解,在本发明 的精神和范围内可以做出各种其他的修改和变型。因此,所附权利要求 的目的是涵盖落入本发明的真实精神和范围内的所有这种改变和变型。


附图1是用于训练分类器并使用训练的分类器来检测图像中的人物 的系统和方法的框图;以及
附图2是根据本发明的一个实施方式用于检测测试图像中的人物的 方法的流程图。
具体实施例方式
附图1是使用训练图像的集合1来训练(10)分类器15并使用训练
的分类器15在一个或更多个测试图像101中检测(20)人物21的系统 和方法的框图。用于从训练图像和测试图像中提取特征的方法是相同的。 由于训练是在一次的预处理阶段中执行,因此对该训练将在后面进行描 述。
附图2示出了根据我们的发明的一个实施方式用于在由摄像机104 获取的场景103的一个或更多个测试图像101中检测人物21的方法100。
首先,我们确定(110)每个像素的梯度(gmdient)。对于每个单元, 我们确定该单元中像素的梯度方向(orientation)的加权和,其中权重是 基于梯度的幅度。将这些梯度分选到梯度直方图(HoG) 111的9个条中。 我们将针对HoG中每个条的积分图像121存储(120)在存储器中。这 得到了针对本发明的该实施方式的9个积分图像(integral image)。这些 积分图像用于有效地提取(130) HoG形式的特征131,这些特征实际上 对应于实质上较大集合的子集,该较大集合是输入图像中可变大小且随 机选择(140)的矩形区域(像素块)的集合。随后将选择的特征141应 用于级联分类器15以确定(150)测试图像101是否包括人物。
我们的方法100与Dalal和Triggs所描述的方法有很大的不同。Dalal 和Triggs在针对每个块创建HoG时采用高斯掩模(Gaussian mask)和三 线性插值(tri-linear interpolation)。我们没有将这些技术应用于积分图像。 Dalal和Triggs对每个块采用L2归一化步骤。而是,我们采用LI归一化。 对于积分图像的计算来说,LI归一化要比L2归一化快。Dalal & Triggs 方法主张使用单一尺度,也就是固定大小的块,即16x16像素。他们认 为使用多尺度以极大增加描述符的大小为代价而仅对性能有少量提高。 由于他们的块相对小,所以仅能检测局部特征。他们还使用了常规的软 SVM分类器。我们使用了级联强分类器,每个强分类器由弱分类器组成。
可变大小的块
直观地与Dalal&Triggs方法相反,我们使用积分图像121从大量可 变大小的块中提取(130)特征131。具体地说,对于64x128的检测窗,
我们考虑大小在从12x12到64x128的范围内的所有的块。块(矩形区域) 宽度和块高度之间的比率可以是以下比率中的任意一个1:1、 1:2和2:1。
而且,当滑动我们的检测窗时,我们根据块的大小而选择一个小的 步长大小以获得重叠块的密集网格,该步长大小可以是{4,6,8}像素中的 任意一个。总共,在64x128的检测窗中限定了 5031个可变大小的块, 并且每个块与都以36维向量131形式的直方图相关联,该直方图是通过 在块的4个2x2子区域内级连9个方向条(orientation bin)而获得。
我们相信,与Dalal&Triggs方法相比,可变大小的块的非常大的集 合是有利的。首先,对于特定对象种类,有用的模式趋向于分布在不同 的尺度(scale)上。Dalai ifeTriggs的常规(105)固定大小的块仅编码了 非常有限的局部信息。相反地,我们对局部和全局信息都进行了编码。 第二,在我们的5031个块的大得多的集合中一些块能够对应于人物的语 义上的人体部分,例如,四肢或者躯干。这使得能够更有效地检测图像 中的人物。象现有技术中那样,少量固定大小的块不大可能建立这种映 射。我们使用的HoG特征对于局部变化是稳健(robust)的,同时可变 大小的块能够捕获全局图像。另外一种看待我们的方法的方式是使用检 测窗方法以隐含方式进行基于部分的检测。
对特征进行抽样
针对非常大量可能的块(5301个)中的每一个来计算特征可能是非 常耗时的。因此,我们采用由B. Scholkopf和A.Smola描述的抽样方法, 参见"Learning with Kernels Support Vector Machines", Regularization, Optimization and Beyond。 MIT Press, Cambridge, MA, 2002,通过引用将 其合并于此。
他们认为一个人在少量的试验中能够以很高的概率找到m个随机变 量(即我们的方法中的特征向量131)中的最大值。更具体地说,为了在 所有估计值中的最优的0.05中获得概率为0.95的估计值,大小为 1og0.05/log0.95-59的随机二次抽样确保了与所有随机变量均被考虑的情 况下几乎一样好的性能。在实际的应用中,我们随机地(250)选择(40) 特征141,即5031个可用特征中的大约5%。然后,使用级联分类器15
对选择的特征141进行分类(150),以检测(150)测试图像101是否包 含人物。
训练级联分类器
信息最丰富的部分(即用于人物分类的块)是使用AdaBoost过程来 选择的。Adaboost提供了有效的学习过程和对通用性能的强约束,参见 Freund等人的"A decision-theoretic generalization of on-line learning and an application to boosting" , Computational Learning Theory, Eurocolt'95, pages 23-37, Springer-Verlag, 1995;以及Schapire等人的"Boosting the margin: A new explanation for the effectiveness of voting methods", Proceedings of the Fourteenth International Conference on Machine Learning, 1997; 通过弓l用 将这两篇文献合并于此。
我们采用由P. Viola等人描述的级联。如Viola等人的文献中所述, 我们使用与可变大小的块相关联的36维特征向量(即HoG)代替使用相 对小的矩形滤波器。
还应当注意,在Viola等人的监测应用中,检测到的人物在图像中相 对小并且通常具有清晰的背景,例如,道路或者实墙(blank wall)等。 他们的检测性能也极大地依赖于可用的运动信息。相反地,我们想要不 访问运动信息(例如单个测试图像中的人物)地检测具有相当复杂的背 景和照明显著变化的场景中的人物(例如在城市环境中的行人)。
我们的弱分类器是从线性SVM确定的分离的超平面。级联分类器的 训练是一次的预处理,所以我们不将训练阶段的性能作为一个问题来考 虑。应当注意,我们的级联分类器与Dalai & Triggs方法的常规软线性 SVM有很大不同。
如上所述,我们通过从训练图像的集合1中提取训练特征来训练 (10)分类器15。对于该级联的每个串联的级,我们构建由弱分类器的 集合组成的强分类器,该思想是尽可能快地拒绝输入图像中的大量对象 (区域)。因而,早期的分类级可以被称为"拒绝器"。
在我们的方法中,弱分类器是线性SVM。在级联的每个级中,我们 持续地添加弱分类器直到达到预定的质量度量(metric)为止。该质量度
量是以检测率和误报率(false positive rate)的形式。所得到的级联具有 大约18级强分类器,以及大约800个弱分类器。应当注意,这些数字可
以根据分类步骤的期望的精度和速度而不同。
用于训练步骤的伪代码在附录A中给出。对于训练,我们使用了与 Dalai和Triggs所使用的数据集相同的训练"INRIA"图像数据集。也可以 使用例如MIT行人数据集的其它的数据集,参见A. Mohan、 C. Papageorgiou禾卩T. Poggio的"Example-based object detection in images by components", PAMI, vol.23, no. 4, pp. 349-361, April 2001;以及C. Papageorgiou禾卩T. Poggio的"A trainable system for object detection", IJCV, vol. 38, no. 1, pp.15-33, 2000。
意外的是,我们发现我们所构建的级联在初始级中使用了相对大的 块,而较小的块被用于级联的后面的级中。
输入F
targst ,
初始化: 循环
附录A
训练级联 目标总误报率
每级联的级最大可接受误报率
每级联的级最小可接受检测 正样本集合
Neg:负样本集合 i=0, D产l.O, F尸l.O
Fi 〉 Ftarget
i=i+l
f
dmin
Pos
循环
>
-max
循环结束 输出i-级级联,
使用Pos和Neg训练250个线性SVM,
将最优SVM加到强分类器中,
以AdaBoost方式更新权重,
通过当前强分类器来计算Pos和Neg,
减小阈值直到dmin成立,
计算该阈值下的fi 循环结束 Fi+1= F^fi Di+1=DiXdmin 集合清空Neg
如果Fi〉Ftarget,则对负(即非人物)图像计算当前
的级联分类器,并将误分类的样本添加到Neg集合

每个级具有增强的SVM分类器
最终训练精度Fi和Di
权利要求
1、一种用于在由摄像机获取的场景的测试图像中检测人物的方法,该方法包括以下步骤针对所述测试图像中的每个像素来确定梯度;将所述梯度分选到直方图的条中;存储针对所述直方图中的每个条的积分图像;从所述积分图像中提取特征,提取的所述特征对应于实质上较大集合的子集,其中所述较大集合是所述测试图像中可变大小且随机选择的像素块的集合;以及将所述特征应用于级联分类器以确定所述测试图像是否包括人物。
2、 根据权利要求1所述的方法,其中所述梯度是以加权的所述梯度 的方向的形式来表示,并且权重依赖于所述梯度的幅度。
3、 根据权利要求1所述的方法,其中所述可变大小的块的宽度和高 度之间的比率是l:l, 1:2和2丄
4、 根据权利要求1所述的方法,其中所述直方图具有9个条,并且 每个条存储在不同的积分图像中。
5、 根据权利要求1所述的方法,其中所述每个特征是以36维向量的形式。
6、 根据权利要求1所述的方法,该方法还包括以下步骤 训练所述级联分类器,所述训练包括以下步骤-对训练图像的集合执行所述确定、所述分选、所述存储和所述提取以获得训练特征;以及使用所述训练特征来构建所述级联分类器的串联的多个级。
7、 根据权利要求6所述的方法,其中每个级是由弱分类器的集合组成的强分类器。
8、 根据权利要求7所述的方法,其中每个弱分类器是根据线性SVM 而确定的分离的超平面。
9、 根据权利要求6所述的方法,其中所述训练图像的集合包括正样 本和负样本。
10、 根据权利要求7所述的方法,其中所述弱分类器被加到所述级联分类器中,直到满足预定的质量度量为止。
11、 根据权利要求io所述的方法,其中所述质量度量是以检测率和误报率的形式。
12、 根据权利要求6所述的方法,其中得到的所述级联分类器具有 大约18级强分类器,以及大约800个弱分类器。
13、 根据权利要求1所述的方法,其中在实时获取的所述场景的图 像序列中对人物进行检测。
14、 一种用于在由摄像机获取的场景的测试图像中检测人物的系统, 该系统包括用于确定针对所述测试图像中的每个像素的梯度的装置; 用于将所述梯度分选到直方图的条中的装置; 被构造成存储针对所述直方图的每个条的积分图像的存储器; 用于从所述积分图像中提取特征的装置,其中提取的所述特征对应于实质上较大集合的子集,所述较大集合是所述测试图像中可变大小且随机选择的像素块的集合;以及被构造成用于确定所述测试图像是否包括人物的级联分类器。
全文摘要
提出了一种用于在由摄像机获取的场景的图像序列中检测人物的方法和系统。图像中像素的梯度被确定并被分选到直方图的条中。针对直方图的每个条存储积分图像。从所述积分图像中提取特征,提取的所述特征对应于实质上较大集合的子集,其中所述较大集合是所述测试图像中可变大小且随机选择的像素块的集合。所述特征被应用于级联分类器以确定所述测试图像是否包括人物。
文档编号G06K9/00GK101356539SQ20078000131
公开日2009年1月28日 申请日期2007年3月20日 优先权日2006年4月11日
发明者什穆埃尔·阿维丹, 强 朱 申请人:三菱电机株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1