用于检测图像中的特定对象的方法和系统的制作方法

文档序号:6482791阅读:167来源:国知局
专利名称:用于检测图像中的特定对象的方法和系统的制作方法
技术领域
本申请一般涉及计算机视觉和模式识别领域,尤其涉及检测图像中的任意取向的对象。
背景技术
在利用计算机视觉的所有应用中,面部检测提出了难度很大的挑战。例如,在监视摄像机所获取的图像中,通常场景的照明不良且无法控制,因此摄像机显得质量差并且常常离场景中可能重要的部分较远。重要事件是不可预测的。重要事件往往是指人进入场景。一般通过面部来辨认人。在场景中面部取向通常不受控制。换言之,所要分析的图像基本上不受约束。
面部检测历史悠久。有些技术采用神经网络系统,参见Rowleyet al.,“Neural network-based face detection”,IEEE Patt.Anal.Mach.Intell.,Vol.20,pp.22-38,1998。其他技术采用Bayesian统计模型,参见Schneiderman et al.,“A statistical method for 3D objectdetection applied to faces and cars”,Computer Vision and PatternRecognition,2000。尽管神经网络系统工作既快又好,但Bayesian系统要耗费更长的处理时间才能获得更好的检测率。
图像中的不受控制的面部取向引起尤为困难的检测问题。除了Rowley等人和Schneiderman等人的技术之外,还有许多能成功检测多种图像中的正面直立面部的技术。Sung等人在“Example-basedlearning for view based face detection”(IEEE Patt.Anal.Mach.Intell.,Volume 20,pages 39-51,1998)中描述了一种基于实例的学习技术,用于定位复杂场景中人的面部的直立正面视图。这种技术利用几个基于视图的“面部”和“非面部”原型群模拟人的面部模式的分布。在每一图像位置,计算局部图像模式与基于分布的模型之间的区别特征矢量。经过训练的分类器根据区别特征矢量判断人的面部是否存在于当前图像位置。
尽管“正面”和“直立”的定义可以根据系统而不同,事实上许多图像都包含了难以可靠检测的旋转、倾斜或侧面的面部。
非直立面部检测在Rowley等人的论文“Rotation invariant neuralnetwork-based face detection”(Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition,pages 38-44,1998)中被描述。这种基于神经网络的分类器首先估算图像中正面面部的转角。只考虑了图像平面中的转角,即绕z轴的旋转量。然后,将图像旋转到直立位置,并进行分类。至于更详细的描述,可以参见Baluja等人于2000年10月3日被授予的美国专利第6,128,397号“Method for findingall frontal faces in arbitrarily complex visual scenes”。
图1示出了现有技术的面部检测器的步骤。估算110图像101中正面面部的旋转。利用旋转111将图像101旋转120到直立位置。然后,将旋转后的图像121分类130为面部或非面部131。这种方法只检测平面中旋转的面部。该方法无法检测3D中任意取向的面部。
因此,需要一种能准确检测图像中的任意取向的对象的系统和方法。

发明内容
本发明提供一种用于检测图像中的特定对象的方法。确定图像中的任意对象的取向,并根据取向选择多个取向及对象特定的分类器之一。利用所选择的取向及对象特定的分类器将该任意对象分类为特定对象。


图1是用于检测平面中旋转的正面面部的现有技术方法的流程图;
图2是用于检测具有任意取向的对象的系统和方法的框图;图3A-3D是本发明所用的矩形滤光器的框图;和图4A-4D是对角排列的矩形滤光器的框图。
具体实施例方式
系统结构图2示出了根据本发明的用于检测图像201中具有任意取向的特定对象的系统200。关于取向,我们是指在图像201被获取的瞬间绕三个主轴(x、y和z轴)中的任意或所有主轴相对于图像平面的旋转,例如倾斜、偏转和滚动。我们将这里的取向与现有技术的绕z轴的单一旋转区分开来。在一个实例应用中,在图像中检测到的对象是面部,然而,应当理解,还可以检测其他任意取向的对象。还应当理解,从摄像机角度来看,同样的方法还可以用来确定摄像机相对于固定对象的取向。
系统200包括互相连接的取向分类器210、分类器选择器220以及取向及对象特定的分类器230。系统200将含有任意对象的图像201作为输入,并输出图像201中所检测到的特定对象231。分类器选择器220利用取向类别211以及一组取向及对象特定的分类器212输出一个所选择的分类器221。
在一种优选实施例中,将图像分割成不同尺寸的检测窗或“片”,例如将整个图像分割成四个窗,每个窗为图像的四分之一等。
系统操作在操作期间,一种方法首先确定210图像201中的任意对象的取向类别211。根据所确定的图像201中的任意对象的取向类别211,从一组取向及对象特定的分类器212中选择220一个取向及对象特定的分类器221。然后,利用所选择的取向及对象特定的分类器221将该任意对象分类230为特定对象231。
分类器可以是任何已知的分类器,例如Bayesian、基于神经网络、支持矢量机、决策树等。
取向分类器取向分类器210是一种多类别分类器,这种多类别分类器只按所要分类的对象例如面部的正图像抽样进行训练。正图像抽样意谓每个图像抽样都是特定对象的一个例子。正抽样包括三个主轴上的任意或所有可能取向的特定对象。在图像被获取的瞬间任意对象相对于图像平面的可能取向的各抽样按类别分组,例如,每一取向类别都包括其取向在该类别的倾斜、偏转和滚动的预定度数范围内的特定对象。正抽样根据取向类别进行标记。输入到该取向分类器的每一任意对象都被分类为具有特定取向类别。如果该任意对象不是特定对象,那么取向分类器210的输出211是随机取向类别。
在一种优选实施例中,取向分类器采用了决策树,如Quinlan在“Improved use of continuous attributes in C4.5”(Journal of ArtificialIntelligence Research 4,77-90,1996)中所述,该文在此引用作为参考。
每一节点功能都是下述一组矩形滤光器中的一个滤光器,而且没有修剪。分割决策树的每个节点,直到达到最大的叶深度或者叶包含了仅一个节点的各例子。
取向及对象特定的分类器取向及对象特定的分类器212组中的每个分类器都是二元分类器,用于检测检测窗中的特定取向的特定对象。该分类器组中的每个分类器都按取向类别之一中的特定对象进行训练。所选择的分类器221是按取向分类器210所输出的取向类别211中的特定对象进行训练的取向及对象特定的分类器。
上述每一取向类别都可以包括在绕三个主轴中一个或所有主轴的旋转度数范围内的图像抽样,例如,在一种优选实施例中,这一范围可以是±15°。如下所述的滤光器可以旋转90°。因此,每一取向及对象特定的分类器也可以旋转90°。举例来说,在0°进行训练的正面面部检测器可以绕z轴进行旋转,从而还可以得到90°、180°和270°的检测器。对分别在30°和60°进行训练的分类器,可以进行同样的旋转。考虑到本例中±15°的范围,与360个分类器相对地,可以用12个分类器来覆盖所有正面旋转取向类别。对于其他取向,可以训练类似的分类器。
滤光器、特征和分类器形式上,利用我们的优选实施例的滤光器、特征和分类器的操作如下所述,参见Viola等人于2002年7月22日提交的美国专利申请系列号10/200,726“Object Recognition System”,该申请在此引用作为参考。图像特征hi(x)根据下式被赋予权重αj或βj 其中,滤光器fj(x)是图像x即检测窗的线性函数,而θj为预定滤光器阈值。累积和C(x)根据下式被赋值1或0 其中,hi为图像x的多个特征,而T为预定分类器阈值。
所选择的取向及对象特定的分类器230当累积分小于分类器阈值时拒绝任意对象201,而当累积分大于分类器阈值时将任意对象分类为特定对象231。
在本优选实施例中,我们的系统使用以上Viola等人所述的矩形滤光器。图3A-D示出了本发明可用的三种已知的矩形滤光器。双矩形滤光器的值为两个矩形区301-302内的像素总和之差。这两个区具有相同的尺寸和形状,并且水平相邻(参见图3A),或者垂直相邻(参见图3B)。三矩形滤光器计算中间矩形304内的总和的两倍减去两个外侧矩形303内的总和的差值,参见图3C。最后,四矩形滤光器计算两对对角矩形305-306之间的差值,参见图3D。
应当注意,可以使用好几万个其他的矩形滤光器的简单配置。滤光器可以具有不同的尺寸,以便与检测窗的尺寸匹配。对于双矩形滤光器,从阴影矩形内的像素的亮度总和减去非阴影矩形内的像素的亮度总和。对于三矩形滤光器,将非阴影矩形中的像素的总和乘以2,以计及阴影像素的两倍,等等。对于根据本发明的滤光器,还可以使用其他组合函数。我们优先选择我们的滤光器的简单操作,这是因为,与现有技术的较复杂的滤光器相比,这种滤光器估算很快。
我们还使用了其内部组件按对角排列的矩形滤光器。图4A和4C示出了这种矩形滤光器的变形,它们在检测窗410中沿对角排列滤光器。这些对角滤光器401-402在用于检测非直立面部和非正面面部时可以提供比上述三种滤光器更高的准确度。如图4B和4D所示,对角滤光器401-402是四个交叠矩形403-406,它们组合得到块状对角区408-409。这些滤光器按与图3中的矩形滤光器同样的方式进行操作。从阴影区409中的像素的总和减去阴影区408中的像素的总和。对角滤光器对各种取向的对象敏感。对角的角度可以由滤光器中的组成矩形的高宽比来控制。根据其设计,这些矩形滤光器可以按不同比例、取向和高宽比很快地进行估算以便测量区域平均值。
应当理解,在本发明的思想和范围内,可以作出其他各种调整和修改。因此,附属权利要求书的目的在于覆盖本发明的真实思想和范围内的所有这些变形和修改。
权利要求
1.一种用于检测图像中的特定对象的方法,包括为特定对象利用取向分类器确定图像中的任意对象的取向;根据该取向选择多个取向及对象特定的分类器之一;和利用所选择的取向及对象特定的分类器将所述图像中的任意对象分类为特定对象。
2.权利要求1的方法,其中,所确定的取向在对于一个特定取向类别的倾斜、偏转和滚动的度数的预定范围内。
3.权利要求2的方法,其中,该特定取向类别与一组取向类别相关。
4.权利要求3的方法,其中,该组取向类别中的每一取向类别具有对于该类别的倾斜、偏转和滚动的度数的不同预定范围。
5.权利要求3的方法,其中,所述选择还包括使所述多个取向及对象特定的分类器之一与一个特定取向类别相关。
6.权利要求1的方法,其中,所述分类还包括估算图像上的一组滤光器的线性组合,以确定累积分;当累积分在对于特定对象的接受阈值与拒绝阈值的范围内时,重复所述估算;否则当累积分大于接受阈值时,接受该图像为含有该特定对象。
7.权利要求6的方法,还包括当累积分小于拒绝阈值时,拒绝该图像为含有该特定对象。
8.权利要求6的方法,其中,所述确定还包括利用决策树估算图像上的该组滤光器,其中,将该组滤光器中的一个矩形滤光器应用于决策树上的每一节点以确定一个特征,并且其中,该特征确定决策树上的下一节点以遍历。
9.权利要求8的方法,还包括将图像分割成多个检测窗;将各检测窗定标到多个尺寸;和估算定标后的检测窗上的所述滤光器组。
10.权利要求8的方法,还包括将图像分割成多个具有不同尺寸和位置的检测窗;按检测窗的尺寸将检测窗定标到固定尺寸,其中,所述确定和估算步骤根据定标后的检测窗来执行。
11.权利要求8的方法,其中,所述滤光器组包括对角的矩形滤光器。
12.一种用于检测图像中的特定对象的系统,包括确定装置,用于为特定对象利用取向分类器确定图像中的任意对象的取向;选择装置,用于根据该取向选择多个取向及对象特定的分类器之一;和分类装置,用于利用所选择的取向及对象特定的分类器将所述图像中的任意对象分类为特定对象。
13.权利要求12的系统,其中,使组中的每个取向及对象特定的分类器与特定对象相关。
14.权利要求12的系统,其中,使组中的每个取向及对象特定的分类器与不同的取向类别相关。
全文摘要
本发明提供了一种用于检测图像中的特定对象的方法。确定任意对象相对于图像平面的取向,并根据该取向选择多个取向及对象特定的分类器之一。利用所选择的取向及对象特定的分类器将该任意对象分类为特定对象。
文档编号G06T7/00GK1856794SQ20048001146
公开日2006年11月1日 申请日期2004年6月11日 优先权日2003年6月17日
发明者迈克尔·J·琼斯, 保罗·A·维奥拉 申请人:三菱电机株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1