基于脸部检测和追踪的连续自动聚焦的制作方法

文档序号:7885266阅读:295来源:国知局
专利名称:基于脸部检测和追踪的连续自动聚焦的制作方法
基于脸部检测和追踪的连续自动聚焦
背景技术
数码相机如今通常包括自动聚焦机制。两种常规的自动聚焦机制是对比度检测自动聚焦和相位检测自动聚焦。对比度检测自动聚焦利用对比度检测自动聚焦,相机镜头最初被定位在最近的聚焦点上。递增地移动该镜头并且在每一步都估计图像清晰度。当达到清晰度峰值时,停止镜头移动。对比度检测自动聚焦用于常规数码静物相机或DSC、便携式摄像机相机手机、网络摄像头和监控摄像头。基于像素级测量和精细扫描,它们非常精确。它们可以聚焦在画面内部的任何地方,但是它们通常仅围绕画面的中心聚焦。然而,对比度检测自动聚焦机制是缓慢的,因为它们涉及扫描聚焦范围。它们还不允许追踪所获取的对象。涉及进一步的扫描以确定该对象是否已经移动到前焦点或后焦点,被称为猎焦。对比度检测自动聚焦机制通常是便宜的并且粗糖的。相位检测自动聚焦相位检测自动聚焦通常涉及包括副镜、分离器镜头和聚焦传感器的特殊光电子器件。分离器镜头将来自镜头的相反侧的光线引向自动聚焦传感器。测量两个图像之间的相位差。将该镜头移动到与该相位差相对应的距离。相位检测自动聚焦用于常规单反相机或SLR中。它们通常不如对比度检测自动聚焦机制精确,因为不能总是非常准确地估计该相位差。它们仅可以在画面内部的固定点中获得焦点,并且通常由相机用户手动地指示这些。它们通常是快速的,因为可以由单个测量检测对象的相对位置。它们允许追踪,因为可以确定对象是否已经移动到前焦点或后焦点,但是仅仅通过从一个焦点跳到另一个焦点。相位检测自动聚焦机制通常是昂贵的并且脆弱的。图1示出了相位检测自动聚焦机制如何工作,即如中间的图形所示当相位差为零时,则将对象理解为被对焦。希望具有一种不具有对比度检测自动聚焦机制和相位检测自动聚焦机制中的任意一个的显著缺点的改进的自动聚焦机制。美国专利申请公布号2010/0208091描述了一种检测由相机所获取的图像中的脸部并且计算该脸部的尺寸的相机。其从大量以前存储的脸部尺寸之中选择一个最接近所计算脸部尺寸的尺寸。其获取与所选择的以前存储的脸部尺寸相关联的以前存储的镜头焦点位置。其发信号使数码相机的可移动镜头系统移动到由所获取的以前存储的镜头焦点位置给出的最终焦点位置。US 2010/0208091中所述技术的问题在于由于它们模糊的失焦状态,它将具有相当高的脸部的未检测的比率。除非提供进一步的增强,否则将导致不能令人满意地缓慢的图像捕获过程。

发明内容
提供了一种用于基于脸部检测的数字图像获取设备的自动聚焦方法。该方法涉及该设备的镜头、图像传感器和处理器的使用。获取包括一个或多个失焦脸部和/或部分脸部的场景的数字图像。该方法包括通过应用在失焦脸部上训练的一个或多个分类器集合,检测数字图像之中的一个或多个失焦脸部和/或部分脸部。在该数字图像中确定一个或多个各自的失焦脸部和/或部分脸部的一个或多个尺寸。基于该数字图像中的一个或多个失焦脸部和/或部分脸部的该一个或多个尺寸,确定该一个或多个失焦脸部和/或部分脸部的一个或多个各自的深度。调整该镜头的一个或多个各自的焦点位置,以近似地聚焦在所确定的一个或多个各自的深度上。利用被聚焦在一个或多个分别地调整的焦点位置上的镜头,获取包括一个或多个脸部和/或部分脸部中的至少一个脸部和/或部分脸部的场景的一个或多个其他图像。在调整一个或多个各自的焦点位置之后,该方法可以进一步包括执行精细扫描,并且基于该精细扫描精细调整该一个或多个各自的焦点位置。该场景可以包括通过应用该一个或多个脸部分类器集合未检测到的至少一个失焦脸部和/或部分脸部,并且其中,该方法进一步包括应用对比度检测扫描或相位检测扫描或者这两者来获取通过应用在失焦脸部上训练的所述一个或多个分类器集合未检测到的所述至少一个失焦脸部或部分脸部或者这两者。一个或多个部分脸部可以包括眼睛区域。该方法可以包括当该一个或多个脸部和/或部分脸部中的至少一个脸部和/或部分脸部的尺寸至少改变阈值量时,调整该一个或多个各自的焦点位置中的至少一个。该方法还包括追踪脸部和/或部分脸部中的至少一个,并且基于该追踪确定一个或多个脸部和/或部分脸部中的至少一个脸部和/或部分脸部的尺寸的改变。该方法可以进一步包括通过缩小该数字图像获取设备的光圈,增加景深。该一个或多个脸部和/或部分脸部可以包括分别位于多个不同深度的多个脸部和/或部分脸部,其中基于它们的不同的确定尺寸近似地确定该多个不同深度。该一个或多个深度的确定可以包括分配与该一个或多个确定尺寸中的至少一个确定尺寸相对应的至少一个平均深度。该一个或多个深度的确定可以包括识别所检测脸部或部分脸部或这两者属于具体的个人,从存储器调用与具体的脸部或部分脸部或这两者相对应的已知脸部或部分脸部的空间参数,并且确定与确定尺寸和该已知脸部或部分脸部空间参数相对应的深度。该一个或多个各自的焦点位置的调整可以利用MEMS (微机电系统)组件。还提供了一个或多个处理器可读介质,其具有实现在其中用于对处理器编程以执行本文所述的任意方法的代码。还提供了一种包括镜头、图像传感器、处理器和存储器的数字图像获取设备,该存储器具有嵌入在其中用于对该处理器编程以执行本文所述的任意方法的代码。


图1示出了常规的相位检测自动聚焦机制。图2a是根据特定实施方式的数字图像获取设备中的清晰度对镜头的焦点位置的图。图2b示出了包括已失焦的但仍具有围绕检测的脸部区域的脸部检测框的脸部的
数字图像。图3a_3b示出了每个均根据特定实施方式检测的分别包括清晰脸部和失焦脸部的数字图像的第一示例。
图4a_4b示出了每个均根据特定实施方式检测的分别包括清晰脸部和失焦脸部的数字图像的第二示例。图5示出了包括清晰脸部和失焦脸部的数字图像。图6是示出了根据特定实施方式的方法的流程图。图7示出了基于脸部尺寸的焦点距离的计算。图8a_8d示出了包括相对清晰的脸部8a和Sc以及相对失焦的脸部Sb和8d的数
字图像。图9示出了根据特定实施方式的数码相机图像传递途径。
具体实施例方式标准的对比度检测自动聚焦是缓慢的并且当对象移动出焦点时进行猎取。当未检测到模糊脸部时,回退到对比度检测自动聚焦可能经常放缓由US 2010/0208091提供的处理。提供了一种使用脸部检测来加速聚焦并且减少连续自动聚焦中的猎焦的方法。首先即使当通过提供用于失焦脸部和/或部分脸部的一个或多个经训练的分类器集合而未聚焦脸部时,也提供高度可靠的脸部检测。可以例如提供三个脸部分类器集合:一个被训练为用于清晰脸部,另一个被训练为用于有点模糊的脸部,以及第三个被训练为用于甚至更模糊并且失焦的脸部。可以训练并且使用不同数量的分类器集合。该有利的技术将比US 2010/0208091的技术具有少得多的未检测的情况,导致更快速并且更可靠的图像捕获过程。如美国专利号 7, 362,368,7, 616,233,7, 315,630,7, 269,292,7, 471,846、7,574,016、7,440,593、7,317,815、7,551,755、7,558,408、7,587,068、7,555,148、7,564,994,7, 565,030,7, 715,597,7, 606,417,7, 692,696,7, 680,342,7, 792,335、7,551,754、7,315,631、7,469,071、7,403,643、7,460,695、7,630,527、7,469,055、7,460,694、7,515,740、7,466,866、7,693,311,7, 702,136、7,620,218、7,634,109、7,684,630,7, 796,816 和 7,796,822 以及美国专利申请公布号 US 2006-0204034、US2007-0201725,US 2007-0110305,US 2009-0273685、US 2008-017548UUS 2007-0160307、US 2008-0292193、 US 2007-0269108、 US 2008-0013798、 US 2008-0013799、 US2009-0080713,US 2009-0196466,US 2008-0143854,US 2008-0220750、US 2008-0219517、US 2008-0205712, US 2009-0185753、 US 2008-0266419、 US 2009-0263022、 US2009-0244296、US 2009-0003708、US 2008-0316328、US 2008-0267461、US 2010-0054549、US 2010-0054533、 US 2009-0179998、 US 2009-0052750、 US 2009-0052749、 US2009-0087042、US 2009-0040342、US 2009-0002514、US 2009-0003661、US 2009-0208056、US 2009-0190803, US 2009-0245693、 US 2009-0303342、 US 2009-0238419、 US
2009-0238410,US2010_0014721、US 2010-0066822,US 2010-0039525,US 2010-0165150、US 2010-0060727、 US 2010-0141787、 US 2010-0141786、 US 2010-0220899、 US
2010-0092039、US2010-0188530、US 2010-0188525、US 2010-0182458、US 2010-0165140和US 2010-0202707所述的,本发明的受让人已经广泛地研究并且开发了特别是通过训练脸部分类器的脸部检测,其中可以(或者可以不)均匀地照射、前置和锐聚焦该脸部分类器。在失焦脸部和/或部分脸部的检测之后,该技术涉及依赖于脸部尺寸来确定对象所位于的距离。即当镜头的焦点位置未被布置成提供在图2a所示的清晰度峰值的值处的最佳清晰图像时,则该对象脸部将失焦,如图2b所示。利用如本文所提供的被训练为用于检测失焦脸部的有利的分类器,正如由取景该对象的脸部的矩形所示的,仍然检测图2b所示的模糊脸部。脸部检测通过分析脸部尺寸的改变(更大=向前,更小=向后)知道对象已经朝向焦点移动还是远离焦点移动。这允许脸部检测随着脸部靠近/远离相机移动而追踪该脸部。图3a_3b示出了每个均根据特定实施方式检测的分别包括清晰脸部和失焦脸部的数字图像的第一示例。在图3a中,到对象的距离是I米以及到焦平面的距离是I米,因而脸部清晰并且不需要移动聚焦元件。在图3b中,到对象的距离是I米但是到焦平面的距离是0.2米,因此脸部模糊,尽管该脸部仍然有利地通过使用被训练用于检测模糊脸部的分类器(正如由取景该对象的脸部的矩形所示的)而被检测。根据这些实施方式,基于图3b的模糊脸部的检测,将移动聚焦元件以聚焦在I米而不是0.2米处,因为基于检测的脸部的尺寸估计到脸部的距离是I米。图4a_4b示出了每个均根据特定实施方式检测的分别包括清晰脸部和失焦脸部的数字图像的第二示例。在图4a中,到对象的距离是0.5米以及到焦平面的距离是0.5米,因而脸部清晰并且不需要移动聚焦元件。在图4b中,到对象的距离是0.5米但是到焦平面的距离是0.25米,因此脸部模糊,尽管该脸部仍然有利地通过使用被训练用于检测模糊脸部的分类器而被检测。注意到,焦点不像图3b中那么远,并且因此可以使用与用于检测图3b的脸部的分类器集合不同的被训练用于检测更不模糊的脸部的分类器集合。根据这些实施方式,基于图4b的模糊脸部的检测,将移动聚焦元件以聚焦在0.5米而不是0.25米处,因为基于检测的脸部的尺寸估计到脸部的距离是0.5米。一旦通过根据例如基于图7提供的公式的查找表的计算或估计确定到对象的距离,则可以直接将相机的聚焦元件移动到将导致其聚焦在对应距离上的位置而无需扫描整个聚焦范围。此外,在连续模式中,可以通过测量脸部尺寸的改变来确定对象是否已经在前焦点或后焦点的方向上移动。这使得聚焦元件能够在正确的方向上移动,因此减少焦点猎取。仍然可以通过利用如美国专利7, 769,281,7, 747,155,7, 729,603,7, 729,601、7,702,226,7,697,834,7,697,831,7,697,829,7, 693,408,7, 663,817,7, 663,289、7,660,056,7, 646,969,7, 640,803,7, 583,006,7, 565,070,7, 560,679,7, 555,210、7,545,591、7,515,362、7,495,852、7,477,842、7,477,400、7,403,344、7,3 59,131、7,359,130,7, 345,827,7, 266,272,7, 113,688 和 / 或 6,934,087 中的任意一个中所述的MEM技术进一步加速该处理。可以将该思想推广到可以被识别并且被追踪的任意对象,即使事先不知道它的尺寸。如本文所述的,提供高度有利的特征,由此即使当脸部失焦时,也对脸部可靠地执行脸部检测过程。这使得根据本文描述的实施方式的有利自动聚焦技术能够在实际开始聚焦到脸部上之前检测脸部。一旦检测到模糊的失焦脸部,则可以计算到对象的粗略距离。这是可能的,因为人脸的尺寸不会相当大的变化。通过使用脸部识别可以提供进一步的精确性,而由此通过与存储在数据库中的人的其他脸部数据的比较、或者通过用户手动指示、或者因为最近已经拍摄了同一个人的一张或多张照片、或者这些技术与其他脸部识别技术的组合来识别具体的人的脸部。然后,可以使用该个人的具体已知的脸部尺寸。
也可以通过考虑镜头的焦距(如果不是35毫米等效的话,则还考虑传感器尺寸)来计算到对象的距离。当已知到对象的距离时,可以直接向对应的位置移动聚焦元件而无需任何附加的扫描。然后围绕该距离仅选择性地执行精细的对比度检测扫描。如果脸部太大并且/或者只检测到部分脸部,则在脸部区域上或者在脸部的眼睛区域上测量对比度。这对于减少用于计算对比度的计算量是有利的。在视频模式中,每当在新的脸部上将要实现聚焦时可以执行相同的步骤。一旦在特定脸部上实现聚焦,根据特定实施方式监视脸部尺寸的变化。如果改变不显著,则该算法测量脸部矩形(或眼睛区域或其他部分脸部区域)上的对比度,并且如果该对比度没有下降到特定值之下,则不调整焦点位置。相反,如果对比度下降但是脸部尺寸未改变,则可以围绕当前焦点距离完成精细的再聚焦。如果发现脸部尺寸改变大于特定裕度,则将新尺寸与旧尺寸比较以确定该对象是否已经移动到前焦点或后焦点。基于此,朝向合适的方向(向后或向前)移动聚焦元件,直到重新获取焦点为止。有利地,提供焦点追踪而无需猎取。例如,如果脸部尺寸增加,则可以确定对象已经向前焦点移动,从而移动聚焦元件以便其更近地聚焦。如前所述,可以将该方法推广给已知尺寸的任意对象。例如,可以对宠物检测改变脸部检测。此外,可以将该方法推广给未知尺寸的对象。一旦使用标准的对比度检测和/或相位检测算法获得关于特定对象的焦点,则可以关于它的尺寸变化追踪并且监视该对象。该方法涉及确定该对象是否已经变大或变小以及变化多少,并且甚至在未知尺寸的对象上提供持续聚焦而无需猎取。当如图5所示场景包括多个脸部时,可以检测该画面中的多个脸部。然后计算与这些脸部中的每个脸部的尺寸相对应的距离。对于多个脸部,分类并且存储该距离。可以贯穿焦点距离地执行分而治之(divide-et-1mpera)型搜索。在每个步骤上,可以针对给定镜头光圈、焦距和焦点距离的每个距离计算COC直径。在一个实施方式中,给定这些直径,可以跨多个面部测量总体清晰度的度量。这些搜索的结果将是将理论上最大化跨照片中的所有脸部的清晰度的焦点距离。镜头将被直接聚焦到该距离上,并且如果需要,可以完成精细扫描顺序以确保甚至更大的精确度。甚至可以将该技术与自动曝光技术结合,从而如果不能获得足够的焦深或D0F,则自动聚焦或AF算法可以决定缩小光圈以便增加D0F。许多其他选项是可用的,例如,可以通过多个图像的快速获取(在每个计算的焦点位置获取一个图像)来提供清晰脸部的合成图像,或者用户可以选择何时聚焦到脸部上,或者可以聚焦到最大的脸部上,以及其他可能。在以上所引用的较早申请中讨论了脸部的加权。图6是示出了根据特定实施方式的方法的流程图。在602输入感兴趣的区域或ROI。在604确定ROI是否是脸部。如果不是,则在606对于最佳级别执行具有恒定步骤的迭代搜索。如果检测到脸部,则在608确定其是否是新的脸部。如果不是,则在610确定脸部尺寸是否与以前确定的脸部尺寸相同或者接近。如果是,则不需要焦点调整,但是如果确定以前检测的脸部的尺寸已改变尺寸,则在612执行到脸部距离的粗略聚焦。如果在608确定所检测的脸部是新的脸部,则在612执行到脸部距离的粗略聚焦。可以在614计算清晰度级别。如果在614计算的级别在616确定为行,则处理结束,但是如果该级别不行,则在618执行围绕当前距离的精细再聚焦。图7示出了到对象的距离的计算。在该实施方式中,到对象的距离与以像素为单位的图像分辨率和与35mm等效焦距成正比,并且与所检测脸部的以像素为单位的尺寸成反比。还存在乘数150/36。图8a-8d简单地示出了不同的脸部距离和焦深的示例,其中每个图中的左边的表中的第一行显示基于图7所示的计算到物体/对象的计算距离或估计距离。图9示出了数码相机图像传递途径。可以使用由硬件实现的加速来获得更快的脸部检测。根据本文所述的实施方式的技术在许多类别中得分很高。例如,它是快速的,需要非常低的功率并且产生非常低的马达磨损。在视频模式中,它知道对象是否已经向前焦点或后焦点移动,因此它不需要猎取。该特征可以允许在用于DSC和相机手机的电影模式中的连续自动聚焦,这在当前技术中是不可用的。此外,该技术不需要任何附加的硬件,因此其实现是便宜的,并且它是壮实的(通过任意跌落测试)而且完成这些都没有以任何方式危害聚焦的质量。它还是高度准确的。还提供多脸部自动聚焦,这允许相机在位于各种深度的多个脸部上聚焦。利用根据本文所述的实施方式的多脸部AF,这个可以通过估计脸部的尺寸、计算到每个脸部的距离并且随后决定最大化跨全部这些脸部的清晰度的虚拟焦点距离或如上所述的其他步骤来完成。此外,然后将几乎即时地实现聚焦,而无需扫描聚焦范围或测量图像中的多个区域的清晰度,即如果它们一起覆盖画面的大的区域,则这可能是非常缓慢的。在可以根据本文的优选实施方式执行并且可能已被上文描述的方法中,已经按照所选择的字面印刷顺序描述了操作。然而,为字面印刷方便起见,已经选择并且如此安排了该顺序,并且该顺序并非旨在暗示用于执行该操作的任何特定次序,除非可能明确地阐述了特定次序或者本领域的普通技术人员可能认为特定次序是必要的。
权利要求
1.一种基于脸部检测的用于数字图像获取设备的自动聚焦方法,包括: 使用数字图像获取设备的镜头、图像传感器和处理器; 获取包括一个或多个失焦脸部或部分脸部或这二者的场景的数字图像; 通过应用在失焦脸部上训练的一个或多个分类器集合,检测所述数字图像之中的所述一个或多个失焦脸部或部分脸部或这二者; 在所述数字图像中确定一个或多个各自的失焦脸部或部分脸部或这二者的一个或多个尺寸; 基于所述数字图像中的所述一个或多个脸部或部分脸部或这二者的所述一个或多个尺寸,确定所述一个或多个失焦脸部或部分脸部或这二者的一个或多个各自的深度; 调整所述镜头的一个或多个各自的焦点位置,以近似地聚焦在所确定的一个或多个各自的深度上;以及 利用被聚焦在一个或多个分别地调整的焦点位置上的所述镜头,获取包括所述一个或多个脸部或部分脸部或这二者中的至少一个的场景的一个或多个其他图像。
2.如权利要求1所述的方法,还包括:基于调整所述一个或多个各自的焦点位置,执行精细扫描,并且基于所述精细扫描,精细调整所述一个或多个各自的焦点位置。
3.如权利要求2所述的方法,其中,所述场景包括通过应用所述一个或多个脸部分类器集合未检测到的至少一个失焦脸部或部分脸部或这二者,并且其中,所述方法进一步包括应用对比度检测扫描或相位检测扫描或这二者来获取通过应用所述一个或多个脸部分类器集合未检测到的所述至少一个失焦脸部或部分脸部或这二者。
4.如权利要求1所 述的方法,其中,所述一个或多个部分脸部中的至少一个包括眼睛区域。
5.如权利要求1所述的方法,还包括当所述一个或多个脸部或部分脸部中的至少一个或这二者的尺寸至少改变阈值量时,调整所述一个或多个各自的焦点位置中的至少一个焦点位置。
6.如权利要求5所述的方法,还包括追踪所述脸部或部分脸部的至少一个或这二者,并且基于所述追踪确定所述一个或多个脸部或部分脸部的所述至少一个或者这二者的尺寸的所述改变。
7.如权利要求1所述的方法,进一步包括通过缩小所述数字图像获取设备的光圈来增加景深。
8.如权利要求1所述的方法,其中,所述一个或多个脸部或部分脸部或这二者包括分别位于多个不同深度的多个脸部或部分脸部或这二者,其中基于它们的不同的确定尺寸近似地确定所述多个不同深度。
9.如权利要求1所述的方法,其中,所述一个或多个深度的所述确定包括分配与所述一个或多个确定尺寸中的至少一个确定尺寸相对应的至少一个平均深度。
10.如权利要求1所述的方法,其中,所述一个或多个深度的所述确定包括识别所检测脸部或部分脸部或这二者属于具体的个人,从存储器调用与具体的脸部或部分脸部或这二者相对应的已知脸部或部分脸部的空间参数,并且确定与确定尺寸和所述已知脸部或部分脸部的空间参数相对应的深度。
11.如权利要求1所述的方法,其中,所述一个或多个各自的焦点位置的所述调整包括利用MEMS (微机电系统)组件。
12.—个或多个处理器可读介质,其具有实现在其中用于对具有处理器的设备编程以执行以上方法的任一方法,其中所述设备使用镜头和图像传感器来获取包括一个或多个失焦脸部或部分脸部或这二者的场景的数字图像。
13.一种数字图像获取设备,包括镜头、图像传感器、处理器和存储器,所述存储器具有嵌入在其中用于对所述处理器编程以执行根据权利要求1到11中的任一方法的基于脸部检测的自动聚焦方法 的代码。
全文摘要
一种自动聚焦方法包括获取包括一个或多个失焦脸部和/或部分脸部的场景的数字图像。该方法包括通过应用在失焦脸部上训练的一个或多个分类器集合,检测数字图像之中的一个或多个失焦脸部和/或部分脸部。在该数字图像中确定一个或多个各自的失焦脸部和/或部分脸部的一个或多个尺寸。基于该数字图像中的一个或多个脸部和/或部分脸部的该一个或多个尺寸,确定该一个或多个失焦脸部和/或部分脸部的一个或多个各自的深度。调整该镜头的一个或多个各自的焦点位置,以近似地聚焦在所确定的一个或多个各自的深度上。
文档编号H04N5/232GK103155537SQ201180046708
公开日2013年6月12日 申请日期2011年9月28日 优先权日2010年9月28日
发明者F·纳努, C·N·斯坦, P·科科朗 申请人:数字光学欧洲有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1