对图像的对象进行分类的方法和设备及计算机程序产品与流程

文档序号:12178073阅读:629来源:国知局
对图像的对象进行分类的方法和设备及计算机程序产品与流程

本公开涉及计算机视觉,并且更具体地涉及也被称为对象识别的找到并标识图像或视频序列中的给定语义类别(亦即,对象)的计算机视觉问题。更具体地,本公开涉及正确地确定图像中的对象的形状。

本公开的原理在诸如面部动画、人机交互、视频会议的视线校正、面部润饰、辩论(forensics)或者检测动物并且估计其确切的身体姿势这样的实现对象识别的任何领域中找到具体的应用。



背景技术:

计算能力增加的主要益处之一是计算机视觉应用的数量的稳定增加。以前不可能在任何合理的时间量内解决的计算机视觉问题已经变得越来越可行。

有利地对图像或视频序列中的对象进行检测和分类是计算机视觉的主要挑战之一。检测包括对问题“对象/类别x在图像中?”给出一比特回答(one-bit answer)。

若干机器学习方法已经被应用于该问题,其展示了对象检测准确度和速度的显著提高。

另外,在大多数情况下,仅建立对象的存在/不存在是不够的,希望还知道其在图像中的确切位置,或者甚至独立地检测和定位组成对象的部分。

如P.Dollar等人所公开的那样(“Cascaded Pose Regression”,IEEE Computer Vision and Pattern recognition,2010年,页1078-1085),在其最简单的形式中,定位由标识包含所搜索的对象的图像的最小矩形区域组成,但是更一般地,希望恢复对象的“形状”。

形状指的是所铰接的对象(和组成它们的部分)的几何配置,例如人类身体上的肢体的配置或者车辆的布局。更宽泛地,形状是对象的外观中的系统的且可参数化的改变的任何集合。

为此目的,已经开发出关键点(landmark)估计方法。在这样的方法之中,如上所述的由P.Dollar所公开的级联姿势回归(cascaded pose regression,CPR)技术被用于面部关键点检测,其也被称为形状估计(其中,术语“形状在这里指的是表征面部的几何形状的关键点位置的集合)。

更准确地说,级联姿势回归(CPR)通过从未加工的初始形状猜测S0开始的T个回归量R1…T的级联和逐渐的精细化估计来形成,输出最终的形状估计ST。形状S表示为P个部分位置的级数Sp=[xp,yp],p∈1…P。典型地,这些部分对应于面部关键点。在每次迭代时,回归量Rt产生更新的δS,然后将更新的δS与先前迭代的估计St-1组合以形成新的形状。

在学习期间,训练每个归回量Rt以尝试最小化真实形状与先前迭代St-1的形状估计之间的差异。可用的特征取决于当前形状估计,并且因此在算法的每次迭代中改变,这样的特征被称为姿势索引的(pose-indexed)或形状索引的(shape-indexed)特征,并且CPR技术的要点在于计算健壮形状索引的特征,并且训练回归量能够逐渐地减小每次迭代时的估计误差。

健壮级联姿势回归(PCRR)是一种从CPR得出并且能够处理由发明人之一X.P.Burgos-Artizzu等人(“Robust face landmark estimation under occlusion”,IEEE International Conference on Computer Vision,2013年,悉尼)所公开的遮挡(occlusions)的算法。该方法需要训练集中的遮挡的地面实况注释。因此,代替仅通过其x和y坐标来定义部分位置,添加可视性参数,并且还可以在与部分定位相同的时间时学习可视性参数。

然而,CPR或者甚至是RCPR技术不会一直成功地正确估计对象的形状,特别是在处理在姿势和遮挡方面非常有挑战性的面部时。

当前,这样的对象形状估计失败需要由操作者手动检测,这是一个冗长乏味且耗时的过程。

因此,对于将自动形状估计方法所提供的结果自动分类成好的或不好的结果,仍然存在相当多的需求。



技术实现要素:

下面给出本公开的简化的概要,以便提供对本公开的一些方面的基本的理解。该概要不是本公开的广泛的概览。其不用于标识本公开的关键或重要的元件。下面的概要仅以简化的形式呈现本公开的一些方面,作为下面所提供的更详细的说明的序言。

本公开着手通过对当前图像的对象进行分类的方法来补救现有技术的至少一个缺点,表示所述对象的形状的多个第一关键点与当前图像相关联,第一唯一标识符与每个第一关键点相关联。

这样的方法包含:

-针对在多个第一关键点之中所选择的至少第一关键点,获得描述包含所选择的至少第一关键点的当前图像的区域的至少第一描述符,

○所述至少第一关键点根据其第一标识符来选择,

○所述至少第一关键点在其第一标识符对应于第二关键点的第二标识符时选择,在用于对所述对象进行分类的分类器中使用其第二描述符,

-根据所述至少第一描述符并且根据与所述第二描述符相关联的加权信息来确定表示所述形状的置信度的信息。

因此,本公开依赖于一种对当前图像的对象进行分类的新颖的且有创造性的方法。实际上,本公开得益于图像的对象的分类器的特定属性,并且对所估计的关键点的优良性进行评级。

更准确地说,所述当前图像对应于测试图像。所述测试图像用多个第一关键点来注释(在下文中,术语“第一”总是与测试图像相关联,而术语“第二”总是与分类器相关联)。所述多个中的每个关键点通过标识符来标识,其对于相同类型的对象是永久性的。

换句话说,考虑对象对应于人类或动物面部,例如将使用68个关键点对这样的面部进行注释,并且位于左眼的左角上的关键点总是通过数量7来标识,位于左眼的中间的关键点总是通过数量8来标识,并且位于左眼右角上的关键点总是通过数字9来标识,以此类推。

需要注意的是,根据本公开的方法可以被用于对人类或面部动物之外的其他类型的对象进行分类,诸如需要在图像中被定位以用于后期处理的车辆、植物或建筑。

因此,被用于注释测试图像的第一关键点以与对应于语义方法的分类器所使用的第二关键点相同的方式来编号,以根据输入的数据集来建立分类模型。

然后,分类器能够提供一个第二关键点的标识符(所述标识符在本公开中被称为“第二标识符”),其描述符(所述描述符在本公开中被称为“第二描述符”)对于参照分类器先前已经被训练的图像的集合(测试图像不属于训练图像的集合)对对象进行分类最有辨别力。

所述第二描述符以及与其相关联的加权信息由分类器来提供。

然后,使用所述第二标识来选择被用于注释呈现相同标识符的测试图像的第一关键点。

当获得与分类器所提供的第二标识符呈现相同的标识符的所述第一关键点时,与其相关联的第一关键点的描述符(被称为第一描述符)然后被用于确定表示与被用于注释所述测试图像的第一关键点的集合相对应的所述形状估计的置信度的信息。

这样的确定需要所述第一描述符以及分类器所提供的与第二描述符相关联的加权信息两者作为输入。

换句话说,根据本公开所提出的方法利用分类器的先前的学习来直接选择测试图像的第一描述符,其对应于分类器所学习到的最有辨别力的第二描述符。

需要注意的是,根据本公开,能够独立于本方法的实现方式来训练分类器。唯一的要求是分类器能够提供这样的有辨别力的第二描述符的标识符以及与其相关联的加权信息。

因此,快速且有效地获得对测试图像所应用的自动形状估计方法所提供的结果的全局评级,其允许对测试图像进行实时评级。换句话说,能够进行测试图像的形状注释的“在线”评估。

根据本公开的具体方面,确定表示置信度的信息包含比较所述至少第一描述符和与所述至少第二描述符相关联的阈值。

例如,如果所述第一描述符的值低于所述阈值,则表示所述测试图像中所估计的形状的置信度的信息等于所述加权信息的正值,否则等于负值。

因此,表示置信度的信息的负值直接地并且针对总体的测试图像指示自动形状估计方法所提供的结果是不好的结果。

根据本公开的另一方面,对表示置信度的信息进行归一化(nomalise)以提供置信度的概率值。

实际上,概率形式的置信度的值有时对于操作者更容易理解。这样的归一化可以包含:将在比较所述至少第一描述符和与所述至少第二描述符相关联的阈值之后所获得的负值变换为指示测试图像不包含任何对象或者关键点注释有错误的接近于0的非常低的概率;以及相反地,将正值变换为包含在0.5和1之间的概率。

根据本公开的实施例,对于所述当前图像,将与所述多个第一关键点中的每个关键点相关联的第一描述符按照取决于它们的标识符的次序来级联以形成第一向量,并且对于所述分类器,将与多个第二关键点中的每个关键点相关联的第二描述符按照取决于它们的标识符的次序来级联以形成第二向量。

这样的级联允许在时间方面对处理进行优化,因为仅处理一个向量。而且,这样的级联提供单个向量,其表示整个测试图像的总体形状。测试图像的这样的总体表示是有重要意义的,因为本公开针对确定表示整个测试图像的置信度的总体信息而不是表示单个关键点的置信度的信息。

根据具体方面,所述分类器是实现多次迭代的迭代分类器,其中,从第二迭代开始,每次迭代使用先前迭代的结果。

因此,如果分类器是迭代的,则根据本公开的方法也将是迭代的。换句话说,对获得至少第一描述符的步骤以及然后确定表示置信度的信息的步骤两者进行迭代,以对表示置信度的信息进行精细化。

更准确地说,分类器提供第二标识符以及与所述第二标识符所标识的第二描述符相关联的加权信息(可选地,阈值),其可以根据每次迭代而不同。

换句话说,在第一迭代时,分类器提供第二标识符,例如数字7(对应于与位于左眼的左角上的关键点相关联的描述符),以及与被编号为7的所述第二标识符所标识的第二描述符相关联的加权信息(可选地,阈值)。

同样由数字7所标识,与测试图像相关联的第一描述符被选择,然后用于确定表示由测试图像的多个第一关键点所注释的总体形状的置信度的信息。

然后,至少在第二迭代时对在第一迭代时所确定的表示置信度的这样的信息进行精细化。

在第二迭代时,分类器提供第二标识符,例如数字15(对应于与位于鼻子中央的关键点相关联的描述符),以及与被编号为15的所述第二标识符所标识的第二描述符相关联的加权信息(可选地,阈值)。

同样由数字15标识,与测试图像相关联的第一描述符被选择,然后用于对在第一迭代时所获得的表示置信度的信息进行精细化,以此类推。

根据本公开的具体特征,所述分类器属于包含以下的分组:

-实现Adaboost算法的分类器,

-实现二元决策树的分类器;

-支持向量机分类器,

-最近近邻分类器。

如已经在上文所提及的那样,分类技术(或者说分类器)是用以根据输入数据集来建立分类模型的语义方法。存在若干技术,每一个采用学习算法来标识最佳拟合输入数据的属性集和分类标签之间的关系并且还正确地预测作为在之前从未看到的示例的测试数据的分类标签的模型。

R.Shapire等人所公开的Adaboost算法(“A brief introduction to Boosting”,IEEE International Conference on Artificial Intelligence,1999年)基于使用弱学习器通过在遍及训练示例的不同分布上重复地调用学习器来形成高度准确的预测规则。弱学习器(或者说弱分类器)是具有优于随机猜测的泛化误差的分类器。弱学习算法(或者说弱分类器)被视为能够找到在概率高于50%的情况下正确地对数据进行分类的弱分类器。推进(boosting)将一组弱学习器组合成强学习器,其具有比每个单独的弱学习器好得多的分类性能。

另一种分类技术是二元决策树。二元决策树的主要任务是通过询问关于测试记录的属性的一系列经仔细制作的问题来解决分类问题。每当接收到回答时,询问继续的问题,直至得出关于记录的标签的结论为止。该系列问题以及它们的可能回答可以组织为决策树的形式,其为一种由节点和直连的边所构成的分层结构。树具有三种类型的节点:根节点,没有进入边,并且具有0至更多的外出边;中间节点,每个中间节点仅具有一个进入边,并且具有两个或更多的外出边;以及叶节点(或者说末端节点),其每个仅具有一个进入边,并且没有外出边。对每个叶分配一分类标签。非末端节点包含属性测试条件以分开具有不同特性的记录。

另一种分类技术是V.Vapnik等人所公开的支持向量机(SVM)分类器(“Support vector method for function approximation,regression estimation,and signal processing”,Advances in Neural Information Processing systems 9,1996年)其将数据表示为空间中的点,被映射为使得通过尽可能宽的清楚的间隙来划分各个类别的示例。然后,将新的数据映射到该相同的空间中,并且基于它们落入在间隙的哪一侧上而被预测为属于一类别。

另一种分类技术是O.Boiman等人所公开的最近近邻分类(“In defense of Nearest-Neighbor based image classification”,IEEE Conference on computer Vision and Pattern Recognition,2008年),并且对图像按照其在数据库中的最近(最相似的)图像的分类进行分类。

根据本公开的具体特征,所述第一和第二描述符是相同类型的,所述类型属于包含以下的分组:

-有向梯度的直方图,

-表示轮廓的信息,

-亮度值,

-强度值,

-纹理值。

由N.Dalal等人所公开的有向梯度的直方图(“Histograms of oriented gradients for human detection”,IEEE Conference on computer Vision and Pattern Recognition,2005年)是在计算机视觉中所使用的用于对象检测的特征描述符。

有向梯度描述符的直方图后面的主要想法是,可以通过强度梯度或边缘方向的分布来描述图像内的对象的局部外观以及形状。因此,图像被划分成被称为小区(cell)的小区域,用户可以选择这些小区的大小以及两个相邻小区之间的重叠以及每个直方图的朝向仓(bin)的数量,然后针对每个小区内的像素编制梯度方向的直方图。特征的最终向量是所有这些直方图的级联。为了克服照明和阴影中的改变的问题,可以在提取HOG特征之前对整个图像执行直方图均衡化。

不同地,所述类型可以是表示例示灰度级别的强度值或者RGB空间中的具体色彩或者RGB空间的三种色彩中的每一个的三元组等。

根据本公开的实施例,所述方法包含所述分类器的先前训练。

实际上,分类器可以由不同的设备与本公开的实现分开地训练,然后提供所训练的分类器作为所述方法的输入。

然而,本方法还可以实现所使用的分类器的训练。这样的训练必须在获得至少第一描述符以及然后确定表示置信度的信息的步骤之前执行。有利地,“离线地”执行所述训练,以便允许对测试图像的实时处理。

根据所述实施例的具体特征,通过使用包含以下的训练图像的数据集来执行对所述分类器的所述训练:

-训练图像的第一集合,其在由所述分类器处理时提供正分类结果;以及

-训练图像的第二集合,其在由所述分类器处理时提供负分类结果。

因此,也可以训练分类器以提供负分类结果。

更准确地说,训练图像的所述第二集合包含不存在对象的图像和/或对象关键点注释错误的图像。

由此,分类器能够提供对训练图像的评定,即使这些训练图像中的一些呈现出错误的关键点注释。因此,由这样的分类器所提供的结果更相关地尝试确定测试图像的置信度信息。

根据另外的实施例,所述方法还包含所述当前图像的所述对象的先前关键点注释。

实际上,可以直接提供已经由外部设备所注释的测试图像作为根据本公开的对所述测试图像的对象进行分类的方法的输入。

然而,这样的注释也可以在获得至少第一描述符并且然后确定表示置信度的信息的步骤之前实现。

根据该另外的实施例的具体方面,所述当前图像的所述对象的所述关键点注释通过使用属于包含以下的分组的方法之一来执行:

-级联姿势回归,

-健壮级联姿势回归。

本公开的另一方面涉及一种对当前图像的对象进行分类的设备,表示所述对象的形状的多个第一关键点与当前图像相关联,第一唯一标识符与每个第一关键点相关联,所述设备包含处理器,所述处理器被配置为控制:

-针对在多个第一关键点之中选择的至少第一关键点,获得描述包含所选择的至少第一关键点的当前图像的区域的至少第一描述符的模块,

○所述至少第一关键点根据其第一标识符来选择,

○当其第一标识符对应于第二关键点的第二标识符时,选择所述至少第一关键点,在用于对所述对象进行分类的分类器中使用其第二描述符;以及

-根据所述至少第一描述符并且根据与所述第二描述符相关联的加权信息来确定表示所述形状的置信度的信息的模块。

这样的设备特别适合于实现对当前图像的对象进行分类的方法。

本公开还涉及一种可从通信网络下载的和/或记录在可由计算机读取的介质上的和/或可由处理器执行的计算机程序产品,其包含用于实现上述对当前图像的对象进行分类的方法的程序代码指令。

本公开还涉及一种非临时性计算机可读介质,其包含在其上记录的并且能够由处理器运行的计算机程序,包括用于实现上述对当前图像的对象进行分类的方法的程序代码指令。

这样的计算机程序可以存储在计算机可读存储介质上。在本文中所使用的计算机可读存储介质被视为非临时性存储介质,其给出在其中存储信息的固有能力以及提供从中检索信息的固有能力。计算机可读存储介质可以是例如但不限于电子的、磁性的、光学的、电磁的、红外的或者半导体系统、装置或器件或者前述的任何适合的组合。应当意识到,以下虽然提供可以应用所述原理的计算机可读存储介质的更具体的示例,但是本领域的技术人员很容易意识到,其仅是示例性的而非排他性的列表:便携式计算机盘、硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、便携式压缩盘只读存储器(CD-ROM)、光学存储器件、磁性存储器件或者前述的任何适合的组合。

应当理解,前述的一般性描述以及随后的详细描述两者都是示例性和解释性的,而不是对所要求保护的本公开的限制。

还必须理解,在说明书中提及的“一个实施例”或“实施例”表示所描述的实施例可以包括具体特征、结构或特性,但是每个实施例可以不必包括具体特征、结构或特性。

而且,这样的表述未必指的是相同的实施例。另外,当结合实施例描述具体特征、结构或特性时,其建议结合其他实施例来影响这样的特征、结构或特性在本领域技术人员的知识内,而无论是否明确地描述。

本公开的特定性质以及本公开的其他目标、优点、特征和使用将根据下面结合附图进行的实施例的描述而变得显而易见。

附图说明

参照下面的描述和附图可以更好地理解本公开的实施例,附图作为示例而不是限制保护的范围给出,其中:

图1示意性地示出根据本公开的对当前图像的对象进行分类的方法的主要步骤的图;

图2表示可以根据本公开使用的分类器的示例;

图3表示可以根据本公开从当前图像获得的描述符的类型的示例;

图4A和图4B例示对图像进行关键点注释的方法的第一示例;

图5例示对图像进行关键点注释的方法的第二示例;以及

图6示出根据本公开的实施例的设备的架构的示例。

相似或相同的元件用相同的标号来标记。附图中的组件未必是按比例的,而是在例示本公开的原理时被加以强调。

具体实施方式

一般原理

本公开的一般原理在于一种通过确定表示总体当前图像的置信度的信息对当前图像的对象实时地进行分类的新的方式,所述确定考虑由先前用不包含所述当前图像(在下文中被称为测试图像)的训练图像的数据集训练的分类器所提供的训练结果。

将对用于对当前图像的对象进行分类的方法、对应设备以及计算机可读存储介质给出描述。

然而,本公开可以实施为很多替代的形式,并且不应当被解释为受限于在本文中所阐述的实施例。因此,虽然本公开容许各种修改和替代的形式,但是其具体实施例作为示例在附图中示出并且将在本文中详细地描述。然而,应当理解,没有意图将本公开限制于所公开的具体形式,而是相反地,本公开将涵盖落入由权利要求所限定的本公开的精神和范围内的所有修改、等效物以及替代。

在本文中所使用的术语仅用于描述具体实施例的目的,而不打算限制本公开。如在本文中所使用的那样,单数形式的“一”、“一个”和“该”旨在也包括复数形式,除非上下文清楚地另外指定。还应当理解的是,术语“包含”、“包含有”、“包括”和/或“包括有”在本说明书中使用时指定所述特征、整数、步骤、操作、元件和/或组件的存在,但是不排除一个或多个其他特征、整数、步骤、操作、元件、组件和/或其分组的存在或添加。

而且,当元件被称为“响应于”或“连接到”另一元件时,其可以直接响应于或连接到其他元件,或者可以存在中介元件。相反,当元件被称为“直接响应于”或“直接连接到”其他元件时,不存在中介元件。如在本文中所使用的那样,术语“和/或”包括相关联的所列项目中的一个或多个的任何以及所有的组合并且可以被简写为“/”。

应当理解,虽然在本文中可能使用术语“第一”、“第二”等来描述不同的元件,但是这些元件不应被这些术语所限制。这些术语仅用于将一个元件与另一个元件区分开。例如,第一元件可以被称为第二元件,并且类似地,第二元件可以被称为第一元件,而不脱离本公开的教导。

虽然一些图表包括关于通信路径的箭头以示出通信的主要方向,但是应当理解的是,通信可以在与所示箭头相反的方向上进行。

一些实施例参照框图和操作流程图来描述,其中每个块表示电路元件、模块或包含实现所指定的逻辑功能的一个或多个可执行的指令的代码的一部分。还应当注意的是,在其他实施方式中,在块中所标记的功能可以不以所标记的次序进行。例如,相继示出的两个块实际上可以基本上并行地执行,或者块有时可以以相反的次序来执行,取决于所涉及的功能。

在本文中所提及的“一个实施例”或“实施例”意味着结合该实施例描述的具体特征、结构或特性可以包括在本公开的至少一种实施方式中。在说明书的不同地方出现的术语“在一个实施例中”或“根据实施例”未必全部指相同的实施例,单独或替代的实施例也未必与其他实施例相互排斥。

在权利要求中出现的标号仅用于示例,而不应当对权利要求的范围具有限制效果。

虽然未明确描述,但是所呈现的实施例和变型可以以任何组合或子组合来采用。

本公开针对对当前图像的对象进行分类来描述,但是扩展至对当前图像内的多个对象进行分类,或者扩展至图像序列中所表示的对象,因为如下所述那样顺序地对属于所述序列的每个图像的对象进行分类。

对图像的对象进行分类的方法

图1示意性地示出根据本公开的对当前图像的对象进行分类的方法(10)的主要步骤的图,所述方法由用于对当前图像的对象进行分类的设备来执行,当前图像在下文中被称为测试图像(100)。

根据本公开,对测试图像(100)的对象进行分类的方法(10)可以有利地在线执行,并且在于对测试图像(100)应用由所训练的分类器(1000)所提供的结果。

用表示所述对象的形状的多个(111)第一关键点对所述测试图像进行关键点注释(1102)。所述多个(包含N个)关键点中的每个关键点由对于相同类型的对象是永久性的标识符i来标识,其中i∈[1;N]。

例如,考虑对象对应于人类或动物面部,例如将使用N=68个关键点来注释这样的面部,并且位于左眼的左角上的关键点总是用数字7来标识,位于左眼的中间的关键点总是通过数量8来标识,并且位于左眼右角上的关键点总是通过数字9来标识,以此类推。

可选地(如虚线中所示),所述关键点注释(1102)可以在形状估计(110)的阶段内由根据本公开的对当前图像的对象进行分类的设备来执行,或者可以由单独的设备来执行,然后传送给根据本公开的对当前图像的对象进行分类的设备。

这样的形状估计(11)可以使用P.Dollar等人所公开的级联姿势回归技术(CPR)(“Cascaded Pose Regression”,IEEE Computer Vision and Pattern recognition 2010,页1078-1085)或者从CPR得出并且能够处理由发明人之一X.P.Burgos-Artizzu等人(“Robust face landmark estimation under occlusion”,IEEE International Conference on Computer Vision,2013年,悉尼)所公开的遮挡的健壮级联姿势回归(RCPR)来执行。

图4A和图4B例示使用不考虑遮挡并且估计N=68个关键点的模型针对测试图像(100)所获得的这样的形状估计。

可以看出,在图4A上,这样的形状估计(110)包含:首先,应用(1101)预先训练的面部检测器以检测包围盒(41)中的面部;然后,应用使用该包围合(41)预先训练的CPR或PCPR来获得关键点(40)位置。

这样的预先训练的面部检测器可以使用诸如P.Viola等人(“Robust Real-time Face detection”,International Journal of computer Vision,卷57,第2号,页137-154,2004年)所公开的技术那样的现有技术来获得。

图5例示使用考虑遮挡并且估计N=29个关键点的模型针对测试图像(100)所获得的这样的形状估计。实际上,关键点(51)(用十字表示)对应于左眼眉的关键点,即使它们被一缕头发重叠,而其他关键点(用点表示)对应于感兴趣的面部点,其未被重叠。

当获得(从另外的设备接收或者在所提出的方法内计算出)已经用多个第一关键点注释的所述测试图像(100)时,获得(112)与每个关键点i(i∈[1;N])相关联的第一描述符fi1st

这样的N个第一描述符是属于包含以下的分组的类型:

-有向梯度的直方图,

-表示轮廓的信息,

-亮度值,

-强度值,

-纹理值。

例如,根据图1所示的实施例,每个描述符是由N.Dalal等人所公开的有向梯度的直方图(“Histograms of oriented gradients for human detection”,IEEE Conference on computer Vision and Pattern Recognition,2005年)。

作为例示,图3表示可以使用大小为16并且9个朝向的仓在包含面部的图像上提取出的所有HOG描述符。

然后,根据图1所示的实施例的具体方面,将所有第一描述符级联以形成第一向量。所述向量表示所述测试图像(100)的总体形状。

在级联的描述符的这样的所获得的向量内,每个描述符与由第一标识符i所标识的关键点相关联,一个第一描述符fi1st在其第一标识符i对应于第二关键点的第二标识符时被选择,第二关键点的第二描述符fi2nd已经在对训练图像的数据集1001中的对象进行良好分类的分类器(1000)中被标识(1030)。

必须注意的是,针对测试图像所获得(112)的第一描述符的类型与分类器(1000)所使用的那个是相同的类型。换句话说,所述第一描述符fi1st和所述第二描述符fi2nd两者例如均为HOG描述符。

然后,测试图像(100)的所述第一描述符fi1st和与第二描述符fi2nd相关联的加权信息wi被用于确定(113)表示对应于所述多个(111)第一关键点的形状的置信度的信息ICONF

根据图1所示的实施例的具体方面,所述确定(113)包含比较(1131)所述第一描述符fi1st和与第二描述符fi2nd相关联的阈值thi

例如,表示置信度的信息ICONF对应于值H,使得:

换句话说,表示置信度的信息ICONF的负值H直接地且针对总体测试图像来指示由自动形状估计方法所提供的结果是不好的结果。

为了提高对这样的测试图像进行后期处理所设计的、具体地负责检测形状估计结果是否良好的操作者的理解,对这样的值H进行归一化(1132)以提供置信度的概率值。

当例如针对面部识别的应用时,非常低的置信度(例如,在0与0.3之间)指示具有所处理的图像块不表示面部(换句话说,面部检测器的可能失败)的高概率。因此,置信度指示器可以基于标准面部检测器不考虑的形状线索来帮助提高面部检测性能。

在指示具有正确的脸部检测的高可能性但是具有较差质量的关键点定位的“中度”置信度(例录在0.3与0.7之间)的情况下,有利地,可以将使用面部关键点估计的应用模块切换到不依赖于面部关键点估计结果的后备模式(fall-back mode)。

实际上,因为被用于分类的特征通过关键点的位置来索引,该概率不仅提供关于在测试图像块中存在面部的指示(非常低的值),而且还提供关于关键点估计的准确度的指示(在范围[0.5..0.9]中的适当高的值)。

通过图1所示的实施例可以看出,被用于提供用于选择(或提取)所述第一描述符fi1st的标识符的经训练的分类器是替代分类器。

换句话说,这样的分类器在其训练以确定第二描述符期间实现T次迭代,第二描述符在每次迭代时最有辨别力以对分类精确度进行精细化,每次迭代考虑先前迭代的结果。

因此,考虑该方面,在根据本公开的测试图像的在线处理期间,还迭代地对表示置信度的信息ICONF进行精细化。

然而,当针对每个测试图像(100)的快速处理时,能够实现仅仅单一迭代。

例如,在第一迭代t=1时,分类器(1000)提供(1030)标识符34以选择第一描述符然后将其与同样由分类器(1000)所提供(1030)的阈值th34进行比较,并且取决于该比较(1131),信息ICONF的值V1将是±w34

在第二迭代t=2时,分类器(1000)提供(1030)标识符47以选择第一描述符然后将其与同样由分类器(1000)所提供(1030)的阈值th47进行比较,并且取决于该比较(1131),信息ICONF的值V2将是V1±w47,对于随后的迭代,以此类推。

因此,在每次迭代时,表示置信度的信息ICONF的值Vt如下那样,在迭代t时:

必须要注意的是,根据本公开所使用的分类器已经被训练并且能够在线提供包含标识符、阈值和加权的三元组以便执行根据本公开的用于实时地确定表示测试图像(100)的置信度的信息ICONF的方法。

可选地,并且如图1所示,根据本公开的方法还包含所述分类器(1000)的先前训练(1020)。有利地,所述训练(1000)离线地、一次地并且针对全部来执行,并且对于稍后测试任何测试图像都是有价值的。

根据第一示例,这样的分类器使用用于分类的二元决策树,其示例如图2所示。

根据另外的示例,这样的分类器实现由R.Shapire等人所公开的Adaboost算法(“A brief introduction to Boosting”,IEEE International Conference on Artificial Intelligence,1999年),其为迭代分类器。

一般地,这样的算法的输入包含用{-1,+1}中的地面实况注释yi所注释的要检测的对象的正和负示例xi的数据集,其中,yi=+1是正示例,而yi=-1是负示例。对数据集中的每个(正或负)示例(xi,yi)分配权重wi

在算法的每个阶段(亦即迭代),选择弱学习器h(x),其将使用该弱学习器错误分类的点的误差的加权和最小化。

这样的弱学习器从T个弱学习器中选择,数量T也对应于迭代的数量。

接下来,更新训练示例的权重,使得错误分类的示例取得较高的权重而正确分类的示例取得较低的权重。最终的强学习器被计算为在每个阶段t时所计算出的弱学习器的加权和。另外,将加权参数αt计算为弱学习器ht的分类误差的函数:误差越低,加权参数的值αt越高。

在训练1020期间,可以使用强分类器H(x)的值来得出后面的分类概率的估计,换句话说,获得所述分类器的输出与假设针对每个x(亦即正的训练示例)存在y(亦即负的训练示例)上的分布的条件概率之间的关系。如C.Rudin(“Boosting,MIT 15.097Course Notes”,MIT OpenCourseWare,2012年)所公开的那样,该概率可以通过下式来良好地近似示出:

更准确地说,在本公开的情况下(其中,根据具体实施例,所述分类器实现Adaboost算法),使用训练图像的数据集(1001)来执行所述分类器的离线训练(1020),训练图像的数据集(1001)包含:

-训练图像的第一集合(1002),其在由所述分类器处理时提供正的分类结果;以及

-训练图像的第二集合(1003),其在由所述分类器处理时提供负的分类结果,训练图像的第二集合(1003)包含不存在对象的图像和/或对象关键点注释是错误的图像。

例如,所述数据集(1001)包含面部和非面部图像。在该数据集中,面部图像用被标记为包围矩形(类似于在图4A中所示的那个(41),但是在该情况下,这样的包围矩形在数据集(1001)的训练图像中标记)面部的位置和关键点的地面实况位置(类似于在图4B中所示的那些(40),但是在该情况下,这样的包围矩形在数据集(1001)的训练图像中标记)来注释。

在训练图像的非面部第二集合(1003)中随机地选择包围盒,并且在每个这样的包围盒内生成一组关键点位置。例如,可以将每个包围盒的该组关键点位置设置为整体训练数据集(1001)的负训练图像(1003)中的面部包围盒示例的关键点位置的平均集合。

更准确地说,在该离线训练(1020)之前,针对包含正(1001)和负(1002)样本两者的数据集(1001)的每个训练图像计算(1004)然后级联(1010)第二描述符fi2nd(索引i表示编号为i的关键点)。必须要注意的是,针对测试图像所获得(112)的第一描述符fi1st的类型与分类器(1000)所使用的那个是相同类型的。例如,所述第一描述符fi1st和所述第二描述符fi2nd是HOG描述符。

具体地,在以每个关键点为中心的矩形内计算出HOG描述符。将矩形的尺寸进行归一化为根据关键点的位置所计算出的预定值。

然后,对HOG特征离线地训练(1020)Adaboost分类器。因为关键点附着于面部中的感兴趣的语义点,所以在围绕关键点的矩形中的梯度的分布应当跨越面部图像块大致不变,并且强烈地不同于围绕非面部块的梯度的分布。因此,所计算出的HOG特征应当将良好地区别开面部与非面部,并且因此是面部分类器的特征的良好选择。

根据变型,对于训练图像以及测试两者,定义包含N个原始关键点之中的M(其中M<N)个关键点的预定子集,并且将HOG特征的计算限制到仅该子集。

换句话说,替代分别针对训练图像或者测试图像来计算每68个关键点的第一描述符fi1st和第二描述符fi2nd,将计算减小为仅分别计算四分之三的第一描述符fi1st和第二描述符fi2nd(两者之一)。根据诸如包含计算两个中的一个描述符的规则这样的预定规则,这样的减小的子集可以随机的获得,或者可以由操作者手动定义。

因此,这样的减小的子集允许减少分别计算(1004)第二描述符fi2nd以及获得(112)第一描述符fi1st的步骤的处理时间。

对图像的对象进行分类的设备的结构

在图1中,模块是功能单元,其可以与可区分的物理单元有关或者可以与可区分的物理单元无关。例如,这些模块或者它们中的一些可以被一起放入在单个组件或电路中,或者用于软件的功能。相反,一些组件可以潜在地包含分开的物理实体。与本公开兼容的装置可以使用纯硬件来实现,例如使用诸如ASIC或FPGA或VLSI(分别为专用集成电路、现场可编程门阵列、超大规模集成电路)这样的专用硬件,或者可以由嵌入在设备中的若干集成的电子组件或者硬件和软件组件的混合来实现。

图6表示设备600的示例性架构,设备600可以被配置为实现参照图1所描述的对对象进行分类的方法。

设备600包含由数据和地址总线601链接在一起的以下元件:

-微处理器602(或CPU),其例如为DSP(或数字信号处理器);

-ROM(或只读存储器)603;

-RAM(或随机存取存储器)604;

-I/O接口605,用于从应用传送和/或接收数据;以及

-电池606。

根据变型,电池606在设备的外部。图6的这些元件中的每个是本领域技术人员已知的,并且将不进一步描述。在每个所提及的存储器中,在说明书中所使用的措词“寄存器”可以对应于小容量(一些比特)的区域或者非常大的区域。ROM 603包含至少程序和参数。根据本公开的方法的算法存储在ROM 603中。当接通时,CPU 602将程序上载到RAM中并且执行对应的指令。

RAM 604包含寄存器中的由CPU 602执行并且在设备600接通之后上载的程序、寄存器中的输入数据、寄存器中的方法的不同状态下的中间数据以及寄存器中的被用于执行该方法的其他变量。

在本文中所描述的实现方式可以实现为例如方法或处理、装置、软件程序、数据流或信号。尽管仅在单一形式的实现方式的上下文中进行了讨论(例如,仅作为方法或设备进行了讨论),但是所讨论的特征的实现方式也可以实现为其他形式(例如程序)。装置可以实现为例如专用硬件、软件和固件。方法可以实现在例如诸如例如一般被称为处理设备的处理器(例如,包括计算机、微处理器、集成电路或可编程逻辑设备)这样的装置中。处理器还包括通信设备,诸如例如计算机、手机、便携式/个人数字助理(“PDA”)以及便于与终端用户之间进行信息通信的其他设备。

根据具体实施例,从来源获得所述当前图像。例如,来源属于包含以下的集合:

-本地存储器(603或604),例如视频存储器或RAM(或随机存取存储器)、闪速存储器、ROM(或只读存储器)、硬盘;

-存储接口,例如与海量储存器、RAM、闪速存储器、ROM、光盘或磁支承之间的接口;

-通信接口(605),例如有线接口(例如总线接口、广域网接口、局域网接口)或者无线接口(诸如IEEE 802.11接口或者接口);以及

-图片捕获电路,例如,诸如例如CCD(或电耦合器件)或CMOS(或互补金属氧化物半导体)。

根据不同的实施例,将所述设备所交付的比特流发送给目的地。作为示例,所述比特流存储在本地或远程存储器中,例如视频存储器(604)或RAM(604)、硬盘(603)。在变型中,所述比特流被发送给例如与海量储存器、闪速存储器、ROM、光盘或磁支承之间的接口这样的存储接口和/或通过例如到点对点链路、通信总线、点到多点链路或广播网络的接口这样的通信接口(605)来传送。

在本文中所描述的各种处理和特征的实现方式可以实施为各种各样的不同的设备或应用。这样的设备的示例包括所述设备、处理来自解码器的输出的后处理器、提供输入给编码器的预处理器、视频编码器、视频解码器、视频编解码器、网络服务器、机顶盒、膝上型计算机、个人计算机、手机、PDA以及用于处理图片或视频的任何其他设备或者其他通信设备。应当清楚的是,设备可以是移动的,甚至可以安装在移动车辆中。

另外,方法可以通过由处理器执行的指令来实现,这样的指令(和/或由实现方式所产生的数据值)可以存储在计算机可读存储介质上。计算机可读存储介质可以采用实施在一个或多个计算机可读介质并且在其上实施有可由计算机执行的计算机可读程序代码的计算机可读程序产品的形式。在本文中所使用的计算机可读存储介质被视为非临时性存储介质,其给出在其中存储信息的固有能力以及提供从中检索信息的固有能力。计算机可读存储介质可以是例如但不限于电子的、磁性的、光学的、电磁的、红外的或半导体系统、装置或设备或者前述的任何适合的组合。应当意识到,下面虽然提供可以应用本原理的计算机可读存储介质的更具体的示例,但是本领域技术人员容易意识到,其仅是示例性的,而不是排他性的列表:便携式计算机盘、硬盘、只读存储器(ROM)、可擦除可编程存储器(EPROM或闪速存储器)、便携式压缩盘只读存储器(CD-ROM)、光存储设备、磁存储设备或者前述的任何适合的组合。

指令可以形成有形地实施在处理器可读介质上的应用程序。

例如,指令可以在硬件中、作为固件、常驻软件、微代码等或者结合软件和硬件方面的实施例(在本文中,其通常一起被称为“电路”、“模块”或“系统”)。

当本原理由一个或多个硬件组件实现时,可以注意到,硬件组件包含处理器,处理器是诸如中央处理单元这样的集成电路和/或微处理器和/或专用集成电路(ASIC)和/或专用指令集处理器(ASIP)和/或图形处理单元(GPU)和/或物理处理器(PPU)和/或数字信号处理器(DSP)和/或图像处理器和/或协处理器和/或浮点单元和/或网络处理器和/或音频处理器和/或多核处理器。而且,硬件组件还可以包含基带处理器(例如包含存储单元和固件)和/或无线电电子电电路(可以包含天线),其接收或传送无线电信号。在一个实施例中,硬件组件与诸如ISO/IEC 18092/ECMA-340、ISO/IEC 21481/ECMA-352、GSMA、StoLPaN、ETSI/SCP(智能卡平台)、GlobalPlatform(亦即安全元件)这样的一个或多个标准兼容。在变型中,硬件组件是射频标识(RFID)标签。在一个实施例中,硬件组件包含允许蓝牙通信和/或Wi-fi通信和/或Zigbee通信和/或USB通信和/或Firewire通信和/或NFC(近场)通信的电路。

此外,本原理的方面可以采用计算机可读存储介质的形式。可以利用一个或多个计算机可读介质的任何组合。

因此,例如,本领域技术人员将意识到,在本文中所呈现的框图表示实施本公开的原理的示例性系统组件和/或电路的概念视图。类似地,应当意识到,任何流程图、流程图表、状态转换图、伪代码等表示可以实质上表示在计算机可读存储介质中并且因此可以由计算机或处理器执行的各种处理,无论这样的计算机或处理器是否显式地示出。

对于本领域技术人员显而易见的是,实现方式可以产生被格式化以携带可以例如被存储或传送的信息的各种信号。信息可以包括例如用于执行方法的指令或者由所描述的实施方式之一所产生的数据。例如,信号可以格式化为携带用于写入或读所描述的实施例的语法的规则作为数据,或者携带所描述的实施例所写入的实际的语法值作为数据。这样的信号例如可以格式化为电磁波(例如使用频谱的射频部分)或者基带信号。格式化可以包括例如对数据流进行编码以及用经编码的数据流来调制载波。信号所携带的信息可以是例如模拟或数字信息。信号可以通过已知的各种不同的有线或无线链路来传送。信号可以存储在处理器可读介质上。

已经描述了许多实现方式。然而,应当理解的是,可以做出各种修改。例如,不同实现方式的元件可以组合、补充、修改或移除以产生其他实现方式。另外,本领域技术人员将理解到,其他结构和处理可以替代所那些,并且所得到的实现方式将以与所公开的实现方式至少基本相同的方式执行与所公开的实现方式至少基本相同的功能以得到与所公开的实现方式至少基本相同的结果。因此,本申请想到了这些以及其他实现方式。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1