人的检测方法及设备与流程

文档序号:12365383阅读:179来源:国知局
人的检测方法及设备与流程
本公开总体涉及图像处理,具体涉及人的检测方法及设备。
背景技术
:人的检测在机器视觉领域的研究已经进行了很长时间,虽然取得了很大突破,但还是一直无法满足实用要求。一个重要的原因就是在拥挤的环境下,许多现有的检测方法的检测效果会由于遮挡而大幅下降。统计显示,在非拥挤的正常场景下,人的检出率能够达到95%,而在拥挤的场景下,人的检出率往往不足70%。针对拥挤环境下检测效果不佳的问题,目前已经进行了一些研究,并提出了一些解决方案。一类主要的解决方案是采用可变形部分模型(DeformablePartsModel)进行检测,其核心思想是按照人体的各个部分分别进行训练和检测。例如,作为该类解决方案的一个示例,在PAMI2012年的文章“Example-basedobjectdetectioninimagesbycomponents”中,A.Mohan提出了一种2阶段的方法,该方法分别训练头、胳膊和腿的检测器,然后利用各个检测器,判断粗检测到的结果是否匹配对应的模式。尽管此类方法对遮挡较为鲁棒,但是当检测场景是训练集中不包含的场景时,检测性能会下降。另一类解决方案是基于回归的密度估计方法。例如,作为该类解决方案的一个示例,WenhuaMa在2008发表的“AdvancedLocalBinaryPatternDescriptorsforCrowdEstimation”文章中通过学习图像底层特征和人群密度的映射来估计人数。然而,此类方法只能进行人群密度的估计,而无法获得人的位置信息。技术实现要素:鉴于以上问题而提出了本公开。具体而言,本公开的目的在于提出一种人的检测技术,该技术即使在检测范围内各区域的拥挤程度不同从而导致各区域的人体遮挡程度不同的情况下,也能够较为准确地检测出各个人。根据本公开的一个方面的实施例,提供了一种人的检测方法,包括:在包含待检测的人的高度顶视图中,进行初始的人的检测;将所述高度顶视图划分为一个或多个区域,并估计每个区域中的人群密度;根据所述人群密度,确定每个区域中初始检测到的人的可见区域;对于每一个初始检测到的人,分别从所述高度顶视图和与该高度顶视图对应的灰度或彩色图中提取该人的第一梯度特征和第二梯度特征;对于每一个初始检测到的人,基于所提取的第一梯度特征和第二梯度特征,利用预先建立的、与所确定的该人的可见区域对应的分类器,确定该初始检测到的人的置信度;根据所述置信度,对初始的人的检测结果进行修正。根据本公开的另一个方面的实施例,提供了一种人的检测设备,包括:初始检测单元,配置为在包含待检测的人的高度顶视图中,进行初始的人的检测;密度估计单元,配置为将所述高度顶视图划分为一个或多个区域,并估计每个区域中的人群密度;可见区域确定单元,配置为根据所述人群密度,确定每个区域中初始检测到的人的可见区域;特征提取单元,配置为对于每一个初始检测到的人,分别从所述高度顶视图和与该高度顶视图对应的灰度或彩色图中提取该人的第一梯度特征和第二梯度特征;置信度确定单元,配置为对于每一个初始检测到的人,基于所提取的第一梯度特征和第二梯度特征,利用预先建立的、与所确定的该人的可见区域对应的分类器,确定该初始检测到的人的置信度;修正单元,配置为根据所述置信度,对初始的人的检测结果进行修正。根据本公开实施例的人的检测技术根据不同的拥挤程度采用诸如头部分类器、头-肩分类器和完整身体分类器等不同的分类器对初始检测结果进行修正,从而不仅在人群拥挤导致人体相互遮挡的情况下能够较为准确地检测出各个人,而且在检测范围内各区域的拥挤程度不同从而导致各区域的人体遮挡程度不同的情况下,针对每个区域都能获得较好的检测结果。附图说明通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或 步骤。图1示出了根据本公开实施例的人的检测方法的流程图;图2A和2B分别例示了拍摄得到的某一场景的灰度图、以及在与和该灰度图对应的高度顶视图中执行初始的人的检测得到的检测结果;图3例示了基于回归的方法将高度顶视图划分为一个或多个区域并估计每个区域中的人群密度的处理的流程图。图4(a)示意性地示出了三种示例性的人群排布场景;图4(b)示出了与图4(a)中所示的人群排布场景对应的高度顶视图;图4(c)示出了从图4(b)中所示的高度顶视图中提取LBP特征的结果。图5例示了对于一个初始检测到的人从高度顶视图和对应的灰度或彩色图中提取该人的第一梯度特征和第二梯度特征的处理的流程图。图6例示了在高度顶视图中初始检测到的人在对应的灰度或彩色图中的外接矩形框。图7示出了根据本公开实施例的人的检测设备的功能配置框图。图8示出了根据本公开实施例的人的检测系统的总体硬件框图。具体实施方式下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。首先对本公开中涉及的技术术语进行简单的介绍。众所周知,灰度图是一种具有从黑到白多个灰度色域或多个灰度等级的单色图像。该图像中的每个像素通常用8位数据表示,这样该图像可以有256种灰度。而彩色图则是每个像素通常是由红(R)、绿(G)、蓝(B)三个分量来表示的,分量介于0到255之间。尽管如此,灰度图和彩色图的形成方式和主要功能都是类似的(用来表示颜色信息)。因此,虽然在下文中对本公开技术方案的描述中采用灰度图,但是将灰度图替换为彩色图也是完全可以的。深度图是图像中每一像素点的值表示场景中某一点与摄像机之间的距离的图像。相比于灰度图(彩色图),深度图具有物体的深度(距离)信息,因 此适合于需要立体信息的各种应用。顶视图是由物体上方向下做正投影得到的视图,也叫俯视图。顶视图包括面积顶视图、高度顶视图等多种类型。在本公开中,如无特别说明,顶视图特指高度顶视图,即以空间中的最高点的高度值作为顶视图对应位置的像素值。在高度顶视图上具体表现为:空间中最高点的高度越高,像素值越大,亮度越亮。下面参考图1对根据本公开实施例的人的检测方法进行描述。图1示出了根据本公开实施例的人的检测方法的流程图。如图1所示,在步骤S110,在包含待检测的人的高度顶视图中,进行初始的人的检测。所述包含待检测的人的高度顶视图可以通过本领域中任何已有的方法获得。例如,一种常用的方法是先通过坐标转换将拍摄得到的包含待检测的人的深度图中的各个像素在图像坐标系中的坐标转换为世界坐标系中的坐标,然后将转换得到的世界坐标系中的各个像素点映射到高度顶视图中,由此得到包含待检测的人的高度顶视图。可以通过本领域中任何已有的方法在包含待检测的人的高度顶视图中进行初始的人的检测。例如,可以采用基于连通域分析(CCA)分割的方法、模板匹配法等本领域中的常见方法。作为示例,MichaelHarville在2003年发表的"StereoPersonTrackingwithAdaptivePlan-ViewTemplatesofHeightandOccupancyStatistics"中给出了一种在高度顶视图中进行人的检测的具体实现方法。需要说明的是,无论采用哪种方法,需将对应的检测阈值调低,从而避免漏检,以达到更高检出率的技术效果。例如,如果采用基于CCA分割的方法,需将作为检测阈值的分割块的大小设为较小的值,如果采用模板匹配法,需将作为检测阈值为相似度设为较小的值。相应地,由于将对应的检测阈值调低而带来的高误检率将通过下文中介绍的后续步骤来抑制。图2A和2B分别例示了拍摄得到的某一场景的灰度图,以及在与和该灰度图对应的高度顶视图中执行该步骤中的初始的人的检测得到的检测结果。在步骤S120,将所述高度顶视图划分为一个或多个区域,并估计每个区域中的人群密度。该步骤可以通过本领域中任何已有的方法来实现。作为一种示例,可以采用基于聚类的方法。图2C示出了对如图2B所示的初始检测到的人进行聚 类的示意性结果,其中用圆圈例示了两个聚类结果。可以采用诸如K-MEANS算法、CLARANS算法、BIRCH算法、CURE算法等本领域中各种公知的聚类算法对初始检测到的人进行聚类。在本实施例中,作为示例,采用lexRodriguez和AlessandroLaio发表在2014年6月份的《Science》期刊中的文章“Clusteringbyfastsearchandfindofdensitypeak”中描述的聚类算法进行聚类。在该基于聚类的方法中,可以将聚类得到的各个聚类区域作为划分高度顶视图得到的一个或多个区域,并且对于其中的每个区域,如表达式(1)所示,估计该区域中的人群密度:R=N/A…(1)其中,N为根据步骤S110的初始检测结果确定的该区域中初始检测到的人的数目,A为该区域的面积。作为另一种示例,可以采用基于回归的方法来执行该步骤。基于回归的方法包含多种具体的实现算法,此处可以采用任何适当的具体实现算法。在本实施例中,作为示例,采用本发明人在另一中国专利申请No.201410645077.4中提出的基于LBP特征的回归方法。下面,为了描述的完整性,将参考图3对该方法进行简单的概述。如图3所示,在步骤S1201中,将高度顶视图划分为预定大小的区域。所述预定大小可以根据人群拥挤程度和经验值来预先设定,例如可以是边长为1米或2米的正方形区域等等。作为一种极端情况,也可以将整个高度顶视图作为一个区域。当然,高度顶视图并非必须划分为相等大小的区域,根据实际需要,也可以划分为不同大小的区域。在步骤S1202,对于每个区域,提取LBP特征,以表示该区域内各像素之间的高度差分布。具体的,在该步骤中,对于每个区域中的每一个像素执行以下处理:(S1)确定以该像素P为中心,距离该像素P预定距离的各个邻域像素J;(S2)对该像素P的像素值和每个邻域像素J的像素值进行比较;(S3)如表达式(2)所示来为各邻域像素分配1或0值:其中,g(J)是为邻域像素J分配的值,h(P)和h(J)分别是中心像素P和邻域像素J在高度顶视图中的像素值。T和Hmin是根据人体的头肩模型预先设定的阈值。具体的,由于人体固有的比例,因此在俯视人的头肩时,其外观具有中间高(头的部分),两边低(肩的部分)的一般规律。此处,T表示人体头部的最高点与肩部的最高点之间的高度差,Hmin表示人体肩部的最高点距地面的距离。由于如表达式(2)所示提取LBP特征时应用了人体的头肩模型,因此能够更好地表征人体,进而能够更准确地检测出人群密度。(S4)将由各个所述邻域像素J的值组成的二进制编码作为所述像素P的LBP编码。需要说明的是,传统LBP特征是在灰度图中提取的,因而反映的是中心像素与邻域像素之间灰度值的差异,而在该步骤中则是在高度顶视图中提取的,其反映的是中心像素与邻域像素之间的高度值的差异。另外,该处理(S4)中最基本的方式是直接将由各个邻域像素J的值顺序排列组成的二进制编码作为像素P的LBP编码。然而,按照这一方式,每种二进制编码经旋转(循环位移)后会产生不同的结果。换句话说,如果图像发生旋转,对于相同的人群排布,LBP编码将会是不同的,这会对人群密度的检测结果造成不利影响。因此,可选的,可以如表达式(3)所示对所述顺序排列组成的二进制编码进行旋转不变处理,并将经过该旋转不变处理的二进制编码作为所述像素P的LBP编码。LBPP,R=min{ROR(LBPP,R,i))|i=0,1,...,P-1}…(3)其中P为二进制编码的长度,也就是中心像素P周围的邻域像素J的个数,此处假设P=8;R是邻域半径,即各个邻域像素J距离中心像素P的距离,此处假设R=2;ROR是循环位移指令,比如ROR(11000000,1)=10000001。通过如表达式(3)所示的旋转不变处理,具有同一编码模式的各个二进制编码统一为同一个编码结果,即该编码模式的旋转结果中的最小值。例如,对于两个二进制编码“10011110”和“11110100”,其具有同一编码模式,这两个二进制编码旋转不变处理后的结果均为“00111101”。经过该旋转不变处理,二进制编码具有旋转不变性,从而理论上不论人的朝向如何,对人群密度的 检测结果都是相同,即人群密度的检测具有鲁棒性。当二进制编码的长度为8时,最多有256种不同的二进制编码,而通过如表达式(3)所示的旋转不变处理后,则最多有36种不同的二进制编码,其对应的十进制数值如下所示:{LBPP,R}={0,1,3,5,7,9,11,13,15,17,19,21,23,25,27,29,31,37,39,43,45,47,51,53,55,59,61,63,85,87,91,95,111,119,127,255}在步骤S1203,根据所述LBP特征,利用通过统计学习方法预先建立的密度模型检测出每个区域中的人数。在该步骤中,首先对每个区域中各个像素的LBP编码进行分类,以将相同的LBP编码分类到同一类中,并确定各类LBP编码中各自包含的LBP编码的数量。作为一种示例性的统计结果表示方式,对于每个区域,可以将该区域中LBP编码的种类以及各类LBP编码中各自包含的LBP编码的数量用一个多维数组来表示,其中数组中的每个元素代表一种LBP编码,元素的值则代表该种LBP编码出现的次数。进行分类的LBP编码可以是直接由各个邻域像素的值顺序排列组成的二进制编码,也可以是该顺序排列的二进制编码进行旋转不变处理后得到的二进制编码。此处,采用旋转不变处理后得到的二进制编码。在对一个区域中各个像素的LBP编码进行分类统计后,针对分类得到的LBP编码的种类以及各类LBP编码中各自包含的LBP编码的数量,应用预先建立的密度模型,计算出该区域中的人数。所述预先建立的密度模型是以LBP编码的种类和各类LBP编码中各自包含的LBP编码的数量作为自变量,以预先统计的与所述自变量的各种取值对应的单元格内的实际人数为因变量,利用统计学习方法训练得到的。下面参考图4(a)-(c)举例对此进行说明。图4(a)例示了包含2个人、5个人、12个人的三种示例性的人群排布场景;图4(b)示出了与图4(a)中所示的人群排布场景对应的高度顶视图;图4(c)示出了从图4(b)中所示的高度顶视图中提取LBP特征的结果。对于图4(c)中的每幅LBP特征提取结果图,如上文中所述对其中的各个像素的LBP编码进行分类统计,以统计出其中共包括多少种不同的LBP 编码,以及每种不同的LBP编码各自包括多少个LBP编码,或者说每种不同的LBP编码分别出现了多少次。由此,可以得到分别与2个人、5个人、12个人的人群密度对应的LBP编码的种类和各类LBP编码中各自包含的LBP编码的数量,作为训练样本。类似的,可以对于更多的其他人群密度,统计出与其对应的LBP编码的种类和各类LBP编码中各自包含的LBP编码的数量,作为训练样本。当获得一定数量的训练样本后,可以以LBP编码的种类和各类LBP编码中各自包含的LBP编码的数量作为自变量,以与其对应的人群密度(即人数)为因变量,利用各种适当的统计学习方法训练得到密度模型。所述密度模型描述了人群密度与对应的LBP编码的种类和各类LBP编码中各自包含的LBP编码的数量之间的对应关系。因此,在对某一区域中各个像素的LBP编码进行分类统计后,通过应用该密度模型就可以得到与分类统计出的LBP编码的种类以及各类LBP编码中各自包含的LBP编码的数量所对应的人群密度。在步骤S1204,对于每个区域,基于该区域中检测出的人数和该区域的面积,计算得到人群密度。在步骤中,可以如表达式(4)所示,计算出每个区域中的人群密度R=N/A…(4)其中,N为在步骤S1203中检测出的每个区域中的人数,A为该区域的面积。以上以采用基于聚类的方法和采用基于回归的方法为例对步骤S120中的处理进行了描述,应当理解,上述方法仅仅是为了便于理解本公开而给出的示例,而并非是对本公开的限制,本领域技术人员可以采用本领域中任何已有的其他方法来执行步骤S120中的处理。回到图1,在步骤S130,根据所述人群密度,确定每个区域中初始检测到的人的可见区域。能够理解,人群密度越大,人与人之间的遮挡相应地越严重,人的可见区域也就越少。作为一种示例,假设当人群密度为高密度等级时,人与人之间发生严重遮挡,仅人的头部区域可见;当人群密度为中密度等级时,人与人之间的遮挡稍轻,人的头-肩区域可见;当人群密度为低密度等级时,人与人之间几乎无遮挡,整个人的身体区域都是可见的。针对上面的假设,在该步骤中,对于每个区域,将该区域的人群密度与第一阈值和第二阈值进行比较(第一阈值大于第二阈值);如果人群密度大于等于第一阈值,则确定该区域中初始检测到的人的可见区域为头部区域;如果人群密度小于第一阈值并且大于等于第二阈值,则确定该区域中初始检测到的人的可见区域为头-肩区域;如果人群密度小于第二阈值,则确定该区域中初始检测到的人的可见区域为完整区域。所述第一阈值是划分高密度等级和中密度等级的阈值,第二阈值是划分中密度等级和低密度等级的阈值,其大小可以根据检测要求等具体情况来设定,例如作为示例,第一阈值为2人/m2,第二阈值为0.75人/m2。当然,将人群密度划分为上述高、中、低三个密度等级仅仅是一个示例,将人群密度划分为更多或更少的密度等级都是可以的。例如,可以将人群密度划分为四个密度等级,其中除了所述高、中、低密度等级之外还包括人的上半身区域可见的中下密度等级。另一方面,上述各个密度等级中人的可见区域的假设也仅仅是一个示例,也可以采用其他假设。例如,可以将人群密度仅划分为高、中两个密度等级,并且假设在高密度等级下,仅人的头部区域可见,在中密度等级下,人的上半身区域可见。在步骤S140,对于每一个初始检测到的人,分别从所述高度顶视图和与该高度顶视图对应的灰度或彩色图中提取该人的第一梯度特征和第二梯度特征。从高度顶视图和对应的灰度或彩色图中分别提取人的第一梯度特征和第二梯度特征的目的是获取人的深度梯度信息和颜色梯度信息两者。至于第一梯度特征和第二梯度特征具体采用哪种特征,本公开对此不做限制,本领域技术人员可以根据具体情况采用诸如LBP特征、haar特征、harris特征、HOG特征等各种适当的特征。在本实施例中,作为示例,采用LBP直方图作为第一梯度特征,采用HOG特征作为第二梯度特征。下面将参考图5对该步骤的处理进行详细描述。图5例示了对于某一个初始检测到的人从高度顶视图和对应的灰度或彩色图中提取该人的第一梯度特征和第二梯度特征的处理的流程图。也就是说,在该步骤S140中,对于每一个初始检测到的人,都将执行如图5所例示的处理。如图5所示,在步骤S1401,从高度顶视图中包含有该初始检测到的人的区域中,提取第一梯度特征。如前所述,在步骤S120中已将高度顶视图划分为一个或多个区域,在该步骤S1401中,将从包含有该初始检测到的人的区域中提取第一梯度特征。例如,如果在步骤S120中通过聚类将高度顶视图划分为一个或多个聚类区域,则在该步骤中将从包含该初始检测到的人的聚类区域中提取第一梯度特征;如果在步骤S120中将高度顶视图划分预定大小的区域,则在该步骤中将从包含该初始检测到的人的某一预定大小的区域中提取该第一梯度特征。如前面提到的,在本实施例中,采用LBP直方图作为第一梯度特征。直方图是一种统计报告图,其采用一系列高度不等的纵向条纹或线段表示数据分布的情况。通常,横轴表示数据类型,纵轴表示分布情况。作为示例,可以基于上文中提到的LBP编码的多维数组表示来形成LBP直方图,即直方图的横轴表示所述区域中的各种LBP编码,纵轴则表示该区域中每种LBP编码出现的次数。其中,LBP编码可以是直接由各个邻域像素的值顺序排列组成的二进制编码,也可以是该顺序排列的二进制编码进行旋转不变处理后得到的二进制编码。需要说明的是,采用LBP直方图作为第一梯度特征并非仅限于在步骤S120中将高度顶视图划分预定大小的区域的情形,其对于通过聚类将高度顶视图划分为一个或多个聚类区域的情形或通过其他方式划分高度顶视图的情形也同样适用。在步骤S1402,基于该初始检测到的人的最高点在高度顶视图中的位置和像素值,通过坐标转换,确定该初始检测到的人在所述对应的灰度或彩色图中的位置及完整的该初始检测到的人的外接矩形框。如何基于初始检测到的人在高度顶视图中的位置信息,通过坐标转换得到该人在对应的灰度或彩色图中的位置信息是本领域中公知的。此处,为了说明的完整,对该坐标转换处理简单描述如下。已知初始检测到的人的最高点(头顶)在高度顶视图中的位置和像素值H,可以通过公知的坐标转换得到该最高点在相机坐标系中的位置坐标(X,Y,Z),继而可以根据如下的表达式(5),以计算出该最高点在灰度或彩色图像中的位置:HEAD_X=X/(Z/fx)+centerU;HEAD_Y=Y/(Z/fy)+centerV;…(5)其中HEAD_X和HEAD_Y表示人的最高点(头顶)在灰度或彩色图像中的 像素位置,fx,fy,centerU和centerV是相机固有的内参。另外,可以通过如下的表达式(6)-(8),计算出该初始检测到的人最低点(脚底)在灰度或彩色图像中的像素位置:XWYWZW=RXYZ+T...(6)]]>其中,R和T是相机的外参矩阵,(X,Y,Z)表示人的最高点在相机坐标系中的位置,(XW,YW,ZW)表示该最高点在X-Z平面与地面重合、Y轴与地面垂直的世界坐标系中的位置。能够理解,YW表示该人在真实世界中的高度。XCYCZC=RT(XW0ZW-T)...(7)]]>其中,(XW,0,ZW)表示该初始检测到的人的最低点在所述世界坐标系中的位置,(XW,YW,ZW)表示该人的最低点在相机坐标系中的位置。FOOT_X=Xc/(Zc/fx)+centerU;FOOT_Y=Yc/(Zc/fy)+centerV;…(8)其中,FOOT_X和FOOT_Y表示该人的最低点(脚底)在灰度或彩色图中的像素位置,fx,fy,centerU和centerV是相机固有的内参。需要说明的是,由于人的遮挡,该最低点在灰度或彩色图可能并不可见,此时,所计算出的FOOT_X和FOOT_Y是当未被遮挡时,该最低点理论上应该在灰度或彩色图中的像素位置。由此,通过上述HEAD_X和HEAD_Y以及FOOT_X和FOOT_Y可以确定出该人在对应的灰度或彩色图中的位置。为了便于在图中进行表示,可以如表达式(9)所示计算出该人在灰度或彩色图中的外接矩形框的大小,以通过该外接矩形框来表示该人:w=BODY_W*fx/Zh=FOOT_Y-HEAD_Y…(9)其中BODY_W是真实人的身体宽度的常量,例如,通常可以设定BODY_W=40cm;fx是相机内参之一。能够理解,由于人的遮挡,此时外接 矩形框框出的可能并非是该人完整的身体部分,而是有可能框入了其他人的身体部分。图6例示了在高度顶视图中初始检测到的人在对应的灰度或彩色图中的外接矩形框。具体的,图6最左侧的图为高度顶视图,中间的图和右侧的图均为对应的灰度图。其中,中间的图中的矩形框为该初始检测到的人的外接矩形框,如图中所示,由于人的遮挡,此时外接矩形框框入了其他人的身体部分。在步骤S1403,确定所述外接矩形框与该初始检测到的人的可见区域对应的部分。如前所述,由于人的遮挡,步骤S1402确定的外接矩形框可能框入了其他人的身体部分。在该步骤将通过确定外接矩形框与初始检测到的人的可见区域对应的部分,来调整该外接矩形框,从而使得其中仅框入该初始检测到的人。例如,假设该初始检测到的人的可见区域部分是头-肩区域,并且根据人的平均身体比例可知头-肩的高度约为人的身高的24%,由此可以确定外接矩形框与该可见区域对应的部分为该外接矩形框的上部24%的区域。再比如,假设初始检测到的人的可见区域部分是头部区域,并且根据人的平均身体比例可知头的高度约为人的身高的1/8,由此可以确定外接矩形框与该可见区域对应的部分为该外接矩形框的上部1/8的区域。例如,图6最右侧的图中的矩形框例示了当人的可见区域是头-肩区域时,所述外接矩形框与该可见区域对应的部分。在步骤S1404,从对应的灰度或彩色图中的外接矩形框的对应的部分中,提取第二梯度特征。如前面提到的,在本实施例中,采用HOG(方向梯度直方图)特征作为第二梯度特征。则在该步骤中,从通过步骤S1403确定的外接矩形框的对应的部分中提取该HOG特征。HOG特征是图像处理领域公知的图像特征,从图像中提取HOG特征也是常用的图像处理手段,此处不再赘述。回到图1,在步骤S150,对于每一个初始检测到的人,基于所提取的第一梯度特征和第二梯度特征,利用预先建立的、与所确定的该人的可见区域对应的分类器,确定该初始检测到的人的置信度。所述分类器是采用所述第一梯度特征和第二梯度特征预先训练得到的。如何针对选定的图像特征来训练分类器是本领域中公知的,此处不再赘述。 需要说明的是,在本实施例中,分别针对人的不同的可见区域训练对应的分类器。例如,如果预先设定人的可见区域分为三种:头部区域、头-肩区域和完整区域,则分别利用人的可见区域为头部区域的训练样本训练得到与人的头部区域对应的分类器,利用人的可见区域为头-肩区域的训练样本训练得到与人的头-肩区域对应的分类器,以及利用人的可见区域为完整区域的训练样本训练得到与人的完整区域对应的分类器。当然,如果采用不同的可见区域划分方法,则相应地训练出与通过该划分方法确定的各种可见区域对应的分类器。例如,如果预先设定人的可见区域分为头部区域和上半身区域两种,则相应地训练出与人的头区域对应的分类器和与人的上半身区域对应的分类器。在训练得到分类器后,对于每一个初始检测到的人,可以基于分类器针对第一梯度特征和第二梯度特征给出的相似度分值确定该人的置信度。此处,置信度表示每一个初始检测到的人确实是待检测的人(即正确检测)的可信程度,显然,如果分类器给出的相似度分值越高,则该初始检测到的人是正确检测的可信程度应该越高,即置信度越大。具体的,作为示例,在该步骤中,对于每一个初始检测到的人,将针对该人提取的第一梯度特征和第二梯度特征作为输入放到与所确定的该人的可见区域对应的分类器中,并将分类器给出的相似度分值作为该初始检测到的人的置信度p(x)。在步骤S160,根据所述置信度,对初始的人的检测结果进行修正。在该步骤中,可以采用任何适当的方式根据所述置信度对初始的人的检测结果进行修正。例如,作为一种最基本的方法,可以将每个初始检测到的人的置信度与置信度阈值进行比较,如果置信度大于等于置信度阈值,则确定初始检测到的人是待检测的人(即正确检测),如果置信度小于置信度阈值,则确定初始检测到的人是误检。作为示例,可以如表达式(10)所示根据置信度对初始的人的检测结果进行修正其中,x=1表示该初始检测结果是正确结果,即该初始检测到的人是待检测到的人,否则判定该初始检测结果为误检。ThresholdC是置信度阈值,其可 以根据具体需要来设定,例如可以设定ThresholdC=0.75。可选的,考虑到检测结果的正确性与前面的步骤S120中对每个区域中的人群密度的估计结果有关,因此可以同时考虑各区域中的人群密度和置信度进行修正。具体的,对于每个所述区域,可以通过求解如表达式(11)表示的优化问题来获得修正的人的检测结果:minXi∈{0,1}(D-||X||-X′×p(X))...(11)]]>其中D表示在前面的步骤S120中采用基于回归的方法估计出的该区域中的人群密度,X为该区域中检测到的人的向量表示,其初始值为该区域中初始检测到的人的向量表示,Xi为向量X中的第i个元素,p(X)为该区域中初始检测到的人的置信度向量。例如,假设在某一区域中初始检测到3个人,并且这3个人的置信度分别为0.9,0.7和0,2,则初始时向量X=111,]]>向量p(X)=0.90.70.2]]>上述表达式(11)中的第一项D-||X||的优化目标为减少密度等级的估计和人的检测结果之间的差别;第二项X′×p(X)的优化目标为保留高置信度的初始的人的检测结果。通过求解如表达式(11)表示的优化问题,得到X的最优解,作为修正的人的检测结果。该表达式(11)可以通过诸如贪婪算法迭代求解等各种适当的方式来求解,此处不再赘述。以上已经参考附图描述了根据本公开实施例的人的检测方法。在该方法中,根据不同的拥挤程度采用诸如头部分类器、头-肩分类器和完整身体分类器等不同的分类器对初始检测结果进行修正,从而不仅在人群拥挤导致人体相互遮挡的情况下能够较为准确地检测出各个人,而且在检测范围内各区域的拥挤程度不同从而导致各区域的人体遮挡程度不同的情况下,针对每个区域都能获得较好的检测结果。下面参考图7描述根据本公开实施例的人的检测的设备。图7示出了根据本公开实施例的人的检测设备的功能配置框图。如图7所示,人的检测设备700可以包括:初始检测单元710,配置为在包含待检测的人的高度顶视图中,进行初始的人的检测;密度估计单元720,配置为将所述高度顶视图划分为一个或多个区域,并估计每个区域中的人群密度;可见区域确定单元730,配置为根据所述人群密度,确定每个区域中初始检测到的人的可见区域;特征提取单元740,配置为对于每一个初始检测到的人,分别从所述高度顶视图和与该高度顶视图对应的灰度或彩色图中提取该人的第一梯度特征和第二梯度特征;置信度确定单元750,配置为对于每一个初始检测到的人,基于所提取的第一梯度特征和第二梯度特征,利用预先建立的、与所确定的该人的可见区域对应的分类器,确定该初始检测到的人的置信度;以及修正单元760,配置为根据所述置信度,对初始的人的检测结果进行修正。可选的,所述可见区域确定单元730进一步包括:比较单元,配置为将该区域的人群密度与第一阈值和第二阈值进行比较,所述第一阈值大于第二阈值;确定单元,配置为如果人群密度大于等于第一阈值,则确定该区域中初始检测到的人的可见区域为头部区域;如果人群密度小于第一阈值并且大于等于第二阈值,则确定该区域中初始检测到的人的可见区域为头-肩区域;如果人群密度小于第二阈值,则确定该区域中初始检测到的人的可见区域为完整区域。可选的,所述特征提取单元740进一步包括:第一特征提取单元,配置为从高度顶视图中包含有该初始检测到的人的区域中,提取第一梯度特征;位置确定单元,配置为基于该初始检测到的人的最高点在高度顶视图中的位置和像素值,通过坐标转换,确定该初始检测到的人在所述对应的灰度或彩色图中的位置及完整的该初始检测到的人的外接矩形框;位置调整单元,配置为确定所述外接矩形框与该初始检测到的人的可见区域对应的部分;第二特征单元,配置为提取从对应的灰度或彩色图中的外接矩形框的对应的部分中,提取第二梯度特征。可选的,所述置信度确定单元750采用的分类器是采用所述第一梯度特征和第二梯度特征训练得到的,所述分类器包括与人的头部区域对应的分类器、与人的头肩区域对应的分类器和与人的完整区域对应的分类器。上述初始检测单元710、密度估计单元720、可见区域确定单元730、特征提取单元740、置信度确定单元750、修正单元760、比较单元、确定单元、 第一特征提取单元、位置确定单元、位置调整单元、第二特征单元的具体功能和操作可以参考上述图1到图6的相关描述,此处不再重复描述。下面参考图8描述根据本公开实施例的人的检测系统800的总体硬件框图。如图8所示,人的检测系统800可以包括:输入设备810,用于从外部输入有关图像或信息,例如摄像机拍摄的深度图、灰度图(彩色图)等,该输入设备例如可以是键盘、鼠标、摄像机等等;处理设备820,用于实施上述的按照本公开实施例的人的检测方法,或者实施为上述的人的检测设备,该处理设备例如可以是计算机的中央处理器或其它的具有处理能力的芯片等等;输出设备830,用于向外部输出实施上述检测过程所得到的结果,例如检测到的人的位置等等,该输出设备例如可以是显示器、打印机等等;以及存储设备840,用于以易失或非易失的方式存储上述人的检测过程涉及的诸如深度图、灰度图(彩色图)、初始的人的检测结果、各区域的人群密度、初始检测到的人的可见区域、各种阈值、第一梯度特征、第二梯度特征、各种预先训练好的分类器、置信度等等,该存储设备例如可以是随机存取存储器(RAM)、只读存储器(ROM)、硬盘、或半导体存储器等等的各种易失或非易失性存储器。以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。本公开中的步骤流程图以及以上方法描述仅作为例示性的例子并且不意图要求或暗示必须按照给出的顺序进行各个实施例的步骤,某些步骤可以并行、彼此独立或按照其他适当的顺序执行。另外,诸如“其后”、“然后”、“接 下来”等等的词语不意图限制步骤的顺序;这些词语仅用于引导读者通读这些方法的描述。另外,如在此使用的,在以“至少一个”开始的项的列举中使用的“或”指示分离的列举,以便例如“A、B或C的至少一个”的列举意味着A或B或C,或AB或AC或BC,或ABC(即A和B和C)。此外,措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。还需要指出的是,在本公开的装置和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。对本领域的普通技术人员而言,能够理解本公开的方法和装置的全部或者任何部分,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现。所述硬件可以是利用被设计用于进行在此所述的功能的通用处理器、数字信号处理器(DSP)、ASIC、场可编程门阵列信号(FPGA)或其他可编程逻辑器件(PLD)、离散门或晶体管逻辑、离散的硬件组件或者其任意组合。通用处理器可以是微处理器,但是作为替换,该处理器可以是任何商业上可获得的处理器、控制器、微控制器或状态机。处理器还可以实现为计算设备的组合,例如DSP和微处理器的组合,多个微处理器、与DSP核协作的一个或多个微处理器或任何其他这样的配置。所述软件可以存在于任何形式的计算机可读的有形存储介质中。通过例子而不是限制,这样的计算机可读的有形存储介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储或其他磁存储器件或者可以用于携带或存储指令或数据结构形式的期望的程序代码并且可以由计算机访问的任何其他有形介质。如在此使用的,盘包括紧凑盘(CD)、激光盘、光盘、数字通用盘(DVD)、软盘和蓝光盘。本公开的智能控制技术还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。本公开的智能技术也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现,或者通过存储有这样的程序产品的任意存储介质来实现。可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外,本公开的权利要求的范围不限于以上所述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当 前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而,所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1