一种用于拥挤场景下的多个行人检测方法

文档序号:6371148阅读:459来源:国知局
专利名称:一种用于拥挤场景下的多个行人检测方法
技术领域
本发明涉及一种检测方法,尤其是一种用于拥挤场景下的多个行人检测方法,属于图像处理与模式识别的技术领域。
背景技术
真实场景中的行人检测问题在诸多计算机视觉应用中占有重要的地位,例如视频监控和辅助驾驶系统等,同时鲁棒的行人检测也是提高其它智能视频分析技术的先决条件
之一 O传统的行人检测方法大体可分为两类第一类是基于模板匹配的方法,首先训练一个分类器,然后在待检测的图像中使用不同尺度的搜索窗口对整个图像进行滑框检测, 判断滑框内是否包含了一个行人;第二类采用霍夫投票方法,使用隐形状模型(ImplicitShape Mode I,I SM ),利用表象特征以及与目标中心的空间关系来训练一个视觉字典,将图像通过霍夫变换获取其在霍夫空间上的分布,并在霍夫空间上进行投票,从而对行人进行检测。以上两种传统方法在普通场景下表现良好,但是在拥挤场景下,由于人与人之间的严重遮挡和复杂的空间关系,不能达到令人满意的效果。

发明内容
本发明的目的是克服现有技术中存在的不足,提供一种用于拥挤场景下的多个行人检测方法,其提高检测精度,适应范围广。按照本发明提供的技术方案,一种用于拥挤场景下的多个行人检测方法,所述多个行人检测方法包括如下步骤a、输入含有多个训练样本图像的训练集,自动将训练样本图像中行人分成若干子类,每个子类对应一种行人变化;b、基于分块模型,每一个分块有相应的表象分数,并对每一子类设置对应的权重向量,以建立训练集上的行人表象特征模型,C、利用二次核函数表征图像的行人之间的空间关系模型;d、根据上述行人表象特征模型及行人空间相互关系模型,建立概率模型来描述拥挤场景下的多个行人,并将所述概率模型转换为能量目标函数;e、利用基于隐变量排序SVM的参数学习方法在训练集上寻找上述能量目标函数的最优参数,以得到确定的能量目标函数;f·、输入待检测的行人图像,利用基于扩展移动的模型推断方法求解上述确定的能量目标函数,得到待检测拥挤场景中行人的检测结果。所述步骤d中,转换得到的能量目标函数为
NN Narg max UAGK]YjeJJh 山、+(I1Jj)
i=l/-I ./二 I其中,N为检测框个数,L = (I1,…,。,匕指中心为(Xi, Yi),大小为Si的第i个检测框为位于检测框bi的图像区域,Ii为第i个检测框的子类标签(',()= </('),/(及)是4的分块分数向量,为I,的转置,是表象特征模型中第Ii个子类标签的参数向量,mh) =祀J(P1Jyj)为^的转置, 表示第i个子类标签Ii和第j个子类标签Ij
之间的相互关系模型参数,f(bi; bj)用来检测框匕和检测框bj之间的空间相互关系。所述分块模型使用的特征包括HOG特征、SIFT特征或LBP特征。本发明的优点利用隐变量排序SVM从弱标记的行人数据训练集中训练出一个包含一些子类的混合模型,每一个行人都被假定存在于其中的一个特殊的子类中并由子模型描述;其中,行人表象特征模型基于分块模型,并且对于每一个分块都有相应的分 数,同时每一个子类都有个权重向量来表明不同分块的重要性,用来作为第二级的特征描述;行人空间相互关系模型用于描述不同行人之间的空间关系,在本发明中,利用一个二次方程的内核来建立此模型;使用类似于图割当中的扩展移动方法的估计算法,来近似推断问题的最优解,提闻检测精度,适应范围广。


图I为本发明的检测流程图。
具体实施例方式下面结合具体附图和实施例对本发明作进一步说明。如图I所示本发明用于拥挤场景下的多个行人检测方法包括如下步骤a、输入含有多个训练样本图像的训练集合,利用K均值聚类将训练样本图像中行人分成若干子类,每个子类对应一种行人变化;b、利用分块模型表征行人的表象,使用可形变的部件模型讲行人自动的分块,每一个分块有相应的分数,并对每一子类设置对应的权重向量,以建立行人表象特征模型,C、利用二次核函数建立训练样本集上的行人空间相互关系模型;d、根据上述行人表象特征模型及行人空间相互关系模型,建立概率模型来描述拥挤场景下的多个行人,并将所述概率模型转换为能量目标函数;e、利用基于隐变量排序支持向量机的参数学习方法寻找上述能量目标函数的最优参数,以得到确定的能量目标函数;f、输入待检测的拥挤场景行人图像,利用基于扩展移动的模型推断方法及上述确定的能量目标函数检测得到待检测拥挤场景行人图像的结果。下面介绍如何具体建立能量目标函数,确定能量目标函数以及对拥挤场景行人图像进行检测。具体为对于行人检测问题,传统方法为对于一个给定待检测图像I和一种搜索策略,在其中找到N个可能的检测框B = Ibpb2, ···,%},其中匕指第i个检测框,且其中心为(Xi^i),大小为Sitj而检测框匕的标签写为\,其中\ = I表示检测框匕对应一个行人否则\ = 0。将模型设定为Fe,其中参数Θ = (0a, θ8),其中03和0s分别用于建立行人表象特征模型和行人空间相互关系模型。最后得到的行人检测结果就是对于B中的每一个h都进行一个相应的预测T = It1, t2,…,tN}。则行人检测任务就等效为寻找一个预测T使得概率Ρ(Τ|Ι,Θ)最大。根据贝叶斯理论,可以得到arg max 1\T 11, θ) x arg max 1\Ι \ θ) Ρ(Τ \θ)(I)
TT
其中P(I|T,θ)描述表象特征模型,并且当给定一个图片的估计T和模型Fe之后,给出其似然;Ρ(Τ| Θ)是先验部分,这里使用先验部分在估计T中对不同行人之间的空间相互关系进行建模。在本发明中实施例中提出用行人表象特征模型和行人空间相互关系模型来建立一个统一的概率模型。具体为在行人表象特征模型中,表象特征的似然被认为是独立同分布的,所以似然部分ρ(ι|τ, θ)可以被写为η/|^) Π^!7'Λ) = Π/Η/, \ Λ)(2)
i=l i=l其中及为位于匕的图像区域,方程的右边成立是因为川4丨仅与标签\有关,与标签tj(j Φ i)无关。对于行人空间相互关系模型,出于简单考虑,我们将成对的相互关系作为基本的元素,其它复杂的关系网络都是直接由这种成对的简单关系组成建立的。这种成对的相互关系P Ui, tj I Θ s)指的是检测框h的标签\并且检测框h的标签&的联合概率,其中这个概率分布的参数为es。对一个有N个框的检测预测τ,其空间相互关系模型可以描述为Ρ(Τ I Θ)=1\Τ I ^) = ΠΠ MW, i θ)
/=1 j=l将公式(2)和公式(3 )代入公式(I)中并取对数,则最大后验估计等效于下面这个最大能量问题
NN Narg maxr f;e
^ (h, ^,) + Σ Σ Λ ^ ^ tJ)(4)
/=1 J=I其中(Ai^fi) = IogOUfci I〔Λ))且 Λ (Wj) = lOgipit1Jj ΙΑ))。很明显,传统的基于滑窗遍历检测的方法就是设置Λ.( ) = ο,同时把Λ,,(/6,,1)作为表象特征的分数,及(4,0)定义成任意一个小于检测阈值的常数。由于基于滑窗遍历的检测方法经常会在同一个位置检测出许多互相交叠的检测结果框,所以经常使用非极大值抑制(non-maxima suppression,NMS)作为后处理方法,这种方法可以用是上面这个式子的一种特殊情况来说明,即当bi; h互相交叠的框,交叠部分超过一个设定的阈值,并且\ = tj=I 的时候设置.4(K) = —00,否则Λ (>ntj) = O。下面将给出之前定义的UvU和(LG)的具体表现形式,同时将两者结合为一个混合模型,从而简化其复杂度。首先简单介绍一下混合模型以及其中的自动分成子类的动机。基于效率的考虑,本发明提出用一种简单的线性模型描述拥挤场景下的行人,但是在很多情况下线性模型本身不足以描述行人的复杂的表象特征和空间相互关系。为了更好地描述这些复杂场景,本发明提出一个由K个子类组成的混合模型,其中每一个行人都由其子类来表示。对于检测框bi的标签从ti e {O, 1}扩展为Ii e {O, 1,…,K},其中Ii = O表示背景,Ii = k表示第k个子类,K表示扩展后的第K个子类。由于实际应用中,只有标签\是可以给定的,所以将子类标签Ii作为一个隐变量。至于在训练阶段如何估计Ii将在之后的部分讲到,这里假设训练集中的子类的标签已经被给定,这样我们就可以先使用它们去学习子类的模型。在使用混合模型之后,我们就可以将检测任务转换为找到一个最优估计L= (I1-, IJ使得下面这个能量函数E (L)获得最大值
权利要求
1.一种用于拥挤场景下的多个行人检测方法,其特征是,所述多个行人检测方法包括如下步骤 (a)、输入含有多个训练样本图像的训练集,将训练集中的行人分成若干子类,每个子类对应一种行人变化; (b)、利用分块模型表征行人的表象,使用可形变的部件模型讲行人自动的分块,每一个分块有相应的分数,并对每一子类设置对应的权重向量,以建立行人表象特征模型; (C)、利用二次核函数建立图像的行人空间相互关系模型; (d)、根据上述行人表象特征模型及行人空间相互关系模型,建立概率模型来描述拥挤场景下的多个行人,并将所述概率模型转换为能量目标函数; (e)、利用基于隐变量排序支持向量机的参数学习方法寻找上述能量目标函数的最优参数,以得到确定的能量目标函数; (f)、输入待检测的拥挤场景行人图像,利用基于扩展移动的模型推断方法及上述确定的能量目标函数检测得到待检测拥挤场景行人图像的结果。
2.根据权利要求I所述的用于拥挤场景下的多个行人检测方法,其特征是所述步骤Cd)中,转换得到的能量目标函数为 NN N arS 臟“φ'κ] Σ k ()+Σ Σ k ((,h) /=1i=l J=I 其中,N为检测框个数,L = (I1,…,1N},bi指中心为(Xpyi),大小为Si的第i个检测框;/6ι.为位于检测框匕的图像区域,Ii为第i个检测框的子类标签'WXmb),/(及)是及的分块分数向量,<为&的转置,I,是表象特征模型中第Ii个子类标签的参数向量=為)$0 的转置,&表示第i个子类标签Ii和第j个子类标签Ij之间的相互关系模型参数,f(bi; bj)用来检测框匕和检测框bj之间的空间相互关系。
3.根据权利要求I所述的用于拥挤场景下的多个行人检测方法,其特征是所述分块模型使用的特征包括HOG特征、SIFT特征或LBP特征。
全文摘要
本发明涉及一种用于拥挤场景下的多个行人检测方法,其包括如下步骤a.输入含有多个训练样本图像的训练集,将训练样本图像中行人分成若干子类,每个子类对应一种行人变化;b.建立训练集行人表象特征模型;c.建立训练集上的行人空间相互关系模型;d.建立概率模型来描述拥挤场景下的多个行人,并将所述概率模型转换为能量目标函数;e.利用基于隐变量排序SVM的参数学习方法寻找上述能量目标函数的最优参数,以得到确定的能量目标函数;f.输入待检测的拥挤场景行人图像,利用基于扩展移动的模型推断方法及上述确定的能量目标函数检测得到待检测拥挤场景行人图像的结果。本发明提高检测精度,适应范围广。
文档编号G06K9/66GK102810161SQ20121018784
公开日2012年12月5日 申请日期2012年6月7日 优先权日2012年6月7日
发明者李子青, 闫俊杰, 雷震, 张旭聪, 易东 申请人:江苏物联网研究发展中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1