一种基于随机森林算法的行人跟踪方法与流程

文档序号:16075140发布日期:2018-11-27 20:58阅读:192来源:国知局

本发明属于计算机视频图像处理技术领域,特别涉及一种基于随机森林算法的行人跟踪方法。



背景技术:

随着计算机技术和图像处理技术的发展,基于视频的智能监控系统得到了广泛的应用。在保障社会公共安全和交通安全方面、保护人民生命财产安全方面、在工业控制领域保障安全生产和产品检测方面以及有关商业领域方面都发挥着巨大的作用。目前,智能视频监控系统的应用主要在安全防控领域和非安全防控领域。公共场所人群监控、道路交通安全监控、工业生产安全监控等都属于安全防控领域的应用。

对计算机视频图像处理技术而言,对监控区域中的出现的行人进行统计与计数是最终的目标。在现有技术中,通常采用Mean Shift算法对运动行人进行跟踪。

Mean Shift算法属于核密度估计法,它不需要任何先验知识而完全依靠特征空间中样本点的计算其密度函数值。对于一组采样数据,直方图法通常把数据的值域分成若干相等的区间,数据按区间分成若干组,每组数据的个数与总参数个数的比率就是每个单元的概率值;核密度估计法的原理相似于直方图法,只是多了一个用于平滑数据的核函数。采用核函数估计法,在采样充分的情况下,能够渐进地收敛于任意的密度函数,即可以对服从任何分布的数据进行密度估计。

然而,Mean Shift算法对运动行人进行跟踪的现有技术在实际使用过程中的鲁棒性不佳,并伴随对运动行人进行跟踪的效果不佳。因此,有必要对现有技术中对呈现运动状态的行人跟踪方法予以改进,以解决上述技术问题。



技术实现要素:

本发明的目的在于公开一种基于随机森林算法的行人跟踪方法,用以解决视频检测技术中图像的鲁棒性不佳的技术问题,提高对公共区域中呈不规则运动状态的运动行人进行跟踪的效果。

为实现上述发明目的,本发明提供了一种基于随机森林算法的行人跟踪方法,包括以下步骤:

S1、提取训练样本集中的HOG特征向量;

S2、基于SVM算法对所述的HOG特征向量进行训练,得到初始化运动行人分类器;

S3、获取监控区域的视频流图像作为输入图像;

S4、利用初始化运动行人分类器对输入图像进行运动行人检测;

S5、对检测到的运动行人区域的邻域进行跟踪集的采集操作;

S6、利用随机森林算法对检测到的运动行人进行跟踪。

作为本发明的进一步改进,所述步骤S6具体包括以下子步骤:

S61、提取跟踪集内样本的HSV特征和梯度特征;

S62、根据提取到的HSV特征向量和梯度征向量建立运动行人跟踪分类器;

S63、根据运动行人跟踪分类器对运动行人进行跟踪;

S64、对运动行人跟踪分类器进行更新。

作为本发明的进一步改进,所述步骤S62具体为:

利用mean shift算法分别对超像素特征和LBP特征进行聚类分析,得到超像素字典和LBP字典。

作为本发明的进一步改进,所述子步骤S62中的聚类分析包括简单线性聚类分析、模糊聚类分析、基于密度方法的聚类分析。

作为本发明的进一步改进,所述基于密度方法的聚类分析由分段线性隶属度函数确定,所述分段线性隶属度函数为三角形隶属度函数、单调隶属度函数形函数或者梯形隶属度函数。

作为本发明的进一步改进,对于首次出现在监控区域内的运动行人,将该运动行人邻域的区域的图像信息保存在跟踪集内;对于已出现在监控区域内的运动行人,将该运动行人邻域区域的图像信息保存在跟踪集内,并将之前保存在跟踪集内的该运动行人的图像信息删除掉。

作为本发明的进一步改进,对于已出现在监控区域的运动行人,仅对该运动行人在其所对应的子跟踪集内保存一帧该运动行人区域的图像信息。

作为本发明的进一步改进,所述图像信息包括彩色图像信息与灰度图像信息。

与现有技术相比,本发明的有益效果是:通过本发明,提高了视频检测技术中图像的鲁棒性,提高了对公共区域中呈不规则运动状态的运动行人进行跟踪的效果。

附图说明

图1为本发明一种基于随机森林算法的行人跟踪方法的流程示意图;

图2为步骤S3中获取监控区域的视频流图像作为输入图像的示意图;

图3为在步骤S5中所提取的运动行人区域的示意图;

图4为样本集不纯度度量Gini系数和信息熵示意图;

图5为mean shift迭代计算的计算流程图。

具体实施方式

下面结合附图所示的各实施方式对本发明进行详细说明,但应当说明的是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代,均属于本发明的保护范围之内。

参图1所示的本发明一种基于随机森林算法的行人跟踪方法的具体实施方式。由于行人在行走时头部与肩部的变化较小,基于易于检测方面的考虑,可将训练样本集定义为:只包含行头部和/或肩部的正样本集、不包含行人头部和/或肩部的负样本图集。

首先,执行步骤S1、提取训练样本集中的HOG特征向量。

由于行人在行走时头部与肩部的变化较小,基于易于检测方面的考虑,可将训练样本集定义为:只包含行头部和/或肩部的正样本集、不包含行人头部和/或肩部的负样本图集。

其中,该正样本集中的正样本是包含行人头部和/或肩部的样本(即正样本);该负样本集中的负样本是不包含行人头部和/或肩部的样本(即负样本)。具体的,该正/负样本集中正/负样本为30×30像素的256阶灰度图像。

具体的,在本实施方式中,在初始化运动行人分类器中的正样本集中的正样本的个数为4000,负样本集中的负样本的个数为6000。

在本实施方式中,该训练样本集包括正/负样本集,正/负样本集中的正/负样本为30×30像素的256阶灰度图像,所述正样本为包含行人区域的图像,所述负样本为不包含或者不完全包含行人区域的图像。进一步的,所谓不包含行人区域的图像,是指训练样本中完全不包含行人任何人体结构特征区域的图像,所谓不完全包含行人区域的图像,是指仅包含部分人体结构特征(例如,头、手、脚或者部分上述人体结构)区域的图像。

然后,执行步骤S2、基于SVM算法对所述的HOG特征向量进行训练,得到初始化运动行人分类器。

具体的,在本实施方式中,先计算正/负样本集中正/负样本的HOG特征向量,然后基于SVM算法对所述HOG特征向量进行训练,以得到初始化运动行人分类器。

然后,执行步骤S3、获取监控区域的视频流图像作为输入图像。

参图2所示,在本实施方式中,摄像机10垂直拍摄并可适用于室外环境和室内环境。在本实施方式中,该步骤中的“通过摄像机获取监控区域的视频流图像”具体为:通过摄像机10获取监控区域30的视频流图像作为输入图像,所述监控区域30位于摄像机10的正下方。

具体的,摄像机10设置在出入口20的正上方,行人可沿着箭头201的方向上在出入口20中来回走动。摄像机10所获取的监控区域30可完全覆盖出入口20的全部区域。该出入口20可设置在需要对行人人数进行统计的商场、车库、银行等需要重点监控场所的大门口或者走廊中。

需要说明的是,本发明在摄像机10垂直地正对着监控区域30时的效果最佳,当然可也将摄像机10倾斜地对着需要进行行人人数计数统计的区域,以通过摄像机10覆盖整个监控区域30。

在本实施方式中,该监控区域30为矩形;当然也可以为正方形或圆形或者其他形状。摄像机10位于监控区域30的中心点301的正上方,此时该监控区域30位于摄像机10的正下方。

然后,执行步骤S4、利用初始化运动行人分类器对输入图像进行运动行人检测。

以30×30像素的图像作为检测窗口,在水平和垂直方向上以2个像素点为步长,对由执行步骤S2所得到的背景图像作行、列滑动扫描,提取扫描区域的HOG特征,并将计算得到的HOG特征送入执行步骤S2所得到的行人分类器中,并根据初始化运动行人分类器的输出结果判断该扫描区域是否为行人区域。若初始化运动行人分类器的输出结果为1,表示扫描区域为行人区域;若初始化运动行人分类器的输出结果-1,表示扫描区域为非行人区域。由于当前是对监控区域30的背景进行检测,则扫描区域被判断为式行人区域,即为误检。

更具体的,在步骤S4中可利用初始化运动行人分类器对输入图像进行选择性的更新训练,该“选择性的更新训练”具体为:对利用初始化运动行人分类器对监控区域30的背景图像进行运动行人检测的检测结果进行判断;若出现误检,则将误检的运动目标添加到负样本集,并仅在设定的时间内检测到的误检数大于或等于误检阈值T时,重新对所述初始化运动行人分类器进行更新训练;若不出现误检,则经过设定的时间后不对所述初始化运动行人分类器进行更新训练。进一步的,所述“设定的时间”选为5分钟;所述误检阈值T选为10。

在本实施方式中,应用本发明一种基于随机森林算法的行人跟踪方法可应用于各种不同的复杂环境中,而训练行人分类器所有的负样本集是有限的,所以训练得到的行人分类器不一定适用于所有的监控环境。

为了适应环境的变换,在本实施方式中,采取实施更新负样本集,然后对训练样本集进行再次训练,以更新初始化运动行人分类器。

然后,执行步骤S5、对检测到的运动行人区域的邻域进行跟踪集的采集操作,该步骤S5具体为如下所示。

对于首次出现在监控区域30内的运动行人,将该运动行人邻域的区域的图像信息保存在跟踪集内;对于已出现在监控区域30内的运动行人,将该运动行人邻域区域的图像信息保存在跟踪集内,并将之前保存在跟踪集内的该运动行人的图像信息删除掉。所述图像信息包括彩色图像信息与灰度图像信息。在本实施方式中,对于已出现在监控区域30的运动行人,仅对该运动行人在其所对应的子跟踪集内保存一帧该运动行人区域的图像信息。具体参图3所示,虚线所示的矩形区域50为检测到的运动行人区域,实线所示的矩形区域51为运动行人邻域的区域。

最后,执行步骤S6利用随机森林算法对检测到的运动行人进行跟踪,该步骤S6具体包括以下子步骤:

首先,执行子步骤S61、提取跟踪集内样本的HSV特征和梯度特征。

在本实施方式中,所采用的梯度特征具体为:

对于灰度图像上的每个像素点(i,j)都可以计算它在水平和竖直方向上的一阶导数具体参公式(1)所示:

由此,计算得到每个像素点(i,j)的结构张量,具体参公式(2)所示:

其中,JU(i,j)为2*2的对称矩阵,Gσ(·)为高斯核函数,S(i,j)表示像素(i,j)的邻域。在本实施方式中,为降低计算量,可将公式(2)简化为

然后,执行子步骤S62、根据提取到的HSV特征向量和梯度征向量建立运动行人跟踪分类器。

随机森林算法是一类集成学习算法,是若干随机树的组合,这些随机树彼此相互独立而且差异较大。其中的随机树按传统分类回归树的训练方式生长到最大深度,但是不进行剪枝。

训练样本的随机性性主要体现在两个方面:

第一发面:训练样本的随机性。使用自举重采样法为森林中每棵树生成有差异的训练样本。

第二发面:树中节点分裂方式的随机性。每个节点进行分裂时仅从参数空间中随机选择一个子集,在其中选出“最优”的分裂参数。在树的生长过程中加入随机性可以降低它们彼此之间的相关度,从而降低集成学习算法的泛化误差的上限。

随机树中每个节点都可以看作是一个弱分类器,对到达该节点的跟踪集Ω计算得到一个分类准则h(x,θ)∈{0,1}。x∈RM表示一个跟踪集内的样本,θ={φ,ψ}为这个弱分类器的参数,其中φ(·)为筛选函数,ψ为参数列向量或者参数矩阵。θ决定了弱分类器的分类超曲面的形式:

线性分类平面,如公式(3)所示:

h(x,θ)=δ(φT(x)ψ>0) (3);

其中,δ(·)是一个指示函数。例如,对于样本x=(x1,x2,x3)∈R3,令φ(x)=(x1,x3,1)T,ψ=(ω1,ω3,τ),那么h(·)表示一个轴平行的分类面。

非线性分类面,如公式(4)所示:

h(x,θ)=δ(φT(x)ψφ(x)>0) (4);

其中ψ为一个参数矩阵。

当样本满足h(x,θ)=1,它落入左子节点;反之,则落入右子节点。递归上述过程直到落入节点的样本个数少于阈值,或者样本纯度大于阈值,又或者达到规定的最大深度。此时,这个节点称为叶子节点。否则,在每个节点处要寻找“最优”的系数θ*使训练样本分裂后的信息增益(Information Gain)最大化,具体参公式(5)所示:

其中,Γsub为完整参数空间Γ的子集,对于每个节点Γsub都是从Γ中随机选择的,这体现了在节点分裂过程中的随机性。IG(·)表示信息增益,衡量了分裂后样本不纯度的下降幅度。它可以定义为公式(6)所示:

其中,表示落入该节点的所有样本的集合,|Ω|=N,Ωl(θ)和Ωl(θ)分别表示在参数θ下落入左右子节点的样本集。H(Ω)表示落入一个节点的样本集的不纯度,可用信息熵(参公式7)或者Gini系数(参公式8)来描述。其中,Nc为样本类别个数,p(c|Ω)表示在样本集Ω中类别c所占的比例,具体参公式(7)与公式(8)所示:

参图4所示,对于二分类问题,Hentropy(Ω)和HGini(Ω)随着两个类别分布变化的曲线,横坐标表示其中一个类比所占比例。从图4中我们可以看到,当两个类别的比例相同时,信息熵和Gini系数都取得最大值,即表示此时节点的不纯度最高。

由公式(5)和公式(6)可知,每个节点的“最优”参数θ*应使节点在分裂后不纯度下降幅度最大,这个参数是在整体参数空间Γ的随机子集Γsub中选取的。其中,Γsub={h(x,θ1),h(x,θ2),h(x,θ3)},根据信息增益可得θ1为“最优”参数。其中,信息增益的计算使用了Gini系数。

在本实施方式中,对于随机树节点的分裂,采用轴平行的弱分类器,具体如公式(9)所示:

其中,

设落入某个非叶子节点的样本集为:

从M维特征空间中随机选择m(≤M)个维度(d1,…,dm),其中M维特征为S 62计算得到的超像素特征和LBP特征维数之和。然后从中选择使节点信息增益最大(即不纯度下降幅度最大)的维度d*和对应阈值τ*。它们由式(10)计算得到,其中IG(·)为信息增益,具体参公式(10)所示:

在每个非叶子节点处采用轴平行的弱分类器,目的是减少参数空间搜索的计算量。为了进一步提高随机树分类器训练和随机森林更新的效率,采用极限随机森林的思想,在节点分裂的过程中进一步增加随机性,如公式(11)所示。可见,每个候选维度dk上的阈值也是随机选择的。额外增加的随机性进一步缩小了参数空间,使树结构分类器的方差得到进一步抑制,且不影响分类的准确性。但是,这也导致节点分裂参数η*很可能无法带来显著的信息增益(即:不纯度的下降),从而使树的深度增加,具体参公式(11)所示:

随机树生长直到指定的最大深度,或者落入其中的样本类标签都相同,而不需要剪枝。在随机树分类器训练完成后,非叶子节点只需要保存分裂参数而叶子节点只需保存落入它的样本类标签的分布p(c|Ω),c∈{-1,1}。

在本实施方式中,该运动行人跟踪分类器具体为:

随机森林训练结束后,测试样本X经过每棵树到达其某个叶子节点,那么样本X属于类别c的概率为公式(12)所示:

其中,T为森林中随机树的数量,pt(c|X)为叶子节点的类别分布。那么对X类别的决策为公式(13)所示:

然后,执行子步骤S63、根据运动行人跟踪分类器对运动行人进行跟踪。

当下一帧来到时,对搜索区域内(即上一帧检测到的运动行人的邻域区域)的每个像素提取HSV特征和梯度特征,并用运动行人跟踪分类器判别他们属于运动行人的概率,具体参公式(14)所示:

样本v从每棵随机树的根节点出发达到某个叶子节点,该叶子中已经保存了训练时的类别分布,即pt(c|v),c∈{-1,1}。上述对运动行人进行跟踪的过程结束后就可以得到置信图,置信图表示搜索区域中每个像素点属于运动行人的概率。使用Mean Shift迭代能快速有效地找到置信图的极大值区域,具体参公式(15)所示:

其中,vi∈RM为像素xi=(xi,yi)T对应的特征向量,h为带宽,与跟踪窗口有关,Nh为跟踪窗口内的像素个数。从上一帧的目标中心位置y0开始迭代计算直到收敛,具体参公式(15)所示。该收敛位置就被认为当前帧目标所在位置,具体过程参图5所示。

然后,执行子步骤S64、对运动行人跟踪分类器进行更新。

在跟踪过程中,运动行人可能随外界光照和自身姿态的变化而改变,并且运动行人所处背景也随之不断变化。所以,当前的运动行人跟踪分类器很可能已经无法准确地将运动行人与其邻域背景分开。为此必须对运动行人跟踪分类器进行适当更新,使它能够适应上述变化。

在当前帧运动行人定位后,本实施方式提取运动行人R与其背景B区域的HSV特征和梯度特征。在具体实现过程中,上述大部分像素点对应特征以及对应类别已经在目标定位过程中被计算,所以这将避免大量的重复计算。然后,用这些新采集的样本评价集成分类器中所有T棵随机树的性能,即计算它们对上述数据集分类准确率ρt,具体参公式(16)所示:

其中,w(v)的计算方法如公式(14),ΩR和ΩB分别表示检测出的运动行人和其对应的背景区域像素个数。找出其中分类能力最差的K棵随机树,用新数据集训练相同数量的随机树分类器将它们替换。由于随机森林集成分类器中每个弱分类器都是相互独立的,对一些随机树进行替换并不影响剩余部分。这样更新后集成分类器中包括两部分信息,即过去目标表观信息和当前时刻表观信息。如此在一定程度上抑制了过度更新,并且能够在一次错误更新后及时恢复。通过本发明,提高了视频检测技术中图像的鲁棒性,提高了对公共区域中呈不规则运动状态的运动行人进行跟踪的效果。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1