一种基于混合分类器的可自主学习多目标检测方法与流程

文档序号:11458873阅读:212来源:国知局
一种基于混合分类器的可自主学习多目标检测方法与流程

本发明涉及一种基于混合分类器的可自主学习多目标检测方法,属于模式识别领域。



背景技术:

视频监控在社区住宅、交通设施、金融机构、公共娱乐场所等各个领域中有着广泛的应用,作为监控中主要目标的车辆与行人,对其检测是智能视频处理的一个重要问题,因其融合多学科技术、拥有广阔市场前景而成为世界范围内各研究机构、公司企业的研究开发重点。但是,在多种动态变化场景中和不同拥挤程度下,稳定、准确地实现车辆与行人检测,仍然是难以很好实现的挑战性课题。

通过分析车辆的数目及运动信息,可以对交通的拥堵状况、平均车速由一个明确的了解。常用的车辆检测方法有:背景差分法、帧间差分法、光流法。背景差分法具有检测运动目标速度快、检测准确、易于实现的优点,但在实际应用中,静止背景不易直接获得,且由于背景图像的动态变化,需要有选择性地更新背景。帧差分法具有算法实现简单、程序设计复杂度低、运算速度快的优点,并且稳定性较好。但帧差分法不能提取出对象的完整区域,对帧间时间间隔依赖性较强,选择间隔不当时会造成很大误差。光流法的环境适应性强,但算法杂度高,难以保证车辆检测的实时性和实用性。

行人检测技术存在检测区域环境复杂,如天气的影响、光照的变化、行人的不确定行动等,同时要求处理准确高、稳定性强,所以该项技术成为多学科交叉研究的热点。对于行人检测常用的方法有如下几种:(1)基于全局特征的方法,该方法是目前较为主流的行人检测方法,主要采用边缘特征、形状特征、统计特征或者变换特征等图像的各类静态特征来描述行人,其中代表性的特征包括haar小波特征、hog特征、edgelet特征、shapelet特征和形状轮廓模板特征等。(2)基于人体部件的方法,该方法的基本思想是把人体分成几个组成部分,然后对图像中每部分分别检测,最后将检测结果按照一定的约束关系进行整合,最终判断是否存在行人。(3)基于立体视觉的方法,该方法是指通过2个或2个以上的摄像机进行图像采集,然后分析图像中目标的三维信息以识别出行人。

然而现有的一些检测方法常常有很多弊端,比如,haar特征应用于行人检测时,性能有所下降。研究表明,在10-1误检率的情况下只有约50%的检测率,并且对场景有着较高的要求。edgelet利用的是局部特征,该方法对于不同姿态的行人检测及互相遮挡的行人检测,处理效果较好。然而,由于edgelet特征需要手动标定,所以对该特征的提取比较复杂,对于一些本身较为复杂的曲线,难以通过手动标定的方法得到符合人体曲线的edgelet特征。sift特征对于提取图像的不变特征可以取得非常不错的效果,但是仍然存在很多缺陷,比如:有时候提取的特征点会比较少、实时性一般、无法提取边缘比较模糊的目标对象等。



技术实现要素:

为了解决现有技术的不足,本发明提供了一种基于混合分类器的可自主学习多目标检测方法,只需要在视频的第一帧中框选出感兴趣的检测目标,该体系会自动根据所框选目标初始化目标检测分类器,并通过不断的自主学习,逐步提高分类器的检测性能。本方法采用随机蕨分类器和可迭代的svm相结合的方法,共同作用于目标的检测分类,并对车辆和行人进行测试,均取得了较好的效果。

本发明为解决其技术问题所采用的技术方案是:提供了一种基于混合分类器的可自主学习多目标检测方法,包括以下步骤:

(1)获取样本并初始化混合分类器:

(1.1)初始化随机蕨分类器:

(1.1.1)在视频的第一帧中框选出待检测目标做正样本,在不含目标区域的背景中随机框选出与正样本相同数量的负样本,对每个样本进行n1次仿射变换,将仿射变换后的结果作为初始训练随机蕨分类器的正样本和负样本;

(1.1.2)在得到的每个样本中随机提取3个像素块作为该样本的一个随机蕨,各样本中提取的3个像素块位于各样本的相同位置;共选取n2*n2个随机蕨,将其平均分为n2组,每组n2个随机蕨;

(1.1.3)对随机蕨中的每个像素块,比较其左半部分所有像素值之和ileft与右半部分所有像素值之和iright的大小以及上半部分所有像素值之和itop与下半部分所有像素值之和ibottom的大小,根据比较结果对每个像素块的特征编码为2位二进制数;每个样本中的特征按照相同的顺序组合,则步骤(1.1.2)中,每个样本在随机蕨上统计的特征形成一个六位数的二进制编码,其对应的十进制数有64种可能数值,每个样本对应于随机蕨中的一个数值;

(1.1.4)通过训练样本,统计初始训练随机蕨分类器的正样本和负样本在随机蕨上的后验概率分布,得到后验概率分布直方图p(f|c+)和p(f|c-),最终获得随机蕨分类器

(1.2)对第一帧中框选出的长方形图像中的正样本和负样本,分别进行n3次仿射变换,利用仿射变换后的正样本和负样本对svm分类器进行初始训练;

(2)利用混合分类器进行视频目标检测:

(2.1)设置阈值β=0.5,初始化自适应阈值θ=0.5;

(2.2)从随机蕨分类器中筛选出性能最佳的随机蕨用于视频检测,并对检测结果进行分类,采取滑动窗在视频帧中搜索的方式进行目标检测,计算当前滑动窗在随机蕨上的后验概率值,当后验概率值pfern>β+θ时,将该结果作为正样本;当pfern<β-θ时,将该结果作为负样本;当β-θ<pfern<β+θ时,将该结果标记为困难样本,并用svm分类器计算该样本的置信度psvm,将该样本添加到困难样本集中;

(2.3)统计所有困难样本个数nt,统计困难样本中pfern<β且psvm>0或者pfern>β且psvm<0的个数nr;

(3)自主更新混合分类器:

(3.1)在线更新svm分类器:当(2.2)中的困难样本集中每增加n4个样本时,开始对svm分类器进行一次迭代更新,同时更新(2.1)中的自适应阈值θ;

(3.2)在线更新随机蕨分类器;

(3.3)进入下一帧,重复步骤(3.2)并将每帧中检测到的困难样本添加至困难样本集中,当困难样本集中每增加n4个样本时,跳转至步骤(3.1)对svm分类器进行一次迭代更新,同时更新自适应阈值θ;当中自适应阈值θ收敛至小于t1时,停止更新混合分类器,训练结束;

(5)将训练好的混合分类器用于视频目标检测。

步骤(1.2)所述的初始训练,具体对每个正样本和负样本,提取其方向梯度直方图特征训练svm分类器。

步骤(2.2)所述性能最佳的随机蕨经过以下过程筛选:对于一组随机蕨,计算各随机蕨的巴氏距离,巴氏距离越小,随机蕨性能越佳。

步骤(3.1)所述对svm分类器进行一次迭代更新,同时更新(2.1)中的自适应阈值θ,具体包括以下过程:对增加的n4个困难样本,用svm分类器分别计算其置信度,其中置信度小于t2的当做正样本,置信度大于t3的当做负样本,利用正样本和负样本训练并更新svm分类器,用更新后的svm分类器再次对困难样本进行分类,若前后两次分类结果不一样,对再次分类的结果中,将置信度小于t2的当做正样本,置信度大于t3的当做负样本,再次训练并更新svm分类器,直至前后两次分类结果无变化时,停止迭代svm分类器;svm分类器迭代更新完成后紧接着对自适应阈值θ进行一次跟新,自适应阈值按照公式进行更新。

步骤(3.2)所述更新随机蕨分类器具体包括以下过程:对当前待检测的视频帧,按(2.2)所述方法进行目标检测,对检测结果中的困难样本,用迭代后的svm计算其置信度,将置信度小于t2的检测结果当做正样本并进行n1次仿射变换,利用变换结果在线更新随机蕨分类器,将置信度大于t3的当做负样本并进行n1次仿射变换,利用变换结果在线更新随机蕨分类器。

所述n1的范围为100~300;所述n2的范围为10~20;所述n3的范围为15~25;所述n4的范围为80~150;所述阈值t1的范围为0.2~0.25;所述阈值t2的范围为-0.9~-0.6;所述阈值t3的范围为0.6~0.9。

本发明基于其技术方案所具有的有益效果在于:

(1)本发明的一种基于混合分类器的可自主学习多目标检测方法在完全不需要人为干预的情况下,能自主训练分类器用于目标检测,只需在视频的第一帧中,用鼠标框选需要检测的目标,便能不断自主学习,逐步提高分类器性能,最终实现多目标检测;

(2)本发明的一种基于混合分类器的可自主学习多目标检测方法通过自主学习不断更新自适应阈值,从而自主调整所选困难样本用于混合分类器训练,从而逐步提高分类器的检测性能;

(3)本发明的一种基于混合分类器的可自主学习多目标检测方法通过不断筛选并联合性能最佳的随机蕨分类器用于视频目标检测,并采用迭代训练svm分类器方法不断更新svm分类器,并用更新后的svm分类器辅助更新随机蕨分类器,两种分类器共同作用,最终实现多目标检测。

附图说明

图1是本发明的一种基于混合分类器的可自主学习多目标检测方法的整体流程示意图。

图2是像素块的选取示意图。

图3为正样本在随机蕨上的后验概率分布示意图。

图4为负样本在随机蕨上的后验概率分布示意图。

图5为最终用于分类的一个随机蕨后验概率分布图。

图6为自适应阈值收敛过程示意图,图6(a)为收敛前,图6(b)为收敛后。

图7为三种场景下的行人检测效果,其中图7(a)为商场(shop)场景,图7(b)为行走(walk)场景,图7(c)为路口(s2)场景。

图8为三种行人检测场景下roc曲线对比图。

图9为三种场景下的车辆检测,其中图9(a)为车辆检测场景hx,图9(b)为车辆检测场景yk,图9(c)为车辆检测场景hi。

图10为三种车辆检测场景下roc曲线对比图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

本发明提供了提供了一种基于混合分类器的可自主学习多目标检测方法,参照图1,包括以下步骤:

(1)获取样本并初始化混合分类器:

(1.1)初始化随机蕨分类器:

(1.1.1)在视频的第一帧中框选出待检测目标做正样本,在不含目标区域的背景中随机框选出与正样本相同数量的负样本,对每个样本进行n1次仿射变换,n1优选900,将仿射变换后的结果作为初始训练随机蕨分类器的正样本和负样本;

(1.1.2)参照图2,在得到的每个样本中随机提取3个像素块(patch)作为该样本的一个随机蕨,各样本中提取的3个像素块位于各样本的相同位置;由于一个随机蕨分类能力有限,共选取n2*n2个随机蕨,将其平均分为n2组,每组n2个随机蕨;n2优选10;

(1.1.3)对随机蕨中的每个像素块,比较其左半部分所有像素值之和ileft与右半部分所有像素值之和iright的大小以及上半部分所有像素值之和itop与下半部分所有像素值之和ibottom的大小,根据比较结果对每个像素块的特征编码为2位二进制数;每个样本中的特征按照相同的顺序组合,则步骤(1.1.2)中,每个样本在随机蕨上统计的特征形成一个六位数的二进制编码,其对应的十进制数有64种可能数值,每个样本对应于随机蕨中的一个数值;

(1.1.4)参照图3、图4和图5,通过训练大量样本,统计初始训练随机蕨分类器的正样本和负样本在随机蕨上的后验概率分布,得到后验概率分布直方图p(f|c+)和p(f|c-),最终获得随机蕨分类器

(1.2)对第一帧中框选出的长方形图像中的正样本和负样本,分别进行n3次仿射变换,利用仿射变换后的正样本和负样本对svm分类器进行初始训练;n3优选20;

(2)利用混合分类器进行视频目标检测:

(2.1)设置阈值β=0.5,初始化自适应阈值θ=0.5;

(2.2)从随机蕨分类器中筛选出性能最佳的随机蕨用于视频检测,并对检测结果进行分类,采取滑动窗在视频帧中搜索的方式进行目标检测,计算当前滑动窗在随机蕨上的后验概率值,当后验概率值pfern>β+θ时,将该结果作为正样本;当pfern<β-θ时,将该结果作为负样本;当β-θ<pfern<β+θ时,将该结果标记为困难样本,并用svm分类器计算该样本的置信度psvm,将该样本添加到困难样本集中;

所述性能最佳的随机蕨经过以下过程筛选:对于一组随机蕨,计算各随机蕨的巴氏距离,巴氏距离越小,表明该随机蕨后验概率分布越离散,即分类能力越强,随机蕨性能越佳;对(1.1.2)中构造的10组随机蕨分类器,分别从每组中挑选出1个巴氏距离最小的随机蕨hl联合成强分类器用于视频检测;

(2.3)统计所有困难样本个数nt,统计困难样本中pfern<β且psvm>0(即fern分类器和svm分了器均将该样本分为负样本)或者pfern>β且psvm<0(即fern分类器和svm分了器均将该样本分为正样本)的个数nr;

(3)自主更新混合分类器:

(3.1)在线更新svm分类器:当(2.2)中的困难样本集中每增加n4个样本时,开始对svm分类器进行一次迭代更新,同时更新(2.1)中的自适应阈值θ,具体包括以下过程:对增加的n4个困难样本,用svm分类器分别计算其置信度,其中置信度小于t2的当做正样本,置信度大于t3的当做负样本,利用正样本和负样本训练并更新svm分类器,用更新后的svm分类器再次对困难样本进行分类,若前后两次分类结果不一样,对再次分类的结果中,将置信度小于t2的当做正样本,置信度大于t3的当做负样本,再次训练并更新svm分类器,直至前后两次分类结果无变化时,停止迭代svm分类器;svm分类器迭代更新完成后紧接着对自适应阈值θ进行一次跟新,自适应阈值按照公式进行更新;收敛效果参照图6;

(3.2)在线更新随机蕨分类器:在完成了svm分类器的第一次迭代更新后开始更新随机蕨分类器;具体包括以下过程:对当前待检测的视频帧,按(2.2)所述方法进行目标检测,对检测结果中的困难样本,用迭代后的svm计算其置信度,将置信度小于t2的检测结果当做正样本并进行n1次仿射变换,利用变换结果在线更新随机蕨分类器,将置信度大于t3的当做负样本并进行n1次仿射变换,利用变换结果在线更新随机蕨分类器;t2优选-0.85,t3优选1.0;

进入下一帧,重复步骤(3.2)并将每帧中检测到的困难样本添加至困难样本集中,当困难样本集中每增加n4个样本时,跳转至步骤(3.1)对svm分类器进行一次迭代更新,同时更新自适应阈值θ;当中自适应阈值θ收敛至小于t1时,停止更新混合分类器,训练结束;

(4)当中自适应阈值θ收敛至小于0.2时,停止更新混合分类器,训练结束;

(5)将训练好的混合分类器用于视频目标检测。

所述n1的范围为100~300;所述n2的范围为10~20;所述n3的范围为15~25;所述n4的范围为80~150;所述阈值t1的范围为0.2~0.25;所述阈值t2的范围为-0.9~-0.6;所述阈值t3的范围为0.6~0.9。

利用本发明的一种基于混合分类器的可自主学习多目标检测方法分别对三种行人场景进行检测,效果如图7所示,其中图7(a)、7(b)来自caviar数据集,图7(c)来自pets2009数据集。从图中可以看到,三种场景下均能检测到目标,表明本发明的一种基于混合分类器的可自主学习多目标检测方法的适应性,图8为三种场景下检测效果的roc曲线图,从曲线图可以看到,本发明的一种基于混合分类器的可自主学习多目标检测方法的取得了较好的检测效果。

利用本发明的一种基于混合分类器的可自主学习多目标检测方法分别对三种车辆场景进行检测,效果如图9所示,其中图9(a)、9(c)为道路监控视频,图9(b)来自gram-rtm数据集。从图中可以看到不同场景下车辆也能被成功检测出,图10为这三种场景下检测效果的roc曲线图,从曲线图可以看到,采用本发明的一种基于混合分类器的可自主学习多目标检测方法对车辆检测同样能取得较好的效果。

本发明提供的一种基于混合分类器的可自主学习多目标检测方法,只需要在视频的第一帧中框选出感兴趣的检测目标,该体系会自动根据所框选目标初始化目标检测分类器,并通过不断的自主学习,逐步提高分类器的检测性能。本方法采用随机蕨分类器和可迭代的svm相结合的方法,共同作用于目标的检测分类,并对车辆和行人进行测试,均取得了较好的效果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1