一种基于级联字典的人群异常检测方法及系统的制作方法

文档序号:6636904
一种基于级联字典的人群异常检测方法及系统的制作方法
【专利摘要】本发明涉及一种基于级联字典的人群异常检测方法及系统,其方法包括:步骤1:对输入的训练视频进行预处理,得到多个视频梯度特征;步骤2:将多个视频梯度特征输入多个训练字典中进行迭代训练,得到级联字典;步骤3:接收外部输入的需检测的视频流,对视频流进行预处理,得到视频特征,将视频特征输入级联字典进行检测;步骤4:对级联字典中多个训练字典的检测结果进行判断,如果存在正常状态,判断视频流为正常事件;否则,判断视频流为异常事件。本发明级联架构采用的是由粗粒度到细粒度的流水线型判断,能够将易判断的正常视频段在前几个级检测完毕,提高了运算效率与总体处理速度。
【专利说明】-种基于级联字典的人群异常检测方法及系统

【技术领域】
[0001] 本发明设及一种视频处理技术,尤其设及一种基于级联字典的人群异常检测方法 及系统,属于智能视频处理领域,适用于公共安全视频监控中的群体异常事件检测领域。

【背景技术】
[0002] 人群异常检测,通常也被称为人群异常事件检测,是指在人群视频序列中检测出 不符合正常行为模式的处理过程。先前关于异常事件检测的研究,通常将人群异常划分为 两种类别;局部异常和全局异常。局部异常通常指个体的行为与状态不同于其周围团体,即 个体目标的行为模式与全体的行为模式不一致,例如在交通场景中与大多数人车流向相逆 行驶,排队购物或买票中的插队等不符合正常行为模式的个体状态。全局异常通常指整个 监控场景下的行为模式极大的异于普通状态下的行为模式,例如斗殴、踩踏、恐慌等各种临 时突发群体性事件。不管是基于个体行为的异常检测模型,还是基于整体状态的异常检测 模型,检测人群异常事件的性能取决于两方面的内容,即异常事件表示和异常事件度量。
[0003] 在异常事件表示方面,通常是通过视频或图像中的运动信息来表达视频事件的状 态,例如基于光流场的时空直方图,其考虑了图像邻域与多帖的视频信息,从而在时间和 空间两方面描述运动物体的状态(参见H.化ong, J.化i, M. Visontai, Detecting unusual activity in video. CVPR,2004)。除此之外,异常事件中的人群碰撞状态近似于异常群体 运动状态,例如踩踏、斗殴和恐慌在具有突兀变化运动信息的同时,也出现了剧烈的人群碰 撞情况,因此可W通过个体之间的方向、速度描述人群碰撞势能,进而度量人群异常事件的 可貪bt生。(参见 Xinyi Cui, Qingshan Liu, Mingchen Gao, Dimitris N. Metaxas. Abnormal detection using interaction energy potentials. CVPR 2011)。异常事件的表示,即视 频中的视觉特征,影响着人群异常检测算法的处理速度与检测精度,虽然目前的异常事件 表达方法能够很好的描述人群状态,但是未能达到实时提取和处理的效果。
[0004] 在异常事件的度量方面,是根据视觉特征形成"视觉词袋",对总体特征样本做 分布统计,从而获取正常模式下的场景特征分布,一旦获取的视频特征极大地偏离正常模 型,则被定义为异常事件。例如基于混合的概率主成分分析模型的异常度量方法,其利 用正常的视频数据获得场景视频特征的主成分,通过度量测试视频序列中的主成分与常 规场景主成分的不同来度量该场景的异常状态(参见J. Kim and K.Grauman,"化serve Locally, Infer Globally:A Space-Time MRF for Detecting Abnormal Activities with Incremental Updates, "Proc. IEEE Conf.Computer Vision and Pattern Recognition, 2009.)。社会力模型从直观的个体间冲突该个角度来描述群体行为,通过个 体间的相对方向、相对速度来度量个体间的交叉能量信息,表明个体之间的冲突、形态变化 越剧烈,该能量值的数值越大,从而根据该能量值来判断场景的异常状况(参见D.化化ing and P. Molna' r, "Social Force Model for Pedestrian Dynamics, Physical Rev. E, v ol. 51,no. 5, pp. 4282-4286, 1995)。然而现有的异常事件度量算法,很少能在复杂场景中实 时地检测人群异常。


【发明内容】

[0005] 本发明所要解决的技术问题是,针对现有的异常事件检测方法在现实场景上未达 到实时检测的效果,且由于监控的现实场景存在着环境变化、目标形变W及噪声的影响,使 得传统的异常事件检测方法很难在复杂的环境中实时检测人群异常事件。本发明的目的是 提出一种复杂环境下实时准确的基于级联字典的人群异常检测方法及系统。
[0006] 本发明解决上述技术问题的技术方案如下:一种基于级联字典的人群异常检测方 法,具体包括W下步骤:
[0007] 步骤1 ;对输入的训练视频进行预处理,得到多个视频梯度特征;
[000引步骤2 ;将多个视频梯度特征输入多个训练字典中进行迭代训练,得到级联字典;
[0009] 步骤3 ;接收外部输入的需检测的视频流,对视频流进行预处理,得到视频特征, 将视频特征输入级联字典进行检测;
[0010] 步骤4;对级联字典中多个训练字典的检测结果进行判断,如果存在正常状态,判 断视频流为正常事件,结束;否则,判断视频流为异常事件,结束。
[0011] 本发明的有益效果是:本发明与传统的异常事件检测方法相比,采用基于级联字 典的检测方法对人群异常事件有更好的区分性,方法利用字典之间的差异性更好的适应复 杂场景与多样的人群移动模式,在一定程度上提升了检测精度。而且,级联架构采用的是由 粗粒度到细粒度的流水线型判断,能够将易判断的正常视频段在前几个级检测完毕,提高 了运算效率与总体处理速度。
[0012] 在上述技术方案的基础上,本发明还可W做如下改进。
[0013] 进一步,所述步骤2具体包括W下步骤:
[0014] 步骤2. 1 ;将多个视频梯度特征输入一个训练字典;
[0015] 步骤2. 2 ;对多个视频梯度特征针对当前训练字典进行训练,得到当前最优检测 字典;
[0016] 步骤2. 3 ;对于当前最优检测字典,判断所有视频梯度特征训练后是否达到收敛 条件;如果是,执行步骤2. 6 ;否则,执行步骤2. 4 ;
[0017] 步骤2. 4 ;判断是否还存在未训练的训练字典,如果是,执行步骤2. 5 ;否则,执行 步骤2. 6 ;
[001引步骤2. 5 ;将未达到收敛条件的视频梯度特征发送到下一个训练字典中进行训 练,下一个训练字典成为当前训练字典,执行步骤2. 2 ;
[0019] 步骤2. 6 ;完成训练的多个训练字典的集合构成级联字典。
[0020] 进一步,所述步骤2. 2具体包括W下步骤:
[0021] 步骤2. 2. 1 ;将多个视频梯度特征预处理为视频特征样本,候选字典数量设定为 k ;
[0022] 步骤2. 2. 2 ;根据当前的视频特征样本,通过块梯度下降法优化函数,获取视频特 征样本在k个维度下训练的候选字典;
[0023] 步骤2. 2. 3 ;选取误差最小的候选字典作为的最优检测字典。
[0024] 进一步,所述步骤1中所述预处理包括高斯平滑滤波、视频分帖、运动噪声去除和 视频梯度特征提取。
[0025] 进一步,所述步骤4具体包括W下步骤:
[0026] 步骤4. 1 ;根据级联字典中一个训练字典进行字典重构,得到字典重构误差,判断 字典重构误差是否大于预设阔值,如果是,判断为异常状态,执行步骤4. 2 ;否则,为正常状 态,判断视频流为正常事件,结束;
[0027] 步骤4.2 ;判断当前级联字典中是否存在未训练的训练字典,如果是,执行步骤 4. 3 ;否则,判断视频流为异常事件,结束;
[002引步骤4. 3 ;将视频特征输入到级联字典的下一个训练字典中,执行步骤4. 1。
[0029] 本发明解决上述技术问题的技术方案如下:一种基于级联字典的人群异常检测系 统,包括预处理模块、迭代训练模块、检测模块和结果判断模块;
[0030] 所述预处理模块用于对输入的训练视频进行预处理,得到多个视频梯度特征;
[0031] 所述迭代训练模块用于将多个视频梯度特征输入多个训练字典中进行迭代训练, 得到级联字典;
[0032] 所述检测模块用于接收外部输入的需检测的视频流,对视频流进行预处理,得到 视频特征,将视频特征输入级联字典进行检测;
[0033] 所述结果判断模块用于对级联字典中多个训练字典的检测结果进行判断,如果存 在正常状态,判断视频流为正常事件;否则,判断视频流为异常事件。
[0034] 本发明的有益效果是:本发明与传统的异常事件检测方法相比,采用基于级联字 典的检测方法对人群异常事件有更好的区分性,方法利用字典之间的差异性更好的适应复 杂场景与多样的人群移动模式,在一定程度上提升了检测精度。而且,级联架构采用的是由 粗粒度到细粒度的流水线型判断,能够将易判断的正常视频段在前几个级检测完毕,提高 了运算效率与总体处理速度。
[0035] 在上述技术方案的基础上,本发明还可W做如下改进。
[0036] 进一步,所述迭代训练模块包括输入模块、训练模块和收敛判断模块;
[0037] 所述输入模块用于将多个视频梯度特征输入一个训练字典;
[003引所述训练模块用于对多个视频梯度特征针对当前训练字典进行训练,得到当前最 优检测字典;
[0039] 所述收敛判断模块用于对于当前最优检测字典,判断所有视频梯度特征训练后是 否达到收敛条件;如果是,完成训练的多个训练字典的集合构成级联字典;否则,将未达到 收敛条件的视频梯度特征发送到下一个训练字典中进行训练,下一个训练字典成为当前训 练字典,转至训练模块;直至所有训练字典完成训练。
[0040] 进一步,所述训练模块包括设定模块、优化模块和最优选取模块;
[0041] 所述设定模块用于将多个视频梯度特征预处理为视频特征样本,候选字典数量设 定为k ;
[0042] 所述优化模块用于根据当前的视频特征样本,通过块梯度下降法优化函数,获取 视频特征样本在k个维度下训练的候选字典;
[0043] 所述最优选取模块用于选取误差最小的候选字典作为的最优检测字典。
[0044] 进一步,所述预处理包括高斯平滑滤波、视频分帖、运动噪声去除和视频梯度特征 提取。
[0045] 进一步,所述结果判断模块将级联字典中所有训练字典依次进行字典重构,得到 多个字典重构误差,分别判断字典重构误差是否大于预设阔值,如果所有字典重构误差都 大于预设阔值,则判断判断视频流为异常事件;否则,判断视频流为正常事件。

【专利附图】

【附图说明】
[0046] 图1为本发明所述的一种基于级联字典的人群异常检测方法流程图;
[0047] 图2为本发明所述的一种基于级联字典的人群异常检测系统结构框图;
[0048] 图3为本发明实施例所述的一种基于级联字典的人群异常检测方法流程图。
[0049] 附图中,各标号所代表的部件列表如下:
[0050] 1、预处理模块,2、迭代训练模块,3、检测模块,4、结果判断模块,21、输入模块,22、 训练模块,23、收敛判断模块。

【具体实施方式】
[0化1] W下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并 非用于限定本发明的范围。
[0化2] 如图1所示,为本发明所述的一种基于级联字典的人群异常检测方法,具体包括 W下步骤:
[0化3] 步骤1 ;对输入的训练视频进行预处理,得到多个视频梯度特征;
[0化4] 步骤2 ;将多个视频梯度特征输入一个训练字典;
[0化5] 步骤3 ;对多个视频梯度特征针对当前训练字典进行训练,得到当前最优检测字 化.
[0化6] 步骤4;对于当前最优检测字典,判断所有视频梯度特征训练后是否达到收敛条 件;如果是,执行步骤7 ;否则,执行步骤5 ;
[0化7] 步骤5 ;判断是否还存在未训练的训练字典,如果是,执行步骤6 ;否则,执行步骤 7 ;
[0化引步骤6 ;将未达到收敛条件的视频梯度特征发送到下一个训练字典中进行训练, 下一个训练字典成为当前训练字典,执行步骤3 ;
[0059] 步骤7 ;完成训练的多个训练字典的集合构成级联字典;
[0060] 步骤8 ;接收外部输入的需检测的视频流,对视频流进行预处理,得到视频特征, 将视频特征输入级联字典进行检测;
[0061] 步骤9;根据级联字典中一个训练字典进行字典重构,得到字典重构误差,判断字 典重构误差是否大于预设阔值,如果是,判断为异常状态,执行步骤10 ;否则,为正常状态, 判断视频流为正常事件,结束;
[0062] 步骤10 ;判断当前级联字典中是否存在未训练的训练字典,如果是,执行步骤11 ; 否则,判断视频流为异常事件,结束;
[0063] 步骤11 ;将视频特征输入到级联字典的下一个训练字典中,执行步骤9。
[0064] 所述步骤3具体包括W下步骤:
[00化]步骤3. 1 ;将多个视频梯度特征预处理为视频特征样本,候选字典数量设定为k ; [0066] 步骤3. 2 ;根据当前的视频特征样本,通过块梯度下降法优化函数,获取视频特征 样本在k个维度下训练的候选字典;
[0067] 步骤3. 3 ;选取误差最小的候选字典作为的最优检测字典。
[0068] 所述步骤1中所述预处理包括高斯平滑滤波、视频分帖、运动噪声去除和视频梯 度特征提取。
[0069] 如图2所示,为本发明所述的一种基于级联字典的人群异常检测系统,包括预处 理模块1、迭代训练模块2、检测模块3和结果判断模块4 ;
[0070] 所述预处理模块1用于对输入的训练视频进行预处理,得到多个视频梯度特征;
[0071] 所述迭代训练模块2用于将多个视频梯度特征输入多个训练字典中进行迭代训 练,得到级联字典;
[0072] 所述检测模块2用于接收外部输入的需检测的视频流,对视频流进行预处理,得 到视频特征,将视频特征输入级联字典进行检测;
[0073] 所述结果判断模块4用于对级联字典中多个训练字典的检测结果进行判断,如果 存在正常状态,判断视频流为正常事件;否则,判断视频流为异常事件。
[0074] 所述迭代训练模块2包括输入模块21、训练模块22和收敛判断模块23 ;
[0075] 所述输入模块21用于将多个视频梯度特征输入一个训练字典;
[0076] 所述训练模块22用于对多个视频梯度特征针对当前训练字典进行训练,得到当 前最优检测字典;
[0077] 所述收敛判断模块23用于对于当前最优检测字典,判断所有视频梯度特征训练 后是否达到收敛条件;如果是,完成训练的多个训练字典的集合构成级联字典;否则,将未 达到收敛条件的视频梯度特征发送到下一个训练字典中进行训练,下一个训练字典成为当 前训练字典,转至训练模块22 ;直至所有训练字典完成训练。
[0078] 所述训练模块包括设定模块、优化模块和最优选取模块;
[0079] 所述设定模块用于将多个视频梯度特征预处理为视频特征样本,候选字典数量设 定为k ;
[0080] 所述优化模块用于根据当前的视频特征样本,通过块梯度下降法优化函数,获取 视频特征样本在k个维度下训练的候选字典;
[0081] 所述最优选取模块用于选取误差最小的候选字典作为的最优检测字典。
[0082] 所述预处理包括高斯平滑滤波、视频分帖、运动噪声去除和视频梯度特征提取。
[0083] 所述结果判断模块将级联字典中所有训练字典依次进行字典重构,得到多个字典 重构误差,分别判断字典重构误差是否大于预设阔值,如果所有字典重构误差都大于预设 阔值,则判断判断视频流为异常事件;否则,判断视频流为正常事件。
[0084] 本发明针对传统人群异常检测方法未能实时处理复杂场景该一问题,发明了一种 基于级联字典进行异常事件检测的方法和装置,利用训练得到的级联字典,对监控视频进 行逐级检测,当多个字典输出结果为异常则判决为异常事件,否则判决为正常事件,从而实 现快速精确的人群异常检测。
[0085] 本发明所采用的人群异常事件检测方法分为离线训练和在线检测两大步骤,训练 阶段利用现有的视频训练生成符合场景要求的级联字典,检测阶段则利用该级联字典对视 频场景进行人群异常事件检测,其具体过程如图3所示。
[0086] 在训练阶段,先对输入视频进行预处理,用W提取视频特征。预处理过程包括高斯 平滑滤波、视频分帖、运动噪声去除W及视频梯度特征提取。对于获取的视频梯度特征,根 据字典学习的误差重构函数建立对应的最优级联字典,其函数定义为:
[0087]

【权利要求】
1. 一种基于级联字典的人群异常检测方法,其特征在于,具体包括以下步骤: 步骤1:对输入的训练视频进行预处理,得到多个视频梯度特征; 步骤2 :将多个视频梯度特征输入多个训练字典中进行迭代训练,得到级联字典; 步骤3 :接收外部输入的需检测的视频流,对视频流进行预处理,得到视频特征,将视 频特征输入级联字典进行检测; 步骤4 :对级联字典中多个训练字典的检测结果进行判断,如果存在正常状态,判断视 频流为正常事件,结束;否则,判断视频流为异常事件,结束。
2. 根据权利要求1所述的一种基于级联字典的人群异常检测方法,其特征在于,所述 步骤2具体包括以下步骤: 步骤2. 1 :将多个视频梯度特征输入一个训练字典; 步骤2. 2 :对多个视频梯度特征针对当前训练字典进行训练,得到当前最优检测字典; 步骤2. 3 :对于当前最优检测字典,判断所有视频梯度特征训练后是否达到收敛条件; 如果是,执行步骤2. 6 ;否则,执行步骤2. 4 ; 步骤2. 4 :判断是否还存在未训练的训练字典,如果是,执行步骤2. 5 ;否则,执行步骤 2. 6 ; 步骤2. 5 :将未达到收敛条件的视频梯度特征发送到下一个训练字典中进行训练,下 一个训练字典成为当前训练字典,执行步骤2. 2 ; 步骤2. 6 :完成训练的多个训练字典的集合构成级联字典。
3. 根据权利要求2所述的一种基于级联字典的人群异常检测方法,其特征在于,所述 步骤2. 2具体包括以下步骤: 步骤2. 2. 1 :将多个视频梯度特征预处理为视频特征样本,候选字典数量设定为k ; 步骤2. 2. 2 :根据当前的视频特征样本,通过块梯度下降法优化函数,获取视频特征样 本在k个维度下训练的候选字典; 步骤2. 2. 3 :选取误差最小的候选字典作为的最优检测字典。
4. 根据权利要求1-3任一项所述的一种基于级联字典的人群异常检测方法,其特征在 于,所述步骤1中所述预处理包括高斯平滑滤波、视频分帧、运动噪声去除和视频梯度特征 提取。
5. 根据权利要求4所述的一种基于级联字典的人群异常检测方法,其特征在于,所述 步骤4具体包括以下步骤: 步骤4. 1 :根据级联字典中一个训练字典进行字典重构,得到字典重构误差,判断字典 重构误差是否大于预设阈值,如果是,判断为异常状态,执行步骤4. 2 ;否则,为正常状态, 判断视频流为正常事件,结束; 步骤4. 2 :判断当前级联字典中是否存在未训练的训练字典,如果是,执行步骤4. 3 ;否 贝1J,判断视频流为异常事件,结束; 步骤4. 3 :将视频特征输入到级联字典的下一个训练字典中,执行步骤4. 1。
6. -种基于级联字典的人群异常检测系统,其特征在于,包括预处理模块、迭代训练模 块、检测模块和结果判断模块; 所述预处理模块用于对输入的训练视频进行预处理,得到多个视频梯度特征; 所述迭代训练模块用于将多个视频梯度特征输入多个训练字典中进行迭代训练,得到 级联字典; 所述检测模块用于接收外部输入的需检测的视频流,对视频流进行预处理,得到视频 特征,将视频特征输入级联字典进行检测; 所述结果判断模块用于对级联字典中多个训练字典的检测结果进行判断,如果存在正 常状态,判断视频流为正常事件;否则,判断视频流为异常事件。
7. 根据权利要求6所述的一种基于级联字典的人群异常检测系统,其特征在于,所述 迭代训练模块包括输入模块、训练模块和收敛判断模块; 所述输入模块用于将多个视频梯度特征输入一个训练字典; 所述训练模块用于对多个视频梯度特征针对当前训练字典进行训练,得到当前最优检 测字典; 所述收敛判断模块用于对于当前最优检测字典,判断所有视频梯度特征训练后是否达 到收敛条件;如果是,完成训练的多个训练字典的集合构成级联字典;否则,将未达到收敛 条件的视频梯度特征发送到下一个训练字典中进行训练,下一个训练字典成为当前训练字 典,转至训练模块;直至所有训练字典完成训练。
8. 根据权利要求7所述的一种基于级联字典的人群异常检测系统,其特征在于,所述 训练模块包括设定模块、优化模块和最优选取模块; 所述设定模块用于将多个视频梯度特征预处理为视频特征样本,候选字典数量设定为 k ; 所述优化模块用于根据当前的视频特征样本,通过块梯度下降法优化函数,获取视频 特征样本在k个维度下训练的候选字典; 所述最优选取模块用于选取误差最小的候选字典作为的最优检测字典。
9. 根据权利要求6-8任一项所述的一种基于级联字典的人群异常检测系统,其特征在 于,所述预处理包括高斯平滑滤波、视频分帧、运动噪声去除和视频梯度特征提取。
10. 根据权利要求9所述的一种基于级联字典的人群异常检测系统,其特征在于,所述 结果判断模块将级联字典中所有训练字典依次进行字典重构,得到多个字典重构误差,分 别判断字典重构误差是否大于预设阈值,如果所有字典重构误差都大于预设阈值,则判断 判断视频流为异常事件;否则,判断视频流为正常事件。
【文档编号】G06K9/00GK104504367SQ201410720230
【公开日】2015年4月8日 申请日期:2014年12月1日 优先权日:2014年12月1日
【发明者】孙利民, 文辉, 葛仕明, 陈水仙 申请人:中国科学院信息工程研究所
再多了解一些
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1