一种隔栏递物检测算法的制作方法

文档序号:14295054阅读:1495来源:国知局

本发明属于安防技术中的视频监控领域,涉及模式识别、图形图像处理、视频分析等,利用目标检测跟踪及推理的算法实现隔栏递物检测,主要用到深度学习、均值偏移(meanshift)跟踪算法、贝叶斯网络等。



背景技术:

出于安全考虑,围栏在现实生活中很常见,是一种常规的周界防范设施,围栏能在物理上对空间进行隔离,以达到阻止非授权人或者车等目标进入。围栏有别于围墙,一般墙体是实心的,无法穿透的,而围栏通常是栏杆组合而成,伸手可以透过去,甚至有些小的目标如小孩或者小猫小狗等,能通过围栏的孔隙穿过。所谓隔栏递物,就是有两人或者多人隔着围栏进行物品的传递。比如地铁安全防范系统里,通过围栏闸机等将空间区域分为安检前的区域和安检后的区域,所有的乘客都得通过安检门或者安检机以及人工安检等环节,才能进入地铁站台,乘坐地铁。然而,却有不少乘客不出站与围栏外没有进站的乘客进行物品交换,围栏外的乘客及其物品,很多情况下都没有经过安检,这样就给地铁造成了安全隐患,如果向围栏里传递的是危险品,那将给其它乘客人身安全造成威胁。而围栏分布广,靠视频监控人工盯防,已基本不可能。隔栏递物示意图如图1所示。

围栏本质上属于周界的一种,利用周界报警的方法和设备,在一定程度上对隔栏递物有震慑作用,能减少隔栏递物的发生,但隔栏递物不同于普通的攀爬围栏,所以传统的周界报警方法并不适用隔栏递物的检测。比如带有红外对射的周界报警器,一般装在围栏上方,目的是为了检测人攀越围栏,但隔栏递物通常不需要攀越围栏,只是通过围栏的中间的空隙传递物品。又如振动光缆,靠的是检测人攀爬围栏时产生的振动,而隔栏递物通常并不会接触围栏,因此也不会产生振动,因此振动光缆很有可能检测不到,相反,有不少人依靠在围栏上休息或者树叶落下等都会产生振动,这样会导致大量的误报。因此,传统的周界报警算法在检测隔栏递物这种行为上通常会失效。

随着人工智能技术的发展,视频分析技术也取了了重大进展,因此,通过对视频内容分析,使基于视频分析的隔栏递物检测成为可能。

在最近几年,基于深度学习的目标检测算法取得了重大突破,主要是卷积神经网络带来了目标检测识别率的大幅提升。所谓目标检测,任务就是给出一幅图像,定位出目标在图中的位置大小,并给出目标的类别,比如人脸检测和行人检测。利用卷积神经网络能检测出场景中的人和各种物品,但这些算法通常都是基于单帧图像检测,这样并不能检测出隔栏递物这种行为。



技术实现要素:

本发明为了检测隔栏递物行为,提出了基于深度学习、均值偏移跟踪算法和贝叶斯网络相结合的隔栏递物检测算法。利用卷积神经网络在目标检测上的优势,在没有任何预测信息下对单幅图像(视频中的帧)进行人体和物品的检测。在卷积神经网络检测到的目标(包括目标坐标、宽高、类别、概率等)基础上,利用均值偏移跟踪算法计算下一帧的目标预测位置,将此预测位置反馈给卷积神经网络的候选目标选择层。基于检测目标和跟踪目标的重叠程度计算两者的匹配率,更新跟踪目标的轨迹和所属类别概率等。在得到了跟踪目标轨迹和类别概率这些数据后,输入给贝叶斯网络,判断是否有隔栏递物行为发生。本发明结合了深度学习算法和传统计算机视觉的算法,实现了基于视频分析的隔栏递物行为检测,大大提高周界区域的安全性。

本发明提供的基于深度学习、均值偏移跟踪算法和贝叶斯网络相结合的隔栏递物检测算法,包括:

从高清网络摄像头(ipc)或者网络硬盘录像机(nvr)里获取视频流,通常取第一码流,即高清分辨率的码流如1080p,将视频流解码为一帧一帧的图像,通常是h.264或者h.265编码格式,解码后的图像一般是yuv的图像,然后将yuv通过颜色空间转换形成rgb图像,以下统称为帧图像。

利用事先设置的区域(roi),从帧图像中提取出感兴趣的像素,这些像素是围栏两边区域,在这个范围内发生隔栏递物的概率较高,而远离围栏的区域,本发明中的图像不包含在内,以规避远处的人造成的误报。在本发明中,如果不是在感兴趣区域中的像素,用r=g=b=128的值填充。最终形成只保留roi内像素的帧图像f。

将帧图像f输入给基于位置预测的深度学习目标检测模块,位置预测来源于均值偏移跟踪算法,如果是第一帧,则采用默认的基于单帧的目标检测。深度学习目标检测模块采用区域卷积神经网络,共识别人体、背包、手提包、行李箱、手提袋、矿泉水瓶、饮水杯等7种类别。将帧图像f缩放到本发明的基准分辨率480x480的图像i,然后在i上进行全图的区域卷积神经网络提取特征,接着将i划分为15x15个块b。对于每个块b,如果当前块没有跟踪反馈的预测信息,则在该块上预测5个目标框(每个目标框包括目标宽、目标高、目标中心坐标x,目标中心坐标y)和类别置信度;如果当前块是含有跟踪反馈的预测信息,则在该块上只预测2个目标框,其中一个的位置信息由跟踪反馈的预测信息得到,另一个目标框则同没有跟踪反馈信息一样。每个目标框通过卷积神经网络得到的特征计算该目标框属于某一类(7类)的概率,这样,全图最多形成15x15x5即1125个含有位置信息和分类概率信息的预测框,最少预测框则是15x15x2为450个。将预测框通过由重叠率决定的合并机制进行合并,并且只有同一类的预测框才能合并,最终输出全图里7种类别目标的检测结果,每个结果包括目标的中心坐标、宽高、目标属于哪个类别的概率。

将检测到的目标,以目标中心为起始点,以颜色直方图为特征,通过均值偏移跟踪算法迭代搜索与目标最匹配的区域,采用的bhattacharya系数作为目标模板和候选目标的相似性测度,最终能得到在局部范围内与检测到的目标最匹配的坐标点,并将此坐标点反馈给卷积神经网络作为预测信息。在本发明中,凡是被均值偏移最终得到的区域所覆盖的块b,则都共用预测的信息。

当前帧检测到的目标,与上一帧检测到的目标,属于同一类时,通过两两之间计算目标的重叠面积,生成重叠面积矩阵,作为上帧目标和当前检测到的目标之间的特征匹配矩阵。当重叠面积大于一定阈值时,则认为是同一个目标(跟踪目标匹配),此时,更新该目标的轨迹以及目标的类别概率;在当前帧中,若没有与上帧匹配的目标,则作为新出现的目标,建立新的跟踪目标;上帧目标中,若没有当前帧检测的目标与之匹配,则认为是消失的目标,从跟踪队列里删除。通过这一步骤,逐帧建立起人体和各种物品的跟踪轨迹以及实时更新的类别概率。

通过以上步骤,可以得到如下变量:围栏左侧人数nl,围栏右侧人数nr,围栏两侧roi里检测到的人体的平均概率ph,左侧人体的平均运动方向vhl,右侧人体的平均运动方向vhr,围栏附近人体之间检测到的物品的平均概率po,物品的平均运动方向vo。以上的运动方向都以在水平面上垂直围栏的方向为基准方向,与此基准方向的夹角θ作为运动方向角,以cosθ作为运动方向的概率值。设发生隔栏递物报警的变量是a,则可以构建变量a与nl、nr、ph、vhl、vhr、po、vo的贝叶斯网络,通过观测变量nl、nr、ph、vhl、vhr、po、vo来估计a发生的概率,最终实现隔栏递物的检测。

传统隔栏递物的检测,主要靠人盯着监控画面看,长时间会导致疲劳,或者是采用红外对射和振动检测等手段,这些会导致大量的误报。本发明中基于深度学习、均值偏移跟踪算法和贝叶斯网络相结合的隔栏递物检测算法,能将安保人员从长时间盯着监控画面的高负荷工作中解放出来,又能大幅度减少误报。

附图说明

图1是本发明中隔栏递物示意图。

图2是本发明基于深度学习、均值偏移跟踪算法和贝叶斯网络相结合的隔栏递物检测算法流程图。

图3是本发明卷积神经网络各层说明示意图。

图4是本发明隔栏递物贝叶斯网络结构图。

具体实施方式

下面结合附图和具体实例对本发明进行进一步解释。应该指出的是,下文所描述的实例旨在更好的理解本发明,只是本发明中的一部分,并不因此而限制本发明的保护范围。

如图2所示,本发明实现由采集每帧图像到报警联动等一系列步骤。

步骤201中,从前端设备中采集视频流,前端设备可以是ipc或者nvr或者dvr等,但不局限于此,只要能获取到视频流的前端设备都可以。采集到视频流后,通过解码器解码出yuv格式的帧图像,然后将yuv格式图像通过颜色空间转换形成rgb图像。

步骤202中,用预先人工标定的图层roi图层,凡是落入roi图层的像素,就将此像素作为有效像素。通过这一步骤,可以过滤掉远处干扰目标的影响,最终形成输入到卷积神经网络的帧图像。

步骤203,如图3所示,本发明采用16个卷积层、4个池化层、1个合并层和1个全连接层的深度学习网络,最后是1个分类层。卷积层采用7x7、5x5和3x3的卷积核。池化层采用2x2的窗口,以一层一层减少特征空间的大小。第16层和第19层合并输出为20层。网络的参数训练先用标定类别的两百万张样本进行预训练,然后用监控场景中(选择地铁场景、小区门口及周边场景等)的7类目标的图像进行参数微调,最后收敛后得到卷积神经网络的网络参数。检测时,将帧图像缩放到统一分辨率480x480的图像i,然后利用卷积神经网络提取特征,将i划分为15x15个块,每个块根据跟踪反馈的信息筛选预测框,估计属于7类目标的概率、坐标和宽高,最终将大于一定阈值的块合并,形成7类目标检测的结果。每类目标检测的结果用中心坐标和宽高,以及概率表示。

步骤204中,根据步骤203检测出的目标,利用均值偏移算法预估下一帧图像的目标位置。均值偏移是一种梯度优化算法,利用均值偏移迭代来搜索与目标模型最匹配的区域,是一种求局部最优解的算法。本发明中采用bhattacharya系数作为目标模板和候选目标的相似性测度。设是以y为中心的候选目标区域内像素坐标,核函数k(x)的窗宽是h,则在特征u=1,…,m的概率分布由以下公式给出:

其中

是归一化系数。如果选特征为颜色,则表示的就是归一化的并且加权的颜色直方图,加权系数由像素点距中心点y的远近与核函数k(x)决定。有了被跟踪的目标特征的概率分布和候选目标的特征的概率分布之后,则可以定义bhattacharya系数

并且可以定义被跟踪目标与候选目标特征之间的距离

通过最小化d(y),可以得到目标新的坐标点的迭代公式,如下:

其中,g(x)=-k′(x)

通过均值偏移得到的目标预测位置反馈给步骤203卷积神经网络。

步骤205在步骤203和204上,当前帧检测到的目标,与上一帧检测到的目标,属于同一类时,通过两两之间计算目标的重叠面积,生成重叠面积矩阵,计算重叠系数作为上帧目标和当前检测到的目标之间的特征匹配矩阵。两个目标a和b之间的重叠系数如下:

当η大于一定阈值时,则认为是同一个目标(跟踪目标匹配),此时,更新该目标的轨迹以及目标的类别概率;在当前帧中,若没有与上帧匹配的目标,则作为新出现的目标,建立新的跟踪目标;上帧目标中,若没有当前帧检测的目标与之匹配,则认为是消失的目标,从跟踪队列里删除。通过这一步骤,逐帧建立起人体和各种物品的跟踪轨迹以及实时更新的类别概率。

步骤206通过步骤205得到变量围栏左侧人数nl,围栏右侧人数nr,围栏两侧roi里检测到的人体的平均概率ph,左侧人体的平均运动方向vhl,右侧人体的平均运动方向vhr,围栏附近人体之间检测到的物品的平均概率po,物品的平均运动方向vo。建立如图4所示的贝叶斯网络,假设在a条件下变量nl、nr、ph、vhl、vhr、po、vo相互独立,则

p(nl,nr,ph,po,vhl,vhr,vo|a)

=p(nl|a)·p(nr|a)·p(ph|a)·p(po|a)·p(vhl|a)·p(vhr|a)·p(vo|a)

所以,在观测到nl、nr、ph、vhl、vhr、po、vo时,a发生的概率如下

p(a|nl,nr,ph,po,vhl,vhr,vo)

∝p(nl|a)·p(nr|a)·p(ph|a)·p(po|a)·p(vhl|a)·p(vhr|a)·p(vo|a)

假设p(nl|a)、p(nr|a)、p(ph|a)、p(po|a)、p(vhl|a)、p(vhr|a)、p(vo|a)都服从高斯分布,用实际的样本来估计该贝叶斯网络的参数。最终根据nl、nr、ph、vhl、vhr、po、vo是否发生了来估计隔栏递物发生的概率。总的来说,当有两人分别从围栏两侧接近并有包等物品从围栏上方经过时,发生隔栏递物的概率较高。

本发明将传统的均值偏移算法、贝叶斯网络等与深度学习算法结合,通过概率估计的模式来预估隔栏递物行为的发生,具有更高的准确率,更好的推广性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1