一种基于计算机视觉的多镜头行人识别与跟踪的制作方法

文档序号:23422031发布日期:2020-12-25 11:47阅读:79来源:国知局
一种基于计算机视觉的多镜头行人识别与跟踪的制作方法

本发明涉及视频监控技术领域,具体涉及一种基于计算机视觉的多镜头行人识别与跟踪。



背景技术:

目前道路监控系统在全球异军突起,世界各国的城市监控进入扩张和改变的阶段,在这种需求变革下,安防监控系统将需要更多化与ai人工智能化的整体解决方案。现代化的公共安全已不再仅止于无限的扩充影像监控覆盖密度、广度以及追求超高清解晰度,而是透过这些ai人工智能化的手段与工具,让传统安防监控时代更进一步,转向注重数据采集、应用和管理的ai人工智能化安防监控时代。随着目前监控设备数量的大量倍增,影像解析度的不断提高,公共安全搜集到的影像和图片之数据量呈现等比几何的增长,再加上影像解析度的提高,连带使伺服器的处理能力和使用率都产生了更高的门槛。因此,安防监控影像监控在影像调阅、门禁进出数据、资料的储存、运算等技术上都面临巨大挑战。

跨摄像头多目标跟踪是监控视频领域一个非常重要的研究课题,本文以下内容直接简称为mtmc。单摄像头的单目标跟踪和多目标跟踪目前来说还有一些不错的解决方法,但是mtmc这个领域总得来说还没形成一些解决套路,有非常大的研究空间。

为此,本案发明了一种跨摄像头的行人跟踪方法。通过不同摄像头采集到的数据来生成人物的行为轨迹,对于特殊人群进行行为分析并作出预警,对轨迹分析还能获得一些行为习惯,还有能够检索出目标人物序列,减少人工操作。



技术实现要素:

本发明的目的在于提供一种基于计算机视觉的多镜头行人识别与跟踪。

为达此目的,本发明采用以下技术方案:

提供一种基于计算机视觉的多镜头行人识别与跟踪,包括以下步骤:

步骤1:摄像头设备的部署和视频流采集

对监控区域的重要入口,各个路径,岔路口等地方都部署摄像头,用来跟踪和识别行人;获取某一个摄像头或者某一个视频时通过内网的内部交换网络,协议整个配套的,采用rtsp的访问协议,在访问连接上设置一个限制;

步骤2:单相机下的跟踪模块

给定一段视频,jde模型处理每个帧并输出边框和相应的外观嵌入;计算观测值的嵌入与之前存在的轨迹池中的嵌入之间的关联矩阵;使用匈牙利算法将观测分配给轨迹;卡尔曼滤波器用于平滑轨迹并预测先前轨迹在当前帧中的位置;如果所分配的观测值在空间上与预测位置相距太远,则该分配将被拒绝;然后对一个跟踪器的嵌入进行如下更新,如果没有任何观察值分配给tracklet,则将该tracklet标记为丢失;如果丢失的时间大于给定的阈值,则标记为已丢失的跟踪,将从当前的跟踪池中删除;或者将在分配步骤中重新找到;采用了一种在单个深度网络中联合学习检测器和嵌入模型(jde)的早期尝试;提出的jde使用单个网络来同时输出检测结果和检测框的相应外观嵌入;相比之下,sde方法和两阶段方法分别以重新采样的像素(边界框)和特征图为特征;边界框和特征图都被馈入单独的re-id模型中以提取外观特征;其中jde的损失函数采用trihardloss,这个loss是在三元组损失的基础上考虑了难例样本对最后损失的贡献;假设两张输入图片i1和i2,通过网络前向传播得到特征f1和f2,两张图片特征向量的欧式距离为:

di1,i2=||f1-f2||2

图片a和图片p为一对正样本对,图片a和图片n为一对负样本对,tripletloss为:

lt=(da,p-da,n+α)+

式中(x)+表示max(x,0),α为人工设置的阈值参数

trihardloss:

对于每一个训练batch,随机挑选p个id的行人,每个行人随机挑选k张不同的图片,即一个batch含有pxk,a为和a相同id的图片集,其余不同id的图片集为b;

步骤3:re_id合并单镜头同一id行人

把全局特征跟多粒度局部特征结合在一起,全局特征负责整体的宏观上大家共有的特征的提取,然后把图像切分成不同块,每一块不同粒度,其去负责不同层次或者不同级别特征的提取;把全局和局部的特征结合在一起,这样能够有丰富的信息和细节去表征输入图片的完整情况;

步骤4:跨相机的跟踪

将一整段轨迹的行人特征取平均值设为a作为这个轨迹的特征,然后采用re-ranking进一步优化排序;对跨相机的跟踪问题,采用二叉树搜索的算法遍历,其中的特征匹配采用提取的reid特征,所提取的reid特征关系到模型的鲁棒性;

步骤5:re_label模块解决行id-switch

通过将多个监控摄像头所监测到的、位于不同位置的行人联系起来,出现视觉表观特征不可靠时,比如戴口罩化妆等,基于行为特征(如步态)的分析就成为人体再标识问题的可选解决方案;通过分析单镜头跟踪结果,经过reid特征将同一id的合并之后,还是有一部分id-switch的情形来自于两个人在交汇时出现id互换,这部分id需要通过纠正模块来解决;该系统包括目标对象步态特征提取和对象再标识两个子模块,目标对象步态特征提取模块通过前景检测对象并提取目标对象剪影、步态周期和步行角度,最终融合步态特征送入对象再标识模块;对象再标识模块在候选对象收据集中寻找与目标对象,最为匹配的前三名再标识结果。

进一步地,步骤1中部署的摄像头包括若干水平排列安装的摄像头,若干摄像头可以广角度转动且互不干扰。

进一步地,步骤3中将图像切分成不同块,每一块不同粒度,对每一块赋予不同的数值n(n=1、2、3......n),应对不同的数值n应对不同级别特征,随着n数值的增加,模型细节信息详细度增加。

进一步地,步骤4中除了三个有重叠的摄像机对之外,在跨摄像机跟踪时,同样做了一些单摄像机轨迹的合并工作。

进一步地,步骤5中步态特征提取实施方法如下:

1)图片预处理,行人roi及尺度变化;

2)提取图片gei步态能量图;

3)对上述gei提取hog特征;

4)构建训练集和测试集训练svm分类器;

5)用训练好的模型对行人打标签。

进一步地,步骤5中id纠正实施方法,通过卡尔曼滤波预测每一帧的目标空间位置,由于目标被遮挡时,会带来较大的预测误差;采用合理区域搜索的方法来纠正部分id,假设搜索区域的中心为(xc,yc),半径为r,(xc,yd)是当前帧任一检测rd矩形区域中心位置,如果满足条件:

nr为目标处于无关联状态的帧数;然后根据区域内的行人步态特征计算相似度,进行接下来的再匹配。

本发明的有益效果:

1.可以用于社区安防,比如对老人的跟踪可以用于老人摔倒预警,对孩子的跟踪,对于儿童的走失以及危险的行为的预警;同时可以用于超市的人群轨迹分析,从而帮助超市合理分析数据来达到智能货架管理。

2.在视频数据量大的情况下,摒弃紧靠人工手段检索视频,保证高效率和正确性;通过计算机视觉的方法,可以在后台不间断处理,效率和正确性都能显著提高。

3.通过re_label模块解决行id-switch,可以在两个人在交汇时出现id互换情况下,利用对象步态特征等一系列的特征进行在标识,将之前的追踪进行下去,避免干扰和误差,整体的准确性较高

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍。

图1为本发明的总体框架流程;

图2为本发明提供的re_label模块。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸。

参照图1和图2所示的一种基于计算机视觉的多镜头行人识别与跟踪,包括以下步骤:

步骤1:摄像头设备的部署和视频流采集

对监控区域的重要入口,各个路径,岔路口等地方都部署摄像头,用来跟踪和识别行人;获取某一个摄像头或者某一个视频时通过内网的内部交换网络,协议整个配套的,采用rtsp的访问协议,在访问连接上设置一个限制;

步骤2:单相机下的跟踪模块

给定一段视频,jde模型处理每个帧并输出边框和相应的外观嵌入;计算观测值的嵌入与之前存在的轨迹池中的嵌入之间的关联矩阵;使用匈牙利算法将观测分配给轨迹;卡尔曼滤波器用于平滑轨迹并预测先前轨迹在当前帧中的位置;如果所分配的观测值在空间上与预测位置相距太远,则该分配将被拒绝;然后对一个跟踪器的嵌入进行如下更新,如果没有任何观察值分配给tracklet,则将该tracklet标记为丢失;如果丢失的时间大于给定的阈值,则标记为已丢失的跟踪,将从当前的跟踪池中删除;或者将在分配步骤中重新找到;采用了一种在单个深度网络中联合学习检测器和嵌入模型(jde)的早期尝试;提出的jde使用单个网络来同时输出检测结果和检测框的相应外观嵌入;相比之下,sde方法和两阶段方法分别以重新采样的像素(边界框)和特征图为特征;边界框和特征图都被馈入单独的re-id模型中以提取外观特征;其中jde的损失函数采用trihardloss,这个loss是在三元组损失的基础上考虑了难例样本对最后损失的贡献;假设两张输入图片i1和i2,通过网络前向传播得到特征f1和f2,两张图片特征向量的欧式距离为:

di1,i2=||f1-f2||2

图片a和图片p为一对正样本对,图片a和图片n为一对负样本对,tripletloss为:

lt=(da,p-da,n+α)+

式中(x)+表示max(x,0),α为人工设置的阈值参数

trihardloss:

对于每一个训练batch,随机挑选p个id的行人,每个行人随机挑选k张不同的图片,即一个batch含有pxk,a为和a相同id的图片集,其余不同id的图片集为b;

步骤3:re_id合并单镜头同一id行人

把全局特征跟多粒度局部特征结合在一起,全局特征负责整体的宏观上大家共有的特征的提取,然后把图像切分成不同块,每一块不同粒度,其去负责不同层次或者不同级别特征的提取;把全局和局部的特征结合在一起,这样能够有丰富的信息和细节去表征输入图片的完整情况;

步骤4:跨相机的跟踪

将一整段轨迹的行人特征取平均值设为a作为这个轨迹的特征,然后采用re-ranking进一步优化排序;对跨相机的跟踪问题,采用二叉树搜索的算法遍历,其中的特征匹配采用提取的reid特征,所提取的reid特征关系到模型的鲁棒性;

步骤5:re_label模块解决行id-switch

通过将多个监控摄像头所监测到的、位于不同位置的行人联系起来,出现视觉表观特征不可靠时,比如戴口罩化妆等,基于行为特征(如步态)的分析就成为人体再标识问题的可选解决方案;通过分析单镜头跟踪结果,经过reid特征将同一id的合并之后,还是有一部分id-switch的情形来自于两个人在交汇时出现id互换,这部分id需要通过纠正模块来解决;该系统包括目标对象步态特征提取和对象再标识两个子模块,目标对象步态特征提取模块通过前景检测对象并提取目标对象剪影、步态周期和步行角度,最终融合步态特征送入对象再标识模块;对象再标识模块在候选对象收据集中寻找与目标对象,最为匹配的前三名再标识结果。

其中,步骤1中部署的摄像头包括若干水平排列安装的摄像头,若干摄像头可以广角度转动且互不干扰。

其中,步骤3中将图像切分成不同块,每一块不同粒度,对每一块赋予不同的数值n(n=1、2、3......n),应对不同的数值n应对不同级别特征,随着n数值的增加,模型细节信息详细度增加。

其中,步骤4中除了三个有重叠的摄像机对之外,在跨摄像机跟踪时,同样做了一些单摄像机轨迹的合并工作。

其中,步骤5中步态特征提取实施方法如下:

1)图片预处理,行人roi及尺度变化;

2)提取图片gei步态能量图;

3)对上述gei提取hog特征;

4)构建训练集和测试集训练svm分类器;

5)用训练好的模型对行人打标签。

其中,步骤5中id纠正实施方法,通过卡尔曼滤波预测每一帧的目标空间位置,由于目标被遮挡时,会带来较大的预测误差;采用合理区域搜索的方法来纠正部分id,假设搜索区域的中心为(xc,yc),半径为r,(xc,yd)是当前帧任一检测rd矩形区域中心位置,如果满足条件:

nr为目标处于无关联状态的帧数;然后根据区域内的行人步态特征计算相似度,进行接下来的再匹配。

以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1