一种高效的跨摄像头行人双向跟踪方法与流程

文档序号:16899552发布日期:2019-02-19 17:50阅读:515来源:国知局
一种高效的跨摄像头行人双向跟踪方法与流程

本发明涉及计算机视觉领域,更具体地,涉及一种高效的跨摄像头行人双向跟踪方法,用于获取行人在已出现过摄像头中的完整轨迹。



背景技术:

随着科技的进步和社会的发展,城市人口密度越来越高,安全问题也越来越引起人们的重视。为了及时预防和避免安全事件的发生,大量的监控摄像头被安装和应用在公共场所。目前视频监控的布设已十分广泛,如何从多个视频监控的数据中有效获取行人的轨迹信息,对于社会安防体系具有非常重要的价值。因此,跨摄像头行人跟踪已成为计算机视觉领域的一个热点研究内容。

跨摄像头行人跟踪是对行人不仅在当前摄像头进行跟踪,还要在其他摄像头找到此人并继续跟踪,直到其完全消失在所有摄像头为止。可以看出跨摄像头行人跟踪主要包括三个子任务,即行人检测、行人再识别和目标跟踪。因此,在监控系统中对行人进行跨摄像头跟踪时,一般有以下几个问题需要解决:首先需要在监控场景的图像中,用行人检测技术,把所有出现的行人检测出来;获得行人的位置后,当行人在同一个摄像头区域中移动时,需要用行人跟踪的技术不断更新行人当前的位置;当行人离开了一个摄像头区域,进入另外一个无交叠的摄像头区域时,需要将不同摄像头中的行人用行人再识别匹配起来。随着计算机视觉和深度学习的快速发展,行人检测、行人再识别和目标跟踪已作为热点课题被研究多年,也取得了很大进展,这也为跨摄像头行人跟踪提供了坚强的理论和技术支撑。

目前,跨摄像头行人跟踪普遍是基于轨迹匹配的跨摄像头行人跟踪方法。其主要思想是:首先对于指定的待查行人,使用单目标跟踪方法获取待查行人在当前摄像头下的完整轨迹,接着使用多目标跟踪算法对各个摄像头下的所有行人进行跟踪获取其在单个摄像头下的轨迹;最后使用行人再识别算法对第一步中行人的跟踪轨迹与第二步中其他摄像头下的所有行人轨迹进行匹配获取该行人在其他摄像头下的跟踪轨迹。然而,这种方法由于是对所有摄像头下所有行人进行跟踪,这本身在时间上就需要极大的代价,且精确度也不高;同时,在做行人再识别时,由于是对行人的轨迹进行特征匹配,会额外引入一个时序的模块和一些时空约束,这样既增加了模型的复杂度,也增加了行人匹配的处理时间。



技术实现要素:

为了克服传统基于轨迹匹配的跨摄像头行人跟踪方法耗时长、精度不高的缺点,本发明提出了一种高效的跨摄像头行人双向跟踪方法,该方法可快速精确获取行人在已出现过摄像头中的完整轨迹。

本发明的目的通过以下的技术方案实现:一种高效的跨摄像头行人双向跟踪方法,包括步骤:

(1)从监控视频中获取图像,对图像中的行人进行检测,根据检测结果建立候选行人库;

(2)构建行人再识别模型,提取待查行人和候选行人库中所有图像的特征,一一计算待查行人特征与候选行人库中所有图像特征的距离特征,获取待查行人在其他摄像头下的最佳匹配块,并将其作为跟踪的起始位置;

(3)进行目标跟踪,跟踪过程中通过正反向处理视频完成对行人的双向跟踪;

(4)将不同摄像头下的轨迹进行整合,得到行人最终的轨迹输出。

本发明通过上述行人检测、行人再识别、目标跟踪步骤,只要选择行人在任意摄像头下出现过的一个位置,就可以输出该行人在所有摄像头下出现过的完整轨迹,其具有准确度高、速度快的优点。

优选的,所述步骤(1)中,获取监控视频后,对视频进行分帧,采用隔帧检测的方式构建候选行人库。隔帧检测即指定间隔帧数,仅对帧号f满足fmodk=0的视频帧进行行人检测,从而可提高检测速度。

优选的,所述步骤(1)中,对图像中的行人进行检测,步骤是:采用在coco数据集上预训练好的yolov3模型作为行人检测初始模型,接着将yolov3模型的最后一个全连接层替换为一个二分类的softmax分类器,然后在公开行人检测数据集上对模型参数进行微调,最终得到行人检测模型;根据该行人检测模型对视频图像中的行人进行检测。

优选的,所述步骤(2)中,构建行人再识别模型,步骤是:

使用在imagenet数据集上预训练的resnet50分类模型作为主干网络,将主干网络分为两个分支,一个分支提取原网络softmax分类层的输入特征作为全局特征;另一个分支提取分类网络的高层特征并将其水平均匀分为六块,通过池化和降维的操作得到固定大小的六个局部特征;

在训练阶段,每个特征独立经过一个softmax分类器进行训练;

在测试阶段,将全局特征和六个局部特征拼接得到行人的完整特征表达;然后再用公开的行人再识别数据集对模型进行微调,最终得到行人再识别模型。

优选的,所述步骤(3)中,通过构建目标跟踪模型进行目标跟踪,步骤是:

采用在imagenet数据集上预训练的vgg模型作为提取行人特征的初始模型,然后利用摄像头视频中的行人和背景图片对模型参数进行精细调整,结合传统的手工特征(如hog特征、sift特征)得到行人的完整表观特征和语义特征,基于上述特征训练得到目标跟踪模型。

更进一步的,所述步骤(3)中,进行目标跟踪的过程是:

对于给定的待跟踪视频帧,首先根据上一帧的跟踪结果确定跟踪区域;

接着对跟踪区域提取深度特征和手工特征,并进行融合;

然后让融合特征经过一个预训练好的相关滤波器计算特征的响应图,取响应最大点作为目标跟踪模型下一帧的预测位置,反复迭代此过程获得行人在该摄像头下的单向轨迹。

更进一步的,所述步骤(3)中,在目标跟踪过程中,根据跟踪的置信分自适应判断行人跟踪停止的位置,步骤是:

将相关滤波得到的响应图的峰值作为第i帧跟踪结果的置信分si,指定一个跟踪的最大长度l,模型生成置信分序列并在置信分的全局最小值处判定为跟踪停止,其具体的停止帧号可描述为

更进一步的,所述步骤(3)中,进行目标跟踪时,通过正反向读入视频分别进行跟踪,获得两条单向轨迹,通过时序拼接得到该行人在此摄像头下的完整轨迹。

与现有技术相比,本发明技术方案的有益效果是:

1、由于监控摄像头具有分辨率低、数据量大、场景复杂的特点,跨摄像头行人跟踪的瓶颈在于处理时间长、跟踪效果差。本发明中在进行目标跟踪时,提出对行人进行双向跟踪,这样在进行行人再识别时获取的最佳匹配位置无论是位于行人刚出现,还是行人即将消失,只要确保身份一致,本发明都能得到该行人在摄像头下的完整轨迹,不需要对摄像头视频中的所有行人进行检测和跟踪,极大地提升了跟踪的速度和精度。

2、本发明提出采取隔帧检测去构建候选行人库,可大大地提升检测的速度。

3、本发明目标跟踪过程中根据跟踪置信分自适应判断跟踪停止,有效地解决了人为设定跟踪结束条件(如设定阈值帧数和边界条件)在时间效率和精确度上的缺点。

4、本发明行人再识别模型为基于单帧图像的匹配模型,与传统基于轨迹特征的匹配模型相比,本发明模型更为简洁,并且候选行人库的容量也较为合理,故本发明的时间效率会大幅提高;除此之外,本发明在模型中使用了全局特征和多个局部特征相结合,相较于单一特征,本发明得到了行人更完整的特征表达,故在精度上也有提高。

附图说明

图1是本实施例方法的总体流程图。

图2是本实施例方法中行人再识别步骤的网络流程图。

图3是本实施例方法中目标跟踪步骤的流程图。

具体实施方式

附图仅用于示例性说明,不能理解为对本专利的限制;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本发明的技术方案做进一步的说明。

如图1所示,本实施例一种高效的跨摄像头行人双向跟踪方法,主要包括行人检测、行人再识别、目标跟踪三个部分,下面对各个部分进行具体说明。

一、行人检测

要进行行人检测,首先建立行人检测模型,该模型的建立步骤是:采用在coco数据集上预训练好的yolov3模型作为行人检测初始模型,接着将yolov3模型的最后一个全连接层替换为一个二分类的softmax分类器,然后在多个公开行人检测数据集包括caltech、cityperson等上对模型参数进行精细调节,将此模型作为行人检测模型。

在检测过程中对监控视频进行分帧,然后进行隔帧检测,即指定间隔帧数k(k=10),对于帧号f满足fmodk=0的视频帧代入上述的行人检测模型进行行人检测,并将检测结果保存,作为行人再识别步骤中的候选行人库。

本发明中采用隔帧检测的方法构建候选行人库,因此大大地提升了检测的速度,理论上候选行人库中只需要有每个行人在摄像头下的一张图片即可,但考虑到某些摄像头下某段时间内可能有大量行人同时出现,极易出现行人严重遮挡的情况,为了给目标跟踪提供一个良好的初始跟踪位置,本发明主要是每隔k(k=10)帧对摄像头视频中行人进行检测一次,这意味着在行人检测步骤中构造得到的候选行人库容量大幅度减少,并且构造候选行人库的时间仅仅需要传统基于轨迹匹配的跨摄像头行人跟踪方法在行人检测用时的k分之一,大幅度提高了检测的速度。

二、行人再识别

要进行行人再识别,首先建立行人再识别模型,参见图2,该模型的建立步骤是:

首先,使用在imagenet数据集上预训练的resnet50分类模型作为主干网络,将主干网络分为两个分支,一个分支提取原网络softmax分类层的输入特征作为全局特征;另一个分支提取分类网络的高层特征并将其水平均匀分为六块,通过池化和降维的操作得到固定大小的六个局部特征。在训练阶段,每个特征独立经过一个softmax分类器进行训练;在测试阶段,将全局特征和六个局部特征拼接得到行人的完整特征表达。然后再用多个公开的行人再识别数据集包括msmt17、dukemtmc-reid、market1501等对模型进行精细调整,调整后的最终模型作为行人再识别模型。

在行人再识别过程中,利用上述模型同时提取指定待查行人和候选行人库中所有图像的特征,一一计算待查行人特征和候选行人库中所有图片的特征的余弦距离,经过一个重排序的操作,获取行人在其他摄像头下的最佳匹配块,并将其作为跟踪的起始位置用于下面的目标跟踪。

本实施例行人再识别模型为基于单帧图像的匹配模型,模型简洁,时间效率高。另外,本发明在模型中使用了全局特征和多个局部特征相结合,相较于单一特征,本发明得到了行人更完整的特征表达,因而精度更高。

三、目标跟踪

要进行目标跟踪,首先建立目标跟踪模型,该模型的建立步骤是:

采用在imagenet数据集上预训练的vgg模型作为提取行人特征的初始模型,然后利用摄像头视频中的行人和背景图片对模型参数进行精细调整,增强模型对行人特征的响应,抑制背景噪声的干扰,同时结合传统手工特征,如hog特征、灰度特征、cn特征等辅助深度特征,得到行人的完整表观特征和语义特征,依旧上述特征构建目标跟踪模型。

本实施例跟踪过程中通过正反向处理视频完成对行人的双向跟踪,即通过正反向读入视频分别进行跟踪,获得两条单向轨迹,通过时序拼接得到该行人在此摄像头下的完整轨迹。参见图3,以单向跟踪为例,说明其具体的流程:

对于给定的待跟踪视频帧,首先根据上一帧的跟踪结果确定跟踪区域;接着对跟踪区域提取深度特征和手工特征并进行融合;然后让融合特征经过一个预训练好的相关滤波器计算特征的响应图,取响应最大点作为目标跟踪模型下一帧的预测位置,反复迭代此过程可获得行人在该摄像头下的单向轨迹。

另外,本实施例中提出在目标跟踪过程中,根据跟踪的置信分自适应判断行人跟踪停止的位置,步骤是:

将相关滤波得到的响应图的峰值作为第i帧跟踪结果的置信分si,指定一个跟踪的最大长度l,模型生成置信分序列并在置信分的全局最小值处判定为跟踪停止,其具体的停止帧号可描述为

通过上述3个步骤,只要将行人在任意摄像头下出现过的一个位置作为初始值输入到行人再识别模型,就可以通过目标跟踪模型输出该行人在所有摄像头下出现过的完整轨迹。通过实验表明:在给定三个摄像头视频,每个视频20分钟,帧速20fps,分辨率320*240的条件下,本发明在检测阶段其检测速度可达45fps,准确度为90%;在行人再识别阶段首位命中率为92%;在跟踪阶段跟踪精度为95%。在测试阶段系统的跟踪速度可达18fps。总体而言,利用本发明去对行人进行跨摄像头跟踪不仅会大大缩短跟踪时间和减少成本,在精确度上也更加准确,具有很强的工程意义。

显然,可通过各种手段实施本发明描述的技术。举例来说,这些技术可实施在硬件、固件、软件或其组合中。对于硬件实施方案,处理模块可实施在一个或一个以上专用集成电路(asic)、数字信号处理器(dsp)、可编程逻辑装置(pld)、现场可编辑逻辑门阵列(fpga)、处理器、控制器、微控制器、电子装置、其他经设计以执行本发明所描述的功能的电子单元或其组合内。

对于固件和/或软件实施方案,可用执行本文描述的功能的模块(例如,过程、步骤、流程等)来实施所述技术。固件和/或软件代码可存储在存储器中并由处理器执行。存储器可实施在处理器内或处理器外部。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1