一种基于视频跟踪的跨场景目标检索方法及装置与流程

文档序号:16147242发布日期:2018-12-05 16:41阅读:281来源:国知局
一种基于视频跟踪的跨场景目标检索方法及装置与流程

本发明涉及视频监控领域,更具体地,涉及在有多个关联摄像头的监控场景下,对出现的目标进行跨场景检索。

背景技术

给定一个监控场景下的目标图像,检索在其它摄像头下该目标出现的情况,可广泛应用于智能视频监控、智能安保等领域。但目标在单一场景下也会随运动或与场景等发生视角变化,用其中的一帧代表目标进行检索,并不能表达出目标在该场景下的所有情况,当选择不好时,常常导致检索不到需要的目标,或者相同目标的相似度排序不高。

目前大多目标检索用到的特征多是手工设计的,比如颜色、纹理或梯度直方图等,当目标在发生姿态或尺度变化,或被场景遮挡或光线变化等复杂情况下,这些手工设计的特征并不能很好的进行表征,很容易造成检索失效。

另外,采用深度神经网络训练模型进行检索的方法,效果会有提升,但由于深度模型训练需要大量的数据,而标注视频中的目标,并将相同目标在不同视频中找出,这样的工作量是巨大的,往往会耗费大量人力物力。



技术实现要素:

有鉴于此,本专利提出一种基于视频跟踪的跨场景目标检索方法及装置,通过对关联场景中目标进行跟踪,可以获取目标检索时需要的数据来源,并且可以为模型训练产生样本。目标在检索比对时可以提供轨迹的多帧信息,提高了目标检索效果。

为达到上述目的,本发明的技术方案实现如下:

本发明提供一种基于视频跟踪的跨场景目标检索方法,其特征在于:

对多个关联摄像头进行视频跟踪获得目标的轨迹,将该目标的轨迹作为训练样本;

根据所述训练样本进行目标的分类模型训练;

利用所述目标的分类模型构建目标特征数据库;

提取待检索视频目标的特征,与所述目标特征数据库中已有的目标特征进行相似性度量计算,取相似度最高或前n个特征作为检索特征,对目标进行跨场景检索。

优选地,通过视频跟踪生成训练样本包括对每个摄像头下的目标进行检测跟踪;

对目标轨迹进行过滤,从而去除轨迹中的干扰项;

将多个摄像头下的视频中所有该目标的轨迹进行融合;

得到目标轨迹样本集合。

优选地,根据所述生成的训练样本进行模型训练包括获得带标签的训练样本;

对上述样本的数据进行预处理;

采用卷积神经网络,提取特征表征层,通过分类层进行类别输出,完成模型训练。

优选地,构建目标特征数据库包括每个摄像头下的目标进行检测和跟踪,得到目标轨迹;

选取上述目标轨迹踪中一帧或多帧图像数据作为目标代表帧;

利用训练模型提取各目标特征;

将提取出的目标特征及其对应索引送入数据库中,得到目标特征数据库。

优选地,所述提取待检索视频目标的特征,与所述目标特征数据库中已有目标的特征进行相似性度量计算包括通过l2范数或余弦距离的计算得出目标与数据库中各目标的相似度。

本发明还提供了一种基于视频跟踪的跨场景目标检索装置,其特征在于包括:

训练样本生成装置,用于对多个关联摄像头进行视频跟踪获得目标的轨迹,将该目标的轨迹作为训练样本;

模型训练装置,用于根据所述训练样本进行目标的分类模型训练;

构建目标特征数据库装置,利用所述目标的分类模型构建目标特征数据库;

跨场景检索装置,用于提取待检索视频目标的特征,与所述目标特征数据库中已有的目标特征进行相似性度量计算,取相似度最高或前n个特征作为检索特征,对目标进行跨场景检索。

优选地,训练样本生成装置包括

检测跟踪装置,用于包括对每个摄像头下的目标进行检测跟踪;

过滤装置,用于对目标轨迹进行过滤,从而去除轨迹中的干扰项;

融合装置,用于将多个摄像头下的视频中所有该目标的轨迹进行融合;

目标轨迹样本装置,用于得到目标轨迹样本集合。

优选地,根据所述生成的训练样本进行模型训练包括获得带标签的训练样本;

对上述样本的数据进行预处理;

采用卷积神经网络,提取特征表征层,通过分类层进行类别输出,完成模型训练。

优选地,构建目标特征数据库装置包括

检测跟踪装置,用于对每个摄像头下的目标进行检测和跟踪,得到目标轨迹;

代表帧选取装置,用于选取上述目标轨迹踪中一帧或多帧图像数据作为目标代表帧;

提取装置,用于利用训练模型提取各目标特征;

送入装置,用于将提取出的目标特征及其对应索引送入数据库中,得到目标特征数据库。

优选地,所述提取待检索视频目标的特征,与所述目标特征数据库中已有目标的特征进行相似性度量计算包括通过l2范数或余弦距离的计算得出目标与数据库中各目标的相似度。

本发明还提供了一种计算机可读存储介质,其特征在于:所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述跨场景目标检索方法的方法步骤。

本发明还提供了一种基于视频跟踪的跨场景目标检索系统,其特征在于:包括处理器、以及存储有可执行指令的存储器,当所述可执行指令被处理器执行时实现权利要求1-5任一所述的跨场景目标检索方法。

本发明提出的一种基于视频跟踪的跨场景目标检索方法,通过视频跟踪生成训练样本;根据所述生成的训练样本进行模型训练;构建目标特征数据库;提取待检索视频目标的特征,与所述目标特征数据库中已有目标的特征进行相似性度量计算,取相似度最高或前n个特征作为检索特征,对目标进行跨场景检索。可以提高目标在检索中的准确度及鲁棒性,使得目标在检索比对时可以提供轨迹的多帧信息,提高了目标检索效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例所述的视频跟踪生成训练样本流程图。

图2为本发明实施例所述的模型训练框架图。

图3为本发明实施例所述的构建目标特征数据库流程图。

图4为本发明实施例所述的目标跨场景检索流程图。

具体实施方式

以下结合说明书附图及具体实施例对本发明的技术方案进行清楚、完整地描述。

本发明提出一种基于视频跟踪的跨场景目标检索方法,通过对关联场景中目标进行跟踪,可以获取目标检索时需要的数据来源,并且可以为模型训练产生样本。目标在检索比对时可以提供轨迹的多帧信息,提高了目标检索效果。

如图1所述的视频跟踪生成训练样本流程图。

通过视频跟踪生成训练样本,包括对每个摄像头下的目标进行检测跟踪;对目标轨迹进行过滤,从而去除轨迹中的干扰项;将多个摄像头下的视频中所有该目标的轨迹进行融合;得到目标轨迹样本集合。

roi(regionsofinterest),感兴趣区域模型训练。在实际的监控中,人们往往只对监控画面中的一些特定区域比较关注,比如画面中的车牌、人脸等等,而对背景的蓝天、草地等并不在意。这些特定的区域,被称为“感兴趣区域”。roi编码技术是iso组织在2000年制定的新一代静态图像压缩编码标准jpeg2000中最大的亮点之一,也是当今图像编码领域的研究热点。此项技术可以对图像中的感兴趣区域(roi)进行低压缩比的无损压缩或近无损压缩,在背景区域进行高压缩比的有损压缩训练样本。这样在码流不变的情况下,即可保证不丢失重要信息又能有效地压缩数据量,很好地解决了压缩比和图像质量之间的矛盾

首先对每个视频采用faster-rcnn或ssd/yolo等深度检测方法进行目标检测,提取出每个目标。选用fastdsst基于判别尺度空间的单目标跟踪方法,通过构建尺度空间估计目标在视频序列中的尺度变化,可以对目标进行较准确的跟踪。通过给每个目标分配一个跟踪器,扩展至多目标跟踪。

通过跟踪获得目标在视频中的轨迹,人工介入进行筛选,检查该轨迹中是否存在不属于该目标的图像roi,如果有将其删除,然后与其它视频中包含该目标的所有轨迹进行融合,具体的是将不同视频源中同一目标的轨迹作为一个集合,这样每个集合就代表一类目标实例,可以快速得到成千上万类目标实例,比手工标注的速度快很多,而且可以节省人力。

如图2所述的模型训练框架图。

根据所述生成的训练样本进行模型训练包括获得带标签的训练样本;对上述样本的数据进行预处理;采用卷积神经网络,提取特征表征层,通过分类层进行类别输出,完成模型训练。

在得到训练样本后,可以通过设计一个识别网络进行模型训练,具体采用densenet作为主干网络,之前获取的实例数目作为类别数,选用softmaxwithloss作为分类损失函数,在训练模型通过验证后,可以取倒数第二层特征或多尺度特征融合,作为足以区分各类目标的细粒度特征。一般为减少后续存储,可设定128维或256维特征。

如图3所述的模型训练框架图。

构建目标特征数据库包括每个摄像头下的目标进行检测和跟踪,得到目标轨迹;选取上述目标轨迹踪中一帧或多帧图像数据作为目标代表帧;利用训练模型提取各目标特征;将提取出的目标特征及其对应索引送入数据库中,得到目标特征数据库。

构建目标特征数据库,对于关联的多摄像头采集的新视频数据,采用与之前相同的方式进行目标的检测提取和跟踪,在拿到目标的轨迹后,选取目标轨迹踪具有代表性的一帧或多帧图像数据,利用已训好的模型提取图像中目标roi的特征,对于目标多帧的roi,可以在分别提取特征之后进行加权融合。

将提取出的目标特征及其对应索引送入数据库中。具体的将每个目标的id及特征作为一行放入列表中,然后在数据库中按顺序排放,便于后续比对检索使用。

如图4所述的目标跨场景检索流程图。

基于视频跟踪的跨场景目标检索方法,通过视频跟踪生成训练样本;根据所述生成的训练样本进行模型训练;构建目标特征数据库;提取待检索视频目标的特征,与所述目标特征数据库中已有目标的特征进行相似性度量计算,取相似度最高或前n个特征作为检索特征,对目标进行跨场景检索。

将待检索目标roi送入相同的网络,利用训好的模型,按统一格式提取特征。然后与数据库中已有目标的特征进行相似性度量计算,可通过l2范数或余弦距离的计算得出目标与数据库中各目标的相似度。将度量结果按大小进行排序,取相似度最高的或前n个目标作为检索结果输出,从而实现对目标的跨场景检索。

根据跟踪获取同一目标在一个场景下的轨迹,并去除轨迹中冗余的样本,得到目标在一个场景下的不同姿态及尺度的样本集,然后归一化到相同尺寸,计算样本集中每张图片的特征,对这些特征求maxpooling或者averagepooling(图像分类处理,卷积神经网络),用得到的平均特征作为该目标的检索特征。这种方法可以提高目标在检索中的准确度及鲁棒性。

通过对关联场景中目标进行跟踪,可以获取目标检索时需要的数据来源,并且可以为模型训练产生样本。目标在检索比对时可以提供轨迹的多帧信息,提高了目标检索效果。

对应于上述的基于视频跟踪的跨场景目标检索方法,本发明还提供了一种基于视频跟踪的跨场景目标检索装置。包括:训练样本生成装置,用于通过视频跟踪生成训练样本;模型训练装置,用于根据所述生成的训练样本进行模型训练;构建目标特征数据库装置,用于构建目标特征数据库;跨场景检索装置,用于提取待检索视频目标的特征,与所述目标特征数据库中已有目标的特征进行相似性度量计算,取相似度最高或前n个特征作为检索特征,对目标进行跨场景检索。

首先,对每个视频采用faster-rcnn或ssd/yolo等深度检测方法进行目标检测,提取出每个目标。选用fastdsst基于判别尺度空间的单目标跟踪方法,通过构建尺度空间估计目标在视频序列中的尺度变化,可以对目标进行较准确的跟踪。通过给每个目标分配一个跟踪器,扩展至多目标跟踪。

通过跟踪获得目标在视频中的轨迹,人工介入进行筛选,检查该轨迹中是否存在不属于该目标的图像roi,如果有将其删除,然后与其它视频中包含该目标的所有轨迹进行融合,具体的是将不同视频源中同一目标的轨迹作为一个集合,这样每个集合就代表一类目标实例,可以快速得到成千上万类目标实例,比手工标注的速度快很多,而且可以节省人力。

所述训练样本生成装置包括:检测跟踪装置,用于包括对每个摄像头下的目标进行检测跟踪;过滤装置,用于对目标轨迹进行过滤,从而去除轨迹中的干扰项;融合装置,用于将多个摄像头下的视频中所有该目标的轨迹进行融合;目标轨迹样本装置,用于得到目标轨迹样本集合。

在得到训练样本后,可以通过设计一个识别网络进行模型训练,具体采用densenet作为主干网络,之前获取的实例数目作为类别数,选用softmaxwithloss作为分类损失函数,在训练模型通过验证后,可以取倒数第二层特征或多尺度特征融合,作为足以区分各类目标的细粒度特征。一般为减少后续存储,可设定128维或256维特征。

根据所述生成的训练样本进行模型训练包括获得带标签的训练样本;对上述样本的数据进行预处理;采用卷积神经网络,提取特征表征层,通过分类层进行类别输出,完成模型训练。

构建目标特征数据库,对于关联的多摄像头采集的新视频数据,采用与之前相同的方式进行目标的检测提取和跟踪,在拿到目标的轨迹后,选取目标轨迹踪具有代表性的一帧或多帧图像数据,利用已训好的模型提取图像中目标roi的特征,对于目标多帧的roi,可以在分别提取特征之后进行加权融合。

将提取出的目标特征及其对应索引送入数据库中。具体的将每个目标的id及特征作为一行放入列表中,然后在数据库中按顺序排放,便于后续比对检索使用。

构建目标特征数据库装置包括检测跟踪装置,用于对每个摄像头下的目标进行检测和跟踪,得到目标轨迹;代表帧选取装置,用于选取上述目标轨迹踪中一帧或多帧图像数据作为目标代表帧;提取装置,用于利用训练模型提取各目标特征;送入装置,用于将提取出的目标特征及其对应索引送入数据库中,得到目标特征数据库。

所述提取待检索视频目标的特征,与所述目标特征数据库中已有目标的特征进行相似性度量计算包括通过l2范数或余弦距离的计算得出目标与数据库中各目标的相似度。

将待检索目标roi送入相同的网络,利用训好的模型,按统一格式提取特征。然后与数据库中已有目标的特征进行相似性度量计算,可通过l2范数或余弦距离的计算得出目标与数据库中各目标的相似度。将度量结果按大小进行排序,取相似度最高的或前n个目标作为检索结果输出,从而实现对目标的跨场景检索。

根据跟踪获取同一目标在一个场景下的轨迹,并去除轨迹中冗余的样本,得到目标在一个场景下的不同姿态及尺度的样本集,然后归一化到相同尺寸,计算样本集中每张图片的特征,对这些特征求maxpooling或者averagepooling(图像分类处理,卷积神经网络),用得到的平均特征作为该目标的检索特征。这种方法可以提高目标在检索中的准确度及鲁棒性。

本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述跨场景目标检索方法的方法步骤。

本发明还提供了一种基于视频跟踪的跨场景目标检索系统,包括处理器、以及存储有可执行指令的存储器,当所述可执行指令被处理器执行时实现上述的跨场景目标检索方法。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

以上仅是本发明的具体步骤示例,对本发明的保护范围不构成任何限制,凡采用等同变换或者等效替换而形成的技术方案,均落在本发明权利保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1