一种行人跟踪方法、装置以及终端与流程

文档序号:19116985发布日期:2019-11-13 01:16阅读:195来源:国知局
一种行人跟踪方法、装置以及终端与流程

本发明涉及图像处理技术领域,尤其涉及一种行人跟踪方法、装置以及终端。



背景技术:

近些年,随着人工智能技术的不断发展,行人跟踪功能被逐渐应用于监控安防、智慧零售、智慧城市等领域。对于诸如道路卡口、商场、门店等区域,往往通过设置监控摄像头来对来往人群进行监视。可以利用行人跟踪技术对监控图像的所有来往行人进行持续检测,对同一行人持续跟踪。目前,通过行人检测技术逐帧抽取监控图像或抽取部分帧监控图像,并在抽取的监控图像中标识行人框。利用卷积神经网络或hog(histogramoforientedgradient,方向梯度直方图)等传统特征提取算子,提取各行人框的特征向量。基于每个行人框的特征向量对所有监控图像中的行人框进行匹配,以获得行人跟踪结果。

然而,在执行行人检测技术的图像中,有行人出现被其他物体遮挡,或行人突然蹲下等姿态变换,或行人在行走过程中突然更换服装等情况,会出现提取的行人框特征向量无法与系统中已有的行人框成功匹配,使得跟踪结果输出中断或输出错误的跟踪结果。因此,现有的跟踪技术往往出现行人漏检的情况。



技术实现要素:

本发明实施例提供一种行人跟踪方法、装置以及终端,以解决现有技术中的一个或多个技术问题。

第一方面,本发明实施例提供了一种行人跟踪方法,包括:

对从视频中提取的前一图像和当前图像进行行人检测,标识出多个行人检测框;

对具有行人检测框的前一图像和所述当前图像进行跟踪计算,得到所述当前图像中的行人跟踪框;

将所述当前图像中的行人检测框和所述当前图像中的行人跟踪框进行匹配,得到匹配结果,并根据所述匹配结果标识出所述当前图像中的人体框;

对所述当前图像中的人体框进行跟踪计算,得到行人跟踪结果。

在一种实施方式中,将所述当前图像中的行人检测框和所述当前图像中的行人跟踪框进行匹配,得到匹配结果,并根据所述匹配结果标识出所述当前图像中的人体框,包括:

计算所述当前图像中的行人跟踪框和所述当前图像中的行人检测框的重叠率;

在所述重叠率小于阈值的情况下,去掉所述当前图像中的行人跟踪框,保留所述当前图像中的行人检测框;

在所述重叠率大于阈值的情况下,将所述当前图像中的行人跟踪框和所述当前图像中的行人检测框合并,得到合并的行人检测框;

将保留的行人检测框和合并的行人检测框标识为所述当前图像中的人体框。

在一种实施方式中,对所述当前图像中的人体框进行跟踪计算,得到行人跟踪结果,包括:

对所述当前图像中的人体框进行特征提取,得到行人特征向量;

在提取的行人特征向量与数据库中历史时间记录的行人特征向量匹配的情况下,在所述数据库中查询与所述当前图像中的人体框对应的身份标记,并将查询到的身份标记分配给所述当前图像中的人体框,得到所述行人跟踪结果。

在一种实施方式中,还包括:

在提取的行人特征向量与所述数据库中历史时间记录的行人特征向量未匹配的情况下,则给所述当前图像中的人体框分配新的身份标记;

对具有新的身份标记的人体框进行特征提取,得到新的行人特征向量;

将所述新的行人特征向量存储至所述数据库中。

在一种实施方式中,还包括:

在预设时间段内,所述数据库中历史时间记录的行人特征向量并未与任何提取的行人特征向量匹配的情况下,将所述数据库中历史时间记录的行人特征向量标记为离场的行人特征向量。

第二方面,本发明实施例提供了一种行人跟踪装置,包括:

行人检测框标识模块,用于对从视频中提取的前一图像和当前图像进行行人检测,标识出多个行人检测框;

行人跟踪框标识模块,用于对具有行人检测框的前一图像和所述当前图像进行跟踪计算,得到所述当前图像中的行人跟踪框;

人体框标识模块,用于将所述当前图像中的行人检测框和所述当前图像中的行人跟踪框进行匹配,得到匹配结果,并根据所述匹配结果标识出所述当前图像中的人体框;

行人跟踪结果计算模块,用于对所述当前图像中的人体框进行跟踪计算,得到行人跟踪结果。

在一种实施方式中,所述人体框标识模块包括:

重叠率计算单元,用于计算所述当前图像中的行人跟踪框和所述当前图像中的行人检测框的重叠率;

检测框保留单元,用于在所述重叠率小于阈值的情况下,去掉所述当前图像中的行人跟踪框,保留所述当前图像中的行人检测框;

检测框合并单元,用于在所述重叠率大于阈值的情况下,将所述当前图像中的行人跟踪框和所述当前图像中的行人检测框合并,得到合并的行人检测框;

人体框标识单元,用于将保留的行人检测框和合并的行人检测框标识为所述当前图像中的人体框。

在一种实施方式中,所述行人跟踪结果计算模块包括:

行人特征向量提取单元,用于对所述当前图像中的人体框进行特征提取,得到行人特征向量;

行人跟踪结果获取单元,用于在提取的行人特征向量与数据库中历史时间记录的行人特征向量匹配的情况下,在所述数据库中查询与所述当前图像中的人体框对应的身份标记,并将查询到的身份标记分配给所述当前图像中的人体框,得到所述行人跟踪结果。

在一种实施方式中,还包括:

身份标记分配模块,用于在提取的行人特征向量与所述数据库中历史时间记录的行人特征向量未匹配的情况下,则给所述当前图像中的人体框分配新的身份标记;

行人特征向量存储模块,用于对具有新的身份标记的人体框进行特征提取,得到新的行人特征向量,将所述新的行人特征向量存储至所述数据库中。

在一种实施方式中,还包括:

离场标记模块,用于在预设时间段内,所述数据库中历史时间记录的行人特征向量并未与任何提取的行人特征向量匹配的情况下,将所述数据库中历史时间记录的行人特征向量标记为离场的行人特征向量。

第三方面,本发明实施例提供了一种行人跟踪终端,所述行人跟踪终端的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中,所述行人跟踪终端的结构中包括处理器和存储器,所述存储器用于存储支持所述行人跟踪终端执行上述行人跟踪方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述行人跟踪终端还可以包括通信接口,用于与其他设备或通信网络通信。

第四方面,本发明实施例提供了一种计算机可读存储介质,用于存储行人跟踪终端所用的计算机软件指令,其包括用于执行上述行人跟踪方法所涉及的程序。

上述技术方案中的一个技术方案具有如下优点或有益效果:通过对前一图像中的行人进行跟踪,实时输出监控画面中的行人跟踪结果。跟踪结果作为行人分析技术的基础,为后续如行人属性识别、行人流量统计、行人检索提供信息。既利用了全部的人体框的信息进行跟踪,以保证在大部分场景的可用性,又利用了短时特征的单目标跟踪算法,减少了行人被遮挡、行人变换角度姿态所引起的行人漏检问题,保证在人群密集场景的可用性,有效提高了鲁棒性。

上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。

图1示出根据本发明实施例的一种行人跟踪方法的流程图。

图2示出根据本发明实施例的一种行人跟踪方法的示意图。

图3示出根据本发明实施例的另一种行人跟踪方法的流程图。

图4示出根据本发明实施例的另一种行人跟踪方法的流程图。

图5示出根据本发明实施例的一种行人跟踪装置的结构框图。

图6示出根据本发明实施例的另一种行人跟踪装置的结构框图。

图7示出根据本发明实施例的另一种行人跟踪装置的结构框图。

图8示出根据本发明实施例的一种行人跟踪终端的结构示意图。

具体实施方式

在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。

实施例一

在一种具体的实施方式中,提供了一种行人跟踪方法,如图1所示,所述方法包括:

步骤s10:对从视频中提取的前一图像和当前图像进行行人检测,标识出多个行人检测框;

步骤s20:对具有行人检测框的前一图像和当前图像进行跟踪计算,得到所述当前图像中的行人跟踪框;

步骤s30:将当前图像中的行人检测框和当前图像中的行人跟踪框进行匹配,得到匹配结果,并根据匹配结果标识出所述当前图像中的人体框;

步骤s40:对当前图像中的人体框进行跟踪计算,得到行人跟踪结果。

在一种示例中,如图2所示,对一些场景中监控摄像头实时拍摄的视频(图2中的视频流),抽取多帧图像。图像首先经过预处理,被缩放成固定尺寸(如500像素*500像素),再减去统一的rgb均值。例如,[104,117,123]预处理后,可以在参与模型训练的过程中,统一输入预处理后的图像,增强模型鲁棒性。然后,在任意基于深度学习的行人检测模型(图2中的行人检测器)中输入预处理后的图像。行人检测模型包括:ssd(直接多目标检测,singleshotmultiboxdetector)模型、refinedet模型(精细直接多目标检测,single-shotrefinementneuralnetworkforobjectdetection)、mobilenet-ssd模型(基于针对移动端视觉应用的高效卷积神经网络的直接多目标检测,mobilenetbasedsingleshotmultiboxdetector)、yolo模型(统一实时目标检测,youonlylookonce:unified,real-timeobjectdetection)等。对经过预处理的图像中的行人进行检测,输出一系列行人检测框。每个行人检测框包含行人的位置信息和尺寸信息,且每个行人检测框的区域以像素为单位。目的在于获取拍摄视频中提取的前一图像和当前图像中,所有行人的位置信息和尺寸信息。需要指出的是,前一图像和当前图像表示在时间轴上任意的先后顺序的两帧图像。

然后,利用基于深度学习的单目标跟踪模型进行跟踪计算。单目标跟踪模型可以包括siameserpn模型(孪生区域生成网络跟踪器,highperformancevisualtrackingwithsiameseregionproposalnetwork)、siameserpn++模型(孪生区域生成网络改进跟踪器,siamrpn++:evolutionofsiamesevisualtrackingwithverydeepnetworks)、siamesemask模型(快速在线统一跟踪和分割算法,fastonlineobjecttrackingandsegmentation:aunifyingapproach)等模型。模型对前一图像、前一图像中的行人检测框以及当前图像进行单目标跟踪计算,得到当前图像中的行人跟踪框。行人跟踪框与行人检测框类似,包含行人的位置信息和尺寸信息。将该过程中所得的当前图像中的行人跟踪框与当前图像中的行人检测框进行匹配,得到匹配结果。目的将检测遗漏的行人以人体框的形式标识出来。

最后,利用多目标跟踪算法对前一图像、前一图像中的行人检测框、当前图像以及当前图像中的行人检测框进行跟踪计算,得到行人跟踪结果。跟踪计算所用到的算法可以包括deepsort(基于深度特征关联的简单在线实时跟踪算法,simpleonlineandrealtimetrackingwithadeepassociationmetric)、ioutracker算法(交并比跟踪算法,intersection-over-uniontracker)。对视频抽取下一帧图像,重复上述过程,直至全部图像都处理结束。

本实施方式提供行人跟踪方法,通过对前一图像中的行人进行跟踪,实时输出监控画面中的行人跟踪结果。跟踪结果作为行人分析技术的基础,为后续如行人属性识别、行人流量统计、行人检索提供信息。既利用了全部的人体框的信息进行跟踪,以保证在大部分场景的可用性,又利用了短时特征的单目标跟踪算法,减少了行人被遮挡、行人变换角度姿态所引起的行人漏检问题,保证在人群密集场景的可用性,有效提高了鲁棒性。

在一种实施方式中,如图3所示,步骤s30包括:

步骤s301:计算当前图像中的行人跟踪框和当前图像中的行人检测框的重叠率;

步骤s302:在重叠率小于阈值的情况下,去掉当前图像中的行人跟踪框,保留当前图像中的行人检测框;

步骤s303:在重叠率大于阈值的情况下,将当前图像中的行人跟踪框和当前图像中的行人检测框合并,得到合并的行人检测框;

步骤s304:将保留的行人检测框和合并的行人检测框标识为当前图像中的人体框。

在一种示例中,可以通过计算当前图像中的行人跟踪框和行人检测框之间的交并比得到重叠率。在重叠率小于阈值的情况下,去掉当前图像中的行人跟踪框,保留当前图像中的行人检测框。例如,若重叠率为0,表明人脸检测框和行人检测框并不是来自于同一人。当然,阈值还可以是其它值,可以根据需要进行适应性调整。在重叠率大于阈值的情况下,将当前图像中的行人跟踪框和所述当前图像中的行人检测框合并,得到合并的行人检测框。合并的行人检测框和保留的行人检测框覆盖了全部的行人,避免了检测行人的遗漏问题。

在目标检测中,常会利用非极大值抑制算法(nms,nonmaximumsuppression)对生成的大量候选框进行后处理,去除冗余的候选框,得到最佳检测框,以加快目标检测的效率。本实施方式中,通过nms算法(非极大值抑制算法,non-maximumsuppression)去除重叠率小于阈值情况下的行人跟踪框,保留的行人检测框和合并的行人检测框成为最终经过补充的人体框(如图2所示的行人框)。该过程的目的在于利用前一图像的短时图像特征,通过单目标跟踪算法为当前图像的检测结果进行补充,以减少因行人遮挡、行人变换姿势引起的漏检。

在一种实施方式中,如图3所示,步骤s40,包括:

步骤s401:对当前图像中的人体框进行特征提取,得到行人特征向量;

步骤s402:在提取的行人特征向量与数据库中历史时间记录的行人特征向量匹配的情况下,在数据库中查询与当前图像中的人体框对应的身份标记,并将查询到的身份标记分配给当前图像中的人体框,得到行人跟踪结果。

在一种示例中,多目标跟踪算法的过程如下:如图2所示,首先使用reid(行人重识别,personre-identification)模型,对当前图像中的人体框进行特征提取,得到行人特征向量(如图2所示的reid特征向量)。reid模型可以包括:基于n-pairmetriclearning(多类别多配对度量学习)训练的卷积神经网络模型、hog(梯度直方图,histogramoforientedgradient)模型等。然后将提取到的行人特征向量与数据库中历史时间记录的行人特征向量匹配。如果当前图像的此人体框与已有的人体框匹配成功,则可以判定当前图像的此人体框与历史时间记录的行人特征向量属于同一行人。在将当前图像的此人体框和历史时间记录的行人框标记为同一人。例如,同时标记有相同的身份识别码(id),即为得到当前图像的行人跟踪结果。之后,将当前图像的某个人体框提取到的特征向量加入数据库中,并将当前追踪结果添加到相应行人的跟踪轨迹上。每次跟踪结束后,都记录有每个出现过的行人在过去若干图像中的特征向量,保留每个行人在整个轨迹过程中的特征信息。

在一种实施方式中,如图4所示,该方法还包括:

步骤s50:在提取的行人特征向量与所述数据库中历史时间记录的行人特征向量未匹配的情况下,则给当前图像中的人体框分配新的身份标记;

步骤s60:对具有新的身份标记的人体框进行特征提取,得到新的行人特征向量;

步骤s70:将新的行人特征向量存储至数据库中。

在一种示例中,如果当前图像的此人体框与已有的人体框未匹配上,则认为当前图像的此人体框首次出现,为其分配新的id,并记录。对具有新的身份标记的人体框进行特征提取,得到新的行人特征向量,存储在数据库中,便于后续在数据库中的查询。

在一种实施方式中,如图4所示,该方法还包括:

步骤s80:在预设时间段内,数据库中历史时间记录的行人特征向量并未与任何提取的行人特征向量匹配的情况下,将数据库中历史时间记录的行人特征向量标记为离场的行人特征向量。

在一种示例中,将数据库中的预设时间段内未与任何行人检测框匹配的行人特征向量,标记为离场。在未来并不再参与与任何行人检测框之间的匹配。

实施例二

在另一种具体实施方式中,如图5所示,提供了一种行人跟踪装置,包括:

行人检测框标识模块10,用于对从视频中提取的前一图像和当前图像进行行人检测,标识出多个行人检测框;

行人跟踪框标识模块20,用于对具有行人检测框的前一图像和所述当前图像进行跟踪计算,得到所述当前图像中的行人跟踪框;

人体框标识模块30,用于将所述当前图像中的行人检测框和所述当前图像中的行人跟踪框进行匹配,得到匹配结果,并根据所述匹配结果标识出所述当前图像中的人体框;

行人跟踪结果计算模块40,用于对所述当前图像中的人体框进行跟踪计算,得到行人跟踪结果。

在一种实施方式中,如图6所示,所述人体框标识模块30包括:

重叠率计算单元301,用于计算所述当前图像中的行人跟踪框和所述当前图像中的行人检测框的重叠率;

检测框保留单元302,用于在所述重叠率小于阈值的情况下,去掉所述当前图像中的行人跟踪框,保留所述当前图像中的行人检测框;

检测框合并单元303,用于在所述重叠率大于阈值的情况下,将所述当前图像中的行人跟踪框和所述当前图像中的行人检测框合并,得到合并的行人检测框;

人体框标识单元304,用于将保留的行人检测框和合并的行人检测框标识为所述当前图像中的人体框。

在一种实施方式中,如图6所示,所述行人跟踪结果计算模块40包括:

行人特征向量提取单元401,用于对所述当前图像中的人体框进行特征提取,得到行人特征向量;

行人跟踪结果获取单元402,用于在提取的行人特征向量与数据库中历史时间记录的行人特征向量匹配的情况下,在所述数据库中查询与所述当前图像中的人体框对应的身份标记,并将查询到的身份标记分配给所述当前图像中的人体框,得到所述行人跟踪结果。

在一种实施方式中,如图7所示,还包括:

身份标记分配模块50,用于在提取的行人特征向量与所述数据库中历史时间记录的行人特征向量未匹配的情况下,则给所述当前图像中的人体框分配新的身份标记;

行人特征向量存储模块60,用于对具有新的身份标记的人体框进行特征提取,得到新的行人特征向量,将所述新的行人特征向量存储至所述数据库中。

在一种实施方式中,如图7所示,还包括:

离场标记模块70,用于在预设时间段内,所述数据库中历史时间记录的行人特征向量并未与任何提取的行人特征向量匹配的情况下,将所述数据库中历史时间记录的行人特征向量标记为离场的行人特征向量。

本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。

实施例三

图8示出根据本发明实施例的行人跟踪终端的结构框图。如图8所示,该终端包括:存储器910和处理器920,存储器910内存储有可在处理器920上运行的计算机程序。所述处理器920执行所述计算机程序时实现上述实施例中的行人跟踪方法。所述存储器910和处理器920的数量可以为一个或多个。

该终端还包括:

通信接口930,用于与外界设备进行通信,进行数据交互传输。

存储器910可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。

如果存储器910、处理器920和通信接口930独立实现,则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(isa,industrystandardarchitecture)总线、外部设备互连(pci,peripheralcomponentinterconnect)总线或扩展工业标准体系结构(eisa,extendedindustrystandardarchitecture)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

可选的,在具体实现上,如果存储器910、处理器920及通信接口930集成在一块芯片上,则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。

本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述实施例中任一所述方法。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。

应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1