目标跟踪方法及设备与流程

文档序号：16002662发布日期：2018-11-20 19:39阅读：194来源：国知局

本申请涉及目标检测及跟踪领域，尤其涉及一种目标跟踪方法及设备。

背景技术：

目标跟踪主要应用于视频监控、人机交互、虚拟现实以及无人机侦察等场景中。通常对单目标对象进行跟踪时，需对根据卷积神经网络的要求对图像的尺寸进行调整，截取图像中目标对象区域的图像以进行卷积以获取相应的特征图(耗时长)，再将特征图与目标模板进行匹配，以识别该目标对象是否需跟踪的目标对象，从而实现对视频图像中目标对象的跟踪。在提取原图中目标对象区域的特征图的过程中耗时较长，过程繁琐，实时跟踪的体验效果差。

技术实现要素：

有鉴于此，本申请实施例提供了一种目标跟踪方法及设备，以解决跟踪耗时长的问题。

本申请实施例采用下述技术方案：

本申请实施例提供了一种目标跟踪方法，包括：

将第一帧图像输入卷积神经网络，获取与所述第一帧图像对应的特征图；

获取已处理的第二帧图像中至少一个目标对象的特征模板，所述第二帧图像比第一帧图像时序在前；

将所述特征图与所述至少一个目标对象的特征模板进行匹配，得到所述特征图中匹配的至少一个目标对象；

根据所述匹配的至少一个目标对象在第一帧图像对应的特征图中的位置信息，确定所述匹配的至少一个目标对象在第一帧图像中的目标位置。

本申请实施例还提供了一种目标跟踪设备，包括：

处理单元，用以将第一帧图像输入卷积神经网络，获取与所述第一帧图像对应的特征图；

获取单元，用以获取已处理的第二帧图像中至少一个目标对象的特征模板，所述第二帧图像比第一帧图像时序在前；

匹配单元，用以将所述特征图与所述至少一个目标对象的特征模板进行匹配，得到所述特征图中匹配的至少一个目标对象；

确定单元，用以根据所述匹配的至少一个目标对象在第一帧图像对应的特征图中的位置信息，确定所述匹配的至少一个目标对象在第一帧图像中的目标位置。

本申请实施例还提供了一种电子设备，包括至少一个处理器及存储器，所述存储器存储有程序，并且被配置成由至少一个所述处理器执行以下步骤：

将第一帧图像输入卷积神经网络，获取与所述第一帧图像对应的特征图；

获取已处理的第二帧图像中至少一个目标对象的特征模板，所述第二帧图像比第一帧图像时序在前；

将所述特征图与所述至少一个目标对象的特征模板进行匹配，得到所述特征图中匹配的至少一个目标对象；

根据所述匹配的至少一个目标对象在第一帧图像对应的特征图中的位置信息，确定所述匹配的至少一个目标对象在第一帧图像中的目标位置。

本申请实施例还提供了一种计算机可读存储介质，包括与电子设备结合使用的程序，程序可被处理器执行以完成以下步骤：

将第一帧图像输入卷积神经网络，获取与所述第一帧图像对应的特征图；

获取已处理的第二帧图像中至少一个目标对象的特征模板，所述第二帧图像比第一帧图像时序在前；

将所述特征图与所述至少一个目标对象的特征模板进行匹配，得到所述特征图中匹配的至少一个目标对象；

根据所述匹配的至少一个目标对象在第一帧图像对应的特征图中的位置信息，确定所述匹配的至少一个目标对象在第一帧图像中的目标位置。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：

通过将第一帧图像输入卷积神经网络，得到与所述第一帧图像对应的特征图；再获取已处理的第二帧图像中至少一个目标对象的特征模板，其中，所述第二帧图像比第一帧图像时序在前；将所述特征图与所述至少一个目标对象的特征模板进行匹配，得到所述特征图中匹配的至少一个目标对象；从而根据所述匹配的至少一个目标对象在第一帧图像对应的特征图中的位置信息，确定所述匹配的至少一个目标对象在第一帧图像中的目标位置，达到跟踪目标对象的目的。本发明先将整帧图像输入卷积神经网络获取整张图的特征图用时短，再将特征图与上一帧图像中目标对象的特征模板进行匹配得到需跟踪目标对象在特征图中的位置信息，从而确定目标对象在第一帧图像的位置，跟踪耗时短速度快，提高了跟踪的体验效果。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种目标跟踪方法的流程图；

图2为一种实施例的得分图；

图3为本申请实施例提供的一种目标跟踪设备的结构示意图。

具体实施方式

为了实现本申请的目的，本申请实施例提供了目标跟踪方法及设备，通过将第一帧图像输入卷积神经网络，获取与所述第一帧图像对应的特征图；获取已处理的第二帧图像中至少一个目标对象的特征模板，所述第二帧图像比第一帧图像时序在前；再将所述特征图与所述至少一个目标对象的特征模板进行匹配，得到所述特征图中匹配的至少一个目标对象；从而根据所述匹配的至少一个目标对象在第一帧图像对应的特征图中的位置信息，确定所述匹配的至少一个目标对象在第一帧图像中的目标位置，达到跟踪目标对象的目的。本发明先将整帧图像输入卷积神经网络获取整张图的特征图用时短，再将特征图与上一帧图像中目标对象的特征模板进行匹配得到需跟踪目标对象在特征图中的位置信息，从而确定目标对象在第一帧图像的位置，跟踪耗时短速度快，提高了跟踪的体验效果。

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1为本申请实施例提供的一种目标跟踪方法的流程示意图。所述方法可以如下所示。

步骤S100.将第一帧图像输入卷积神经网络，获取与所述第一帧图像对应的特征图。

在本实施例中，将第一帧图像的原图输入到卷积神经网络中，获取整幅的第一帧图像的特征图，在获取特征图的过程中无需对原图的尺寸进行调整，方便快捷，过程简单。

步骤S200.获取已处理的第二帧图像中至少一个目标对象的特征模板，所述第二帧图像比第一帧图像时序在前。

本发明主要用于多目标对象跟踪，也可用于单目标对象跟踪。在本实施例中，每个目标对象对应一个特征模板，目标对象与特征模板一一对应。已处理的第二帧图像可以是视频图像中的首帧图像，也可以是视频图像中第一帧图像的前一帧已处理的图像。当已处理的第二帧图像不是首帧图像时，将第二帧图像经匹配后的目标对象对应的特征模板作为已处理的第二帧图像中相应目标对象的特征模板。

进一步地，目标对象可以是人体、车体或其他物体。在实际应用中目标跟踪方法主要用于跟踪移动的物体，确定物体的移动轨迹。

在本申请实施例中，当所述第二帧图像为首帧图像时，步骤S200获取已处理的第二帧图像中至少一个目标对象的特征模板，包括：

步骤S210将所述第二帧图像输入卷积神经网络，获取所述第二帧图像对应的样本特征图；

步骤S220基于所述样本特征图确定至少一个目标对象的特征模板。

在本实施例中，当已处理的第二帧图像是视频图像中的首帧图像时，通过将整幅首帧图像输入卷积神经网络获取整幅样本特征图，根据首帧图像中目标对象的位置提取样本特征图中相应目标对象的特征模板。其中，首帧图像中目标对象位置可以通过检测获取，也可以人为选定，此处不做限定。

步骤S300.将所述特征图与所述至少一个目标对象的特征模板进行匹配，得到所述特征图中匹配的至少一个目标对象；

在本实施例中，当第一帧图像中包括多个目标对象时，需将每个特征模板分别与特征图进行匹配，以得到每个特征模板相应的匹配结果，根据该匹配结果识别特征模板与第一帧图像中的目标对象是否对应。

在本申请实施例中，步骤S300将所述特征图与所述至少一个目标对象的特征模板进行匹配，得到所述特征图中匹配的至少一个目标对象，包括：

将所述特征模板与所述特征图进行匹配，在所述特征图中获取与所述特征模板的匹配度符合第一预设条件的目标对象。

其中，第一预设条件是指匹配度最高，且匹配度大于预设阈值。若满足第一预设条件，则在特征图中与特征模板的匹配度最高的区域视为与该特征模板对应的目标对象所在的位置。若特征模板与特征图进行匹配，得到的匹配度不符合所述第一预设条件，则表示特征图中没有与特征模板匹配的目标对象，即第一帧图像中没有目标对象(目标对象不在图像中)，可删除该特征模板。

进一步地，将所述特征模板与所述特征图进行匹配，包括：

将所述特征模板与所述特征图进行卷积，得到所述特征图与所述特征模板的匹配度分布图，根据所述匹配度分布图获取所述特征图与所述特征模板的匹配度。

在本实施例中，可通过将特征模板与特征图进行卷积以获取特征图与特征模板的匹配度分布图，匹配度分布图中响应峰值(响应峰值大于预设阈值)的位置表示与该特征模板匹配的目标对象所在的位置。

在实际应用中，也可通过其他方式对特征模板与特征图进行匹配，此处不做限定。

步骤S400.根据所述匹配的至少一个目标对象在第一帧图像对应的特征图中的位置信息，确定所述匹配的至少一个目标对象在第一帧图像中的目标位置。

在本实施例中，当特征图中的目标对象与相应的特征模板匹配成功，可根据目标对象在特征图中的位置信息，确定该目标对象在第一帧图像中的目标位置，从而实现在第一帧图像中对目标对象的位置进行跟踪定位。

在本申请实施例中，步骤S400根据所述目标对象在第一帧图像对应的特征图中的位置信息，确定所述目标对象在第一帧图像中的目标位置，包括：

根据所述特征图与所述第一帧图像之间的映射关系及所述目标对象在所述特征图中的位置信息，获取所述目标对象在所述第一帧图像的目标位置。

在本实施例中，当目标对象与特征模板匹配成功后，能够获取目标对象在特征图的位置信息，基于第一帧图像与其特征图之间的映射关系，可获取目标对象在第一帧图像中的目标位置，从而实现在第一帧图像中对目标对象的位置进行跟踪定位的目的。

在本申请实施例中，在执行步骤S400根据所述匹配的至少一个目标对象在第一帧图像对应的特征图中的位置信息，确定所述匹配的至少一个目标对象在第一帧图像中的目标位置之后，还包括：

步骤S500.根据所述匹配的至少一个目标对象与不同模板尺寸对应的特征模板之间的匹配度，更新所对应的特征模板的模板尺寸。

在视频图像中，由于目标对象在每一帧中的形态可能发生变化。如果不对模板特征进行更新，容易导致跟错，跟丢的情况。而过于频繁的更新模板，则容易过拟合。因此，在本实施例中，特征模板每匹配成功一次更新一次，从而使得在跟踪目标对象的过程中，不断适应目标对象的外形变化，提高跟踪的精准度。

在本申请实施例中，步骤S500根据所述匹配的至少一个目标对象与不同模板尺寸对应的特征模板之间的匹配度，更新所对应的特征模板的模板尺寸，包括：

步骤S510.将所述特征模板以至少两个匹配尺寸分别与所述特征图进行匹配；

步骤S520.获取所述特征模板与所述特征图的匹配度符合第二预设条件的匹配尺寸的所述特征模板；

步骤S530.根据符合第二预设条件的所述特征模板的对应的匹配尺寸更新所述特征模板的尺寸。

进一步地，匹配尺寸可以是目标对象在已处理的第二帧图像的特征模板的尺寸的预设倍数。第二预设条件是指在特征模板的所有匹配尺寸中选取匹配度最高(即：响应峰值最大)时的尺寸作为更新特征模板的匹配尺寸。

在本实施例中，通过步骤S300能得到目标对象的中心位置信息，但是不能精确的获取目标对象在第一帧图像的尺寸大小，通常帧与帧之间目标对象的尺寸不会发生突变，因此可根据上一帧特征模板的尺寸的预设倍数，预测第一帧图像中目标对象的尺寸，以有效的对目标对象的尺寸进行自适应调节，提高跟踪的准确度。

作为举例不做限定，在实际应用中，可采用三个匹配尺寸，分别是上一帧图像(第二帧图像)的特征模板的尺寸的1倍、1.03倍和0.97倍，每个匹配尺寸的特征模板均执行步骤S300再次进行匹配，选取匹配度最高的特征模板对应的匹配尺寸更新该特征模板的尺寸。从而有效的对特征模板的尺寸进行自适应调节，增加匹配尺寸的数目能提高跟踪的性能，但会增加匹配的时间，选定3个匹配尺寸可在提高跟踪精度的同时，可快速的对目标对象进行跟踪。

在本申请的一个或者多个实施例中，在执行步骤S400根据所述匹配的至少一个目标对象在第一帧图像对应的特征图中的位置信息，确定所述匹配的至少一个目标对象在第一帧图像中的目标位置之后，还可包括：

根据所述匹配的至少一个目标对象的特征信息，对所述匹配的至少一个目标对象对应的特征模板进行更新。

在本实施例中，提取与特征模板匹配的目标对象在特征图中的位置信息对应的特征信息，根据该特征信息对特征模板进行更新。在完成更新后，将完成匹配的第一帧图像作为已处理的第二帧图像，将更新后的特征模板作为已处理的第二帧图像的特征模板，根据更新后的特征模板对下一帧图像中的目标对象进行匹配。

作为较为优选的实施例，每一帧图像可以以0.02的速率对特征模板进行更新，使得在跟踪目标对象的过程中不断适应目标对象的物体外形变化。

本发明的目标跟踪方法是基于卷积神经网络对目标对象进行跟踪的，在对目标对象进行跟踪之前，需对卷积神经网络进行训练。采用的训练样本是一对一对的样本对，每个样本对中包含两张图片：一张图片是待匹配的目标对象的目标图片，需将其缩放到112×112的尺寸；另一张图片是包含待匹配目标对象的放大之后的搜索图片，需将其缩放到224×224的尺寸。在训练过程中，为了提高样本的多样性，同时一定程度上解决遮挡的问题，可随机擦除搜索图片中的某块区域的像素，构造有遮挡的样本对，提高了模型的鲁棒性。训练时可采用残差网络(resnet18)的前4个卷积块作为特征提取网络，利用ImageNet(图像识别的数据库)1000类训练好的模型权重初始化该网络参数。训练阶段可以以8(作为举例而非限定)为批处理的大小，以样本对的形式输入到孪生网络中。在经过孪生网络之后得到图片的特征图，以目标图片的特征图作为卷积的参数，与搜索图片的特征图进行卷积，从而得到得分图，如图2所示，在得分响应图中，响应最高的位置代表搜索物体的中心点所在的位置，A表示特征图的横坐标，B表示特征图的纵坐标，C表示分数。

在训练过程中，通过交并比(intersection-over-union，简称IoU)来产生监督的标签，对于得分图中的每一个点，通过计算以该点为中心的区域与原模板的交并比来产生标签。如果IoU>0.8，则将标签设为1；否则，将标签设为0。对于每个点，用如下的损失函数计算损失：

其中，交并比表示搜索图片与目标图片的交叠率；N为正整数；y表示标签；d表示样本之间的距离；margin代表参数的数量级；如果y＝0，则认为样本对不相关，则应拉大样本之间的距离；如果y＝1,则应减小样本之间的距离。卷积神经网络的优化目标就是使得该损失最小。

在训练过程中，通过大量的样本对进行线下的训练，使得卷积神经网络的鲁棒性显著提高。在训练完成后，将模型参数进行保存，在进行目标跟踪过程中，直接使用该参数进行多目标的追踪，而不需要在线上在训练调整该参数。

基于同一个发明构思，图3为本申请实施例提供的一种目标跟踪设备，包括：

处理单元1，用以将第一帧图像输入卷积神经网络，获取与所述第一帧图像对应的特征图；

获取单元2，用以获取已处理的第二帧图像中至少一个目标对象的特征模板，所述第二帧图像比第一帧图像时序在前；

匹配单元3，用以将所述特征图与所述至少一个目标对象的特征模板进行匹配，得到所述特征图中匹配的至少一个目标对象；

确定单元4，用以根据所述匹配的至少一个目标对象在第一帧图像对应的特征图中的位置信息，确定所述匹配的至少一个目标对象在第一帧图像中的目标位置。

在本申请的一个或者多个实施例中，所述匹配单元3将所述特征图与所述至少一个目标对象的特征模板进行匹配，得到所述特征图中匹配的至少一个目标对象，包括：

将所述特征模板与所述特征图进行匹配，在所述特征图中获取与所述特征模板的匹配度符合第一预设条件的目标对象。

在本申请的一个或者多个实施例中，所述匹配单元3将所述特征模板与所述特征图进行匹配，包括：

在本申请的一个或者多个实施例中，所述确定单元4在根据所述匹配的至少一个目标对象在第一帧图像对应的特征图中的位置信息，确定所述匹配的至少一个目标对象在第一帧图像中的目标位置之后，还包括：

更新单元5，用以根据所述匹配的至少一个目标对象与不同模板尺寸对应的特征模板之间的匹配度，更新所对应的特征模板的模板尺寸。

在本申请的一个或者多个实施例中，所述更新单元5根据匹配后的所述目标对象更新对应的所述特征模板的尺寸，包括：

将所述特征模板以至少两个匹配尺寸分别与所述特征图进行匹配；

获取所述特征模板与所述特征图的匹配度符合第二预设条件的匹配尺寸的所述特征模板；

根据符合第二预设条件的所述特征模板的对应的匹配尺寸更新所述特征模板的尺寸。

更新单元5用以根据所述匹配的至少一个目标对象的特征信息，对所述匹配的至少一个目标对象对应的特征模板进行更新。

在本申请的一个或者多个实施例中，所述确定单元4根据所述目标对象在第一帧图像对应的特征图中的位置信息，确定所述目标对象在第一帧图像中的目标位置，包括：

根据所述特征图与所述第一帧图像之间的映射关系及所述目标对象在所述特征图中的位置信息，获取所述目标对象在所述第一帧图像的目标位置。

在本申请的一个或者多个实施例中，所述获取单元2获取已处理的第二帧图像中至少一个目标对象的特征模板，包括：

将所述第二帧图像输入卷积神经网络，获取所述第二帧图像对应的样本特征图；

基于所述样本特征图确定至少一个目标对象的特征模板。

在本实施例中，将整帧图像输入卷积神经网络获取整张图的特征图用时短，再将特征图与上一帧图像中目标对象的特征模板进行匹配得到需跟踪目标对象的位置，跟踪速度快，提高了跟踪的体验效果。根据特征图中目标对象的位置信息对应的特征信息对跟踪模板进行更新，使得在跟踪目标对象的过程中不断适应目标对象的物体外形变化，提高跟踪目标对象的精准度。

基于同一发明构思，本发明提供了一种电子设备，包括至少一个处理器及存储器，所述存储器存储有程序，并且被配置成由至少一个所述处理器执行以下步骤：

将第一帧图像输入卷积神经网络，获取与所述第一帧图像对应的特征图；

获取已处理的第二帧图像中至少一个目标对象的特征模板，所述第二帧图像比第一帧图像时序在前；

将所述特征图与所述至少一个目标对象的特征模板进行匹配，得到所述特征图中匹配的至少一个目标对象；

根据所述匹配的至少一个目标对象在第一帧图像对应的特征图中的位置信息，确定所述匹配的至少一个目标对象在第一帧图像中的目标位置。

基于同一发明构思，本发明提供了一种计算机可读存储介质，包括与电子设备结合使用的程序，程序可被处理器执行以完成以下步骤：

将第一帧图像输入卷积神经网络，获取与所述第一帧图像对应的特征图；

获取已处理的第二帧图像中至少一个目标对象的特征模板，所述第二帧图像比第一帧图像时序在前；

将所述特征图与所述至少一个目标对象的特征模板进行匹配，得到所述特征图中匹配的至少一个目标对象；

根据所述匹配的至少一个目标对象在第一帧图像对应的特征图中的位置信息，确定所述匹配的至少一个目标对象在第一帧图像中的目标位置。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：何智群;董远;白洪亮;熊风烨
技术所有人：北京飞搜科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。