目标跟踪方法及装置、电子设备及存储介质与流程

文档序号:33620291发布日期:2023-03-25 11:19阅读:47来源:国知局
目标跟踪方法及装置、电子设备及存储介质与流程

1.本发明涉及目标跟踪技术领域,特别涉及一种基于图像的目标跟踪方法、目标跟踪装置、电子设备及非易失性计算机可读存储介质。


背景技术:

2.目前,在进行目标跟踪时,需要视频初始帧的目标作为模板输入,后续帧作为搜索输入,然后利用深度学习等策略估计目标位置。然而,深度学习的模型在进行特征提取时,为了保证特征提取的准确性,一般会进行卷积计算以得到特征,能够提取的特征有限,从而影响后续进行目标跟踪的准确性。


技术实现要素:

3.本发明实施方式提供了一种基于图像的目标跟踪方法、基于图像的目标跟踪装置、电子设备及非易失性计算机可读存储介质。
4.本发明实施方式的目标跟踪方法包括通过预设的目标跟踪模型分别对模板图像和搜索图像进行卷积,以提取所述模板图像的第一特征和搜索图像的第二特征,其中,所述搜索图像和所述模板图像包含相同的目标对象;分别对所述第一特征和所述第二特征进行线性运算,以得到第三特征和第四特征;根据所述第一特征和所述第三特征,生成第一特征向量,及根据所述第二特征和所述第四特征,生成第二特征向量;及根据所述第一特征向量和所述第二特征向量,输出所述搜索图像对应的目标跟踪信息。
5.在某些实施方式中,所述目标跟踪方法还包括通过所述目标跟踪模型对所述更新图像进行卷积,以提取所述更新图像的第五特征,并对所述第五特征进行线性运算,以得到第六特征,连续多帧图像包括所述模板图像和所述搜索图像,所述模板图像的拍摄时间早于所述搜索图像的拍摄时间,所述更新图像为连续多帧图像中所述模板图像和所述搜索图像之间的任一帧图像;根据所述第五特征和所述第六特征,生成第三特征向量;所述根据所述第一特征向量和所述第二特征向量,输出目标跟踪信息,包括:通过所述第一特征向量的预设权值和所述第三特征向量的预设权值,加权融合所述第一特征向量和所述第三特征向量,以生成第四特征向量;根据所述第四特征向量和所述第二特征向量,输出所述目标跟踪信息。
6.在某些实施方式中,基于预设的无锚框的目标检测算法,处理分别拆分所述第四特征向量和所述第二特征向量,以得到拆分后的多个特征向量;对拆分后的多个特征向量进行融合以得到多个融合特征向量;根据多个所述融合特征向量以输出所述目标跟踪信息。
7.在某些实施方式中,所述目标跟踪信息包括目标对象的类型、目标对象的中心位置和所述中心位置距离目标框的距离,所述基于预设的无锚框的目标检测算法,处理所述第四特征向量和所述第二特征向量,以输出所述目标跟踪信息,包括:拆分所述第四特征向量,以获取第五特征向量和第六特征向量、及拆分所述第二特征向量,以获取第七特征向量
和第八特征向量,所述第五特征向量和所述第七特征向量均包括用于检测所述分类和所述中心位置的信息,所述第六特征向量和所述第八特征向量均包括用于检测所述中心位置和所述目标框的距离检测的信息;根据所述第五特征向量和第七特征向量,生成第九特征向量、及根据所述第六特征向量和第八特征向量,生成第十特征向量;根据所述第九特征向量,输出所述目标对象的类型和目标对象的中心位置;及根据所述第十特征向量,输出所述中心位置距离目标框的距离。
8.在某些实施方式中,所述目标跟踪方法还包括获取预设的所述目标跟踪模型;所述获取预设的所述目标跟踪模型,包括:获取训练集,所述训练集包括多个图像组,每个所述图像组包括训练模板图像和训练搜索图像,所述训练集还包括与所述图像组一一对应的标签信息,所述训练搜索图像和所述训练模板图像包含相同的目标对象;通过跟踪模型对所述训练模板图像和所述训练搜索图像进行卷积,以提取所述训练模板图像的第一特征和所述训练搜索图像的第二特征;对所述第一特征和所述第二特征进行线性运算,以分别得到第三特征和第四特征;根据所述第一特征和所述第三特征,生成第一特征向量,及根据所述第二特征和所述第四特征,生成第二特征向量;及根据所述第一特征向量和所述第二特征向量,输出目标跟踪信息;基于预设的损失函数,根据所述目标跟踪信息和所述标签信息计算损失值;根据所述损失值调整所述跟踪模型,直至所述跟踪模型收敛,以得到所述目标跟踪模型。
9.在某些实施方式中,所述图像组还包括训练更新图像,连续多帧图像包括所述训练模板图像和所述训练搜索图像,所述训练模板图像的拍摄时间早于所述训练搜索图像的拍摄时间,所述训练更新图像为连续多帧图像中所述训练模板图像和所述训练搜索图像之间的任一帧图像,所述目标跟踪方法还包括:通过跟踪模型对所述训练更新图像进行卷积,以提取所述训练更新图像的第五特征,并对所述第五特征进行线性运算,以得到第六特征;根据所述第五特征和所述第六特征,生成第三特征向量;所述根据所述第一特征向量和所述第二特征向量,输出目标跟踪信息,包括:通过预设权值,加权融合所述第一特征向量和所述第三特征向量,以生成第四特征向量;根据所述第四特征向量和所述第二特征向量,输出所述目标跟踪信息;所述根据所述损失值调整所述跟踪模型,直至所述跟踪模型收敛,以得到所述目标跟踪模型,包括:根据所述损失值调整所述预设权值和预设的模型参数,直至所述跟踪模型收敛,以得到所述目标跟踪模型。
10.在某些实施方式中,所述训练集包括正样本和负样本,所述正样本对应的所述图像组中,所述模板图像包含的目标对象和所述搜索图像包含的目标对象相同,所述负样本对应的所述图像组中,所述模板图像包含的目标对象和所述搜索图像包含的目标对象不相同。
11.本发明实施方式的基于图像的目标跟踪装置包括特征提取模块和后处理模块。所述特征提取模块用于通过预设的目标跟踪模型分别对模板图像和搜索图像进行卷积,以提取所述模板图像的第一特征和搜索图像的第二特征,其中,所述搜索图像和所述模板图像包含相同的目标对象;分别对所述第一特征和所述第二特征进行线性运算,以得到第三特征和第四特征;根据所述第一特征和所述第三特征,生成第一特征向量,及根据所述第二特征和所述第四特征,生成第二特征向量;所述后处理模块用于根据所述第一特征向量和所述第二特征向量,输出所述搜索图像对应的目标跟踪信息。
12.本发明实施方式的电子设备。所述电子设备包括处理器,所述处理器用于执行上述任一实施方式的目标跟踪方法。
13.本发明实施方式提供一种非易失性计算机可读存储介质,其上存储有计算机程序。该计算机程序被处理器执行时实现上述任一实施方式的目标跟踪方法。
14.本发明的目标跟踪方法、目标跟踪装置、电子设备及非易失性计算机可读存储介质,通过目标跟踪模型来分别对模板图像和搜索图像进行卷积,以得到第一特征和第二特征,然后分别对第一特征和第二特征进行线性计算以得到第三特征和第四特征,从而得到更多的特征并提高提取的特征的准确性,之后基于第一特征和第三特征,生成第一特征向量,及根据第二特征和第四特征,生成第二特征向量,从而根据第一特征向量和第二特征向量输出目标跟踪信息,能够保证目标跟踪信息的准确性。另外,由于对提取的特征进行了线性计算,使得目标跟踪模型需要提取的第一特征和第二特征减少。因此,目标跟踪模型只需使用较少的卷积核进行特征提取即可,在进行特征提取时耗费的计算力较小,使得目标跟踪模型能够适用于计算力较小的设备。
15.本发明实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
16.本发明的上述和/或附加的方面和优点可以从结合下面附图对实施方式的描述中将变得明显和容易理解,其中:
17.图1是本发明某些实施方式的目标跟踪方法的流程示意图;
18.图2是本发明某些实施方式的目标跟踪方法的原理示意图;
19.图3是本发明某些实施方式的卷积神经网络的特征提取示意图;
20.图4是本发明某些实施方式的模板跟踪模型的特征提取示意图;
21.图5是本发明某些实施方式的目标跟踪方法的流程示意图;
22.图6是本发明某些实施方式的目标跟踪方法的流程示意图;
23.图7是本发明某些实施方式的目标跟踪方法的流程示意图;
24.图8是本发明某些实施方式的目标跟踪方法的流程示意图;
25.图9是本发明某些实施方式的目标跟踪方法的流程示意图;
26.图10是本发明某些实施方式的目标跟踪方法的流程示意图;
27.图11是本发明某些实施方式的基于图像的目标跟踪装置的模块示意图;
28.图12是本发明某些实施方式的电子设备的平面示意图;及
29.图13是本发明某些实施方式的非易失性计算机可读存储介质与处理器的交互示意图。
具体实施方式
30.下面详细描述本发明的实施方式,实施方式的示例在附图中示出,其中,相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明的实施方式,而不能理解为对本发明的实施方式的限制。
31.下面首先对本发明出现的名词进行解释:
32.机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
33.深度学习(deep learning,dl):是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是学习训练样本数据的内在规律和表示层次,这些学习过程中获得的信息对文字、图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。
34.孪生网络(siamese network):针对两个输入input1和input2,分别进入神经网络network1和network2,通过最后的loss计算,可以评价两个network后向量的相似度,即两个input输入的相似度。network1和network2可以是同一个,如network1和network2均是卷积神经网络(convolutional neural networks,cnn);也可以是不同网络,比如一个是卷积神经网络,另一个是长短期记忆网络(long short-term memory,lstm),network1和network2的权值共享。
35.卷积神经网络:是一类包含卷积计算且具有深度结构的前馈神经网络(feedforward neural networks),是深度学习的代表算法之一。卷积神经网络具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类,因此也被称为“平移不变人工神经网络”。
36.请参阅图1和图2,本发明实施方式的基于图像的目标跟踪方法包括:
37.步骤011:通过预设的目标跟踪模型分别对模板图像和搜索图像进行卷积,以提取模板图像的第一特征和搜索图像的第二特征,其中,搜索图像和模板图像包含相同的目标对象。
38.具体地,在进行目标跟踪时,需要分别对模板图像和搜索图像进行特征提取,模板图像和搜索图像均包含相同的目标对象。一般地,为了防止搜索图像不包含目标对象或者仅包含目标对象的一部分,影响跟踪效果,搜索图像的尺寸一般大于模板图像。
39.例如,模板图像一般为采集的连续多帧图像中的第一帧图像,通过预设的目标识别算法,可识别出第一帧图像中的目标对象,然后截取包含目标对象的图像区域(如截取目标对象的2倍的宽和高的图像区域),以作为模板图像。然后可在后续帧中跟踪目标对象时,确定搜索图像,根据模板图像中的目标对象的位置,确定目标对象在搜索图像中的大致位置,然后截取出尺寸较大的搜索图像(如截取目标对象的4倍的宽和高的图像区域作为搜索图像),从而在搜索图像中跟踪目标对象。
40.通过目标跟踪模型对模板图像和搜索图像进行卷积,即可提取模板图像的第一特征,和搜索图像的第二特征。且本发明的目标跟踪模型为孪生网络,通过两个分支网络(如图2中的net1和net2)分别提取模板图像的第一特征和搜索图像的第二特征。
41.步骤012:对第一特征和第二特征进行线性运算,以分别得到第三特征和第四特征。
42.深度神经网络中的一个普通卷积核会被分成两部分。第一部分涉及普通卷积,但它们的总数将受到严格控制。给定第一部分的内在特征,然后应用一系列简单的线性操作来生成更多的特征。
43.请参阅图3,分别为常规的cnn进行卷积的过程和本发明的目标跟踪模型的主干分支(backbone)进行卷积的过程,常规的cnn会用全部的卷积核进行卷积,以得到第一特征向量和第二特征向量。如图3中,对模板图像m1的特征进行卷积,以生成第一特征向量p1,对搜索图像m2进行卷积,以生成第二特征向量p2。
44.请参阅图4,本发明的目标跟踪模型先用一半卷积核进行正常卷积提取特征(如第一特征或第二特征),再将这个特征放入到线性运算中得到新的特征(如第三特征或第四特征),最终合并这两部分,以得到第一特征向量或第二特征向量。线性运算可以是3x3或5x5的深度级卷积过程,计算量耗费较少。
45.如图4中,将模板图像p1进行卷积得到第一特征,然后对第一特征进行线性处理,得到第三特征,然后合成第一特征和第三特征以生成第一特征向量p1;将模板图像p2进行卷积得到第二特征,然后对第二特征进行线性处理,得到第四特征,然后合成第二特征和第四特征以生成第二特征向量p2。
46.如此,进行特征提取所需的卷积核减少了一半,可在不改变最后输出特征的大小的情况下,减少了卷积的计算量。
47.在通过目标跟踪模型提取出第一特征和第二特征后,对第一特征进行线性运算,即可得到第三特征,然后对第二特征进行线性运算,即可得到第三特征。
48.步骤013:根据第一特征和第三特征,生成第一特征向量,及根据第二特征和第四特征,生成第二特征向量。
49.具体地,在获取到第一特征、第二特征、第三特征和第四特征后,即可进行特征合并,以保证输出的特征的大小相较于常规cnn提取的特征的大小基本相同。将第一特征及第一特征线性运算生成的第三特征进行合并,即可得到第一特征向量,将第二特征及第二特征线性运算生成的第四特征合并,即可得到第二特征向量。
50.步骤014:根据第一特征向量和第二特征向量,输出搜索图像对应的目标跟踪信息。
51.具体地,在完成特征提取,以得到精度较高的第一特征向量和第二特征向量后,即可根据第一特征向量和第二特征向量,输出搜索图像对应的目标跟踪信息,例如,将第一特征向量和第二特征向量输入预设的目标跟踪算法(如anchor free算法)中,从而输出目标对象的位置。
52.本发明中目标跟踪方法通过目标跟踪模型来分别对模板图像和搜索图像进行卷积,以得到第一特征和第二特征,然后分别对第一特征和第二特征进行线性计算以得到第三特征和第四特征,从而得到更多的特征并提高提取的特征的准确性,之后基于第一特征和第三特征,生成第一特征向量,及根据第二特征和第四特征,生成第二特征向量,从而根据第一特征向量和第二特征向量输出目标跟踪信息,能够保证目标跟踪信息的准确性。另外,由于对提取的特征进行了线性计算,使得目标跟踪模型需要提取的第一特征和第二特
征减少。因此,目标跟踪模型只需使用较少的卷积核进行特征提取即可,在进行特征提取时耗费的计算力较小,使得目标跟踪模型能够适用于计算力较小的设备(如嵌入式设备)。
53.请参阅图5,目标跟踪方法还包括:
54.步骤015:通过多个卷积核对更新图像进行卷积,以提取更新图像的第五特征,并对第五特征进行线性运算,以得到第六特征,连续多帧图像包括模板图像和搜索图像,模板图像的拍摄时间早于搜索图像的拍摄时间,更新图像为连续多帧图像中模板图像和搜索图像之间的任一帧图像;
55.步骤016:根据第五特征和第六特征,生成第三特征向量。
56.具体地,由于模板图像的较为固定,在目标跟踪过程中,被跟踪的目标对象可能变化太大,此时若继续使用模板图像进行目标跟踪,则目标跟踪的准确性会受到影响。因此,本发明的目标跟踪模型可再增加一个分支网络,以对更新图像进行特征提取。
57.更新图像可以是模板图像(如采集的连续多帧图像中的第一帧)和搜索图像之间的任一帧图像,如搜索图像为当前帧的搜索图像时,则更新图像根据模板图像(如采集的连续多帧图像中的第一帧)和当前帧之间的任一帧图像来生成。如以搜索图像的上一帧图像作为更新图像,具体可以在上一帧图像对应的搜索图像中进行截取,以截取目标对象的2倍宽和高的图像区域作为更新图像。
58.此时的更新图像中的目标对象的变化(如光线、形状变化等),与当前帧的目标对象的变化基本相同,通过对更新图像进行特征提取后,结合更新图像提取的特征,可更为准确地进行特征跟踪。
59.如此,通过目标跟踪模型对更新图像进行卷积,即可得到更新图像的第五特征,并对第五特征进行线性处理,即可得到第六特征,最后合并第五特征和第六特征,即可得到更新图像对应的第三特征向量。
60.请再次参阅图5,步骤014包括:
61.步骤0141:通过第一特征向量的预设权值和第三特征向量的预设权值,加权融合第一特征向量和第三特征向量,以生成第四特征向量;
62.步骤0142:根据第四特征向量和第二特征向量,输出目标跟踪信息。
63.具体地,请结合图2,在结合更新图像提取的第三特征向量p3进行目标跟踪时,模板图像的特征也能提高目标跟踪的准确性,因此,可先将模板图像提取得到的第一特征向量p1和更新图像提取出的第三特征向量p3进行融合。如通过第一特征向量的预设权值和第三特征向量的预设权值,加权融合第一特征向量p1和第三特征向量p3,以生成第四特征向量p4。根据融合后的第四特征向量p4和第二特征向量p2,即可输出目标跟踪信息。
64.例如,可根据更新图像和模板图像之间的图像帧的帧数,来确定预设权值,该帧数越大,说明更新图像的采集时间距离模板图像的采集时间越远,目标对象发生变化的几率就越高,此时应赋予更新图像较大权值,也即是说,更新图像和模板图像之间的图像帧的帧数越大,更新图像对应的第三特征向量p3的权值越大。
65.如此,通过加权融合的方式,结合模板图像的第一特征向量p1和更新图像的第三特征向量p3来进行目标跟踪,即使目标对象发生变化,也能够进行准确地跟踪,从而提高了目标跟踪的准确性。
66.请参阅图6,目标跟踪信息包括目标对象的类型、目标对象的中心位置和中心位置
距离目标框的距离,步骤0142包括:
67.步骤01421:基于预设的无锚框的目标检测算法,根据第四特征向量中用于检测分类和中心位置的部分和第二特征向量中用于检测分类和中心位置的部分,输出目标对象的类型和目标对象的中心位置、及根据第四特征向量中用于检测中心位置和目标框的距离的部分和第二特征向量中用于检测中心位置和目标框的距离的部分,输出中心位置距离目标框的距离。
68.具体地,目前的孪生网络均是基于锚框进行目标对象的跟踪,例如anchor-based算法基于预设的若干固定尺度和长宽比的锚框生成预测框。在数据集(进行训练的训练集)不同时,模型的超参数均需要重新设计,普适性较差。而本发明采用无锚框的目标检测算法(如anchor-free算法),能够基于点生成预测框,从而实现无锚框的目标跟踪,对于不同的数据集均可适应相同的超参数,无需重新设计,普适性也较强。
69.目标跟踪信息包括目标对象的类型、目标对象的中心位置和中心位置距离目标框的距离。融合得到的第四特征向量中,包含了用于分类和中心位置检测的部分以及用于中心位置距离目标框的距离检测的部分;同样地,第二特征向量中也包含了用于分类和中心位置检测的部分以及用于中心位置距离目标框的距离检测的部分。
70.因此,基于无锚框的目标检测算法,通过第四特征向量中用于检测分类和中心位置的部分和第二特征向量中用于检测分类和中心位置的部分,即可输出目标对象的类型和目标对象的中心位置;通过第四特征向量中用于检测中心位置和目标框的距离的部分和第二特征向量中用于检测中心位置和目标框的距离的部分,即可输出中心位置距离目标框的距离。
71.请参阅图7,步骤01421包括:
72.步骤01422:拆分第四特征向量,以获取第五特征向量和第六特征向量、及拆分第二特征向量,以获取第七特征向量和第八特征向量,第五特征向量和第七特征向量均包括用于检测分类和中心位置的信息,第六特征向量和第八特征向量均包括用于检测中心位置和目标框的距离检测的信息;
73.步骤01423:根据第五特征向量和第七特征向量,生成第九特征向量、及根据第六特征向量和第八特征向量,生成第十特征向量;
74.步骤01424:根据第九特征向量,输出目标对象的类型和目标对象的中心位置;及
75.步骤01425:根据第十特征向量,输出中心位置距离目标框的距离。
76.具体地,
77.请结合图2,通过特征拆分,拆分第四特征向量p4,以获取用于分类和中心位置检测的第五特征向量p5和用于中心位置距离目标框的距离检测的第六特征向量p6、及拆分第二特征向量p2,以获取用于分类和中心位置检测的第七特征向量p7和用于中心位置距离目标框的距离检测的第八特征向量p8。也即是说,第五特征向量和第七特征向量均包括用于检测分类和中心位置的信息,第六特征向量和第八特征向量均包括用于检测中心位置和目标框的距离检测的信息。
78.然后将用于分类和中心位置检测的第五特征向量p5和第七特征向量p7进行互相关操作,从而生成第九特征向量p9;将用于中心位置距离目标框的距离检测第六特征向量p6和第八特征向量p8进行互相关操作,从而生成第十特征向量p10。
79.最后,预设的无锚框的特征检测算法即可处理第九特征向量p9,以得到目标对象的类型和中心位置,处理第十特征向量p10,以得到目标对象的中心位置距离目标框的距离,如此,可确定目标对象的位置(即通过中心位置和中心位置距离目标框的距离确定的目标框的位置)及类型,实现目标对象的跟踪。
80.在一个例子中,如第四特征向量p4为6*6*256,第二特征向量p2为22*22*256。其中,第四特征向量p4中用于分类和中心位置检测的第五特征向量p5是4*4*2k*256,第二特征向量p2中用于分类和中心位置检测的第七特征向量p7是20*20*256,在第五特征向量p5和第七特征向量p7进行互相关操作时,可将4*4*2k*256拆成2k个4*4*256,分别与20*20*256做互相关(其实就是卷积操作,4*4是卷积核的大小),得到的就是第九特征向量p9,第九特征向量p9为17*17*2k。
81.同样地,第四特征向量p4中用于中心位置距离目标框的距离检测的第六特征向量p6是4*4*4k*256,第二特征向量p2中用于中心位置距离目标框的距离检测的第八特征向量p8是20*20*256,在第六特征向量p6和第八特征向量p8进行互相关操作时,可将4*4*4k*256拆成4k个4*4*256,分别与20*20*256做互相关(其实就是卷积操作,4*4是卷积核的大小),得到的就是第十特征向量p10,第十特征向量p10为17*17*2k。
82.请参阅图8和图9,目标跟踪方法还包括:
83.017:获取预设的目标跟踪模型;
84.具体地,目标跟踪模型需要提前进行训练得到。
85.步骤017包括:
86.步骤0171:获取训练集,训练集包括多个图像组,每个图像组包括训练模板图像和训练搜索图像,训练集还包括与图像组一一对应的标签信息,训练搜索图像和训练模板图像包含相同的目标对象;
87.步骤0172:通过跟踪模型对训练模板图像和训练搜索图像进行卷积,以提取训练模板图像的第一特征和训练搜索图像的第二特征;
88.步骤0173:对第一特征和第二特征进行线性运算,以分别得到第三特征和第四特征;
89.步骤0174:根据第一特征和第三特征,生成第一特征向量,及根据第二特征和第四特征,生成第二特征向量;及
90.步骤0175:根据第一特征向量和第二特征向量,输出目标跟踪信息;
91.步骤0176:基于预设的损失函数,根据目标跟踪信息和标签信息计算损失值;
92.步骤0177:根据损失值调整跟踪模型,直至跟踪模型收敛,以得到目标跟踪模型。
93.具体地,目标跟踪模型需要预先进行训练,在训练时,可先获取训练集。训练集,顾名思义它是用来训练模型的,为了减少泛化误差,我们需要通过训练集不断的训练来使得目标跟踪模型能够更好地接近真实数据。
94.训练集包括多个图像组,每个图像组中均包括训练模板图像和训练搜索图像,训练集还包括与图像组一一对应的标签信息,标签信息中包含对图像组对应的真实跟踪信息。
95.训练集包括正样本和负样本,正样本对应的图像组中,训练模板图像包含的目标对象和训练搜索图像包含的目标对象相同,负样本对应的图像组中,训练模板图像包含的
目标对象和训练搜索图像包含的目标对象不相同,如此,通过同时存在正样本和负样本的训练集进行训练,能够提高目标跟踪模型的训练效果。
96.此外,由于目前留存的样本量较少,在获取训练集时,可仅获取训练模板图像,然后基于训练模板图像进行数据增强,以得到训练搜索图像,如对训练模板图像的目标对象进行变形、对训练模板图像的颜色信息进行改变等。如此,无需获取到每个训练模板图像实际进行目标跟踪时的训练搜索图像,在样本量较少的情况下,也能够得到足够的样本数量的训练集。
97.然后输入训练集到跟踪模型进行训练,训练过程中同样需要对图像组的训练模板图像和训练搜索图像进行特征提取,特征提取的方式与步骤011相同,在此不再赘述。
98.同样地,步骤0173、步骤0174和步骤0175的具体解释请分别参阅步骤012、步骤013和步骤014的描述。
99.在得到目标跟踪信息后,可基于预设的损失函数,根据标签信息和目标跟踪信息来计算损失值,可以理解,目标跟踪信息和标签信息的差异越大,损失值越大,说明目标跟踪信息的检测准确性越低,此时可根据损失值对跟踪模型中的超参数进行调整,从而不断降低损失值,使得损失值收敛。如通过训练集进行多轮训练后,损失值不再跳变,而是基本保持不变,此时即可认为跟踪模型收敛,从而得到收敛后的目标跟踪模型。如此,通过训练集,能够实现目标跟踪模型的训练。
100.在得到收敛后的目标跟踪模型后,可根据测试集进行测试,从而检测目标跟踪模型的训练效果。测试集是用来测试模型的准确性的,我们将测试集应用于训练集训练好的目标跟踪模型,会得到一个模型的得分。测试集用来评估目标跟踪模型的泛化能力,但不能作为调参、选择特征等算法相关的选择的依据。测试集的作用是体现在测试的过程中。
101.而在训练过程中,可通过验证集辅助进行调参、选择特征等算法相关的选择依据,验证集可查看目标跟踪模型训练的效果是否朝着坏的方向进行。验证集的作用是体现在训练的过程。例如,通过查看训练集和验证集的损失值的变化,可以看出模型是否过拟合,如果过拟合则可以及时停止训练,然后调整模型结构和超参数,大大节省时间。
102.请参阅图10,图像组还包括训练更新图像,连续多帧图像包括训练模板图像和训练搜索图像,训练模板图像的拍摄时间早于训练搜索图像的拍摄时间,训练更新图像为连续多帧图像中训练模板图像和训练搜索图像之间的任一帧图像;目标跟踪方法还包括:
103.步骤0178:通过跟踪模型对训练更新图像进行卷积,以提取训练更新图像的第五特征,并对第五特征进行线性运算,以得到第六特征;
104.步骤0179:根据第五特征和第六特征,生成第三特征向量;
105.步骤0175:根据第一特征向量和第二特征向量,输出目标跟踪信息,包括:
106.步骤01751:通过预设权值,加权融合第一特征向量和第三特征向量,以生成第四特征向量;
107.步骤01752:根据第四特征向量和第二特征向量,输出目标跟踪信息;
108.步骤0177:根据损失值调整跟踪模型,直至跟踪模型收敛,以得到目标跟踪模型,包括:
109.步骤01771:根据损失值调整预设权值和预设的模型参数,直至跟踪模型收敛,以得到目标跟踪模型。
110.具体地,步骤0178和步骤0179的解释请分别参阅步骤015和步骤016的描述,步骤01751和步骤01752的解释请分别参阅步骤0141和步骤0142,在此不再赘述。
111.在根据损失值进行跟踪模型的调整时,可同时调整训练模板图像的第一特征向量和训练更新图像的第三特征向量加权融合时的预设权值以及预设的模型参数(即跟踪模型的超参数),从而实现包含三个分支网络的跟踪模型的训练,以得到目标跟踪模型。
112.为便于更好的实施本发明实施方式的目标跟踪方法,本发明实施方式还提供一种基于图像的目标跟踪装置10。请参阅图11,该目标跟踪装置10可以包括:
113.特征提取模块11,用于通过预设的目标跟踪模型分别对模板图像和搜索图像进行卷积,以提取模板图像的第一特征和搜索图像的第二特征,其中,搜索图像和模板图像包含相同的目标对象;分别对第一特征和第二特征进行线性运算,以得到第三特征和第四特征;根据第一特征和第三特征,生成第一特征向量,及根据第二特征和第四特征,生成第二特征向量;
114.后处理模块12,用于根据第一特征向量和第二特征向量,输出搜索图像对应的目标跟踪信息。
115.特征提取模块11还用于通过多个卷积核对更新图像进行卷积,以提取更新图像的第五特征,并对第五特征进行线性运算,以得到第六特征,更新图像根据连续多帧图像中,模板图像和当前帧之间的一帧图像生成,模板图像为连续多帧图像中的任一帧,当前帧为连续多帧图像中的最后一帧;根据第五特征和第六特征,生成第三特征向量;及通过预设权值,加权融合第一特征向量和第三特征向量,以生成第四特征向量;后处理模块12具体还用于通过第一特征向量的预设权值和第三特征向量的预设权值,加权融合第一特征向量和第三特征向量,以生成第四特征向量;根据第四特征向量和第二特征向量,输出目标跟踪信息。
116.后处理模块12具体还用于基于预设的无锚框的目标检测算法,根据第四特征向量中用于检测分类和中心位置的部分和第二特征向量中用于检测分类和中心位置的部分,输出目标对象的类型和目标对象的中心位置、及根据第四特征向量中用于检测中心位置和目标框的距离的部分和第二特征向量中用于检测中心位置和目标框的距离的部分,输出中心位置距离目标框的距离。
117.目标跟踪装置10还包括特征处理模块13,特征处理模块13用于拆分第四特征向量,以获取第五特征向量和第六特征向量、及拆分第二特征向量,以获取第七特征向量和第八特征向量,第五特征向量和第七特征向量均包括用于检测分类和中心位置的信息,第六特征向量和第八特征向量均包括用于检测中心位置和目标框的距离的信息;根据第五特征向量和第七特征向量,生成第九特征向量、及根据第六特征向量和第八特征向量,生成第十特征向量;后处理模块12还用于根据第九特征向量,输出目标对象的类型和目标对象的中心位置;及根据第十特征向量,输出中心位置距离目标框的距离。
118.目标跟踪装置10还包括
119.获取模块14,用于获取预设的目标跟踪模型;
120.获取模块14具体用于:
121.获取训练集,训练集包括多个图像组,每个图像组包括训练模板图像和训练搜索图像,训练集还包括与图像组一一对应的标签信息,训练搜索图像和训练模板图像包含相
同的目标对象;
122.通过跟踪模型对训练模板图像和训练搜索图像进行卷积,以提取训练模板图像的第一特征和训练搜索图像的第二特征;
123.对第一特征和第二特征进行线性运算,以分别得到第三特征和第四特征;
124.根据第一特征和第三特征,生成第一特征向量,及根据第二特征和第四特征,生成第二特征向量;及
125.根据第一特征向量和第二特征向量,输出目标跟踪信息;
126.基于预设的损失函数,根据目标跟踪信息和标签信息计算损失值;
127.根据损失值调整跟踪模型,直至跟踪模型收敛,以得到目标跟踪模型。
128.获取模块14具体用于:
129.通过跟踪模型对训练更新图像进行卷积,以提取训练更新图像的第五特征,并对第五特征进行线性运算,以得到第六特征;
130.根据第五特征和第六特征,生成第三特征向量;
131.通过预设权值,加权融合第一特征向量和第三特征向量,以生成第四特征向量;
132.根据第四特征向量和第二特征向量,输出目标跟踪信息;
133.根据损失值调整预设权值和预设的模型参数,直至跟踪模型收敛,以得到目标跟踪模型。
134.上述目标跟踪装置10中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各个模块可以以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行上述各个模块对应的操作。
135.请参阅图12,本发明实施方式的电子设备100包括处理器30。处理器30用于执行上述任意一种实施方式的目标跟踪方法,为了简洁,在此不再赘述。
136.其中,电子设备100可以是嵌入式设备、移动电话,智能电话,个人数字助理(personal digital assistants,pda),平板电脑和视频游戏设备,便携式终端(例如笔记本电脑),服务器,或较大尺寸的设备(例如台式计算机和电视)。
137.请参阅图13,本发明实施方式还提供了一种计算机可读存储介质300,其上存储有计算机程序310,计算机程序310被处理器30执行的情况下,实现上述任意一种实施方式的目标跟踪方法的步骤,为了简洁,在此不再赘述。
138.可以理解,计算机程序310包括计算机程序代码。计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、以及软件分发介质等。
139.在本说明书的描述中,参考术语“一个实施方式”、“一些实施方式”、“示意性实施方式”、“示例”、“具体示例”或“一些示例”等的描述意指结合所述实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。此外,在
不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施方式或示例以及不同实施方式或示例的特征进行结合和组合。
140.流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施方式所属技术领域的技术人员所理解。
141.尽管上面已经示出和描述了本发明的实施方式,可以理解的是,上述实施方式是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施方式进行变化、修改、替换和变型。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1