本发明属于图像处理和计算机视觉领域,具体涉及一种全局多阶段目标跟踪方法。
背景技术:
目标跟踪在监控、增强现实、机器人、视频编辑等领域有着广泛的应用。在过去的几十年里,这一领域有过许多进展。视觉目标跟踪是指在连续的视频帧序列中连续定位目标,该目标是在第一帧中被指定的任意目标。由于被跟踪的目标在视频帧序列中可能受光照、形变、遮挡等影响,因此在处理复杂情况下的目标跟踪问题仍旧是具有挑战性的。
目前,利用深度学习进行目标跟踪的算法有许多,其中主流的方向之一是利用孪生网络结构进行目标跟踪。fully-convolutionalsiamesenetworksforobjecttracking.,l.bertinetto,j.valmadre,j.f.henriques,a.vedaldi,andp.h.torr.,ineccvworkshops,2016是首创基于孪生网络结构进行目标跟踪的算法,孪生网络的最根本特征如下:使用两个在结构与参数上完全一致的卷积神经网络对跟踪目标与搜索区域(寻找跟踪目标的区域)进行特征提取,并将提取出的跟踪目标特征与搜索区域特征进行相关运算,获得目标可能位置的特征。通过对目标可能位置的特征进行处理,获得最终的被跟踪目标位置与大小。虽然首创孪生网络结构,但该方法的特征提取能力弱,精度上性能低,且不能根据物体的形变改变边界框的比例。发明专利“一种基于孪生网络的目标跟踪方法,公开号:cn110807793a”使用卷积核形状固定的卷积神经网络进行目标的特征提取,且相对于fully-convolutionalsiamesenetworksforobjecttracking.,l.bertinetto,j.valmadre,j.f.henriques,a.vedaldi,andp.h.torr.,ineccvworkshops,2016使用了特征提取能力更强的网络设计。虽然固定形状的传统卷积核具有一定的鲁棒性,包括尺度不变性与旋转不变性,但对目标跟踪任务而言,目标在帧序列中可能存在大的形态变化,以及产生运动模糊与伪影,极端情况下固定形状的卷积核的鲁棒性将会不足。发明专利“基于卷积神经网络的红外弱小目标检测跟踪方法,公开号:cn110728697a”使用区域候选网络获得被跟踪目标的位置与包围框,相较于fully-convolutionalsiamesenetworksforobjecttracking.,l.bertinetto,j.valmadre,j.f.henriques,a.vedaldi,andp.h.torr.,ineccvworkshops,2016在精度上有更好的效果,但这样跟踪方法由于存在噪声干扰的问题,同时由于网络结构的限制,在训练时为了划分正负样本只能设定一组判断正负样本的交并比阈值,所以对不同准确度的候选框存在训练效果的差异,无法发挥最好的效果,其在精度上还有提升的空间。siamesecascadedregionproposalnetworksforreal-timevisualtracking[c],fanh,lingh.,proceedingsoftheieeeconferenceoncomputervisionandpatternrecognition.2019:7952-7961通过加入了“锚框”机制,设定一系列大小位置固定的锚框,让这些锚框去拟合被跟踪物体的实际位置与大小,输出更为精确的被跟踪目标的位置与边界框。但该方法的锚框参数(大小、位置与数量等)并非是通过网络生成获得而是人为设定,设定这些参数会花费一定的时间资源,且无法很好地匹配训练数据中的目标分布与大小,而当使用新的数据就需要重新设计锚框参数。siamesecascadedregionproposalnetworksforreal-timevisualtracking[c],fanh,lingh.,proceedingsoftheieeeconferenceoncomputervisionandpatternrecognition.2019:7952-7961由于机制设计的问题,每次的跟踪目标的搜索区域仅在上一帧目标位置的周围而非全局,这样一旦当目标从视频帧中被遮挡或离开视频帧的视野,再重新出现在离最后一次被检测到的位置较远的区域时,将难以被检测到,即该方法的重跟踪能力较差。且当存在多个与被跟踪目标相似的对象时,由于会利用到上一帧的预测结果,会存在错误累积的情况,产生错误跟踪。
针对现有孪生网络跟踪算法所存在的鲁棒性不足、锚框匹配性差与目标包围框精度不足的问题,本文基于孪生网络的思想设计出该用于目标跟踪的神经网络,并使用可变形卷积,导向锚框,候选框分类回归网络级联来提高网络的鲁棒性与精确性。同时在机制上采用单帧全局跟踪,以此来提升重跟踪能力与避免错误累积。
技术实现要素:
本发明是一种通过区域候选网络与相互级联的候选框分类回归网络完成在全局视野内进行目标跟踪的两阶段方法。涉及卷积神经网络,可变形卷积,导向锚框,候选框分类回归网络级联等一系列方法。
本发明属于图像处理和计算机视觉领域,用于视觉单目标跟踪。本发明使用的方法关键步骤分为如下两个阶段。其中第一阶段输入为第一帧与搜索帧,第二阶段输出一系列带有置信度的跟踪目标边界框。
第一阶段:使用具有可变形卷积结构的卷积神经网络来提取跟踪目标与整个搜索帧的特征,将两个特征进行相关运算得到跟踪目标在整个搜索帧上的全局相关性特征。将全局相关性特征送入带有导向锚框结构的区域候选网络,获得跟踪目标的候选区域与分类。
第二阶段:提取出搜索帧特征上属于不同候选区域的特征,这些候选区域特征与跟踪目标特征进行相关运算,将结果送入级联的三阶段候选框分类回归网络。在第一个候选框分类回归网络中,跟踪目标特征分别与不同的候选区域特征进行相关运算后,送入卷积神经网络完成对候选框的分类与精细化,得到一组跟踪目标的结果框与分类。这时将第一阶段结果框作为候选框,提取出搜索帧特征上属于不同候选区域的特征,和跟踪目标特征进行相关运算,将结果送入第二个候选框分类回归网络,得到的结果同如上处理后送入第三个候选框分类回归网络。最后获得三组不同阶段候选框分类回归网络的输出结果,取这些结果框中置信度最高的作为最终的跟踪目标边界框。
本发明在目标跟踪网络的特征提取阶段使用可变形卷积结构,使得网络对目标的特征提取具有更强的形变鲁棒性。刚性目标的运动模糊以及非刚性目标在运动过程中会发生形变,都会导致跟踪的失败,针对这种问题,本发明在特征提取网络中加入了可变形卷积和可变形池化予以解决。
在区域候选网络使用导向锚框机制,让网络自行学习产生锚框,使得锚框与当前输入特征有更好的契合程度。同时网络由于可以自行学习产生锚框,所以在使用不同数据集进行训练时,让模型对不同的数据集也有良好的拟合能力。
使用正样本判别阈值递增的多阶段级联的候选框分类回归网络进行候选框的精修,使得候选框质量与不同阶段的判别阈值相匹配,进一步提升结果框的精确度。
附图说明
图1为本发明的网络整体结构图
图2为本发明的传统卷积与可变形卷积示意图
图3为本发明的可变形卷积模块示意图
图4为本发明的带有导向锚框的区域候选网络结构图
图5为本发明的候选框分类回归网络结构图
具体实施方式
下面结合附图对本发明的具体实施方式以及工作原理作进一步详细说明。
本发明使用的方法关键步骤分为如下两个阶段。其中第一阶段输入为第一帧与搜索帧,第二阶段输出一系列带有置信度的跟踪目标边界框。网络整体结构如图1所示:
第一阶段:使用具有可变形卷积结构的卷积神经网络来提取跟踪目标与整个搜索帧的特征,将两个特征进行相关运算得到跟踪目标在整个搜索帧上的全局相关性特征。将全局相关性特征送入带有导向锚框结构的区域候选网络,获得跟踪目标的候选区域与分类。
第二阶段:提取出搜索帧特征上属于不同候选区域的特征,这些候选区域特征与跟踪目标特征进行相关运算,将结果送入级联的三阶段候选框分类回归网络。在第一个候选框分类回归网络中,跟踪目标特征分别与不同的候选区域特征进行相关运算后,送入卷积神经网络完成对候选框的分类与精细化,得到一组跟踪目标的结果框与分类。这时将第一阶段结果框作为候选框,提取出搜索帧特征上属于不同候选区域的特征,和跟踪目标特征进行相关运算,将结果送入第二个候选框分类回归网络,得到的结果同如上处理后送入第三个候选框分类回归网络。最后获得三组不同阶段候选框分类回归网络的输出结果,取这些结果框中置信度最高的作为最终的跟踪目标边界框。
本发明提出的一种全局多阶段目标跟踪方法,具体包括如下步骤:
1)使用两个结构相同、参数共享的深度残差网络ft(·)与fs(·),分别提取标注有跟踪目标边界框的第一帧t的特征ft=ft(t)和任意待找出跟踪目标的搜索帧s的特征fs=fs(s)。其中,在ft(·)与fs(·)的第三、第四、第五个网络区块中加入了可变形卷积模块。
2)采用可变形卷积模块进行可变形卷积的步骤为:如图3所示,将要进行可变形卷积的长、宽、通道数为[w,h,c1]的特征图x,通过一组卷积层得到尺寸为[w,h,2n]的偏移参数δpn,再通过偏移参数δpn对特征图x进行可变形卷积操作。接下来阐述可变形卷积具体原理与过程。
一般卷积核在张量上进行卷积时,一次只会与感受域
表示一个3×3卷积核感受域中9个权重的相对位置坐标。对特征图x与权重为w的卷积核进行一般卷积后的输出y在pa位置上的值y(pa)可以表示为:
其中pa表示绝对位置坐标,pn表示在感受域中的相对位置坐标,x(pa+pn)表示输入x在pa+pn位置上的值,w(pn)表示卷积核在pn位置上的值。
可变形卷积与一般卷积的区别在于,其卷积核感受域不再局限于
其中δpn表示pn的位置偏移,其中n=1,...,n,n为一个卷积核中参数的个数,即
3)当δpn为小数而不是整数时,采用双线性插值来获得输入x在p=pa+pn+δpn位置上的值,即:
其中q表示输入x上任意一个空间位置,而
g(q,p)=g(qx,px)·g(qy,py)(5)
g(a,b)=max(0,1-|a-b|)(6)
其中,px、py分别表示位置p的x坐标与y坐标值,qx、qy分别表示位置q的x坐标与y坐标值。
4)获得ft后,根据t所标注的跟踪目标信息,使用感兴趣区域一致划分(roialign),将ft的中的跟踪目标特征ftr提取出来。将ftr与fs进行卷积相关运算,获得相关性特征
进行卷积相关运算的具体步骤表达如下:
其中fs1(·)与ft1(·)是两个分别用于对fs与ftr进行特征映射的卷积层,
5)本发明所使用的区域候选网络使用了导向锚框机制,如图4所示,使用导向锚框机制在相关性特征
通过导向锚框获得锚框形状实际代表的是锚框的相对长宽dw与dh,其与绝对长宽的关系如下:
w=σ·s·edw,h=σ·s·edh(7)
其中σ是尺度系数,s代表f中1个单位长度对应原始输入图像的s个单位长度。
在实际训练时,由于区域候选网络有四个输出,所以区域候选网络的损失
其中,λ1与λ2用于损失平衡。其中
6)获得候选框后,按照每个候选框所对应区域,使用感兴趣区域一致划分(roialign)将不同区域的fs提取出来,获得一组候选框区域特征fsr。将每一个fsr与ftr进行哈达玛(hadamard)相关运算,获得的候选框相关性特征
其中fs2(·)与ft2(·)是两个分别用于对fsr与ftr进行特征映射的卷积层,⊙代表哈达玛(hadamard)积,fout2(·)是一个用于调整fs2(fsr)与ft2(ftr)通道的卷积层。
7)将
8)将第一阶段候选框分类回归网络的结果框作为候选框,按照步骤6)中的处理方法获得一组新的
第一、二、三阶段的候选框分类回归网络在结构与超参数设计上保持相同,唯一的不同在于,训练时对正样本(认为结果框包围住了目标)的判断标准不同。当结果框与真值的交并比大于预先设定的阈值时,即将结果框判定为正样本进行训练。本发明中第一、二、三阶段的候选框分类回归网络预先设定的阈值分别为tiou1,tiou2,tiou3,且0<tiou1<tiou2<tiou3<1。三个阶段的正样本判别阈值逐渐升高,这是因为:初级阶段使用低阈值来精修低精确度(指与真值的交并比较低)的候选框,避免由于阈值过高导致许多候选框被判别为负样本,导致漏检。越到后期,候选框精确度提高,这时就可使用更高的判别阈值可以使候选框精确度进一步提升。
9)在训练时,由于通过每个
其中λ用于损失平衡。
10)当第三阶段候选框分类回归网络输出结果后,从第三个阶段的输出中选取置信度最高的结果框作为第一帧t上目标在搜索帧s上的跟踪结果。
本发明具体使用预设的网络结构,在公开数据集got-10k的测试集上表现如下表1所示,其中“基线”表示不加入可变形卷积、导向锚框,并使用单阶段候选框分类回归网络的模型。ao代表所有帧上跟踪结果与真值之间的平均重叠率。srx指重叠率高于阈值x的成功跟踪帧的百分比。
表1-got10k测试集上的评估结果
该结果表明,本发明的各个评价指标及其组合对比基线在精确度指标上都有明显的提升,证明了发明的有效性。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合;本领域的技术人员根据本发明技术方案的技术特征所做出的任何非本质的添加、替换,均属于本发明的保护范围。