一种基于时空注意力机制的孪生网络跟踪系统及方法

文档序号:30652963发布日期:2022-07-06 00:21阅读:162来源:国知局
一种基于时空注意力机制的孪生网络跟踪系统及方法

1.本发明涉及一种基于时空注意力机制的孪生网络跟踪系统及方法,属于计算机视觉的目标跟踪技术领域。


背景技术:

2.目标跟踪广泛应用在视频分析、智能交通、虚拟现实等领域,其核心任务是给定目标在视频第一帧初始位置后,自动估计后续帧中目标的位置。但跟踪过程中容易受到遮挡、模糊、形变、光照变化等一系列复杂因素的干扰,因此,设计一个可以在现实复杂场景下稳定高效运行的跟踪方法是十分具有研究与实用价值的。
3.目前,现有的跟踪算法大致可以分为两大类。一类将相关滤波的思想应用到跟踪领域,提出了误差最小平方和滤波器目标跟踪算法:将跟踪器模板的求解由时域复杂运算转换为傅里叶域点乘计算,计算量大大减少,跟踪器速度得到飞跃性提升。虽然这种算法在速度上很快,但是精度并不理想。另一类,为了取得精度与速度之间的平衡,基于深度学习的孪生网络跟踪算法逐渐流行。孪生网络主要由特征提取过程中共享参数的模板分支与搜索分支组成。利用相似性学习的方法,提出了全卷积孪生网络跟踪算法,通过计算目标模板与搜索区域深度特征之间的相似值,将跟踪问题转化为相似匹配问题。该算法可以使用大量数据进行端到端的离线训练,既可以获得较高的精度,也无需在线调整。通过在全卷积孪生网络目标跟踪算法中引入检测领域的区域建议网络,使用区分前景与背景、回归边界框的方法,实现了对目标尺度的灵活应对,同时得到了更为精确的边界框。实验结果表明,这种组合模型的跟踪效果要明显优于相关滤波算法和全卷积孪生网络算法。
4.但是,基于孪生网络的大部分目标跟踪算法中存在两大不足:
5.(1)基于孪生网络的跟踪算法并没有关注视频序列帧间和帧内的关联,造成目标并不能在时间和空间上产生相应的关联性。
6.(2)跟踪算法对目标的分类与回归相对较为粗糙与复杂,难以对最后的结果形成较为精确的分类结果与边界框。


技术实现要素:

7.本发明的目的在于克服现有技术中的不足,提供一种基于时空注意力机制的孪生网络跟踪系统及方法,能够更够准确的跟踪目标,有效解决模型对于时空上下文信息难以建立关联、目标分类与边界框回归较为复杂等问题。
8.为达到上述目的,本发明是采用下述技术方案实现的:
9.第一方面,本发明提供了一种基于时空注意力机制的孪生网络跟踪方法,包括:
10.获取图像数据中的模板图像数据和搜索图像数据;
11.将模板图像数据和搜索图像数据分别输入到模板分支与搜索分支中进行特征提取,得到模板特征数据与搜索特征数据;
12.将搜索特征数据输入到时空注意力机制模块中,得到时空注意力信息特征;
13.将模板特征数据与时空注意力信息特征互相关得到响应图;
14.将响应图输入分类回归网络中进行逐像素的分类与回归,对每个像素点进行分类,计算像素点到预测框的距离,得到分类结果与边界框。
15.进一步的,获取图像数据中的模板图像数据和搜索图像数据,包括:将数据集或摄像头捕捉画面的第一帧图像以目标为中心裁剪出指定像素大小的图像作为模板图像数据,在跟踪过程中第i+1帧以第i帧目标位置为中心裁剪出设定大小的图像作为搜索图像数据。
16.进一步的,所述特征提取公式为:
[0017][0018]
其中,i是输入图像矩阵,i((xa,ya),(xb,yb))为i的子矩阵,(xa,ya)和(xb,yb)为子矩阵的左上角与右下角的直角坐标系的坐标,k为提取特征数据的步长,f(
·
)为特征提取函数。
[0019]
进一步的,所述时空注意力信息特征为:
[0020][0021]
其中,oi为时空注意力信息特征,为空间注意力信息特征,为时间注意力信息特征,zi为输入特征;
[0022]
所述空间注意力信息特征为:
[0023][0024][0025][0026][0027][0028][0029][0030]
其中,为空间特征,c(zs)为归一化因子,f为高斯函数,和分别是位置i和位置j的特征,g为一元函数,是可学习参数,和均为空间特征权重。
[0031]
进一步的,所述响应图为:
[0032][0033]
其中,为响应图,为卷积特征提取函数,*为卷积互相关运算,ts(
·
)为实际注意力模块,b1为响应图每个位置的偏置值,x为搜索特征数据,z为模板特征数据。
[0034]
进一步的,将响应图输入分类回归网络中进行逐像素的分类与回归,对每个像素点进行分类,计算像素点到预测框的距离,得到分类结果与边界框,包括:
[0035]
将响应图进行升维到
[0036]
所述分类回归网络中的分类分支对于上每一个像素点预测类别得到分类图其中,分类图a
cls
每一个(i,j,:)包含了一个代表了搜索区域前景与背景的置信度的2d向量;
[0037]
所述分类回归网络中的回归分支计算上每一个像素点到边界框的距离得到回归图其中,回归图a
reg
上每一个点(i,j,:)包含一个4d向量m
(i,j)
=(l
*
,t
*
,r
*
,b
*
),代表输入搜索区域对应点到预测边界框四条边的距离,公式为:
[0038][0039][0040]
其中,为搜索区域对应点与预测边界框左上角横坐标距离,l
*
为搜索区域对应点与预测边界框左上角横坐标距离,x为搜索区域对应点横坐标,x0为预测边界框左上角横坐标,为搜索区域对应点与预测边界框左上角纵坐标距离,t
*
为搜索区域对应点与预测边界框左上角纵坐标距离,y为搜索区域对应点纵坐标,y0为预测边界框左上角纵坐标,为搜索区域对应点与预测边界框右下角横坐标距离,r
*
为搜索区域对应点与预测边界框右下角横坐标距离,x1为预测边界框右下角横坐标,为搜索区域对应点与预测边界框右下角纵坐标距离,b
*
为搜索区域对应点与预测边界框右下角纵坐标距离,y1为预测边界框右下角纵坐标;
[0041]
所述分类回归网络中的中心度分支计算上每一个像素点到目标中心的距离得到中心度图中心度图a
cen
上每一个点(i,j,:)包含一个代表搜索区域对应点和目标中心的距离的1d向量c(i,j),公式为:
[0042][0043][0044]
其中,γ(m
(i,j)
)为指示函数。
[0045]
进一步的,所述分类分支的分类损失函数l
cls
采用交叉熵损失函数,回归分支的回归损失函数l
reg
采用iou损失函数,中心度分支的中心度损失函数l
cen
为:
[0046][0047]
总的损失函数l为:
[0048]
l=l
cls
+λ1l
reg
+λ2l
cen
[0049]
其中,λ1与λ2均为超参数。
[0050]
第二方面,本发明提供了一种基于时空注意力机制的孪生网络跟踪系统,包括:
[0051]
数据获取模块:用于获取图像数据中的模板图像数据和搜索图像数据;
[0052]
特征提取模块:用于将模板图像数据和搜索图像数据分别输入到模板分支与搜索分支中进行特征提取,得到模板特征数据与搜索特征数据;
[0053]
时空特征运算模块:用于将搜索特征数据输入到时空注意力机制模块中,得到时空注意力信息特征;
[0054]
互相关运算模块:用于将模板特征数据与时空注意力信息特征互相关得到响应图;
[0055]
分类回归模块:用于将响应图输入分类回归网络中进行逐像素的分类与回归,对每个像素点进行分类,计算像素点到预测框的距离,得到分类结果与边界框。
[0056]
第三方面,本发明提供了一种基于时空注意力机制的孪生网络跟踪装置,包括处理器及存储介质;
[0057]
所述存储介质用于存储指令;
[0058]
所述处理器用于根据所述指令进行操作以执行根据上述任一项所述方法的步骤。
[0059]
第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述方法的步骤。
[0060]
与现有技术相比,本发明所达到的有益效果:
[0061]
本发明提供了一种基于时空注意力模块的孪生网络跟踪算法,在siamfc算法基础上,引入了基于非局部操作的空间注意力模块和时间注意力模块,对目标周围的时间与空间上下文信息进行建模,可以充分利用不同帧与通道之间的相互依赖关系,提高网络的特征提取能力。最后,对响应图的像素进行前后背景分类,并进行逐一回归并视为相对边界框,最好联合中心度分支抑制低质量边界框的产生,降低计算量和位置预测的复杂度。
附图说明
[0062]
图1是本发明实施例一提供的基于时空注意力机制和分类回归的孪生网络目标跟踪方法流程图。
具体实施方式
[0063]
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
[0064]
实施例一:
[0065]
一种基于时空注意力机制的孪生网络跟踪方法,下面结合具体实施例对本发明作更进一步的说明,如图1所示,包括如下步骤:
[0066]
步骤s1,孪生网络主要分为模板分支与搜索分支,其作用是用于提取图像数据的深层特征,我们将数据集或摄像头捕捉画面的第一帧图像以目标为中心裁剪出127
×
127
×
3像素大小的图像作为模板图像,在跟踪过程中第i+1帧以第i帧目标位置为中心裁剪出大小为255
×
255
×
3大小的图像作为搜索图像,继而将模板图像数据与搜索图像数据分别输入到模板分支与搜索分支中进行特征提取,分别得到模板特征数据w1与搜索特征数据x。
[0067]
步骤s2,将搜索特征数据x输入到时空注意力机制模块中,学习特征数据在t帧内时间与空间上的关联性,得到时空注意力信息特征。
[0068]
步骤s3,将模板特征数据w1与时空注意力信息特征互相关得到特征数据c。
[0069]
步骤s4,将特征数据作为分类回归网络的输入,对于特征数据中进行逐像素的分类与回归,区分每个像素点属于前景还是背景,并且计算像素点到预测框的距离并联合中心度分支抑制低质量边界框产生,减少计算量同时简化了位置预测的复杂性。
[0070]
s1具体步骤为:将模板图像数据与搜索图像数据输入到模板分支和搜索分支中进行特征提取,分别得到模板特征数据与搜索特征数据,两个分支在分别提取特征数据的过程中共享参数的,其中特征提取过程如公式(1)所示:
[0071][0072]
其中,i是输入图像矩阵,i((xa,ya),(xb,yb))为i的子矩阵,(xa,ya)和(xb,yb)为子矩阵的左上角与右下角的直角坐标系的坐标,k为提取特征数据的步长,f(
·
)为特征提取函数。
[0073]
s2的具体步骤为:将搜索特征数据作为时空注意力模块的输入,其特征的维度为w
×h×c×
t,其中w、h、c、t分别代表长度、宽度、通道,帧的数量,将空间注意力模块的输入特征表示为即n=w
×
h;将输入特征嵌入到高斯函数(θ和)中计算两个位置的相关性,并对每一个位置进行加权:
[0074][0075]
其中,和分别是位置i和位置j的特征,归一化因子函数g是一个一元函数,即g是一个一元函数,即是可学习参数;函数f是一个高斯函数:
[0076][0077]
其中,其中,和为空间特征权重,为了降低计算成本,在函数和g之后添加2
×
2的最大池化层。
[0078]
通过函数ω使得加权结果的维度与输入保持一致,得到w
×h×
t
×
c的空间注意力信息:
[0079][0080]
其中,为空间特征权重,为空间特征,将时间注意力模块的输入特征表示为即通过公式(1)(2)(3)得到时间维度的注意力信息与空间注意力信息与输入特征融合得到时空注意力信息与输入特征得到时空注意力信息特征:
[0081][0082]
其中,oi为时空注意力信息特征,zi为输入特征。
[0083]
s3的具体步骤为:将模块特征与时空注意力信息特征进行卷积相关操作,得到响
应图
[0084][0085]
其中为卷积特征提取函数,*为卷积互相关运算,ts(
·
)为实际注意力模块,b1为响应图每个位置的偏置值,x为搜索特征数据,z为模板特征数据。
[0086]
s4的具体步骤为:孪生网络互相关产生的响应图进行升维到分类分支对于上每一个像素点预测类别得到分类图回归分支计算像素点到边界框的距离得到回归图中心度分支计算像素点到目标中心的距离得到中心度图响应图上的每一个像素点(i,j)都可以映射到输入分支中的搜索区域点(x,y),(x0,y0)、(x1,y1)真实边界框的左上角和右下角位置,对于分类图a
cls
每一个(i,j,:)包含了一个2d向量,代表了搜索区域前景与背景的置信度。对于回归图a
reg
上每一个点(i,j,:)包含一个4d向量m
(i,j)
=(l
*
,t
*
,r
*
,b
*
),代表输入搜索区域对应点到预测边界框四条边的距离,定义如下:
[0087][0088][0089]
其中,为搜索区域对应点与预测边界框左上角横坐标距离,l
*
为搜索区域对应点与预测边界框左上角横坐标距离,x为搜索区域对应点横坐标,x0为预测边界框左上角横坐标,为搜索区域对应点与预测边界框左上角纵坐标距离,t
*
为搜索区域对应点与预测边界框左上角纵坐标距离,y为搜索区域对应点纵坐标,y0为预测边界框左上角纵坐标,为搜索区域对应点与预测边界框右下角横坐标距离,r
*
为搜索区域对应点与预测边界框右下角横坐标距离,x1为预测边界框右下角横坐标,为搜索区域对应点与预测边界框右下角纵坐标距离,b
*
为搜索区域对应点与预测边界框右下角纵坐标距离,y1为预测边界框右下角纵坐标;
[0090]
指示函数定义如下:
[0091][0092]
由于远离目标位置中心的像素点倾向于产生低质量的预测边界框,影响算法的跟踪性能,因此采取在分类分支基础上并行添加一个中心度分支从而去除异常值。中心度分支最后会生成中心度特征图a
cen
,a
cen
上每一个点(i,j,:)包含一个1d向量c(i,j),代表搜索区域对应点和目标中心的距离。
[0093][0094]
如果点(x,y)落在背景区域,c(i,j)的值即为0。
[0095]
本文损失函数包括分类损失函数、回归损失函数、中心度损失函数。分类损失函数l
cls
采用交叉熵损失函数,回归损失函数l
reg
采用iou损失函数。
[0096]
中心度损失函数l
cen
定义如下:
[0097][0098]
总的损失函数l如式所示:
[0099]
l=l
cls
+λ1l
reg
+λ2l
cen
ꢀꢀꢀ
(11)
[0100]
其中,λ1与λ2为超参数。
[0101]
本发明使用时空注意力机制可以有效增强网络模型对于目标在时间与空间上下文的联系,建立对于目标的时空上下文联系,通过分类与回归学习,对于每个像素都进行分类与预测以进行前景与背景的区分,使用中心度分支抑制低质量边界框的产生,配合分类与回归可以有效简化位置预测的复杂性,同时提高定位精度。
[0102]
实施例二:
[0103]
一种基于时空注意力机制的孪生网络跟踪系统,可实现实施例一所述的一种基于时空注意力机制的孪生网络跟踪方法,包括:
[0104]
数据获取模块:用于获取图像数据中的模板图像数据和搜索图像数据;
[0105]
特征提取模块:用于将模板图像数据和搜索图像数据分别输入到模板分支与搜索分支中进行特征提取,得到模板特征数据与搜索特征数据;
[0106]
时空特征运算模块:用于将搜索特征数据输入到时空注意力机制模块中,得到时空注意力信息特征;
[0107]
互相关运算模块:用于将模板特征数据与时空注意力信息特征互相关得到响应图;
[0108]
分类回归模块:用于将响应图输入分类回归网络中进行逐像素的分类与回归,对每个像素点进行分类,计算像素点到预测框的距离,得到分类结果与边界框。
[0109]
实施例三:
[0110]
本发明实施例还提供了一种基于时空注意力机制的孪生网络跟踪装置,可实现实施例一所述的一种基于时空注意力机制的孪生网络跟踪方法,包括处理器及存储介质;
[0111]
所述存储介质用于存储指令;
[0112]
所述处理器用于根据所述指令进行操作以执行下述方法的步骤:
[0113]
获取图像数据中的模板图像数据和搜索图像数据;
[0114]
将模板图像数据和搜索图像数据分别输入到模板分支与搜索分支中进行特征提取,得到模板特征数据与搜索特征数据;
[0115]
将搜索特征数据输入到时空注意力机制模块中,得到时空注意力信息特征;
[0116]
将模板特征数据与时空注意力信息特征互相关得到响应图;
[0117]
将响应图输入分类回归网络中进行逐像素的分类与回归,对每个像素点进行分类,计算像素点到预测框的距离,得到分类结果与边界框。
[0118]
实施例四:
[0119]
本发明实施例还提供了一种计算机可读存储介质,可实现实施例一所述的一种基
于时空注意力机制的孪生网络跟踪方法,其上存储有计算机程序,该程序被处理器执行时实现下述方法的步骤:
[0120]
获取图像数据中的模板图像数据和搜索图像数据;
[0121]
将模板图像数据和搜索图像数据分别输入到模板分支与搜索分支中进行特征提取,得到模板特征数据与搜索特征数据;
[0122]
将搜索特征数据输入到时空注意力机制模块中,得到时空注意力信息特征;
[0123]
将模板特征数据与时空注意力信息特征互相关得到响应图;
[0124]
将响应图输入分类回归网络中进行逐像素的分类与回归,对每个像素点进行分类,计算像素点到预测框的距离,得到分类结果与边界框。
[0125]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0126]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0127]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0128]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0129]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1