孪生网络基于局部可信模板进行目标模板更新的视频跟踪方法

文档序号:33651307发布日期:2023-03-29 08:40阅读:132来源:国知局

1.本发明属于视频跟踪技术领域,具体涉及一种孪生网络基于局部可信模板进行目标模板更新的视频跟踪方法。


背景技术:

2.目标跟踪是计算机视觉的前沿课题,在自动驾驶、监控、行人检测和无人机等领域被广泛应用。近期,基于孪生网络的跟踪方法取得了巨大的进步,其核心思想是把目标跟踪任务转化为相似度匹配任务:以视频初始帧中的目标作为模板,以视频后续帧作为搜索帧,对模板特征和搜索特征进行互相关计算,得到响应图,从响应图的峰值信息中便可以得出目标的位置信息。
3.现有的孪生网络跟踪方法,仅以第一帧的目标作为模板,难以应对目标在复杂场景下的外观变化,从而丢失目标的位置。为了使跟踪器适应目标变化,提高跟踪的准确性,zhang,l.等人提出了一种基于孪生网络具有自适应更新模板功能的视觉跟踪方法updatenet。updatenet通过学习模板更新函数实现对模板的自适应更新,极大的提高了跟踪性能。虽然上述跟踪方法考虑了每一帧的真值模板,提供了可靠的历史信息,但当遇到相似目标干扰、尺度变换等挑战时,仍会导致模型漂移,使目标跟踪失去鲁棒性和准确性。
4.因此,如何提高目标跟踪的准确性,仍是本领域技术人员需要努力攻克的技术难题。


技术实现要素:

5.本发明所要解决的技术问题是提供一种孪生网络基于局部可信模板进行目标模板更新的视频跟踪方法,将目标模板更新分为两部分,既充分利用图像的历史信息,又摒弃噪音信息,提高视频跟踪的准确度。
6.为解决上述技术问题,本发明的技术方案是:设计一种孪生网络基于局部可信模板进行目标模板更新的视频跟踪方法,其特征在于:包括以下步骤:
7.(1)读取待跟踪的视频序列,确定视频序列中图像的总帧数k;
8.(2)获取步骤(1)视频序列中的初始帧图像,根据初始帧图像确定被跟踪目标,获得跟踪目标在初始帧图像中的目标框,以目标框中心为中心放大w倍,作为下一帧图像的搜索框;
9.(3)通过卷积神经网络分别提取步骤(1)视频序列中各帧图像的图像特征,构成各自图像的特征图,各帧图像的特征图构成各自图像的模板,由各帧图像的特征图对应生成各自的响应图,由响应图计算峰距率;其中,初始帧图像的特征图作为初始模板,并作为下一帧图像的目标模板;
10.(4)读取第t帧图像,t为大于1的自然数,根据第t帧的目标模板确定目标在本帧搜索框中的位置,得到目标在第t帧图像中目标框,完成第t帧图像的目标跟踪;第t帧图像的
模板为当前模板,以目标框中心为中心放大w倍,作为下一帧图像的搜索框;
11.(5)判断步骤(4)中t是否大于m,m为设定的自然数,
12.t≤m时,将初始模板、累积模板与和当前模板输入深度学习模型进行模板更新,将更新的模板作为第t+1帧图像的目标模板;累积模板为初始模板与当前模板之间的模板;
13.t>m时,将m帧图像按峰距率由大到小排列,m帧图像的帧数所在区间为[t-m-1,t-1],选择前n帧图像对应的各自模板为局部最优模板,n为小于m的自然数,局部最优模板根据各自的自适应权重进行融合,得到自适应融合模板,将自适应融合模板与当前模板输入深度学习模型进行模板更新,将更新的模板作为第t+1帧图像的目标模板;
[0014]
(6)步骤(5)后,计算t=t+1,判断t是否小于k,小于则重复步骤(4),否则完成目标跟踪。
[0015]
进一步的,步骤(3)中,由特征图生成响应图的具体方法为:
[0016][0017]rt
为第t帧图像的响应图,b1为神经网络模型的随机量,*为卷积运算互相关操作,为初始帧图像的特征图,为第t帧图像的特征图。
[0018]
进一步的,步骤(3)中,由响应图计算峰距率的方法为:
[0019][0020]
prr
t
为第t帧图像的峰距率,r
t
为第t帧的响应图,max(r
t
)表示r
t
的最大值,min(r
t
)表示r
t
的最小值。
[0021]
进一步的,步骤(5)中,自适应权重的确定方法为:
[0022][0023][0024]
ω
t
为当前模板的自适应权重,ωj为局部最优模板的自适应权重,为局部可信模板中第j个模板对应的峰距率。
[0025]
进一步的,步骤(5)中,自适应融合模板的获得方法为:
[0026][0027]
表示自适应融合模板,t
t
为当前模板。
[0028]
进一步的,步骤(5)中,
[0029]
t≤m时,深度学习更新方法为:
[0030][0031]
t>m时,深度学习更新方法为:
[0032]
[0033]
t
t+1
为深度学习后得到的模板,模板φ为深度学习函数,为初始模板。
[0034]
进一步的,步骤(2)中,根据groundtruth确定初始帧图像中的被跟踪目标。
[0035]
进一步的,步骤(5)中,0.2k≤m≤0.6k。
[0036]
进一步的,步骤(5)中,0.4m≤n≤0.8m。
[0037]
进一步的,步骤(2)中,1.5≤w≤5。
[0038]
与现有技术相比,本发明的有益效果是:
[0039]
1、本发明通过将视频序列的追踪模板更新方法分为前后两部分,两部分都考虑了初始模板和当前模板,对于帧数较少的前部分还考虑了初始模板和当前模板之间的其余模板构成的累计模板,充分利用了以前帧图像的历史信息,而对于帧数较多的后部分则选用了峰距率大的可信模板,摒弃了累计模板中的噪音信息,增强了更新模板的可信度,提高目标跟踪的准确度。
[0040]
2、使用峰距率判断模板的置信度,从而选出置信度高的局部可信模板,拥有较强历史信息的同时,摒弃了其余模板的干扰信息,当目标发生遮挡、尺度变换、较大移动时,仍能进行准确有效的目标跟踪。当跟踪出现严重遮挡时,峰距率比峰值旁瓣比更能判断模板置信度。
[0041]
3、本发明中目标模板的更新方式克服了现有技术中更新单一或不更新的弊端,从而增强目标跟踪的精准度和成功率。
[0042]
4、本发明构思巧妙,将目标模板更新方法划分为前后两部分,对于模板数量较少的前部分,则充分利用模板的历史信息,对于模板数量较多的后部分则选用置信度高的模板,减少更新模板中的噪音信息,共同提高目标追踪的准确度,便于在行业内推广应用。
附图说明
[0043]
图1是本发明的视频跟踪流程图;
[0044]
图2是updatenet算法针对s0304第158帧的跟踪结果;
[0045]
图3是本发明方法针对s0304第158帧的跟踪结果;
[0046]
图4是updatenet算法针对s0304第358帧的跟踪结果;
[0047]
图5是本发明方法针对s0304第358帧的跟踪结果;
[0048]
图6是updatenet算法针对s0801第60帧的跟踪结果;
[0049]
图7是本发明方法针对s0801第60帧的跟踪结果;
[0050]
图8是updatenet算法针对s0801第218帧的跟踪结果;
[0051]
图9是本发明方法针对s0801第218帧的跟踪结果;
[0052]
图10是updatenet算法针对s0801第526帧的跟踪结果;
[0053]
图11是本发明方法针对s0801第526帧的跟踪结果。
具体实施方式
[0054]
下面结合附图与具体实施方式对本发明作进一步详细描述。
[0055]
本发明通过以下步骤实现视频跟踪:
[0056]
(1)读取待跟踪的视频序列,确定视频序列中图像的总帧数k。
[0057]
(2)获取步骤(1)视频序列中的初始帧图像,根据初始帧图像确定被跟踪目标,获
得跟踪目标在初始帧图像中的目标框,以目标框的中心为放大中心,放大w倍得到下一帧图像的搜索框,w的取值范围为1.5≤w≤5,具体可以为1.5、2、2.5、3、3.5、4、4.5或者5,还可以是1.5到5之间的其它数值。
[0058]
(3)通过卷积神经网络分别提取步骤(1)视频序列中每帧图像的图像特征,由图像特征一一对应构成每帧图像的特征图,所得到的特征图对应作为各自图像的模板,还由特征图生成响应图,由特征图生成响应图的具体方法为:
[0059][0060]rt
为第t帧图像的响应图,b1为神经网络模型的随机量,此处的随机变量如同回归模型的随机量,起到提高模型拟合能力的作用。*为卷积运算互相关操作,为初始帧图像的特征图,为第t帧图像的特征图。
[0061]
再由响应图计算峰距率,由响应图计算峰距率的方法为:
[0062][0063]
prr
t
为第t帧图像的峰距率,r
t
为第t帧的响应图,max(r
t
)表示r
t
的最大值,min(r
t
)表示r
t
的最小值。
[0064]
如此,视频序列中的每帧图像对应有各自的特征图、模板、响应图以及峰距率。其中,初始帧图像的特征图作为初始模板,并作为下一帧图像的目标模板。
[0065]
(4)读取步骤(1)视频序列中的第t帧图像,t为大于1的自然数,根据第t帧的目标模板确定目标在本帧图像搜索框中的位置,得到目标在第t帧图像中的目标框,完成第t帧图像的目标跟踪;第t帧图像的模板为当前模板,以目标框的中心为放大中心,放大w倍得到第t+1帧图像的搜索框,w的取值范围为1.5≤w≤5,具体可以为1.5、2、2.5、3、3.5、4、4.5或者5,还可以是1.5到5之间的其它数值。
[0066]
(5)判断步骤(4)中t是否大于m,m为设定的自然数,具体地,0.2k≤m≤0.6k,可以通过滑动窗口的方式来设定,也可以是设定的某一具体数值,如果视频的光线变化较大、目标在移动的过程中有遮挡或者目标的形状及尺寸变化大,则m的取值趋小,反之则可趋大;
[0067]
当t≤m时,将初始模板、累积模板与和当前模板输入深度学习模型进行模板更新,将更新的模板作为第t+1帧图像的目标模板;累积模板为初始模板与当前模板之间的模板;具体为:
[0068][0069]
t
t+1
为深度学习后得到的模板,模板φ为深度学习函数,为初始模板。
[0070]
当t>m时,将m帧图像按峰距率由大到小排列,m帧图像的帧数所在区间为[t-m-1,t-1],选择前n帧图像对应的模板为局部最优模板,n为0.4m≤n≤0.8m的自然数。局部最优模板根据各自的自适应权重进行融合,得到自适应融合模板,将自适应融合模板与当前模板输入深度学习模型进行模板更新,将更新的模板作为第t+1帧图像的目标模板。
[0071]
自适应权重的确定方法为:
[0072]
[0073][0074]vt
为当前模板的自适应权重,ωj为局部最优模板的自适应权重,为局部可信模板中第j个模板对应的峰距率。
[0075]
自适应融合模板的获得方法为:
[0076][0077]
表示自适应融合模板,t
t
为当前模板。
[0078]
深度学习更新方法为:
[0079][0080]
(6)步骤(5)后,计算t=t+1,判断t是否小于k,小于则重复步骤(4),否则完成目标跟踪。
[0081]
为了验证本发明的整体跟踪性能,对单目标主流的跟踪平台uavdt数据集上的50个视频和其中13个受复杂环境影响的视频(s0304、s0305、s0801、s1301、s1306、s1307、s1308、s1311、s1312、s1313、s1501、s1607和s1701)进行了验证,在精确度和成功率两个指标上进行了整体评估。
[0082]
表1中展示了13个受复杂环境影响的视频,本发明与updatenet跟踪器在精确度和成功率指标下的对比,如表1中所示,相比基线updatenet跟踪器,本发明在精确度上提高6.3%,成功率提高约11.9%。
[0083]
表1.uavdt数据集结果对比
[0084]
跟踪器精确度成功率updatenet81.8%68.8%本发明88.1%80.7%
[0085]
表2展示了在uavdt全部50个视频下,本发明与updatenet跟踪器在精确度和成功率指标下的对比,如表2中所示,相比基线updatenet跟踪器,本发明在精确度上提高1.4%,成功率提高约2.4%。
[0086]
表2.uavdt数据集结果对比
[0087]
跟踪器精确度成功率updatenet83.1%73.5%本发明84.5%75.9%
[0088]
图2和图4是updatenet算法针对s0304跟踪结果,黑色矩形框为跟踪框,在158帧时可跟踪到目标,但358帧时发生漂移;图3和图5是本发明方法针对s0304跟踪结果,能够准确地跟踪到目标。图6、图8和图10是updatenet算法针对s0801的跟踪结果,黑色矩形框为跟踪框,在60帧时可跟踪到目标,但218帧时发生漂移;图7、图9和图11是本发明方法针对s0801跟踪结果,能够准确地跟踪到目标,因此本发明方法具有显著的跟踪性能。其中,视频s0304共359帧图像,视频s0801共526帧图像。
[0089]
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1