基于频率分离的抗噪孪生网络目标跟踪方法

文档序号:26012180发布日期:2021-07-23 21:32阅读:72来源:国知局
基于频率分离的抗噪孪生网络目标跟踪方法

本发明属于计算机视觉技术领域,尤其涉及一种基于频率分离的抗噪孪生网络目标跟踪方法。



背景技术:

由于在自动驾驶、交通流量监测、监控、机器人、人机交互、医疗诊断系统和活动识别等应用中的广泛应用,目标跟踪受到关注。其具体任务是在已知目标的初始位置的情况下在后续视频帧中确定目标的位置。近年来,孪生网络跟踪器以其平衡的速度和精度引起了人们的广泛关注。开创性的工作,利用孪生网络学习对象目标和候选图像之间的相似性度量,从而将跟踪建模为目标在整个图像上的搜索问题。后续,一系列的基于孪生网络的目标跟踪器工作取得了更好的性能,在这些跟踪器中,通过引入区域建议网络,该类基于预选锚框(anchor)的跟踪器在精度方面具有更强的优势。对于带噪声的图像数据,低频信息充满了大量的噪声,目标跟踪算法会遭遇准确度下降目标框漂移的问题。究其原因一方面是噪声的加入导致目标特征提取的不稳定,另一方面伴随着噪声的出现直接对后续目标位置回归与分类的精度产生了不良的影响。伴随着深度学习技术的发展,图像去噪领域实现了快速地发展,现有的基于卷积神经网络去噪算法一般是利用神经网络学习含噪图像到干净图像的映射。基于卷积神经网络的去噪算法直接应用于具有噪声的目标跟踪任务将导致计算量大大增加。除此之外,对于大多数的计算机视觉任务,想要获得足够的纯净图和噪声图是一件十分困难的事情,因此,如何提高目标跟踪网络本身的抗噪声能力就变成另一种解决上述难题的方法。



技术实现要素:

有鉴于此,本发明的目的在于提供一种基于频率分离的抗噪孪生网络目标跟踪方法,首先利用卷积神经网络对跟踪目标和后续帧搜索区域图进行特征提取。然后利用ocatave卷积结构对搜索区域特征图x和模板特征图z进一步生成高维特征图,在完成互相关操作后将互相关相应图进行融合获得目标位置回归图,利用目标位置回归信息得到物体感知分类结果图,利用相同的方法获得常规分类图,获得最终分类结果图完成目标位置的确定。本发明利用高低频信息交换增强网络的抗噪能力,同时引入一种新的特征融合方法,该特征融合方法可以聚合本地和全局上下文信息,解决了现有目标跟踪方法中对于噪声环境下跟踪效果不佳的问题。

本发明具体采用以下技术方案:

一种基于频率分离的抗噪孪生网络目标跟踪方法,其特征在于:首先利用卷积神经网络对跟踪目标和后续帧搜索区域图进行特征提取;然后利用ocatave卷积结构对搜索区域特征图x和模板特征图z进一步生成高维特征图,在完成互相关操作后将互相关响应图进行融合获得目标位置回归图,利用目标位置回归信息得到物体感知分类结果图,利用相同的方法获得常规分类图,获得最终分类结果图完成目标位置的确定。

进一步地,包括以下步骤:

步骤1:将初始帧目标输入基底卷积神经网络提取特征,获取并存储模板特征图;

步骤2:后续帧中根据前一帧目标位置切割出搜索区域图,将搜索区域图输入基底卷积神经网络进行特征提取;

步骤3:将模板特征图和搜索区域特征图进行互相关操作,生成回归互相关响应图与分类互相关响应图;

步骤4:对回归互相关响应图进行卷积操作生成目标位置回归结果图;

步骤5:对分类互相关响应图进行卷积操作生成常规分类结果图;

步骤6:利用目标位置回归结果图生成对称分类结果图;

步骤7:将常规分类结果图和对称分类结果图相加获得最终分类结果图,选择分类值中最大的位置对应目标位置回归结果图中的位置回归数值,以确定目标位置。

以及,一种基于频率分离的抗噪孪生网络目标跟踪方法,其特征在于,包括以下步骤:

步骤s1:在视频图像第一帧中指定需要跟踪的物体,在当前帧中裁剪指定目标生成目标模板图;通过利用基底卷积神经网络模型对该目标模板图提取特征,获取模板特征图z;

步骤s2:截取后续帧目标搜索区域图利用基底卷积神经网络模型提取特征,获取后续帧搜索区域特征图x,使用三个独立的ocatave卷积结构对搜索区域特征图x和模板特征图z进行进一步特征提取从而获得特征图(x11,x12,x13)和(z11,z12,z13),相同的下标表示使用同一个ocatave卷积结构生成;

步骤s3:利用z11为卷积核,在x11上进行卷积操作,获得互相关响应图r1;利用z12为卷积核,在x12上进行卷积操作,获得互相关响应图r2;利用z13为卷积核,在x13上进行卷积操作,获得互相关响应图r3;

步骤s4:将互相关响应图r1和r2进行特征融合操作,获得特征融合结果图r4;并再次将r3和r4进行特征融合,获得特征图r′;利用五个卷积核对特征图r′进行卷积操作,最终输出大小为[25×25×4]的目标跟踪位置回归图reg;reg代表搜索区域中每个像素点到预测目标边框的直线距离;

步骤s5:对模板特征图z和搜索区域特征图x,使用与步骤s2中参数不同的三个独立的ocatave卷积结构对搜索区域特征图x和模板特征图z进行进一步特征提取从而获得特征图{x21x22x23}和{z21z22z23},相同的下标表示使用同一个ocatave卷积结构生成;

步骤s6:利用z21为卷积核,在x21上进行卷积操作,获得互相关响应图c1;利用z22为卷积核,在x22上进行卷积操作,获得互相关响应图c2;利用z23为卷积核,在x23上进行卷积操作,获得互相关响应图c3;

步骤s7:将卷积核的固定采样位置对齐到预测的回归box,分类图上的每个位置α=(dx,dy),在目标跟踪位置回归图reg有一个对应的回归预测框(x1,x2,y1,y2),(x1,x2,y1,y2)代表该位置到目标框的距离;利用(x1,x2,y1,y2)获得m=(mx,my,mw,mh),(mx,my)表示目标中心点坐标,(mw,mh)表示候选框的长和高,进一步从候选框m中进行采样获取特征特征预测位置α=(dx,dy)的分类得分,利用该种方法获取物体感知分类结果图class1;

步骤s8:将互相关响应图c1和c2进行特征融合操作,获得特征融合结果图c4,再次将c3和c4进行特征融合,获得特征图c1′;利用五个卷积核对特征图c1′进行卷积操作,最终输出大小为[25×25×1]的常规分类图class2,利用参数ratio对class1和class2进行软选择,选择方程为:class=ratio*class1+(1-ratio)*class2,获得最终目标综合分类图class,对于任意点α∈class,有0≤α≤1,代表α为目标前景的概率值;

步骤s9:选择目标跟踪前后景分类图class中目标前景概率值最大的位置,在目标跟踪位置回归图reg中确定相应的位置获取相应的目标边框信息:(x1,x2,y1,y2),(x1,x2,y1,y2)代表该位置到目标框的距离。

进一步地,步骤s2具体包括以下步骤:

步骤s21:对搜索区域特征图x进行高低分频操作;将x作为输入特征图,首先利用大小为2*2的平均池化操作生成长宽减半的初步低频特征图xlow1,其次对xlow1利用常规卷积操作生成通道数减半的低频特征图xl1;对x利用卷积操作生成通道数减半长宽不变的高频特征图xh1;

步骤s22:对高频特征图xh1,首先进行大小为2*2的平均池化操作,其次利用卷积操作生低频特征图xl2;对低频特征图xl1,利用卷积操作生成大小不变的低频特征图xl3;将xl2和xl3进行加法操作,生成低频特征图xl4;对高频特征图xh1,利用卷积操作生成大小不变的高频特征图xh2;对低频特征图xl1,首先进行卷积操作,其次利用上采样率为2的上采样操作生成高频特征图xh3;将xh2和xh3进行加法操作,生成高频特征图xh4;

步骤s23:对高频特征图xh4,利用卷积操作生成输出通道数等于输入特征图通道数的特征图xh5;对低频特征图xl4,利用卷积操作生成输出通道数等于输入特征图通道数的特征图xl5,其次利用上采样率为2的上采样操作生成高频特征图xh6;将xh5和xh6进行加法操作,生成ocatave卷积结构结果x11;

步骤s24:重复步骤s21至步骤s23,分别生成ocatave卷积结果x12和ocatave卷积结果x13。

步骤s25:依照步骤s21至步骤s24,将模板特征图z作为输入特征图,生成特征图(z11,z12,z13)。

对步骤s5的具体操作与步骤s2类似。

进一步地,步骤s4具体包括以下步骤:

步骤s41:将互相关响应图r1和r2进行加法操作设获得结果特征图为x,计算x的局部上下文权重图l(x)=f(δ(f(x)))和全局上下文权重图g(x)=f(δ(f(gpooling(x)))),其中δ为relu激活函数,f代表逐点卷积方法,gpooling代表全局平均池化操作,获得注意力权重图a(x)=l(x)+g(x);

步骤s42:融合互相关响应图r1和r2,融合结果为r4=r1*a(x)+r2*(1-a(x));

步骤s43:参照步骤s41,融合互相关响应图r3和r4,获得r′;利用五个卷积核对特征图r′进行卷积操作,输出大小为[25×25×4]的目标跟踪位置回归图reg。

进一步地,在步骤s1中,所述基底卷积神经网络模型通过待跟踪图像的同类型图片数据集在卷积神经网络中训练获得。

与现有技术相比,本发明及其优选方案具有以下有益效果:

1)通过引入孪生ocatave卷积特征表示方法,通过高低频信息交换的方式一方面对低频信息的冗余信息进行抑制,另一方面保留了高频信息,利用高低频信息之间的交换使模型提取的特征具有更强的抗噪能力;同时对模板特征图和搜索区域特征图使用相同的分频处理结构进行处理,进一步提高特征的自相似性。

2)引入聚合全局与局部上下文的融合方法,通过生成与互相关响应图相同大小的融合权重进行点乘,从而在元素的层级出发进行动态软选择,使模型具有更强的自适应能力。

附图说明

下面结合附图和具体实施方式对本发明进一步详细的说明:

图1为本发明实施例方法流程示意图;

图2为本发明实施例甲状旁腺目标示意图;

图3为本发明实施例跟踪甲状旁腺的效果图。

具体实施方式

为让本专利的特征和优点能更明显易懂,下文特举实施例,作详细说明如下:

如图1-图3所示,本实施例提供了一种基于频率分离的抗噪孪生网络目标跟踪方法,按以下步骤实现:

步骤s1:在视频图像当前帧中指定需要跟踪的物体,在当前帧中指定目标区域生成目标模板图。通过利用基底卷积神经网络模型对该目标模板图提取特征,获取模板特征图z;

步骤s2:截取后续帧目标搜索区域图利用基底卷积神经网络模型提取特征,获取后续帧搜索区域特征图x,使用三个独立的ocatave卷积结构对搜索区域特征图x和模板特征图z进行进一步特征提取从而获得特征图(x11,x12,x13)和(z11,z12,z13),相同的下标表示使用同一个ocatave卷积结构生成;

步骤s3:利用z11为卷积核,在x11上进行卷积操作,获得互相关响应图r1;利用z12为卷积核,在x12上进行卷积操作,获得互相关响应图r2;利用z13为卷积核,在x13上进行卷积操作,获得互相关响应图r3;

步骤s4:将互相关响应图r1和r2进行特征融合操作,获得特征融合结果图r4,再次将r3和r4进行特征融合,获得特征图r′;利用五个卷积核对特征图r′进行卷积操作,最终输出大小为[25×25×4]的目标跟踪位置回归图reg。reg代表搜索区域中每个像素点到预测目标边框的直线距离。

步骤s5:对模板特征图z和搜索区域特征图x,使用三个独立的ocatave卷积结构对搜索区域特征图x和模板特征图z进行进一步特征提取从而获得特征图{x21x22x23}和{z21z22z23},相同的下标表示使用同一个ocatave卷积结构生成,需要注意的是该步骤中使用的三个独立的ocatave卷积结构与步骤s2中使用的并非参数相同的ocatave卷积结构;

步骤s6:利用z21为卷积核,在x21上进行卷积操作,获得互相关响应图c1;利用z22为卷积核,在x22上进行卷积操作,获得互相关响应图c2;利用z23为卷积核,在x23上进行卷积操作,获得互相关响应图c3;

步骤s7:将卷积核的固定采样位置对齐到预测的回归box,分类图上的每个位置α=(dx,dy),在目标跟踪位置回归图reg有一个对应的回归预测框(x1,x2,y1,y2),(x1,x2,y1,y2)代表该位置到目标框的距离。利用(x1,x2,y1,y2)获得m=(mx,my,mw,mh),(mx,my)表示目标中心点坐标,(mw,mh)表示候选框的长和高,进一步从候选框m中进行采样获取特征特征预测位置α=(dx,dy)的分类得分,利用该种方法获取目标对称分类结果图class1;

步骤s8:将互相关响应图c1和c2进行特征融合操作,获得特征融合结果图c4,再次将c3和c4进行特征融合,获得特征图c1′;利用五个卷积核对特征图c1′进行卷积操作,最终输出大小为[25×25×1]的常规分类图class2,利用参数ratio对class1和class2进行软选择,选择方程为:class=ratio*class1+(1-ratio)*class2,获得最终目标综合分类图class,对于任意点α∈class,有0≤α≤1,代表α为目标前景的概率值;

步骤s9:选择目标跟踪前后景分类图class中目标前景概率值最大的位置,在目标跟踪位置回归图reg中确定相应的位置获取相应的目标边框信息:(x1,x2,y1,y2),(x1,x2,y1,y2)代表该位置到目标框的距离。

具体地,在本实施例中,步骤s2具体包括如下步骤:

步骤s21:对搜索区域特征图进行高低分频操作。将作为输入特征图,首先利用大小为的平均池化操作生成长宽减半的初步低频特征图,其次对利用常规卷积操作生成通道数减半的低频特征图;对利用卷积操作生成通道数减半长宽不变的高频特征图;

步骤s22:对高频特征图,首先进行大小为的平均池化操作,其次利用卷积操作生低频特征图;对低频特征图,利用卷积操作生成大小不变的低频特征图;将和进行加法操作,生成低频特征图;对高频特征图,利用卷积操作生成大小不变的高频特征图;对低频特征图,首先进行卷积操作,其次利用上采样率为2的上采样操作生成高频特征图;将和进行加法操作,生成高频特征图;

步骤s23:对高频特征图,利用卷积操作生成输出通道数等于输入特征图通道数的特征图;对低频特征图,利用卷积操作生成输出通道数等于输入特征图通道数的特征图,其次利用上采样率为2的上采样操作生成高频特征图;将和进行加法操作,生成ocatave卷积结构结果;

步骤s24:重复步骤s21至步骤s23,生成ocatave卷积结果和ocatave卷积结果;

步骤s25:类似地重复步骤s21至步骤s24,将模板特征图作为输入特征图,生成特征图。

在本实施例中,对步骤s5的具体操作与步骤s2类似。

具体地,在本实施例中,步骤s4具体包括如下步骤:

步骤s41:将互相关响应图r1和r2进行加法操作设获得结果特征图为x,计算x的局部上下文权重图l(x)=f(δ(f(x)))和全局上下文权重图g(x)=f(δ(f(gpooling(x)))),其中δ为relu激活函数,f代表逐点卷积方法,gpooling代表全局平均池化操作,获得注意力权重图a(x)=l(x)+g(x);

步骤s42:融合互相关响应图r1和r2,融合结果r4=r1*a(x)+r2*(1-a(x));

步骤s43:类似于步骤步骤s41,融合互相关响应图r3和r4,获得r′;利用五个卷积核对特征图r′进行卷积操作,输出大小为[25×25×4]的目标跟踪位置回归图reg;

以下通过一个具体的实施例展示本发明的具体实施过程。

采用本发明提出的算法对跟踪甲状旁腺目标的应用具体步骤如下:

1、建立一个先验甲状旁腺的识别数据集q1,q2,…,qn,对每一张数据集图片进行切割,切割成255*255大小的目标图和511*511大小的搜索区域图;

2、将上一步骤获得的一对数据图传输进网络模型中,进行前向传递,输出边框回归结果与分类结果;

3、计算损失函数,其中回归分支损失函数为lreg=-∑iln(iou(preg,true)),常规分类分支损失函数为lclass1=-∑p1log(p1)+(1-p1)log(1-p1),对称分类分支损失函数为lclass2=-∑p2log(p2)+(1-p2)log(1-p2);

4、利用sgd方法进行反向传递,对网络模型参数进行更新;

5、重复步骤2)-4)若干次进行网络模型的训练,获得训练结束后的网络参数;

6、将初始帧目标输入基底网络提取特征,存储该模板特征图;

7、后续帧中根据前一帧目标位置切割出搜索区域图(例如,第二帧根据第一帧物体位置,第三帧根据第二帧物体预测位置),将搜索区域图输入基底网络进行特征提取;

8、将模板特征图和搜索区域特征图进行互相关操作,生成回归互相关响应图与分类互相关响应图;

9、对回归互相关响应图进行卷积操作生成目标位置回归结果图,对分类互相关响应图进行卷积操作生成常规分类结果图,利用目标位置回归结果图生成对称分类结果图;

10、将常规分类结果图和对称分类结果图相加获得最终分类结果图,选择分类值中最大的位置对应目标位置回归结果图中的位置回归数值,即可确定目标位置。

图3是上述目标跟踪算法实例的效果图,图3中方框为算法获得是目标位置结果。本实施例提出孪生octave卷积特征表示方法,该方法利用图像高低频信息之间信息交换的方式在抑制低频分量噪声信息的同时保留了高频信息,从而实现增强网络抗噪能力的目的。同时进一步结合聚合全局与局部上下文的特征融合方法,从而在元素的层级出发进行动态软选择,使模型具有更强的自适应能力。

本专利不局限于上述最佳实施方式,任何人在本专利的启示下都可以得出其它各种形式的基于频率分离的抗噪孪生网络目标跟踪方法,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本专利的涵盖范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1