一种基于孪生网络的多全卷积融合的单目标跟踪方法与流程

文档序号:23619042发布日期:2021-01-12 10:29阅读:166来源:国知局
一种基于孪生网络的多全卷积融合的单目标跟踪方法与流程

本发明涉及计算机视觉数字图像处理技术领域,特别涉及基于孪生网络的多全卷积融合的单目标跟踪方法。



背景技术:

孪生网络(siamesenetwork)的意思是两个神经网络共享权值。一般来说,一个孪生网络有两个输入,而孪生网络的作用就是衡量这两个输入的相似程度。具体过程为:首先将两个输入分别喂进两个共享权值的神经网络,然后将两个输入映射到新的特征空间,最后通过损失函数来比较两个输入的相似程度。

通道注意力模块的作用是关注什么样的特征是有意义的。它是将特征图在空间维度上进行压缩,压缩采用了平均池化和最大池化两种方式,得到两个各一维矢量,然后将这两个矢量送到同一个多层感知机中,接着将输出的特征逐元素求和合并,产生通道注意力图。通道注意力机制可以表示为:

mc(f)=σ(mlp(avgpool(f))+mlp(maxpool(f)))

其中,avgpool(f)和maxpool(f)表示对空间维度分别进行平均池化和最大池化,mlp表示多层感知机,σ表示为sigmoid激活函数。

空间注意力模块是对通道进行压缩,在通道方向分别进行了平均池化和最大池化,然后将提取到的特征按通道方向叠加,得到一个二通道的特征图,最后经过卷积操作和激活函数得到最终的特征。空间注意力机制可以表示为:

ms(f)=σ(f7×7([avgpool(f);maxpool(f)]))

其中,avgpool(f)和maxpool(f)表示沿通道轴分别进行平均池化和最大池化,f7x7表示卷积操作,卷积核大小为7×7,σ表示为sigmoid激活函数。

基于孪生网络提取的特征包含着模板和搜索区域的信息,它们中的目标位置在不停的变化并且提取到的特征有略微差别。基于提取的特征,通过计算模板和搜索区域的相似性,得分图上最大值的点为当前目标所在的中心。选取的最后一层特征互相关得到的响应图只能大概找到目标的中心位置,相对来说,当目标发生变化的时候,标出的目标中心位置可能会不准确。



技术实现要素:

本发明的目的在于提供一种基于孪生网络的多全卷积融合的单目标跟踪方法,以解决基于孪生网络提取的特征包含着模板和搜索区域的信息,它们中的目标位置在不停的变化并且提取到的特征有略微差别所导致标出的目标中心位置可能会不准确的问题。

为了解决上述技术问题,本发明的技术方案是:提供一种基于孪生网络的多全卷积融合的单目标跟踪方法,包括以下步骤:

步骤一、预处理目标图像;

步骤二、获取预处理目标图像的卷积特征图,以alexnet五层网络作为主干网络,分别提取模板第四层和第五层的卷积特征以及搜索分支第四层和第五层的卷积特征;

步骤三、将所提取的特征按层分别进行互相关操作,公式如下:

其中,表示模板区域z和搜索区域x经过相同卷积操作后得到的特征映射,*表示响应图的内积,b1表示偏差;

步骤四、将两个响应图按通道方式进行叠加;

步骤五、通道关注机制的表达式:

mc(f)=σ(mlp(avgpool(f))+mlp(maxpool(f)))

其中,avgpool(f)和maxpool(f)表示对空间维度分别进行平均池化和最大池化,mlp表示多层感知机,σ表示为sigmoid激活函数;空间关注机制的表达式:ms(f)=σ(f7×7([avgpool(f);maxpool(f)]))

其中,avgpool(f)和maxpool(f)表示沿通道轴分别进行平均池化和最大池化,f7x7表示卷积操作,卷积核大小为7×7,σ表示为sigmoid激活函数;总的注意力过程为:

其中,表示逐元素相乘,f为叠加后的响应图,f′为经过通道关注后输出的得分图,f”是最终输出的得分图。

步骤六、确定得分图上最大响应值点。

进一步地,所述预处理目标图像包括:确定模板和搜索区域的边长,以第一帧图像的目标为中心,以模板边长裁剪的图片块作为模板区域,以搜索区域的边长裁剪每一帧图像作为搜索区域。

进一步地,所述模板区域偏小,以图片的均值进行填充边缘。

进一步地,选取alexnet五层卷积为主干网络,两条输入通过的模型参数完全相同,分别选取第四层8x8x192、24x24x192和第五层6x6x128、22x22x128的特征图。

进一步地,将两个响应图按通道的方式进行叠加,两个响应图的大小均为17x17x1,按照通道的方向进行叠加,大小变为17x17x2。

进一步地,最后得到的响应图经过一个1x1的卷积层得到大小为17x17x1的得分图,根据得到的17x17x1的得分图,进行双三次插值生成272x272的图像,响应值最大的点为物体的中点。

本发明提供的基于孪生网络的多全卷积融合的单目标跟踪方法,通过简单的五层神经网络对预处理好的图片进行特征提取,然后利用互相关操作判别后续帧与第一帧标定的目标的相似度,接着通过通道关注和空间关注模块关注更重要的特征并抑制不必要的特征,最后确定得分图上的最大值,即为待跟踪的目标中心。相比于以往的只选取最后一层特征进行互相关得到的响应图来说,即使目标发生变化,标出的中心位置也会更准确。

附图说明

下面结合附图对发明作进一步说明:

图1为本发明实施例提供的基于孪生网络的多全卷积融合的单目标跟踪方法步骤流程示意图。

具体实施方式

以下结合附图和具体实施例对本发明提出的基于孪生网络的多全卷积融合的单目标跟踪方法作进一步详细说明。根据下面说明和权利要求书,本发明的优点和特征将更清楚。需说明的是,附图均采用非常简化的形式且均使用非精准的比率,仅用以方便、明晰地辅助说明本发明实施例的目的。

本发明的核心思想在于,本发明提供的基于孪生网络的多全卷积融合的单目标跟踪方法,通过简单的五层神经网络对预处理好的图片进行特征提取,然后利用互相关操作判别后续帧与第一帧标定的目标的相似度,接着通过通道关注和空间关注模块关注更重要的特征并抑制不必要的特征,最后确定得分图上的最大值,即为待跟踪的目标中心。相比于以往的只选取最后一层特征进行互相关得到的响应图来说,即使目标发生变化,标出的中心位置也会更准确。

本发明的技术方案提供基于孪生网络的多全卷积融合的单目标跟踪方法,图1为本发明实施例提供的基于孪生网络的多全卷积融合的单目标跟踪方法步骤流程示意图。参照图1,基于孪生网络的多全卷积融合的单目标跟踪方法包括以下步骤:

s11:预处理目标图像;

s12:获取预处理目标图像的卷积特征图,以alexnet五层网络作为主干网络,分别提取模板第四层和第五层的卷积特征以及搜索分支第四层和第五层的卷积特征;

选取alexnet五层卷积为主干网络,两条输入通过的模型参数完全相同,分别选取第四层8x8x192、24x24x192和第五层6x6x128、22x22x128的特征图。

s13:将所提取的特征按层分别进行互相关操作,分别以模板和搜索区域的第四层和第五层卷积特征图,构建匹配机制,其中匹配得到的响应图大小相等,公式如下:

其中,表示模板区域z和搜索区域x经过相同卷积操作后得到的特征映射,*表示响应图的内积,b1表示偏差;

s14:将两个响应图按通道方式进行叠加;

两个响应图的大小均为17x17x1,按照通道的方向进行叠加,大小变为17x17x2。

s15:利用通道和空间信息关注更重要的特征并抑制不必要的特征。针对叠加后的响应图,要找到它们各自通道和空间所占的权重,应利用关注机制。通道关注机制的表达式:

mc(f)=σ(mlp(avgpool(f))+mlp(maxpool(f)))

其中,avgpool(f)和maxpool(f)表示对空间维度分别进行平均池化和最大池化,mlp表示多层感知机,σ表示为sigmoid激活函数;空间关注机制的表达式:ms(f)=σ(f7×7([avgpool(f);maxpool(f)]))

其中,avgpool(f)和maxpool(f)表示沿通道轴分别进行平均池化和最大池化,f7x7表示卷积操作,卷积核大小为7×7,σ表示为sigmoid激活函数;总的注意力过程为:

其中,表示逐元素相乘,f为叠加后的响应图,f′为经过通道关注后输出的得分图,f”是最终输出的得分图。

s16:确定得分图上最大响应值点。

最后得到的响应图经过一个1x1的卷积层得到大小为17x17x1的得分图。根据得到的17x17x1的得分图,进行双三次插值生成272x272的图像,响应值最大的点即为物体的中点。

显然,本领域的技术人员可以对本发明进行各种改动和变形而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1