一种自适应相关滤波器目标跟踪方法及系统与流程

文档序号：15463407发布日期：2018-09-18 18:43阅读：173来源：国知局

本发明涉及图像处理技术领域，更具体地，涉及一种自适应相关滤波器目标跟踪方法及系统。

背景技术：

目标跟踪是计算机视觉领域中一个重要同时具有挑战性的研究方向。目标跟踪技术无论在民用还是军事上都有广泛的应用，包括视频监控、人机交互、无人驾驶以及导弹的跟踪拦截等。目标跟踪技术的基本思想是序列图像中根据目标在视频信息的时空上相关性，确定感兴趣的目标在每一帧的位置和姿态。

目标跟踪技术经过几十年的发展，已取得了可观的进步，提出了许多不同实现方式的跟踪算法。但现有的跟踪算法在对目标所在的图像帧进行处理时，难以从图像帧中准确提取出目标特征，无法对目标特征进行有效准确地表达，导致现有的跟踪算法准确率难以提高。同时由于跟踪过程中受到许多因素的影响，尤其是光照的变化、遮挡、姿态与视角的变化、相似物体及所处的复杂背景的干扰等，因此目前为止，仍然没有单一的跟踪算法能同时解决跟踪过程中各项因素的干扰，只是在某些方面具有较好的鲁棒性。

有鉴于此，亟需提供一种准确率高且具有鲁棒性和普适性的目标跟踪方法及系统。

技术实现要素：

本发明为了克服现有技术中的跟踪算法准确率难以提高且无法解决跟踪过程中各项因素的干扰问题，提供一种自适应相关滤波器目标跟踪方法及系统。

一方面，本发明提供一种自适应相关滤波器目标跟踪方法，包括：

S1，初始化当前帧图像中的目标图像，将所述目标图像输入预设神经网络，提取所述预设神经网络中输入至每一池化层的目标特征，每个所述目标特征包括多个通道的特征图；

S2，根据所述目标图像构建目标图像分布的高斯函数，根据每个所述目标特征中的每个通道的特征图和所述高斯函数构造所述每个通道的相关滤波器；

S3，从下一帧图像中获取预设大小的候选目标图像，将所述候选目标图像输入所述预设神经网络，提取所述预设神经网络中输入至每一池化层的候选目标特征；

S4，对于任意一个候选目标特征，根据该候选目标特征中的所有通道的特征图和所有通道的相关滤波器计算该候选目标特征对应的响应图，将所有响应图进行加权运算获得目标响应图；

S5，根据所述目标响应图中响应值最大的位置确定所述下一帧图像中的目标图像。

优选地，所述步骤S5之后还包括：

对所述候选目标图像进行多个尺度的缩放，获得多个尺度的候选目标图像；

利用所述步骤S3-S4中的方法根据所述多个尺度的候选目标图像获得多个目标响应图；

根据所有所述目标响应图中响应值最大的位置确定所述下一帧图像中的目标图像。

优选地，所述步骤S5之后还包括：

根据每个所述候选目标特征中的每个通道的特征图和所述高斯函数对所述每个通道的相关滤波器进行更新；

利用所述步骤S3-S5中的方法根据所述更新后的所述每个通道的相关滤波器确定所述下一帧图像的下一帧图像中的目标图像。

优选地，所述根据每个所述候选目标特征中的每个通道的特征图和所述高斯函数对所述每个通道的相关滤波器进行更新之后还包括：

当所述目标响应图中出现多个最大响应值时，利用预设的修正模型对更新后的所述每个通道的滤波器进行修正；

相应地，利用所述步骤S3-S5中的方法根据修正后的所述每个通道的相关滤波器确定所述下一帧图像的下一帧图像中的目标图像。

优选地，步骤S2中所述根据每个所述目标特征中的每个通道的特征图和所述高斯函数构造所述每个通道的相关滤波器之前还包括：

将每个所述目标特征中的每个通道的特征图的维度进行归一化处理。

优选地，步骤S4中所述根据每个所述候选目标特征中的每个通道的特征图和所述每个通道的相关滤波器计算每个所述候选目标特征对应的响应图之前还包括：

将每个所述候选目标特征中的每个通道的特征图的维度进行归一化处理。

优选地，步骤S2中所述根据每个所述目标特征中的每个通道的特征图和所述高斯函数构造所述每个通道的相关滤波器之前还包括：

对所述高斯函数进行傅里叶变换。

一方面，本发明提供一种自适应相关滤波器目标跟踪系统，包括：

目标特征提取模块，用于初始化当前帧图像中的目标图像，将所述目标图像输入预设神经网络，提取所述预设神经网络中输入至每一池化层的目标特征，每个所述目标特征包括多个通道的特征图；

滤波器构造模块，用于根据所述目标图像构建目标图像分布的高斯函数，根据每个所述目标特征中的每个通道的特征图和所述高斯函数构造所述每个通道的相关滤波器；

候选目标特征提取模块，用于从下一帧图像中获取预设大小的候选目标图像，将所述候选目标图像输入所述预设神经网络，提取所述预设神经网络中输入至每一池化层的候选目标特征；

响应图计算模块，用于对于任意一个候选目标特征，根据该候选目标特征中的所有通道的特征图和所有通道的相关滤波器计算该候选目标特征对应的响应图，将所有响应图进行加权运算获得目标响应图；

目标图像确定模块，用于根据所述目标响应图中响应值最大的位置确定所述下一帧图像中的目标图像。

一方面，本发明提供一种自适应相关滤波器目标跟踪方法的设备，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行上述任一所述的方法。

一方面，本发明提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述任一所述的方法。

本发明提供的一种自适应相关滤波器目标跟踪方法及系统，通过预设神经网络提取当前帧图像中的目标图像的高层特征和低层特征，利用相关滤波算法根据当前帧图像中的目标图像的高层特征和低层特征构造相关滤波器；同时利用预设神经网络提取下一帧图像中候选目标图像的高层特征和低层特征；结合下一帧图像中候选目标图像的高层特征和低层特征以及构造的相关滤波器计算候选目标图像的高层特征和低层特征对应的响应图，将所有响应图进行加权运算获得目标响应图；最终根据目标响应图中响应值最大的位置确定下一帧图像中的目标图像。该方法及系统利用预设神经网络提取当前帧图像中的目标图像的高层特征和低层特征，能够对目标图像进行准确表达，有利于有效构造相关滤波器，确保了相关滤波器的准确性；同时利用预设神经网络提取下一帧图像中候选目标图像的高层特征和低层特征，保留候选目标图像中的细节特征，并通过构造好的滤波器获得高层特征和低层特征对应的响应图，最终结合各响应图确定下一帧图像中的目标图像，能够对目标图像进行准确有效地跟踪，提高了目标跟踪的准确率。

附图说明

图1为本发明实施例的一种自适应相关滤波器目标跟踪方法的整体流程示意图；

图2为本发明实施例的VGGNet-19深度模型的详细网络结构表的示意图；

图3为本发明实施例的不同尺度的候选目标图像的结构示意图；

图4为本发明实施例的一种自适应相关滤波器目标跟踪系统的整体结构示意图；

图5为本发明实施例的一种自适应相关滤波器目标跟踪方法的设备的结构框架示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

需要说明的是，本发明提供的一种自适应相关滤波器目标跟踪方法，针对目标视频序列，在给定任意一帧的目标状态的情况下，能够在后续视频序列中实现目标位置的跟踪。本实施例中，已知当前帧图像中的目标位置，现根据当前帧图像中的目标位置实现下一帧图像中目标位置的跟踪。

具体请参见图1，图1为本发明实施例的一种自适应相关滤波器目标跟踪方法的整体流程示意图，如图1所示，本发明提供一种自适应相关滤波器目标跟踪方法，包括：

S1，初始化当前帧图像中的目标图像，将目标图像输入预设神经网络，提取预设神经网络中输入至每一池化层的目标特征，每个目标特征包括多个通道的特征图；

具体地，本实施例中，已知当前帧图像中的目标位置，首先初始化当前帧图像中的目标图像，即从当前帧图像中提取出目标图像。在此基础上，将当前帧图像中的目标图像输入预设神经网络，其中预设神经网络包括卷积层和池化层，通过预设神经网络的卷积层和池化层对输入的当前帧中的目标图像进行特征提取。鉴于预设神经网络的池化层往往设置在卷积层之后，池化层将卷积层提取的特征进行池化后仅保留主要的特征，即通过池化层的池化处理后的特征一定程度上存在失真。有鉴于此，为了全面准确地提取输入的当前帧中的目标图像的特征，本实施例中，在将当前帧中的目标图像输入预设神经网络之后，提取预设神经网络中输入至每一池化层的目标特征，即每一池化层的前一卷积层输出的目标特征，由此则可提取当前帧图像中的目标图像在预设神经网络中的高层特征和低层特征，通过高层特征和低层特征对目标图像进行准确地表达。此外，输入至每一池化层的目标特征为多个通道的特征图，可表示为其中M、N分别为特征图的宽和高，D为通道个数。

进一步地，本实施例中所采用的预设神经网络为VGGNet-19深度模型，具体请参见图2，图2为本发明实施例的VGGNet-19深度模型的详细网络结构表的示意图，如图2所示，VGGNet-19深度模型包括卷积层、池化层、全连接层和归一化层，其中包括5个池化层。本实施例中，将当前帧图像中的目标图像输入VGGNet-19深度模型中之后，提取VGGNet-19深度模型中输入至每个池化层的目标特征，即为每个池化层的前一卷积层输出的目标特征，每个目标特征包括多个通道的特征图；从图2中不难看出，每个池化层的前一卷积层分别为con1-2、 con2-2、con3-4、con4-4和con5-4，对应地，提取con1-2、con2-2、con3-4、 con4-4、con5-4层的特征图。在其他实施例中，预设神经网络也可以设置为其他网络模型，可以根据实际需求进行设置，此处不做具体限定。

S2，根据目标图像构建目标图像分布的高斯函数，根据每个目标特征中的每个通道的特征图和高斯函数构造每个通道的相关滤波器；

具体地，鉴于目标视频序列中的各帧图像中的目标图像的分布符合高斯模型，在此基础上，根据当前帧图像中的目标图像构建目标图像分布的高斯函数。具体包括：首先从当前帧图像中获得目标的具体位置信息，其中位置信息包括目标所在矩形包围框的左上角横纵坐标和矩形的宽w和高h，在中心位置不变的情况下，将目标所在矩形进行两倍大小的扩充，将扩充后的区域划分为M×N个分块，并计算每个分块的长度；在此基础上，计算高斯模型中的参数σ，具体计算公式为：

其中w、h分别为目标所在矩形的宽和高；σ'表示输出因子；cell_size 表示为分块的边长。最后针对每一个分块，利用参数σ建立高斯函数，具体公式为：

其中g(m,n)表示在(m,n)处的标签，m∈{0,1,...,M-1}，n∈{0,1,...,N-1}。

在构建了高斯函数之后，根据目标特征中的每个通道的特征图和高斯函数构造每个通道的相关滤波器，以上述目标特征为例，即构建第t帧时的第l层的每个通道d(d∈{1,2,....,D})的相关滤波器，具体构造公式为：

其中，l表示预设神经网络的层级，本实施例中包括con1-2、con2-2、 con3-4、con4-4和con5-4层；t代表的是第t帧图像，本实施例中为当前帧图像；F和G分别为f和g的离散傅里叶变换(DFT)；F为F的复数共轭；表示元素的点乘；λp为相关滤波器的正则化参数，用于处理 f的零频分量的影响。由此，即可构建输入至每一池化层的目标特征中每个通道的相关滤波器。

S3，从下一帧图像中获取预设大小的候选目标图像，将候选目标图像输入预设神经网络，提取预设神经网络中输入至每一池化层的候选目标特征；

具体地，在上述利用当前帧图像中的目标图像构建了每个通道的滤波器之后，利用构建好的每个通道的滤波器实现下一帧图像中的目标位置的跟踪。首先，从下一帧图像中获取预设大小的候选目标图像，本实施例中，候选目标图像的中心和当前帧图像中的目标图像的中心相同，且候选目标图像的大小为当前帧图像中的目标图像大小的两倍。在其他实施例中，候选目标图像的大小可以根据实际需求预先进行设置，此处不做具体限定。

进一步地，将候选目标图像输入上述预设神经网络，并通过预设神经网络的卷积层和池化层对输入的候选目标图像进行特征提取，与上述当前帧图像中的目标图像的特征提取方式相同，对应地，提取预设神经网络中输入至每一池化层的候选目标特征，即每一池化层的前一卷积层输出的候选目标特征，由此则可提取候选目标图像在预设神经网络中的高层特征和低层特征，通过高层特征和低层特征对候选目标图像进行准确地表达。同时，输入至每一池化层的候选目标特征同样为多个通道的特征图。以图2中的VGGNet-19深度模型为例，若将候选目标图像输入VGGNet-19深度模型，相应地，提取con1-2、con2-2、 con3-4、con4-4、con5-4层的特征图。

具体地，根据上述提取的每个候选目标特征中的所有通道的特征图和通过当前帧中的目标图像计算获得的所有通道的相关滤波器，计算获得每个候选目标特征对应的响应图。若当前帧为第t帧，则下一帧即为第t+1帧，即构建第t+1帧时的第l层的候选目标特征对应的响应图，具体计算公式为：

其中，l表示预设神经网络的层级，本实施例中l包括VGGNet-19 深度模型中的con1-2、con2-2、con3-4、con4-4和con5-4层；为候选目标特征，为z的DFT变换的共轭复数，FFT^-1表示DFT逆变换操作。

进一步地，利用上述方法计算获得每个候选目标特征对应的响应图之后，将所有的响应图进行加权运算获得目标响应图。本实施例中的候选目标特征即为VGGNet-19深度模型中的con1-2、con2-2、con3-4、 con4-4和con5-4层中提取的5个候选目标特征，相应地，可计算获得 5个候选目标特征对应的5个响应图，最终将5个响应图进行加权运算获得目标响应图，具体计算公式为：

El＝El-1+αEl，

其中l表示预设神经网络的层级，本实施例中通过con5-4层的候选目标特征对应的响应图向前推导con4-4层的候选目标特征对应的响应图，依次类推，最终运算获得con1-2层的候选目标特征对应的响应图，即为目标响应图。

S5，根据目标响应图中响应值最大的位置确定下一帧图像中的目标图像。

需要说明的是，响应图也称为置信图，图像经过相关滤波器的处理后，图像中的每个像素点均可获得对应的响应值，图像中所有像素点对应的响应值组成了响应图。同时，经过相关滤波器的处理后，若图像中某一像素点属于感兴趣的目标，则该像素点对应的响应值较大，若该像素点属于背景，则该像素点对应的响应值较小。因此，一般情况下，目标的中心像素点对应的响应值往往为最大响应值。

基于上述原理，在获得目标响应图的基础上，在目标响应图中计算获得响应值最大的位置的坐标，该坐标即为下一帧图像中的目标图像的中心像素点对应的坐标，在此基础上，结合目标图像的大小，即可确定下一帧图像中的目标图像。例如，若响应值最大的位置的坐标点为A，目标图像的大小为40cm×60cm的矩形，则以A为中心点，构建40cm×60cm的矩形区域，该矩形区域即为目标图像。

本发明提供的一种自适应相关滤波器目标跟踪方法，通过预设神经网络提取当前帧图像中的目标图像的高层特征和低层特征，利用相关滤波算法根据当前帧图像中的目标图像的高层特征和低层特征构造相关滤波器；同时利用预设神经网络提取下一帧图像中候选目标图像的高层特征和低层特征；结合下一帧图像中候选目标图像的高层特征和低层特征以及构造的相关滤波器计算候选目标图像的高层特征和低层特征对应的响应图，将所有响应图进行加权运算获得目标响应图；最终根据目标响应图中响应值最大的位置确定下一帧图像中的目标图像。该方法利用预设神经网络提取当前帧图像中的目标图像的高层特征和低层特征，能够对目标图像进行准确表达，有利于有效构造相关滤波器，确保了相关滤波器的准确性；同时利用预设神经网络提取下一帧图像中候选目标图像的高层特征和低层特征，保留候选目标图像中的细节特征，并通过构造好的滤波器获得高层特征和低层特征对应的响应图，最终结合各响应图确定下一帧图像中的目标图像，能够对目标图像进行准确有效地跟踪，提高了目标跟踪的准确率。

基于上述任一实施例，提供一种自适应相关滤波器目标跟踪方法，所述步骤S5之后还包括：

对候选目标图像进行多个尺度的缩放，获得多个尺度的候选目标图像；

具体地，鉴于目标图像的大小会随着摄像头的远近移动而变化，导致现有的目标跟踪方法难以实现对目标尺度的自适应。有鉴于此，本实施中，利用金字塔思想对候选目标图像进行多个尺度的缩放，获得多个尺度的候选目标图像，即对候选目标图像进行不同尺度的采样。具体请参见图3，图3为缩放后的不同尺度的候选目标图像的结构示意图。此外，在对候选目标图像进行缩放时，缩放的尺度和次数可以根据实际需求进行设置，此处不做具体限定。

利用步骤S3-S4中的方法根据多个尺度的候选目标图像获得多个目标响应图；

具体地，在获得多个尺度的候目标图像的基础上，将多个不同尺度的候选目标特征输入预设神经网络，利用上述实施例中的步骤S3-S4 中的方法，获得多个不同尺度的候选目标特征对应的多个目标响应图。具体实现方式请参照上述实施例中的步骤S3-S4，此处不再赘述。

根据所有目标响应图中响应值最大的位置确定下一帧图像中的目标图像。

具体地，计算上述获得的所有响应图中的最大的响应值，确定最大响应值所在的候选目标图像的尺度，将最大响应值所在的候选目标图像的尺度相应缩放至实际候选目标图像的大小，并确定最大响应值在候选目标图像中的具体坐标位置，最终结合目标图像的大小，即可确定候选目标图像中目标图像所在的区域，即可确定下一帧图像中的目标图像。

本发明提供的一种自适应相关滤波器目标跟踪方法，利用金字塔思想对候选目标图像进行多个尺度的缩放，获得多个尺度的候选目标图像；再根据多个尺度的候选目标图像获得多个目标响应图；最终根据所有目标响应图中响应值最大的位置确定下一帧图像中的目标图像。解决了在目标跟踪过程中由于目标或摄像头的移动造成的尺度问题，能够自适应目标大小的变化，进一步提高了目标跟踪的准确率。

基于上述任一实施例，提供一种自适应相关滤波器目标跟踪方法，步骤S5之后还包括：

根据每个候选目标特征中的每个通道的特征图和高斯函数对每个通道的相关滤波器进行更新；

具体地，在确定了下一帧图像中的目标图像之后，利用上述滤波器的构造公式根据每个候选目标特征中的每个通道的特征图和高斯函数对每个通道的相关滤波器进行更新，更新后的每个通道的相关滤波器用于下一帧图像的下一帧图像(下两帧图像)中的目标图像的跟踪。

利用步骤S3-S5中的方法根据更新后的每个通道的相关滤波器确定下一帧图像的下一帧图像中的目标图像。

具体地，在对每个通道的相关滤波器进行更新后，利用上述任一实施例中的步骤S3-S5中的方法根据更新后的每个通道的相关滤波器确定下一帧图像的下一帧图像中的目标图像。具体包括：从下一帧图像的下一帧图像中获取预设大小的候选目标图像，将候选目标图像输入预设神经网络，提取预设神经网络中输入至每一池化层的候选目标特征；根据每个候选目标特征中的每个通道的特征图和更新后的每个通道的相关滤波器计算每个候选目标特征对应的响应图，将所有响应图进行加权运算获得目标响应图；根据目标响应图中响应值最大的位置确定下一帧图像的下一帧图像中的目标图像。

在上述技术方案的基础上，依次对相关滤波器进行更新，进而根据更新后的相关滤波器依次跟踪后续所有帧图像中的目标图像，直至完成整个目标视频序列中的目标图像的跟踪。

本发明提供的一种自适应相关滤波器目标跟踪方法，通过不断更新相关滤波器，进而根据更新后的相关滤波器依次跟踪后续所有帧图像中的目标图像，直至完成整个目标视频序列中的目标图像的跟踪，确保了相关滤波器的准确性，能够对目标图像进行准确有效地跟踪，提高了目标跟踪的准确率。

基于上述任一实施例，提供一种自适应相关滤波器目标跟踪方法，根据每个候选目标特征中的每个通道的特征图和高斯函数对每个通道的相关滤波器进行更新之后还包括：

当目标响应图中出现多个最大响应值时，利用预设的修正模型对更新后的每个通道的滤波器进行修正；

相应地，利用步骤S3-S5中的方法根据修正后的每个通道的相关滤波器确定下一帧图像的下一帧图像中的目标图像。

具体地，当目标正常运动时，响应图对应的响应函数是一个高斯分布，峰值很明显；当目标受到遮挡、复杂背景、光照变化等干扰因素的干扰时，峰值不明显且峰值旁瓣比减小，目标的可能位置点增加，目标位置与尺度的确定变得困难。在受干扰的情况下，响应图中的最大响应值会出现变化，甚至出现多个相近的值。

有鉴于此，本实施例中，当目标响应图中出现多个最大响应值时，利用预设的修正模型对更新后的每个通道的滤波器进行修正，其中修正模型为：其中，具体实现过程如下：

假设最大响应值为Emax(z)，对应的目标位置为pmax，若大于T1Emax(z) 的最小响应值对应的位置值为pmin，则两个位置点之间的欧式距离如为计算一定响应值内目标可能出现的位置点区域的面积，即s＝Π×d²；若满足s＞T2·w·h，则判断目标受到干扰，减小上述修正模型中的学习率η，从而减少样本对相关滤波器更新的影响；若不满足s＞T2·w·h，则上述修正模型中的学习率η不变。

具体地，在对更新后的每个通道的滤波器进行修正后，利用上述任一实施例中的步骤S3-S5中的方法根据修正后的每个通道的相关滤波器确定下一帧图像的下一帧图像中的目标图像，具体实现方式可以参照上述任一实施例中的步骤S3-S5中的具体方法步骤，此处不再赘述。

本发明提供的一种自适应相关滤波器目标跟踪方法，当目标响应图中出现多个最大响应值时，利用预设的修正模型对更新后的每个通道的滤波器进行修正；再根据修正后的每个通道的相关滤波器确定下一帧图像的下一帧图像中的目标图像，采用修正模型来改善相关滤波器的准确性，减少受到遮挡、复杂背景、光照变化等干扰因素干扰的样本对相关滤波器的影响，从而提高目标跟踪的精度。

基于上述任一实施例，提供一种自适应相关滤波器目标跟踪方法，步骤S2中根据每个目标特征中的每个通道的特征图和高斯函数构造每个通道的相关滤波器之前还包括：将每个目标特征中的每个通道的特征图的维度进行归一化处理。

具体地，鉴于将当前帧图像中的目标图像输入预设神经网络之后，所提取的目标特征为预设神经网络中输入至每一池化层的特征，也即为预设神经网络每一池化层的前一卷积层输出的特征，其中包括预设神经网络的高层特征和低层特征，即每个目标特征的维度并不相同。由于每个目标特征包括多个通道的特征图，因此不同目标特征对应的特征图的维度也并不相同。有鉴于此，本实施例中，将每个目标特征中的每个通道的特征图的维度进行归一化处理，有利于根据归一化处理后的每个目标特征中的每个通道的特征图和高斯函数构造每个通道的相关滤波器。

本发明提供的一种自适应相关滤波器目标跟踪方法，将当前帧图像中的目标图像输入预设神经网络之后，将提取出的每个目标特征中的每个通道的特征图的维度进行归一化处理，进而根据归一化处理后的每个目标特征中的每个通道的特征图和高斯函数构造每个通道的相关滤波器，有利于有效构造相关滤波器，确保了相关滤波器的准确性。

基于上述任一实施例，提供一种自适应相关滤波器目标跟踪方法，步骤S4中根据每个候选目标特征中的每个通道的特征图和每个通道的相关滤波器计算每个候选目标特征对应的响应图之前还包括：将每个候选目标特征中的每个通道的特征图的维度进行归一化处理。

具体地，鉴于将候选目标图像输入预设神经网络之后，所提取的候选目标特征为预设神经网络中输入至每一池化层的特征，也即为预设神经网络每一池化层的前一卷积层输出的特征，其中包括预设神经网络的高层特征和低层特征，即每个候选目标特征的维度并不相同。由于每个候选目标特征为多个通道的特征图，因此不同候选目标特征对应的特征图的维度也并不相同。有鉴于此，本实施例中，将每个候选目标特征中的每个通道的特征图的维度进行归一化处理，有利于根据归一化处理后的每个候选目标特征中的每个通道的特征图和每个通道的相关滤波器计算每个候选目标特征对应的响应图。

本发明提供的一种自适应相关滤波器目标跟踪方法，将候选目标图像输入预设神经网络之后，将提取出的每个候选目标特征中的每个通道的特征图的维度进行归一化处理，进而根据归一化处理后的每个候选目标特征中的每个通道的特征图和每个通道的相关滤波器计算每个候选目标特征对应的响应图，有利于根据响应图确定下一帧图像中的目标图像，能够对目标图像进行准确有效地跟踪，提高了目标跟踪的准确率。

基于上述任一实施例，提供一种自适应相关滤波器目标跟踪方法，步骤S2中根据每个目标特征中的每个通道的特征图和高斯函数构造每个通道的相关滤波器之前还包括：对高斯函数进行傅里叶变换。

具体地，在构建了当前帧图像中的目标图像分布的高斯函数之后，还需对高斯函数进行傅里叶变换，其中傅里叶变换具体为离散傅里叶变换，可以根据实际需求进行设置，此处不做具体限定。

本发明提供的一种自适应相关滤波器目标跟踪方法，在构建了当前帧图像中的目标图像分布的高斯函数之后，对高斯函数进行傅里叶变换，有利于根据傅里叶变换后的高斯函数构造相关滤波器，确保了相关滤波器的准确性。

图4为本发明实施例的一种自适应相关滤波器目标跟踪系统的整体结构示意图，如图4所示，本发明提供一种自适应相关滤波器目标跟踪系统，包括：

目标特征提取模块1，用于初始化当前帧图像中的目标图像，将目标图像输入预设神经网络，提取预设神经网络中输入至每一池化层的目标特征，每个目标特征包括多个通道的特征图；

具体地，本实施例中，已知当前帧图像中的目标位置，利用目标特征提取模块1首先初始化当前帧图像中的目标图像，即从当前帧图像中提取出目标图像。在此基础上，利用目标特征提取模块1将当前帧图像中的目标图像输入预设神经网络，其中预设神经网络包括卷积层和池化层，通过预设神经网络的卷积层和池化层对输入的当前帧中的目标图像进行特征提取。鉴于预设神经网络的池化层往往设置在卷积层之后，池化层将卷积层提取的特征进行池化后仅保留主要的特征，即通过池化层的池化处理后的特征一定程度上存在失真。有鉴于此，为了全面准确地提取输入的当前帧中的目标图像的特征，本实施例中，在将当前帧中的目标图像输入预设神经网络之后，提取预设神经网络中输入至每一池化层的目标特征，即每一池化层的前一卷积层输出的目标特征，由此则可提取当前帧图像中的目标图像在预设神经网络中的高层特征和低层特征，通过高层特征和低层特征对目标图像进行准确地表达。此外，输入至每一池化层的目标特征为多个通道的特征图，可表示为其中M、N分别为特征图的宽和高，D为通道个数。

进一步地，本实施例中所采用的预设神经网络为VGGNet-19深度模型，具体请参见图2，图2为本发明实施例的VGGNet-19深度模型的详细网络结构表的示意图，如图2所示，VGGNet-19深度模型包括卷积层、池化层、全连接层和归一化层，其中包括5个池化层。本实施例中，将当前帧图像中的目标图像输入VGGNet-19深度模型中之后，提取VGGNet-19深度模型中输入至每一池化层的目标特征，即为每一池化层的前一卷积层输出的目标特征，每个目标特征包括多个通道的特征图；从图2中不难看出，每一池化层的前一卷积层分别为con1-2、 con2-2、con3-4、con4-4和con5-4，对应地，提取con1-2、con2-2、con3-4、 con4-4、con5-4层的特征图。在其他实施例中，预设神经网络也可以设置为其他网络模型，可以根据实际需求进行设置，此处不做具体限定。

滤波器构造模块2，用于根据目标图像构建目标图像分布的高斯函数，根据每个目标特征中的每个通道的特征图和高斯函数构造每个通道的相关滤波器；

具体地，鉴于目标视频序列中的各帧图像中的目标图像的分布符合高斯模型，在此基础上，利用滤波器构造模块2根据当前帧图像中的目标图像构建目标图像分布的高斯函数。具体包括：首先从当前帧图像中获得目标的具体位置信息，其中位置信息包括目标所在矩形包围框的左上角横纵坐标和矩形的宽w和高h，在中心位置不变的情况下，将目标所在矩形进行两倍大小的扩充，将扩充后的区域划分为M×N个分块，并计算每个分块的长度；在此基础上，计算高斯模型中的参数σ，具体计算公式为：

其中w、h分别为目标所在矩形的宽和高；σ'表示输出因子；cell_size 表示为分块的边长。最后针对每一个分块，利用参数σ建立高斯函数，具体公式为：

其中g(m,n)表示在(m,n)处的标签，m∈{0,1,...,M-1}，n∈{0,1,...,N-1}。

在构建了高斯函数之后，利用滤波器构造模块2根据目标特征中的每个通道的特征图和高斯函数构造每个通道的相关滤波器，以上述目标特征为例，即构建第t帧时的第l层的每个通道 d(d∈{1,2,....,D})的相关滤波器，具体构造公式为：

候选目标特征提取模块3，用于从下一帧图像中获取预设大小的候选目标图像，将候选目标图像输入预设神经网络，提取预设神经网络中输入至每一池化层的候选目标特征；

具体地，在上述利用当前帧图像中的目标图像构建了每个通道的滤波器之后，利用构建好的每个通道的滤波器实现下一帧图像中的目标位置的跟踪。首先，利用候选目标特征提取模块3从下一帧图像中获取预设大小的候选目标图像，本实施例中，候选目标图像的中心和当前帧图像中的目标图像的中心相同，且候选目标图像的大小为当前帧图像中的目标图像大小的两倍。在其他实施例中，候选目标图像的大小可以根据实际需求预先进行设置，此处不做具体限定。

进一步地，利用候选目标特征提取模块3将候选目标图像输入上述预设神经网络，并通过预设神经网络的卷积层和池化层对输入的候选目标图像进行特征提取，与上述当前帧图像中的目标图像的特征提取方式相同，对应地，提取预设神经网络中输入至每一池化层的候选目标特征，即每一池化层的前一卷积层输出的候选目标特征，由此则可提取候选目标图像在预设神经网络中的高层特征和低层特征，通过高层特征和低层特征对候选目标图像进行准确地表达。同时，输入至每一池化层的候选目标特征同样为多个通道的特征图。以图2中的 VGGNet-19深度模型为例，若将候选目标图像输入VGGNet-19深度模型，相应地，提取con1-2、con2-2、con3-4、con4-4、con5-4层的特征图。

响应图计算模块4，用于对于任意一个候选目标特征，根据该候选目标特征中的所有通道的特征图和所有通道的相关滤波器计算该候选目标特征对应的响应图，将所有响应图进行加权运算获得目标响应图；

具体地，利用响应图计算模块4根据上述提取的每个候选目标特征中的所有通道的特征图和通过当前帧中的目标图像计算获得的所有通道的相关滤波器，计算获得每个候选目标特征对应的响应图。若当前帧为第t帧，则下一帧即为第t+1帧，即构建第t+1帧时的第l层的候选目标特征对应的响应图，具体计算公式为：

进一步地，利用上述方法计算获得每个候选目标特征对应的响应图之后，利用响应图计算模块4将所有的响应图进行加权运算获得目标响应图。本实施例中的候选目标特征即为VGGNet-19深度模型中的 con1-2、con2-2、con3-4、con4-4和con5-4层中提取的5个候选目标特征，相应地，可计算获得5个候选目标特征对应的5个响应图，最终将5个响应图进行加权运算获得目标响应图，具体计算公式为：

El＝El-1+αEl，

其中l表示预设神经网络的层级，本实施例中通过con5-4层的候选目标特征对应的响应图向前推导con4-4层的候选目标特征对应的响应图，依次类推，最终运算获得con1-2的候选目标特征对应的响应图，即为目标响应图。

目标图像确定模块5，用于根据所述目标响应图中响应值最大的位置确定所述下一帧图像中的目标图像。

基于上述原理，在获得目标响应图的基础上，利用目标图像确定模块5在目标响应图中计算获得响应值最大的位置的坐标，该坐标即为下一帧图像中的目标图像的中心像素点对应的坐标，在此基础上，结合目标图像的大小，即可确定下一帧图像中的目标图像。例如，若响应值最大的位置的坐标点为A，目标图像的大小为40cm×60cm的矩形，则以A为中心点，构建40cm×60cm的矩形区域，该矩形区域即为目标图像。

本发明提供的一种自适应相关滤波器目标跟踪系统，通过预设神经网络提取当前帧图像中的目标图像的高层特征和低层特征，利用相关滤波算法根据当前帧图像中的目标图像的高层特征和低层特征构造相关滤波器；同时利用预设神经网络提取下一帧图像中候选目标图像的高层特征和低层特征；结合下一帧图像中候选目标图像的高层特征和低层特征以及构造的相关滤波器计算候选目标图像的高层特征和低层特征对应的响应图，将所有响应图进行加权运算获得目标响应图；最终根据目标响应图中响应值最大的位置确定下一帧图像中的目标图像。该系统利用预设神经网络提取当前帧图像中的目标图像的高层特征和低层特征，能够对目标图像进行准确表达，有利于有效构造相关滤波器，确保了相关滤波器的准确性；同时利用预设神经网络提取下一帧图像中候选目标图像的高层特征和低层特征，保留候选目标图像中的细节特征，并通过构造好的滤波器获得高层特征和低层特征对应的响应图，最终结合各响应图确定下一帧图像中的目标图像，能够对目标图像进行准确有效地跟踪，提高了目标跟踪的准确率。

图5示出本发明实施例的一种自适应相关滤波器目标跟踪方法的设备的结构框图。参照图5，所述自适应相关滤波器目标跟踪方法的设备，包括：处理器(processor)51、存储器(memory)52和总线53；其中，所述处理器51和存储器52通过所述总线53完成相互间的通信；所述处理器51用于调用所述存储器52中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：初始化当前帧图像中的目标图像，将目标图像输入预设神经网络，提取预设神经网络中输入至每一池化层的目标特征，每个目标特征包括多个通道的特征图；根据目标图像构建目标图像分布的高斯函数，根据每个目标特征中的每个通道的特征图和高斯函数构造每个通道的相关滤波器；从下一帧图像中获取预设大小的候选目标图像，将候选目标图像输入预设神经网络，提取预设神经网络中输入至每一池化层的候选目标特征；对于任意一个候选目标特征，根据该候选目标特征中的所有通道的特征图和所有通道的相关滤波器计算该候选目标特征对应的响应图，将所有响应图进行加权运算获得目标响应图；根据目标响应图中响应值最大的位置确定下一帧图像中的目标图像。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：初始化当前帧图像中的目标图像，将目标图像输入预设神经网络，提取预设神经网络中输入至每一池化层的目标特征，每个目标特征包括多个通道的特征图；根据目标图像构建目标图像分布的高斯函数，根据每个目标特征中的每个通道的特征图和高斯函数构造每个通道的相关滤波器；从下一帧图像中获取预设大小的候选目标图像，将候选目标图像输入预设神经网络，提取预设神经网络中输入至每一池化层的候选目标特征；对于任意一个候选目标特征，根据该候选目标特征中的所有通道的特征图和所有通道的相关滤波器计算该候选目标特征对应的响应图，将所有响应图进行加权运算获得目标响应图；根据目标响应图中响应值最大的位置确定下一帧图像中的目标图像。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：初始化当前帧图像中的目标图像，将目标图像输入预设神经网络，提取预设神经网络中输入至每一池化层的目标特征，每个目标特征包括多个通道的特征图；根据目标图像构建目标图像分布的高斯函数，根据每个目标特征中的每个通道的特征图和高斯函数构造每个通道的相关滤波器；从下一帧图像中获取预设大小的候选目标图像，将候选目标图像输入预设神经网络，提取预设神经网络中输入至每一池化层的候选目标特征；对于任意一个候选目标特征，根据该候选目标特征中的所有通道的特征图和所有通道的相关滤波器计算该候选目标特征对应的响应图，将所有响应图进行加权运算获得目标响应图；根据目标响应图中响应值最大的位置确定下一帧图像中的目标图像。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的自适应相关滤波器目标跟踪方法的设备等实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后，本申请的方法仅为较佳的实施方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张建明;金晓康;李旭东
技术所有人：长沙理工大学
我是此专利的发明人

上一篇：图片处理方法、装置、终端及存储介质与流程
上一篇：一种挂钩自动组装机的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。