基于加权多示例学习的加权极限学习机视频目标跟踪方法与流程

文档序号：12273075阅读：242来源：国知局

本发明属于目标跟踪技术领域，特别涉及一种加权极限学习机视频目标跟踪方法，可用于智能视频检索、医学图像处理以及光电武器末端制导。

背景技术：

视频目标跟踪是计算机视觉领域与人工智能领域的重要研究方向，它的主要任务是在视频序列中跟踪感兴趣的单目标或多目标。

视频目标跟踪的跟踪模型主要可以分为两类：生成模型与判别模型。生成模型为目标的表观建模得到表观模型，然后在下一帧图像中搜索与当前帧图像建立的目标表观模型匹配度最高的表观模型，并把相应的位置作为跟踪结果，这种方法主要是基于模板或者子空间模型，但这种方法只利用目标信息而不考虑背景信息；而判别模型属于二值分类的范畴，它同时对目标和背景建模，它在当前跟踪结果周围提取正负样本并训练一个在线分类器，当下一帧图像到来，在下一帧图像中对应于上一帧跟踪结果位置附近采样，然后分类器对这些样本进行分类，选取置信度最大的样本对应的位置作为新的跟踪结果。

通过判别模型进行视频目标跟踪已经成为了一种趋势，但是在处理复杂场景如光照变化、部分遮挡、目标姿态变化、运动模糊、快速运动等问题时仍然会出现跟踪偏差甚至跟踪失败，所以基于判别模型的视频目标跟踪算法十分值得研究。

当前一些跟踪算法利用机器学习算法进行视频目标跟踪，但用于视频目标跟踪的许多传统算法存在一些问题。比如反向传播算法BP需要迭代调整参数而且一般只有局部最优解，用于视频跟踪时，它的跟踪准确性不能满足实际要求，同时训练网络时需要较长的训练时间；又如支持向量机算法SVM在理论上只能得出次优解，会导致跟踪偏差，而且数据量较大时需要的学习时间较长。

技术实现要素：

本发明的目的在于针对上述已有技术中跟踪准确性差的问题，提出一种基于加权多示例学习的加权极限学习机视频目标跟踪方法，以提高在复杂环境下，如目标姿态变化、目标快速移动、视频图像模糊、复杂背景与部分遮挡的目标跟踪精度，满足视频目标跟踪的要求。

实现本发明的技术关键是：结合加权多示例学习的方法与加权极限学习机的方法实现鲁棒的跟踪，即在加权极限学习机的跟踪框架下加入加权多示例学习的模块，利用加权多示例学习的方法选取加权极限学习机网络与相应的特征模型块，在加权极限学习机的框架中考虑了正负包中正负样本的分布规律，同时在加权极限学习机的全局输出权值的计算中使用自适应更新参数以充分利用目标与背景的变化信息。其实现步骤如下：

(1)初始化：

(1a)构建包含M种特征模型的特征模型池Φ；

(1b)对特征模型池Φ中的特征模型进行随机分配，得到总的E组特征模型块V；

(1c)选择加权极限学习机作为分类器，并确定它的隐层激励函数g(·)与隐层节点个数L；

(1d)随机产生加权极限学习机的输入权值A与隐层偏置R；

(2)提取训练样本：

(2a)读入第k帧视频图像I_k，判断是否满足k＝1，若满足，则直接利用已知的目标位置或者利用目标检测方法得出的跟踪目标位置否则，利用第(k-1)帧预测第k帧的目标位置其对应的置信度为conf_k；

(2b)在目标位置周围采集带标签的训练正样本与训练负样本，分别放入正包与负包中，并计算训练样本的权重矩阵W，同时构造训练样本标签集合T_k；

(2c)根据总的E组特征模型块V，提取正包与负包中训练正负样本对应的总的E组归一化特征块F_k；

(3)计算加权多示例学习中的正权值ω_1i与负权值ω_0j；

(4)构建分类器：

(4a)利用隐层激励函数g(·)、输入权值A、隐层偏置R、总的E组归一化特征块F_k、训练样本的权重矩阵W以及作为期望输出的训练样本标签集合T_k，采用加权极限学习机算法对E个网络进行训练，得到E个加权极限学习机网络的总输出权值β_k；

(4b)根据E个加权极限学习机网络的总输出权值β_k，得到总的E组训练输出Y_k；

(4c)根据总的E组训练输出Y_k，采用加权多示例学习方法中包的相似性函数从E个加权极限学习机网络中选择函数值最大的加权极限学习机网络与对应的特征模型块V^*；

(5)判断是否满足k＝1，若是，则此时网络总输出权值β_k即为总全局输出权值P_k，否则，根据目标位置的置信度conf_k，采用分段函数确定自适应更新参数μ_k，使用μ_k与网络总输出权值β_k计算，得到第k帧的E个网络的总全局输出权值P_k：

P_k＝(1-μ_k)×P_k-1+μ_k×β_k，

其中P_k-1表示第(k-1)帧的E个网络的总全局输出权值；

(6)读入第(k+1)帧视频图像I_k+1，在I_k+1图像中的第k帧目标位置附近提取检测样本，并根据选中的特征模型块V^*提取相应的归一化特征块

(7)分类检测样本：

(7a)在得到总全局输出权值P_k后，将选择的加权极限学习机网络作为检测网络，并把提取的归一化特征块输入到检测网络中，采用加权极限学习机算法计算得到检测网络输出值TY_k+1；

(7b)寻找检测网络输出值TY_k+1中最大值所对应的位置，即为第(k+1)帧的目标位置

(8)检查第(k+1)帧的视频图像是否为最后一帧，若是，则目标跟踪过程结束，否则，令k＝k+1，返回步骤(2)。

本发明与现有技术相比，具有以下优点：

1.本发明运用加权极限学习机算法作为跟踪算法，在训练时使用权重矩阵，而且输出权值具有最优解析解，不需要迭代调整参数，并且在全局输出权值的计算中使用自适应更新参数，充分利用了目标与背景的变化信息，提高了跟踪的准确性与鲁棒性；

2.本发明运用加权多示例学习的方法在不同的特征模型块中选择最优特征模型块，该最优特征模型块具有最大区分目标与背景的能力，提高了跟踪的稳定性。

附图说明

图1是本发明的实现流程图；

图2是用本发明对BlurCar4视频序列进行跟踪的实验结果图；

图3是用本发明对MountainBike视频序列进行跟踪的实验结果图；

图4是用本发明对Deer视频序列进行跟踪的实验结果图；

图5是用本发明对Tiger1视频序列进行跟踪的实验结果图。

具体实施方式

以下参照附图，对本发明的技术方案和效果进行进一步说明：

参照图1，本发明的具体实施步骤如下：

步骤1.初始化。

1.1)初始化目标特征：

视频跟踪中常用的特征包括：灰度特征、红、绿、蓝RGB颜色特征、色度，饱和度、亮度HSV颜色特征、梯度特征、尺度不变特征变换SIFT特征、局部二元模式LBP特征、类哈尔Haar-like特征；本实例使用但不限于现有特征中的类哈尔特征作为目标特征，并构建包含M种类哈尔特征模型的特征模型池Φ；

1.2)将特征模型池Φ中的特征模型随机分配，得到总的E组特征模型块其中e为特征模型块的序号，取值为1,...,E，E为特征模型块的总数，V^e为第e组特征模型块，每组包含的特征模型数为U，50≤U≤500；

1.3)选择加权极限学习机作为分类器，确定它的隐层激励函数g(·)为sigmoid函数：

并选定隐层节点个数为L；

1.4)随机产生加权极限学习机网络的输入权值A与隐层偏置R，分别表示如下：

其中A_e为第e个加权极限学习机网络的隐层节点输入权值，表示为：

其中l为隐层节点的序号，a_le为第e个加权极限学习机网络的第l个隐层节点对应的输入权值，是a_le的第u个输入权值，R_e为第e个加权极限学习机网络的隐层节点偏置，表示为：

R_e＝[r_1e,...,r_le,...r_Le]^T∈R^L×1， <5>

其中r_le为第e个加权极限学习机网络的第l个隐层节点的隐层偏置，E个网络中不同网络的输入权值A_e是相同的，而且E个网络中不同网络的隐层偏置R_e是相同的，T表示向量转置运算。

步骤2.提取训练样本。

2.1)读入第k帧视频图像I_k，判断是否满足k＝1，若满足，则直接利用已知的目标位置或者利用目标检测方法得出的跟踪目标位置否则，利用第(k-1)帧预测第k帧的目标位置其对应的置信度为conf_k；

2.2)采集训练样本：

2.2.1)在目标位置周围采集带标签的训练正样本与训练负样本其中x_1i是第i个正样本，x_0j是第j个负样本，是正样本的总数，是负样本的总数，并将采集的正样本与负样本分别放入正包与负包中，其表示如下：

其中，R⁺表示正包中正样本的采样半径，与分别表示负包中负样本的采样内半径与外半径，l_k(x_1i)表示正样本x_1i在图像I_k中的位置，l_k(x_0j)表示负样本x_0j在图像I_k中的位置，并且使正样本x_1i的标签与正包的标签t⁺相同，都为1，负样本x_0j的标签与负包的标签t^-相同，都为0；

2.2.2)根据步骤2.2.1)采集的正包中训练正样本与负包中训练负样本计算正样本x_1i的权重与负样本x_0j的权重

2.2.3)根据步骤2.2.2)得到的正样本x_1i的权重与负样本x_0j的权重得到训练样本的权重矩阵W：

其中diag为对角矩阵符号；

2.2.4)根据步骤2.2.1)采集的正包中训练正样本与负包中训练负样本构造训练样本标签集合T_k：

2.3)提取训练样本的特征：

2.3.1)根据步骤1.2)得到的总的E组特征模型块V，提取正包中所有训练正样本对应的第e组归一化特征块

其中表示正样本x_1i对应的第e组归一化特征块，为中的第u个特征分量，u＝1,...,U；

2.3.2)根据步骤2.3.1)得到的正包中所有训练正样本对应的第e组特征块得到正包中所有训练正样本对应的E组归一化特征块

2.3.3)根据步骤1.2)得到的总的E组特征模型块V，提取负包中所有训练负样本对应的第e组归一化特征块

其中表示负样本x_0j对应的第e组归一化特征块，为中的第u个特征分量；

2.3.4)根据步骤2.3.3)得到的负包中所有训练负样本对应的第e组特征块得到负包中所有训练负样本对应的E组归一化特征块

2.3.5)将步骤2.3.2)中得到的正包中所有训练正样本对应的E组归一化特征块与步骤2.3.4)中得到的负包中所有训练负样本对应的E组归一化特征块结合，得到所有训练样本对应的总的E组归一化特征块F_k：

其中表示所有训练样本对应的第e组归一化特征块。

步骤3.计算多示例权值。

3.1)计算加权多示例学习中的正权值ω_1i：

其中，α₁表示一个常数，exp(·)表示自然常数e的指数运算，d_i表示正样本x_1i的位置l_k(x_1i)与目标位置之间的欧几里得距离；

3.2)计算加权多示例学习中的负权值ω_0j：

ω_0j＝ω₀， <18>

其中，w₀为一个常数。

步骤4.构建分类器。

4.1)计算总输出权值：

4.1.1)根据步骤1.3)得到的隐层激励函数g(·)、步骤1.4)得到的输入权值A与隐层偏置R、步骤2.3.5)得到的总的E组归一化特征块F_k，分别计算第e个网络中正样本x_1i的隐层输出向量与负样本x_0j的隐层输出向量

4.1.2)根据步骤4.1.1)得到的第e个网络中正样本x_1i的隐层输出向量与负样本x_0j的隐层输出向量构造第e个网络的隐层输出矩阵H^e：

4.1.3)根据步骤4.1.2)得到的第e个网络的隐层输出矩阵H^e，得到E个加权极限学习机网络的总隐层输出矩阵H：

4.1.4)根据步骤2.2.3)得到的训练样本的权重矩阵W与步骤2.2.4)得到的作为期望输出的训练样本标签集合T_k和步骤4.1.3)得到的E个加权极限学习机网络的总隐层输出矩阵计算第e个加权极限学习机网络的输出权值

的计算与的值和L的值相关，即：

当

当其中C是正则化参数，I是单位矩阵，表示加权极限学习机网络的总输出权值β_k的第e个分量；

4.1.5)根据步骤4.1.4)得到的第e个加权极限学习机网络的输出权值得到E个加权极限学习机网络的总输出权值：

4.2)计算总的训练输出：

4.2.1)根据步骤4.1.3)得到的E个加权极限学习机网络的总隐层输出矩阵与步骤4.1.5)得到的E个加权极限学习机网络的总输出权值计算第e个加权极限学习机网络的训练输出计算公式如下：

其中，表示第e个网络中正样本x_1i的训练输出，表示第e个网络中负样本x_0j的训练输出；

4.2.2)根据步骤4.2.1)得到的第e个网络的训练输出得到总的E组训练输出Y_k：

4.3)选择网络与相应的特征模型块：

4.3.1)确定加权多示例学习方法中包的相似性函数

其中：

为第e个网络中第i个正样本x_1i的训练输出为第e个网络中第j个负样本x_0j的训练输出ln(·)表示以自然常数e为底数的对数函数；

4.3.2)使用步骤4.3.1)中的函数对步骤4.2.2)得到的总的E组训练输出进行计算，得到函数值

其中表示第e个网络的函数值；

4.3.3)根据步骤4.3.2)中得到的函数值从中选择函数值最大的该最大值对应的第q组网络即为选中的加权极限学习机网络，同时第q组特征模型块V^q即为选中的特征模型块V^*，q＝1,...,E。

步骤5.计算分类器总全局输出权值。

5.1)对于第1帧(k＝1)视频图像，总全局输出权值P_k为网络总输出权值β_k，即P_k＝β_k；

5.2)对于其余帧(k≠1)视频图像，按如下步骤计算：

5.2.1)采用分段函数计算自适应更新参数μ_k：

其中，c为一个0到1之间的常数，α是一个常数；

5.2.2)根据步骤4.1.5)得到的E个加权极限学习机网络的总输出权值与步骤5.2.1)得到的自适应更新参数μ_k，计算第e个网络的全局输出权值

其中，表示加权极限学习机网络的总全局输出权值P_k的第e个分量，表示第(k-1)帧的第e个网络的全局输出权值；

5.2.3)根据步骤5.2.2)得到的第e个网络的全局输出权值得到总全局输出权值P_k：

步骤6.提取检测样本。

6.1)读入第(k+1)帧视频图像I_k+1，在I_k+1图像中第k帧目标位置附近采样，提取检测样本

其中是第(k+1)帧检测样本的总数，x_s是第s个检测样本，l_k+1(x_s)表示检测样本x_s在图像I_k+1中的位置，R^d是检测样本的采样半径，

6.2)根据步骤4.3.3)选中的特征模型块V^*，提取检测样本对应的归一化特征块表示为：

其中表示检测样本x_s对应的特征块，为中的第u个特征分量。

步骤7.分类检测样本。

7.1)计算检测网络输出：

7.1.1)将步骤4.3.3)选中的加权极限学习机网络作为检测网络，同时利用步骤1.3)得到的隐层激励函数g(·)、步骤1.4)得到的输入权值A与隐层偏置R，并且将步骤6.2)得到的归一化特征块作为检测网络的输入，计算检测样本x_s的隐层输出向量

7.1.2)根据步骤7.1.1)得到的检测样本x_s的隐层输出向量构造检测样本的隐层输出矩阵Q:

7.1.3)根据步骤7.1.2)得到的检测样本隐层输出矩阵Q与步骤5.2.3)得到的全局输出权值计算所有检测样本对应的网络输出值TY_k+1：

其中，表示检测样本x_s对应的网络输出值；

7.2)根据步骤7.1.3)得到的网络输出值TY_k+1，寻找其中的最大值conf_k+1，该最大值conf_k+1对应的位置即为第(k+1)帧的目标位置

步骤8.检查第(k+1)帧的视频图像是否为最后一帧，若是，目标跟踪过程结束，否则，令k＝k+1，返回步骤2。

本发明的效果可通过以下实验进一步说明：

1.实验条件。

实验环境：计算机采用Intel(R)Core(TM)i5-2400CPU@3.1Ghz，4GB内存，软件采用Matlab2013a仿真实验平台。

实验参数：特征模型池中特征模型总数M＝1000，特征模型块组数E＝10，每组特征模型块中特征模型数U＝100；正包中正样本的采样半径R⁺＝4，负包中负样本的采样内半径采样外半径检测样本采样半径R^d＝60；加权极限学习机网络中的隐层节点个数L＝1000，正则化参数C＝2⁷，全局输出权值计算过程中分段函数的参数c＝0.3，α＝0.1；加权多示例学习中的参数α₁＝1，ω₀等于负包中所有负样本总数的倒数。

2.实验内容与结果。

实验1：用本发明方法在上述实验参数中，对BlurCar4视频序列进行跟踪，结果如图2所示，其中：

图2(a)为用本发明对BlurCar4视频序列第12帧进行跟踪的结果图；

图2(b)为用本发明对BlurCar4视频序列第110帧进行跟踪的结果图；

图2(c)为用本发明对BlurCar4视频序列第231帧进行跟踪的结果图；

图2(d)为用本发明对BlurCar4视频序列第292帧进行跟踪的结果图；

从图2中可以看出，对于目标快速运动与运动模糊的场景，本发明能够得到很好的跟踪效果。

实验2：用本发明方法在上述实验参数中，对MountainBike视频序列进行跟踪，结果如图3所示，其中：

图3(a)为用本发明对MountainBike视频序列第42帧进行跟踪的结果图；

图3(b)为用本发明对MountainBike视频序列第71帧进行跟踪的结果图；

图3(c)为用本发明对MountainBike视频序列第123帧进行跟踪的结果图；

图3(d)为用本发明对MountainBike视频序列第156帧进行跟踪的结果图；

从图3中可以看出，当目标出现在复杂背景中且姿态不断改变时，本发明能够对目标准确跟踪。

实验3：用本发明方法在上述实验参数中，对Deer视频序列进行跟踪，结果如图4所示，其中：

图4(a)为用本发明对Deer视频序列第10帧进行跟踪的结果图；

图4(b)为用本发明对Deer视频序列第28帧进行跟踪的结果图；

图4(c)为用本发明对Deer视频序列第54帧进行跟踪的结果图；

图4(d)为用本发明对Deer视频序列第71帧进行跟踪的结果图；

从图4中可以看出，当目标遇到多种复杂情况如运动模糊、快速运动、姿态改变、复杂背景与视频图像低分辨率时，本发明可以实现对目标的稳定跟踪。

实验4：用本发明方法在上述实验参数中，对Tiger1视频序列进行跟踪，结果如图5所示，其中：

图5(a)为用本发明对Tiger1视频序列第14帧进行跟踪的结果图；

图5(b)为用本发明对Tiger1视频序列第58帧进行跟踪的结果图；

图5(c)为用本发明对Tiger1视频序列第148帧进行跟踪的结果图；

图5(d)为用本发明对Tiger1视频序列第206帧进行跟踪的结果图；

从图5中可以看出，当目标同时遇到光照变化、部分遮挡、姿态改变与快速运动的场景时，本发明可以实现对目标的鲁棒跟踪。

综上可以得出，本发明可以实现对目标准确、稳定与鲁棒的跟踪，尤其在目标运动模糊、快速运动、姿态改变、部分遮挡与复杂背景的场景下。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：姬红兵;曹奕;张文博;刘龙;殷鹏飞;
技术所有人：西安电子科技大学;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。