本发明涉及视频目标跟踪领域,尤其涉及一种改进tld的矿井下视频目标跟踪方法。
背景技术:
当今时代,人们对于多媒体信息的需求日益增长,发展出了很多视频信息处理技术,其中目标跟踪技术是计算机视觉领域中的一个热点问题,它涉及目标的活动分析,分类和识别,在智能监控,视频会议,人机交互,交通控制,导航和医疗等诸多领域得到了广泛的应用。将目标跟踪技术应用到煤矿井下的监控视频中,是煤矿井下视频监控的未来趋势,对实现煤矿的实时监控、自动化生产、调度指挥及危险救援等方面都具有着重要意义。然而煤矿井下环境比较特殊,现有的跟踪方法很难直接应用到矿井环境中。首先煤矿井下是一个低照度环境,光照分布不均导致视野模糊,很难分辨不同物体;其次当矿工移动时,安全帽上的矿灯将会造成跟踪目标外观的剧烈变化,严重影响目标跟踪的性能;且不同矿工之间外观特征非常相似,相互遮挡易造成目标丢失。因此,如何根据煤矿井下目标跟踪的实际要求,设计一种能在低照度的环境下有效跟踪目标,同时抵抗目标外观的剧烈变化,并且当跟踪目标与相似目标之间相互遮挡甚至消失在视野中后还能够重新捕捉到目标的跟踪算法,是矿井下视频跟踪的一个重要课题。
tld目标跟踪算法是一种高效的单目标长时间跟踪方法,该算法的优点是可以用较少的先验信息连续长时间地跟踪单个运动目标,在目标被遮挡或消失以及目标外观变化的情况下也具有良好的性能,保证长时间连续跟踪过程中的准确性和鲁棒性。此外,tld算法具有稳定性强的特点,也可以用来处理目标遮挡或目标消失的问题。
tld算法的框架如图1所示。相应的处理过程如下:(1)利用第一帧信息来设置初始窗口位置和跟踪目标的大小;(2)跟踪部分用于根据前一帧中相同跟踪目标的位置信息,预测当前帧中跟踪目标的位置;(3)采用检测部分全局扫描当前帧,确定跟踪目标的位置;(4)学习部分用于判断是否需要更新跟踪部分和检测部分;(5)综合跟踪器和检测器的结果,得到最终的目标位置。
tld目标跟踪算法是一种可实现长期目标跟踪的算法,特别是在处理目标形变、遮挡以及目标消失又重现等复杂场景时,其性能优于其他算法,但是该算法复杂度高,所以实时性较差。
1.在目标跟踪过程中,tld算法采用的是光流法跟踪,该算法运算复杂,计算量大,且对光照敏感,很难用于煤矿井下视频的实时跟踪处理;
2.在目标检测过程中,tld算法通过全局扫描的方法来检测运动目标,由于在视频连续两帧之间目标的运动范围不会很大,因此只有目标附近一定区域需要扫描,全局扫描的方式造成计算资源浪费;
3.在检测过程的第一阶段,方差分类器设置了固定的滤波阈值,容易导致计算错误和巨大的计算量,直接影响后续滤波器的判断,从而造成跟踪精确度低。
技术实现要素:
本发明所要解决的技术问题是针对背景技术中所涉及到的缺陷,提供一种改进tld的矿井下视频目标跟踪方法。
本发明为解决上述技术问题采用以下技术方案:
一种改进tld的矿井下视频目标跟踪方法,包含以下步骤:
步骤1),根据第一帧图像中标定的目标框,得到目标框的位置信息;
步骤2),将目标框的位置信息送入跟踪器进行跟踪:
步骤2.1),将颜色特征空间按预设的颜色值间隔分为m个特征值,计算每一个特征值在初始帧目标区域的所有像素中的概率,形成目标模型的描述:
令x0点为目标框的中心,目标框内像素位置记为xu,u=1,…,n,n为目标框内的总像素个数;概率分布
步骤2.2),建立当前帧中的候选模型pw,
步骤2.3),使用相似度函数来度量初始帧目标模型和当前帧候选模型之间的相似度,以找到与参考目标模型相似度最大的候选模型,qw和pw之间的相似度
步骤2.4),从前一帧的目标模型的中心位置y开始,搜索使相似度函数
步骤2.5),将当前帧中目标模型的位置作为跟踪器的跟踪结果输出;
步骤3),将目标框的位置信息送入检测器进行检测:
步骤3.1),按照预设的扫描比例、预设的水平移动步长阈值、预设垂直移动步长阈值、预设的最小扫描边界框阈值、通过滑动窗口的方法对当前帧图像进行多尺度扫描,产生若干扫描框;
步骤3.2),根据目标框的位置信息,使用kalman滤波器预估得到当前帧目标模型的中心位置,以此为中心,将目标框的长宽均扩大q倍,作为预估框,q为大于1的数;
步骤3.3),判断步骤3.1)中得到的多个扫描框是否和所述预估框有交集,丢弃和预估框无交集的扫描框,得到若干个和预估框有交集的扫描框;
步骤3.4),将所述若干个和预估框有交集的扫描框分别依次送入方差分类器、集成分类器、最近邻分类器进行筛选,其中,所述方差分类器的过滤阈值
步骤3.5),将方差分类器、集成分类器、最近邻分类器筛选过后的结果作为检测器的结果输出;
步骤4),跟踪器和检测器的结果送入学习模块,采用p-n学习评估检测器结果、识别检测器产生的错误并对检测器进行更新;
步骤5),综合跟踪器和检测器的结果,得到最终跟踪结果:
步骤5.1),若跟踪器和检测器都没有输出结果则认为目标消失,此时不输出任何结果,在下一帧中由检测器重新检测,成功检测到目标后,将检测器得到的目标位置作为跟踪器的初始值,重复上述步骤;
步骤5.2),若跟踪器跟踪成功而检测器检测失败,则将跟踪器结果作为最后的输出,重复上述步骤;
步骤5.3),若跟踪器跟踪失败而检测器检测成功,则将检测器结果作为最后的输出,且用检测结果重新初始化跟踪器,重复上述步骤;
步骤5.4),若跟踪器和检测器都有输出结果,则先将检测器的结果进行聚类,再用聚类后的检测器结果和跟踪器结果加权平均得到最终结果,重复上述步骤。
作为本发明一种改进tld的矿井下视频目标跟踪方法进一步的优化方案,所述步骤3.1)中,通过滑动窗口的方法对当前帧图像进行多尺度扫描,产生若干扫描框,扫描比例为1.2、扫描时水平和垂直的移动步长分别是视频帧宽高的10%,最小扫描边界框大小为15个像素值。
作为本发明一种改进tld的矿井下视频目标跟踪方法进一步的优化方案,所述步骤3.2)中,q=1.2。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
本发明针对煤矿井下跟踪需求的特殊性,增强了算法在低照度情况下的目标跟踪准确率,有效应对目标外观剧烈变化和目标遮挡等复杂因素,增强了原算法的鲁棒性以适应实际需求。
附图说明
图1是传统tld目标跟踪算法的原理示意图;
图2是本发明中基于kalman滤波的矿井下图像位置区域预估的示意图;
图3是本发明中级联分类器结构的示意图;
图4是本发明中改进tld的矿井下视频目标跟踪方法的原理示意图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
本发明在跟踪部分和检测部分都进行了改进,主要包括如下几部分:
1、跟踪部分采用基于mean-shift的跟踪算法,减小计算量同时做到煤矿井下环境的目标实时跟踪;2、在检测部分首先用kalman滤波来预估当前帧目标的中心位置,进行目标位置的区域预估,减少扫描窗口的数量,减小计算冗余;3、然后在预估区域使用动态自适应更新阈值的方差分类器进行检测,提高检测效率。下面对本技术方案进行分步具体介绍。
第一部分:基于mean-shift的跟踪算法
改进的mean-shift跟踪算法首先进行目标模型描述。对于初始帧图像中目标区域的所有像素,计算每个特征值的概率来描述目标模型。然后针对每一帧的候选目标区域,计算每个特征值的概率以描述候选模型。接着使用相似度函数来度量初始帧目标模型和当前帧候选模型之间的相似度,选择使相似度最大的候选模型,使当前帧中的目标框最终收敛到实际位置,达到跟踪目的。
第一帧图像中标有目标框,即需要跟踪的对象。
首先将颜色特征空间按预设的颜色值间隔分为m个特征值,计算每一个特征值在初始帧目标区域的所有像素中的概率,形成目标模型描述。
令x0点为目标框的中心,目标框内像素位置记为xu,u=1,…,n,n为目标框内的总像素个数。概率分布
式中k(x)采用高斯核函数,h是高斯核函数的带宽,b(xu)是像素在颜色直方图中的索引函数、表示xu处像素所属的直方图区间,w是颜色直方图索引,δ是克罗内克函数、作用是判断xu处与w处的特征值是否相等。c是归一化常数,有:
建立当前帧中的候选模型pw,
式中,b(xv)表示xv处像素所属的直方图区间,归一化常数ch为:
接着,使用相似度函数来度量初始帧目标模型和当前帧候选模型之间的相似度,以找到与参考目标模型相似度最大的候选模型。选择bhattacharyya系数
最后,从前一帧的目标模型的中心位置y开始,搜索使相似度函数
式中y1为当前帧中目标模型的中心位置,
第二部分:基于kalman滤波的矿井下图像位置区域预估
检测部分中,通过滑动窗口的方法对当前帧图像进行多尺度扫描,产生若干扫描框,具体如下:根据第一帧标定的目标框大小进行扫描,扫描比例为1.2、扫描时水平和垂直的移动步长分别是视频帧宽高的10%,最小扫描边界框大小为15个像素值。
本发明采用kalman区域预估的方法对目标可能出现的潜在区域进行预测,该方法克服了传统tld方法子窗口数量大、运算负荷重的不足,能动态调整检测区域,检测时只扫描与此区域相交的窗口,大量减少扫描窗口数量,提高检测效率。
kalman滤波选择任意一点作为观测起点,通过系统上一个状态对下一个状态作最优估计。令运动目标中心的水平分量和竖直分量分别为x和y,目标在水平方向和竖直方向的移动速度分别为vx和vy,则i时刻的系统状态向量xi和系统观测向量zi表示如下:
kalman滤波的线性微分方程如下:
式中a为系统状态转移矩阵,h为观测矩阵,有
kalman区域预估示意图如图2所示:由kalman滤波器预估得到当前帧目标模型的中心位置(图中圆点),以此为中心将目标窗口的长宽均扩大q倍作为预估框,即图3中虚线矩形,q为预设的大于1的数,这里设置为1.2。矩形1、2、3、4均为扫描框,其中2和3与预估框有交集,进入检测器,1和4与预估框无交集,丢弃不进行检测。
第三部分:改进方差分类器的阈值设置
对于实际跟踪中出现的目标形变、遮挡等现象,原tld算法的方差分类器始终使用同一标准筛选目标框,会产生大量的误差。因此本发明提出一种自适应方差分类器,采用级联分类器结构进行检测,如图3所示。候选目标区域通过自适应方差分类器、集成分类器、最近邻分类器则被认定为目标区域。
首先采取将最新一帧信息和此前时间的目标信息进行结合的方法,使方差分类器的过滤阈值得到自适应动态更新,避免仅使用原始信息易跟踪错误的问题,以提升跟踪的精确度。由于正样本库在修正模块中不断更新,因此可以通过计算正样本库中的样本方差来更新方差分类器的阈值,实现目标特征的实时更新。新增到正样本库中的样本可以更好地反映当前帧中目标的变化,因此占据较大的比例,经过实验后得到自适应方差分类器过滤阈值如下:
式中,var*是自适应方差分类器的阈值,即达到过滤阈值的候选框方差。只有达到阈值条件的候选框才能进入到下一步。dt为正样本库中最近更新的样本方差、其在正样本库中为第t个样本方差,ds为正样本库中第s个样本的方差。图像框中灰度值的方差计算表达式如下:
d(p)=e(p2)-e2(p)(10)
式中p是图像区域的灰度值,d(p)为候选区域中所有像素的方差,e(p2)是图像区域灰度值平方的均值,e(p)是图像区域灰度值的均值。
然后将候选目标区域输入集成分类器。集成分类器中,多个决策树组成随机森林,将决策树中的每一层看作一个二分类问题,每个决策树对应一个后验概率,当后验概率平均值大于0.5时,判定该图像区域含有目标,作为最近邻分类器的输入。
最后使用最近邻分类器对图像区域进行分类。计算待测图像区域与目标区域的相似度,选择相似度最大的目标框作为最终的检测结果。基于ncc快速相似度匹配算法,定义目标区域为p1,待测区域为p2,其相似度计算公式如下:
s(p1,p2)=0.5[ncc(p1,p2)+1](11)
最终同时通过三个分类器的样本即被认定为存在目标的扫描框。
随着视频帧的增加,目标会发生形变或被遮挡,亮度和背景也会改变,相应地影响了目标的方差特性。采用方差分类器阈值的自适应动态更新,可以更接近真实的目标方差,从而更加准确地滤除预测框,为后续分类器节省计算时间,提高精确度。
整合跟踪器和检测器的结果,得到最终的目标位置,整合方式如下:
(1)跟踪器和检测器都没有输出结果则认为目标消失,此时不输出任何结果,在下一帧中由检测器重新检测,直到成功检测到目标后,将检测器标注的目标位置作为跟踪器的初始值,再进行下一帧的跟踪;
(2)跟踪器跟踪成功而检测器检测失败,则将跟踪结果作为最后的输出;
(3)跟踪器跟踪失败而检测器检测成功,则将检测结果作为最后的输出,且用检测结果重新初始化跟踪器;
(4)跟踪器和检测器都有输出结果,则先将检测器的结果进行聚类,再用聚类后的检测器结果和跟踪器结果加权平均得到最终结果。
本发明的总体流程示意图如图4所示。
本技术领域技术人员可以理解的是,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。