一种基于局部哈希特征的视频目标实时跟踪方法

文档序号:10489776阅读:620来源:国知局
一种基于局部哈希特征的视频目标实时跟踪方法
【专利摘要】本发明公开了一种基于感知哈希特征的视频目标跟踪方法,其特征在于,包括以下步骤:(1)读取待跟踪视频序列的第一帧;(2)在图像中画一恰好将目标包围的矩形框,作为目标框;(3)对视频帧图像进行灰度化处理;(4)提取目标框的局部哈希特征,并对特征进行为运算化处理;(5)读取视频下一帧,并采用同步骤(3)同样的方式对图像进行灰度化处理;(6)在当前帧中,采用倒金字塔候选框搜索方法在上一帧目标相同位置附近获取候选框;(7)采用同步骤(4)相同的方式,提取所有候选框的局部哈希特征;(8)计算所有候选框同上一帧目标框的相似度,选取相似度最大的候选框作为新的目标框,并重复步骤(5)~(7),直至视频结束。
【专利说明】
一种基于局部哈希特征的视频目标实时跟踪方法
技术领域
[0001] 本发明属于图像处理技术中的视频目标跟踪领域,提出了一种基于局部哈希特征 的视频目标实时跟踪方法。
【背景技术】
[0002] 视频目标跟踪是连续确定视频中目标所在相对位置,并大致指示目标大小的一种 技术。
[0003] 视频目标跟踪技术涉及到计算机视觉处理、图像序列处理、模式识别以及人工智 能等领域,且其应用极其广泛,比如在商业上的商场、宾馆、住宅区的监控;公共事业上的学 校、医院、机场、车站等公共场所的监控;军事上一些基于机器视觉的制导系统、瞄准系统 等。
[0004] 视频目标跟踪按照学习模型的不同可大致分为两类,分别为基于离线学习模型和 基于在线学习模型的跟踪算法。
[0005] 基于离线学习模型的目标跟踪算法,需要大量同类物体的样本进行离线训练学 习,且跟踪的目标受限于学习的目标,因此这种算法没有被广泛的应用,只有在某些特定的 场合,如车辆跟踪、人脸跟踪中作为一种辅助检测的手段。
[0006] 基于在线学习模型的跟踪算法,是目前视频跟踪领域中的主流算法,其不需要离 线学习样本,而是在跟踪的过程中,学习更新模型的参数,且其跟踪的目标也不限于某一特 定目标,只要在视频初始阶段给出跟踪目标的大致信息即可。算法模型会根据初始阶段标 记得到的大致信息进行学习。在线学习算法的学习模型往往比较简单,所以学习过程也较 为快速。
[0007] 但是,基于在线学习模型的跟踪算法,几乎都只有在高性能的计算机上才能实现 实时跟踪(即每秒至少处理15帧),这是因为这些算法一般采用HOG、Haar-like、LBP等较为 复杂的局部特征作为学习模型的学习特征,这些特征的提取、运算需要花费较多的时间,因 此这些算法不能很好的移植到一些实用的嵌入式系统中去。
[0008] 另外,目前绝大部分基于在线学习模型的跟踪算法都属于判别式跟踪算法,这种 算法将跟踪问题看成一个二分类问题,其需要在视频的每帧图像中选取一定的候选框,再 通过学习机从候选框中选出新的跟踪结果。对于候选框的获取方法,目前没有较为简便的 方式,一般都是在跟踪目标附近全遍历,搜索所有可能的候选框,这种方法可以获得大量候 选框,但对于跟踪而言,有许多候选框是冗余的,这会加重算法的运算负担。

【发明内容】

[0009] 针对现有视频目标跟踪技术中的特征较为复杂,运算量较大的不足之处,本发明 提出了一种基于感知哈希特征的视频目标跟踪方法,并对特征进行位运算化处理,实现了 快速、高效的视频目标跟踪。
[0010] 本发明提出的基于感知哈希特征的视频目标跟踪方法主要包括以下步骤:
[0011] (I)读取待跟踪视频序列的第一帧;
[0012] (2)在图像中画一恰好将目标包围的矩形框,作为目标框;
[0013] (3)对视频帧图像进行灰度化处理;
[0014] (4)提取目标框的局部哈希特征,并对特征进行为运算化处理;
[0015] (5)读取视频下一帧,并采用同步骤(3)同样的方式对图像进行灰度化处理;
[0016] (6)在当前帧中,采用倒金字塔候选框搜索方法在上一帧目标相同位置附近获取 候选框;
[0017] (7)采用同步骤(4)相同的方式,提取所有候选框的局部哈希特征;
[0018] (8)计算所有候选框同上一帧目标框的相似度,选取相似度最大的候选框作为新 的目标框,并重复步骤(5)~(7 ),直至视频结束。
[0019 ]优选地,对于步骤(4)具体包括以下内容:
[0020] (4-1)感知哈希原理:
[0021] 感知哈希是从多媒体数据集到感知摘要集的一种单向映射,通过感知哈希函数将 庞大的多媒体对象映射为数据量较小、长度较短的比特序列,将内容相同或相近的多媒体 对象映射为数学相同或相近的哈希值。感知阈值理论告诉我们,人类要想能够感知到不同 的事物,那么该事物所带来的刺激就必须要超过人类的感知阈值,那些未能超过阈值的,则 均被认为是相同"数据",由此可知,感知哈希是允许一定感知误差的,它由传统哈希发展而 来,不但具有传统哈希简洁性、安全性的特点,还极大地提高了哈希的鲁棒性。
[0022]本发明,将感知哈希理论应用到目标跟踪领域,并结合目标跟踪的特点与需求,提 出了基于感知哈希原理的局部哈希特征。局部哈希特征具有而局部哈希特征在跟踪算法中 也能够继承其简洁性、鲁棒性的特点,因此,本发明可以实现快速、鲁棒的跟踪算法。
[0023] 感知哈希特征的提取原理如下:
[0024]
[0025] 其中
式中P(x,y)表示原图在点(x,y)处的像素值,S(x,y)表 示哈希特征在点(x,y)处的结果值,w表示图像的宽度,h表示图像的高度。
[0026] 观察图2,可发现感知哈希特征提取的过程中,会删去图像中大部分的低频信息, 只保留图像中的高频信息,即将图像中目标的边缘、轮廓信息保留下来。
[0027] 同时,原图中每个像素都是由RGB三个通道的像素值组成,每个通道都存有一个长 度为8位的像素值,而结果图中每个像素都只是由一个通道的数据组成,且由一位的0或1表 示,这极大地减少了数据的信息量。
[0028] 传统的基于感知哈希原理的跟踪是一种模板匹配的方法,即将目标框、候选框缩 小到8*8个像素大小,再比较候选框与上一帧目标框的相似度,选出相似度最高的候选框作 为新的目标框。这种方法虽然简单易实现,但是跟踪的效果较差,尤其是在跟踪目标出现形 变、部分遮挡时,跟踪效果极为不好。产生这种现象的原因是这种8*8的模板删减了太多的 目标特征信息,从而导致不同的候选框图像却可能产生相同的哈希序列。因此,这种方法虽 然有相当好的简洁性,但却不满足跟踪问题中所需求的鲁棒性。
[0029] (4-2)局部哈希特征提取
[0030] 本发明为了解决传统的基于感知哈希的跟踪方法鲁棒性较差的问题,在原有感知 哈希原理的基础上,提出了一种基于图像块划分的局部哈希特征。这种特征是在原目标图 像中提取出许多大小为8*8的局部子图像块,分别对每个子图像块提取感知哈希特征,便可 以得到局部哈希特征。
[0031] 本发明将局部子图像块的大小定为8*8原因,是为了更加符合机器运算的规则,为 了更方便的使用机器运算中快速的位运算操作。在后文中,将会有更加详细的关于使用位 运算的方法。
[0032] 本发明在获取局部子图像块的过程中,采用8*8模板在待提取特征图像中平移,每 次平移均可获得一个8*8的子图像块,对于大小为w · h的图像,一共可获取子图像块的个数 为:
[0033]
[0034] 其中,a为每次平移的步长,[·]为取整符号。
[0035]获得多个子图像块后,用上述的哈希特征提取原理对子图像块提取哈希特征。 [0036] (4-3)位运算化处理
[0037]观察附图3b,可发现每个局部哈希特征都是一个含有64个元素的矩阵,且矩阵元 素较为特殊,只含有〇或者1。
[0038]在机器运算中,其对数据存储的方式也是由0、1组成的二进制序列。本发明利用局 部哈希特征矩阵元素只有〇、1的特点,将每个局部哈希特征矩阵按行序排列成一个长度为 64的向量。且在机器运算中存在一种长整型变量也是64位长度,因此每个局部哈希特征都 可以用一个长整型的变量来表示,原本需要64个变量存储的特征,只需一个长整型即可,这 在内存储存方面能够有效的减少成本,也是局部子图像块的大小定为8*8的一个重要原因。 [0039 ]优选地,对于步骤(6)具体包含以下内容:
[0040] 在搜索候选框时,传统的候选框搜索策略是一种全遍历方式,即在目标周围一定 范围内逐点遍历图像。这样做的好处是,目标周围所有的候选框均可以被涵盖,且不会被遗 漏。但是,在目标跟踪中,目标框的位置发生微小变化,如果并不影响跟踪结果,则目标框附 近的数个候选框均可以作为新的目标框。因此传统的全遍历搜索策略搜索出的许多候选框 其实是冗余的,这会导致算法的计算负担极大加重,运行时间增加,从而无法实现实时跟
[0041] 本发明为了在不影响跟踪结果的前提下删减冗余的候选框,提出了倒金字塔搜索 方法。此方法的思想来源于倒金字塔的结构形式,至下而上,金字塔的横截面积由小到大, 同时所使用的建筑材料的大小也由小到大。
[0042] 将这种思想运用在候选框搜索中,则是以目标的左上角为中心,由内向外构造不 同面积、互不重叠的矩形或矩形环区域,作为待搜索区域。且在不同搜索区域搜索时,其搜 索步长也因区域离中心点的距离大小而变化。
[0043] 如图4所示,图中红色点为目标框的中心点,区域1、2、3互不重叠,区域1为矩形区 域,区域2和区域3是与区域1同中心点的矩形环。三个区域到中心点的距离依次增加,搜索 范围也依次增加。
[0044] 在搜索区域中,沿x方向的搜索迭代公式:
[0045]
[0046]
[0047]
[0048] 上式中,i代表所在区,i = 1,2,3。和分别表示沿X和y方向 的迭代步长。
[0049] 由图4可知,区域3所在位置离目标框最远,故新的目标框位置位于区域3的可能性 最小,且其包含的区域面积最大,因此在区域3搜索时,其搜索步长选取较大的值。同理,在 区域2的搜索步长比区域3小,区域1的搜索步长最小。一般可取:
[0050]
[0051] 优选地,对于步骤(8)包含以下内容:
[0052] 在通过倒金字塔搜索方法搜索得到诸多候选框后,要想在其中选出当前的目标, 则需要一种计算候选框与上一帧目标框相似度的度量手段,分别计算每个候选框与上一帧 目标框的相似度,然后在这些候选框中找到相似度最高的作为新的目标框。
[0053] 一般的相似度计算方法都是基于距离的衡量方法,常用的距离衡量方法有欧式距 离、曼哈顿距离、切比雪夫距离、马氏距离、汉明距离等。
[0054]汉明距离,是一种专门用来比对两个序列相似度的衡量手段,对于汉明距离来说, 两个等长字符串Sl与S2之间的汉明距离为将其中一个变为另外一个所需要作的最小替换 次数,例如字符串"1111"与"1001"之间的汉明距离为2。
[0055]本发明在提取哈希特征时得到的是长度为64位的二进制序列,则比较两个局部哈 希特征的相似度时,可以采用汉明距离作为局部哈希特征的度量方式。这种度量方式计算 非常简便,且相似性度量的结果也较为准确。
[0056]根据汉明距离的定义可知,汉明值H(x,y)是序列x、y中对应位置不同的个数。本发 明在提取到局部哈希特征向量后,将其转化为一个64位整型变量,因此X和y是两个只含0、1 的序列,故对X和V梁取异或操作夹计筧两个序列的晗明距离"
[0058]如上表所示,异或运算的原理是相异为1,相同为0。
[0059] 例如,假设X和y是如下序列:
[0060] X = OOimOl 01011001 〇〇〇〇〇〇〇〇 11111111 〇〇〇〇〇〇〇〇 11111111 〇〇〇〇〇〇〇〇 11111111
[0061] y = 00110000 10110100 00000000 11111111 00000000 11111111 00000000 llllllllx和y异或的结果为:
[0062] Z = XAy
[0063] =00001101 11101101 00000000 00000000 00000000 00000000 00000000 00000000在统计异或结果序列中"Γ的个数时,本发明采用移位和按位相与的方式进行加 速计算。为方便解释,假设结果序列为S(S = 00110011),序列中"Γ的个数为num(l),并设其 初始值为0,让序列S与序列B(B = 00000001)按位相与,这样做的目的是判断序列S中最后一 位是否为"Γ。相与的结果z = 00000001,其在计算机中的值为1,即Z = I,故在num(l)上加Z; 然后,为了判断序列S中倒数第二位是否为"1",将S右移一位,得到S'=00011001,再让S'与 00000001按位相与,得到结果为z = 00000001,同样在num(l)上再加Z。依次类推,直至整个 序列中所有位都经过判断。最终的ruim(l)即序列中"Γ的个数,也即是两个序列的汉明距 离。
[0064] 上述过程求取的是候选框与目标框中对应位置的子图像块的相似度,本发明在评 估候选框与目标的整体相似度时,采用子图像块相似度的均值作为衡量手段。即候选框与 目标框整体的相似度s为:
[0065]
[0066] 其中m为子图像块的个数,S1为候选框与目标框的子图像块的相似度。
[0067] 与现有技术相比,本发明具有如下有益效果:
[0068] 1、本发明采用的局部哈希特征,提取方式简便,复杂度低,可以很好地运用在一些 实时跟踪场景中,尤其是对于一些嵌入式系统,本发明都可以较好地实现实时跟踪;
[0069] 2、本发明对特征进行一系列位运算处理,在机器中,位运算是最快速最高效的运 算方式,因此本发明运算速度很快;
[0070] 3、本发明采用倒金字塔方法提取候选框,这种提取方式极大地减少了冗余的候选 框,提过算法本身效率。
【附图说明】
[0071] 图1是本发明流程图;
[0072]图2是原始图像和提取的哈希特征结果图;
[0073]图3是某一 8*8局部图像块和对其提取的局部哈希特征结果;
[0074]图4是倒金字塔搜索方法区域图;
[0075] 图5是跟踪领域中经典测试视频David的第一帧。
【具体实施方式】
[0076] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并 不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要 彼此之间未构成冲突就可以相互组合。
[0077]本发明的步骤流程如图1所示,现以测试视频David为例说明:
[0078] (1)获取初始目标框
[0079]在读取David视频的第一帧时,由于算法本身并不知道其要跟踪的目标是什么,因 此需要提供交互界面,人为的给定待跟踪目标。
[0080] 如图5所示,为David视频第一帧,图片中矩形框为人为标记得来。人机交互得到矩 形框的位置、大小信息后,便在图像中显示出这些信息。图中四个数字分别表示矩形框左上 角坐标(x,y)和矩形框的宽和高(w,h)。根据图中给出的信息可知当前矩形框左上角点的坐 标为(129,80),宽和高为(64,78)。
[0081] (2)获取初始目标的局部子图像块
[0082] 相坦来聰前的曰e隹自」生件的获取多个子图像块,子图像块的个数为:
[0083]
[0084] 这里w = 64,h = 78,并取迭代步长a = 4。因此最终获取的子图像块的个数为15X18 = 270个。
[0085] (3)获取初始目标的局部哈希特征
[0086] 得到目标的子图像块后,便要获取子局部图像块的哈希特征,获取原理为:
[0087]
[0088]每个局部哈希特征都是一个大小为8*8的矩阵,且矩阵中的元素只含有0或者1。
[0089] 利用局部哈希特征矩阵与机器运算中长整型变量的相似之处,故将局部哈希特征 按位运算的方式化为一个长度为64位的长整型变量,并存放于一个长整型数组"hashValue
[270]"中,以图3b中的局部哈希特征为例:
[0090] 首先设64位长整型变量a = 0,并让其与局部哈希特征中的第一位数相或,这样便 将这个数存放在了 a的最末位,然后将a左移一位,并让其与局部哈希特征中的第二位数相 或,依次类推直至将所有哈希特征值全部存入a中。
[0091] (4)候选框搜索
[0092] 当读取到视频的第二帧时,此时要在新的图像中获取一系列的候选框,作为新的 目标框的候选。获取候选的策略是采用倒金字塔候选框搜索方法。
[0093]已知在上一帧中目标的位置为(129,80),根据视频中连续两帧之间目标位置变化 比较小的原理,故在当前帧中(129,80)附近寻找候选框。如图4所示,以(129,80)为中心,分 别以10、20、40个像素为区域宽度,得到1、2、3三个矩形环搜索区域。且在三个区域的搜索步 长与搜索域到中心距离有关,取Step(I) = 1,Step(2) = 2,Step(3) = 4。
[0094]对于传统的全遍历搜索策略,当搜索范围为40个像素时,每帧图像可得到约1600 个候选框,而采用倒金字塔搜索策略后,则可精减为约371个候选框。且对于目标跟踪这种 对实时性要求较高但容许部分误差的情况,跟踪效果并未有很大差别。
[0095] (5)获取候选框局部哈希特征
[0096] 获取候选框后,便要对候选框求取局部哈希特征,求取方式与步骤3相同。
[0097] 这里,对每个后候选框均获取局部哈希特征,因此一共可获得371个独立的 "hashValue[270]"。其中每个hashValue[i]都是一个64位长整型变量。
[0098] (6)相似度计算
[0099]在获取候选框的局部哈希特征后,便要计算每个候选框与前一帧目标框的相似 度,并选取最相似的作为新的目标框。
[0100]因为候选框和目标框的局部哈希特征"hashValUe[270]"中包含了两百多子子图 像块的哈希特征,因此比较候选框与目标框的相似度可转换为比较每个对应位置子图像块 的相似度,然后对所有子图像块的相似度求均值,从而得到候选框与目标框整体的相似度。 [0101 ] -般的,当相似度大于0.5,便认为两个序列存在相关性,当相似度大于0.75便认 为两个序列有较高的相似度,当相似度大于〇. 95便认为两个序列几乎是相同序列。
[0102] (7)确定新的目标框
[0103] 比较所有的候选框与目标框的相似度,找出相似度最高的候选框,作为新的目标 框。然后算法重复步骤4至步骤7,直至视频结束。
[0104] 本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以 限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含 在本发明的保护范围之内。
【主权项】
1. 一种基于感知哈希特征的视频目标跟踪方法,其特征在于,包括W下步骤: (1) 读取待跟踪视频序列的第一帖; (2) 在图像中画一恰好将目标包围的矩形框,作为目标框; (3) 对视频帖图像进行灰度化处理; (4) 提取目标框的局部哈希特征,并对特征进行为运算化处理; (5) 读取视频下一帖,并采用同步骤(3)同样的方式对图像进行灰度化处理; (6) 在当前帖中,采用倒金字塔候选框捜索方法在上一帖目标相同位置附近获取候选 框; (7) 采用同步骤(4)相同的方式,提取所有候选框的局部哈希特征; (8) 计算所有候选框同上一帖目标框的相似度,选取相似度最大的候选框作为新的目 标框,并重复步骤(5)~(7 ),直至视频结束。2. 如权利要求1所述的方法,其特征在于,所述步骤(4)中提取目标框的局部哈希特征 具体为:在原目标图像中提取出多个大小为8*8的局部子图像块,分别对每个子图像块提取 感知哈希特征,得到局部哈希特征。3. 如权利要求1或2所述的方法,其特征在于,所述步骤(4)中对特征进行为运算化处理 具体为:将每个局部哈希特征矩阵按行序排列成一个长度为64的向量。4. 如权利要求1或2所述的方法,其特征在于,所述步骤(6)中倒金字塔候选框捜索方法 具体为目标的左上角为中屯、,由内向外构造不同面积、互不重叠的矩形或矩形环区域, 作为待捜索区域,且在不同捜索区域捜索时,其捜索步长也因区域离中屯、点的距离大小而 变化。5. 如权利要求4所述的方法,其特征在于,在捜索区域中: 沿X方向的捜索迭代公式:上式中,i代表所在区,i = 1,2,3。致巧(瑞;,斯和汾巧(0,诚^,)分别表示沿X和y方向的迭代 步长。6. 如权利要求1或2所述的方法,其特征在于,在所述步骤(8)中采用汉明距离作为局部 哈希特征的度量方式。7. 如权利要求6所述的方法,其特征在于,候选框与目标框整体的相似度S为:其中m为子图像块的个数,Si为候选框与目标框的子图像块的相似度。8. 如权利要求2所述的方法,其特征在于,对于大小为W · h的图像,一共可获取子图像 块的个数为:其中,a为每次平移的步长,[·]为取整符号。9. 如权利要求5所述的方法,其特征在于,10. 如权利要求2所述的方法,其特征在于,感知哈希特征的提取方法如下:其中,式中P(x,y)表示原图在点(x,y)处的像素值,S(x,y)表示哈 希特征在点(x,y)处的结果值,W表示图像的宽度,h表示图像的高度。
【文档编号】G06T7/20GK105844669SQ201610182089
【公开日】2016年8月10日
【申请日】2016年3月28日
【发明人】韩守东, 陈永志, 刘甜甜, 陈阳
【申请人】华中科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1