一种基于视频压缩域的目标跟踪技术的制作方法

文档序号：14776780发布日期：2018-06-23 03:38阅读：130来源：国知局

导航： X技术> 最新专利>电子通信装置的制造及其应用技术

本发明涉及一种基于视频压缩域的目标跟踪的技术。

背景技术：

随着物联网的发展与普及，目标物体跟踪技术作为其中一门关键技术，融合了图像处理、模式识别、目标检测、人工智能、自动控制等计算机领域的前沿技术，在军事侦察、视频监控、交通管理、医疗诊断、自主导航、气象探测等领域发挥重要作用。

目标跟踪属于视频与图像处理范畴，常用的目标跟踪技术主要建立在图像原码的基础上，随着视频压缩传输技术尤其是H.26x的发展，最近几年，也有一些目标跟踪技术建立在视频压缩领域。

一个完整的目标跟踪信息链包括：图像信息的感知或探测、预处理、压缩、存储、传输、复原、信息提取(融合、分离、增强等)、应用。

根据目标跟踪算法所使用的阶段可分为：

1、基于图像原码的目标跟踪技术，在预处理阶段或复原后阶段进行目标跟踪算法研究。

2、基于视频压缩域的目标跟踪技术，在压缩之后，复原之前进行目标跟踪算法研究。

基于图像原码的目标跟踪技术，如：OAB、IVT、MIL、CT、TCD、Struck等技术，优势在于所使用的图像信息最为全面，可以使用的数学工具众多，得到的目标检测追踪效果良好。但缺点也十分明显：

1、对于图像原码的处理致使数据处理量庞大，对硬件资源的要求较高。运行时所占用的计算资源高，对于处理高分辨率或多路视频输入时，计算资源就会变的捉襟见肘。

2、实时性较差，在图像原码的基础上处理数据需要耗费大量的时间。

基于视频压缩域的目标跟踪技术，如：一种基于H.264/AVC压缩域的运动目标跟踪的方法(CN104683802A)、Real-time moving object detection and segmentation inH.264video streams、Tracking ofextended size targets inH.264compressedvideo usingtheprobabilistic data association filter、基于H.264压缩与的运动目标检测算法(电子科技2010年第23卷7 期)、基于H.264/AVC压缩域的视频运动目标检测(国防科技大学张文琪硕士论文)等所提出的技术方案。优势在于建立在视频压缩域，使用了在视频压缩时产生的有益信息，使得计算量大幅减小，对于硬件资源的需求相对于技术原码的技术方案大幅下降，计算效率高。由梁久祯、徐永存；武智霞、王化、王沛；Krishna Reddy Konda、Yonas Teodros Tefera、 Nicola Conci、Francesco G.B.De Natale；Vimal Thilak、Charles D.Creusere；等人在专利及该领域内论文所提出的技术方案可知，利用视频压缩技术过程中产生的运动矢量、DCT系数、等有益信息，将图像分为背景及运动物体两个部分，技术方案着重于如何利用这些有益信息，检测图像背景与运动物体，并且尽可能准确的描述运动物体所在图像坐标以及运动物体的轮廓。但目前的技术方案缺点也十分显著：

1、静止目标丢失。当运动目标由运动状态转为静止状态，运动矢量大小接近于零，当前技术方案会将运动目标规划为图像背景从而丢失目标。

2、运动目标在视频帧中的前后关联性差。当前技术方案目的在于检测当前图像中的运动像素块，无法建立目标像素块的前后关联。即当前技术方案可以检测出当前图像中的运动物体，但无法确定哪个运动物体是目前所要追踪的目标。虽然也有人提出建立所有运动像素块的运动曲线模型，但在实际场景下，物体的运动轨迹通常是无法预测的，具有很强的随机特性，所以类似的技术方案是不可用的。

3、抗干扰性差。在实际应用中由于摄像头的抖动或移动，致使整幅图像的背景发生相对移动，整幅图像会产生繁多的运动矢量，即使进行抗噪性处理，也无法避免非目标物体运动矢量的大量出现，导致无法识别运动目标或识别能力差。

4、应用范围理想化。当前技术所建立的基础是背景图像在完全静止或个别像素块微弱位移的基础上，当背景图像呈现动态，则当前图像会产生大量的运动矢量，且运动矢量杂乱无规律，无法通过统计学原理进行滤波，因此无法得到准确获取运动目标。

因此当前基于视频压缩领域的运动目标跟踪技术，应用范围有限，虽然在一定程度上解决了由于计算资源有限带来的问题，但距离实际情况下的目标跟踪还有不少问题。所以当前技术方案的应用领域着重于监控系统，判断所在监控范围内是否存在运动物体，在非监控系统应用领域，由于上述问题，当前技术方案并不适用。

技术实现要素：

为了解决在压缩域实现目标跟踪的技术问题，避免其它专利方案中导致的静止目标丢失、运动目标在视频帧中的前后关联性差、抗干扰性差、应用范围理想化等诸多技术问题, 本发明提出一种基于视频压缩域内完成目标跟踪的技术。该技术与目标所在背景是否为动态或静态无关，从目标出发建立前后帧中目标所在位置强关联区域，并忽略目标所在像素区域之外的其它像素块。解码帧中参照参考帧队列中的目标所在像素区进行解码的宏块包含了目标在解码帧中的像素块，并形成运动矢量集合，通过中值法或Meanshift算法进一步优化目标矢量集合，去除在解码时由于非目标像素块参考参考帧中目标像素块而引起的噪声运动适量，得到解码帧的目标识别区。通过建立目标候选区队列，解决多参考帧技术的应用如图1 所示。保存解码帧的目标识别区的大小与位置至目标候选区队列，以保证完整找出后续解码帧中的目标像素块。本技术方案简单、高效、精度高、适用范围广、计算量小，十分符合在嵌入式、机器人、多通路目标跟踪等领域内使用。本发明所用编码模型为IPPP....或 IPPBPPB...等参考模型，在这类模型中I帧为编码起始帧，后续编码帧均为P帧或B帧，不包含SI帧及SP帧。

本发明的目的是提供一种在视频压缩域内完成目标跟踪的技术。在充分利用编解码过程中所产生的有益信息的同时减小目标的搜索空间、降低计算资源的使用量。

为了实现上述目的，采用以下技术方案：一种在视频压缩域的目标跟踪技术，其特征在于：

一、获取视频图像编码后的码流文件，并获取有益信息，有益信息包括：

1、当前帧在码流中的序列号如图2所示，其中C表示当前帧在码流中的序列号。

2、解码子块所采用的参考图像序列号如图2所示，其中R表示解码子块所采用的参考图像序列号。

3、解码子块相对于参考块的运动矢量如图2所示，其中mv为解码子块相对于参考块的运动矢量。

4、当前帧中宏块的编号。图3表示了宏块与子块的关系，其中n表示前帧中宏块的编号，m为子块的编号。

5、当前宏块中子块的编号如图2所示，其中A表示当前宏块中当前子块编号，P表示当前子块所采用的参考帧子块编号，P′表示P子块对应在当前帧中的编号。

6、当前码流视频图像的大小。

二、获取目标所在帧中的位置及选区大小，并调用目标跟踪算法进行目标的跟踪，其中目标跟踪算法的流程图如图4所示，步骤解释如下：

1、建立候选帧序列，并开辟存储空间candidate_list[num][(X，Y，x，y)]。候选帧序列 candidate_list[][]用于存储目标所在帧在视频序列中的编号num以及目标在所在帧中的位置及选区大小(X，Y，x，y)如图5中B所示。

2、输入目标所在帧中的位置及选区大小(X，Y，x，y)，以及所在帧的视频序列编号num 并保存于候选帧序列。目标所在帧中的位置及选区大小(X，Y，x，y)可由手动选择输入或者算法提取。

3、获取当前检测帧子块的参考序列号num′。当前检测帧的参考序列号是从码流文件中提取的有益信息2。

4、判断当前检测帧子块的参考帧序列号是否存在于候选帧序列candidate_list[][]。即候选帧序列中的目标所在帧在视频序列中的编号num是否包含了当前检测帧子块的参考图像序号num′。如果不包含，则退出本次检测，进行下一个子块的检测。如果包含则进行第5 步。

5、获取码流文件中当前子块的运动矢量。子块的运动矢量是从码流文件中提取的有益信息3。

6、计算当前子块在编码预测时所用参考帧子块的所在位置(X1，Y1)。由第4步保证当前子块所用参考帧序号num′在候选序列内。如图5，即由A和mv计算出P的所在位置。

7、判断第6步中的(X1，Y1)是否在num′所对应的(X，Y，x，y)内。如果在内，则执行第8 步，如果不在内，则退出本次检测，并开始下一子块的检测。如图5，即判断P是否在B的范围内。

8、保存当前子块在当前解码帧的位置坐标(m，n)到计算缓冲区buffer[(m，n)]内，同时保存当前子块的mv到运动矢量缓冲区mv_buffer[]内，此时buffer[(m，n)]内的每个子块的坐标(m，n)对应mv_buffer[]内的一个mv。

9、检测当前子块是否为当前检测帧的最后一个宏块中的最后一个子块，如果是，则进行第10步计算，如果不是，则退出本次检测，并开始下一子块的检测。

10、通过中值法、meanshift等算法，去除由于参照参考帧中目标像素块而得到的非目标像素块，这些算法的作用域为mv_buffer[]，由编码时的运动估计可知，编码块会搜索参考帧中的最优匹配像素块，对于目标来说，它的最优匹配像素块为目标在参考帧中的像素块，因此最优情况下，mv_bttffer[]中的运动矢量，大小和方向会在很小的范围W内波动，但在实际情况下由于噪声矢量的存在，会有一些运动矢量偏离这个范围，因此通过中值法、 Manshift算法可将这些噪声矢量去除，并得出当前检测帧的目标识别区域(X，Y，x，y)，关于这些算法的应用方法细节在本流程结束之后进行介绍。

11、开始下一帧目标检测，跳至步骤3。

12、保存当前帧在视频序列中的编号num以及当前帧的目标识别区域(X，Y，x，y)到候选帧序列candidate_list[][]，其中当前帧在视频序列中的编号num是从码流文件中提取的有益信息1。

13、输出当前帧图像的目标识别区域(X，Y，x，y)。

下面对步骤10做详细介绍，此步骤是决定目标跟踪质量最重要的一个环节，由以上步骤可知，在buffer[(m，n)]与mv_bttffer[]中分别存储着解码帧中目标像素块位置及噪声像素块位置和解码块中目标像素块运动矢量及噪声像素块运动矢量。本步骤的关键在于通过计算得到目标识别区域运动方向、移动距离以及目标识别区大小。采用本步骤得到的识别区允许包含一定量的非目标像素块，但在识别区中目标像素块的数量要远大于非目标像素块，具有一定的容噪能力如图6所示，在参考帧中黑色标识框内灰色像素块表示目标，白色为噪声像素块。

容噪能力：当非目标像素的运动矢量方向与大小在W范围内，则此噪声不会对目标识别区造成影响；当非目标像素的运动矢量方向与大小不在W范围内，通过算法可将噪声矢量相对应的像素块去除。如图6所示，在解码帧中，浅灰色表示噪声像素块，深灰色表示目标像素块。可直观的看出在视频编码时，采用参考帧目标识别区内的像素块进行运动估计而产生的噪声矢量，在大小、方向上与目标矢量有明显差距，不在W范围内，应将其通过算法排除。噪声像素块1在参照参考帧中目标识别区所形成的运动矢量大小与方向在W 内，并不影响目标识别，因此不必去除。

中值法：(其中i∈(1，2，3，4，5......))。

1、已知mv_buffer[]中存储的运动矢量集合(xi，yi)，将xi按大小进行升序或者降序排列，取xi的中值xn为目标识别区在x方向的运动方向及大小；将yi按大小进行升序或者降序排列，取yi的中值yn为目标识别区在y方向的运动方向及大小。

2、将主参考帧中的目标区域(X，Y，x，y)按照矢量(xn，yn)移动形成目标识别区1。

3、由于xn，yn约等于目标像素块的运动矢量均值(噪声矢量除外)，求出每个运动矢量的距离dxi＝||xi|-|xn||及dyi＝||yi|-|yn||，然后分别建立以步长为1的 dxi与dyi直方图，统计各个直方图每个竖条中点dxi、dyi的个数，并求其在对应直方图在所有点中的占比，然后去除占比低于4％的直方图竖条所对应buffer[(m，n)]中的像素块。然后得到包含buffer[(m，n)]中像素块的最小识别区2。

4、由目标识别区1与最小识别区2所形成的公共区域，便为本解码帧的目标识别区。

Meanshfit算法：(其中i∈(1，2，3，4，5.....))。

Meanshfit算法是一中应用十分成熟的无参密度估计算法，一般用于聚类、图像分割、目标跟踪等。本步骤采用Meanshfit算法的目的是找出解码帧矢量场的矢量均值质心。

1、已知mv_buffer[]中存储的运动矢量集合(xi，yi)，运动矢量集合中的每个矢量对应二维平面笛卡尔坐标系中的一个点。Meanshfit算法如下：

其中

mh(x)为一次迭代后新的圆心坐标，x为本次计算的圆心坐标，G(x)为轮廓函数与核函数G(x)的关系为G(x)＝cg，dg(||x||²)(cg，d为标准化常量为正)，h为圆的半径，xi为圆内其它的样本点。

2、随机选取mv_buffer[]内的一个矢量做为圆心，h为上一帧目标的候选框内切圆半径，根据大数定律，我们选取高斯函数作为核函数G(x)，求得g(x)。设定mh，G＜ε，∈为一个极小值，建议设为0～0.5即小于半个像素值，也可根据自己的需要进行修改。

3、做第一次迭代，当不满足mh，G＜ε时，令mh(x)赋值给x,并进行下一次迭代，直到条件满足。

4、将主参考帧中的目标识别区域(X，Y，x，y)按照矢量x移动，形成目标识别区1。

5、此时的x为当前矢量场质心，以x矢量对应的像素块为中心，以参考帧候选框为大小，去除候选框以外的噪声矢量，及对应buffer[(m，n)]中的像素块，其余像素块构成最小识别区2。

6、由目标识别区1与最小识别区2所形成的公共区域，便为本解码帧的目标识别区。

这两种算法各有优缺点，Meanshfit算法比中值法精度高、效率低，可根据自己的硬件条件选取适合的算法。

本发明带来的显著有益效果是，在视频压缩域的基础上，实现了对目标的追踪，解决了现有在压缩领域内实现目标跟踪技术的静止目标丢失、运动目标在视频帧中的前后关联性差、抗干扰性差、应用范围理想化等技术问题。利用视频编解码技术产生的众多对目标跟踪的有益信息，使得原本在目标追踪方案下需要处理的数据量得到了大幅下降。

本发明通过设定目标在视频图像序列的候选区，直接求得了与目标像素点相关的其他视频图像帧中所包含的目标像素点区域，这一技术方案，使得不论在哪一帧图像中，只关注目标像素区，忽略图像背景，大大扩展了技术的应用范围。通过建立前后帧目标像素区的强关联，又进一步增加了视频图像目标点的搜索效率，降低了计算量，减小了计算资源的消耗。

本发明带来的直接有益效果是：

1、在后端，低资源配置的计算机实现多路视频流的多目标跟踪方案。

2、在前端，低资源配置的视频采集处理单元直接实现目标跟踪方案。

视频图像的目标跟踪技术的计算量过于庞大一直是计算领域的一大难题，本发明很好的解决了传统目标跟踪技术所面临的由于计算资源短缺导致的技术方案造价高、技术方案实时性差的窘境。而目前所用的通过前端视频图像采集、压缩回传、后端运算、将结果传回前端的技术方案也是传统技术方案下计算资源短缺、技术方案的计算量过大而导致的，本发明可很好的解决此类突出问题。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王灏;张腾云
技术所有人：王灏;张腾云
我是此专利的发明人

上一篇：流媒体播放方法及系统与流程
上一篇：一种Bayer图像压缩方法及装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。