一种基于不规则目标边界对象的浓缩视频构建方法与流程

文档序号：13663175阅读：172来源：国知局

本发明涉及一种基于不规则目标边界对象的浓缩视频构建方法，属于数字视频技术领域。

背景技术：

随着全程数字化、网络化的视频监控系统的发展，视频监控的作用变得愈发明显，其高度的开发性、集成性和灵活性，为整个安防产业的发展提供了更加广阔的发展空间，智能视频监控由于赋予更多的智能化、主动化、有效性等特点，成为新一代视频监控趋势。智能视频监控系统的需求主要来自于那些对安全要求敏感的场合，如军队、公安、银行、道路、停车场等。当盗窃发生或异常发生时，该类系统能够主动向保卫人员及时准确地发出警报，使工作人员能够充分利用视频监控网络实施报警联动和应急指挥处置，从而避免犯罪的发生。同时也减少了雇佣大批监视人员的投入。

视频摘要是对一长段视频内容的简短总结。其主要作用是便于存储和视频的浏览或查找，相对于原始的视频资料，视频摘要的长度要短很多，节省了存储时间和空间。视频摘要保留了原内容的要点，所以对于用户来说，浏览或者查找视频摘要比浏览原始视频要节省时间。初始的视频摘要技术摘取原始视频中的关键帧组成，后来研究者开始进入到目标层次，允许组合不同时间点出现的目标摘要到同一个画面中从而进一步提高摘要效率(为了与传统的视频摘要区分，这种方式被称为视频浓缩)。

视频摘要和视频浓缩的过程，一般分为以下几个步骤：(1)目标检测；(2)目标跟踪；(3)摘要/浓缩视频生成。

目标检测过程，在视频中的每一帧执行，检测出该帧上出现的所有目标。目标一般都具有一个完全不规则的边界，但是由于不规则的目标边界不利于相关算法的执行，在传统的做法中，一般都用一个完全包含该目标的矩形框来表征该目标，如图1a中的矩形框所示；目标跟踪过程，把所有帧中检测出来的目标相互关联，同一个目标在不同帧中的出现被串成目标的运动轨迹；摘要/浓缩视频的生成过程，就是把所有这些目标的运动轨迹在尽可能短的视频内完整表现出来，区别在于摘要视频要求各运动目标之间的时间顺序不可打乱而浓缩视频则允许打乱各运动目标之间的时间顺序。如图1b所示是浓缩视频中的一帧，其上除了图1a中的所有目标以外，还出现了在原始视频中跟图1a中的目标不在同一时刻出现的其它目标。

由于监控视频的海量特性，视频的摘要和浓缩，在监控视频领域有广泛的使用需求。但现阶段，视频的摘要和浓缩，仍然存在着明显的不足。针对相对热闹区域的监控视频，几乎每一帧中都存在着运动目标，摘要视频又不能改变目标之间的时间顺序，因此采用摘要视频很难达到加速浏览、降低存储的效果，因此我们把重点放在浓缩视频的研究上。

视频浓缩，现阶段同样存在着很多不足：(1)目标检测的检出率和正确率仍难以达到完美；(2)目标跟踪过程有时出现跟丢、跟错的问题；(3)浓缩视频的结果可能会出现局部色调差异。以下逐一说明这几个问题。

目标检测，一般有两个方法：运动目标检测和基于目标识别的检测，不管采用哪种方案，目前的检出率和正确率都难以达到完美的程度，这方面的研究很多，最近也取得了重要的进展，但这不是本专利所关心的部分。

目标跟踪过程，常常会出现跟丢、跟错的问题，这跟我们用矩形框来表示一个目标具有直接的联系。在图1a中，左边的矩形框描述了一个行人目标，在跟踪过程中，我们把这个矩形框中的内容当作行人与下一个出现的帧去比较、匹配，这个过程在逻辑上是存在着很大的隐患的：由于矩形框中的内容，实际上是由两部分组成的，一部分是它所代表的行人，另一部分却是背景；跟踪过程中的匹配，在行人下一次出现的时候，行人还是行人，这一点没有变，然后背景却是可以彻底改变的，由于矩形框中的背景部分往往会占了矩形框中的很大一部分比例，在目标跟踪过程中，背景的变化会极大程度上的干扰匹配，产生跟丢、跟错的问题。

在监控视频浓缩策略中，我们的一个基本假设是监控视频中的背景短期内保持静止不变，实际应用中由于光照变化、拍摄技术条件等，视频背景实际会产生微小的差异，尤其是表现在亮度方面，只不过在连续播放过程中，用户很难发现这一细微的变化。但是在视频浓缩这一操作中，这一细微变化却会被体现出来：比如浓缩结果中，第10帧的某个目标被贴到第100帧的背景上，这是目标矩形框内的背景部分仍然是第10帧的背景，目标矩形框之外则是第100帧的背景，当这两帧的背景被放到一起去直接比较的时候，非常细微的亮度差异很轻易地就被用户察觉了，这是基于人眼对亮度差异的敏感度远远高于对亮度值本身的敏感度这一生理现象。目标跟踪的不准确和浓缩视频结果中的局部色调差异问题，这都是直接有以矩形框来表征目标而引起的，要想解决这两个问题，必须从根源上出发。

技术实现要素：

本发明所要解决的技术问题是提供一种针对目标对象，引入不规则目标边界定义，能够有效提高浓缩视频构建效率的基于不规则目标边界对象的浓缩视频构建方法。

本发明为了解决上述技术问题采用以下技术方案：本发明设计了一种基于不规则目标边界对象的浓缩视频构建方法，用于针对固定角度摄像装置所获视频流，构建浓缩视频，包括如下步骤：

步骤a.将视频流中第一帧图像初始定义为当前背景模型，并初始化参数n＝2，然后进入步骤b；

步骤b.基于当前背景模型，提取视频流中第n帧图像的前景区域fn，并提取第n帧图像前景区域fn中的各个潜在运动区域，构建第n帧图像前景潜在运动区域集合sn，然后进入步骤c；

步骤c.检测获得第n帧图像前景潜在运动区域集合sn中的各个矩形目标运动区域，并分别针对该各个矩形目标运动区域，构建获得矩形目标运动区域中的不规则目标边界对象，作为该矩形目标运动区域中的目标对象，进而获得第n帧图像中的各个目标对象，构建第n帧图像所对应的目标对象集合on；然后进入步骤d；

步骤d.根据β＝n-2，判断β是否等于0，是则进入步骤j；否则进入步骤e；

步骤e.判断β是否小于预设向前检测跟踪帧数α，是则进入步骤f；否则进入步骤g；其中，1≤α≤(n-2)，n表示视频流中的帧数，n＞2；

步骤f.将第n-1帧图像至第n-β帧图像中的各帧图像，作为本次循环中的各帧待处理图像，然后进入步骤h；

步骤g.将第n-1帧图像至第n-α帧图像中的各帧图像，作为本次循环中的各帧待处理图像，然后进入步骤h；

步骤h.针对所有待处理图像所对应目标对象集合中的所有目标对象，在第n帧图像中进行跟踪，若目标跟踪均不成功，则进入步骤j；否则将由待处理图像跟踪到第n帧图像的各个目标对象，加入到第n帧图像所对应的目标对象集合on当中，针对on进行更新，然后进入步骤i；

步骤i.针对第n帧图像所对应目标对象集合on中的各个目标对象，将同一目标对象进行合并，更新第n帧图像所对应目标对象集合on，然后返回步骤j；

步骤j根据第n帧图像的前景区域fn、前景潜在运动区域集合sn和目标对象集合on，获得第n帧图像的背景区域，并采用该背景区域更新当前背景模型，然后进入步骤k；

步骤k.判断n是否等于n，是则进入步骤l；否则针对n的值进行加1更新，然后返回步骤b；

步骤l.针对视频流各帧图像分别所对应目标对象集合当中的所有目标对象，按照预设浓缩视频策略进行重排，并根据重排后的顺序，将各个目标对象依次置于指定帧图像上，构建浓缩视频。

作为本发明的一种优选技术方案：所述步骤c中，分别针对各个矩形目标运动区域，按照如下设计，构建获得矩形目标运动区域中的不规则目标边界对象；

定义矩形目标运动区域的四条边框位置；然后定义与矩形目标运动区域大小相同的数组，并基于矩形目标运动区域的四条边框位置，由数组中的元素值区分判断矩形目标运动区域中各像素点属于目标对象区域或背景区域；最后通过矩形目标运动区域中对应于目标对象区域的各个像素点，获得矩形目标运动区域中的不规则目标边界对象。

作为本发明的一种优选技术方案：所述步骤b中，由第n帧图像的前景区域fn，采用形态学操作方法，提取第n帧图像前景区域fn中的各个潜在运动区域，构建第n帧图像前景潜在运动区域集合sn。

本发明所述一种基于不规则目标边界对象的浓缩视频构建方法的应用系统，采用以上技术方案与现有技术相比，具有以下技术效果：本发明所设计基于不规则目标边界对象的浓缩视频构建方法，把监控视频中的目标抽取出来，并以方便快速高效浏览的方式重新安排显示于固定背景图片上的方法，对原始视频中检测出的目标采用不规则边界的表示形式，而不是采用传统的矩形框表示形式。使得浓缩系统的目标跟踪准确率获得大幅度提升，浓缩视频的整体融合效果大幅度提升，并且获得这些收益，并不需要明显的增加系统负担。

附图说明

图1a是现有技术矩形框表征目标对象示意图；

图1b是浓缩视频中的一帧示意图；

图2a是实施例监控视频内的一帧图像；

图2b是基于背景法针对图2a所示图像获得的潜在运动区域示意图。

具体实施方式

下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。

为了解决目标跟踪的不准确和浓缩视频结果中的局部色调差异这两个重要问题，我们采用不规则目标边界的方法，设计把目标的定义调整为：

left,top,right,bottom这四个属性定义了目标所在矩形框，*mask是一个与矩形框大小相同的数组，数组中的值指的是矩形框内对应位置的点是属于目标，还是背景，通过这两者结合，定义了不规则边界的目标。

围绕这一底层定义的变化，相关的算法调整包括以下几个方面：

(1)目标的确定

目标检测一般有两种方法：运动目标检测和基于目标识别的检测；基于目标识别的检测，它是用一个矩形浮动窗口在当前帧浮动，利用识别算法判断每一个当前窗口位置是不是一个目标，如果是，则作为目标检测的一个结果，由于浮动窗口一般只能是矩形，这个方法检测目标无法提供目标的不规则边界信息。

获取目标的不规则边界信息，只能借助于运动目标检测；运动目标检测的常用方法主要有：帧差法，光流法，背景差法。由于监控视频一般场景较为固定，因此背景差法是一个不错的选择。

背景差法的主要思路是，将输入图像与背景模型进行比较，通过判定灰度特征的变化来判定运动的潜在发生。其一般分为三个步骤：首先，建立背景模型；其次对每一帧图像，将它与背景模型进行比较，找出潜在的存在运动目标的区域；最后对每一帧图像比较结束后，要进行背景模型的更新，以引入当前帧对背景模型的影响。背景模型的建立，可以采用自适应的方法，对图像序列加权平均，生成一个近似背景。

如图2a所示监控视频内的一帧图像，如图2b为基于背景法获得的潜在运动区域。

经过形态学等一系列图像处理，可以得到一定尺寸的矩形目标区域，这就是运动目标检测的结果。从图2b可以看出，运动目标检测是具有一定的目标边界形状的，虽然不精确。而事实上，我们也不一定需要非常精确的目标边界。

基于以上分析，我们采用运动目标分析的结果来确定目标边界：运动目标矩形框确定了structobject中的目标矩形框属性(left,top,right,bottom)，而如图2b中右边部分的前景/背景分割图确定了在矩形框内部的前景/背景标志(*mask)。

(2)目标跟踪算法的调整

目标跟踪，简单来说就是，通过比较前一帧中的目标object1和后一帧中的目标object2，判断这两个是不是同一个目标。

当我们使用矩形框来表示目标的时候，由于矩形框内的背景部分也参与比较，跟踪的准确率大幅度下降。而采用任意边界的目标structobject，我们能做到只比较object1和object2中的前景部分而无视背景，这样，跟踪的准确率获得了显著提升。

(3)浓缩视频形成策略的调整

浓缩视频中，视频中所有目标被以一种更加效率的方式重新组合，并统一在背景图上显示。这些重新组合的算法不是我们关注的重点，我们关注的是从原始视频不同位置抠取的目标，在固定的背景图片上进行显示的问题。

背景图片在一段时间内是固定不变的，它由背景建模算法中的背景模型提供。监控视频中的背景是基本固定不变的，但是，在不同的时间点，其整体亮度还是有极大可能会有一个浮动值，在浏览原始视频的时候，人眼其实比较难以发现这种变化，但是当直接把不同时间点的两张图拼在一起的时候，这种变化就会变得比较抢眼，这是基于人眼视觉的一个特性：相较于对亮度的敏感度，人眼对亮度差异的敏感度要高得多。

以一个相对通俗的方式来描述这个问题，假设背景图片是从第100帧提取的，而目标是从第500帧提取的，现在把目标贴到背景图片上(第100帧和第500帧的整体亮度略有差异)。如果目标仍然是一个矩形框，那么目标贴到背景图片上后会发现，目标矩形框内的背景部分与矩形框外的背景之间形成了一个明显的亮度边界，两边的亮度差异(实际是第100帧和第500帧的整体亮度差异)能被人眼察觉。

在采用不规则目标边界的情况下，这种问题却能够得到很好的缓解：由于structobject对矩形框内的点进行了背景/前景区分，对矩形框内的背景部分，我们采用背景图片，只有矩形框内的前景部分，才采用目标图片。由于目标和背景之间本来就有一个明显的边界，整体亮度的差异又一次被目标边界给掩盖了，而不会像采用矩形框作为目标边界的时候那样，凭空产生一个亮度边界来。

基于上述分析设计，本发明具体设计了一种基于不规则目标边界对象的浓缩视频构建方法，用于针对固定角度摄像装置所获视频流，构建浓缩视频，实际应用中，具体包括如下步骤：

步骤a.将视频流中第一帧图像初始定义为当前背景模型，并初始化参数n＝2，然后进入步骤b。

步骤b.基于当前背景模型，提取视频流中第n帧图像的前景区域fn，并采用形态学操作方法，提取第n帧图像前景区域fn中的各个潜在运动区域，构建第n帧图像前景潜在运动区域集合sn，然后进入步骤c。

步骤c.检测获得第n帧图像前景潜在运动区域集合sn中的各个矩形目标运动区域，并分别针对该各个矩形目标运动区域，构建获得矩形目标运动区域中的不规则目标边界对象，作为该矩形目标运动区域中的目标对象，进而获得第n帧图像中的各个目标对象，构建第n帧图像所对应的目标对象集合on；然后进入步骤d。

上述步骤c中，分别针对各个矩形目标运动区域，按照如下设计，构建获得矩形目标运动区域中的不规则目标边界对象。

如structobject所示，定义矩形目标运动区域的四条边框位置；然后定义与矩形目标运动区域大小相同的数组，并基于矩形目标运动区域的四条边框位置，由数组中的元素值区分判断矩形目标运动区域中各像素点属于目标对象区域或背景区域；最后通过矩形目标运动区域中对应于目标对象区域的各个像素点，获得矩形目标运动区域中的不规则目标边界对象。

步骤d.根据β＝n-2，判断β是否等于0，是则进入步骤j；否则进入步骤e。

步骤e.判断β是否小于预设向前检测跟踪帧数α，是则进入步骤f；否则进入步骤g；其中，1≤α≤(n-2)，n表示视频流中的帧数，n＞2。

步骤f.将第n-1帧图像至第n-β帧图像中的各帧图像，作为本次循环中的各帧待处理图像，然后进入步骤h。

步骤g.将第n-1帧图像至第n-α帧图像中的各帧图像，作为本次循环中的各帧待处理图像，然后进入步骤h。

步骤h.针对所有待处理图像所对应目标对象集合中的所有目标对象，在第n帧图像中进行跟踪，若目标跟踪均不成功，则进入步骤j；否则将由待处理图像跟踪到第n帧图像的各个目标对象，加入到第n帧图像所对应的目标对象集合on当中，针对on进行更新，然后进入步骤i。

步骤i.针对第n帧图像所对应目标对象集合on中的各个目标对象，将同一目标对象进行合并，更新第n帧图像所对应目标对象集合on，然后返回步骤j。

步骤j根据第n帧图像的前景区域fn、前景潜在运动区域集合sn和目标对象集合on，获得第n帧图像的背景区域，并采用该背景区域更新当前背景模型，然后进入步骤k。

步骤k.判断n是否等于n，是则进入步骤l；否则针对n的值进行加1更新，然后返回步骤b。

上述技术方案所设计一种基于不规则目标边界对象的浓缩视频构建方法，把监控视频中的目标抽取出来，并以方便快速高效浏览的方式重新安排显示于固定背景图片上的方法，对原始视频中检测出的目标采用不规则边界的表示形式，而不是采用传统的矩形框表示形式。使得浓缩系统的目标跟踪准确率获得大幅度提升，浓缩视频的整体融合效果大幅度提升，并且获得这些收益，并不需要明显的增加系统负担。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变动。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：顾晓东;马小骏
技术所有人：江苏东大金智信息系统有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。