一种视频的稀疏检测方法与流程

文档序号:18872813发布日期:2019-10-14 19:56阅读:303来源:国知局
一种视频的稀疏检测方法与流程

本发明涉及目标识别、目标提取技术领域,尤其涉及一种视频的稀疏检测方法。



背景技术:

在各类大数据中,图像视频是“体量最大的大数据”。据思科统计,视频内容约占互联网总流量的90%;而在迅速发展的移动网络中,视频流量的比例也高达64%,并以超过130%的年复合增长率增长。可见,图像视频数据在大数据中占据着主导地位,因此图像视频的处理是大数据应用的关键所在。而且,相对于文本、语音等数据,图像视频的数据量更大、维度更高,其表达、处理、传输和利用的技术挑战性更大。所以将计算机视觉技术融入视频数据处理系统,例如电影、电视以及视频监控等场景的数据处理,是未来发展的必然趋势,实现对视频流进行图像处理、目标分析等工作,判断目标的动作,自动检测、跟踪目标并进行相关的记录,给予视频数据处理系统智能性。

在视频数据处理系统中,视频检测是一项关键且基础的技术。但视频检测任务的处理速度和计算开销一直是计算机视觉领域面临的重要挑战之一。尤其是在智能视频监控系统中,往往通过对运动目标(背景建模类)或特定目标(对象建模类)的检测算法,不断地在视频帧内和帧间搜索并扫描感兴趣的目标区域(roi),从而实现在自然场景中对目标的定位、识别、行为分析等智能应用。同时,在视频监控系统中,需要在采集端设备(如智能摄像头)上进行运动目标的检测与区域分割运算,从而提取出视频中的关键信息(运动目标区域),以实现降低传输流量并对接后续智能分析应用的目标。然而,受限于体积、功耗和成本的约束,视频监控采集端设备能够提供的计算资源是非常有限的,对视频进行实时计算压力非常大。

目前的目标检测算法可以分为基于目标建模的检测方法和基于背景建模的检测方法。其中,随着深度卷积神经网络(cnn)和目标检测框架日趋成熟,基于目标建模的检测方法近年来发展迅速。例如,r-cnn和后续的研究等前沿的目标检测架构能够从图像区域中提取深层卷积特征,并进行目标区域的框选和分类。如今,目标检测逐渐从静态图像领域进入视频检测领域。然而,目前的检测架构都是面向静态图像检测设计的,将面向图像的目标检测算法直接用于视频检测,会出现目标检测区域陡变等问题,准确率并不理想。

在视频序列中,运动目标在时空维度体现出很强的相关性,因此帧间的目标区域应当连续且稳定,但大多是以提高视频检测的准确率为目标。对于视频检测来说,传统的处理架构是逐帧检测,这种检测方式可以称为密集视频检测。视频序列中目标在连续帧间体现出较强的时空连续性,因此,可以跳过部分相似帧,对关键帧进行检测,即稀疏视频检测。基于这一思路,斯坦福大学提出了noscope系统,noscope系统针对不同场景训练了轻量化的cnn网络,同时对相邻视频帧之间的相似性分析,通过跳帧检测的方式实现了较高的处理速度。然而,noscope对于被跳过的视频帧的处理方式过于极端,被跳过的视频帧直接沿用了前帧的目标检测框对当前帧的目标进行标记,这样会导致关键信息的丢失。

其中,光流法由于计算量较大,难以达到实时性,而且噪声、多光源、阴影和遮挡等因素都会对光流场分布的计算结果造成严重影响,同时稀疏的光流场很难精确提取运动目标的形状,所以很难在有限计算资源的条件下达到较好的检测结果和吞吐量;深度卷积神经网络(cnn)能够在视频目标检测上达到较好的结果,但深度卷积神经网络(cnn)多是面向静态图像检测设计的,将面向图像的目标检测算法直接用于视频检测,会出现目标检测区域陡变等问题,而且该方法是逐帧检测的方法,无法充分利用视频序列中目标在连续帧间的时空连续性,从而大大地增加了不必要的资源消耗。同时,深度卷积神经网络(cnn)方法必须是有监督的目标检测,若视频中出现cnn训练阶段未出现的目标物体时,cnn将无法正确的检测识别出相关物体。该缺点大大限制了cnn在场景和目标多变的视频检测领域的应用。

在视频检测中,追踪器也通常辅助检测器实现视频检测,相比于检测器,追踪器工作时的计算复杂度更低。然而,尽管追踪器的计算资源消耗较低,但是对目标特征的计算也相对粗略,往往会存在跟丢现象进而导致目标局部漏检、整体漏检等错误。

可见,现有技术不能兼顾检测准确性和检测速度。



技术实现要素:

有鉴于此,本发明提供了一种视频的稀疏检测方法,能够在保障运动目标区域分割准确率的前提下,大幅提高视频检测速度。

为了解决上述技术问题,本发明是这样实现的:

一种视频的稀疏检测方法,包括:

预先确定目标特征与决定追踪器工作时间的工作参数之间的对应关系,其表示当目标存在这样的特征时,追踪器可以替代检测器在对应的期间内进行目标检测;

进行视频检测时,检测器和追踪器交替启动工作;在每个交替周期内,检测器先启动,根据检测结果确定目标特征,利用所述对应关系匹配该目标特征对应的追踪器工作参数;将追踪器初始化为检测器,追踪器根据匹配到的追踪器工作参数进行目标检测。

优选地,所述目标特征为:目标区域的面积、亮度或角点数中的一种或多种组合;

优选地,所述决定追踪器工作时间的工作参数为:以帧为单位的追踪器工作长度、以时间为单位的追踪器工作时长、停止追踪器工作的条件中的一种或多种组合。

优选地,所述目标特征与工作参数的对应关系是在初始化阶段通过在线学习方式获得的,具体为:

在视频检测之前,检测器和追踪器同时启动对待检测视频进行目标检测,以追踪器可以替代检测器进行目标检测为目标,根据检测结果确定出多段符合该目标的追踪器连续工作段;

针对每一追踪器连续工作段,获取检测框和追踪框相交区域的目标特征,该目标特征与决定所述追踪器连续工作段持续时间的工作参数,共同形成所述对应关系。

优选地,所述追踪器连续工作段的确定方式是根据检测框区域和追踪框区域的交并比iou确定的:针对每一帧,将交并比iou与有效性尺度进行比较,确定交并比iou数据是否有效,将连续有效的数据对应的段落确定为所述追踪器连续工作段。

优选地,采用指数加权移动平均法ewma得到的ema参考值θk作为所述有效性尺度,对交并比iou数据进行分析,实现对失效iou数值的过滤。

优选地,采用ewma过滤失效iou数值的过程中,进一步加入了判定无效数据后对ema参考值θk的更新操作,则失效iou数值的过滤过程包括:

对于第k帧视频,已知当前帧的检测器和追踪器交并比度量值iouk和第k-1帧的ema参考值θk-1;

当iouk≧θk-1时,记录当前的iou为有效数据,并利用iouk和θk-1的加权值更新当前帧的ema参考值θk;

当iouk<θk-1时,记录当前的iou为无效数据,则按照下式计算3个ema临时参考值θ1,k、θ2,k和θ3,k

θ1,k=θinit

θ2,k=iouk

θ3,k=β·θk-1

其中,β为衰减系数,θinit为ema参考值初始值;

对临时参考值θ1,k、θ2,k和θ3,k按照大小进行排序;同时记录交并比度量值连续小于上一帧ema参考值的次数n,当n=1时,选择三个临时参考值中的最大值更新θk;当n=2时,选择三个临时参考值中数值大小排序为第2的数值更新θk;当n=3时,选择三个临时参考值中的最小值更新θk;当n>3时,一直用三个临时参考值中的最小值更新θk。

优选地,所述针对每一追踪器连续工作段,获取检测框和追踪框相交区域的目标特征为:选取相交区域中各帧目标特征的平均值、最大值或最小值。

优选地,利用所述对应关系匹配目标特征对应的追踪器工作参数为:

利用所述对应关系训练分类器或聚类器;将目标特征输入分类器或聚类器,分类器或聚类器输出预测的追踪器工作参数。

优选地,该方法进一步包括实时监测机制:

追踪器工作时,实时监测其检测效果是否满足既定标准,如果不满足,则切换到下一个交替周期,启动检测器工作;

在达到从追踪器切换到检测器的条件下,判断检测器当前检测结果是否可以被采纳;如果是,则通过检测器工作以获取追踪器工作参数;否则,追踪器继续对这一帧进行目标的追踪,直到检测器满足条件然后切换到下一个交替周期。

优选地,判断追踪器的检测效果是否满足既定标准是采用结构相似性分析ssim算法获取相邻两帧图像的结构相似性数据实现的;

所述检测器当前检测结果是否可以被采纳的判断方式为:

如果检测器存在可信度参数,则判断检测器返回的可信度是否大于预设的可信度阈值,如果是则判定检测器当前检测结果可以被采纳;否则不被采纳;

如果检测器没有可信度参数,则判断检测器是否返回至少一个目标检测结果,如果是则判定检测器当前检测结果可以被采纳;否则不被采纳。

有益效果:

(1)本发明在当前检测器独立工作的基础上,通过追踪器替代部分视频帧的检测任务,从而在不损失或仅损失小部分视频检测性能的基础上,大幅降低视频检测的计算开销并提高处理速度。

(2)本发明在线确定目标特征与追踪器工作参数的对应关系,不依赖历史数据,能够更加准确的反应当前目标的特点,同时若采用基于背景建模的方式检测运动目标,还能够正确识别训练阶段未出现的目标物体,克服了cnn有监督学习的缺陷。

(3)在一优选实施例中,追踪器连续工作段是根据检测框区域和追踪框区域的交并比iou确定的,交并比iou与检测器和追踪器都存在关系,能够衡量替代的有效性。

(4)本发明以ema参考值θk作为尺度,采用ewma方法过滤失效iou数值,比直接利用iou数据的聚合性更强,并能够保障在有限的初始化长度内,训练出更为有效的数据,避免错误的预测导致后续阶段追踪帧频繁波动。

(5)本发明在判定iou无效数据后设计了对ema参考值θk的更新操作,能够在iou数据无效的情况下快速的迭代适应,以便得到更多有效数据。

(6)在使用对应关系进行匹配时,选用分类器或聚类器,能够更好的建模目标特征与决定追踪器工作时间的工作参数之间的对应关系。

(7)本发明进一步增加了实时监测机制,对检测器或追踪器的工作状态进行监测,并及时进行切换,从而保障视频检测的准确性。

附图说明

图1为本发明视频的稀疏检测方法的检测架构;

图2为ia-vid初始化阶段处理流程;

图3为检测器与追踪器的iou分析方法的示意图。

具体实施方式

目标检测及区域分割算法的计算开销较大、处理速度较慢,难以同时满足处理设备的低成本和低功耗、以及视频实时处理的需求。对于视频序列来说,目标在帧间的运动存在较强的相关性,因此,可以采用计算资源开销更低、处理速度更快的目标追踪类算法(追踪器),替代部分视频帧的目标检测任务(检测器),从而达到更快的视频检测处理速度。然而,由于追踪器会出现追踪失败或错误的情况,因此需要在追踪器工作一段时间后,再切换到检测器工作,从而对追踪器的工作参数进行调整,达到对追踪器的结果进行监测与矫正的目的。

为此,本发明提供了一种视频的稀疏检测方法,其基本思想是:预先确定目标特征与决定追踪器工作时间的工作参数之间的对应关系,其表示当目标存在这样的特征时,追踪器可以替代检测器在对应的期间内进行目标检测。进行视频检测时,检测器和追踪器交替启动工作;在每个交替周期内,检测器先启动,根据检测结果确定目标特征,利用所述对应关系匹配该目标特征对应的追踪器工作参数;将追踪器初始化为检测器,追踪器根据匹配到的追踪器工作参数进行目标检测。

其中,目标特征可以采用目标区域(roi)面积、亮度、角点数,也可以是它们的组合;决定追踪器工作时间的工作参数可以是追踪器工作长度(以帧为单位)、追踪器工作时长(以时间为单位)、停止追踪器工作的条件(例如以前后追踪结果面积差为条件),也可以是它们的组合。

可见,本发明的主要目标并不是修正并提高当前检测器的检测性能,如准确率、完整性等,这些性能的上限本身是由当前的检测器决定的。本发明的主要目标是在当前检测器独立工作的基础上,通过追踪器替代部分视频帧的检测任务,从而在不损失或仅损失小部分视频检测性能的基础上,大幅降低视频检测的计算开销并提高处理速度。

其中,上述对应关系是根据之前数据获得的,其给出了在保证检测精度的基础上,追踪器可以替代检测器负责目标检测工作的序列长度。在实际中可以根据历史数据进行整理得到,优选地,本发明给出了一种在线确定对应关系的方式,其不依赖历史数据,能够更加准确的反应当前目标的特点;同时,若采用基于背景建模的方式检测运动目标,还能够对训练阶段未出现的目标物体进行正确识别,克服了cnn有监督学习的缺陷。

对于上述方案中如何获得有效的对应关系,本发明给出了一种基于检测器和追踪器交并比(intersectionoverunion,iou)分析的确定方法。在本文中将这种基于检测器和追踪器交并比的自适应稀疏视频检测方法简称为ia-vid。

下面结合附图并举实施例,对本发明的优选实施方式进行详细描述。

本实施例选取视频处理中最常见的视频监控场景。在实际的监控视频中,视频监控场景在一定周期内可以看作是稳定的。在ia-vid方法中,初始化阶段将在每一次视频场景发生变化时启动,并对当前的监控场景进行训练和学习。在每一个稳定的周期内,背景可以认为是相对固定的,因此,对于相同背景中的运动目标来说,影响检测结果的往往是目标自身的特征。

追踪器的原理是对输入的目标特征进行学习,并在后续的视频帧中对这些特征进行分析从而实现追踪。因此,目标特征的输入是影响追踪器性能的关键。例如,假设当前目标对应的区域面积是s,当输入追踪器的区域面积大于s时,意味着会有更多的图像特征进入追踪器,出现过拟合的情况,这些额外的图像特征会干扰后续追踪器的性能;相反,当输入追踪器的目标区域面积小于s时,证明目标有部分特征被遗漏,即出现欠拟合的情况,同样会影响后续追踪器的处理效果。而对于追踪器来说,有效地连续追踪长度是体现其追踪性能的最直观表现。根据以上分析可以进行如下假设:当输入追踪器的图像特征数量相同时,追踪器的性能保持稳定。即,当输入追踪器的图像面积相同时,追踪器的连续有效追踪长度是一致或相似的。

因此,本实施例选用目标区域面积作为目标特征,选用追踪器工作长度作为对应关系中的追踪器工作参数。

该ia-vid主要分为初始化阶段和混合视频检测阶段两部分,包括如下步骤:

步骤一:初始化阶段,对检测器的处理结果进行统计,并记录对应的追踪器工作状态,从而得到追踪器在不同输入面积下的有效工作长度,并记录为[目标区域面积,追踪器有效工作长度]的训练对。

参见图2,本步骤包括如下子步骤:

子步骤101:检测器和追踪器同时工作,对同一视频进行目标检测,生成与初始化视频序列长度相等的初始化检测序列和初始化追踪序列。

子步骤102:联合初始化检测序列和初始化追踪序列,对检测器和追踪器在该场景下的性能进行评估,以追踪器可以替代检测器进行目标检测为目标,根据检测结果确定出多个符合该目标的追踪器连续工作段。第j个追踪器连续工作段的长度记为ltc.j,单位是帧。其具体实现过程为:

定义检测器运行时得到视频帧中目标区域信息roid为(xd,yd,wd,hd),其中(xd,yd)是检测框的中心点坐标,(wd,hd)是检测框的长和宽。同理,定义追踪器工作时得到的目标区域roit为(xt,yt,wt,ht),其中,(xt,yt)是追踪框的中心点坐标,(wt,ht)是追踪框的长和宽。

对于初始化阶段的第k帧,其交并比iou的度量值iouk可以表示为:

其中,roid,k是第k帧的检测框区域,roit,k是第k帧的追踪框区域,s()表示对括号中的区域取面积,那么分子表示检测框与追踪框相交区域的面积,分母表示检测框与追踪框相并区域的面积。

与此同时,考虑到初始化训练时往往会出现很多差异较大的交并比数值(错误值),会对后续阶段的处理造成极大影响,因此,需要对这些误差进行过滤,从而得到更具参考意义的正确值。如图3所示,第k+1帧的交并比变化较大,若将该帧的交并比iouk+1纳入对lt的预测,会造成极大的误差。因此,在初始化阶段进行交并比分析时,需要过滤掉没有参考意义的交并比度量值。经过滤,去掉了不能用追踪器代替检测器的段落,从而形成了追踪器连续工作段。

那么,针对每一帧k的数据,需要将交并比iou数据与有效性尺度进行比较,确定交并比iou数据是否有效,将连续有效的数据对应的段落确定为追踪器连续工作段。本实施例中,采用自适应调整的可变尺度,即采用指数加权移动平均法(exponentialweightedmovingaverage,ewma)中的ema参考值θk,作为上述有效性尺度,对初始化阶段的iou序列进行分析,并剔除掉错误值,提高对后续追踪长度lt预测的准确性。

指数加权平均过程可以参考tcp-ip协议中的rfc793算法。在rfc793中,通过ewma方法,将往返通信时延指标(round-tripdelaytime,rtt)估计改变为更平滑的rtt参考指标(smoothrtt,srtt)估计,即

srttk=α·srttk-1+(1-α)·rttk(2)

其中,rttk为当前实际采样得到的往返通信时延,srttk-1为上一采样点的指数回归值(exponentialmovingaverage,ema),srttk为当前时刻的ema估计值,α是平滑因子(smoothingfactor),取值范围是(0.8,0.9)。通过这种平滑操作,可以实现参考数值的加权随时间的变化而指数式递减,即旧的数据权重逐渐变小(淡忘),近期数据的权重(记忆力)保持较高。通过调整α的取值,可以改变淡忘的速度,因此,本专利中也将α称为“记忆系数”。从概率的角度分析,ewma方法将当前估计值设置为由上一次估计值和当前采样值共同决定的方式,是一种理想的最大似然估计方法,可以通过对记忆系数α实现估计值与采样值权重的调整。从信号处理的角度分析,可以将ewma看作低通滤波器,在保留长期发展趋势的同时,消除短期波动,实现信号的平滑处理。ewma是一种计算资源消耗极低的方法,计算量较小且内存占用极低。因此,ia-vid架构同样采用了ewma方法对iou序列进行分析,实现对失效iou数值的过滤,并强化近期的交并比度量值之间的影响。并且,本发明在采用ewma过滤失效iou数值的过程中,进一步加入了判定无效数据后对ema参考值θk的更新操作。

那么在获得交并比iou的度量值iouk之后,对失效iou数值进行过滤,以获得追踪器连续工作段的过程为:

对于第k帧视频,已知的参数为当前帧的检测器和追踪器交并比度量值iouk和第k-1帧的ema参考值θk-1。首先,需要判定iouk和θk-1的大小,并根据二者的关系进行下一步操作。

当iouk≧θk-1时,认为当前的iou指标是可靠的,可以进一步由iouk和θk-1计算出当前帧的ema参考值θk,即

θk=α·θk-1+(1-α)·iouk(3)

其中,ema参考值的初始值θinit一般设为0.5,α的取值一般为0.9。因此,当第k帧视频得到的交并比度量值iouk大于第k-1帧的ema参考值θk-1时,ema参考值会平滑地向当前的交并比信息iouk靠近。若在很长的一段时间内,当前的交并比度量值均大于等于ema参考值,则ema参考值会逐渐趋向于当前实际的交并比度量值,并逐步趋于稳定。同时,通过ema参考值计算得到的初始化数据,比通过iou直接得到初始化数据的聚合性更强,并能够保障在有限的初始化长度内,训练出更为有效的数据,避免错误的预测导致后续阶段追踪帧频繁波动。

当iouk<θk-1时,证明交并比度量值并未按照以往的趋势变化,因此,该值有较大的概率为无效值。此时,θk的更新方法如下所述:

第一步,计算3个ema临时参考值θ1,k、θ2,k和θ3,k,其中

θ1,k=θinit(4-a)

θ2,k=iouk(4-b)

θ3,k=β·θk-1(4-c)

其中,θinit为ema参考值初始值;参数β为衰减系数,且有β<1。参考tcp-ip协议中的reno算法,可将β设置为0.5。

第二步,对临时参考值θ1,k、θ2,k和θ3,k按照大小进行排序。同时,记录当前iou连续小于上一帧ema参考值的次数n,当n=1时,选择临时参考值θ1,k、θ2,k和θ3,k中的最大值替代θk;当n=2时,选择临时参考值θ1,k、θ2,k和θ3,k中数值大小排序为第2的数值替代θk;当n=3时,选择临时参考值θ1,k、θ2,k和θ3,k中的最小值替代θk;当n>3时,一直用临时参考值θ1,k、θ2,k和θ3,k中的最小值替代θk,直到下一次当前帧中iouk≧θk-1时,采用式(3)计算当前帧的ema参考值θk。

经上述比较,对于初始化阶段的iou序列,记录满足iouk≧θk条件的iou为有效数据,并记录对应的roid,k和roit,k数值;记录满足iouk<θk条件的iou为无效数据。然后将有效的iou数值和对应的检测器和追踪器数据roid,k和roit,k保留在三维的初始化序列rinit中,即

其中,rk表示索引为k的元素,k表示初始化阶段中记录的数据个数。基于初始化序列rinit,可以计算出追踪器连续工作的长度,记第j次连续工作的长度为ltc,j。

子步骤103:针对每一追踪器连续工作段j,从初始化序列rinit中搜索出所有追踪器和检测器的检测框数据,计算检测框和追踪框相交区域的面积,记为roi∩,该面积可以取这一工作段内各帧roi∩的平均值,得到追踪器第j次连续工作的平均追踪框面积,记为avg_roij。avg_roij的计算方式参见公式(1)。

其中,roid,m∩roit,m表示检测框和追踪框相交区域的面积,即roi∩;在实际中,如果目标特征取其他特征,例如亮度,则这个地方替换为检测框和追踪框相交区域的亮度。

本实施例是采用追踪器连续工作的平均追踪框面积作为目标特征,在实际中,也可以选取各帧roi∩的最大值、或最小值,或采用利用其他策略对roi∩进行计算得到的数据。

子步骤104:将[avg_roij,ltc.j]保存为训练对,用于混合检测阶段对视频检测组进行分析。

步骤二:混合检测阶段,检测器和追踪器交替启动工作。在每个交替周期内,利用检测器的检测结果在对应关系[avg_roij,ltc.j]中进行匹配,匹配到相应的追踪器工作长度ltc.j,利用ltc.j将追踪器初始化为检测器。这里,每一个视频帧将由检测器或追踪器中的一个单独进行处理。检测器工作的目的是用来矫正追踪器的结果,追踪器工作的目的是降低整体计算开销并提高处理速度。

本步骤中,如图1所示,ia-vid把连续的ld个检测器工作长度(处理帧数)和lt个追踪器工作长度(处理帧数)称为一个混合检测组(groupofhybriddetection,gohd)。其中,lt的数值可以人为根据经验指定。对于第i个混合检测组(gohdi),检测器将先启动对ld,i个视频帧进行处理,得到ld,i个检测结果取均值、或取最大值/最小值、或按照设定策略取值,将该取值与初始化阶段统计的二维数组进行对比,找到相同或相似的目标区域面积,匹配出对应的追踪器有效工作长度lt,i,利用该参数将初始化追踪器初始化为检测器,则追踪器可以根据lt,i参数进行目标检测。

上述通过匹配获得追踪器有效工作长度lt,i时,可以采用查表+插值的方法,还可以采用聚类或分类方法。本优选实施例中,将检测器的ld,i个检测框面积取均值,获得avg_roid,使用分类或聚类的方法,与初始化阶段产生的训练对[avg_roij,ltc.j]进行对比,从而实现目标特征的匹配,从而确定出该检测组的追踪长度lt,i。

在训练对匹配追踪长度lt,i时,实验场景和匹配方法都对结果影响较大。实验结果表明,在本实施例中knn分类器能够取得更加显著的实验效果,故本优选实施例选择knn分类器对每一个混合检测组的追踪器工作长度进行预测。在ia-vid的混合视频检测阶段,可以在启动检测器时计算得到当前检测目标区域的面积,并逐个与训练对[avg_roij,ltc.j]中的面积值计算欧式距离,将最小的k个欧式距离的平均值作为当前混合检测组的检测器工作长度。此外,通常情况下k的取值为3。

步骤三:在执行步骤二的过程中,加入长效监测机制。

考虑到实际视频中的复杂性,无论是追踪器还是检测器,都无法避免出现检测异常的现象。根据前文分析,目标在视频帧之间体现出极强的相关性,这就意味着如果目标状态未发生陡变,画面中的特征也会保持相对的稳定;相反,若画面的特征发生了较大的变化,则可以认为处理器将出现严重的误检情况。

因此,ia-vid设计了长效的监测机制,对检测器或追踪器的工作状态进行监测,在出现极端情况的时候,采取相应措施,从而保障视频检测的准确性。

对于追踪器来说,其影响检测准确性的问题主要是追踪器检测效果无法达到代替检测器进行目标检测的程度。此时ia-vid将终止当前的混合检测组(gohdi),启动下一个混合检测组(gohdi+1),并直接启动检测器进入检测状态。

对于检测器来说,无论是正常的周期交替,还是追踪器因效果不佳提前切换到检测器,都必须要对检测器进行检测结果的判断,判断其当前检测结果是否可以被采纳。如果能够被采纳,则检测器正常工作,通过检测器工作以获取追踪器工作参数;否则,追踪器继续对这一帧进行目标的追踪,直到检测器满足条件,才切换到下一个交替周期,利用检测器的工作以获取追踪器工作参数。

对于追踪器来说,确定检测效果是否满足既定标准的方式通常是对相邻两帧图像特征进行对比分析,判断二者差异是否超过设定的阈值。在进行对比分析时,需要充分考虑判别器的资源开销和处理速度,若资源开销较大、处理速度较慢,将对ia-vid整体产生较大的影响,这与ia-vid的设计初衷是相悖的。根据这一思路,ia-vid选择了通过结构相似性分析算法(structuralsimilarityindex,ssim)对图像进行分析。ssim是一种衡量图像间相似度的计算方法,相比于传统数字图像处理领域采用的峰值信噪比(psnr)等指标,ssim方法在对视频的品质进行衡量时,具备更直观的表现力。

在ssim方法中,给定两个信号x和y,两者的结构相似性可以定义

ssim(x,y)=[l(x,y)]α[c(x,y)]β[s(x,y)]γ(7)

其中

式中,l(x,y)用来对比x和y的亮度差异,c(x,y)用来对比x和y的对比度差异,s(x,y)用来对比x和y的结构差异。α、β和γ是调整l(x,y)、c(x,y)、s(x,y)相对重要性的参数,且有α>0,β>0,γ>0。μx和μy分别代表x和y的平均值,σx和σy分别代表x和y的标准差,σxy为x和y的协方差。此外,c1、c2、c3皆为常数,用以维持l(x,y)、c(x,y)、s(x,y)的稳定。

通过大量的场景下的测试及对比实验,可以发现ssim算法对于极端情况判断,即追踪器无法追踪当前极端情况下的目标信息的判断准确性更高,因此,在ia-vid方法中,选择了ssim算法作为追踪器工作状态的监测方法,上述信号x和y分别是追踪器前后两帧的检测结果,当ssim值低于设定阈值时,认为当前检测效果不满足既定标准。

对于检测器,在达到需要重启检测器的条件下,ia-vid可以根据当前检测器返回的可信度结果判断是否采纳当前检测器的目标检测结果。若当前检测器返回的可信度大于预设的可信度阈值(detectionthreshold),则进入新的混合检测组(gohdi),并将追踪器的结果初始化为当前检测器结果;反之,则追踪器继续对这一帧进行目标的追踪,直到检测器满足条件才切换到下一个交替周期,利用检测器的工作结果初始化追踪器。其中,预设的可信度阈值需要根据不同的场景进行微调,在ia-vid中,一般将可信度阈值设为0.5。

对于没有可信度参数的检测器,一旦检测器返回至少一个目标检测结果,此时认为检测器的可信度为100%;如果检测器不返回检测结果,则认为检测器的可信度为0%。据此可以进行检测器检测结果是否可以被采纳的判断。

上述方案是一个通用的处理架构,可以灵活地更换检测器和追踪器。例如,基于背景建模的运动目标检测算法和基于目标建模的检测算法,如vibe、yolo等都可以作为检测器通过本发明进行视频检测,并获得加速效果。

综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1