视频信号分析的制作方法

文档序号:6732011阅读:203来源:国知局
专利名称:视频信号分析的制作方法
技术领域
本发明涉及视频信号的分析。
背景技术
随着IP-CCTV系统在安保、安全和信息收集方面的广泛应用,每天 都会产生大量的视频数据。例如,仅希思罗(Heathrow)机场就安装了 超过6000个监视摄像机。为了处理这些海量的视频数据,急需设计出智 能视频分析/理解算法,以有效地"过滤"输入的视频流,而只将与特定 领域应用相关的物体/事件/行为信息传递给人类操作者,供其操作或者决 策,包括异常事件检测、场景概要、浏览和理解等。
监视摄像机捕捉的视频数据是数据图像格式的,由不相关像素的集 合来表示。有价值的信息往往埋没在这种无组织的数据中。为了更好地 利用图像和图像序列,应以更加结构化的格式来表示视觉信息。对视觉 信息管理这一问题的一种直接解决方案是基于内容的表达。基于内容的 表达概述了图像数据的视觉有意义部分。这种表达更加容易被计算机和 人来理解和使用。基于内容的表达通常是就探测到然后要追踪的视频对 象(例如,人和车辆)而言的。然而,在分析拥挤的场景时或者当摄像 机由于物理场地限制而不能顺利定位(例如,不是鸟瞰)时,这种表达 模型通常会失效。诸如背景减除和blob (二进制大对象)跟踪的传统图 像处理算法对分析这种场景也没有太大帮助。除了使用3D信息来消除阻 挡[7],还没有关于这类序列的文献。
因此,需要研究其他形式的表达,使得能够使用单目视频来探测关 注事件。在本说明书中,我们将以视频形式探测关注事件的处理称为监 视场景变化探测(SSCD)。 SSCD旨在探测输入视频的相关变化,以提醒 操作员进行干预,和/或使系统自动索引视频数据库。并且,提取关键帧
来表示关注事件对于监视视频概况十分有用。
场景变化探测(SCD)的工作通常旨在对广播视频进行分析,广播 视频通常是根据剧本拍摄并在工作室中进行后期处理。SCD是发现具有 明显不同语义的视频场景之间的转换的处理。场景是用于表现视频情节 的上下文连贯性的一组镜头(shot)。镜头或者摄像机转场(camerabreak) 是在诸如切(cut)、淡入淡出(fade)、划(swap)的编辑效果之间的一 组连续帧。场景可以包括许多不同的镜头或者几个镜头之间的随机交替。
然而,监视场景变化探测(SSCD)需要从不同角度来观察。SSCD 同时取决于视觉场景的复杂性和执行的监视任务。与SCD相比,SSCD 的目的是不同的(例如,用静态摄像机)捕捉的物理场景设置通常是相 同的,但是由于目标或快或慢的动态移动以及照明条件的变化,视频内 容是不断变化的。
SSCD之前的工作主要是基于以对象为中心的分析范例,假定目标 可以探测和追踪,并且该特定的视觉事件也是可以适当定义的。通常, 事件是在由几个对象组成的简单场景中探测的,并且通过非常清晰的语 义来表征(例如,从场景中去除对象/向场景中放置对象[9],打开/关闭抽 屉[4p。其他工作解决了具有己知语义的特定环境,例如Hauptmann等人 解决了疗养院环境。在他们的工作中,在低密度场景中进行基于对象的 分析,该低密度场景包含清晰且预定的语义,旨在首先识别个体(老人), 然后表征他们的活动。Stringa和Regazzoni展示了一套系统,用于探测场 景中的永久变化,或者探测火车站的候车室中遗留的包裹[9]。而且,该 工作表明,当场景变得更加拥挤或者复杂时,系统的性能具有下降的趋 势,导致不可避免的故障。最后,在[2]中,Amer等人研究了内容无关事 件识别,尽管场景只包含几个对象并且系统是基于追踪的。
为了克服复杂场景中基于对象的表达的限制, 一些研究基于像素级 别的活动而解决了动态场景分析难题。在[8]中,Ng和Gong将低级别的 基于像素的表达与领域语义联系在一起。然而,该算法是在只包含一个 人的场景上进行论证的。其他工作解决了在像素级别的视频中基于活动 的监视难题,而未考虑特定语义[5, ll]。在[11]中,Xiang等人发现了 blob
级别事件,用于在不使用分割(segmentation)和分组(clustering)的情 况下进行行为描述(behaviourprofilling)。该方法旨在基于像素的局部强 度时间历史来发现时间事件,然后将其分组到相邻像素的组中。对场景 中有意义的事件的数量及其位置(与人工标记相对)进行自动学习和探 测。然而,仅仅使用了低密度的场景和探测到具有清晰语义的事件,例 如顾客挑选物品、收银员在柜台收取钱币。[5]中的工作最接近我们想要 实现的目标,也就是,基于低级别信息来发现监视场景变化。然而,该 工作旨在航空器进站活动,这表示与场景相关的语义是非常清晰的。而 且,用于事件探测的方法是基于活动总是在画面的相同区域内发生的假 设(例如,场景是高度结构化的)。
综上所述,在文献中发现的基于低级别特征的工作要么解决了约束 完备的情况(例如,机场停机坪),要么旨在探测可以建模的定义明确的 事件。现有技术只能开始解决拥挤场景的问题,但是我们关注的工作只 是用易于发现的对象来论证的[14]。而且,语义通常是清晰的,并且被学 习或者是人工标记。相反,本发明的目的是研究如何从监视视频中提取 有用信息,在所述监视视频中语义可能是不清晰的,活动的数量和位置 是未知的并且可能随时间而变化。
动态视觉场景分析的当前解决方案主要是基于对象探测和追踪。这 些解决方案假定可以从背景中精确地分割出视频对象,并且被监视的场 景是由清晰的语义(事件、行为等)来表征的。然而,在许多现实世界 情景中,需要分析拥挤的场景,因此限制了传统表达方法的应用。而且, 在这种场景中,语义不一定是清晰的;不容易预先定义关注事件或者异 常行为的含义。为此,我们研究了不同的方向。

发明内容
本发明在权利要求书作了限定。


现在将参照附图以示例的方式来描述本发明的一些实施方式,附图

图1:本发明要分析的动态场景的例子。场景可能是拥挤的并且摄 像机的位置不一定合适,造成目前用在先进视频监视中的深入研究过的 图像处理算法没有多大作用。
图2:可以认为是传统的基于运动的分析与基于对象的分析之间的 方法。
图3:提供的分析工具的框图。
图4: AOI中场景变化的分析(a)当前帧与前一帧之间随时间变化 的像素的归一化量(绿色曲线)以及当前帧与参考帧之间随时间变化的 像素的归一化量(红色曲线);(b)光流场强度的时间分布;(C)光流场方 向的时间分布。这些曲线分别对应于图1上图和下图所示的监视场景。
图5、 6禾卩7:用于分析三个测试视频序列的关注区域(AOI)的例子。
图8:从室内监视序列"互动的三个人"中提取的关键帧的例子。 可以注意到在关键帧的选择中有一些冗余。
图9:从序列"塔桥-路边"中提取的关键帧的例子。可以注意到由 于强阴影会有一些误报警。
图10:从序列"塔桥-人行道"中提取的关键帧的例子。
图11:"虚拟磁环"的例子,"虚拟磁环"用于在交通监视情景中用 布置在适当位置的摄像机进行车辆计数。该图片示出了如何采用所提供 的工具来简化之前已经解决了的场景动态学问题。图中的峰对应于通过 "虚拟磁环"的车辆。
图12:"透视虚拟磁环"的例子,"透视虚拟磁环"用于对车辆进行 计数和探测反向行驶的车辆。可以从曲线的形状得出该信息,而无需移 动矢量的明确计算。
具体实施例方式
现在我们将描述一种鉴于分析非常拥挤的动态视觉场景和不容易用 明确语义来表征的场景而设计出的算法。对于这些类型的场景,依赖于
同时追踪大量对象(例如,低密度场景的监视)的传统的以对象为中心 的分析范例不起作用。另一方面,依赖于已知事件的明确建模的简单的 基于运动的分析方法由于场景没有明确定义的语义的事实也不起作用。 后一种方法在特定情形下起作用,例如,探测在单行地下通道中走错方 向的行人,在这种情况下要求(或者语义)是简单而明确的。
研究出的解决方案在一定程度上处于(高级别)的基于对象的分析 和(低级别的)基于运动的视觉场景分析之间。该解决方案是中间级别 的分析方法,其使用某种格式的局域变化信息和低级别移动信息来探测
有意义的场景变化(图2)。由于本发明的目的是解决同时存在大量对象 的复杂和拥挤的场景,所以首先探测明显的时间变化区域,然后对探测 区域进行移动活动分析。通过时间分割来识别时间变化,即通过被称为 变化探测的处理将关注区域内的像素分成移动像素和不移动像素两类。 变化探测后接着进行"移动活动"分析,顾名思义,其根据移动矢量的 强度和方向直方图来计算探测区域的动态特性。另选的是,可以并行地 进行变化探测和移动活动分析。
图3示出了提供的视觉场景变化/分割分析系统的框图。我们从介绍 每个框的功能开始,然后讨论所研究的特征的实施细节。
■监视区域。首先,对于每个输入视频帧t,探测关注区域(AOI) 中的"移动"区域或者空间支持;可以在GUI上交互地选择AOI,或者 根据累积的移动信息或者己有知识来自动设置AOI。
■特征提取和分析。提取两种类型的特征用于后续场景分析,包括 当前帧的AOI内的变化像素的归一化量和光流场。对每个AOI分别进行 该处理。
(i) 针对前一帧和参考帧来计算当前帧中的变化像素的归一化量,细 节见"变化探测"部分。可以分别存储这两种局域变化信息,并且用两 个曲线在GUI上显示出来以方便反馈。
(ii) 在两个连续帧之间计算光流场。光流是可以与表观移动相关联的 表观速度的分布。表观移动是当分析强度函数的时间变化时我们认为是 移动的那种移动。通过使用[13]中给出的Lucas & Kanade方法分析连续
帧t和帧t-l的强度函数,来估算每个像素的光流。然后利用计算出的光 流场和探测到的移动区域,根据光流移动矢量的两个归一化直方图来计 算移动活动特征,所述两个直方图一个表示强度,另一个表示方向。强 度直方图不是均匀量化的,下面马上进行说明。
■分类。然后基于适用于如上所述的移动活动的变化的经验阈值进 行分类。分类步骤确定场景变化是否明显,从而需要记录关注视频帧("关 键帧")或者应当发出警告。假定要分析无约束的场景并且很难区分正常 场景和要关注的异常场景,当前系统既不基于特定学习也不基于识别方 法。但是如果已知,则任意现有技术都是有帮助的并且容易纳入。将在 下文给出分类框的细节。
■后处理。可以添加时间后处理步骤,以调整分类的结果和去除冗 余的快照(关键帧)。后处理基于以下假设关注事件具有特定时间跨度, 因此应当为每个事件只生成一个关键帧。为此使用了时间阈值。
变化探测
应注意,上下文中的表达"场景变化"不应与后期制作视频材料中 发生的场景变化相混淆,在后期制作视频材料中在来自不同摄像机的镜 头进行切。例如,在诸如新闻、肥皂剧或者纪录片的从位于许多不同位 置的多个摄像机以多个角度拍摄的广播节目中,节目制作人仔细编辑所
生成的毛片(mshes),以制成最终产品。在这种情况下,可以将场景变
化清除地定义为摄像机转场(切)或者估计的移动矢量统计的突然变化。 在本文中,我们主要考虑对来自单个摄像机的视频信号的分析(优选为 实时地)。通过固定的用于连续监视特定场所的监视摄像机"被动地"捕 捉现实世界视频,目的是探测同一场所的任何有意义的视觉"场景"(或 者活动)变化。这种场景变化不是由于摄像机移动引起的,而是由于对 象(行人、车流、人群)在摄像机的实际视野范围内移动而引起的。在 室外情形下,还需要处理迷惑性的环境变化,例如由于云的移动或者背 景树的摇摆而引起的环境变化。因此,在这两种情况下,场景变化的含 义不同,后一种情况下场景变化通常是渐变。
通过评估从要研究的场景提取的特征的时间行为,可以定义监视场
景变化。可以基于特征的值及其随时间的变化,针对AOI来分析时间行 为。然而,应注意,特征值本身的大小并不重要,例如通过的卡车、汽 车或者自行车不应触发系统,除非有特殊应用的要求(例如,人的计数、 不同类型车辆的计数等)。特征值的变化是重要的它携带了与场景的动 态学有关的信息。例如,AOI中光流场的突然变化可能对应于某人突然
停下或者某人开始奔跑。该事件需要触发警告,或者触发对关键帧的捕
捉。此外,还可以根据场景占有率(scene occupancy)来定义关注场景变 化。
为了从突然的场景变化中得到信息,我们计算变化探测曲线的斜率。 变化探测曲线表示了 AOI中随时间发生变化的像素数量。AOI的占有率 携带了与场景有多拥挤有关的信息。与场景变化相对应的关注事件为 空到拥挤、拥挤到停止、拥挤到移动。
变化探测的要求是双重的 一个是对于照度变化的鲁棒性,另一个 是易于计算从而可以实时应用。在该研究中,帧t的变化探测信息是通过
将其与前一帧t-l以及参考帧to进行比较来计算的(图4a)。使用AOI来
去除场景中非关注部分。因此,我们定义
N"t)是与适当更新过的参考帧相差大于阈值的像素的归一化数量, 从而它表示场景的背景部分的图片。这将包含所有固定对象(包括被前 景对象临时模糊的对象);经过适应,它还将包含表现为前景但是保持足 够长时间的静止使得它们被认为是当前背景的一部分的对象,例如停泊 的车辆。
Np(t)是与前一帧相差大于阈值的像素的归一化数量。 令CD"t) = CD(t,to)为针对适当参考背景而定义的帧t处的变化信息, CDP(t) = CD(t,t-l)为针对前一帧t-l而定义的帧t处的变化信息。计算变化 信息作为RGB颜色空间中带阈值的像素与像素差异,并且在后文中,我 们着重举例说明从CDp(t)计算变化信息的处理
针对三个图像平面(R、 G和B)中的每一个计算像素与像素差异。 如果对于一个颜色平面,像素的绝对差值小于预定阈值(TV、 Tg或Tb), 则将该颜色平面的像素设置为"0"(即,标记为无变化);反之,大于阈
值的任何差值都将生成"1"标记(例如,像素己经变化)。
具体来说,如果图像中根据笛卡尔坐标x,y的R、 G、 B像素值为r(x, y,t)、 g(x,y,t)和b(x,y,t),则如果三个图像平面(R、 G和B)中的每一个的 绝对像素与像素差异超过预定阈值(Tn Tg或Tb),那么遮罩1V^、 MgP、 Mbp为1:
如果lr(x,y,t)画r(x,y,t画l)l〉Tr,则CDrP(x,y,t) = 1;否则CDrP(x,y,t) = 0 如果lg(x,y,t)-g(x,y,t-l)l〉Tg,则CDgP(x,y,t) = 1;否则CDgp(x,y,t) = 0 如果lb(x,y,t) - b(x,y,t-l)l > Tb,则CDbP(x,y,t) = 1;否则CDbP(x,y,t) = 0 如果任何颜色发生了变化,则组合遮罩CDp为l: C£>p " ;v, ) = CDtf " y, f) v CD- " y, f) v CZ^ " y,,), 利用逻辑OR ("或")运算符。
然后利用逻辑OR运算符来合并三个图像平面的像素与像素差异的 结果。该处理生成了二进制遮罩CDp(t),其突出了当前帧的AOI中相对 前一帧发生了变化的区域。可以应用类似的过程来获得相对于适当参考 遮罩的CD"t)遮罩。
然后针对AOI的大小,分别对这两种变化遮罩所包含的像素数量进 行归一化,从而得到N^t)和Np(t:)。
于是,归一化的像素数量为
W AO/
其中对AOI中的所有N个像素进行求和。
通过相同的公式,用角标R替代角标P,用t0替代t-l,给出相对于
参考帧的变化的计数值NK。 分类变化
N"t)和Np(t)随时间的曲线提供了探测关注场景变化的有用信息。
如果NR(t)和Np(t)都较小,则场景为空。这可以翻译成如下条件
NR(t)<T1 AND NP(t)<T2 (1)
如果NR(t)与N"t-l)类似,而Np(t)与Np(t-l)不同或者较大,则场 景的内容是移动的。这可以翻译成如下条件
NR(t) = NR(t-1 > AND (關> T3 OR關# NP(t-1)) (2)
在第二种情况下,当Np(t) ^ Np(W)时,场景的内容正在加速或者减速。
如果N^t)与NJt-l)类似,而Np(t)较小,则场景的内容是静止的 或者场景是满(拥挤)的。这可以翻译成如下条件
NR(t) = NR(t-1) AND NP(t) < T4 (3)
移动特征分析
对变化探测的上述分析还不能足够清楚地挑选出有意义的场景变 化,因为它不能提供出现在场景中的对象(例如,人群或者单个人/车辆) 是否改变了其移动方向的说明,以及在改变了的情况下给出在那条路线 上改变和强度有多大。为了提供这种信息,通过光流场估算来计算移动 特征。光流是一种针对每个像素x,y来确定该像素的矢量速度(u,v)的估计 值的方法。这是一种公知的技术,由Lucas和Kanade[13]等人提出,目前 利用诸如英特尔的开放源代码计算机视觉库(Intel's open-source Computer Vision Library)的标准库程序就可以用计算机实现。下面的片段是使用该 函数的参考
CalcOpticalFlowLK
计算两个图像的光流 void cvCalcOpticalFlowLK( const CvArr* imgA, const CvArr* imgB, CvSize winSlze,
GvArr* velx, CvArr* vely);
imgA
第一图像,8位,单通道。 imgB
第二图像,8位,单通道。 winSize
用于对像素进行分组的平均窗口的大小。 velx
与输入图像相同大小的光流的水平分量,32位浮点,单通道。 vely
与输入图像相同大小的光流的垂直分量,32位浮点,单通道。
函数cvCalcOpticalFlowLK利用Lucas & Kanade算法来计算第一输 入图像的每个像素的流。
如上所述,为了减少噪声的影响和加速计算,只考虑探测到变化的 区域的移动场。我们优选使用幅值和方向bm,bp而非分量u,v:
附=a/w2 +v2 , p是mcosp-u且msinp二v日寸的角度。
然后通过强度和方向直方图将它们表示在每个区域中,从而可以同 时考虑方向和速度变化。
所得的m和p值被分别量化为k和q 二进制数。对每个范围内的读 数量进行计数,从而给出直方图
将光流场的强度范围分成不均匀的量化级别。如果有更多的关于作 为场景语义基础的移动矢量的统计分布的信息,则可以改变这种级别。 由于未携带重要信息,所以可以丢弃例如小于V 的低强度值。令Hm(t) 为移动强度直方图
<formula>formula see original document page 13</formula> (5)
对于k=10 (注意,根据强度的平方根值)的二进制分布的例子可
以为[5,10]; [10,20]; [20,40]; [40,60]; [60,80]; [80,100]; [100,150];; [200,250]; [250,.…]。
光流场的方向直方图被量化为均匀二进制数,尽管如果预先知道一
些信息,也可以进行不均匀的量化。令Hp(t)为方向直方图
<formula>formula see original document page 13</formula> (6)
例如,q = 8级别量化将导致以45。规则间隔布置的二进制数。 为了利用移动特征的时间变化,我们计算两个连续直方图之间的距 离。按照下式针对强度直方图来计算距离D,<formula>formula see original document page 13</formula> (7)
对所有k个二进制数进行求和。类似地,对于方向直方图,
zx/^),/^-D):丄i:,f、)一h("l
对所有g个二进制数进行求和。 分类移动/组合
可以充分利用与移动活动的变化有关信息来了解是否有速度变化或 者方向变化。在这两种情况下,确定阈值以限定被认为相对于关注事件 是相关的变化的量。
应注意,我们优选地以表明AOI中的移动像素的数量大于阈值的变 化分析为条件来进行以下测试。
如果强度直方图之间的距离较大,则速度有变化。例如,某人开始 奔跑或者停住。这可以翻译成如下条件
<formula>formula see original document page 14</formula> (9)
如果方向直方图之间的距离较大,则场景的内容中发生了方向的相 对变化。这可以翻译成如下条件
<formula>formula see original document page 14</formula> (10)
只有当AOI中的移动像素的数量大于阈值时,才考虑移动活动的变化:
<formula>formula see original document page 14</formula> (11)
分类
上述操作的结果是将场景分类为下述一种或者更多种 场景为空(公式1); 场景的内容是移动的(公式2);
场景的内容是静止的或者场景是满(拥挤)的(公式3);
场景的内容正在加速或者减速(Np(t) # Np(W)条件下的公式2); 速度有变化(公式9AND公式11); 方向有变化(公式IOAND公式11)。
分类的下一个阶段是识别场景变化。在该实施方式中,根据这六种 标题其类别不同于前一帧的类别的一帧被认为是表示场景变化。因此,
通过这些类别之间的变化来表征序列的关注部分。
一旦探测到了场景变化,就有多种方法来提取关键帧或者有代表性 的帧。通常,我们选择两个场景变化之间的中间帧。这非常像处理成品 视频(例如,新闻、故事片等)分析的方式,其中我们选择关键帧来表 示每个探测到的快照的视觉内容。另选的是,当探测到如上所述的场景 变化时,将这一瞬间的帧存储为关键帧。
后处理
由于属于相同语义事件的单个事件(例如,相同的场景变化)的时 间接近性,利用上述分类方法得到的结果可能包含比所期望的更多的警 告/关键帧。因此,可以使用时间阈值来丢弃彼此靠近的关键帧(或者警 告)。时间阈值的值是与领域相关的,对于监视街道的摄像机,其范围在
l至2秒,对于监视人行道的摄像机,其范围在5至10秒。该准则就是 不允许在前一警告或者关键帧之后n秒生成警告或者记录关键帧。
在更加复杂的实施中,我们还引入了时间阈值Tp以规定最后的关 键帧至少要相隔T,个帧,其中T,的值取决于要研究的情景(例如,预期 的对象速度)。例如,在监视车流量时使用较小的阈值(例如,T,二50帧 或者2秒),而在监视行人时使用较大的阈值(例如T,=250帧或者10秒)。 在探测到场景变化之后,在等于时间阈值的时间间隔内不存储任何额外 的关键帧(如果有的话)。
实验研究
我们在此给出了利用所提供的动态视觉场景分析工具而获得的对快 速变化的拥挤视觉场景进行取样探测和分类的结果。此外,我们还提供 了这种分析工具在传统监视任务中的进一步使用的例子。
让我们考虑图5至7所示的视觉场景,其中分别用红色多边形标出 了空间支持(关注区域)。在GUI中示出了垂直红线以分别显示
-连续帧中发生变化的像素的归一化量的时间差异,或者NR(t)-NR(t-,NP(t)-NP(t-l);
-连续帧中光流场的强度直方图的距离和方向直方图的距离(公式(7) 和公式(8))。
绘制的线越长,差异就越大。
我们回忆一下,在之前对场景分析工具包的讨论中,需要几个阈值 来进行必要的探测和分类决定。在我们的研究中,基于对小的有代表性 的数据集的试验,凭经验来确定阈值的值。值得注意的是,对不同研究 序列使用了相同的阈值,而并未以可觉察的方式影响结果。在变化探测
的情况下,将用于每个RGB平面的像素与像素差异的阈值设置为相同的 值,或者T严Tg-Tb-10(假定这些量的范围是0至255); TH产0.4、TH产0.3; TH^AOI大小的10%。
图8、 9和IO给出的结果示出了关键帧的例子,表示三个不同情景 中的有意义的监视场景变化。基于分析工具自动提取关键帧,并对应于 相应监视视频的概要。在图8中,探测室内办公室监视变化,并且关键 帧表示几个人之间的关注交互。可以注意到,所选的关键帧中有一些冗 余。可以通过基于关键帧之间的颜色和纹理来使用相似性量度,来消除 这些冗余。此外,在图9中,监视繁忙的交通场景;可以注意到,由于 关注区域上非常强的阴影,包含了一些误测。在图10中,正在检査挨着 地铁站入口的开放空间;较低的摄像机视角、无约束的入口和出口点以 及场景中人员的聚合和分离是主要的挑战。
在诸如交通监视的受约束场景中,提出的系统还可以用来提供其他 功能。除了探测监视场景变化以外,提出的分析工具所实现的应用还有 监视交通状况和收集通过摄像机范围内特定位置的所有车辆的快照。之 前的应用提供了与交通密度有关的信息(高/中/低),可用于根据长期收 集的统计数据来制定规划和在发生事故或者异常交通状况时生成警告。 后一种应用可以生成车辆数据库,可通过内容(颜色、大小、车牌)或 者时间査询来加速对特定车辆的搜索。例如,该工具可以车辆的数量进 行自动计数(图11)并且仅基于变化探测信息来探测是否有车辆反向行 驶(图12)。该方法的优点是与场景布局有关的预先了解的信息使我们无 需计算移动矢量即可使用变化探测信息。
在该例中,我们展示了基于视频的分析框架,用于确定场景活动变 化而无需依赖于清晰定义的语义。特别是要研究的视频数据代表高密度
动态场景,该场景是基本上全部或者部分堵塞的,并且在全局范围上(例 如,由飘动的云造成的)和局部范围上(例如,投下的阴影)经常发生 照明条件的变化。本发明的目的是解决超出传统监视视频摄像机情景的
事物,或者安装在高杆上的摄像机以提供鸟瞰的场景[10][12],更确切地 说,是由于场所限制而安装在某些不同和典型位置(例如,电话亭的顶 部)的摄像机,因此相对地面具有较低的位置(参见图1)。对于摄像机 监视场景来说,这个位置不好,特别是当场景变得拥挤时,会产生大量 的堵塞。摄像机的位置有时处于通常的监视摄像机和用于在桥梁或者高 速路入口捕捉车牌号的摄像机的位置之间(因此,其位置更类似其中在 受约束的空间中存在一些参与者的"智能会议室(smart room)"中的摄 像机的位置)。给定这种类型场景的特征和可能缺乏的语义,提出的解决 方案并未充分利用基于示例的场景变化训练,因此可以探测未知和不可 预见的场景变化。这种算法易于计算,提供了既鲁棒又灵活的增益。提 出的框架可以容易地适应语义明确的情景,也可以用于诸如对象计数、 队列测量和入侵者探测的简单问题。
因此,我们提出了一种鲁棒的时间分割算法,用于动态视觉场景分 析和监视场景变化探测。所提出的算法既不使用追踪也不使用基于对象 的表达来进行场景分析,它专门用于表征拥挤场景。而且,该算法根据 活动和活动变化无需使用语义即可得到有用的视频表达。这种表达使得 可以进行自动的场景描述和探测相关事件。该算法基于评估连续视频帧 中的局域变化和移动信息及其时间差异。通过取当前帧与前一帧以及参 考背景帧的差异,来计算局域变化;借助于来自光流场的移动强度和方 向直方图来描述局部移动信息。所提出的系统是可升级的,可适用于解 决诸如对象计数、队列测量、禁区入侵者探测的简单问题。
参考文献
1. H. Zhong,丄Shi, M. Visontai, "Detecting unusual activity in video," in Proc. of /£EE Conference on V7s/。n anc/ Partem / ecogn附on (CVPR 2004), Washington DC, USA, June-July 2004.
2. A. Amer, E. Dubois, A. Mitiche, "Context-Independent real-time event recognition: application to key-image extraction," in Prac. of /CfT 2002, Quebec, Canada, August 2002.3. A. Cavallaro and T. Ebrahimi, "Change detection based orv color edges," in Proc. of /We/naf/ona/ Sympos/'um on C/'rcu/'te and Systems (ISCAS-2001), Sydney, Australia, May
2001.
4. D. DeMenthon, D. Doermann, "Video Retrieval using Spatio-Temporal Descriptors," Proc. oMC/W編加ecfa 2003, Berkeley, CA, USA, November 2003.
5. A. Graves and S. Gong, "Spotting scene change for indexing surveillanpe video," Proc. o/ awe 2003. _
6. A G. Hauptmann,丄Gao, R. Yan, Y. Qi,丄Yang, and H. D, Wactlar, "Automated analysis of nursing home observations," /£Ff Pe/vas/Ve Compuf/叩,Apr-June 2004,
7. A. Mittal and L.S, Davis, "M2Trdcker: a multi-view approach to segmenting and tracking people in cluttered scenes using region-based stereo," Prac. of £CC/2002.
8. 丄Ng and S. Gong, "Learning pixel-wise signal energy for understanding semantics," P厂oc. ofSWC' 2001, pp. 695-704.
9. E. Stringa and C. S. Regazzoni, "Real-time video-shot detection for scene surveillance applications," /BEE T厂ans. on //nage户rocessZngr, 2000.
10. www.visualsurveillance.ora. last accessed December 2004.
11. T. Xiang, S. Gong and D. Parkinson, "Autonomous visual events detection and classification without explicit object-centred segmentation and tracking," Proc. of SWC
2002.
12. Zhao and R. Nevatia, 'Tracking multiple humans in complex situations," /££E 77-a/7s. on PaHem >4na/ys/s and /WacW/ie /nfeW/^ence, 26(9), September 2004, pp.1208-1221,
13. B. Lucas, T. Kanade, "An iterative Image registration technique with an application to stereo vision," Proc. of /nfemaf/ona/ Jo/nf Confe/ence on /4rt折c/a/ /nfe//&ence, 1981, pp. 674-679.
14. Valestin, oral presentation at EW匿200权利要求
1.一种分析视频信号的方法,该方法包括以下步骤-针对每一帧导出多个参数,所述参数包括(a)作为该帧的图片要素与参考帧的相应定位的图片要素之间的差异的函数的至少一个参数;和(b)作为该帧的图片要素与前一帧的相应定位的图片要素之间的差异的函数的至少一个参数;和(c)作为该帧的图片要素的估算速度与先前帧的相应定位的图片要素的估算速度之间的差异的函数的至少一个参数;-基于所述参数,为每一帧分配一种或者多种预定分类;以及识别在所述分类分配中发生变化的点。
2、 根据权利要求1所述的方法,该方法包括以下预备步骤在该信 号所表示的图像内识别一个或者多个关注区域,并且仅对该区域或者那 些区域进行分析。
3、 根据权利要求2所述的方法,该方法包括以下步骤当存在多个 关注区域时,对每个区域分别进行所述导出和分配步骤。
4、 根据权利要求1至3中任意一项所述的方法,其中一个参数是与 该参考帧的差异大于限定程度的图片要素的数量。
5、 根据前述权利要求中任意一项所述的方法,其中一个参数是与该 前一帧的差异大于限定程度的图片要素的数量。
6、 根据前述权利要求中任意一项所述的方法,其中使用光流方法来 计算该估算速度。
7、 一种分析视频信号的方法,该方法包括以下步骤 -针对每一帧导出多个参数,所述参数包括(a) 作为该帧的图片要素与前一帧的相应定位的图片要素之间的差 异的函数的至少一个参数;和(b) 作为该帧的图片要素的估算速度与先前帧的相应定位的图片要 素的估算速度之间的差异的函数的至少一个参数; -基于所述参数,为每一帧分配一种或者多种预定分类;以及 识别在所述分类分配中发生变化的点。
8、根据前述权利要求中任意一项所述的方法,其中该视频信号是来 自单个摄像机的连续视频信号。
全文摘要
通过下述步骤分析视频信号针对每一帧导出多个参数,所述参数包括(a)作为该帧的图片要素与参考帧的相应定位的图片要素之间的差异的函数的至少一个参数;和(b)作为该帧的图片要素与前一帧的相应定位的图片要素之间的差异的函数的至少一个参数;和(c)作为该帧的图片要素的估算速度与先前帧的相应定位的图片要素的估算速度之间的差异的函数的至少一个参数。基于这些参数,为每一帧分配一种或者多种预定分类。然后可以将在这些分类分配中发生变化的点识别为场景变化。
文档编号G08B13/196GK101371275SQ200780002618
公开日2009年2月18日 申请日期2007年1月17日 优先权日2006年1月20日
发明者安德里亚·卡瓦拉罗, 许利群 申请人:英国电讯有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1