用于使用多个摄像机进行对象和事件识别的系统和方法

文档序号:9769994阅读:766来源:国知局
用于使用多个摄像机进行对象和事件识别的系统和方法
【专利说明】
[00011优先权声明
[0002] 本申请要求2013年5月 10 日提交的、题为 "SYSTEM AND METHOD FOR OBJECT AND EVENT IDENTIFICATION USING MULTIPLE CAMERAS"的美国临时专利申请No.61/822051 的 优先权,其全部内容通过引用并入本文。
技术领域
[0003] 本公开总体涉及视频监控的领域,且更特别地涉及用于使用围绕场景以不同角度 布置的多个摄像机监控对象和事件的系统和方法。
【背景技术】
[0004] 视频监控系统出于包括安保和公共安全的各种目的而被广泛地部署。在通常的视 频监控系统中,在不同的位置上部署一个或多个摄像机来监控活动。例如,视频监控系统生 成公共场所、运输设施、零售商店、工业设施和住宅以及其他私有物业的图像。监控系统通 常包括:数据存储装置,其将记录的视频中的某些或全部存档,以便以后查阅;和一个或多 个视频输出装置,其能够回放实时的和存档的视频数据。
[0005] 在某些监控系统中,摄像机生成视频数据,该视频数据由一个或多个操作人员监 控,该操作人员可查看视频中的活动并在查看到事件时采取适当的行动。例如,在零售商店 处的监控系统中,操作者查看商店中的个人的实时视频,并在个人试图盗取商品的情况下 通知安保人员。在某些视频监控系统中,多个摄像机从不同位置和角度记录单个场景的视 频。尽管从多个角度生成视频可有助于收集关于场景的附加细节,但是多个视频记录使操 作人员难以以高效的方式观察。另外,在联网的视频监控系统中,多个视频流耗费大量带宽 和网络资源,尤其是在无线视频监控系统中。因此,改进视频监控系统、从而以自动的方式 在记录的视频数据识别所关注的事件并以高效的方式利用网络带宽是有益的。

【发明内容】

[0006] -种视频监视系统包括与中心处理站通信的分布式摄像机。中心处理站与使用背 景减除方法来提取前景对象的多个摄像机通信。我们的系统中的摄像机将元数据传输至中 心处理站。将对应于人的元数据从对应于其他对象的元数据过滤出来。通过中心处理站来 分析对应于人的前景元数据,以便识别由人实施的动作和事件。摄像机使用无线通信网络 或其他合适的通信通道与中心处理站通信。
[0007] 在一个实施例中,视频监视系统包括:多个摄像机,其位于多个位置以便记录场 景。每个摄像机包括:传感器,其配置成生成场景的视频数据,该视频数据包括一系列帧;第 一网络装置,其配置成将视频数据和与视频数据相关的特征向量传输至处理站;和特征提 取处理器,其操作性地连接至所述传感器和所述网络装置。所述特征提取处理器配置成:识 别由所述传感器生成的视频数据中的多个特征向量;在第一网络装置处于第一操作模式的 情况下仅将所述多个特征向量传输至处理站;和在第一网络装置处于第二操作模式的情况 下仅响应于处理站对视频数据的请求而将视频数据传输至处理站。视频监视系统还包括处 理站,其具有:第二网络装置;视频输出装置;和处理器,其操作性地连接至第二网络装置和 所述视频输出装置。该处理器配置成:通过第二网络装置接收由所述多个摄像机中的每个 摄像机生成的所述多个特征向量;参考从所述多个摄像机中的至少两个接收的所述多个特 征向量而识别场景中的对象和对象动作;参考事件的预定数据库而识别与场景中的对象动 作对应的事件;生成传送来自所述多个摄像机中的至少一个摄像机的视频数据的请求;和 通过视频输出装置生成来自所述至少一个摄像机的视频数据的图形显示,以显示与所述事 件相关的对象。
[0008] 在另一实施例中,发展了一种用于实施场景监视的方法。该方法包括:通过第一摄 像机中的传感器生成场景的第一视频数据,第一视频数据包括第一系列帧;通过第一摄像 机中的特征提取处理器识别第一视频数据中的第一多个特征向量;在第一操作模式中通过 第一摄像机中的网络装置仅将第一多个特征向量传输至处理站;在第二操作模式中仅响应 于处理站对第一视频数据的请求通过第一摄像机中的网络装置将第一视频数据传输至处 理站;通过第二摄像机中的另一传感器生成场景的第二视频数据,第二视频数据包括第二 系列帧,第二摄像机与第一摄像机相比从不同的位置生成场景的第二视频数据;通过第二 摄像机中的另一特征提取处理器识别第二视频数据中的第二多个特征向量;在第一操作模 式中通过第二摄像机中的另一网络装置仅将第二多个特征向量传输至处理站;在第二操作 模式中仅响应于处理站对第二视频数据的请求通过第二摄像机中所述另一网络装置将第 二视频数据传输至处理站;通过处理站中的另一网络装置接收来自第一摄像机的第一多个 特征向量和来自第二摄像机的第二多个特征向量;通过处理站中的事件处理器参考第一和 第二多个特征向量来识别场景中的对象和对象动作;通过处理站中的事件处理器参考事件 的预定数据库来识别对应于场景中的对象动作的事件;通过处理站中的事件处理器生成用 于传送来自第一摄像机和第二摄像机中的至少一个的视频数据的请求;和通过视频显示装 置生成从第一摄像机和第二摄像机中的至少一个接收的视频数据的图形显示,并通过视频 输出装置显示与所述事件相关的对象。
【附图说明】
[0009] 图1是视频监控系统的示意图。
[0010] 图2是示出了用于使用从观察场景的多个摄像机传输的元数据来识别事件的流程 图的图。
[0011] 图3是在多数票决配置中针对从多个摄像机生成的事件的特征向量节点图表的 图。
[0012] 图4是在多链条配置中针对从多个摄像机生成的事件的特征向量节点图表的图。
[0013] 图5是在多视场配置中针对从多个摄像机生成的事件的特征向量节点图表的图。
[0014] 图6是由监视系统中的多个摄像机生成的场景的一组图像。
【具体实施方式】
[0015] 为了有助于理解本文所述实施例的原理的目的,现在将参照附图和随后的书面说 明中的描述。并非由此意图对主题的范围进行限制。说明书还包括对所示出的实施例的任 意改变和修改,且包括本公开所属领域的普通技术人员通常会想到的所述实施例的原理其 他应用。
[0016] 在本文中,术语"场景"描绘了由监视系统使用多个摄像机监控的单个区域,所述 多个摄像机位于多个位置处以便从不同方向查看场景。场景的示例包括、但不限于房间、门 厅、广场、出入路线、街道、十字路口、零售商店、停车场设施等。
[0017] 在本文中,术语"稀疏编码"涉及用于生成相应于大量输入的数据的方法,所述数 据使用多个"基向量"和"稀疏权重向量"而编码为向量。基向量使用惩罚优化过程 (penalized optimization process)生成,所述惩罚优化过程应用于在训练过程期间提供 的多个预定输入向量。在一个实施例中,现有技术已知的1:优化过程用于生成相应于多个 输入训练向量的基向量和稀疏权重向量。所使用的涉及向量或者矩阵的术语"稀疏"描述具 有多个元素的向量或矩阵,其中给大多元素分配零值。在本文中,当应用于向量时术语"维 度"涉及向量中的元素的数量。例如,具有三个元素的行向量或者列向量称为具有维度3,而 另一个具有四个元素的行向量或者列向量称为具有维度4。
[0018] 在本文中,术语"元数据"涉及在视频或者其它传感器数据中所辨识的对象的特 性。例如,如果对象沿随路径穿过视频摄像机的视场,则相应于对象的元数据可选地包括对 象在视频数据的帧中的二维位置、对象的速度、对象的动作方向、对象的大小以及对象存在 于摄像机的视场中的时间持续。如以下所描述的那样,参照对象的所观察的元数据来辨识 事件。元数据不要求以特定性来辨识对象。在一个实施例中,元数据不辨识对象是特定的人 或者甚至不辨识人类。然而,如果事件与预期的人动作相似,则替代的实施例推断出元数据 相应于人、如朝一个方向并且以相应于人走过摄像机的速度动作的对象的元数据。附加地, 仅仅对于短的时间追踪单个对象并且元数据不在延长的时间期间上辨识相同的对象。因 此,除为了以后的调取存储视频数据拍摄以外,所存储的元数据和高兴趣事件根据元数据 的辨识不需要个人可辨识信息(PII)的收集和存储。
[0019] 在本文中,术语"特征向量"或更简单地说"特征"是指与对象中的、在对象的视频 数据中识别的区别结构对应的元数据向量。元数据中的每个元素也被称为"特征描述符", 且特征向量包括多个特征描述符。例如,人体或人体部分(比如臂和腿)的近似形状在视频 数据中被识别。人体不同于周围环境,且特征向量包括在视频数据中描述人体的方面的数 据,视频数据例如包括场景中的对象的大小、位置和方位。如果视频数据包括多个人,且每 个人可使用单个特征向量来描述,或每个人可使用用于不同身体部分(比如臂、腿、躯干等) 的多个特征向量来描述。
[0020] 在本文中,术语"词典"是指使用稀疏编码过程生成的多个基础向量。当词典在训 练过程期间生成后,词典中的基础向量用于识别任意输入向量与用于在训练过程期间生成 词典中的基础向量的输入向量之间的相似度。优化技术用于使用稀疏权重向量选择基础向 量的组合,以生成估计任意输入向量的重构向量。重构的估计向量和实际的输入向量之间 的识别误差提供了输入向量与词典之间的相似度的度量。
[0021] 在本文中,术语"关键帧"是指在由场景中人或其他对象实施的动作的视频序列中 被看做是代表整个动作的图像帧。动作的视频序列通常包括两个或多个关键帧,且下文更 详细描述的训练过程包括识别视频序列中的有限的N个关键帧。特定事件的每个视频序列 包括相同数量的N个关键帧,每个关键帧所出现的时间可根据视频序列的角度以及在用作 训练数据的不同视频序列之间变化。在训练过程期间从一个或多个角度记录的受关注事件 包括视频数据的一系列帧。例如,描述人从座位站立起来的视频序列是事件。注释者在来自 围绕人定位的多个摄像机的视频流中的人站立的视频序列中识别关键帧。然后,事件处理 器或另一合适的处理装置从所识别的关键帧提取特征,以便识别对应于事件的一系列特征 向量。从不同视角描述由一个或多个人或对象实施的相同事件的一组训练的多个视频序列 形成了用于从视频序列中的每个选择关键帧的基础。在训练数据中从视频序列中选择的关 键帧提取的特征形成了用于词典的基础,该词典并入数据库中,以用于识别由视频监视系 统所监控的不同场景中的其他人或对象实施的类似动作。
[0022] 在本文中,术语"同步帧"是指视频数据的一帧,该帧在摄像机中生成且包括由摄 像机中的特征提取处理器提取的特征以形成完全特征向量。完全特征向量包括与视频数据 的帧中的被识别特征对应的所有数据。当对象(比如人)移动通过场景时,随后的图像帧中 的视频数据捕获该移动,且特征提取处理器生成稀疏特征向量,所述稀疏特征向量仅包括 被识别特征中相对于包括该特征的先前帧、比如同步帧的变化。在一些实施例中,视频摄像 机以定期间隔(例如视频数据的每60帧一次)生成同步帧。本领域已知的特征向量提取技术 包括、但不限于维数约减技术,包括主分量分析、边缘检测和尺度不变特征变换。在一些实 施例中,场景中的被识别对象被编码以方向梯度直方图(H0G)外观特征描
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1