采用视频原语的视频监视方法及系统与流程

文档序号：15523218发布日期：2018-09-25 20:11阅读：165来源：国知局

本发明涉及一种针对采用视频原语的自动视频监视的系统。

参考文献

为了方便读者，下面列出了这里所参考的参考文献。在规范中，括号内的数字表示相应的参考文献。所列出的参考文献在这里合并作为参考。

下列参考文献描述了运动目标检测：

{1}A.Lipton，H.Fujiyoshi and R.S.Patil，″Moving Target Detection and Classification from Real-Time Video，″Proceedings of IEEE WACV′98. Princeton，NJ，1998，pp.8-14.

{2}W.E.L.Grimson，et al.，″Using Adaptive Tracking to Classify and Monitor Activities in a Site″，CVPR，pp.22-29，June 1998.

{3}A.J.Lipton，H.Fujiyoshi，R.S.Patil，″Moving Target Classification and Tracking from Real-time Video，″IUW，pp.129-136，1998.

{4}TJ.Olson and F.Z.Brill，″Moving Object Detection and Event Recognition Algorithm for Smart Cameras，″IUW，pp.159-175，May 1997.

下列参考文献描述了对人的检测和跟踪：

{5}A.J.Lipton，″Local Application of Optical Flow to Analyse Rigid Versus Non-Rigid Motion，″International Conference on Computer Vision， Corfu，Greece，September 1999.

{6}F.Bartolini，V.Cappellini，and A.Mecocci，″Counting people getting in and out of a bus by real-time image-sequence processing，″IVC， 12(1)：36-41，January 1994.

{7}M.Rossi and A.Bozzoli，″Tracking and counting moving people，″ ICIP94，pp.212-216，1994.

{8}CR.Wren，A.Azarbayejani，T.Darrell，and A.Pentland，″Pfinder： Real-time tracking of the human body，″Vismod，1995.

{9}L.Khoudour，L.Duvieubourg，J.P.Deparis，″Real-Time Pedestrian Counting by Active Linear Cameras，″JEI，5(4)：452-459，October 1996.

{10}S.Ioffe，D.A.Forsyth，″Probabilistic Methods for Finding People，″IJCV，43(1)：45-68，June 2001.

{11}M.Isard and J.MacCormick，″BraMBLe：A Bayesian Multiple-Blob Tracker，″ICCV，2001.

下列参考文献描述了斑点分析：

{12}D.M.Gavrila，″The Visual Analysis of Human Movement：A Survey，″CVIU，73(1)：82-98，January 1999.

{13}Niels Haering and Niels da Vitoria Lobo，″Visual Event Detection，″Video Computing Series，Editor Mubarak Shah，2001.

下列参考文献描述了针对卡车、汽车、以及人的斑点分析：

{14}Collins，Lipton，Kanade，Fujiyoshi，Duggins，Tsin，Tolliver， Enomoto，and Hasegawa，″A System for Video Surveillance and Monitoring： VSAM Final Report，″Technical Report CMU-RI-TR-00-12，Robotics Institute，Carnegie Mellon University，May 2000.

{15}Lipton，Fujiyoshi，and Patil，″Moving Target Classification and Tracking from Real-time Video，″98 Darpa IUW，Nov.20-23，1998.

下列参考文献描述了分析单个人的斑点及其轮廓：

{16}CR.Wren，A.Azarbayejani，T.Darrell，and A.P.Pentland. ″Pfinder：Real-Time Tracking of the Human Body，″PAMI，vol 19，pp. 780-784，1997.

以下参考文献描述了斑点的内部运动，包括任何基于运动的分割 (segmentation)：

{17}M.Allmen and C.Dyer，″Long-Range Spatiotemporal Motion Understanding Using Spatiotemporal Flow Curves，″Proc.IEEE CVPR. Lahaina，Maui，Hawaii，pp.303-309，1991.

{18}L.Wixson，″Detecting Salient Motion by Accumulating Directionally Consistent Flow″，IEEE Trans.Pattern Anal.Mach.Intell.，vol. 22，pp.774-781，Aug，2000.

背景技术：

公共场所的视频监视已经变得非常普遍，并为公众所接收。不幸的是，传统的视频监视系统产生了大量的数据，以至于在对视频监视数据进行分析时导致了难以处理的问题。

存在减少视频监视数据量的需要，这样可以实施对视频监视数据的分析。

存在对视频监视数据进行过滤的需要，以识别出视频监视数据的期望部分。

技术实现要素：

本发明的目的是减少视频监视数据量，这样可以实施对视频监视数据的分析。

本发明的目的是对视频监视数据进行过滤，以识别出视频监视数据的期望部分。

本发明的目的是基于对来自视频监视数据的事件的自动检测而产生实时警报。

本发明的目的是将来自视频传感器的除了用于改进的搜索能力的视频以外的数据结合起来。

本发明的目的是将来自视频传感器的除了用于改进的事件检测能力的视频以外的数据结合起来。

本发明包括用于视频监视的一种产品(article of manufacture)、方法、系统以及装置。

本发明的产品包括计算机可读介质，该计算机可读介质包括针对视频监视系统的软件、包括用于基于视频原语来操作该视频监视系统的代码段。

本发明的产品包括计算机可读介质，该计算机可读介质包括针对视频监视系统的软件、包括用于访问存档视频原语的代码段，以及用于从所访问的存档视频原语中提取事件发生。

本发明的系统包括计算机系统，该计算机系统包括具有用以根据本发明来操作计算机的软件的计算机可读介质。

本发明的装置包括计算机，该计算机包括具有用以根据本发明来操作计算机的软件的计算机可读介质。

本发明的产品包括具有用以根据本发明来操作计算机的软件的计算机可读介质。

此外，本发明的上述目的和优点是对本发明所实现的那些的例证，而并非详尽的说明。因此，从这里的描述中，本发明的这些和其他目的和优点将变得显而易见，对本领域的那些技术人员而言，这里所体现的本发明的其他目的和优点以及考虑到任何变化对其所作的更改将变得显而易见。

定义

“视频”表示以模拟和/或数字形式表示的动画。视频的示例包括：电视、电影、来自摄像机或其他观测器的图像序列、计算机所产生的图像序列。

“帧”表示视频内的特定图像或其他离散单元。

“对象”表示视频中感兴趣的项目。对象的示例包括：人、车辆、动物、以及物理主体。

“活动”表示一个或多个动作和/或一个或多个对象的动作的一种或多种组合。活动的示例包括：进入、退出、停止、移动、提高、降低、增长、以及收缩。

“位置”表示活动可以发生的空间。例如，位置可以基于场景或基于图像。基于场景的位置的示例包括：公共场所、商店、零售场所、办公室、大商店、旅馆房间、酒店大堂、大厦门厅、娱乐场所、公共汽车站、火车站、飞机场、码头、公共汽车、火车、飞机以及轮船。基于图像位置的示例包括：视频图像、视频图像中的线、视频图像中的区域、视频图像中的矩形截面、以及视频图像的多边形截面。

“事件”表示一个或多个对象参与某个行为。事件可以涉及关于位置和/或时间。

“计算机”表示能够接收结构输入、根据指定规则处理结构输入、以及产生作为输出的处理结果的任意装置。计算机的示例包括：计算机、通用计算机、超级计算机、大型机、超小型计算机、迷你计算机、工作站、微型计算机、服务器、交互式电视、计算机和交互式电视的混合结构、以及模拟计算机的特定应用的硬件和/或软件。计算机可以具有单个处理器或多个处理器，该处理器可以并行和/或非并行地操作。计算机还表示通过用于在计算机之间发送或接收信息的网络连接在一起的两个或多个计算机。这种计算机的示例包括用于通过由网络所连接的计算机来处理信息的分布式计算机系统。

“计算机可读介质”表示用于存储可由计算机存取的数据的任意存储设备。计算机可读介质的示例包括：磁性硬盘、软盘、诸如CD-ROM和 DVD之类的光盘、磁带、存储芯片、用于携带计算机可读电子数据的载波，诸如那些用于发送和接收电子邮件或访问网络。

“软件”表示用于操作计算机的指定规则。软件的示例包括：软件、代码段、指令、计算机程序、以及程序逻辑。

“计算机系统”表示具有计算机的系统，其中该计算机包括采用软件来操作计算机的计算机可读介质。

“网络”表示多个计算机以及通过通信设备所连接的关联设备。网络包括诸如电缆之类的永久性连接或诸如通过电话或其他通信线路所构成的暂时连接。网络的示例包括：诸如互联网的互联网络(internet)、内联网、局域网(LAN)、广域网(WAN)以及诸如互联网和内联网之类的网络的组合。

附图说明

通过附图，对本发明的实施例进行更详细的说明，在附图中相同的附图标记表示相同特征。

图1示出了本发明的视频监视系统的平面图。

图2示出了针对本发明的视频监视系统的流程图。

图3示出了用于给视频监视系统分派任务的流程图。

图4示出了用于操作视频监视系统的流程图。

图5示出了用于提取视频监视系统的视频原语的流程图。

图6示出了对视频监视系统采取行动的流程图。

图7示出了针对视频监视系统的半自动校准的流程图。

图8示出了针对视频监视系统的自动校准的流程图。

图9示出了针对本发明的视频监视系统的附加流程图。

图10-15示出了本发明的视频监视系统应用于监视杂货店的示例。

图16a示出了根据本发明的实施例的视频分析子系统的流程图。

图16b示出了根据本发明的实施例的事件发生检测和响应子系统的流程图。

图17示出了示例性数据库询问。

图18示出了根据本发明的不同实施例的三个示例性活动检测器：检测绊网道口(图18a)、徘徊(图18b)、盗窃(图18c)。

图19示出了根据本发明的实施例的活动检测器询问。

图20示出了根据本发明的实施例的使用活动检测器和具有修正符的布尔操作符的示例性询问。

图21a和图21b示出了使用组合操作符、活动检测器、以及特性询问的多级的示例性询问。

具体实施方式

本发明的自动视频监视系统是为了例如市场调查或保安目的而用于监视位置。该系统可以是具有为特定目的所建造的监视组件的专用视频监视装置，或者该系统可以是对借用监视视频馈入信号而工作的现有视频监视设备的改进。该系统能够分析来自实况源或记录介质的视频数据。该系统能够实时处理视频数据，并存储所提取的视频原语，以便随后允许非常高速的公开辩论事件的检测。该系统可以对分析具有指定的响应，诸如记录数据、激活警报机制、或激活另一个传感器系统。该系统还能够结合其他监视系统组件。例如，可以将该系统用于产生安全或市场调查报告，该安全或市场调查报告可以根据操作者的需要来进行加工，并且作为选择，可以通过基于交互式网络接口或其他报告机制来呈现。

通过使用事件鉴别器，操作者在配置系统方面具有最大灵活性。以一个或多个对象(其描述基于视频原语)连同一个或多个可选的空间属性和/或一个或多个可选的时间属性来识别事件鉴别器。例如，操作者可以将事件鉴别器(在这个示例中称为“徘徊”)“人物”对象在“自动取款机”空间停留“超过15分钟”以及“在10:00p.m到6:00a.m之间”。可以将事件鉴别器与改良后的布尔操作符相结合以形成更复杂的询问。

尽管本发明的视频监视系统利用来自公共域的公知的计算机视频技术，本发明的视频监视系统具有若干当前不可用的独特且新颖的特征。例如，当前视频监视系统使用大量视频图像作为信息交换的初级产物。本发明的系统使用视频原语作为具有被用作旁证的典型视频图像的初级产物。还可以校准(手动地、半自动地、或自动地)本发明的系统，并由此可以自动从视频图像中推断出视频原语。该系统还可以分析先前已处理的视频，而不需要整个对该视频进行重新处理。通过分析先前已处理的视频，该系统可以基于先前已记录的视频原语来执行推论分析，从而大大地改进了计算机系统的分析速度。

视频原语的使用还可以显著地减少针对视频的存储需要。这是因为事件检测和响应子系统只使用视频来例证检测。因此，可以以较低质量来存储该视频。在可能的实施例中，仅在检测到活动时(而非一直)可以存储视频。在另一个可能的实施例中，所存储的视频的质量可以取决于是否检测到活动：当检测到活动时，可以以较高质量(较高帧速率和/ 或比特率)来存储视频。在另一个示例性实施例中，例如可以由数字录像机(DVR)来对视频存储和数据库进行分别处理，并且该视频处理子系统可以只控制是否存储数据以及以什么质量来存储。

作为另一个示例，本发明的系统提供了独特的系统任务分派法。通过使用设备控制指示，当前视频系统允许用户决定视频传感器的位置以及，在一些复杂的传统系统中，允许用户屏蔽感兴趣或不感兴趣的区域。设备控制指示是用于控制摄像机的位置、方向、以及焦距的指令。本发明的系统使用基于视频原语的事件鉴别器作为初级任务分派机制，以代替设备控制指示。通过使用事件鉴别器和视频原语，操作者在传统的系统上具有更加直观的方法，用以从系统提取有用信息。可以以人类直觉的方式使用基于视频原语的一个或更多事件鉴别器(诸如“一个人进入限制区域A”)来为本发明的系统分派任务，而不是使用设备控制指示(诸如“摄像机A向左偏45度”)来为系统分派任务。

将本发明用于市场调查，下列是可以使用本发明来执行的视频监视类型的示例：计算商店里的人数、计算商店的一部分中的人数、计算停留在商店的特定位置的人数、测量人们在商店中所花费的时间、测量人们在商店的一部分中所花费的时间、以及测量商店中的队伍的长度。

将本发明用于保安，下列是可以使用本发明来执行的视频监视类型的示例：确定任何一个人进入受限区域的时间并存储关联图像；确定人们何时以不寻常的次数进入区域；确定在未被授权的情况下货架和储藏室何时发生变化；确定飞机器上的乘客何时靠近座舱；确定人们何时通过保安入口；确定机场是否存在无人看管的袋子；以及确定是否存在对财产的偷窃行为。

示例性应用区域可以是入口控制，这可以包括例如：检测人们是否翻过栅栏或进入禁止区域；检测是否有人在错误的方向上运动(例如，在机场，通过出口进入保安区域)；确定在感兴趣区域检测到的对象数量是否与基于RFID标签或针对条目的读卡的期望数量不匹配，从而指示了未授权人员的存在。这还可以用于住宅区应用，其中视频监视系统能够区分人和宠物的运动，从而消除多数错误的警报。要注意的是，在许多住宅区应用中，可能涉及到隐私；例如，房主可能不希望另一个人在远程监视他的住宅并能够看到房屋里有什么以及房屋里发生了什么。因此，在这种应用所使用的一些实施例中，可以局部地执行视频处理，并且只在必要的时候(例如，对罪犯行为或其他危险情况的检测，但不局限于此)将可选的视频或瞬象发送给一个或更多远端监视站。

另一个示例性应用区域可以是财产监视。这可以表示检测对象是否从场景中拿走对象，例如，如果将石器从博物馆拿走。在零售环境中，财产监视可以具有多个方面，并可以包括例如：检测是否有人拿走可疑的大量给定项目；确定是否有人通过入口离开，尤其是是否在推购物车时做这件事；确定是否有人将不匹配的价格标签贴到项目上，例如往袋子里装满最贵的咖啡种类，但使用较便宜种类的价格标签；或者检测是否有人带着具有大箱子的装载支架离开。

另一个示例性应用区域可以是针对防护目的。例如，这可以包括：检测是否有人滑倒和跌倒，例如在商店或停车场里；检测是否有车辆在停车场中超速驾驶；检测站台上没有火车时是否有人过于靠近火车或地铁站的站台边缘；检测铁轨上是否有人；检测当火车开始移动时是否有人夹在火车的门上；或者计算进入和离开该设施的人数，由此保持准确的总人数，这在紧急情况下非常重要。

另一个示例性应用区域可以是交通监视。这可以包括检测是否有车辆停止，尤其是在比如桥或隧道这样的地方，或者检测是否有车辆停放在禁止停车区域。

另一个示例性应用区域可以是防止恐怖行动。除了先前所提到的应用中的一些以外，这还可以包括：检测是否有对象留在机场中央大厅、是否有对象被栅栏所覆盖、或者是否有对象留在铁路轨道上；检测是否有人徘徊或者有车辆环绕在重要的基础设施周围；或者检测在码头或开阔水面上是否有快速移动的小船靠近轮船。

另一个示例性应用区域可以是护理病人和老人，包括在家里。例如，这可以包括：检测是否有人跌倒；或者检测不寻常的行为，比如有人在延长时间段内不进入厨房。

图1示出了本发明的视频监视系统的平面图。计算机系统11包括计算机12，计算机12包含用以根据本发明来操作计算机12的软件的计算机可读介质13。计算机系统11与一个或更多视频传感器14、一个或更多视频记录器15、以及一个或更多输入/输出(I/O)设备16相连。可选地，视频传感器14还可以与视频记录器15相连，以便对视频监视数据进行直接记录。可选地，该计算机系统与其他传感器17相连。

视频传感器14向计算机系统11提供源视频。例如，每个视频传感器14都可以使用直接连接(例如火警线数字摄像机接口)或网络来与计算机系统11相连。视频传感器14可以在本发明的安装之前存在，或者可以被安装作为本发明的一部分。视频传感器14的示例包括：摄像机、数字摄像机、彩色照相机、黑白照相机、照相机、可携式摄像机、PC照相机、网络摄像机、红外摄像机、以及CCTV摄像机。

视频记录器15从计算机系统11接收视频监视数据用于记录，或者向计算机系统11提供源视频。例如，每个视频记录器15都可以使用直接连接或网络来与计算机系统11相连。视频记录器15可以在本发明的安装之前存在或者被安装为本发明的一部分。计算机系统11中的视频监视系统可以控制视频记录器15何时以及以什么质量设置来记录视频。视频记录器15的示例包括：录像机、数字录像机、录像盘、以及计算机可读介质。

I/O设备16向计算机系统11提供输入并接收来自计算机系统11的输出。I/O设备16可用于给计算机系统11分派任务，并产生来自计算机系统11的报告。I/O设备16的示例包括：键盘、鼠标、输入笔、监视器、打印机、另一个计算机系统、网络、以及警报。

其他传感器17向计算机系统11提供附加输入。例如，每个其他传感器17都使用直接连接或网络来与计算机系统11相连。其他传感器17 可以在本发明的安装之前存在或者被安装为本发明的一部分。其他传感器17的示例包括：运动传感器、光绊网、生物传感器、RFID传感器、以及基于卡或者基于键盘的授权系统，但不局限于此。其他传感器17 的输出可以由计算机系统11、记录设备和/或记录系统来记录。

图2示出了针对本发明的视频监视系统的流程图。参考图10-15对本发明的各个方面进行例证，图10-15示出了适于监视杂货店的本发明的视频监视系统的示例。

在框21中，如图1中所讨论地对视频监视系统进行设置。每个视频传感器14都朝向视频监视的位置。计算机系统11与来自视频设备14 和15的视频馈入相连。可以使用现有设备或针对该位置最新安装的设备来实现该视频监视系统。

在框22中，对视频监视系统进行校准。一旦该视频监视系统由于框21而位于适当位置，则校准发生。框22的结果是视频监视系统能够确定由视频传感器所提供的视频图像中的不同位置处的特定对象(例如人物)的近似绝对大小和速度。可以使用手动校准、半自动校准、和自动校准来对该系统进行校准。在框24的讨论之后，对校准进行进一步描述。

在图2的框23中，给视频监视系统分派任务。分派任务发生在框 22的校准之后，并且是可选的。给视频监视系统分派任务包括指定一个或更多事件鉴别器。在没有分派任务的情况下，视频监视系统通过检测并存档视频原语以及关联视频图像来进行操作，而不采取如图4中的框 45所示的任何行动。

图3示出为了给视频监视系统分派任务而确定事件鉴别器的流程图。事件鉴别器表示与一个或更多空间属性和/或一个或更多时间属性可选地互相作用的一个或更多对象。根据视频原语(也称为活动描述元数据)来描述事件鉴别器。视频原语设计准则中的一些包括下列：被从视频流中实时提取出来的能力；对来自视频的所有相关信息的包含；以及表示的简明扼要。

希望从视频流中实时提取出视频原语，以使得该系统能够产生实时警报，这样做的原因是因为视频提供了连续的输入流，从而系统不会落后。

因为在提取视频原语的时候，用户所定义的规则并不为系统所知，所以视频原语还应该包含来自视频的所有相关信息。因此，视频原语应该包含能够用以检测用户所指定的任何事件的信息，而不需要回到视频并对其进行重新分析。

出于多方面的原因，还希望简明扼要的表示。所提出的发明的一个目标可以是延长监视系统的存储再循环时间。如上述所讨论的，这可以通过存储活动描述元数据以及其质量取决于活动的存在的视频来代替始终存储优质视频。因此，视频原语越简明，则可以存储越多的数据。此外，视频原语的表示越简明，数据存取变得越快，并且反过来这可以加快辩论(forensic)搜索。

视频原语的准确内容可以依靠应用以及感兴趣的可能事件。下面对一些示例性实施例进行描述。

视频原语的示例性实施例可以包括描述了全部场景和视频的场景/ 视频描述符。通常，这可以包括对场景出现的详细描述，例如天空、植物、人造对象、水等的位置；和/或气象条件，例如降雨、雾等的存在/ 缺乏。例如，针对视频监视应用，全景的改变很重要。示例性描述符可以描述突然的光线改变；该描述符可以指示摄像机的运动，尤其是摄像机开始或停止运动的事实，以及在后者的情况下，摄像机是否回到其先前的场景或至少回到先前已知的场景；该描述符可以指示视频馈入的质量，例如，如果视频馈入突然变得更加嘈杂或变暗，则潜在地指示正在削弱馈入；或者该描述符可以示出沿着水主体的水线的改变(为了关于对后者问题的特定方法的更多信息，例如可以参考2004年10月1日提交的共同未决的美国专利申请No.10/954,479，其内容在此合并作为参考)

视频原语的另一个示例性实施例可以包括涉及在视频馈入中所观察到的对象的显著属性的对象描述符。存储关于对象的什么信息可以取决于应用区域和可用处理能力。示例性对象描述符可以包括通用属性，该通用属性包括大小、形状、周长、轨迹、速度和运动方向、运动前景及其特征、颜色、硬度、质地和/或分类，但不局限于此。对象描述符还可以包含更多应用和类型的特定信息：对于人类，这可以包括相貌和肤色比、性别和种族信息、描述了人类外形和姿态的一些人类身体模型；或者对于车辆，这包括类型(例如卡车、SUV、轿车、自行车等)、制造、型号、牌照号。对象描述符还可以包含活动，该活动包括携带对象、奔跑、步行、站立、或抬高手臂，但不局限于此。诸如交谈、打架、或碰撞之类的一些活动也可以涉及其他对象。对象描述符还可以包含识别信息，该识别信息包括脸或步态，但不局限于此。

视频原语的另一个示例性实施例可以包括描述视频中的每个区域的运动的方向的流描述符。例如，可以将这种描述符用于通过检测禁止方向上的任何运动来检测反传事件(为了得到关于对此后者问题的特定方法的更多信息，例如可以参考2004年1月30日提交的共同未决的美国专利申请No.10/766,949，其内容在此合并作为参考)。

原语也可以来自非视频源，例如音频传感器、热传感器、压力传感器、读卡机、RFID标签、生物传感器等。

分类指的是对属于特定类别或种类的对象的识别。分类的示例包括：人、狗、车辆、警车、个人、以及特定类型的对象。

大小指的是对象的尺寸属性。大小的示例包括：大、中、小、平、高于1英尺、低于1英尺、比3英尺宽、比4英尺薄；关于人类大小；比一个人大、比一个人小；关于汽车大小；具有近似像素尺寸的图像中的矩形；以及多个图像像素。

位置指的是对象的空间属性。例如，位置可以是像素坐标中的图像位置、一些地球坐标系统中的绝对的真实世界的位置、或相对于地标或另一个对象的位置。

颜色指的是对象的色彩属性。颜色的示例包括：白色、黑色、灰色、红色、HSV值的范围、YUV值的范围、RGB值的范围、平均RGB值、平均YUV值、以及RGB值的柱状图。

硬度指的是对象的形状一致性属性。非刚性对象(例如人或动物) 的形状可以从帧到帧地改变，而刚性对象(例如车辆或房屋)可以基本上保持帧到帧不变(除非可能由于翻转而产生的微小变化)。

质地指的是对象的模式属性。质地特征的示例包括：自相似性、谱功率、线性、以及粗度。

内部运动指的是对象刚性的测量。完全刚性的对象的示例是汽车，其没有呈现出大量内部运动。完全非刚性对象的示例是具有摆动的手臂和腿的人，其呈现出了大量的内部运动。

运动指的是可以被自动检测到的任意运动。运动的示例包括：对象的出现、对象的消失、对象的垂直运动、对象的水平运动、以及对象的周期运动。

显著运动指的是可以被自动检测到并且可以在一段时间内跟踪的任意运动。这种移动着的对象呈现出目的明显的运动。显著运动的示例包括：从一个位置移动到另一个位置；以及移动到与另一个对象结合。

显著运动的特征指的是显著运动的特性。显著运动的特征的示例包括：轨迹、象空间中的轨迹的长度、对轨迹在环境的三维表示中的近似长度、对象在象空间中作为时间函数的位置、对象在环境的三维表示中作为时间函数的近似位置、轨迹的持续时间、象空间中的速度(例如速率和方向)、环境的三维表示中的近似速度(例如速率和方向)、速率的持续时间、象空间中的速率的改变、环境的三维表示中的速度的近似改变、速度的改变的持续时间、运动的中止、以及运动中止的持续时间。速度指的是对象在特定时刻处的速率和方向。轨迹表示在可以跟踪对象或者时间段内对象的(位置，速度)对的集合。

场景改变指的是可以检测到在一端时间内改变的场景中的任意区域。场景改变的示例包括：离开场景的固定对象；进入场景并变成固定的对象；在场景中改变位置的对象；以及改变外观的对象(例如，颜色、形状、或大小)。

场景变化的特征指的是场景变化的特性。场景变化的特征的示例包括：象空间中的场景变化的大小、环境的三维表示中的场景变化的近似大小、场景变化发生的时刻、象空间中的场景变化的位置、以及在环境的三维表示中的场景变化的近似位置。

预定模型指的是对象中的先验已知模型。预定模型的示例可以包括：成年人、儿童、车辆、以及半拖挂车。

图16a示出了根据本发明的实施例的视频监视系统的示例性视频分析部分。在图16a中，视频传感器(例如视频摄像机，但不局限于此) 1601可以为视频分析子系统1603提供视频流1602。然后，视频分析子系统1603可以执行对视频流1602的分析以推导出视频原语，然后可以将该视频原语存储在原语存储器1605中。还可以将原语存储器1605用于存储非视频原语。视频分析子系统1603还可以控制视频流1602的全部或部分在视频存储器1604中的存储，例如如上述所讨论的视频质量和 /或数量。

现在，参照图16b，一旦视频和非视频(如果存在其他传感器)原语161可用，则该系统可以检测事件。用户通过定义规则163以及使用该规则和响应定义接口162的相应响应164来给系统分派任务。将该规则翻译成事件鉴别器，然后系统提取相应的事件发生165。所检测到的事件发生166触发用户所定义的响应167。响应可以包括从视频存储器 168(可以与图16a中的视频存储器1604相同，也可以不同)所检测到的事件的视频的快照。视频存储器168可以是视频监视系统的一部分，或者可以是单独的记录设备15。响应的示例可以包括：激活系统显示上的视觉和/或音频警报；激活某个位置处的视觉和/或音频警报系统；激活无声警报；激活快速响应机制；锁上门；联系保安服务；通过网络将数据(例如，图像数据、视频数据、视频原语、和/或分析数据)转发给另一个计算机系统(例如互联网，但不局限于)；将这种数据保存到指定的计算机可读介质中；激活一些其他传感器或视频系统；给计算机系统 11和/或另一个计算机系统分派任务；和/或控制计算机系统11和/或另一个计算机系统，但不局限于此。

可以将原语数据设想为数据库中所存储的数据。为了检测其中的事件发生，需要有效的询问语言。本发明的系统的实施例可以包括下面将要描述的活动推断语言。

传统的关系数据库询问模式通常遵循布尔二进制树结构，以允许用户创建关于所存储的各种类型的数据的灵活询问。叶节点通常是“特性关系值”，其中特性是数据(诸如时间或名称)的一些关键特征；关系通常是数字操作符(“＞”、“＜”、“＝”等)；以及值是该特性的有效状态。分支节点通常表示诸如“与”、“或”、“非”之类的一元或二元布尔逻辑操作符。

这可以形成本发明的实施例中的活动询问公式模式的基础。在视频监视系统的情况下，特性可以是在视频流中所检测到的对象的特征，例如大小、速度、分类(人、车辆)，或者特性可以是场景变化特性。图 17给出了使用这种询问的示例。在图17a中，提出了询问：“让我看任何一辆红色车辆”171。可以将此分解成两个“特性关系值”(或简单地为“特性”)询问，以测试对象的分类是否为车辆173，及其颜色是否主要是红色174。这两个子询问可以与布尔操作符“与”172组合在一起。类似地，在图17b中，可以将询问：“让我看摄像机何时开始或停止移动”表示成特性子询问(“使摄像机开始移动”177和“使摄像机停止移动” 178)的布尔“或”176组合。

本发明的实施例可以将这种类型的数据库询问模式扩展成两种示例性方式：(1)可以使用描述场景内的空间活动的活动检测器来增加基本的叶节点；以及(2)可以使用指定空间、时间以及对象相互关系的修正符来增加布尔操作符的分支节点。

活动检测器与涉及视频场景的区域的行为相对应。活动检测器描述了对象如何与场景中的位置相互作用。图18示出了三种示例性活动检测器。图18a表示使用虚视频绊网横在特定方向的周边的行为(为了得到关于如何实现这种虚视频绊网的更多信息，例如可以参考美国专利申请 No.6，696，945)。图18b表示在铁路轨道上徘徊一段时间的行为。图 18c表示从墙截面取走某物的行为(对于如何完成上述的示例性方法，可以参考2003年1月30日提交的名为“Video Scene Background Maintenance-Change Detection & Classification”的美国专利申请No. 10/331,778)。其他示例性活动检测器可以包括：检测倒下的人、检测变化方向或速度的人、检测进入一个区域的人、或检测沿着错误的方向离开的人。

图19示出了如何将活动检测器叶节点(这里，横着的绊网)与简单的特性询问相结合以检测一辆红色车辆是否越过视频绊网191的示例。将特性询问172、173、174以及活动检测器193与布尔“与”操作符192进行组合。

询问与改进后的布尔操作符的组合(组合操作符)可以增加更多的灵活性。示例性修正符包括空间、时间、对象以及计数器修正符。

空间修正符可以使得布尔操作符只对在场景内最接近/非最接近的儿童活动起作用(即，布尔操作符的自变量，例如下面图19中所示的布尔操作符)。例如，可以将“与-50个像素以内”用于表示“与”只应用于活动之间的距离小于50个像素的情况。

时间修正符可以使得布尔操作符只对相互的特定时间段内、这个时间段外、或次数范围内发生的儿童活动起作用。还可以指定事件的时间排序。例如，可以将“与-第二的10秒内的第一”用于表示“与”只应用于在第一儿童活动之后不超过10秒内发生第二儿童活动的情况。

对象修正符可以使得布尔操作符只对所发生的包括相同或不同对象的儿童活动起作用。例如，可以将“与-包括相同的对象”用于表示“与”只应用于两个儿童活动包括相同的特定对象的情况。

计数器修正符可以使得布尔操作符仅在以预定次数满足条件时被触发。计数器修正符通常可以包括数字关系，例如“至少n次”、“刚好 n次”、“至多n次”等。例如，可以将“或-至少两次”用于表示“或”操作符的至少两次子询问必须是真实的。此外，可以将计数器修正符用于实现诸如“如果同一个人从架子上拿走至少五件物品，则警报”之类的规则。

图20示出了使用组合操作符的示例。这里，所需要的活动询问是“找到进行了违章左转的红色车辆”201。可以通过活动描述符和改进的布尔操作符的组合来捕捉违章左转。可以使用虚绊网(tripwire)来检测出了边道的对象193，并且可以使用另一个虚绊网来检测沿着公路204向左移动的对象205。这些可以由改进的“与”操作符202来组合。标准布尔“与”操作符保证必须检测行为193和205。对象修正符203检查相同的对象越过两个绊网，而时间修正符204检查首先自下而上地越过绊网193，之后在10秒内自右向左地越过绊网205。

这个示例还指示了组合操作符的能力。理论上，可以定义针对左转的单独活动检测器，而不需要依靠简单的活动检测器和组合操作符。然而，该检测器将是不可变的，从而很难适应任意旋转角度和方向，并且针对所有潜在的事件都写单独的描述符也比较麻烦。相比之下，使用组合操作符和简单的检测器提供极大的灵活性。

可以被检测作为较简单的组合的复杂活动的其他示例可以包括汽车停放、人走出汽车或者多个人形成群、紧跟在前面车辆之后行驶。这些组合操作符还可以组合不同类型及来源的原语。示例可以包括以下规则：例如“在关灯之前将人领进房间”、“在没有优先磁条卡的情况下让人进门”、或“示出是否感兴趣区域具有多于RFID标签读卡机所预期的对象”，即区域中没有RFID标签的非法对象。

组合操作符可以组合任意数量的子询问，并且组合操作符甚至可以将其他组合操作符组合成任意深度。图21a和21b中所示出的示例可以是检测车辆是否左转2101然后右转2104的规则。可以使用方向性绊网 2102和2103来检测左转2101，而使用方向性绊网2105和2106来检测右转2104。通过与具有对象修正符“相同”2117以及时间修正符“2112 在2113之前”的2118“与”组合操作符2111相结合，可以将左转表示为分别与绊网2102和2103相对应的绊网活动描述符2112和2113。类似地，通过与结合具有对象修正符“相同”2119以及时间修正符“2115 在2116之前”2120的“与”组合操作符2114，可以将右转表示为分别与绊网2105和2106相对应的绊网活动描述符2115和2116。为了检测先左转然后右转的同一对象，左转检测器2111和右转检测器2114与具有对象修正符“相同”2122和时间修正符“2111在2114之前”2123的“与”组合操作符2121相结合。最后，为了保证所检测到的对象为车辆，将布尔“与”操作符2125用于将左右转检测器2121和特性询问2124 进行组合。

所有这些检测器可选地与时间属性进行组合。时间属性的示例包括：每15分钟、9:00pm和6:30am之间、小于5分钟、超过30秒、以及超过周末。

在图2的框24中，对视频监视系统进行操作。本发明的视频监视系统自动操作、检测以及归档场景中的对象的视频原语，并使用事件鉴别器实时检测事件发生。此外，适当地采取实时行动，例如归档警报、产生报告、以及产生输出。可以将报告和输出显示和/或本地存储到系统或通过诸如互联网之类的网络存储到别处。图4示出了用于操作视频监视系统的流程图。

在框41中，计算机系统11从视频传感器14和/或视频记录器15中获得源视频。

在框42中，实时从源视频中提取出视频原语。可选地，可以从一个或更多其他传感器17中获得和/或提取出非视频原语，并且可以将其用于本发明。视频原语的提取如图5所示。

图5示出了用于为视频监视系统提取视频原语的流程图。框51和 52并行操作，并且可以按照任意顺序或同时执行框51和52。在框51 中，通过移动检测对象。可以将以像素等级来检测帧之间的运动的任意运动检测算法用于此框。作为示例，可以使用{1}中所讨论的三帧区分技术。将所检测到的对象转发到框53。

在框52中，通过变化检测对象。可以将从背景模型中检测变化的任意变化检测算法用于此框。如果认为帧中的一个或更多像素位于帧的显著位置，则在此框中检测对象，因为像素不符合帧的背景模型。作为示例，可以使用诸如在{1}中以及2000年12月24日提交的美国专利申请No.09/694,712中所描述的动态自适应背景减法之类的随机背景建模技术。将所检测到的对象转发给框53。

框51中的运动检测技术和框52中的变化检测技术是互补技术，其中每项技术都有利地提出了另一项技术中的不足。可选地，可以将另外和/或备选的检测方案用于针对框51和52所讨论的技术。另外和/或备选的检测方案的示例包括以下：如{8}中所述的用于找人的Pfinder检测方案；肤色检测方案；脸检测方案；以及基于模型的检测方案。将这种另外和/或备选的检测方案的结果提供给框53。

可选地，如果视频传感器14具有运动(例如扫描、放大和/或平移的视频摄像机)，则可以在框51和52之前插入附加框以便向框51和52 提供为了视频稳定性的输入。可以通过仿射或投射全局运动补偿来实现视频稳定性。例如，可以将2000年7月3日提交的美国专利申请 No.09/609,919(现在为美国专利No.6,738,424，其内容在此合并作为参考)中所描述的图像定位用于获得视频稳定性。

在框53中，产生斑点。通常，斑点是帧中的任一对象。斑点的示例包括：移动中的对象，例如人或车辆；以及消费品，例如一件家具、成衣制品、或零售货架物品。使用从框32和33中所检测到的对象来产生斑点。可以将用于产生斑点的任意技术用于此框。用于从运动检测和变化检测中产生斑点的示例性技术使用连通部件方案。例如，可以使用 {1}中所述的形态学以及连通部件算法。

在框54中，跟踪斑点。可以将用于跟踪斑点的任何技术用于此框。例如，可以使用Kalman滤波或CONDENSATION算法。作为另一个示例，可以使用诸如{1}中所述的模板匹配技术。作为又一个示例，可以使用2000年10月24日所提交的美国专利申请No.09/694,712中所描述的帧到帧跟踪技术。针对以杂货店为地点的示例，可以被跟踪的对象的示例包括：移动中的人、库存物品、以及诸如购物手推车或推车之类的存货移动装置。

可选地，可以使用对于普通技术人员已知的任意检测和跟踪方案来取代框51-54。在{11}中描述了这种检测和跟踪方案的示例。

在框55中，分析所跟踪的对象的每个轨迹，以确定该轨迹是否显著。如果该轨迹不显著，则该轨迹表示呈现出不稳定运动的对象，或表示不稳定大小或颜色的对象，然后拒绝相应的对象，并不再通过系统对其进行分析。如果该轨迹显著，则该轨迹表示潜在的感兴趣的对象。通过将显著测量应用于轨迹来确定该轨迹是显著或不显著。在{13}和{18} 中描述了用于确定轨迹显著与否的技术。

在框56中，对每个对象进行分类。将每个对象的通用类型确定为对象的分类。可以通过多种技术来执行分类，并且这种技术的示例包括使用神经网络分类器{14}以及使用线性鉴别分类器{14}。分类的示例与针对框23所讨论的那些相同。

在框57中，通过使用来自框51-56的信息并将其作为必要信息进行另外处理来识别视频原语。所识别的视频原语的示例与针对框23所讨论的那些相同。作为示例，针对大小，系统可以使用从框22的校准中所获得的信息作为视频原语。通过校准，系统具有足够的信息来确定对象的近似大小。作为另一个示例，系统可以使用从框54中所测量的速度作为视频原语。

在框43中，对来自框42的视频原语进行存档。可以将视频原语存档于计算机可读介质13或另一个计算机可读介质中。根据视频原语，可以将来自源视频的关联帧或视频图像存档。这个存档过程是可选的；如果只将该系统用于实时事件检测，则可以跳过存档步骤。

在框44中，使用事件鉴别器来从视频原语中提取出事件发生。在框42中确定视频原语，并在框23中通过给系统分派任务来确定事件鉴别器。将事件鉴别器用于过滤视频原语，以确定是否有事件发生出现。例如，事件鉴别器可以寻找由在9:00a.m到5:00p.m之间沿着“错误路线”进入区域的人所定义的“错误路线”事件。事件鉴别器检查根据图5所产生的所有视频原语，并确定是否存在具有以下特性的视频原语： 9:00a.m到5:00p.m之间的时间戳、“人”或“人群”的分类、区域内的位置、以及运动的“错误”方向。事件鉴别器还可以使用如上面所讨论的其他类型的原语，和/或将来自多个视频源的视频原语进行组合以检测事件发生。

在框45中，针对框44中所提取的每个事件，适当地采取行动。图 6示出了用于对视频监视系统采取行动的流程图。

在框61中，如检测事件发生的事件鉴别器所指定地进行响应。针对框34中的每个事件鉴别器，识别响应(如果存在的话)。

在框62中，针对所出现的每个事件发生，产生活动记录。该活动记录包括，例如：对象的轨迹的详图、对象的检测时间、对象的检测位置、以及对所采用的事件鉴别器的描述或定义。活动记录可以包括事件鉴别器所需要的诸如视频原语之类的信息。活动记录还可以包括事件发生中所包括的对象和/或区域的典型视频或静止图像。将活动记录存储在计算机可读介质中。

在框63中，产生输出。该输出基于在框44中所提取的事件产生，以及来自框41的源视频的直接馈入。将该输出存储在计算机可读介质中，并将其显示在计算机系统11或另一个计算机系统上，或者转发给另一个计算机系统。随着系统操作，收集关于事件发生的信息，并且操作者可以随时观看该信息，包括实时观看。用于接收该信息的格式的示例包括：在计算机系统的屏幕上的显示；硬拷贝；计算机可读介质；以及交互式网页。

该输出可以包括来自框41的源视频的直接馈入的显示。例如，可以将源视频显示在计算机系统的监视器或闭路监视器的窗口上。此外，该输出可以包括以图形标出的源视频，以便高亮事件发生中所包括的对象和/区域。如果该系统操作于取证分析模式，则该视频可以来自视频记录器。

该输出可以包括基于操作者和/或事件发生的需要而针对操作者的一个或更多报告。报告的示例包括：出现事件发生的次数；事件发生在场景出现的位置；事件发生的出现次数；每个事件发生的典型图像；每个事件发生的典型视频；原始统计数据；事件发生的统计(例如，多少、多经常、哪里以及何时)；和/或人类可读的图形显示。

图13和图14示出了针对图15中的杂货店中的过道的示例性报告。在图13和14中，在框22中识别若干区域，并由此在图像中对其做标记。图13中的区域与图12中的区域相匹配，并且图14中的区域是不同的区域。为该系统分派任务以寻找停留在区域中的人。

在图13中，示例性报告是来自所标出的视频的图像，以包括标签、图形、统计信息、以及对统计信息的分析。例如，被识别为咖啡的区域具有统计信息：区域中的平均顾客数为每小时2个，并且在该区域中的平均停留时间为5秒。系统确定这个区域为“冷”区域，表示这个区域中不存在大量商业行为。作为另一个示例，被识别为苏打水的区域具有统计信息：区域中的平均顾客数为每小时15个，并且在该区域的平均停留时间为22秒。系统确定这个区域为“热”区域，表示这个区域中存在大量商业行为。

在图14中，示例性报告是来自所标出的视频的图像，以包括标签、图像、统计信息、以及对统计信息的分析。例如，过道后面区域具有每小时14个的平均顾客数，并被确定为具有低业务量。作为另一个示例，过道前面区域具有每小时83个的平均顾客数，并被确定为具有高业务量。

对于图13或图14，如果操作者希望关于任意特定区域的更多信息，则点击界面允许操作者对系统已经检测并存档的区域和/或活动的典型的静止和视频图像进行操纵。

图15示出了针对杂货店中的过道的另一个示例性报告。该示例性报告包括来自所标出的视频中的图像，以包括标签、轨迹指示、描述所标出的图像的文本。通过搜索多个区域来给示例中的系统分派任务：对象的轨迹的长度、位置以及时间；对象稳定的时间和位置；轨迹与操作者所指定的区域的相关性；对并非一个人的对象的分类，一个人、两个人、以及三个或更多个人。

图15中的视频图像来自记录了轨迹的时段。在三个对象中，两个对象中的每个都被分类为一个人，而一个对象分类为不是一个人。给每个对象分配标签，即Person ID 1032、Person ID 1033以及Object ID 32001。针对Person ID 1032，系统确定在区域中度过52秒的人以及在由圆圈所指定的位置处度过18秒的人。针对Person ID 1033，系统确定在区域中度过1分钟零8秒的人以及在由圆圈所指定的位置处度过12秒的人。针对Person ID 1032和Person ID 1033的轨迹包括在所标出的图像中。针对对象ID 32001，系统没有进一步分析对象，并以X指示该对象的位置。

回到图2中的框22对其进行参照，校准可以是(1)手动的、(2) 半自动地使用来自视频传感器或视频记录器的图像、或(3)自动地使用来自视频传感器或视频记录器的图像。如果需要图像，则假设将要由计算机系统11进行分析的源视频来自视频传感器，该视频传感器获得用于校准的源视频。

针对手动校准，操作者为计算机系统11提供了针对每个视频传感器14中的定位和内部参数，以及每个视频传感器14相对于该位置的放置。计算机系统11可以随意保持该位置的映射，并且可以在该映射上指示该视频传感器14的放置。该映射可以是对环境的二维或三维表示。此外，手动校准给系统提供了足够的信息以确定对象的近似大小和相对位置。

可选地，针对手动校准，操作者可以使用表示已知大小的对象(例如人)的外观的图形来标出来自传感器的视频图像。如果操作者可以在至少两个不同位置处标出图像，则该系统可以推断出大概的摄像机校准信息。

针对半自动和自动校准，不需要对摄像机参数或场景几何的知识。针对半自动和自动校准，产生查找表，以便近似场景中的不同区域处的对象的大小，或者推断出摄像机的内部和外部摄像机校准参数。

针对半自动校准，使用与来自操作者的输入所组合的视频源来校准视频监视系统。将单个人置于视频传感器的观看范围内，以便进行自动校准。计算机系统11接收关于单个人的源视频，并基于此数据自动推断出人的大小。随着在视频传感器的观看范围内观看到人的位置数量的增大，以及在视频传感器的观看范围内观看人的时间段的增大，半自动校准的精确度增大。

图7示出了针对视频监视系统的半自动校准的流程图。框71与框 41相同，除了典型对象以各种轨迹穿过场景。典型对象可以具有不同轨迹，并且在不同位置处静止。例如，典型对象尽可能地移近视频传感器，然后又从视频传感器尽可能远地移开。可以根据需要重复典型对象的这个运动。

框72-75分别与框51-54相同。

在框76中，在整个场景中监视典型对象。假设所跟踪的唯一(或至少最稳定的)稳定对象是场景中的校准对象(即穿过该场景的典型对象)。针对场景中观察稳定对象的每个点，收集稳定对象的大小，并将此信息用于产生校准信息。

在框77中，针对整个场景中的不同区域，识别典型对象的大小。将典型对象的大小用于确定场景中的各个区域处的相似对象的近似大小。以此信息，产生与图像中的各个区域中的典型对象的典型外观大小相匹配的查找表，或者推断出内部和外部摄像机的校准参数。作为采样输出，图像中的各个区域中的棒状大小的图形的显示指示系统确定了什么样的适当高度。这种棒状大小的图形如图11所示。

针对自动校准，在计算机系统11确定关于每个视频传感器的观看范围内的位置的信息处，进行学习阶段。在自动校准期间，计算机系统 11在足以获得对场景而言为典型的对象的统计有效采样的代表时间段 (例如，分钟、小时、或甜)内接收位置的源视频，并由此推断出典型的外观大小和位置。

图8示出了针对视频监视系统的自动校准的流程图。框81-86与图 7中的框71-76相同。

在框87中，识别出在视频传感器的观看范围内可跟踪的区域。可跟踪区域指的是在其中可以很容易地和/或准确地跟踪对象的视频传感器的观看范围内的区域。不可跟踪区域指的是在其中无法容易地和/或准确地跟踪对象和/或对象很难跟踪的视频传感器的观看范围内的区域。不可跟踪的区域可以称为不稳定或不显著的区域。对象难以跟踪是因为：对象太小(例如，小于预定阈值)，出现时间过短(例如，小于预定阈值)，或者呈现出不显著的运动(例如，没有目的性)。例如，可以使用{13} 中所描述的技术来识别可跟踪的区域。

图10示出了针对杂货店中的过道所确定的可跟踪的区域。将过道远端的区域确定为不显著，因为在这个区域有太多干扰物。干扰物指的是视频中混淆跟踪方案的一些东西。干扰物的示例包括：刮风、下雨、局部堵塞的对象、出现时间过短而无法精确跟踪的对象。相反地，将过道前端的区域确定为显著的，因为针对这个区域可以确定良好的跟踪。

在框88中，针对整个场景中的不同区域识别对象的大小。将对象的大小用于确定场景中的各个区域处的相似对象的大小。诸如使用柱状图或统计中值之类的技术用于将对象的典型外观高度和宽度确定为场景中的位置的函数。在场景中的图像的一部分中，典型对象可以具有典型的外观高度和宽度。以此信息，产生与图像中的各个区域中的对象的典型外观大小相匹配的查找表，或者可以推断出内部和外部摄像机的校准参数。

图11示出了从图10中示出杂货店的过道中的典型对象的典型大小。假设典型对象为人，并且由此通过标签来识别。人的典型大小通过在显著区域中所检测到的人的平均高度和平均宽度的图示来确定。在示例性中，图示A是针对平均一个人的平均高度所确定的，而图示B是针对一个人、两个人和三个人的平均宽度所确定的。

针对图示A，x轴描绘了像素中的斑点的高度，而y轴描述了所出现的如x轴所识别的特定高度的实例数。图示A的峰值线与场景中的指定区域中的斑点的最常规高度相对应，以及针对这个示例，峰值与位于指定区域中的人的平均高速相对应。

假设人们以松散结合的群行进，则产生针对图示B中的宽度的相似图示A。针对图示B，x轴描绘了像素中的斑点的宽度，而y轴描述了所出现的如x轴所识别的特定高度的实例数。图示B的峰值线与多个斑点的平均宽度相对应。假设大多数群只包含一个人，则最大峰值与最常规宽度相对应，该最常规宽度与指定区域中的单个人的平均宽度相对应。类似地，第二最大峰值与指定区域中的两个人的平均宽度相对应，而第三最大峰值与指定区域中的三个人的平均宽度相对应。

图9示出了针对本发明的视频监视系统的附加流程图。例如，在这个附加实施例中，系统使用事件鉴别器来分析所存档的视频原语，以产生附加报告，而不需要再检查整个源视频。在根据本发明对视频源进行处理之后，一定要对针对源视频的视频原语进行存档(图4中的框43)。以附加实施例，可以以相对短的时间来对视频内容进行再次分析，因此仅再检查视频原语，以及因为不对视频源进行重新处理。这对当前技术系统提供了相当有效的改进，因为处理视频图像数据需要非常强的计算能力，而对从视频中提取出的小尺寸原语进行分析不需要很强的计算能力。作为示例，可以产生以下事件鉴别器：“最近两个月内在区域A中停留超过10分钟的人数”。关于附加实施例，不需要再次检查最近两个月的源视频。取而代之的是，仅需要再次检查最近两个月的视频原语，这是更加有效的处理。

框91与图2中的框23相同。

在框92中，访问所存档的视频原语。在图4的框43中，将该视频原语存档。

框93和94与图4中的框44和45相同。

作为示例性应用，可以将本发明用于通过测量零售显示的效力来分析零售市场的空间。将大量资金投入到零售显示中，努力做到尽可能地引人注目，以促进对显示物品以及辅助物品的销售。可以将本发明的视频监视系统配置用于测量这些零售显示的有效性。

针对这个示例性应用，通过将视频传感器的视野朝向期望零售显示周围的空间来设置视频监视系统。在分派任务期间，操作者选择表示期望零售显示周围空间的区域。作为鉴别器，操作者定义了他或她想要监视进入区域并在速度上呈现出可测量的降低、或停留了可测时间量的人大小的对象。

在操作了一段时间之后，视频监视系统可以为市场分析提供报告。该报告可以包括：在零售显示周围放慢脚步的人数；在零售显示处停留的人数；依照时间对对零售显示感兴趣的人进行的细目分类，诸如多少人对周末感兴趣，以及多少人对晚上感兴趣；以及对零售显示显示出兴趣的人的视频快照。可以将从视频监视系统中获得的市场研究信息与来自商店的销售信息以及来自商店的顾客记录进行二进制组合，以改进对零售显示的效力的分析理解。

这里所讨论的实施例和示例是非限制性示例。

相对于优选实施例对本发明进行了详细描述，并且从前述可知，对于本领域的那些技术人员而言显而易见的是，可以在不偏离本发明的较广方面的前提下进行改变和修改，并且权利要求中所定义的本发明旨在覆盖落入本发明的真实精神内的所有这种改变和修改。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：彼得·L·韦奈蒂阿奈尔;艾伦·J·利普顿;安德鲁·J·肖克;马休·F·弗拉吉尔;尼尔斯·黑林;盖瑞·W·梅耶斯;尹卫红;张忠;
技术所有人：威智伦富智堡公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。