采用视频原语的视频监视系统的制作方法

文档序号:5868499阅读:351来源:国知局
专利名称:采用视频原语的视频监视系统的制作方法
技术领域
本发明涉及一种采用视频原语的自动视频监视系统。
参考文献为了方便读者,这里,如下列出参考文献。在说明书中,位于括号内的数字表示相应的参考文献。这里,将所列出的参考文献一并作为参考。
以下参考文献描述了运动目标检测{1}A.Lipton,H.Fujiyoshi和R.S.Patil,“Moving TargetDetection and Classification from Real-Time Video”,Proceedings of IEEE WACV’98,Princeton NJ,1998年,8-14页。
{2}W.E.L.Grimson等人,“Using Adaptive Tracking toClassify and Monitor Activities in a Site”,CVPR,22-29页,1998年6月。
{3}A.J.Lipton,H.Fujiyoshi,R.S.Patil,“Moving TargetClassification and Tracking from Real-time Video”,IUW,129-136页,1998年。
{4}T.J.O1son and F.Z.Brill,“Moving Object Detection andEvent Recognition Algorithm for SmartCameras”,IUW,159-175页,1997年5月。
以下参考文献描述了检测和跟踪人类{5}A.J.Lipton,“Local Application of Optical Flow toAnalyse Rigid Versus Non-Rigid Motion”,InternationalConference on Computer Vision,Corfu,Greece,1999年9月。
{6}F.Bartolini,V.Cappellini,和A.Mecocci,“Countingpeople getting in and out of a bus by real-time image-sequenceprocessing”,IVC,12(1)36-41,1994年1月30日。
{7}M.Rossi和A.Bozzoli,“Tracking and counting movingpeople”,ICIP94,212-216页,1994年。
{8}C.R.Wren,A.Azarbayejani,T.Darrell和A.Pentland,“PfinderReal-time tracking of the human body”,Vismod,1995年。
{9}L.Khoudour,L.Duvieubourg,J.P.Deparis,“Real-TimePedestrian Counting by Active Linear Cameras”,JEI,5(4)452-459,1996年10月。
{10}S.Ioffe,D.A.Forsyth,“Probabilistic Methods forFinding People”,IJCV,43(1)45-68,2001年6月。
{11}M.Jsard和J.MacCormick,“BraMBLeA Bayesian Multiple-Blob Tracker”ICCV,2001年。
以下参考文献描述了斑点(blob)分析{12}D.M.Gavrila,“The Visual Analysis of Human MovementA Survey”,CVIU,73(1)82-98,1999年1月。
{13}Niels Haering和Niels da Vitoria Lobo,“Visual EventDetection”,Video Computing Series,Editor Mubarak Shah,2001年。
以下参考文献描述了针对卡车、汽车和人的斑点分析{14}Collins,Lipton,Kanade,Fujiyoshi,Duggins,Tsin,Tolliver,Enomoto和Hasegawa,“A System for Video Surveillanceand MonitoringVSAM Final Report”,Technical ReportCMU-RI-TR-00-12,Robotics Institute,Carnegie MellonUniversity,2000年5月。
{15}Lipton,Fujiyoshi和Patil,“Moving TargetClassification and Tracking from Real-time Video”,98 Darpa IUW,1998年11月20~23日。
以下参考文献描述了分析单人斑点及其轮廓
{16}C.R.Wren,A.Azarbayejani,T.Darrell和A.P.Pentland“PfinderReal-Time Tracking of the Human Body”,PAMI,19卷,780~784页,1997年。
以下参考文献描述了斑点的内部运动,包括任何基于运动的片断{17}M.Allmen和C.Dyer,“Long--Range Spatiotemporal MotionUnderstanding Using Spatiotemporal Flow Curves”,Proc.IEEECVPR,Lahaina,Maui,Hawaii,303-309页,1991年。
{18}L.Wixson,“Detecting Salient Motion by AccumulatingDirectionally Consistent Flow”,IEEE Trans.Pattern Anal.Mach.Intell.,22卷,774-781页,2000年8月。
背景技术
公共场所的视频监视已经得到了广泛的普及,并为普通公众所接受。不幸的是,传统的视频监视系统产生了巨大容量的数据,从而在视频监视数据的分析中遇到了难以处理的问题。
需要减少视频监视数据量,从而可以进行对视频监视数据的分析。
需要对视频监视数据进行过滤,以标识视频监视数据的所需部分。

发明内容
本发明的一个目的是减少视频监视数据量,从而能够进行视频监视数据的分析。
本发明的另一目的是过滤视频监视数据,以标识视频监视数据的所需部分。
本发明的另一目的是根据来自视频监视数据的事件的自动检测,产生实时警报。
本发明的另一目的是结合来自监视传感器的数据,而不是来自视频的数据,以便提高搜索能力。
本发明的另一目的是结合来自监视传感器的数据,而不是来自视频的数据,以便提高事件检测能力。
本发明包括一种用于视频监视的产品、方法、系统和设备。
本发明的产品包括包含了视频监视系统的软件的计算机可读介质,所述计算机可读介质包括根据视频原语操作视频监视系统的代码段。
本发明的产品包括包含了视频监视系统的软件的计算机可读介质,所述计算机可读介质包括访问归档的视频原语的代码段,以及从所访问的归档的视频原语中提取事件发生的代码段。
本发明的系统包括计算机系统,所述计算机系统包括具有依照本发明操作计算机的软件的计算机可读介质。
本发明的设备包括计算机,所述计算机包括具有依照本发明操作计算机的软件的计算机可读介质。
本发明的产品包括计算机可读介质,所述计算机可读介质具有依照本发明操作计算机的软件。
此外,对于本发明可以实现的那些目的和优点,本发明的上述目的和优点是示例性的,而非穷尽的。因此,通过以下的描述,作为对本领域的技术人员所清楚的实施例和修改,本发明的这些和其他目的和优点都是显而易见的。
定义“视频”表示以模拟和/或数字形式表示的运动画面。其示例包括电视、电影、来自视频照相机或其他观测仪的图像序列、以及计算机生成的图像序列。
“帧”表示视频中的特定图像或其他离散单元。
“对象”表示视频中所感兴趣的项。对象的示例包括人、车辆、动物、物理主体。
“活动”表示一个或多个对象的一个或多个动作和/或动作的一个或多个合成。其示例包括进入、离开、停止、运动、上升、下降、生长和收缩。
“地点”表示可以发生活动的空间。例如,地点可以是基于场景的或基于图像的。基于场景的地点的示例包括公共场所、商店、零售店、办公室、仓库、宾馆房间、宾馆大厅、建筑物的大厅、娱乐场、公共汽车站、火车站、机场、港口、公共汽车、火车、飞机和船。基于图像的地点的示例包括视频图像、视频图像中的行、视频图像中的区域、视频图像的矩形部分、以及视频图像的多边形部分。
“事件”表示从事于活动的一个或多个对象。可以按照地点和/或时间来表示事件。
“计算机”表示能够接受结构输入、根据指定规则处理结构输入、并产生处理结果作为输出的任何设备。计算机的示例包括计算机、通用计算机、超级计算机、主机、超级迷你计算机、迷你计算机、工作站、微计算机、服务器、互动电视、计算机和互动电视的混合组合、以及仿真计算机和/或软件的特定用途的硬件。计算机可以具有单处理器或多处理器,多处理器可以并行操作和/或非并行操作。计算机也表示通过用于在计算机之间传送和接收信息的网络连接在一起的两个或更多个计算机。这种计算机的示例包括通过由网络连接的计算机来处理信息的分布式计算机系统。
“计算机可读介质”表示用于存储计算机可访问数据的任何存储设备。计算机可读介质的示例包括磁硬盘、软盘、如CD-ROM和DVD等光盘、磁带、存储器芯片、以及用于携带计算机可读电数据的载波,如用在传送和接收电子邮件或用在访问网络中的那些载波。
“软件”表示操作计算机的指定规则。软件的示例包括软件、代码段、指令、计算机程序和程序控制逻辑。
“计算机系统”表示具有计算机的系统,其中所述计算机包括具体实现了操作计算机的软件的计算机可读介质。
“网络”表示通过通信设施相连的多个计算机和相关设备。网络涉及如电缆等永久连接或那些通过电话或其他通信链路进行的临时连接。网络的示例包括如Internet等因特网、内联网、局域网(LAN)、广域网(WAN)和网络的组合,如因特网和内联网的组合等。


通过其中相同的参考数字表示相同的部件的附图,对本发明的实施例进行更为详细的解释。
图1示出了本发明视频监视系统的平面图。
图2示出了本发明视频监视系统的流程图。
图3示出了向视频监视系统分配任务的流程图。
图4示出了操作视频监视系统的流程图。
图5示出了提取视频监视系统的视频原语的流程图。
图6示出了利用视频监视系统采取行动的流程图。
图7示出了视频监视系统的半自动校准的流程图。
图8示出了视频监视系统的自动校准的流程图。
图9示出了本发明视频监视系统的另一流程图。
图10-15示出了用于监视食品杂货店的本发明的视频监视系统的示例。
具体实施例方式
例如,为了市场调查或安全性的目的,将本发明的自动视频监视系统用于监视特定地点。本系统可以是具有特制监视组件的专用视频监视装置,或者本系统可以是位于监视视频馈线上的、对现有视频监视设备的改进。本系统能够分析来自现场源或已记录介质的视频数据。本系统可以具有对分析的指定响应,例如,记录数据,激活警报机制,或启动另一传感器系统。本系统还能够与其他监视系统组件合成。本系统产生能够根据操作员的需要而制作的安全性或市场调查报告,以及可选地,可以通过交互的基于网络的接口或其他报告机制来显示。
操作员通过使用事件鉴别符,具有配置系统的最大灵活性。以一个或多个对象(其描述是基于视频原语的)及一个或多个可选空间属性和/或一个或多个可选时间属性一起标识事件鉴别符。例如,操作员可以将事件鉴别符(在此示例中,称为“闲逛”事件)定义为在“自动出纳机”空间处“长于15分钟”和“在10:00pm和6:00am之间”出现的“人”对象。
尽管本发明的视频监视系统利用了来自公共领域的公知的计算机视觉技术,但本发明的视频监视系统具有当前仍无法提供的几个惟一且新颖的特征。例如,当前的视频监视系统使用大量的视频图像作为信息交换的主要产品。本发明的系统使用视频原语作为主要产品,而将典型的视频图像用作间接证据。还可以对本发明的系统进行校准(手动、半自动、或自动),之后,根据视频图像自动推断视频原语。本系统还可以分析先前的已处理视频,而无需完全重新处理视频。通过分析先前已处理的视频,本系统可以根据先前的已记录视频原语,进行推断分析,极大地提高了计算机系统的分析速度。
作为另一示例,本发明的系统提供了惟一的系统任务分配。利用设备控制指示,当前的视频系统允许用户定位视频传感器,以及在一些复杂的传统系统中,允许用户框出感兴趣或不感兴趣的区域。设备控制指示是控制摄像机的位置、朝向和焦点的指令。代替设备控制指示,本发明的系统使用基于视频原语的事件鉴别符,作为主要的任务分配机制。利用事件鉴别符和视频原语,向操作员提供了比传统系统更为直观的方法,以便从系统中提取有用信息。除了利用如“摄像机A向左平转45度”等设备控制指示向系统分配任务之外,可以利用如“有人进入限制区域A”等基于视频原语的一个或多个事件鉴别符,以人类直观的方式,向本发明的系统分配任务。
将本发明用于市场调查,以下是可以利用本发明执行的视频监视类型的示例计算商店中的人数;计算商店的一部分中的人数;计算停留在商店中特定位置的人数;测量人们在商店中度过了多长时间;测量人们在商店的一部分中度过了多长时间;以及测量商店中排队的长度。
将本发明用于安全性,以下是可以利用本发明执行的视频监视的类型的示例确定某人何时进入限制区并存储相关图像;确定何时某人在非正常的时间进入某个区域;确定何时货架和存储空间发生了可能是未经授权的改变;确定何时飞行器上的乘客靠近驾驶舱;确定何时某人尾随通过安全入口;确定机场中是否存在无人看管的箱包;以及确定是否存在小偷。
图1示出了本发明视频监视系统的平面图。计算机系统11包括计算机12,计算机12具有具体实现了根据本发明操作计算机12的软件的计算机可读介质13。计算机系统11与一个或多个视频传感器14、一个或多个录像机15以及一个或多个输入/输出(I/O)设备16相连。可以将视频传感器14可选地与录像机15相连,以便直接记录视频监视数据。计算机系统可选地与其他传感器17相连。
视频传感器14向计算机系统11提供源视频。例如,每个视频传感器14可以利用直接连接(如,火线数字摄像机接口)或网络与计算机系统11相连。视频传感器14可以在本发明安装之前就已存在,或者可以作为本发明的一部分进行安装。视频传感器14的示例包括摄像机、数字摄像机、彩色摄像机、单色摄像机、摄像机、便携式摄像机、PC摄像机、网络摄像机、红外线摄像机、和CCTV摄像机。
录像机15从计算机系统11接收视频监视数据以进行记录,和/或向计算机系统11提供源视频。例如,每台录像机15可以使用直接连接或网络与计算机系统11相连。录像机15可以在本发明安装之前就已存在,或者可以作为本发明的一部分进行安装。录像机15的示例包括磁带录像机、数字录像机、录像盘、DVD和计算机可读介质。
I/O设备16提供对计算机系统11的输入,并接收来自计算机系统11的输出。I/O设备16可以用于向计算机系统11分配任务,并从计算机11产生报告。I/O设备16的示例包括键盘、鼠标、触针、监视器、打印机、另一计算机系统、网络、和警报。
其他传感器17提供对计算机系统11的额外输入。例如,每个其他传感器17可以使用直接连接或网络与计算机系统11相连。其他传感器17可以在本发明安装之前就己存在,或者可以作为本发明的一部分进行安装。其他传感器17的示例包括运动传感器、光绊网、生物测定传感器、和基于卡或基于键盘的验证系统。计算机系统11、记录设备和/或记录系统可以记录其他传感器17的输出。
图2示出了本发明视频监视系统的流程图。参照图10-15,对本发明的多个方面进行举例说明,图10-15示出了用于监视食品杂货店的本发明的视频监视系统的示例。
在方框21中,如针对图1所讨论的那样,建立视频监视系统。将每个视频传感器14朝向视频监视地点。计算机系统11与来自视频设备14和15的视频馈线相连。可以使用该地点现有的设备或新安装的设备来实现视频监视系统。
在方框22中,校准视频监视系统。当根据方框21,视频监视系统处于适当的位置时,则校准发生。方框22的结果是视频监视系统能够确定位于由视频传感器提供的视频图像中的多个位置的特定对象(例如,人)的大约的绝对尺寸和速度。可以使用手动校准、半自动校准和自动校准来校准本系统。在讨论完方框24之后,将对校准进行进一步的描述。
在图2的方框23中,向视频监视系统分配任务。任务分配发生在方框22中的校准之后,并且是可选的。对视频监视系统的任务分配涉及对一个或多个事件鉴别符的规定。没有任务分配,视频监视系统通过检测和存档视频原语和相关视频图像进行操作,而不采取任何行动,如图4中的方框45所示。
图3示出了向视频监视系统分配任务以确定事件鉴别符的流程图。事件鉴别符表示与一个或多个空间属性和/或一个或多个时间属性可选地相互作用的一个或多个对象。以视频原语来描述事件鉴别符。视频原语表示在视频馈线中观察到的对象的可观察属性。视频原语的示例包括以下这些分类、尺寸、形状、颜色、纹理、位置、速度、速率、内部运动、运动、显著运动、显著运动的特征、场景变化、场景变化的特征、和预定义模型。
分类表示对属于特定类别或类的对象的识别。分类的示例包括人、狗、车辆、警车、单独的人、和特定类型的对象。
尺寸表示对象的维度属性。尺寸的示例包括大、中、小、平坦、高于6英尺、短于1英尺、宽于3英尺、薄于4英尺、大约为人类的尺寸、大于人类、小于人类、大约为车辆的尺寸、图像中具有近似象素尺寸的矩形、和多个图像象素。
颜色表示对象的颜色属性。颜色的示例包括白、黑、灰、红、HSV数值范围、YUV数值范围、RGB数值范围、平均RGB值、平均YUV值、和RGB值的直方图。
纹理表示对象的图案属性。纹理特征的示例包括自相似、谱功率、线性和粗糙。
内部运动表示对对象的刚度的测量。相当坚硬的对象的示例为车,其并不表现出大量的内部运动。相当不坚硬的对象的示例为具有摆动的四肢的人,其表些出大量的内部运动。
运动表示可以自动检测的任何运动。运动的示例包括对象的出现、对象的消失、对象的垂直运动、对象的水平运动、对象的周期运动。
显著运动表示可以自动检测并可以跟踪一段时间的任何运动。这种运动对象表现出明显的有目的运动。显著运动的示例包括从一个位置运动到另一位置、以及运动以与另一对象相互作用。
显著运动的特征表示显著运动的特性。显著运动的特征的示例包括轨迹、轨迹在图像空间中的长度、轨迹在环境的三维显示中的近似长度、作为时间的函数的对象在图像空间中的位置、作为时间的函数的对象在环境的三维显示中的近似位置、轨迹的持续时间、图像空间中的速度(例如,速率和方向)、环境的三维显示中的近似速度(例如,速率和方向)、该速度的持续时间、图像空间中速度的变化、环境的三维显示中速度的近似变化、速度变化的持续时间、运动的停止、以及运动停止的持续时间。速度表示对象在特定时间的速率和方向。轨迹表示当能够跟踪该对象一段时间时,该物体的(位置,速度)对的集合。
场景变化表示随着时间的改变所能检测的场景的任何区域。场景变化的示例包括离开场景的固定对象、进入场景并固定的对象、场景中改变了位置的对象、以及改变了外观(如,颜色、形状或尺寸)的对象。
场景变化的特征表示场景变化的特性。场景变化的特征的示例包括图像空间中场景变化的尺寸、环境的三维显示中场景变化的适当尺寸、场景变化发生的时间、图像空间中场景变化的地点、以及环境的三维显示中场景变化的近似地点。
预定义模型表示对象的先前已知模型。预定义的示例包括成人、孩子、车辆、和半拖车。
在方框31中,以视频原语及其抽象概念识别感兴趣类型的一个或多个对象。一个或多个对象的示例包括对象、人、红色对象、两个对象、两个人、车辆。
在方框32中,识别感兴趣的一个或多个空间区域。区域表示来自源视频的图像的一个或多个部分或者通过视频传感器正在观察的场景的空间部分。区域也包括来自多个场景和/或图像的区域的组合。区域可以是基于图像的空间(例如,视频图像中的线、矩形、多边形或圆形),或是三维空间(例如,立方体、或建筑物中的楼层空间的区域)。
图12示出了沿食品杂货店的过道标识区域。标识了四个区域咖啡、碳酸汽饮料、小食品和瓶装水。利用该系统,通过点击界面来标识这些区域。
在方框33中,可选地标识了感兴趣的一个或多个时间属性。时间属性的示例包括每15分钟、在9:00pm到6:00am之间、少于5分钟、长于30秒、周末、以及在20分钟以内。
在方框34中,可选地标识了响应。响应的示例包括以下这些激活系统显示器上的视觉和/或音频警报、激活位于该地点的视觉和/或音频警报系统、激活无声警报、激活快速响应机制、锁门、联系安全服务、通过如因特网等网络向另一计算机系统转发数据(如,图像数据、视频数据、视频原语和/或已分析数据)、将该数据保存到指定的计算机可读介质上、激活某些其他传感器或监视系统、向计算机系统11和/或另一计算机系统分配任务、以及指挥计算机系统11和/或另一计算机系统。
在方框35中,通过描述视频原语(或其抽象概念)、所感兴趣的空间区域和所感兴趣的时间属性之间的相互作用,来标识一个或多个鉴别符。针对在方框31中所定义的一个或多个对象、在方框32中所定义的一个或多个感兴趣的空间区域以及在方框33中所定义的一个或多个感兴趣的时间属性的组合,确定相互作用。将在方框34中标识的一个或多个响应可选地与每个事件鉴别符相关联。
单一对象的事件鉴别符的示例包括对象出现、人出现、和红色对象运动快于10m/s。
多个对象的事件鉴别符的示例包括两个对象一起来、人位于车中、和红色对象在蓝色对象之后运动。
针对对象和空间属性的事件鉴别符的示例包括对象跨线、对象进入区域、以及人从左侧跨线。
针对对象和时间属性的事件鉴别符的示例包括对象在10:00pm出现、人在9:00am和5:00pm之间行动快于2m/s、以及车辆在周末出现。
针对对象、空间属性和时间属性的事件鉴别符的示例包括人在午夜和6:00am之间跨线、以及车辆停止在某一区域超过10分钟。
针对与响应相关联的对象、空间属性和时间属性的事件鉴别符的示例包括人在午夜和6:00am之间进入某区域,并通知安全服务。
在图2的方框24中,对视频监视系统进行操作。本发明的视频监视系统自动操作,检测并存档场景中对象的视频原语,并利用事件鉴别符实时地检测事件发生。此外,在适当时,实时地采取行动,如激活警报、产生报告和产生输出等。可以将这些报告和输出本地地显示和/或存储于该系统,或者通过如因特网等网络显示于和/或存储于其他地方。图4示出了操作视频监视系统的流程图。
在方框41中,计算机系统11从视频传感器14和/或录像机15获得源视频。
在方框42中,从源视频中实时地提取出视频原语。作为选项,可以从一个或多个其他传感器17获得和/或提取非视频原语,并于本发明一起使用。图5示出了视频原语的提取。
图5示出了用于提取视频监视系统的视频原语的流程图。方框51和52并行操作,并可以按照任何顺序或同时执行。在方框51中,通过运动来检测对象。针对此方框,可以使用用于在象素级检测帧之间的运动的任何运动检测算法。作为示例,可以使用三帧差分技术,在{1}中对该技术进行了讨论。将检测到的对象转发到方框53。
在方框52中,通过变化来检测对象。针对此方框,可以使用用于从背景模块中检测变化的任何变化检测算法。如果因为象素不与帧的背景模块相一致,而确定该帧中的一个或多个象素处于该帧的前景中,则在此方框中,检测对象。作为示例,可以使用随机背景建模技术,如动态适应背景扣除等,在{1}和2000年10月24日递交的美国专利申请No.09/694,712中描述了该技术。将检测到的对象转发到方框53。
方框51的运动检测技术和方框52的变化检测技术是互补技术,每个技术有利地弥补了另一技术中的缺陷,作为选项,针对方框51和52所讨论的技术,可以使用额外的和/或可选的检测方案。额外的和/或可选的检测方案的示例包括以下这些如{8}中所述的用于寻找人的Pfinder检测方案、肤色检测方案、面部检测方案、和基于模型的检测方案。将这些额外的和/或可选的检测方案的结果提供给方框53。
作为选项,如果视频传感器14能够运动(例如,摄像机扫描、缩放、和/或平移),可以将额外的方框插入在方框51和52之间的方框之前,以提供对方框51和52的输入,以便于视频稳定性。通过仿射或投影全局运动补偿,可以实现视频稳定性。例如,可以使用这里一并作为参考的、2000年7月3日递交的美国专利申请No.09/609,919中所描述的图像对准,以获得视频稳定性。
在方框53中,产生斑点。通常,斑点是帧中的任何对象。斑点的示例包括如人或车辆等运动对象、以及如家具、衣物或零售货架项等消费产品。利用来自方框32和33的检测对象来产生斑点。针对此方框,可以使用任何用于产生斑点的技术。根据运动检测和变化检测来产生斑点的典型技术使用连接部件方案。例如,可以使用形态学和连接部件算法,在{1}中对该方案进行了描述。
在方框54中,跟踪斑点。针对此方框,可以使用任何用于跟踪斑点的技术。例如,可以使用Kalman过滤或CONDENSATION算法。作为另一示例,可以使用如{1}中所描述的模板匹配技术。作为另一示例,可以使用多假设Kalman跟踪系统,如{5}所述。作为又一示例,可以使用在2000年10月24日递交的美国专利申请No.09/694,712中所描述的帧到帧跟踪技术。对于地点是食品杂货店的示例,可以对其进行跟踪的对象的示例包括运动的人、存货项和存货运动器械,如购物车或手推车。
作为选项,能够以本领域的普通技术人员所公知的任何检测和跟踪方案来代替方框51-54。在{11}中描述了这种检测和跟踪方案的示例。
在方框55中,分析所跟踪对象的每个轨迹,以确定该轨迹是否显著。如果该轨迹不显著,则该轨迹显示表现出不稳定运动的对象,或显示表现出不稳定大小或颜色的对象,并且系统拒绝相应的对象,并不再对其进行分析。如果轨迹显著,则该轨迹显示有潜在兴趣的对象。通过对轨迹应用显著性测量,来确定轨迹是否显著。在{13}和{18}中描述了用于确定轨迹是否显著的技术。
在方框56中,对每个对象进行分类。将每个对象的普通类型确定为对象的分类。可以通过多种技术来进行分类,而这些技术的示例包括使用神经网络分类器{14}以及使用线性鉴别分类器{14}。分类的示例与针对方框23所讨论的那些是相同的。
在方框57中,利用来自方框5l-56的信息和所需的额外处理,标识视频原语。所标识的视频原语的示例与针对方框23所讨论的那些相同。作为示例,针对尺寸,该系统可以使用从方框22中的校准所获得的信息,作为视频原语。根据校准,系统具有确定对象的近似尺寸的足够信息。作为另一示例,该系统可以将由方框54测量的速度用作视频原语。
在方框43中,存档来自方框42的视频原语。可以将视频原语存档在计算机可读介质13中或另外的计算机可读介质中。与视频原语一起,可以存档来自源视频的相关帧或视频图像。
在方框44中,利用事件鉴别符,从视频原语中提取出事件发生。在方框42中确定视频原语,并通过方框23中的向系统分配任务,来确定事件鉴别符。将事件鉴别符用于过滤视频原语,以确定是否发生了任何事件发生。例如,事件鉴别符可以查找“走错路”事件,该事件被定义为有人在9:00am和5:00pm之间“走错路”到达了某一区域。事件鉴别符检查根据图5所产生的所有视频原语,并确定是否存在具有以下特性的视频原语9:00am和5:00pm之间的时标、“人”或“人群”的分类、该区域内的位置、以及“错误”的运动方向。
在方框45中,针对方框44中所提取出的每个事件发生采取所需的行动。图6示出了利用视频监视系统采取行动的流程图。
在方框61中,如检测到事件发生的事件鉴别符所指示的那样,进行响应。如果可能,针对方框34中的每个事件鉴别符来标识响应。
在方框62中,针对每个所发生的事件发生,产生活动记录。例如,活动记录包括对象轨迹的细节、检测到对象的事件、检测到对象的位置、以及所采用的事件鉴别符的描述或定义。活动记录可以包括如视频原语等事件鉴别符所需的信息。活动记录也可以包括事件发生所涉及的对象的代表视频或静态图像和/或区域。将活动记录存储在计算机可读介质上。
在方框63中,产生输出。输出是基于在方框44中所提取出的事件发生和来自方框41的源视频的直接馈送的。将输出存储在计算机可读介质中、显示在计算机系统11或另外的计算机系统上,或转发给另外的计算机系统。当系统进行操作时,收集与事件发生有关的信息,并且可以由操作员在任何时刻包括实时地观察该信息。用于接收信息的格式的示例包括在计算机系统的监视器上的显示、硬拷贝、计算机可读介质和交互网页。
输出可以包括来自方框41的源视频的直接馈送的显示。例如,可以将源视频显示在计算机系统的监视器的窗口上,或者显示在闭路监视器上。此外,该输出可以包括以图形标记的源视频,以突出显示事件发送所涉及的对象和/或区域。
根据操作员和/或事件发生的要求,输出可以包括给操作员的一个或多个报告。报告的示例包括所发生的事件发生的数量、场景中发生了事件发生的位置、发生了事件发生的时间、每个事件发生的代表图像、每个事件发生的代表视频、原始统计数据、事件发生的统计(例如,多少、多久一次、什么地方以及什么时候)、和/或人类可读图形显示。
图13和14示出了针对图15的食品杂货店中的过道的典型报告。在图13和图14中,在方框22中识别了几个区域,并由此在图像中对其进行标记。图13中的区域与图12中的区域相匹配,而图14中的区域是不同的区域。向系统分配寻找停留在该区域中的人的任务。
在图13中,典型的报告是来自进行了标记的视频的图像,包括标记、图形、统计信息和对统计信息的分析。例如,被标识为咖啡的区域具有该区域中的平均顾客数为2/小时以及该区域中的平均停留时间为5秒的统计信息。系统将此区域确定为“冷”区域,表示不存在太多通过此区域的商业活动。作为另一示例,被标识为碳酸汽饮料的区域具有该区域中的平均顾客数为15/小时以及该区域中的平均停留时间为22秒的统计信息。系统将此区域确定为“热”区域,表示在此区域中存在大量的商业活动。
在图14中,典型的报告是来自进行了标记的视频的图像,包括标记、图形、统计信息和对统计信息的分析。例如,在过道后面的区域具有14/小时的平均顾客数,并被确定为具有较低的业务量。作为另一示例,在过道前面的区域具有83/小时的平均顾客数,并被确定为具有较高的业务量。
对于图13或图14,如果操作员需要更多与任何特定区域有关的信息,则点击界面允许操作员通过系统已经检测到并已存档的区域和/或活动的代表静态画面和视频图像进行定位。
图15示出了针对食品杂货店中的过道的另一典型报告。此典型报告包括来自进行了标记的视频的图像,包括标记和轨迹指示以及描述已进行标记的图像的文字。向此示例的系统分配搜索多个区域的任务对象轨迹的长度、位置和时间;对象静止的时间和位置;按照操作员规定的、轨迹与区域的相关性;以及将对象分类为不是人、一个人、两个人和三个或更多人。
图15的视频图像来自记录了轨迹的时间段。在三个对象中,两个对象分别被分类为一个人,而另一对象被分类为不是人。将标记分配给每个对象,及人ID 1032、人ID 1033和对象ID 32001。对于人ID 1032,系统确定这个人在该区域中停留了52秒,并且在由圆圈所指定的位置停留了18秒。对于人ID 1033,该系统确定这个人在该区域中停留了1分零8秒,并且在由圆圈所指定的位置停留了12秒。在进行了标记的图像中包括人ID 1032和人ID 1033的轨迹。对于对象ID 32001,系统并未对其进行进一步分析,并利用X来表示该对象的位置。
返回图2中的方框22,校准可以(1)手动的,(2)利用来自视频传感器或录像机的图像的半自动的,或者(3)利用来自视频传感器或录像机的图像的自动的。如果需要图像,假设要由计算机系统11进行分析的源视频来自获得了用于校准的源视频的视频传感器。
对于手动校准,操作员向计算机系统11提供每个视频传感器14的朝向和内部参数,以及每个视频传感器14相对于该地点的位移。计算机系统11可以可选地维持该地点的地图,并且可以在地图上表示视频传感器14的位移。地图可以是该环境的二维或三维显示。此外,手动校准向系统提供了确定对象的近似尺寸和相对位置的足够信息。
代替地,对于手动校准,操作员可以利用表示如人等已知尺寸的对象的出现的图形来标记来自传感器的视频图像。如果操作员可以标记至少两个不同位置处的图像,系统可以推断近似的摄像机校准信息。
对于半自动和自动校准,不需要知道摄像机参数或场景几何结构。根据半自动和自动校准,产生查找表,以近似估计场景中多个区域处的对象的尺寸,或推断摄像机的内部和外部摄像机校准参数。
对于半自动校准,利用与来自操作员的输入相组合的视频源,对视频监视系统进行校准。使单个的人位于视频传感器的视场中,以进行半自动校准。计算机系统11接收与单个人有关的源视频,并根据数据,自动推断人的尺寸。随着观察到这个人的视频传感器的市场中的位置数的增加,以及随着在视频传感器中观察到这个人的时间段的增加,半自动校准的精度增加。
图7示出了视频监视系统的半自动校准的流程图。方框71与方框41相同,除了典型对象以多种轨迹通过该场景之外。典型对象可以具有多种速度,并且可以在多个位置静止不动。例如,典型对象尽可能地靠近视频传感器,然后尽可能远地远离视频传感器。如果需要,可以重复典型对象的这种运动。
方框72-75分别与方框51-54相同。
在方框76中,贯穿整个场景地监视典型对象。假设只有(或者至少是最为)稳定的被跟踪对象是场景中的校准对象(即,运动通过该场景的典型对象)。在场景中观察到该对象的每个点,收集此稳定对象的尺寸,并将此信息用于产生校准信息。
在方框77中,针对整个场景中的不同区域标识典型对象的尺寸。将典型对象的尺寸用于确定位于场景中多个区域处的类似对象的近似尺寸。利用此信息,产生查找表,与图像中多个区域中的典型对象的典型外观尺寸相匹配,或者推断内部和外部摄像机校准参数。作为采样输出,图像的多个区域中的棒状图的显示表示系统将其确定为适当高度。图11中描述了这种棒状图。
对于自动校准,执行学习阶段,其中计算机系统11确定与每个视频摄像机的视场中的地点有关的信息。在自动校准期间,计算机11接收该地点的源视频足以获得该场景的典型对象的统计显著采样的典型时间段(例如,分钟、小时或天),从而推断典型外观尺寸和地点。
图8示出了视频监视系统的自动校准的流程图。方框81-86与图7中的方框71-76相同。
在方框87中,标识视频传感器的视场中的可跟踪区域。可跟踪区域表示视频传感器的视场中可以容易和/或精确跟踪对象的区域。不可跟踪区域表示视频传感器的视场中不容易和/或不精确跟踪对象和/或难以跟踪对象的区域。可以将不可跟踪区域表示为不稳定或不显著区域。因为该对象较小(例如,小于预定的阈值)、出现较短的时间(例如,短于预定的阈值)或者表现出并不显著的运动(例如,无目的的),可能很难跟踪该对象。例如,可以利用{13}中所描述的技术来标识可跟踪区域。
图10示出了针对食品杂货店中的过道而确定的可跟踪区域。将位于过道远端的区域确定为不显著的,因为在此区域中出现了太多的干扰。干扰表示视频中混淆跟踪方案的某物。干扰的示例包括吹动的树叶、雨、部分遮蔽的对象、出现太短时间而难以精确跟踪的对象。相反,将过道近端的区域确定为显著的,因为针对此区域,确定了良好的跟踪。
在方框88中,针对在整个场景中的不同区域标识对象的尺寸。对象的尺寸用于确定场景中不同区域处的类似对象的近似尺寸。将如使用直方图或统计中值等技术用于作为场景中地点的函数,来确定对象的典型外观高度和宽度。在场景的图形的一部分中,典型对象可以具有典型外观高度和宽度。利用此信息,产生查找表,与图像中的多个区域中的典型外观尺寸相匹配,或者可以推断出内部和外部摄像机校准参数。
图11示出了识别来自图10的食品杂货店的过道中的典型对象的典型尺寸。假设典型对象是人,并由此以标记来标识。通过在显著区域中所检测到的人的平均高度和平均宽度的曲线图来确定人的典型尺寸。在此示例中,曲线A确定普通人的平均高度,而曲线B确定一个人、两个人和三个人的平均宽度。
对于曲线A,x轴表示以象素为单位的斑点的高度,而y轴表示当在x轴上进行标识时所出现的特定高度的示例数。曲线A的峰值对应于在该场景中的指定区域中最普遍的斑点高度,对于此示例,该峰值对应于站在此指定区域中的人的平均高度。
假设人们以较为稀松的人群行进,针对宽度,产生类似于曲线A的曲线图,作为曲线B。针对曲线B,x轴表示以象素为单位的斑点的宽度,而y轴表示当在x轴上进行标识时所出现的特定宽度的示例数。曲线B的峰值对应于多个斑点的平均宽度。假设最多的人群只包含一个人,最大的峰值对应于最普遍的宽度,其对应于在指定区域中的单个人的平均宽度。类似地,第二大的峰值对应于在指定区域中的两个人的平均宽度,而第三大的峰值对应于在指定区域中的三个人的平均宽度。
图9示出了本发明视频监视系统的另一流程图。在此额外的实施例中,该系统利用事件鉴别符分析已存档的视频原语,以产生额外的报告,例如,无需回顾整个源视频。在根据本发明处理了视频源之后的任意时刻,在图4的方框43中,对针对源视频的视频原语进行存档。能够以相对较短的时间,利用额外的实施例,重新分析视频内容,这使因为只回顾了视频原语,而并未重新处理视频源。这相对于当前的现有系统,提供了极大的效率改进,因为处理视频图像数据是极其计算昂贵的,而分析从视频中提炼出的小尺寸视频原语是及其计算便宜的。作为示例,可以产生以下的事件鉴别符“在过去的两个月中,在区域A中停留超过10分钟的人数。”利用此额外的实施例,不需要回顾过去两个月中的源视频。代替地,只需要回顾来自过去两个月的视频原语,这是极其更为有效的处理。
方框91与图2中的方框23相同。
在方框92中,访问已存档视频原语。在图4的方框43中,对视频原语进行存档。
方框93和94与图4中的方框44和45相同。
作为典型应用,本发明可以通过测量零售展示的效果,来分析零售市场空间。大量的费用被注入到零售展示中,以便通过眼球效应来尽可能地促进所展示的物品及附属品的销售。可以配置本发明的视频监视系统来测量这些零售展示的效果。
对于此典型应用,通过将视频传感器的视场定向到所关心的零售展示周围的空间,来建立视频监视系统。在任务分配期间,操作员选择表示所关心的零售展示周围的空间的区域。作为鉴别符,操作员定义他或她想要监视进入此区域并在速度上表现出可测量的减慢或停下可感知的时间的人形尺寸的对象。
在操作了一段时间之后,视频监视系统可以提供用于市场分析的报告。该报告可以包括在零售展示周围放慢速度的人数;停留在该零售展示处的人数;作为时间的函数,对该零售展示感兴趣的人数的分解,例如,在周末有多少人感兴趣,以及在晚上有多少人感兴趣;以及对该零售展示表现出兴趣的人们的快照。可以将由视频监视系统获得的市场调查信息与来自商店的销售信息和来自商店的消费者记录进行组合,以提高分析师对零售展示的效果的理解。
这里所讨论的实施例和示例均为非限制性示例。
针对优选实施例,对本发明进行了详细的描述,现在,通过前面的描述,对于本领域的技术人员显而易见的是,在本发明较为广泛的方面中,不偏离本发明的前提下,可以进行变化和修改,因此,正如权利要求中所限定的那样,本发明倾向于覆盖落入本发明的真实精神之内的所有这种变化和修改。
权利要求
1.一种包含视频监视系统的软件的计算机可读介质,所述计算机可读介质包括用于根据视频原语操作视频监视系统的代码段。
2.按照权利要求1所述的计算机可读介质,其特征在于用于操作视频监视系统的代码段包括用于提取视频原语的代码段;以及用于从视频原语中提取事件发生的代码段。
3.按照权利要求2所述的计算机可读介质,其特征在于利用事件鉴别符提取事件发生。
4.按照权利要求2所述的计算机可读介质,其特征在于还包括用于对所提取出的视频原语进行存档的代码段。
5.按照权利要求2所述的计算机可读介质,其特征在于还包括用于根据所提取出的事件发生进行响应的代码段。
6.按照权利要求5所述的计算机可读介质,其特征在于响应包括启动另外的传感器系统。
7.按照权利要求1所述的计算机可读介质,其特征在于还包括用于校准视频监视系统的代码段。
8.按照权利要求7所述的计算机可读介质,其特征在于用于校准的代码段包括用于自校准视频监视系统的代码段。
9.按照权利要求8所述的计算机可读介质,其特征在于用于自校准的代码段包括用于检测源视频中的至少一个对象的代码段;以及用于跟踪所述对象的代码段。
10.按照权利要求9所述的计算机可读介质,其特征在于用于检测至少一个对象的代码段包括用于通过至少一个对象的运动来检测所述对象的代码段;以及用于通过背景模型的变化来检测至少一个对象的代码段。
11.按照权利要求7所述的计算机可读介质,其特征在于用于自校准的代码段包括用于标识可跟踪区域的代码段;以及用于标识典型对象的典型尺寸的代码段。
12.按照权利要求7所述的计算机可读介质,其特征在于用于校准的代码段包括用于手动校准的代码段;用于半自动校准的代码段;以及用于自动校准的代码段。
13.按照权利要求1所述的计算机可读介质,其特征在于还包括用于利用事件鉴别符向视频监视系统分配任务的代码段。
14.按照权利要求13所述的计算机可读介质,其特征在于用于分配任务的代码段包括用于标识至少一个对象的代码段。
15.按照权利要求13所述的计算机可读介质,其特征在于用于分配任务的代码段包括用于标识至少一个空间区域的代码段。
16.按照权利要求13所述的计算机可读介质,其特征在于用于分配任务的代码段包括用于标识至少一个事件属性的代码段。
17.按照权利要求13所述的计算机可读介质,其特征在于用于分配任务的代码段识别至少一个交互动作。
18.按照权利要求13所述的计算机可读介质,其特征在于用于分配任务的代码段识别至少一个警报。
19.按照权利要求1所述的计算机可读介质,其特征在于视频原语来自视频传感器和另外的传感器中的至少一个。
20.按照权利要求1所述的计算机可读介质,其特征在于从视频原语的档案中检索视频原语。
21.一种计算机系统,包括按照权利要求1所述的计算机可读介质。
22.一种包含视频监视系统的软件的计算机可读介质,所述计算机可读介质包括用于访问已存档视频原语的代码段;以及用于从所访问的已存档视频原语中提取事件发生的代码段。
23.按照权利要求22所述的计算机可读介质,其特征在于利用事件鉴别符提取事件发生。
24.按照权利要求22所述的计算机可读介质,其特征在于还包括用于根据所提取出的事件发生进行响应的代码段。
25.一种方法,包括根据视频原语操作视频监视系统的步骤。
26.一种方法,包括以下步骤访问已存档视频原语;以及从所访问的视频原语中提取事件发生。
全文摘要
建立(21)、校准(22)、分配任务(23)和操作(24)一种视频监视系统。该系统提取视频原语(42),并利用事件鉴别符,从视频原语中提取事件发生(44)。该系统可以根据所提取出的事件发生,做出响应(45),如警报等。
文档编号G01B11/04GK1589451SQ02822772
公开日2005年3月2日 申请日期2002年7月17日 优先权日2001年11月15日
发明者艾伦·J·利普顿, 托马斯·M·斯特拉, 彼得·L·温特耐, 马克·C·阿尔门, 威廉·E·西弗森, 尼尔斯·黑里希, 安德鲁·J·肖西克, 张忠, 马太·F·弗雷泽, 詹姆士·S·斯菲克思, 平多田次, 约翰·I·W·克拉克 申请人:实物视频影像公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1