带有对象跟踪和检索的视频监控系统的制作方法

文档序号：7681958阅读：178来源：国知局

专利名称：带有对象跟踪和检索的视频监控系统的制作方法
技术领域：
本发明涉及到视频监控，对感兴趣的对象的跟踪和感兴趣的视频对象的检索。更确切地，但是非排他性地，本发明涉及视频监控系统，其中通过zoom-in摄像机自动拍摄感兴趣的对象的特写图像，并且自动选择特定的视频剪辑和基于其内容进行检索。
背景技术：
为了进行安全监控和便于视频记录，在私人和公共场所安装有大量的CCTV摄像机。记录的视频剪辑被证明在例如跟踪犯罪嫌疑人方面非常有用。随着未来更多的用于监控和安全目的的摄像机被安装，视频信息的存储量将显着增加。当前闭路电视(CCTV)安全系统是基于非标定的静态摄像机或手动操作云台缩放 (Pan-Tilt-Zoom, PTZ)摄像机。这样的系统提供有限的功能，特别是仅仅能提供被动的视频流用于记录或实况的实时控制室内的观察。感兴趣的对象不能被自动检测也没有感兴趣的对象的特写图像，例如嫌疑人的面孔，被实时自动记录下来。为了以这样的系统来提供嫌疑人面孔的特写图像，控制室操作员必须手动操作PTZ摄像机朝向感兴趣的对象。否则，就必须对视频流记录进行劳动密集的事后检视和检索。因而，识别嫌疑人的面孔非常困难，特别是如果面部的视频图像只占整个视频屏幕的很少部分时，当被放大后将颗粒化很严重。进一步地，当场景中没有活动时，当前的CCTV监控记录提供被动的连续记录。并没有已知的技术能从大量的视频记录中自动检索所需的视频记录。在该技术的现有状态，操作员进行劳动密集的手动放映来检索所需的视频。随着安装的摄像头数量的增加，视频的数量也增加，从而所需的手工劳动量也随之增加。发明目的本发明的一个目的是克服或者是实质上改进上述缺点中的至少一项，和/或更概括地说，提供一种带有对象跟踪和检索的视频监控系统，其中能实时记录感兴趣的对象的特写视频图像。本发明的进一步的对象是提供一种能自动检索相关记录视频剪辑的系统。本发明的一目的是提供一种用于智能CCTV监控和活动跟踪的方法和系统。该系统包括使用标定的静态PTZ摄像机。该系统提供对任何感兴趣的对象拉近(zoom-in)和摄取特写照片的功能，例如新进入摄像机视野的人。此功能是在实时在线执行。在离线的活动跟踪中，来自多个摄像机拍摄的相关的录像将形成一个在长时间跨度上的感兴趣的对象的活动列表。

发明内容
本发明公开了一种捕捉和检索视频图像数据集的方法，包括使用静态闭路电视和PTZ摄像机从实况场景(live scene)捕捉视频图像数据；自动检测进入场景或在场景中移动的感兴趣的对象，并自动控制PTZ摄影机以使其能进行特写实时视频捕获感兴趣的对象。优选地，该方法进一步包括自动跟踪在捕获的和/或实时捕获的视频图像数据
3中的感兴趣的对象。优选地，该方法进一步包括自动分析的感兴趣的对象的特征。优选地，该方法进一步包括自动搜索已有的视频数据库，以确认和/或识别感兴趣的对象。优选地，该方法进一步包括建立捕获的感兴趣的对象的活动记录。优选地，摄像机是标定的，以使可以计算三维图像阵列。三维静态摄像机标定是指一是用来计算投影矩阵的离线过程，以使在在线检测中，一个三维对象点的齐次表示(homogenous representation)可以转化为二维图像点的齐次表示。PTZ摄像机的标定是一项更为复杂的任务。这是因为，随着摄像机的光学变焦水平的变化，其固有的摄像机价值会发生变化。且随着摄像机的和平移和倾斜值的变化，摄像机的外部值将发生变化。因此，我们必须采取正确的方法，探寻PTZ摄影机的中心的角运动与它经历的机械平移和倾斜的变化之间的关系。优选地，三维阵列的分割通过背景减法实现。优选地，感兴趣的对象是一个人的脸，且PTZ摄影机被控制自动摄取面部特写图像。优选地，该方法进一步包括实施调度算法来控制PTZ摄影机，以识别和跟踪场景中的多个感兴趣的对象。优选地，该方法进一步包括执行使用背景减法的压缩算法；和执行采用多流同步的解压缩算法。优选地，该方法进一步包括对于静态闭路电视摄影机捕获的视频，执行一语义方案。优选地，该方法进一步包括观察一台可以显示非线性和语义标记的视频信息的监视器。从广义上讲，该系统被设计用来自动检测感兴趣的对象，自动变焦以进行特写镜头的视频捕获，以及自动提供活动跟踪。优选地，标定过程使一系列摄像机可以了解它们的彼此三维相互关系。检测和zoom-in最好包括将图像数据分割成至少一前景对象和背景对象，该至少在一个前景对象为感兴趣的对象。该感兴趣的对象最好是新进入捕获的视频图像的场景的人或车辆。检测通常进一步包括确认一人以及检测和确定其脸的位置。Zoom-in通常包括计算感兴趣的对象的脸的位置和物理上平移，倾斜和/或变焦 PTZ摄影机以捕捉感兴趣的对象特写照片。在此阶段，本发明将集中于作为非常感兴趣的对象的人和移动的车辆。一旦多于一个的对象需要视频采集，检测可以包含一个调度算法，该算法识别人脸或移动车辆并确定摄取特写视频图像的最佳路线，以使没有感兴趣的对象被遗漏。跟踪最好包括将图像分割为前景和背景，检测感兴趣的对象和在视频图像中和跟踪感兴趣的对象的移动。每个像素被自动分类为前景或背景，并在一段时间间隔上，使用鲁棒(robust)统计方法进行分析。跟踪产生了图像中感兴趣的物体的活动轨迹的记录。
视频分析通常包括感兴趣的物体的物理特征的分析和记录。特征包括但不限于车型，注册车牌字母数字信息，服装风格和颜色，感兴趣的物体的高度，特写视频拍摄将被分析和记录，以便进行感兴趣的物体的确认。确认和搜索最好包括对一系列记录下的分析出的物理特征进行匹配，以在其他捕获的视频图像中寻找潜在的感兴趣的对象。在海量的视频记录中，记录首先按时间上和地理区域过滤，以使得只有那些可能包含感兴趣的对象的视频才能作为对象确认和查找的对象。该“创建”的步骤最好包括收集所有有关感兴趣的对象的由多个摄像机拍摄的视频数据，以一种可以产生活动记录的方式编排这些视频。该活动记录最好进一步可以同步到摄像机的位置，创建一个物理位置的活动记录。这包括在将摄像机在监控区域的物理安装位置映射到回复的相关视频记录。另一个设想是，以一计算机程序实现本发明的方法，以及用一程序存储装置来存储该计算机程序产品。另一个设想，是一种视频压缩方法，提供一个大的压缩比以节省大量的存储空间。该压缩方法将包括活动检测和背景减法技术。另一个设想，是一个视频解码方案，其中包括一个使用多流同步的算法。虽然本发明适用于众多不同领域，它已被认为是特别适用于安全监控领域和嫌疑入足艮S宗ο本发明的方法和系统尤其适合跟踪其活动被多个摄像机记录的感兴趣的的嫌疑人。为了安全起见，安全人员被要求在一个特定的时间范围内，从安装在一个地区或城市区域的摄像机网络所有录制的视频中检索感兴趣的嫌疑人是很常见的。由此产生的图像数据可用于建立一个嫌疑人的活动记录，这对犯罪嫌疑人和相关的事件的调查将有很大价值。本发明的方法和系统将产生嫌疑人清晰的特写照片，并执行相关的视频检索，降低劳动和极大缩短时间范围。这一减少时间的优势，将对如警察局这样的机构非常必要。定义本文中使用的术语“感兴趣的对象(Object(S)Of interest) ”及其缩写“Ool ”主要是指个人(person)或人们(people)，但也可能包括其它对象，如昆虫，动物，海洋生物，鱼类，植物和树木等。本文使用的术语“CCTV摄影机”意指包含传统的用于监控目的的闭路电视摄像机，以及更现代的视频监控摄像机形式，例如IP(互联网协议)摄像机和其它任何形式的能进行视频监视的摄像机。

本发明的优选形式将参考附图通过举例方式进行描述，其中图1示出了带有对象跟踪和检索的视频监控系统的总体设计结构；图2示出了图像分割和三维视图标定和计算的细节；图3示出了相关的视频检索过程的详细的操作流程；及图4示出了相关的视频检索过程的技术细节。优选实施例的具体实施方式
附图中的图1描绘了用于实现本发明的方法的系统的概观。该系统100包括多个摄像机101，其安装在战略位置以监测作为目标的环境或场景50。光学云台变焦和/或高分辨率电子云台变焦摄像机102被安装在能够自动捕获感兴趣的对象的特写照片的位置。这些摄像机形成一个监视网络，其中的感兴趣的对象在一个大的物理区域内的长期活动可以被跟踪。摄像机101和102是标定的，这样就可以计算被监测范围内的感兴趣的对象的三维位置。三维摄像机的标定可以用用二维和三维网格图案实现，如“MultiviewGeometryinC omputerVision, R. HartleyandA. Zisserman, CambridgeUniversityPress, 2004"中所述。在多个人脸需要视频捕捉的情况下，一调度系统被用以确定最快的序列来捕捉特写图像，以使得不会错过任何感兴趣的对象。合适的是，可以使用诸如概率汉密尔顿路径调度算法来实现此功能。将每个移动对象附加到一条基于其移动速度、三维位置和移动方向的概率路径。图算法(graph algorithm)将确定一条所有对象的哈密顿(Hamilton)路径，并决定无阻塞(occlusion)的捕捉每一个的近距离照片的最佳的位置。虽然单个摄像机101或102可用于本发明的方法和系统，但当可得到来自多个摄像机101和102的图像时，最好是将其结合起来，形成多个视图(views)以进行处理。摄像机103的输出，即捕获的视频记录，是记录在在数字录像机104内。捕获的视频记录103将以电子格式保存。因此，摄像机101和102最好是数码摄像机。但是，如果模拟摄像机的输出被转换为数字格式的话，也是可以使用的。模块120对摄像机103的输出视频数据进行压缩。压缩后的捕获的视频纪录是由数字录像机104保存。每当一个感兴趣的对象进入监控区域(场景)，PTZ摄影机被控为自动变焦以得到一特写图像。之后该图像被保存到数据库106。本发明还应用高比率压缩技术以减少数据存储需求。考虑到已安装的大量摄像机和将要产生的视频数据量，高速率压缩是实践上的必然。视频压缩为常规技术。本发明更倾向于一种利用背景减法的技术。该技术涉及活动检测和背景减法。该活动检测辨识视频场景中的是否有任何活动。如果没有任何活动，该视频片段被全部阻止。如果有活动，则一段时间内的最小包围活动区域将被压缩和储存。一个使用同步可访问媒体交互(SAMI)的同步文件将被存储以用于解压缩。较佳地，视频压缩要被实时执行。压缩过程中最好是直接在图像被摄像机捕获后，视频数据被记录之前完成。这样一来，视频数据库可以记录已压缩的视频数据。视频压缩过程120可通过一压缩算法进行，该压缩算法可以由设置于摄像机内的嵌入式硬件实现，也可由设于摄像机和数字视频服务器之间的计算机设备来完成压缩任务。重要的是，视频压缩过程利用背景减法和应用对象跟踪技术，而视频分析也用到同样的技术。视频压缩典型地是对原始捕获的与摄像机紧密关联的视频进行。视频信息以压缩格式保存在视频服务器上。保存的数据已经被分割和索引，可被用于数据搜索和浏览。其结果是，与典型的“捕获_记录_压缩-分析”系列步骤相比，视频压缩和内容分析过程实质上作为一个过程进行。摄像机101和102的物理位置同步到一个电子地图105。系统基于来自电子地图 105的摄像机的物理位置信息来编排视频记录103和将其保存到数据库106。数据库106 中的视频记录107将按照时间和地域分类和索引。
软件模块108提供以下功能从简单的视频记录中识别和跟踪感兴趣的对象；从多个捕获的视频记录中分析和查找感兴趣的对象；以及创建感兴趣的对象110的活动记录 (chronicle)并将结果输出给用户。参考图2，在一个场景的图像数据被捕获之后，相关的对象，特别是人，必须从原始视频中提取出来以获取特写图片。从图像数据中提取相关对象通常包括三个过程，称为三维视图计算；分割和对象识别。三维计算从两个二维摄像机的相应图像点产生一个三维点。这两个二维摄像机要在安装期间标定。标定可以使用在"Multi view Geometry in ComputerVision,R. Hartley, A. Zisserman, Cambridge University Press，2004”中描述的技术完成。三维点计算可以被计算以确定来自两个摄像头中心的假想线的交叉点。分割检测图像数据场景中的对象。其实现应用诸如背景减法(backgroundsubtraction) 技术，背景减法将每个像素分类为运动部分和静止部分以反映前景对象。有多种技术可用来实现背景减法，例如“C. Stauffer，W. (irimson，AdaptiveBackground Mixture Models for Real-time Tracking, IEEE CVPR 1999，，禾口 “P. Kaew，Tra Kul Pong, R. Dowden, nlmproved Adaptive Background Mixture Modelfor Real-time Tracking with Shadow Detection, 2nd European Workshop onAdvanced Video Based Surveillance Systems, 2001，，。对象识别涉及检测所需的特征将表现为一个前景对象。本系统为任何进入到场景的人拍摄特写图像，同时跟踪其他对象。人的识别可以通检测人类独有的特征完成，如面部特征，肤色和人的外形匹配。诸如利用〃 P. Viola,M. Jones, Rapid Object Detection using a Boosted Cascade of Simple Features,CVPR 2001” 中所描述的哈尔样(Haar-like)特征训练自适应增强(Ada boost)等的技术常用于人和人脸检测。一旦一个人或车辆被识别后，将摄取目标人物的面部或目标车辆的号牌的特写图像。这涉及人脸或车牌的三维位置跟踪，其指导PTZ摄影机来摄取特写图像。三维位置跟踪涉及基于预标定的摄像机计算目标对象的确切位置。诸如对极几何(印ipolar-geometry) 等技术被认为是适于三维位置计算的。一旦发现目标对象的确切三维位置，驱动PTZ摄影机拍摄特写照片的指令可以使用诸如RS232或TCP/IP协议等公共云台协议(common PTZ protocols)自动发送。它也可以嵌入到视频数据流中并发送以存档。已经开发出使用多视图几何和随机算法来估计静态摄像机和PTZ摄像机的内部和外部参数的标定算法。一旦摄像机被标定，使用三维仿射变换(3D affinetransform)，任意三维位置均可被识别和观察。已开发出使用三维仿射变换的zoom-in算法。利用动态多高斯估计的背景减法算法也已开发出来。结合背景减法和3D仿射变换，使自动平移、倾斜和/或变焦到人脸或汽车号码牌以摄取特写的图像纪录成为可能。脸和号码牌识别使用均值漂移算法实现。在当监控区域预期有大量人群的环境条件时，建议在系统集成一个调度模块，这样可以使PTZ摄影机在最短的时间内对所有目标的拍摄照片。调度和最大化为常规技术，例如在“Markde Berg, Marcvan Kreveld, Mark Overmars, OtfriedSchwarzkopf, Computational Geometry, Algorithms and Applications, Springer-Verlag, 1997，，中所述。同样，系统处理阻塞效应(handles occlusion effects)。本发明的方法最好使用基于概率汉密尔顿路径的调度算法。图3说明了模块108的详细运作流程。模块301选择一个视频剪辑作为对象跟踪操作的种子。302模块选择要被确认和跟踪的感兴趣的对象，最好是人。303模块的追踪视频记录302中的感兴趣的对象的活动轨迹。这个过程涉及对象识别，确认和图像数据检索。详细的技术讨论将参考图4提供。感兴趣的对象在303模块被确认和跟踪后，模块304随后执行操作来检索所有包含感兴趣的对象的视频数据。模块304执行的视频检索操作完全可以全自动或手动306完成。为了平衡操作时间和准确性，最好是这个过程是辅以手工选择的自动检索或二者的结
合来完成。检索到的视频记录被管道传递到模块305的用于活动记录创建。活动记录是由多台摄像机所捕获的感兴趣的对象进行的活动的历史文件记录。视频记录按时间和地域编排，以便创建关于感兴趣的对象在特定时间段内都做过什么的清楚的证据记录。视频数据的编排可以使用诸如时间和空间数据库操作等技术进行。本发明开发了可视化算法以提供感兴趣的对象的行经路径的视图。该活动记录将在记录查看器(监视器)110上被查看。该记录查看器最好是可以查看非线性和语义标记的视频记录。图4从技术上说明跟踪模块303和304。它还描述系统如何检索所有包含感兴趣的对象的相关视频记录。模块303生产所述对象的活动轨迹，其最好是涉及团块(blob)跟踪。blob跟踪是一种使用区域生长的常见技术。感兴趣的对象的边框的中心可以作为对象的轨迹。模块303产生的结果向系统提供信息，以从分类图像数据库107中查找相关视频记录。模块401为确认的对象进行特征提取。有用的信息，如身高，服装颜色，肤色，运动模式等，将在这一过程中被学习和采集。特征的提取可以使用统计和机器学习技术来完成，如直方图分析，光流(optic flow)，投影摄像机映射，消失点分析(vanishing point analysis)等。模块403检索包含所述确认的对象的相关视频记录。检索视频记录涉及带有在模块401中提取的控制特征的映射图像数据。检索通常是由模式匹配技术实现，如相似性搜索，局部图匹配，共生矩阵(co-occurrence matrix)等。模块403生成的检索到的视频记录最好是贴上带有可信程度的标记。可信程度的计算是通过模式匹配算法时钟(clock)完成。在应用时，其准确程度可以通过模块404中的人工干预来提高。该活动记录查看器110通过使用最好是多流同步技术解压缩图像数据来查看压缩的视频。同步涉及解压缩各种数据流，同步那些使用SAMI的数据流，和重建“原始”的视频流。本发明将大大有利于安全产业和国土安全。应该明白，对于本领域技术人员来说显而易见的修改和替换不能被认为超出了本发明的范围。
8
权利要求
一种捕捉和检索视频图像数据采集的方法，包括使用静态闭路电视和PTZ摄像机从场景捕捉视频图像数据；自动检测进入场景或在场景中移动的感兴趣的对象，并自动控制PTZ摄影机以使其能进行特写实时视频捕获感兴趣的对象。
2.根据权利要求1的方法，进一步包括自动跟踪在捕获的和/或实时捕获的视频图像数据中的感兴趣的对象。
3.根据权利要求2的方法，进一步包括自动分析的感兴趣的对象的特征。
4.根据权利要求3的方法，进一步包括自动搜索已有的视频数据库，以确认和/或识别感兴趣的对象。
5.根据权利要求4的方法，进一步包括构造捕获的感兴趣的对象的活动记录。
6.根据权利要求1的方法，其中，摄像机是标定的，以使可以计算三维图像阵列。
7.根据权利要求1的方法，其中，该三维阵列的分割通过背景减法实现。
8.根据权利要求1的方法，其中，感兴趣的对象是一个人的脸，且PTZ摄影机被控制以便自动摄取面部特写图像。
9.根据权利要求1的方法，进一步包括实施调度算法来控制PTZ摄影机，以识别和跟踪场景中的多个感兴趣的对象。
10.根据权利要求9的方法，进一步包括执行应用背景减法的压缩算法；和执行应用多流同步的解压缩算法。
11.根据权利要求10的方法，进一步包括对于静态闭路电视摄影机捕获的视频，执行一语义方案。
12.根据权利要求11的方法，进一步包括观察一台可以显示非线性和语义标记的视频信息的监视器。
全文摘要
本发明公开了一种捕捉和检索视频图像数据集的方法，包括使用静态闭路电视和PTZ摄像机从场景捕捉视频图像数据；自动检测到感兴趣的对象进入场景或在场景中移动，并自动控制PTZ摄影机以使其能对感兴趣的对象进行特写实时视频捕获。该系统自动控制PTZ摄影机，以便近距离的实时视频捕获感兴趣的对象。该系统会在捕获的视频图像数据中自动跟踪感兴趣的对象和分析的感兴趣的对象的特征。
文档编号H04N7/18GK101918989SQ200780101833
公开日2010年12月15日申请日期2007年12月7日优先权日2007年12月7日
发明者欧思乐, 金声申请人:常州环视高科电子科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：欧思乐;金声
技术所有人：常州环视高科电子科技有限公司
我是此专利的发明人

上一篇：基于广播网络的文件大小估计设备和方法
上一篇：处于保持时的音乐的终端用户控制的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。