用于安全应用的人体检测和跟踪的制作方法

文档序号:6566947阅读:201来源:国知局
专利名称:用于安全应用的人体检测和跟踪的制作方法
技术领域
本发明涉及监视系统。具体地,本发明涉及基于视频的智能监视系统, 其能自动检测和^J宗监视下的场景内的人体目标。
背景技术
稳健的人体检测和跟踪对于现代视频监视和安全应用很重要。任何住 宅和商业系统关心的一个问^高的误报警或误报警的倾向。许多因素可 以触发误报警。例如,在家庭安全系统中,诸如生日气球或宠物乃至圣诞 树上的装饰物之类的物体或动物的热、声音或移动的任何来源,如果处于 安全传感器的检测范围之内,都可能引起误报警。这样的误报警可能促使 人员响应,显著增加了系统的总成本。此外,反复的误报警可能降低系统 的有效性,当真正的事件或威胁发生时,这会很不利。
同样,如果安全系统能够可靠地检测场景中的人体目标,则大多数的 误报警需要被去除,因为看来好像非人体的目标引发了大多数的误报警。 所需要的是可靠的人#测和1 ^宗系统,该系统不仅能够减少误报警,而 且还能够用于执行更高水平的人类行为分析,所U类行为分析可以具有 大范围的潜在应用,包括但不限于人员计数、中老年或精神疾病的监视,
以及可ltA员犯罪行为检测。

发明内容
本发明包括用于人体检测和跟踪的方法、系统、i殳备和制造的物品。
在实施例中,本发明使用了具有有关人体对象的多个线索和一^A体 模型的人体检测方法。本发明的实施例还使用了人体目标躍應和时间信息 来进一 步增加检测的可靠性。
本发明的实施例还可以用替选方式使用人体外观、肤色检测和人* 动。在一个实施例中,脸部检测可以使用人体对象的正面或半正面视图以 及头部图像尺寸和主要面部特征。
根据实施例,本发明包括计算机可读介质,其包含软件代码,当所述 软件代码由机器如计算机读取时,使该计算机执行用于视频目标跟踪的方
法,该方法包括但不限于下述操作对输入的监皿频执行变化检测;检 测和跟踪目标;以及基于用户限定的规则检测所关心的事件。
在实施例中,用于本发明的系统可以包括计算机系统,其包括计算机 可读介质,该计算机可读介质具有根据本发明的实施例来^Mt计算机的软 件。在实施例中,用于本发明的设备包括计算机,其包括计算机可读介质, 该计算机可读介质具有根据本发明的实施例来操作计算机的软件。
在实施例中,用于本发明的制造的物品包括计算机可读介质,其具有 根据本发明的实施例来操作计算机的软件。
本发明的示例性特征和优点以及本发明的各种实施例的结构和操作 可以在下面参考附图详细说明。


本发明的上述和其它特征和优点将通过下面本发明的示例性实施例 的更具体的描述而更加明显,如附图所示,其中相同的附图标记一般指示 相同、功能上相似和/或结构上相似的元件。相应的附图标记中的最左边 的数字指示元件最先出现在其中的附图。
图l描绘了根据本发明的实施例的智能视频系统(IVS)系统的概念 性才匡图2描绘了根据本发明的实施例的IVS系统的与人体检测/跟踪有关 的内容分析模块的概念性框图3描绘了根据本发明的实施例的人体检测/跟踪模块的概念性框图4列出了根据本发明的实施例的人体特征提,块的主要部件;
图5描绘了根据本发明的实施例的人体头部检测模块的概念性框图6描绘了根据本发明的实施例的人体头部位置检测模块的概念性 框图7图示了根据本发明的实施例的目标上部轮廓的例子;
图8示出了才艮据本发明的实施例的检测到的潜在头部位置的某个例
子;
图9描绘了根据本发明的实施例的椭圆形头部配合(fit)模块的概念
性才匡图10图示了才艮据本发明的实施例的如何找到头部外形像素的方法;
图11图示了根据本发明的实施例的将一个头部外形点的配合误差限 定到估计的头部模型;
图12描绘了根据本发明的实施例的椭圓形头部精细配合模块的概念 性4匡图13列出了根据本发明的实施例的头部跟踪器模块406的主要部件; 图14描绘了根据本发明的实施例的相对尺寸估计器模块的概念性框
图15描绘了根据本发明的实施例的人体形状轮廓提,块的概念性 框图16示出了根据本发明的实施例的人体投影轮廓提取和规范化的例
子;
图17描绘了 4艮据本发明的实施例的人体检测模块的概念性框图; 图18示出了根据本发明的实施例的不同水平的人体特征支持的例
子;
图19列出了根据本发明的实施例的人体目标检测器和跟踪器使用的 潜在人体目标状态;
图20图示了根据本发明的实施例的人体目标状态变换图。
应当理解这些附图描绘的是本发明的实施例。基于包含于此的教导, 这些实施例的变化对于相关领域普通技术人员是明显的。例如,这些附图 中所包含的流程图和框图描绘了具体的操作流程。但是,这些流程图中所 包含的功能和步骤可以以其它次序执行,如基于包含于此的教导对于相关 领域普通技术人员将会明显的那样。
定义
下面的定义适用于本公开全文,包括上面的内容。
"视频"可以指以模拟和/或数字形式表示的运动图片。视频的例子 可以包括电视、电影、来自摄<|*或其它观察器的图像序列和计算机生成
的图像序列。视频可以例如从现场报道(live feed )、存储装置、基于IEEE 1394的接口、视频数字转换器、计算机图形引擎或者网络连接中获得。
"帧"指的是视频中的具体图^i^其它离散单元。
"视频摄^^"可以指用于视觉记录的设备。视频摄^N^的例子可以 包括以下中的一个或多个视频損WI4iL;数字视频摄^^;彩色摄^^; 单色摄^^;摄膝^;可携式摄#^; PC摄^^;网络摄膝fe红外(IR) 视频摄^4^;低照度视频摄#4^;热视频摄像机;CCTV摄4I^;遥摄、 倾斜、变焦(PTZ)摄^^L;以及视频感测装置。可以安置视频摄^4^以 执行所关心区域的监视。
"对象"是指在视频中关注的项目。对象的例子包括人、车辆、动物 和物理实体。
"目标,,是指对象的计算M型。目标从图像处理中导出,并且在目 标和对象之间存在——对应。4^>开中的目标具体地是指对象在一定时间 期间的 一段时期的 一致的计算,型。
"计算机"是指能够接受结构化输入、根据规定的规则处理所述结构 化输入并产生处理的结果作为输出的任何设备。计算机例如可以包括接 受数据、根据一个或多个存储的软件程序处理所述数据、产生结果并且典 型地包括输入、输出、存储、算术、逻辑和控制单元的任何设备;计算机; 通用计算机;超级计算机;大型机;超级小型计算机;小型计算机;工作 站;微型计算机;服务器;交互式电视;网络设备;具有互联网接入的电 信设备;计算机和交互式电视的混合组合;便携式计算机;个人数字助理 (PDA);便携式电话;仿效计算机和/或软件的专用硬件;固定式计算机; 便携式计算机;单处理器计算机;可以并行和/或不并行操作的多处理器 计算机;以及经由网络连接在一起的用于在计算机之间传输或接收信息的 两个或更多计算机,比如用于经由通过网络链接的计算机处理信息的分布 式计算机系统。
"计算机可读介质"是指用于存储计算机可访问数据的任何存储装 置。计算机可读介质的例子包括磁性硬盘;软盘;光盘如CD-ROM和 DVD;磁带;存储芯片;以及用于运送计算机可读电子数据的载波,比 如在发送和接收电子邮件中或者在访问网络中使用的那些载波。
"软件"是指用于操作计算机的规定的规则。软件的例子包括软件; 代码段;指令;软件程序;计算机程序;以及编程逻辑。
"计算机系统"是指具有计算机的系统,其中计算机包括含有软件以 操作计算机的计算机可读介质。
"网络"是指通过通信设施连接的若干计算机和相关设备。网络可以 包括永久连接如缆线或临时连接如通过电话、无线或其它通信M进行的
那些连接。网络的例子可以包括互联网如因特网;内联网;局域网(LAN); 广域网(WAN);以及网络如互联网和内联网的组合。
具体实施例方式
在此说明本发明的示例性实施例。尽管讨论了具体示例性实施例,但 M当理解这只是用于说明的目的。相关领域中的普通技术人员会明白, 至少基于在此提供的教导,能够使用其它部件和配置而不脱离本发明的精 神和范围。
本发明的示例性实施例的具体应用包括但不限于以下住宅安全监 视;商业安全监视,比如像用于零售、保健或仓库;以及重要M设施的 视频监视,比如像用于炼油厂、核电站、港口、机场和铁路。
在说明本发明的实施例时, 一般使用下列准则,但本发明不限于它们。 相关领域中的普通技术人员会至少基于在此提供的教导而意识到对所述 准则的替选和添加。
1、 人体对象具有头部,其在摄^^L视野中具有直立身体支持至少 一定时间。这可能要求摄像机不是俯视和/或人体没有总是爬行。
2 、 人体对象在对象移动时具有肢体运动。
3、 人体尺寸在平均人体尺寸的一定范围内。
4、 人体脸部可以看见。
上述一般的人体对象性质是这样的准则,所述准则充当用于场景中的 人体目标的多条线索,并且不同的线索在所观察的目标是否是人体目标方 面可以具有不同的可信度。根据实施例,每个视频帧上的人体检测可以是 来自该帧的所有线索或所有线索的子集的加权或非加权的组合。视频序列 中的人体检测可以是来自人体目标跟踪的全局决定。
图1描绘了根据本发明的实施例的典型的IVS系统100的概念性框 图。视频输入102可以是常规闭路电视(CCTV)视频信号,或者一般地, 是来自视频摄像机的视频信号。元件104可以是具有内容分析模块的计算
机,所述内容分析模块执行在此说明的场景内容分析。用户可以通过用户
界面106配置系统100并定义事件。一M测到任何事件,就向指定人员 发送报警110,其带有必要的信息和指令用于进一步的关注和调查。视频 数据、场景内^Kt据和其它事件相关数据将被存储到数据存储器108中用 于以后的法庭分析。本发明的这个实施例关注内容分析模块104的一个具 体能力,亦即人/^险测和跟踪。在视频输入102中检测和跟踪到人体目标 的任何时候,都可以生成报警。
图2描绘了根据本发明的实施例的内容分析模块104所进行的人体检 测/跟踪的操作实施例的框图。首先,系统可以使用运动和变化检测模块 202来将前景与背景202分开,并且这个模块的输出可以^1对于每一帧的 前景遮罩(mask)。下一步,前景区可以被斑点(blob)提取模块206分成分 开的斑点208,并且这些斑点为目标在每个时标的观察。人体检测/跟踪 模块210可以检测和 视频中的每个人体目标,并在场景中有人体时发 出报警110。
图3描绘了根据本发明的实施例的人体检测/跟踪模块210的概念性 框图。首先,人体部位和特征检测302提取并分析各种对象特征304。这 些特征304可以稍后被人体检测模块306使用以检测在场景中是否有人体 对象。然后可以为每个检测到的人体生成人体模型308。这些检测到的人 体模型308可以充当用于人体跟踪模块310的每个帧处的人体观察。
图4列出了根据本发明的实施例的人体部位和特征提,块302中的 示例性部件。斑点跟踪器402可以执行基于斑点的目标跟踪,其中基本的 目标单元是由前景斑点提:^块206提供的单独斑点。注意斑点可以是人 体目标的基本支持,帧中的任何人体对象都位于前景斑点中。头部检测器 404和跟踪器模块406可以执行人体头部检测和跟踪。在斑点中存在人体 头部可以提供有力的证据来证明所述斑点是人体或至少可能包含人体。相 对尺寸估计器408可以提供目标和平均人体目标相比的相对尺寸。通过研 究斑点遮罩的垂直投影和斑点的顶部轮廓,人体轮廓提W^块410可以提 *个斑点中的人体轮廓的数目。
脸部检测器412还可以用于提供在场景中是否存在人体的证明。存在 许多脸部检测算法可用于在这个阶段应用,并且在此说明的这些算法是实 施例,而不打算限制本发明。基于至少在此提供的教导,相关领域的普通 技术人员将会意识到其它脸部检测算法的应用。在这个视频人体检测想定 中,通过较早的内容分析模块已经检测了前景目标,并且脸部检测只能够
在输入的斑点上应用,这可以提高检测可靠性并降低计算成本。
下一个模块414可以提供称作尺度不变特征变换(SIFT)的图像特 征生成方法或者提取SIFT特征。可以为每个斑点提取局部图像特征的类。 这些特征对于图像缩放、平移和旋转是不变的,并且对于照明变化和仿射 或三维(3D)投影部分地不变。这些特征可以用于将刚性对象如车辆与 非刚性对象如人体分开。对于刚性对象,它们的来自后续帧的SIFT特征 可以提供比非刚性对象好得多的匹配。这样一来,被跟踪目标的SIFT特 征匹配得分就可以用作目标的刚性量度,其可以进一步在某些目标分类想 定中使用,例如将人群与车辆分开。
肤色检测器模块416可以检测每个被检测到的头部区域中的一些或 所有的肤色像素。在本发明的实施例中,头部区域中的肤色像素的比率可 以用于检测最佳人体快照。根据本发明的实施例,检测肤色像素的方法可 以是通过训练在YCrCb颜色空间中产生肤色查询表。可以预先收集有关 应用想定的大量图像快照。下一步,可以手工获得其上有肤色像素的地面 实况。这可以有助于一组训练数据,其然后可以用于产生概率图,其中, 根据实施例,每个位置涉及一个YCrCb数,并且该位置上的值可以是具 有YCrCb值的像素为肤色像素的概率。通过在肤色概率图上应用阈值, 可以获得肤色查询表,并且肤色概率大于用户可控阔值的任何YCrCb值 都可以被J人为AJ统色。
和脸部检测相似,存在许多肤色检测算法可用于在这个阶段应用,并 且在此说明的这些算法是实施例,而不打算限制本发明。基于至少在此提 供的教导,相关领域的普通技术人员将会意识到其它肤色检测算法的应 用。
物理尺寸估计器418可以提供被检测目标的近似物理尺寸。这可以通 过对正在使用的摄#*拖加校准来实现。可能存在可用的摄#*艮准方法 的范围,其中的一些在计算上是密集的。在视频监视应用中,通常希望快 速、简便和可靠的方法。在本发明的实施例中,基于图案的校准可以4艮好 地服务于这个目的。例如参见Z.Zhang的"A flexible new technique for camera calibration" , IEEE Transactions on Pattern Analysis and Machine Intelligence,22(ll):1330-1334,2000,其麥体结合于此,其中操作者仅仅需 M的事是在视频摄^^前挥动具有棋盘状图案的平板。
图5描绘了根据本发明的实施例的人体头部检测器模块404的框图。 向模块404的输入可以包括基于帧的图像数据,比如源视频帧;具有不
同可信度水平的前景遮罩;以及分段的前景斑点。对于每个前景斑点,头
部位置检测模块502可以首先检测潜在的人体头部位置。注意每个斑点可
以包括多个人体头部,而每个人体头部位置则仅可以包括至多 一个人体头 部。下一步,对于每个潜在的人体头部位置,基于不同的输入数据,通过
椭圆形头部配合模块504可以检测对应于相同人体对象的多个头部。
根据本发明的实施例,直立椭圓形头部模型可以用于椭圓形头部配合 模块504。直立椭圓形头部模型可以包括三个基本参数,其既不是最小也 不是最大数目的参数中心点;头部宽度,其对应于短轴;以及头部高度, 其对应于长轴。进一步,头部高度和头部宽度之间的比率可以才艮据本发明 的实施例限定在大约1.1到大约1.4的范围内。在本发明的实施例中,三 种类型的输入图像遮罩可以独立地用于检测人体头部变化遮軍、明确的 前景遮罩和边缘遮軍。变化遮罩可以指示可能在某种程度上不同于背景模 型的全部〗象素。它既可以包括前景对象,又可以包括由前景对fJt成的其 它副作用如阴影。明确的前景遮革可以提供更可信版本的前景遮罩,并可 以去除大部分的阴影像素。通#输入的斑点之上执行边^测,比如但 不限于Canny边缘险测,可以生成边缘遮罩。
椭圆形头部配合模块504可以基于三种不同遮罩来检测三种潜在的 头部,然后可以通过用于一致性检验的一致性检验模块506比较这些潜在 的头部。如果最佳匹配对相互符合,则组合的头部可以通过身体支持检验 模块508进一步检验,以确定所述对是否具有足够的人体身体支持。例如, 一些对象如气球可能具有人体头部形状,但不会通过身体支持检验测试。 在进一步的实施例中,身体支持测试可能要求被检测的头部处于其它前景 区之上,该区在宽度和高度量度上都比头部区大。
图6描绘了根据本发明的实施例的头部位置检测模块502的概念性框 图。向模块502的输入可以包括斑点边界框;以及图像遮罩中的一个。 生成顶部轮廓模块602可以从图像遮罩中生成数据矢量,指示目标的顶部 轮廓。矢量的长度可以和斑点宽度的宽度相同。图7图示了根据本发明的 实施例的目标顶部轮廓的例子。帧702描绘了具有各种特征的多个斑点目 标和适用于确定轮廓的顶部轮廓。曲线图704描绘了作为距离的因素的结 果轮廓。
下一步,计算轮廓导数模块604对轮廓执行导数运算。斜率模块606 可以检测一些、大部分、任何或所有的向上和向下斜率位置。在本发明的 实施例中, 一个向上斜率可以是轮廓导数为局部最大的地方,并且值大于
最小头部梯度阔值。相似地, 一个向下斜率可以是轮廓导数为局部最小的 地方,并且值小于上述最小头部梯度阈值的负数。潜在的头部中心可以位 于一个向上斜率位置和一个向下斜率位置之间,其中向上斜率应当在向下 斜率的左侧。对于潜在的头部,可以要求至少一侧肩膀支持。左肩可以是 紧靠着具有正轮廓导数值的向上斜率位置左侧的区域。右肩可以是紧靠着 具有负轮廓导数值的向上斜率位置右侧的区域。被检测到的潜在头部位置 可以由像素边界框限定。如果没有左肩可以被检测到,则边界框的左侧位 置可以是左肩位置或向上斜率位置的最小位置。如果没有右肩可以被检测 到,则边界框的右侧可以是右肩位置或向下斜率位置的最大位置。顶部可 以是边界框的左侧和右侧边缘之间的最大轮廓位置,并且底部可以是左侧 和右侧边缘上的最小轮廓位置。在这个模块中可以检测到多个潜在头部位 置。
图8示出了根据本发明的实施例的检测到的潜在头部位置的一些例 子。帧804描绘了正面或背面人体。帧808描绘了右面人体,帧810描绘 了左面人体。帧814描绘了两个正面和/或背面人体。每一帧包括斑点遮 罩806、至少一个潜在头部位置812以及斑点边界框816。
图9描绘了根据本发明的实施例的椭圓形头部配合模块504的概念性 框图。向模块504的输入可以包括上述遮罩和作为边界框的潜在头部位置 中的一个。检测边缘标记模块卯2可以提取输入边界框之内的输入遮罩的 外形边缘。然后通过找到头部外形模块卯4提取头部外形像素。然后,使 用粗略配合模块卯6,这些点可以用于估计近似椭圆形头部模型。头部模 型可以通it^fr细配合模块卯8进一步被局部细化,这将总体配合误差减小 到最小。
图10图示了根据本发明的实施例的如何找到头部外形像素的方法。 描绘的帧可以包括边缘框1002,其可以指示在模块502中检测到的潜 在头部位置的输入边界框;输入遮罩1004;以及遮罩的外形边缘1006。 该方案可以执行水平扫描,从边界框的顶部开始,从外向内,如线1008 指示的那样。对于每一条扫描线,可以获得一对潜在头部外形点,如在点 1010处的箭头的尖部所指示的那样。所述两个点可以表示潜在头部的一 段,其可称为头部片段。所述两个端点要想被认作有效的头部片段,可能 需要足够靠近以前的有效头部片段的相应端点。距离阈值可以和平均头部 宽度相适应,该平均头部宽度可以通过在检测到的头部片段的长度上取平 均值来获得。例如,当前平均头部宽度的四分之一可以选作距离阈值。
返回参考图9,检测到的潜在头部外形像素可以用来和椭圆形人体头 部模型配合。如果配合误差相对头部尺寸小,则头部可以被认为是潜在检 测。头部配合过程可以包括两个步骤用粗略配合模块906进行确定性的 粗略配合,之后用精细配合模块908进行迭代^lt估计细化。在粗略配合 模块906中,可能需要从输入的头部外形像素中估计四个椭圆模型M: 头部中心位置Cx和Cy、头部宽度Hw和头部高度Hh。由于头部外形像素 成对出现,Cx可以是夕卜形像素的所有X坐标的平均值。基于椭圆形状的 基本特性,使用平均头部片段长度与头部片段长度的标准差之和,可以近 似头部宽度Hw。使用1.25的平均人体高度对宽度的比率,可以从头部宽 度中计算近似头部高度。最后,考虑到头部中心位置Cx、头部宽度Hw和 头部高度Hh的上述三个椭圆参数,使用椭圆方程的一般公式,对于每一 个头部外形点,可以获得椭圆中心的期望Y坐标。Cy的最后估计可以是 所有这些期望的Cy值的平均值。
图11图示了根据本发明的实施例的将一个头部外形点的配合误差限 定到估计的头部模型。该图示包括估计的椭圆形头部模型1102和头部中 心1104。对于一个头部外形点1106,其到头部模型的配合误差1110可以 被限定为外形点1106和交叉点1108之间的距离。交叉点1108可以是头 部椭圆和由中心点1104与外形点1106确定的线的交叉点。
图12描绘了根据本发明的实施例的精细配合才莫块908的概念性框图。 计算初始平均配合误差模块1202可以计算由粗略配合模块906获得的头 部模型上的全部头部外形像素的平均配^^误差。下一步,在迭代参数调整 模块1204中,对于每一个椭圆参数可以作出小的调整,以确定所调整的 模型是否会降低平均配合误差。选#^整值的一种方法可以是使用平均配 合误差的一半。可以对两个方向作出调整。这样,在每一个迭代中,可以 测试八个调整,并且产生最小平均配合误差的一个调整将被挑出。降低平 均配合误差模块1206可以比较调整之前和之后的平均配合误差,如果配 合误差没有降低,则模块可以输出精细化的头部模型以及最后的平均配合 误差;否则,流程可以回到1204去执行M细化的下一个迭代。
图13列出了根据本发明的实施例的头部跟踪器模块406的示例性部 件。头部检测器模块404可以提供用于人体检测的可靠信息,但是可能要 求人体头部轮廓可以在前景遮罩和斑点边缘遮罩中看见。遗憾地是,在实
际情况中不总是这样。当人体头部部分和背景m^目似或人体头部被遮挡或
是部分被遮挡时,人体头部检测模块404可能难以检测到头部外形。此夕卜,
基于视频序列的单帧的任何结果可能常常不是最佳的。
在本发明的实施例中,可以使用将时间 一致性考虑在内的人体头部跟 踪器。通过图像的时间序列来絲对象的问题可能具有挑战性。在实施例 中,诸如卡尔曼滤波之类的滤波可以用于跟踪场景中的对象,在所述场景 中,背景没有视觉混乱。在具有显著背景混乱的场景中可以要求额外处理。 这种额外处理的原因可能是卡尔曼滤波所使用的概率密度的高斯表达。这 种表达可以固有地是单峰的,因此,在任何给定的时间,它仅可以支持关 于所跟踪对象的真实状态的一个假设,即使背景混乱可能暗示不同于真实 目标特征的假设。这种限制可能导致卡尔曼滤波的实施丟失目标的跟踪, 而代替地在背景看来好像比正在被跟踪的真实目标更有可能配合的时候, 锁定到背景特征上。在具有这种混乱的本发明的实施例中,可以应用以下 替选方法。
在一个实施例中,对这种跟踪问题的解决方案可以是CONDENSATION (条件密度传播)算法的应用。CONDENSATION算法可以通过以下应对卡 尔曼滤波的问题允许概率密度表达为多峰,因此能够同时维持关于目标 真实状态的多个假设。这可以允许从这样的短暂瞬间中恢复,在所述短暂 瞬间中,背景特征看来好像比正被跟踪的真实对象更像目标(因此是更有 可能的假设)。随着图像序列中的后续时间步为真实目标状态的假设提供 加强,同时用于假目标的假设可能未净iL^强并因此逐渐减弱,恢复可能发 生。
CONDENSATION算法和卡尔曼滤波跟踪器都可以^皮描述为随着时间传 播用于运动对象的概率密度的过程。通过模型化目标的动态并结合观察, 跟踪器的目的可以是考虑到观察和假定的在先密度,确定每个时间步t 的用于目标状态的概率密度。传播可以被认为是三步过程,包括漂移、扩 散和由测量引起的反应增强。对象的动态可以用确定的和随机的分量来模 型化。确定的分量可以引起密度函数的漂移,而随机的分量则可以增加不 确定性,因此可以引起密度函数的扩展。应用目标动态的模型可以从以前 时间步的密度的知识中产生当前时间步的概率密度的预测。在模型正确 时,这可以提膝^理的预测,但可能不足以跟踪,因为它可能没有包括任 何观察。密度传播中的晚期或接近最后的步骤可以是虑及在当前时间步进 行的观察。这可以经由观察附近的区域中的预测密度的反应增强来进行。 在用于卡尔曼滤波的单峰高斯分布的情况下,这可以使高斯分布的峰值朝 向观察的状态移动。在CONDENSATION算法的情况下,这种^^应增强可以
在观察的局部邻域中建立峰值,这导致了密度的多峰表达。在混乱场景的 情况下,可能存在多个观察,这暗示了对于当前状态的分开假设。
CONDENSATION算法可以为每一个观察创建密度函数中的分开峰值,并且 这些不同的"^值在严重混乱的情况下可能有助于稳健的性能。
如使用在此其它地方描述的卡尔曼滤波跟踪器的本发明的实施例一 样,在本发明的进一步或可替选的实施例中,可以为实际的实施修改 CONDENSATION算法,因为检测是高度依赖于应用的。参考图13, CONDENSATION跟踪器一般可以利用以下因素,其中,基于至少在此提供 的教导,替选的和/或另外的因素对于相关领域中的普通技术人员是明显 的
1、 目标的模型化或状态矢量x的选择1302
2、 目标状态初始化1304
3、 动态传播模型1306
4、 后验概率生成和测量1308
5、 计算成本考虑1310
在实施例中,头部跟踪器模块可以是多目标跟踪系统,其为整个人体 跟踪系统的一小部分。以下示例性实施例被提供用来说明实际实施,而不 打算限制本发明。基于至少在此提供的教导,本领域普通技术人员会认识 到替选的或另外的实施。
对于目标模型因素1302, CONDENSATION算法可以被具体地开发以跟 踪典型地表示前景对象的外形或特征的曲线。典型地,可以限制问题以允 许曲线的低维^lt化,使得跟踪对象的状态可以用低维参数x表达。例如, 状态x可以将曲线的仿射变换表达为不可变形的整体。更复杂的例子可以 涉及可变形曲线的M化,比如人手的轮廓,其中允if^:一个手指独立活 动。通过简单地使用更高维状态x, CONDENSATION算法可以用相同的一般 过程既处理简单的情况,又处理复杂的情况。但是,增加状态的维数不仅 可能增加计算费用,而且还可能极大地增加算法所需的模型化(例如运动 模型)的费用。这就是状态可以典型地被限制为低维的原因。由于上述原 因,用于头部跟踪的三个状态,为头部的中心位置Cx和Cy以及由头部椭 圓模型的短轴长度表示的头部尺寸。可能使用的两个限制为头部总处于 直立位置和头部具有固定范围的纵横比。试验结果表明在和实际数据对比 时,这两个限制可能是合理的。
对于目标初始化因素1304,由于场景中的背景混乱,CONDENSATION 跟踪器的大多数现有实施都手工选择用于目标模型的初始状态。对于本发 明,头部检测器模块404可以为每个视频帧进行自动头部检测。这些检测 到的头部可能是不同的人体跟踪器正在跟踪的现有人体头部,或者是新检 测到的人体头部。可以对这些新检测到的头部进行时间检验,并且一旦新 检测到的头部通过时间一致性检验,就初始化头部跟踪模块310并且启动 另外的自动躍J宗。
对于动态传播模型因素1306,传统的动态传播模型可以是与随机扩 散相结合的线性预测,如公式(1)和(2)中描述的那样
<formula>formula see original document page 17</formula>
其中f("可以是卡尔曼滤波器或常规IIR滤波器,参数A和B表示 动态模型的确定的和随机的分量,并且wt是正态高斯分布。来自f(O和 Wt的不确定性是性能限制的主要来源。需要更多的样本来抵消这种不确定 性,这可能显著增加计算成本。在本发明中,平均移动预测器(mean-shift predictor)可用来解决这个问题。在实施例中,平均移动预测器可以用 于跟踪具有区别颜色的对象。该性能可能受制于以下事实进行了目标和 其周围背景具有不同颜色的假定,而这可能不总是正确的。但在头部跟踪 的情况下,平均移动预测器可以用于得到头部的大概位置,这样可以显著 降低所需要的样本数,但却具有更好的稳健性。平均移动预测器可以被用 来通it^初始平均给定数据点确定移动矢量,来估计数据的平均的确切位 置,并且可以近似这个数据的平均的位置。在头部跟踪的情况下,数据点 可以指头部区域中的像素,平均可以指头部中心的位置,并且平均的近似 位置可以从可能是线性预测的动态模型f (*)获得。
对于后验概率生成和测量因素1308,通过规范化颜色直方图匹配和 头部轮廓匹配,可以生成用于每一个样本配置的算法所需的后验概率。使 用头部椭圆形之内的所有4象素,可以生成颜色直方图。头部轮廓匹配可以 是沿着头部外形模型的边缘像素的比率。匹配得分越好,样本和真实头部 交迭的概率就越高。概率可以始現范化,使得理想匹配具有1的概率。
对于计算成本因素1310, 一般来说,性能和计算成本都可以和所用 的样本数成比例。我们可以固定可被固定的后验概率之和,而不是选择固 定数目的样本,使得样本数量可以基于跟踪可信度而变化。当在高可信度
时刻时,我们可以看到,可以获得更多好的匹配样本,这样就可能需要较 少样本。另一方面,当跟踪可信度低时,该算法可以自动使用更多的样本 以设法彻底跟踪。这样,计算成本可能根据场景中的目标数以及跟踪这些 目标的难度而变化。通过结合平均移动预测器和适合的样^lt量选择,可 以容易地获得多个头部的实时跟踪而不会损失跟踪可靠性。
图14描绘了根据本发明的实施例的相对尺寸估计器模块408的概念 性框图。被检测和跟踪的人体目标可以用作向模块408的数据输入1402。 人体尺寸训练模块1404可以选择一个或多个人体目标实例,比如那些被 认为具有高水平可信度的实例,并且累积人体尺寸统计。人体尺寸统计实 际是查询表模块1406,其可以存储平均人体高度、宽度和用于图像帧上 的每一个像素位置的图像面积数据。对于每一个人体目标,可以在其消失 后执行一次统计更新,这样可以获得目标实际类型的最大可信度。足迹轨 线可以用作用于统计更新的位置指标。假定足迹位置的估计可能不精确, 并且事实上目标很可能在邻近区域中具有相似尺寸,则确切的足迹位置及 其邻域都可以使用相同的即时人体目标数据来更新。使用相对尺寸查询模 块1408,当检测到新的目标时,通过使用足迹位置作为关键词W目对尺 寸估计器中查询,可以估计其对平均人体目标的相对尺寸。当在所查询的 位置上已经有足够的数据点时,相对尺寸估计器1408可以返回值。
图15描绘了根据本发明的实施例的人体轮廓提,块410的概念性 框图。首先,框1502可以生成目标垂直投影轮廓。用于列的投影轮廓值 可以是输入的背景遮軍中的该列上的全部前景像素数目。下一步,投影轮 廓可以在投影轮廓规范化模块1504中净姚范化,使得最大值可以是1。 最后,使用人体轮廓检测模块1506,通过搜索投影轮廓1506上的波峰和 波谷,可以提取潜在的人体形状投影轮廓。
图16示出了根据本发明的实施例的人体投影轮廓提取和规范化的例 子。1604 (a)图示了输入的斑点遮罩和边界框。1604 (b)图示了输入目 标的垂直投影轮廓。1604 (c)图示了规范化的垂直投影轮廓。
图17描绘了根据本发明的实施例的人体检测模块306的概念性框图。 首先,检查斑点支持模块1702可以检查目标是否具有斑点支持。潜在的 人体目标可以具有多个水平的支持。非常基本的支持是斑点。换言之,人 体目标能够仅存在于一定的斑点中,该斑点由斑点跟踪器跟踪。下一步, 检查头部和脸部支持模块1704可以检查在斑点中是否检测到人体头部或 脸部,人体头部或人体脸部可能是人体目标的强烈指示器。第三,检查身
体支持模块1706可以进一步检查斑点是否含有人体身体。存在可以用作 人体身体指示器的几个性质,例如包括
1、 人体斑点纵横比在非俯视的情况下,人体斑点高度通常可以 比人体斑点宽度大很多;
2、 人体斑点相对尺寸在每一个图像像素位置处,人体斑点的相 对高度、宽度和面积可以接近于平均人体斑点高度、宽度和面积。
3、 人体垂直投影轮廓每一个人体斑点可以具有一个相应的人体 投影轮廓峰值。
4、 内部人体运动移动的人体目标可以具有显著内部运动,其可 以通过SIFT特征的一致性来测量。
最后,确定人体状态模块1708确定输入的斑点目标是否是人体目标, 并且如果是的话,其人体状态是什么。
图18示出了根据本发明的实施例的不同水平的人体特征支持的例 子。图18包括视频帧1802、被跟踪的目标块的边界框1804、相同斑点的 前景遮罩1806和人体头部支持1810。在所示的例子中,可能有四个潜在 的人体目标,并且全都具有三个水平的/^体特征支持。
图19列出了根据本发明的实施例的可以由人体检测和跟踪模块210 使用的潜在人体目标状态。"完整"人体状态指示头部/脸部和人体身体都 被检测到。换言之,目标可以具有所有的"斑点"、"身体"和"头部"支 持。图18中的例子示出了四个"完整"的人体目标。"仅头部"人体状态 指的是这样的情形在斑点中可以检测到人体头部或脸部,但是仅有部分 的人体身体特征可以得到。这可以对应于这种想定人体身体的较低部分
可能被挡住了或是不在摄1I4M^野内。"仅身体,,状态是指这种情况在 目标斑点中可以观察到人体身体特征,但没有人体头部或脸部。注意,即 使在目标斑点中可能没有人体脸部或头部可以被检测到,如果所有上述特 征都被检测到,则斑点也仍然可以被认为是人体目标。"包藏(Occluded)" 状态指示人体目标可能和其它目标归并,并且没有准确的人体外观表达和 位置可以得到。"消失"状态指示人体目标可能已经离开场景。
图20图示了根据本发明的实施例的人体目标状态变换图。这个过程 可以由人体检测和跟踪模块210来处理。这个状态变换图包括五个状态, 其中至少状态2006、2008和2010连接到初始状态2004:状态仅头部2006、 完整2008、仅身体2010、消失2012和包藏2014互相连接并且自我连接。
当人体目标被创建时,可以处在三种人体状态的其中一种完整、仅头部 或仅身体。状态到状态的转换主要基于当前人体目标状态,并iLA^测 可能导致新的匹配斑点,这可以描述如下
如果当前状态是"仅头部",则下一个状态可能是
"仅头部"具有匹配的脸部或继续头部跟踪;
"完整,,除了上面的以外,检测人体身体;
"包藏"具有匹配的斑点但失去了头部跟踪和匹配的脸部;
"消失"失去了匹配的斑点。 如果当前状态是"完整",则下一个状态可能是
"完整"具有匹配的脸部或继续头部跟踪以;5LA体身体的检测;
"仅头部"由于斑点归并或背景包藏而失去了人体身体。
"仅身体"失去了头部跟踪和匹配的^p检测;
"包藏"失去了头部跟踪、匹配的脸部以;5LA体身体支持,但仍然 具有匹配的斑点;
"消失"失去了所有,甚至斑点支持。
如果当前状态是"仅身体",则下一个状态可能是
"完整"探测到了头部或脸部,具有连续的人体身体支持;
"仅身体"没有检测到头部或脸部,但具有连续的人体身体支持;
"包藏,,失去了人体身体支持但仍具有匹配的斑点;
"消失"失去了人体身体支持和斑点支持。
如果当前状态是"包藏",则下一个状态可能是
"完整"得到了新的匹配的人体目标斑点,其既具有头部/脸部,又 具有人体身体支持;
"仅身体,,得到了新的匹配的人体目标斑点,其具有人体身体支持; "仅头部,,在匹配的斑点中得到了匹配的人体头部/脸部; "包藏"没有匹配的人体斑点但仍然具有相应斑点跟踪; "消失"失去了斑点支持。 如果当前状态是"消失",则下一个状态可能是
"完整"得到了新的匹配的人体目标斑点,其既具有头部/脸部,又
具有人体身体支持;
"消失"仍然没有匹配的人体斑点。
注意"完整"状态可以指示最可信的人体目标实例。4吏用人体目标片 断的数目在目标片断的总数之上的加权比率,可以估计对目标的总体人体 检测可信度测量。"完整"人体片断的权重可以是"仅头部,,和"仅身体" 人体片断的权重的两倍。对于更高可信度的人体目标,其跟踪历史数据, 尤其是具有"完整,,或"仅身体"片断的那些目标片断,可以用于训练人 体尺寸估计器模块408。
使用上述的头部检测和人体模型,可以由系统提供更多的功能性,比 如最佳人体快照检测。当人体目标触发事件时,系统可以用目标的清晰快 照发出报警。根据本发明的实施例的一个快照可以是操作者能够获得关于 目标的最大量信息的一个。为了检测人体快照,或者什么可以被称作最佳 可用快照或最佳快照,可以检查下列规则
1、 头部区中的肤色比率可以使用这样的观察人体头部的正面 视图通常比背视图(也称背面视图)包含更多肤色像素。这样较高的头部 区肤色比率可能指示更好的快照。
2、 目标轨线从目标的足迹轨线中,可以确定人体是朝向損WI^L 移动还是从^L^4^移开。朝向摄^4^移动比从摄像机移开可以提供好得多 的快照。
3、 头部尺寸人体头部的图像尺寸越大,图像就可以提供关于人 体目标的越多细节。头部的尺寸可以被定义为头部椭圓模型的长轴和短轴 长度的平均。
可靠的最佳人体快照检测可以通过综合考虑上述三个规则来获得。一 种方法是创建关于任何两个人体快照例如人体1和人体2的相对最佳人体 快照量度
R=Rs*Rt*Rh,其中
Rs是相对于人体1的头部肤色比率的人体2的头部肤色比率;
如果两个目标朝向^HI4^在相同的相对方向上移动,则Rt等于1; 如^A体2朝向摄^^L移动,同时人体1从摄^4M多开,则Rt等于2; 并且如^A体2从摄^NM多开,同i^A体1朝向摄#4^多动,则Rt等于0.5;
Rh是相对于人体1的头部尺寸的/v体2的头部尺寸。
如果R大于1,则人体2可以被认为是更好的快照。在系统中,对于 相同的人体目标,最近的人体快照可以连续地与当时的最佳人体快照相比 较。如^目对量度R大于1,则最佳快照可以用最近的快照取代。
另一个新的能力和隐私有关。使用精确的头部检测,关于人体头部/ 脸部的报警图像可以被数字地模糊以保护隐私,同时给予操作者以人体存 在的可,验。这在住宅应用中尤其有用。
使用上述的人体检测和跟踪,系统可以提供关于在所关心的任何时间 有多少人体目标可能存在于摄^*现野中的精确估计。系统使得用户可以 执行更高级的分析,像例如人体活动识别、场景内容学习,如本领域的普 通技术人员基于至少在此提供的教导将会意识到的那样。
在此讨论的各种模块可以以软件实施,所述软件适合于存储在计算机 可读介质上,并且适合于由计算机或者在计算机上操作,如在此定义的那 样。
所有在此讨论的例子都是非限制性和非排它性的例子,如相关领域的 普通技术人员基于至少在此提供的教导将会理解的那样。
尽管上面已经说明了本发明的各种实施例,但是应当理解它们是作为 例子提出的,而不是限制。对本领域的普通技术人员将会明显的是,在此 可以进行形式和细节方面的各种变化,而不脱离本发明的精神和范围。考 虑到以后可能会被开发的相关领域之内的技术和术语,这尤其如此。这样 本发明不应当受任何的上述示例性实施例的限制,而应当仅根据所附权利 要求及其等同物来限定。
权利要求
1、一种基于计算机的系统,用于执行用于人体检测和跟踪的场景内容分析,包括视频输入端,用于接收视频信号;内容分析模块,其耦合到所述视频输入端,用于接收来自所述视频输入端的所述视频信号,从所述视频信号中分析场景内容,并且从在所述视频信号中可见的一个或多个对象中确定事件;数据存储模块,用于存储所述视频信号、涉及所述事件的数据或涉及所述系统的配置和操作的数据;以及用户界面模块,其耦合到所述内容分析模块,用于允许用户配置所述内容分析模块以提供用于所述事件的报警,其中,一旦识别所述事件,所述内容分析模块就产生所述报警。
2、 如权利要求l所述的系统,其中所述事件对应于数据的检测,所 述数据涉及所述视频信号中的人体目标或所^A体目标的运动。
3、 如权利要求l所述的系统,所述内容分析模块包括运动和变化检测模块,用于检测所述视频信号中的一个或多个对象的 运动或所述运动的变化,并从所述视频信号中确定前景;前景斑点提,块,用于将所述前景分成一个或多个斑点;以及人体检测和跟踪模块,用于从所述一个或多个斑点中确定一个或多个 人体目标。
4、 如权利要求3所述的系统,所iiA体检测和跟踪模块包括人体部位和特征检测模块,用于映象所述一个或多个斑点,并且确定 一个或多个对象特征是否包括人体部位;人体险测模块,用于接收涉及被确定包括人体部位的所述一个或多个 对象特征的数据,并且从所述数据中生成一个或多个人体模型;以及人体 模块,用于接收涉及所述一个或多个人体模型的数据,并且 跟踪所述一个或多个人体模型中的 一个或多个的运动。
5、 如权利要求4所述的系统,所i^体部位和特征检测模块包括 斑点跟踪器4莫块; 头部检测器模块; 头部跟踪器模块; 相对尺寸估计器模块; 人体轮廓提城块; 脸部检测器模块;以及 尺度不变特征变换(SIFT)模块。
6、 如权利要求5所述的系统,所述头部检测器模块包括 头部位置检测模块;椭圓形头部配合模块; 一致性枱:验模块;以及 身体支持检验模块。
7、 如权利要求6所述的系统,所述头部位置检测模块包括生成顶部轮廓模块; 计算导数模块;斜率模块;以及 头部位置定位器模块。
8、 如权利要求6所述的系统,所述椭圓形头部配合模块包括:遮罩边泉险测器模块;头部外形确定器模块; 粗略配合模块;以及精细配合模块。
9、 如权利要求8所述的系统,所述精细配合模块包括 初始平均配合误差模块;以及调整模块。
10、 如权利要求5所述的系统,所述头部跟踪器模块包括 目标模型模块;目标初始化模块;动态传播模型模块; 后驺^概率生成和测量模块;以及 计算成4^块。
11、 如权利要求5所述的系统,所i^目对尺寸估计器模块包括: 人体尺寸训练模块;人体尺寸统计查询模块;以及 相对尺寸查询模块。
12、 如权利要求5所述的系统,所iiA体轮廓提,块包括垂直投影轮廓模块;垂直投影轮廓规范器模块;以及 人体外形检测器模块。
13、 如权利要求4所述的系统,所i^A体检测模块包括 检查斑点支持模块; 检查头部和脸部支持模块;检查身体支持模块;以及 人体状态确定器模块。
全文摘要
一种基于计算机的系统,用于执行用于人体检测和跟踪的场景内容分析,可以包括视频输入端,用于接收视频信号;内容分析模块,其耦合到所述视频输入端,用于接收来自所述视频输入端的所述视频信号,从所述视频信号中分析场景内容,并且从在所述视频信号中可见的一个或多个对象中确定事件;数据存储模块,用于存储所述视频信号、涉及所述事件的数据或涉及所述系统的配置和操作的数据;以及用户界面模块,其耦合到所述内容分析模块,用于允许用户配置所述内容分析模块以提供用于所述事件的报警,其中,一旦识别所述事件,所述内容分析模块就产生所述报警。
文档编号G06K9/00GK101167086SQ200680011052
公开日2008年4月23日 申请日期2006年5月31日 优先权日2005年5月31日
发明者保罗·C·布雷韦尔, 加里·W·迈尔斯, 安德鲁·J·乔萨克, 尹卫红, 尼尔斯·黑林, 忠 张, 彼得·L·韦奈蒂阿奈尔, 阿兰·J·利普顿 申请人:实物视频影像公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1