对象检测方法、对象检测设备及图像拾取设备的制作方法

文档序号:6508451阅读:309来源:国知局
对象检测方法、对象检测设备及图像拾取设备的制作方法
【专利摘要】本申请涉及一种对象检测方法、对象检测设备及图像拾取设备,该对象检测方法包括:对象检测步骤,通过特定对象检测器在图像中检测特定对象;场景模型获取步骤,获取表征图像中的特定对象的背景的场景模型;以及过滤步骤,用所述场景模型对对象检测步骤的对象检测结果进行过滤以确定特定对象。
【专利说明】对象检测方法、对象检测设备及图像拾取设备

【技术领域】
[0001] 本申请涉及一种检测特定对象的对象检测方法、对象检测设备以及包含该对象检 测设备的图像拾取设备。

【背景技术】
[0002] 在图像处理、计算机视觉和模式识别等领域,对图像中的对象进行分析是重要的 并且对象检测已吸引了越来越多的关注。在对象检测技术中通常涉及两个步骤,即训练步 骤和检测步骤。在训练步骤中,通过使用对象的多个样本进行训练来获得分类器。然后,在 检测步骤中,这样获得的分类器被用于检测对象。
[0003] 近年来,特定对象(如脸、人、车等)检测已经取得很大进步。如果使用上述对象检 测技术用大量样本离线训练得到的通用分类器或对象检测器在图像或视频序列中检测特 定对象,就很可能失效并且常常产生高的虚警率。
[0004] 在这种情况下,场景信息对于提高通用检测器的辨别力并减少虚警率是非常重要 的。近来,为了克服上述问题,提出了使用具体场景信息(如对象实例、背景和上下文等)来 创建场景模型的一些场景建模方法。因此,通过场景模型可以获得更准确的检测结果,从而 允许适于变化的环境并且广泛用于监视和跟踪。
[0005] 场景模型的主要目的是试图获得更准确的检测结果,因此场景模型通常在相应的 特定场景中是更有效的分类器。当前的场景模型具有以下特征:
[0006] -二元分类器:用于区分特定对象和非特定对象;
[0007] -重复收集正样本(训练用的对象)和负样本(不包括对象的特定场景):以重复训 练并更新二元分类器。
[0008] 图1示出现有技术中的对象检测方法的流程图,其主要步骤如下:
[0009] 1)收集正样本SlOl :用户在视频的前一帧或前几帧中选取作为正样本的对象的 窗口,或使用当前的对象检测器以检测作为正样本的对象的窗口;
[0010] 2)收集负样本S102 :收集不同于用户选取的窗口或由当前对象检测器检测到的 作为负样本的窗口;
[0011] 3)学习新的分类器S103 :使用收集的正样本和负样本来学习新的二元分类器,其 可以更有效地区分特定对象和特定场景;
[0012] 4)对象检测S104 :通过新的二元分类器从后续帧中检测特定对象,并且根据检测 结果重复执行上述步骤对分类器进行更新直至最终的二元分类器的虚警率低于阈值,如图 1中的虚线所示。该方法可用于通过对象检测进行的跟踪并且仅用于视频或后续帧。
[0013] 例如,美国专利公开No. US8385632提出了一种把已经训练好的通用分类器调整 为适于从特定场景中检测对象的方法。因为在使用通用训练数据来训练通用分类器时该特 定场景是未知的,所以在用通用分类器直接从包含特定场景的图像中检测对象的情况下容 易产生很高的虚警率,如该文献中的图IB所示。因此,需要一方面保持以前的训练示例的 信息,另一方面还要重复地收集与针对特定场景的分类任务有关的正样本和负样本,由此 根据通用分类器重复地创建专用于该特定场景的分类器,如该文献中的图2所示。但是该 方法必须保持用于通用分类器的通用训练数据,同时收集新的正样本和负样本,然后才能 通过通用训练数据以及所搜集的正样本和负样本来不停更新通用分类器。
[0014] 美国专利公开No. US7526101提出了一种在视频中跟踪对象的方法。该跟踪方法 把对象跟踪视为二元分类问题。首先基于获取的视频实时地训练用于区分对象和背景的一 组弱分类器,然后将该组弱分类器组合成一个强分类器,强分类器针对一帧生成置信度图 以便区分对象和背景。但是,在该方法中,每个弱分类器都要基于各帧中的正样本和负样本 来进行训练,并且在各个帧随时间变化的情况下,必须重复地训练新的弱分类器以便替代 该组弱分类器中的旧的弱分类器来更新强分类器,才能适应各帧随时间的变化。
[0015] 中国专利公开No. 101216942A提供了一种能够在线更新的背景建模方法。但是该 方法一方面需要在线进行更新,另一方面该背景模型并不是基于分类器,而是基于模板或 者屏蔽图像并且用于通过帧差法(frame subtraction)来划分前景图像和背景图像。


【发明内容】

[0016] 虽然以上方法可以提高在特定场景的情况下的检测准确度,但是存在以下问题:
[0017] 1)新的二元分类器都是通过正样本(例如,用户给定的正样本,或当前对象检测器 的检测结果中的正样本)和负样本创建的;
[0018] 2)需要数量很多的正样本和负样本。负样本容易从场景帧或视频中收集,但正样 本却很难收集,这是因为好的正样本需要符合很多标准,比如质量、尺寸、清晰度、完整度、 独特性和朝向等等,并且通过常规方式不能准确高效地提供所需的多个正样本。因此,现有 检测方法中使用的场景模型都只能首先通过少数正样本或负样本学习,并都要在将来等待 用更多的正和负样本进行更新;
[0019] 3)通过少数正样本或负样本学习的场景模型总是太弱从而难以被直接用于对象 检测。因此,该场景模型仅适用于对象跟踪:即,在目标位于上一帧中的位置附近检测目标, 并通过检测到的目标来更新场景模型。
[0020] 由此可见,现有技术中为了提高特定对象检测的准确度,存在必须重复地收集训 练分类器所用的正样本的问题。
[0021] 本申请的目的之一在于不必收集正样本,就能提高特定对象检测的准确度。此外, 通过省去收集正样本的复杂过程,还可以实现提高特定对象检测的效率的目的。
[0022] 本申请的一方面涉及一种对象检测方法,包括:对象检测步骤,通过特定对象检测 器在图像中检测特定对象;场景模型获取步骤,获取表征图像中的特定对象的背景的场景 模型;以及过滤步骤,用场景模型对对象检测步骤的对象检测结果进行过滤以确定特定对 象。
[0023] 优选地,所述场景模型获取步骤获取在对象检测步骤期间针对所述背景创建的场 景模型。
[0024] 优选地,所述场景模型获取步骤获取在对象检测步骤之前针对所述背景预先创建 的场景模型。
[0025] 优选地,所述场景模型是通过以下步骤创建的:
[0026] a)样本收集步骤,从所述图像收集不包括要被检测的特定对象的区域,作为样 本;
[0027] b)特征提取步骤,从所述样本中提取第一负特征向量;
[0028] c)特征聚类步骤,把所述第一负特征向量聚类为多个特征分组;以及
[0029] d)分类器创建步骤,针对所述多个特征分组中的每个特征分组来创建第一分类器 并把这些第一分类器组合来创建所述场景模型。
[0030] 优选地,第一分类器是单类分类器。
[0031] 优选地,在所述特定对象检测器是由支持向量组成的情况下,所述分类器创建步 骤还包括:
[0032] e)特征向量池生成步骤,根据所述特定对象检测器来生成包含正特征向量和第二 负特征向量的特征向量池;
[0033] f)特征向量选择步骤,针对与所述背景有关的每个特征分组,从所述特征向量池 中选择正特征向量和第二负特征向量作为候选;
[0034] g)第二分类器创建步骤,针对与所述背景有关的每个特征分组,根据来自所述特 征向量池的候选和该特征分组来创建第二分类器;以及
[0035] h)分类器组合步骤,通过进一步组合所述第二分类器来创建所述场景模型。
[0036] 优选地,第二分类器是二元分类器。
[0037] 优选地,所述特征向量池具有分别用于正特征向量和第二负特征向量的最大尺 寸,所述特征向量池生成步骤还包括:
[0038] a)把所述特定对象检测器中的正支持向量用作正特征向量;
[0039] b)把所述特定对象检测器中的负支持向量用作第二负特征向量。
[0040] 优选地,所述特征向量选择步骤还包括:
[0041] a)在第一负特征向量的特征空间中确定所述每个特征分组的边界;
[0042] b)从所述特征向量池中选择落在特征分组的边界的内部的正特征向量;
[0043] c)从所述特征向量池中选择落在特征分组的边界的内部的第二负特征向量。
[0044] 优选地,在所述特征向量选择步骤中不能针对某个特征分组选出预定数量的候选 的情况下,不继续创建用于该特征分组的第二分类器。
[0045] 优选地,所述场景模型获取步骤获取在对象检测步骤之前现有的场景模型。
[0046] 优选地,所述过滤步骤包括:
[0047] a)特征提取步骤,从对象检测结果中提取特征向量;
[0048] b)判断步骤,用所述场景模型来判断所提取的特征向量是否表征所述背景,以及
[0049] c)结果分组步骤,把与被判断为不表征背景的的特征向量相对应的对象检测结果 分组为最终的对象检测结果。
[0050] 优选地,所述判断步骤还包括:
[0051] 一用所述场景模型中的每个分类器对所提取的特征向量进行判断;
[0052] -获得判断的分数的加权和;
[0053] -如果所述加权和大于阈值,则该对象检测结果被判断为表征背景。
[0054] 优选地,所述判断步骤还包括:
[0055] -用所述场景模型中的每个分类器对所提取的特征向量进行判断;
[0056] -如果所有判断结果都表明所提取的特征向量表征背景,则该对象检测结果被判 断为背景。
[0057] 本申请的另一方面涉及一种对象检测设备,包括:对象检测装置,被配置为通过特 定对象检测器在图像中检测特定对象;场景模型获取装置,被配置为获取表征图像中的特 定对象的背景的场景模型;以及过滤装置,被配置为用场景模型对对象检测装置的对象检 测结果进行过滤以确定特定对象。
[0058] 本申请的又一方面涉及一种图像拾取设备,包括:摄影光学系统;成像单元,被配 置为执行成像以形成图像;根据前面所述的对象检测设备。
[0059] 根据本申请,能够在不需要重复地收集训练分类器所用的正样本的情况下,就可 以使用所获取的场景模型来更准确高效地识别特定对象检测器的对象检测结果中的背景 并获得最终的特定对象,从而改进了特定对象检测器的准确度。

【专利附图】

【附图说明】
[0060] 下面结合具体的实施例,并参照附图,对本申请的实施例的上述和其它目的和优 点做进一步的描述。在附图中,相同的或对应的技术特征或部件将采用相同或对应的附图 标记来表示。
[0061] 图1示出现有技术中的对象检测方法的流程图;
[0062] 图2示出根据本申请的一个实施方式的对象检测方法的流程图;
[0063] 图3A和图3B分别是示出根据本申请的一个实施方式的场景模型获取过程的流程 图和不意图;
[0064] 图4A和图4B分别是示出根据本申请的另一个实施方式的场景模型获取过程的流 程图和不意图;
[0065] 图5示出了图4A中的特征向量选择步骤的一个实施例的流程图;
[0066] 图6示出过滤步骤的一个实施方式的流程图;
[0067] 图7示出根据本申请的一个实施方式的对象检测设备的示例性配置的框图;
[0068] 图8示出根据本申请的一个实施方式的图像拾取设备的示例性配置的框图;以及
[0069] 图9示出能够实施本申请的实施例的计算机系统的硬件配置的框图。

【具体实施方式】
[0070] 在下文中将结合附图对本申请的示范性实施例进行描述。为了清楚和简明起见, 在说明书中并未描述实施例的所有特征。然而,应该了解,在对实施例进行实施的过程中必 须做出很多特定于实施方式的设置,以便实现开发人员的具体目标,例如,符合与系统及业 务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外, 还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域 技术人员来说,这种开发工作仅仅是例行的任务。
[0071] 在此,还应当注意,为了避免因不必要的细节而模糊了本申请,在附图中仅仅示出 了与至少根据本申请的方案密切相关的处理步骤和/或系统结构,而省略了与本申请关系 不大的其他细节。
[0072] 首先参照图2描述根据本申请的一个实施方式的对象检测方法的流程图。在该对 象检测方法中,要从目的图像中确定特定对象。
[0073] 步骤S201是对象检测步骤,其中通过特定对象检测器在图像中检测特定对象。特 定对象检测器可以是用于在图像中检测特定对象例如人的通用检测器。
[0074] 根据一个实施例,首先,从图像或包括图像的视频中收集多个区域。例如,可以通 过使用滑动窗口法在多尺度金字塔空间(multi-scale pyramid space)中采样图像的各个 窗口来实现多个区域的收集。诸如滑动窗口和多尺度金字塔空间这样的技术对于本领域技 术人员都已经是能够理解的,所以此处不再重复描述。
[0075] 然后,对于每个窗口,使用特定对象检测器从这多个区域提取特征向量并且获得 相应的分类的分数。结果,特定对象检测器把各个窗口分类为特定对象或背景。
[0076] 最后,收集被分类为特定对象的所有窗口作为该步骤的对象检测结果。
[0077] 步骤S202是场景模型获取步骤,其中获取表征这些图像中的特定对象的背景的 场景模型。该背景可以看作特定对象出现时的场景。
[0078] 此处为了描述方便把图像划分为特定对象和背景或特定场景,该背景或特定场景 不包括特定对象。
[0079] 根据一个实施例,该步骤获取在对象检测步骤S201之前现有的场景模型,诸如: 基于像素的模型,例如高斯混合模型(Gaussian mixture model,简称GMM);基于特征的模 型,例如增强模型(Boosting model);以及基于支持向量机的模型等。
[0080] 根据另一个实施例,该步骤获取在对象检测步骤S201之前针对该背景而被预先 创建的场景模型。
[0081] 根据又一个实施例,该步骤获取在对象检测步骤S201期间针对该背景而创建的 场景模型。特别地,该步骤获取在对象检测步骤S201开始时针对该背景而第一次创建的场 景模型,这意味着在第一次创建完成之后,既不重复收集更多样本并且也不用这些样本更 新场景模型。
[0082] 后两个实施例的情况中因为在创建场景模型时考虑了该背景,因而当所创建的场 景模型用于识别背景时更加准确并且有效率。后文中将更加详细地描述场景模型获取过 程。
[0083] 步骤S203是过滤步骤,其中用所获取的场景模型对对象检测步骤S201的对象检 测结果进行过滤以确定特定对象,也就是说,用所获取的场景模型过滤掉错的检测结果。 [0084] 因此,根据本申请的实施例的对象检测方法不需要重复地收集训练场景模型的分 类器所用的正样本,就可以使用所获取的场景模型来更准确和高效地识别对象检测步骤 S201的对象检测结果中的背景并确定最终的特定对象,从而改进了当前对象检测器的准确 度。根据以下的详细描述可以更好地理解该优点。
[0085] 下面参照图3A的流程图来描述场景模型获取过程的一个实施方式,在该实施方 式中仅使用背景信息来创建场景模型。
[0086] 步骤301是样本收集步骤,其中从所述图像收集不包括要被检测的特定对象的区 域,作为样本。
[0087] 根据一个实施例,可以在特定对象检测开始时,将获取的图像或视频帧划分为具 有不同位置和尺寸的多个图像区域。这些图像区域中的不包括要被检测的特定对象的区域 可以被视为样本。例如可以由用户手动在这些图像或视频帧上标注作为样本的多个图像区 域。替代地,也可以使用对象检测器提供的作为背景的区域。
[0088] 根据另一个实施例,在检测开始之前从背景信息收集样本。具体而言,事先准备包 含类似背景的图像或视频帧,然后将图像或视频帧划分为具有不同位置和尺寸的多个图像 区域。这些图像区域中的不包括要被检测的特定对象的区域可以被视为样本。例如可以由 用户手动在这些图像或视频帧上标注作为样本的多个图像区域。替代地,也可以使用对象 检测器提供的作为背景的区域。
[0089] 优选地,事先准备只包含背景的图像或视频帧。这些图像区域不包括要被检测的 特定对象,因此这些图像区域都可以被视为样本。以这种方式,可以提供充足的样本数量, 从而能够更加准确地表征背景。
[0090] 步骤302是特征提取步骤,其中从样本中提取第一负特征向量。
[0091] 在该步骤中,可以使用有效地表征样本的图像区域的任何特征和特征提取方 法。例如,可以使用用于人类检测的方向梯度直方图(HOG, Histograms of Oriented Gradients),尺度不变特征变换(SIFT, Scale-Invariant Feature Transform),快速鲁 棒特征(SURF, Speeded Up Robust Feature),以及局部二值模式(LBP, Local Binary Patterns)等。尽管此处以这些特征或提取方法为例进行说明,但是应当理解这仅是示例而 并非限定。
[0092] 步骤303是特征聚类步骤,其中把第一负特征向量聚类为多个特征分组。
[0093] 聚类的目的是把这些第一负特征向量划分为多个特征分组,从而确保每个特征分 组中的所有特征向量都围绕特定中心。同一个特征分组中的特征向量彼此可以相似,但是 与其它特征分组中的特征向量可以不相似。
[0094] 可以使用许多聚类方法,例如k-means (k均值),k-medoids。应当理解这也仅是 示例而并非限定。
[0095] 步骤304是分类器创建步骤,其中针对多个特征分组中的每个特征分组来创建第 一分类器并把这些第一分类器组合来创建场景模型。
[0096] 这里可以使用任何分类器学习方法。根据一个实施例,第一分类器可以是单类分 类器,下面以支持向量域描述方法(SVDD, Support Vector Domain Description)为例进行 详细描述,但应当理解这仅是示例而并非限定。
[0097] SVDD方法旨在获得以下这样的球形边界:球形边界限定了最小面积以使得由边 界限定的球体可以包括尽可能多的样本。这样的球体可用球心c和半径R来表征。通过以 下表达式来实现球体区域的最小化:
[0098] min R2+C EiIi s. t. | | x「c | | < R2+ ξ i 且 ξ i 彡 0 (1)
[0099] 其中,C是惩罚因子并且ξ i是松弛误差(slack error)。
[0100] 接下来,使用拉格朗日乘子(Lagrangian Multiplier),可以获得以下表达式:
[0101] min Σ i, j a i a jK(Xi · Xj) - Σ i a ^(Xi · Xi) s. t. 0 < α i < C 且Σ i α i = I (2)
[0102] 其中α i是支持向量Xi e SVs的因子,Κ( ·)是核函数。s. t.表示满足后面的 约束条件的意思。在该方法中,核函数优选地选择直方图交核(Histogram intersection Kernel (HIK))。HIK函数可表示为:

【权利要求】
1. 一种对象检测方法,包括: a) 对象检测步骤,通过特定对象检测器在图像中检测特定对象; b) 场景模型获取步骤,获取表征所述图像中的特定对象的背景的场景模型;以及 c) 过滤步骤,用所述场景模型对对象检测步骤的对象检测结果进行过滤以确定特定对 象。
2. -种对象检测设备,包括: 对象检测装置,被配置为通过特定对象检测器在图像中检测特定对象; 场景模型获取装置,被配置为获取表征所述图像中的特定对象的背景的场景模型;以 及 过滤装置,被配置为用所述场景模型对对象检测装置的对象检测结果进行过滤以确定 特定对象。
3. 根据权利要求2所述的对象检测设备,其中,所述场景模型获取装置被配置为获取 在对象检测期间针对所述背景创建的场景模型。
4. 根据权利要求2所述的对象检测设备,其中,所述场景模型获取装置被配置为获取 在对象检测之前针对所述背景预先创建的场景模型。
5. 根据权利要求3-4之一所述的对象检测设备,其中,所述场景模型获取装置包括以 下装置: 样本收集装置,被配置为从所述图像收集不包括要被检测的特定对象的区域,作为样 本; 特征提取装置,被配置为从所述样本中提取第一负特征向量; 特征聚类装置,被配置为把所述第一负特征向量聚类为多个特征分组;以及 分类器创建装置,被配置为针对所述多个特征分组中的每个特征分组来创建第一分类 器并把这些第一分类器组合来创建所述场景模型。
6. 根据权利要求5所述的对象检测设备,其中,第一分类器是单类分类器。
7. 根据权利要求5所述的对象检测设备,其中,在所述特定对象检测器是由支持向量 组成的情况下,所述分类器创建装置还包括: 特征向量池生成装置,被配置为根据所述特定对象检测器来生成包含正特征向量和第 二负特征向量的特征向量池; 特征向量选择装置,被配置为针对与所述背景有关的每个特征分组,从所述特征向量 池中选择正特征向量和第二负特征向量作为候选; 第二分类器创建装置,被配置为针对与所述背景有关的每个特征分组,根据来自所述 特征向量池的候选和该特征分组来创建第二分类器;以及 分类器组合装置,被配置为通过进一步组合所述第二分类器来创建所述场景模型。
8. 根据权利要求7所述的对象检测设备,其中,第二分类器是二元分类器。
9. 根据权利要求7所述的对象检测设备,其中,所述特征向量池具有分别用于正特征 向量和第二负特征向量的最大尺寸,所述特征向量池生成装置还包括: 被配置为把所述特定对象检测器中的正支持向量用作正特征向量的装置; 被配置为把所述特定对象检测器中的负支持向量用作第二负特征向量的装置。
10. 根据权利要求7所述的对象检测设备,其中,所述特征向量选择装置还包括: 被配置为在第一负特征向量的特征空间中确定所述每个特征分组的边界的装置; 被配置为从所述特征向量池中选择落在特征分组的边界的内部的正特征向量的装 置; 被配置为从所述特征向量池中选择落在特征分组的边界的内部的第二负特征向量的 装直。
11. 根据权利要求7所述的对象检测设备,还包括被配置为在所述特征向量选择装置 不能针对某个特征分组选出预定数量的候选的情况下,不继续创建用于该特征分组的第二 分类器的装置。
12. 根据权利要求2所述的对象检测设备,其中,所述场景模型获取装置被配置为获取 在对象检测之前现有的场景模型。
13. 根据权利要求2所述的对象检测设备,其中,所述过滤装置包括: 特征提取装置,被配置为从对象检测结果中提取特征向量; 判断装置,被配置为用所述场景模型来判断所提取的特征向量是否表征所述背景,以 及 结果分组装置,被配置为把与被判断为不表征背景的的特征向量相对应的对象检测结 果分组为最终的对象检测结果。
14. 根据权利要求13所述的对象检测设备,其中,所述判断装置还包括: 被配置为用所述场景模型中的每个分类器对所提取的特征向量进行判断的装置; 被配置为获得判断的分数的加权和的装置; 被配置为如果所述加权和大于阈值,则把该对象检测结果判断为表征背景的装置。
15. 根据权利要求13所述的对象检测设备,其中,所述判断装置还包括: 被配置为用所述场景模型中的每个分类器对所提取的特征向量进行判断的装置; 被配置为如果所有判断结果都表明所提取的特征向量表征背景,则把该对象检测结果 判断为背景的装置。
16. -种图像拾取设备,包括: 摄影光学系统; 成像单元,被配置为执行成像以形成图像; 根据权利要求2-15中任一项所述的对象检测设备。
【文档编号】G06K9/00GK104424466SQ201310365300
【公开日】2015年3月18日 申请日期:2013年8月21日 优先权日:2013年8月21日
【发明者】姜涌 申请人:佳能株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1