用于从图像中检测对象的方法和设备与流程

文档序号:12601009阅读:210来源:国知局
用于从图像中检测对象的方法和设备与流程

本发明涉及用于从图像中检测对象的方法和设备。



背景技术:

近来,广泛地使用从图像中检测对象尤其是人物的技术。一般,要求对于每个人根据复数个交叠的对象区域获得单个最终的人物检测结果。人物检测器利用检测窗以所有位置和尺度扫描图像,并且产生复数个交叠的对象区域作为检测结果。然后交叠的对象区域被合并以便获得最终的人物检测结果。现有技术文献1(P.Viola and M.J.Jones.Robust,Real-Time Face Detection,International Journal of Computer Vision,57(2):137-154,2004,ISSN 0920-5691)描述了通过如下的步骤将复数个交叠的对象区域合并成单个检测结果的方法:将对象区域分组成不相交的子集,其中如果两个对象区域交叠则这两个对象区域在同一个子集中,如图1(a)所示;通过对每个子集中的所有对象区域的各角(corner)的坐标求平均来将该子集中的对象区域合并以便获得单个最终的检测结果,如图1(b)所示。由图1(a)中的实线示出的矩形表示复数个对象区域,并且它们被分组成虚线所示出的两个子集。

现有技术文献1在各种应用中是简单的和普遍的。然而,本发明的发明人发现包括上述的文献1中的方法在内的常规合并方法在输入的图像是在眼睛高度拍摄的时或者在输入的图像中的人物拥挤或很靠近时结果较差。在这种情形中,对于一个人的对象区域可能与其尺寸和位置类似的其他人的对象区域有较大的交叠,因此它们难以被区分开。

以图2为例,在利用常规合并方法的情况下,带眼镜的人的检测 可能被合并到前面的人的最终检测结果中。因此,人物检测(诸如由图2(b)中示出的虚线标记的检测结果)被遗漏,并且最终的检测结果更不精确,诸如,变成更大的矩形,或者偏离实际的真实数据(ground truth)等,就像图2(b)中的实线标记的检测结果一样。



技术实现要素:

鉴于上述内容,本发明提出了用于合并多个交叠的对象检测结果的新的方法。即使在图像中不同的人具有类似的尺寸和位置时这种合并方法也能够正确地将所检测出的对象区域分组到分别的不同子集中。

为了解决上述技术问题,本发明提供了一种用于从图像中检测对象的方法,其包括:扫描步骤,利用检测窗扫描所述图像并且输出复数个候选对象区域;缩小步骤,缩小所述候选对象区域以便产生缩小后的候选对象区域;分组步骤,将所述缩小后的候选对象区域分组成至少一个子集;以及合并步骤,将每个子集中的缩小后的候选对象区域合并得到一个合并后的对象区域。

另外,为了解决上述技术问题,本发明提供了一种用于从图像中检测对象的设备,其包括:扫描单元,被配置用于利用检测窗扫描所述图像并且输出复数个候选对象区域;缩小单元,被配置用于缩小所述候选对象区域以便产生缩小后的候选对象区域;分组单元,被配置用于将所述缩小后的候选对象区域分组成至少一个子集;以及合并单元,被配置用于将每个子集中的缩小后的候选对象区域合并得到一个合并后的对象区域。

根据本发明的该方法和设备能够更精确地定位图像中的人,并且减少遗漏的检测结果,尤其是在待分析图像是在眼睛高度拍摄的时。

根据参照附图的以下描述,本发明的其它特性特征和优点将变得清晰。

附图说明

并入说明书中并且构成说明书的一部分的附图示出了本发明的实施例,并且与描述一起用于说明本发明的原理。

图1示出现有技术文献1中公开的合并方法。

图2示出在现有技术中的常规合并方法中可能存在的问题。

图3是示出能够实施本发明的实施例的计算机系统的硬件配置的框图。

图4是示出了根据本发明的一个实施例的用于从图像中检测对象的方法的流程图。

图5示出了宽度方向上的缩小。

图6示出了不同的缩小方式。

图7示出了面内旋转(rotation-in-plane,RIP)角度与缩小方式之间的关系。

图8示出了基于RIP角度的灵活的缩小的效果。

图9示出了根据本发明实施例的方法的每个步骤对于图像的结果。

图10是示出了根据本发明一个实施例的用于从图像中检测对象的设备的框图。

具体实施方式

下面将参考附图来详细描述本发明的优选的实施例。

请注意,类似的参考数字和字母指的是图中的类似的项目,因而一旦在一幅图中定义了一个项目,就不需要在之后的图中讨论了。

在本公开中,术语“第一”、“第二”等仅仅被用来在元件或步骤之间进行区分,而并不意图表示时间顺序、优先级或重要性。

首先,将说明在本公开的上下文中的一些术语的含义。

在下文中,为了简化与澄清例示和描述,将在以人作为图像中的待检测对象为例以及以矩形区域作为对象区域为例的上下文中描述本发明的实施例。本领域技术人员会理解,本发明不限于这些具体的示例,而是能够根据实际应用而被应用于任何种类的对象以及任何形 状(诸如圆形或者椭圆形)的所检测出的对象区域。

在下文中对象区域的“宽度”指的是对象区域在水平方向上的宽度。在下文中对象区域的“高度”指的是对象区域在垂直方向上的宽度。当然,在本发明中对象区域的术语“宽度”和“高度”的定义不限于那些,而可以基于应用的检测出的对象区域的形状以及实际应用而改变。

在下文中对象区域的“面内旋转角度”指的是检测的人的中心轴相对于正上(up-right)方向的角度,如图7中的“θ”所示出的。当然,在本发明中对象区域的“面内旋转角度”的定义不限于此,而可以基于应用的检测出的对象区域的形状和实际应用而改变。

(计算机系统的硬件配置)

图3是示出能够实施本发明的实施例的计算机系统1000的硬件配置的框图。

如图3中所示,计算机系统包括计算机1110。计算机1110包括经由系统总线1121连接的处理单元1120、系统存储器1130、固定非易失性存储器接口1140、可移动非易失性存储器接口1150、用户输入接口1160、网络接口1170、视频接口1190和输出外围接口1195。

系统存储器1130包括ROM(只读存储器)1131和RAM(随机存取存储器)1132。BIOS(基本输入输出系统)1133驻留在ROM 1131中。操作系统1134、应用程序1135、其它程序模块1136和某些程序数据1137驻留在RAM 1132中。

诸如硬盘之类的固定非易失性存储器1141连接到固定非易失性存储器接口1140。固定非易失性存储器1141例如可以存储操作系统1144、应用程序1145、其它程序模块1146和某些程序数据1147。

诸如软盘驱动器1151和CD-ROM驱动器1155之类的可移动非易失性存储器连接到可移动非易失性存储器接口1150。例如,软盘1152可以被插入到软盘驱动器1151中,以及CD(光盘)1156可以被插入到CD-ROM驱动器1155中。

诸如麦克风1161和键盘1162之类的输入设备被连接到用户输入接口1160。

计算机1110可以通过网络接口1170连接到远程计算机1180。例如,网络接口1170可以经由局域网1171连接到远程计算机1180。或者,网络接口1170可以连接到调制解调器(调制器-解调器)1172,以及调制解调器1172经由广域网1173连接到远程计算机1180。

远程计算机1180可以包括诸如硬盘之类的存储器1181,其存储远程应用程序1185。

视频接口1190连接到监视器1191。

输出外围接口1195连接到打印机1196和扬声器1197。

图3所示的计算机系统仅仅是说明性的并且决不意图对本发明、其应用或用途进行任何限制。

图3所示的计算机系统可以被实施于任何实施例,可作为独立计算机,或者也可作为设备中的处理系统,可以移除一个或更多个不必要的组件,也可以向其添加一个或更多个附加的组件。

(用于从图像中检测对象的方法)

图4是示出了根据本发明的一个实施例的用于从图像中检测对象的方法的流程图。

如图4所示,在扫描步骤410中,利用检测窗扫描所述图像并且输出复数个候选对象区域。

在本发明的一个实施例中,候选对象区域是通过人物分类器从图像中检测出的矩形。为了在图像中找到对象,可以使用对图像的“穷举搜索”。也就是说,对象分类器以所有位置和尺度利用检测窗扫描输入图像。检测窗从输入图像上的原点开始在水平方向或者垂直方向上以预定的步长移动。在一个示例中,对象分类器可以包括多个特征和弱分类器并且对检测窗中的图像数据是否是对象来进行分类。HOG(方向梯度直方图)特征和推进(boosting)算法可以被用于构建分类器。HOG特征图像是通过根据它的梯度方向将每个像素的梯度幅 度投影到8个方向中而获得的。通过多个弱分类器最终结合成对象分类器。为了训练对象分类器,训练样本可以包括被规格化为相同尺寸的数百或数千个正/负样本。

在实施例中,例如,检测到许多矩形的候选对象区域,如图9(a)所示。本领域技术人员会理解,本发明不限于上述的对于扫描和分类操作的具体示例。

然后,在缩小步骤420中,缩小所述候选对象区域以便产生缩小后的候选对象区域。

执行这个步骤以避免由交叠引起的对检测结果的遗漏,尤其是在该图像是在眼睛高度拍摄的时。这是因为候选对象区域总是包含背景,而在背景中可能有其它对象的正的检测矩形,例如,如图9(a)所示。

候选对象区域被缩小以使得集中于对象的中心部分,并且消除了较大部分的背景。因此,在适当的缩小比的情况下,一个对象的缩小后的对象区域不会包含其它对象的缩小后的对象区域。即使在实际场景中对象可能不位于所检测出的对象区域的正中间时,这样的缩小也至少有助于避免与背景交叠太多。

在一个示例中,所述缩小步骤420可以包括:通过预定的缩小比来缩小所述候选对象区域的宽度但是保持所述候选对象区域的高度不变。

如图5所示,保持在对象区域的中心的由虚线指出的对称轴不动,在不改变对象区域的高度的情况下,将对象区域的宽度l1按照缩小比s向内缩小到宽度l2。然后得到“细长的”缩小后的对象区域。

缩小比s可以根据各种条件(诸如训练样本中的人的尺寸)而被预先决定或选择。以人的头肩检测为例,对于方形的训练样本用实验方法可以确定参数s为约0.4。

在待检测对象为人物时,这个缩小步骤特别有效。对于图像中的 行人,将频繁地检测到位于人身体上的一些对象区域,但是它们是错误的,即为假正类(false positive)。人身体上的这种对象区域应该与正上方向上的人头部上的真正类(true positive)对象区域合并。如图6(b)所示,如果缩小对象区域的宽度和高度两者,则人身体上的缩小后的对象区域将几乎不与人头部上的缩小后的对象区域交叠,那么它们不会被合并。相反,如图6(c)所示,仅缩小对象区域的宽度能够保持在人头部上的和人身体上的缩小后的对象区域之间的较大交叠,因此它们将被合并为一个对象。因此,在这种情况下,我们按照预定的缩小比来缩小候选对象区域的宽度但是保持它们的高度不变。

在另一个示例中,所述缩小步骤420可以包括:基于候选对象区域的面内旋转角度来缩小所述候选对象区域。

特别地,在一些情况下,基于候选对象区域的面内旋转角度来缩小所述候选对象区域的步骤可以包括:在候选对象区域的绕正上方向或者正下(straight-down)方向的面内旋转角度在45度之内的情况下,缩小候选对象区域的宽度但是保持候选对象区域的高度不变;以及在候选对象区域的绕向左方向或者向右方向的面内旋转角度在45度之内的情况下,缩小候选对象区域的高度但是保持候选对象区域的宽度不变。在下文中将详细讨论这种情况。

具体地,在例如图像是由广角镜头拍摄的时,图像中的对象(诸如人)可能有除了面内旋转(RIP)角度为零度的正上方向以外的不同的RIP角度。在该情况下,假设RIP角度能够被检测到并且是可靠的。如图7所示,基于候选对象区域的RIP角度θ来在宽度方向上或者在高度方向上缩小候选对象区域。

在候选对象区域的绕正上方向或正下方向的RIP角度在45度之内的情况下,如图7中的阴影所示出的,其表示人绕正上方向或正下方向摇摆,优选的是在宽度方向上进行缩小。否则,在候选对象区域的绕向左方向或者向右方向的RIP角度在45度之内的情况下,采用在高度方向上缩小。

这种灵活的缩小方法能够避免仅仅合并在人身体上的假正类的对象区域作为最终检测结果。以图8为例,对于其绕向左方向的RIP角度约为30度的所检测到的人,如图8(b)中那样的宽度缩小使得身体上的缩小后的矩形和头部上的缩小后的矩形变得完全分离,从而引入了一个错误的检测结果。相反,如图8(c)中那样的高度缩小保持身体上的缩小后的矩形和头部上的缩小后的矩形仍较大地交叠,并且那些缩小后的矩形都将被分组到同一个子集中并且被合并为同一个对象。

然后,在分组步骤430中,将所述缩小后的候选对象区域分组成至少一个子集。

在一个示例中,可以基于缩小后的候选对象区域彼此之间的交叠度(overlap ratio)来将缩小后的候选对象区域分组。在缩小后的候选对象区域的交叠度大于预定的阈值的情况下,可以将这些缩小后的候选对象区域分组到同一个子集中,如下面的公式所述:

其中

r表示两个缩小后的候选对象区域之间的交叠度,

rThr表示预定的阈值,

1代表分组到同一个子集中,以及

0代表分组到不同的子集中。

在复杂的实际场景中,对于不同的对象的缩小后的候选区域仍然可能有极少的交叠。因此与现有技术对比,我们设定一个实验性的交叠阈值rThr而不是零。

以人的头肩检测为例,通过实验将rThr设定为约0.25是合适的。它的现实意义在于,当人的头肩部的四分之一以上有交叠时,一个人可能被遮挡得太多而不能被辨别。图9(b)示出了缩小后的矩形被分组成由虚线表示的两个子集。

在一种实施方式中,可以如以下公式所示的,计算两个缩小后的候选对象区域的交集的面积与它们的并集的面积的比率作为这两个缩小后的候选对象区域之间的交叠度:

交叠度 <mrow> <mi>r</mi> <mo>=</mo> <mfrac> <mrow> <mi>a</mi> <mi>r</mi> <mi>e</mi> <mi>a</mi> <mn>1</mn> <mo>&cap;</mo> <mi>a</mi> <mi>r</mi> <mi>e</mi> <mi>a</mi> <mn>2</mn> </mrow> <mrow> <mi>a</mi> <mi>r</mi> <mi>e</mi> <mi>a</mi> <mn>1</mn> <mo>&cup;</mo> <mi>a</mi> <mi>r</mi> <mi>e</mi> <mi>a</mi> <mn>2</mn> </mrow> </mfrac> </mrow>

其中area1和area2分别表示两个缩小后的候选对象区域的区域。本领域技术人员会理解,本发明不限于上述分组操作(包括上述计算操作),而是可以根据实际应用而改变。

然后,在合并步骤440中,将每个子集中的缩小后的候选对象区域合并得到一个合并后的对象区域。

本领域技术人员会理解本发明可以应用各种合并方法。在下文中,出于例示的目的将讨论一种简单的合并方法。在一个示例中,所述合并步骤可以包括:通过对每个子集中的缩小后的候选对象区域的各角的坐标求平均,将这些缩小后的候选对象区域合并为一个合并后的对象区域,如以下公式所示:

<mrow> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mi>N</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>p</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>,</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mn>3</mn> <mo>,</mo> <mn>4</mn> </mrow>

其中,i是缩小后的候选对象区域的角点的标号,并且N是一个子集中的缩小后的候选对象区域的数量。图9(c)示出了对缩小后的候选对象区域求平均之后的那些最终的检测结果。

可选地,如虚线所示的,在所述合并步骤之后,本实施例的方法还可以包括放大合并后的对象区域的步骤。

放大步骤是先前的缩小步骤的逆过程,并且将使得最终的检测结果看起来与训练样本一样。该放大步骤是根据应用要求而可选的。在该步骤中,合并后的矩形的宽度可以通过放大比1/s(其中s是缩小比)而被简单地放大,并且保持高度不变。图9(d)示出了将那些检测结果放大回到与初始对象区域一样的矩形。

与使用本领域中的常规方法的图2相比,图9示出了本发明能够有效地避免遗漏正的检测结果并且使得检测结果更精确达到真实数据,尤其是在图像是在眼睛高度拍摄的时。

另外,即使在图像是由广角镜头拍摄的时,本发明的方法也能够有效地合并对于同一个人所检测到的人头部上的对象区域(真正类(true positive))和人身体上的对象区域(假正类(false positives))。

(用于从图像中检测对象的设备)

图10是示出根据本发明实施例的用于从图像中检测对象的设备100的框图。

如图10所示,该设备100包括:扫描单元110、缩小单元120、分组单元130、以及合并单元140。

更具体地,扫描单元110被配置为利用检测窗扫描所述图像并且输出复数个候选对象区域。

缩小单元120被配置为缩小所述候选对象区域以便产生缩小后的候选对象区域。

分组单元130被配置为将所述缩小后的候选对象区域分组成至少一个子集。

合并单元140被配置为将每个子集中的缩小后的候选对象区域合并得到一个合并后的对象区域。

这个设备可选地还可以包括:被配置用于放大合并后的对象区域的放大单元150。

设备100中的各个单元能够被配置为执行图4中的流程图中示出的各个步骤。

可以通过许多方式来实施本发明的方法和设备。例如,可以通过软件、硬件、固件、或其任何组合来实施本发明的方法和设备。上述的方法步骤的次序仅是说明性的,本发明的方法步骤不限于以上具体描述的次序,除非以其它方式明确说明。此外,在一些实施例中,本 发明还可以被实施为记录在记录介质中的程序,其包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于实现根据本发明的方法的程序的记录介质。

虽然已通过示例详细展示了本发明的一些具体实施例,但是本领域技术人员应当理解,上述示例仅意图是说明性的而不限制本发明的范围。本领域技术人员应该理解,上述实施例可以在不脱离本发明的范围和实质的情况下被修改。本发明的范围是通过所附的权利要求限定的。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1