视频图像识别装置、视频图像识别方法和存储介质与流程

文档序号:14991261发布日期:2018-07-20 22:16阅读:201来源:国知局

实施例的方面涉及用于识别输入视频图像的技术。



背景技术:

近年来,在使用机器学习的视频图像识别领域中,使用自主学习的技术已经引起关注。例如,在自主学习中,分类器从环境获取反馈信息,并自主地更新学习数据库并进行额外的学习或重新学习。a.gaidon,g.zen和j.a.rodriguez-serrano的2014年6月18日的“自学习照相机:物体检测器对未标记视频流的自适应(self-learningcamera:autonomousadaptationofobjectdetectorstounlabeledvideostreams)”(arxiv:1406.4296v2[cs.cv]),讨论了一种通过使分类器自主学习人物检测并基于初始分类器生成具有不同特性的新分类器来改善人物检测性能的方法。

当进行诸如人物检测和人物运动识别等的视频图像识别时,视频图像识别的性能明显依赖于拍摄图像的环境的照明状态。然而,在a.gaidon,g.zen和j.a.rodriguez-serrano的2014年6月18日的“自学习照相机:物体检测器对未标记视频流的自适应”(arxiv:1406.4296v2[cs.cv])讨论的方法中,使用未进行摄像的环境的照明变化分析的结果来再次学习分类器。因此,利用该方法,难以高精度地识别视频图像,而不会受到进行摄像的环境中的照明变化的影响。因此,寻求涉及实施例的如下方面:能够在不受进行摄像的环境中的照明变化的影响的情况下,实现高度精确的视频图像识别的技术。



技术实现要素:

根据实施例的一个方面,一种装置包括:分析单元,其被构造为基于用于校正拍摄的视频图像的参数来分析当摄像单元拍摄视频图像时的环境的状态;识别单元,其被构造为使用分类器对拍摄的视频图像进行识别处理;以及学习单元,其被构造为基于由分析单元进行的分析的结果和由识别单元进行的识别的结果来学习分类器。

根据下面参照附图对示例性实施例的描述,本公开的其他特征将变得清楚。

附图说明

图1是示出根据第一示例性实施例的视频图像识别装置的功能构造的框图。

图2是示意性示出根据第一示例性实施例的摄像单元的框图。

图3a和图3b各自示出根据示例性实施例的视频图像调整参数分析单元中的分析方法。

图4示出根据第一示例性实施例的第一被摄体存在判断方法。

图5示出根据第一示例性实施例的第二被摄体存在判断方法。

图6是示出根据第一示例性实施例的在进行分类器的附加学习时应用的更新规则的表格。

图7是示出根据第一示例性实施例的人物检测分类器的自主学习的过程的流程图。

图8示出根据第二示例性实施例的用于分析曝光值ev的时间变化的分析处理。

图9是示出根据第二示例性实施例的在进行分类器的附加学习时应用的更新规则的表格。

图10是示出根据第二示例性实施例的运动识别分类器的自主学习的过程的流程图。

具体实施方式

在用于从视频图像中检测人物并识别人物的运动和动作的视频图像识别处理中,通常从视频图像提取与人物识别有关的特征量,例如,人的剪影、衣服等的纹理和运动模式。然后,特征量通过分类器以进行人物检测和人物运动识别。然而,在许多情况下,由于照明条件的变化而难以稳定地获取人物特征量。更具体地说,当作为检测目标的被摄体区域的曝光和白平衡不合适或改变时,视频图像识别的性能降低。在人物检测中,当场景的背景较暗时,尝试通过自动曝光(ae)控制将整个场景调整到适当的曝光常常导致人物区域曝光过度,以产生诸如脸部和衣服的纹理的亮点,这就造成了不成功的人物检测的情形。

在本公开的第一示例性实施例中,基于照相机的曝光值(ev)和自动对焦(af)评估值的波形来判断人物检测结果是否正确(误检测判断)以及在存在人物时是否未检测到人物(未检测判断)。然后,基于判断信息进行分类器的附加学习。

此外,在人物运动识别中,分析视频图像信号在空间和时间方向上的微分值,并且当场景较暗时,微分值计算变得不稳定,从而导致运动识别的性能降低的情形。当视频图像中的亮度(brightness)由于外部光入射、入射光的镜面反射、不连续布置的照明下的人的运动、人物区域的面积的变化等而显著变化时,也会发生这种运动识别性能下降的情形。

因此,在第二示例性实施例中,基于对曝光值是否在适当范围之外的判断、对曝光值的时间变化的分析以及对af评估值的波形的分析来估计由于低照度(luminance)、周围光的突然改变以及人物运动而导致的视频图像的亮度的变化,并且,基于估计信息进行分类器的附加学习。为了估计环境、照明和人物之间的情境(context),使用视频图像识别方法作为场景分析,并且,可以通过分析从摄像单元获取的视频图像调整参数,与传统技术相比以更少的计算量来估计情境信息。此外,在传统的机器学习中,学习数据库将被构造为在学习分类器时包括尽可能多的照明变化,使得分类器适用于照明变化。特别是近年来越来越多地投入实际使用的深度学习的视频图像识别中,数据库规模过大,而难以用学习所需的规模来构造初始数据库。然而,根据示例性实施例,不需要大规模数据库的自主学习单元在计算量减少的情况下实现。

接下来,将详细地描述本公开的各种示例性实施例。

以下将参照附图详细描述本公开的第一示例性实施例。在本示例性实施例中,将描述从输入视频图像中检测人物区域的视频图像识别的示例。

图1是示出根据本示例性实施例的视频图像识别装置的功能构造的框图。如图1所示,视频图像识别装置100包括摄像单元(照相机)10、视频图像调整参数分析单元20、自主学习单元30和视频图像识别单元40。此外,自主学习单元30包括学习规则存储单元31、学习数据库存储单元32和分类器更新单元33。

除了摄像单元10之外,视频图像识别装置100还包括诸如中央处理单元(cpu)、只读存储器(rom)、随机存取存储器(ram)和硬盘驱动器(hdd)等的硬件,并且,cpu执行存储在rom、hdd等中的程序,以实现例如下面描述的流程图中所示的功能构造或处理。ram包括用作cpu开发并执行程序的工作区域的存储区域。rom包括用于存储要由cpu执行的程序等的存储区域。hdd包括用于存储用于cpu执行处理的各种程序以及包括阈值数据的各种类型的数据的存储区域。

摄像单元10拍摄要进行诸如人物检测等的识别的场景图像,并且将拍摄的图像的视频图像信号发送到自主学习单元30。此外,视频图像调整参数被输出到视频图像调整参数分析单元20。基于由摄像单元10拍摄的场景的状态(室内、室外、背景颜色),照明条件、存在/不存在人物以及调整和校正照相机的视频图像的方法,来确定视频图像调整参数。

视频图像调整参数包括用于ae控制的摄影曝光(apex)值的加法系统和用于af控制的af评估值的波形。视频图像调整参数还包括用于自动白平衡的色彩平衡。apex值包括光值(lv)、曝光值(ev)和胶片灵敏度(灵敏度值)(电荷耦合器件(ccd)/互补金属氧化物半导体(cmos)灵敏度(sv))。apex值还包括被摄体照度(亮度值)(bv)、透镜光圈(光圈值)(av)和快门速度(时间值)(tv)。

用于自动调整和校正照相机的视频图像的ae、af和awb有时被称为使用ae、af和awb的首字母的3a(或照相机3a)。虽然在本示例性实施例中描述了在视频图像识别装置100中包括摄像单元10的示例,但是可以将摄像单元10与视频图像识别装置100分离。更具体地,例如,由监视照相机拍摄的视频图像经由网络等被输入到视频图像识别装置100,并且,视频图像识别装置100对输入的视频图像进行视频图像识别。

视频图像调整参数分析单元20对从摄像单元10输出的视频图像调整参数进行阈值处理和时间变化分析,并且,基于阈值处理和时间变化分析的结果进行被摄体存在判断处理,以分析摄像单元10拍摄视频图像的环境的状态。视频图像调整参数分析单元20进行的分析的结果被发送到自主学习单元30。分析结果可以经由网络与其它视频图像识别装置共享。

自主学习单元30接收从视频图像调整参数分析单元20发送的参数分析结果、从摄像单元10发送的视频图像信号以及从视频图像识别单元40发送的人物检测结果,作为输入。然后,基于存储在学习规则存储器中的自主学习规则,使用上述信息作为输入,在分类器更新单元33处进行分类器的附加学习,其中,分类器进行视频图像识别。此时,由视频图像识别单元40进行的识别的结果被输入,使得由视频图像识别单元40进行的识别的结果被顺序地添加到学习数据库存储单元32。

学习规则存储单元31存储用于自主学习的规则(处理和条件分支)。学习规则针对各个识别目标被定义。尽管在本示例性实施例中定义了用于人物检测的学习规则,但是识别目标可以是诸如动物或汽车之类的任何其它物体。此外,识别任务不限于人物检测,并且可以是诸如人物运动识别或场景识别等的其他视频图像识别,并且,在这种情况下,可以准备用于人物运动识别或场景识别的自主学习的学习规则。

学习数据库存储单元32是用于学习视频图像识别用分类器的数据库。可以构造适用于各种摄像环境的大规模数据库,但是,通常很难构造这样的数据库,因此,构造适用于摄像单元10所处的环境的最小数据库就足够了。例如,如果确定了照相机的位置的高度和照相机的俯角,则仅收集在相似的照相机位置条件下拍摄的视频图像以构造该数据库。

分类器更新单元33在使用初始学习数据库学习的分类器上使用从视频图像识别单元40发送的识别结果作为反馈信息来进行附加学习或重新学习。本示例性实施例中的分类器被构造为使得使用从学习数据库中包括的视频图像(图像)提取的方位梯度直方图(histograms-of-oriented-gradients,hog)特征量作为输入,可以通过诸如支持向量机(svm)分类器或自适应增强(adaboost)分类器等的分类器来检测人物区域(参见n.dalal,b.triggs,"histogramsoforientedgradientsforhumandetection",cvpr2005(ieeecomputervisionandpatternrecognition),vol.1,pp.886-893,2005.)。视频图像识别单元40使用由自主学习单元30更新的分类器,从由摄像单元10拍摄的视频图像进行人物检测等。

图2是示意性示出根据本示例性实施例的摄像单元10的框图。摄像单元10包括视频图像信号生成单元70、视频图像信号显像单元80和外部接口(i/f)90。视频图像信号生成单元70包括透镜组71、光圈72、图像传感器73、自动增益控制(agc)单元74、模拟/数字(a/d)转换单元75、透镜驱动单元76和光圈驱动单元77。透镜组71是用于将来自被摄体的光聚焦(形成图像)到图像传感器73上的光学系统。透镜组71包括用于聚焦在被摄体上的聚焦透镜和用于调整视角的变焦透镜。

穿过透镜组71的光(光学图像)的量在光圈72处被调整。穿过光圈72的光学图像被形成在图像传感器73的光接收表面上。在图像传感器73的光接收表面上布置有按照预定顺序排列的滤色器。图像传感器73输出对应于光学图像的电信号(模拟信号)。从图像传感器73输出的模拟信号被发送到agc74,并且在agc74处调整模拟信号的增益以调整模拟信号的照度。agc74的输出在a/d转换单元75处进行a/d转换,并作为数字信号(数字图像拍摄信号)输出。透镜驱动单元76响应于来自下面描述的af控制单元84的指令控制并驱动透镜组71以进行聚焦。光圈驱动单元77基于来自下面描述的ae控制单元85的指令来控制光圈72。

视频图像信号显像单元80包括信号处理单元81、测光装置82、awb控制单元83、af控制单元84和ae控制单元85。信号处理单元81对awb控制单元83、af控制单元84和ae控制单元85进行预处理,并且,基于从测光装置82发送的曝光值ev来进行用于ae控制的计算。

awb控制单元83进行处理以调整场景的白平衡,并且,如果原始白色(灰色)区域被着色,则awb控制单元83应用白平衡校正增益(校正值)以将该区域变成白色。

af控制单元84将控制信号发送到透镜驱动单元76,以聚焦在场景中的主要被摄体上。尽管在本示例性实施例中使用对比度af作为示例,但是本示例性实施例提供的功能也可以通过相位差af来实现。对比度af是焦点调节透镜被移动以基于形成在图像传感器上的视频图像来搜索高对比度部分并且聚焦于高对比度区域的方法。在对比度af中,针对聚焦透镜的各个位置给出af评估值(对比度),并且确定af评估值的峰点以聚焦在被摄体上。在本示例性实施例中,将af评估值的波形发送到视频图像调整参数分析单元20以实现适合于摄像环境的分类器的更新。

ae控制单元85控制光圈驱动单元77,使得考虑到所拍摄的场景的状态(场景中的颜色和照度的分布),以利用适当的曝光来拍摄视频图像。根据曝光值ev、胶片灵敏度sv(ccd/cmos灵敏度)、bv(被摄体照度)、av(透镜光圈)和tv(快门速度)之间的关系式(ev=sv+bv=av+tv)来计算透镜光圈。ev,sv,bv,av和tv被称为apex单位,并且,用于曝光控制的物理量元素(被摄体照度,灵敏度,透镜光圈,快门速度)被转换成相同维度的单位,以通过简单的加法/减法处理来获得曝光值。将计算出的曝光值ev发送给视频图像调整参数分析单元20。

外部i/f90是用于外部输出的接口单元,并将视频图像信号输出到自主学习单元30。此外,在摄像单元(照相机)10与视频图像识别装置100分离的情况下中,由摄像单元10拍摄的视频图像经由外部i/f90被输出到视频图像识别装置100。

以下将参照图3a描述由视频图像调整参数分析单元20进行的分析方法。图3a示出了本示例性实施例中的分析方法。在本示例性实施例中,首先,在步骤s101中,视频图像调整参数被输入到视频图像调整参数分析单元20。在本示例性实施例中,af评估值和曝光值ev被输入为视频图像调整参数。使用af评估值来判断被摄体是否存在于视场内,并且对曝光值ev进行阈值处理。在图3a中,省略了对曝光值ev进行的阈值处理的流程。在本示例性实施例中,通过进行作为第一被摄体存在判断方法和第二被摄体存在判断方法的两个被摄体存在判断来判断被摄体是否存在。

首先,下面将参照图4描述使用af评估值的波形中的时间变化的第一被摄体存在判断方法(步骤s102)。图4示出了在摄像目标被摄体不存在于视场中的背景状态下的af评估值的波形,以及在被摄体处于帧中的状态下的af评估值的波形。当在不同时间点不存在被摄体时,af评估值的波形不改变,但是一旦被摄体进入帧,af评估值的波形就变得与背景状态下的波形不同。在第一被摄体存在判断方法中,在af评估值的波形中的这种时间变化被用于判断被摄体是否存在于视场中。

关于判断的方法,计算被摄体进入帧之前的af评估值的波形与被摄体进入帧之后的af评估值的波形的非公共部分的面积,并且,如果该面积变成等于阈值th1或更大,则判断该被摄体存在。虽然在本示例性实施例中使用存在和不存在两个值来输出被摄体存在判断,但是可以随机表示被摄体存在判断。例如,从各种情形获得af评估值的波形的非公共部分的面积的似然分布,并且根据背景状态和被摄体放大的状态下的先验概率通过贝叶斯推断来计算被摄体的存在的概率。

然而,当使用af评估值的波形之间的时间差进行被摄体存在判断时,尽管不存在被摄体,af评估值也会由于光源位置的移动(例如,太阳的移动)和光源强度的变化(例如,早晨、白天、晚上)而变化。因此,在本示例性实施例中,在使用af评估值的波形的时间变化的第一被摄体存在判断方法(步骤s102)之后进行基于af评估值的峰检测的第二被摄体存在判断(步骤s103)。图5示出了基于af评估值的峰检测的第二被摄体存在判断。

图5示出了在被摄体处于帧中的状态下的af评估值的波形,并且还示出了af评估值的一阶微分的波形。为了从af评估值的波形中检测焦点位置,检测波形的极值。为了检测向上凸起的峰,选择一阶微分值为零并且该位置的一阶微分的梯度为负的位置。在被摄体处于帧中的状态下,除了背景峰以外,还会出现被摄体的峰。通过判断被摄体的峰是否出现,可以判断被摄体是否在场景的帧中。

虽然在本示例性实施例中使用存在和不存在两个值来输出基于峰出现判断的被摄体存在判断,但是可以随机表示被摄体存在判断。例如,可以使用如下方法:如果af评估值的峰位置处的一阶微分的波形的梯度大,则存在被摄体的概率增大。

如上所述,在本示例性实施例中,基于af评估值的波形的时间变化(步骤s102)和af评估值的波形的峰分析(步骤s103)来进行被摄体存在判断,以获得判断的判断值。此外,在本示例性实施例中,视频图像调整参数分析单元20判断曝光值ev是小于阈值th_low还是大于阈值th_high,以获得判断的判断值。视频图像调整参数分析单元20输出上述两个判断值作为参数分析值(步骤s106)。

下面描述使用由视频图像调整参数分析单元20进行的分析结果来自主学习人物检测用分类器的方法。图6是示出本示例性实施例中的存储在学习规则存储单元31中的在进行人物检测器的附加学习时应用的更新规则。

如图6所示,有四种人物检测结果的情况。首先,人物正确检测情况(tp:真的肯定)是从视频图像(图像)中检测到人物并且检测正确的情况。人物误检测情况(fp:假的肯定)是人物被错误地检测到的情况。此外,人物正确未检测情况(tn:真的否定)是从视频图像(图像)中没有检测到人物并且该判断正确的情况。人物误未检测情况(fn:假的否定)是存在漏检的情况。

在视频图像识别单元40中执行的人物检测器从由摄像单元10发送的输入视频图像中检测人物并输出检测到的人物的位置和大小。此时,人物检测结果包括误检测结果和未检测结果。因此,判断上述信息并向分类器提供反馈,使得分类器自主地适应摄像环境。此外,在不通过人提供在线教师信号的情况下,提高了人物检测的性能。

如图6所示,人物误检测情况的原因是错误地检测到背景设计或人物的照片。在这种情况下,由于在摄像场景中不存在人物,所以af评估摄像场景值的波形不应该在时间上变化(从背景状态没有变化),并且不应该从除背景以外的af评估值的波形中检测到峰。因此,如果根据参数分析值(步骤s106)的被摄体存在判断值而发生人物误检测,则将误检测情况添加到存储在学习数据库存储单元32中的数据库中,并且重新学习分类器以减少误检测。

另一方面,如图6所示,人物误未检测情况(漏检)的原因的示例包括由于被摄体区域的过度曝光而使纹理高亮发白和由于被摄体区域的曝光不足而遮挡了纹理的阴影。在这种情况下,虽然存在人物,但由于没有获取用于检测人物的分类器的足够特征量,所以未能成功检测到人物,因此人物检测失败。由于存在人物,因此af评估值的波形应该在时间上变化(与背景状态不同),并且应该从除背景以外的af评估值的波形中检测到峰。

此外,当被摄体区域曝光过度或曝光不足时,曝光值ev可能分别较小或较大。因此,如果根据被摄体存在判断值和曝光值ev判断出当人物存在时没有检测到人物,则首先增加分类器的人物检测器的灵敏度(减少人物检测的阈值)以使该人物能够被检测到。之后(在随后的帧中),将正确检测情况添加到存储在学习数据库存储单元32中的数据库中,并且重新学习分类器以减少人物误未检测的情况。

图7是示出根据本示例性实施例的由自主学习单元30进行的人物检测的分类器的自主学习的处理的流程图。虽然在本示例性实施例中描述了针对输入视频图像的各个帧进行分类器的自主学习的构造,但是本公开不限于该构造,并且可以针对每若干帧进行自主学习。

首先,在步骤s201中,自主学习单元30接收视频图像识别单元40对前一帧进行的人物检测的结果。如果检测到人物(步骤s201中为“是”),则在步骤s202中,参照基于参数分析值(步骤s106)当中的af评估值的波形的时间分析(步骤s102)和峰检测(步骤s103)的人物存在判断的结果。在步骤s202中,如果存在人物(步骤s202中为“是”),则处理进行到步骤s203。在步骤s203中,参照参数分析值(步骤s106)当中的曝光值ev是小于阈值th_low还是大于阈值th_high的判断结果,并且,判断曝光是否合适。

如果曝光不合适(步骤s203中为“是”),则处理进行到步骤s204,并且进行人物检测器的附加学习。另一方面,如果曝光合适(步骤s203中为“否”),则判断为人物检测在合适的曝光范围内(即,在预定范围内),因此不进行人物检测器的附加学习。然后,在步骤s209中,重置人物检测器的检测灵敏度。以这种方式,如果在下述步骤s207中判断为曝光不合适(步骤s207中为“是”),则在步骤s208中,增加人物检测器的检测灵敏度,使得未检测到的目标(人物)可以被检测到。因此,如果在下一帧和后续帧中照明条件得到改善(曝光变得合适)并且在步骤s207中判断曝光合适(步骤s207中为“否”),则当前检测灵敏度导致过度检测,因此在步骤s209中重置检测灵敏度。

在本示例性实施例中,作为附加学习方法的示例,描述了将正确情况添加到学习数据库存储单元32以重新学习学习器的方法。可选地,将当前帧中的分类器确定为初始分类器,以生成具有与初始分类器不同的属性的多个分类器,并且使用分类器进行人物检测的结果来执行分类器更新,以进行如a.gaidon,g.zen和jarodriguez-serrano的2014年6月18日的“自学习照相机:物体探测器对未标记视频流的自适应”(arxiv:1406.4296v2[cs.cv])所讨论的自主重新学习。上述处理对应于用于人物正确检测(tp)情况的处理。

接下来,将在下面描述用于人物误检测情况(fp)的处理。在这种情况下,在步骤s201中,判断为在前一帧中检测到人物(步骤s201中为“是”),并且处理进行到步骤s202。在步骤s202中,参照基于af评估值的波形的时间分析(步骤s102)和峰检测(步骤s103)的人物存在判断的结果。在步骤s202中,判断为不存在人物(步骤s202中为“否”),所以步骤s201中的人物检测结果很可能是误检测。在人物误检测(fp)情况下,在步骤s205中将误检测情况添加到学习数据库存储单元32中,并且重新学习人物检测器以减少误检测。

接下来,将在下面描述用于人物正确未检测(tn)情况的处理。首先,在步骤s201中,在前一帧中没有检测到人物(步骤s201中为“否”),并且处理进行到步骤s206以如在步骤s202中那样参照人物存在判断结果。在人物正确未检测(tn)情况下,在步骤s206中也判断该人物不存在(步骤s206中为“否”),并且处理进行到下一帧而不进行重新学习。

最后,下面将描述用于人物漏检(fn)情况的处理。在人物漏检(fn)情况下,尽管在步骤s201中没有在前一帧中检测到人物(步骤s201中为“否”),但是在步骤s206中判断人物存在(步骤s206中为“是”)。因此,处理进行到步骤s207,并且,通过参照参数分析值(步骤s106)当中的曝光值ev是小于阈值th_low还是大于阈值th_high的判断结果来判断曝光是否合适。如果判断曝光不合适(步骤s207中为“是”),则很可能未检测到人物。因此,在这种情况下,在步骤s208中增加人物检测器的灵敏度,以使得视频图像识别单元40能够检测到处于未被检测到的状态下的人物。

另一方面,如果曝光值ev在合适的范围内(大于等于阈值th_low且小于等于阈值th_high)(步骤s207中为“否”),则人物漏检判断被暂停,并且不进行重新学习。然后,在步骤s209中,重置人物检测器的检测灵敏度。

如上所述暂停判断的可能情况是如下情况:在使用主要包括直立行走的情况的数据库学习人物检测器的情况下,当输入视频图像中的人物的姿势复杂时,分类器不能检测到人物。如本文所使用的,术语“复杂的姿势”是指例如具有手臂和腿部的大幅运动的蹲下或跑步。在这种情况下,af评估值的波形指示人物存在,并且,这与分类器的输出结果不匹配。在这种情况下,分类器不输出人物检测区域,因此学习数据库存储单元32和分类器不能被更新。因此,如n.dalal,b.triggs,"histogramsoforientedgradientsforhumandetection",cvpr2005(ieeecomputervisionandpatternrecognition),vol.1,pp.886-893,2005中讨论的方法中一样,使用生成具有与初始分类器不同的属性的多个分类器的方法可能是一种选择。

如上所述,在本示例性实施例中,使用af评估值的波形的时间分析和峰分析的结果,曝光值ev的阈值判断结果以及分类器的人物检测的结果来更新学习数据库和分类器,以能够进行人物检测功能的自主附加学习和重新学习。特别地,在本示例性实施例中,使用用于校正所拍摄的视频图像的视频图像信号调整参数(af评估值的波形,曝光值ev)来进行人物检测分类器的附加学习,因此,视频图像识别以高精度进行,而不会受到摄像环境的照明变化的影响。

接下来,下面将描述本公开的第二示例性实施例。在本示例性实施例中,将描述从输入视频图像中识别人物的运动的视频图像识别的示例,特别是检测到异常运动(特定运动)的示例。以上在第一示例性实施例中已经描述的部件被赋予相同的附图标记,并且省略其描述。

除了本示例性实施例中的awb控制单元83将白平衡校正增益发送到视频图像调整参数分析单元20以外,根据本示例性实施例的视频图像识别装置100的构造与根据第一示例性实施例的视频图像识别装置100的构造基本类似。如下所述,可以在不使用白平衡校正增益的情况下进行照明变化的存在/不存在的判断,并且在这种情况下,白平衡校正增益不需要被发送给视频图像调整参数分析单元20。

图3b示出了本示例性实施例中的视频图像调整参数分析单元20中的分析方法。在本示例性实施例中,除了对af评估值的波形的分析(步骤s102和s103)之外,还进行曝光值ev的时间变化分析(步骤s104)和白平衡校正增益的时间变化分析(步骤s105)中的至少一个。在本示例性实施例中也对曝光值ev进行阈值处理,但是在图3b中省略了这个处理。

在人物运动识别中,一般地,通常使用来自运动图像的照度信号或颜色信号中的空间方向上和时间方向上的变化量(微分值)。已知时间和空间的微分值以及类似的特征与人运动的类型相对应地形成特征量空间分布(参照日本特开2007-219865号公报)。运动识别用分类器通过机器学习特征量来构成。然而,时空微分信息受照明变化的影响显著,因此极端的照明变化会导致错误的运动识别。因此,基于曝光值ev的时间变化分析来判断照明变化(步骤s104),并将判断结果反映在分类器的附加学习中,以使得能够进行运动识别的自主学习。图8示出用于分析曝光值ev的时间变化的分析处理(步骤s104)。图8中的曲线的横轴表示时间,纵轴表示曝光值ev。当照明处于稳定状态时,曝光值ev保持恒定值。当照明条件逐渐变化时,曝光值ev也以恒定的变化率变化,但是通过自动ae控制,整个场景的曝光和被摄体区域的曝光保持稳定。

然而,当照明条件在短时间内改变或者有规律地改变时,照度信号的时空微分值显著变化,并且这经常导致错误的运动识别。在短时间段内照明条件改变的原因的示例包括由于打开门而进入室内环境的外部光。

因此,为了分析曝光值ev的时间变化,计算曝光值ev的时间序列信号的一阶微分和二阶微分。一阶微分值指示照明变化的变化率,并且,较大的一阶微分值指示照明条件的变化较大。此外,二阶微分值指示照明变化的加速度,并且,照明条件的变化状态也可以从二阶微分值检测到。此外,检测二阶微分值的零交叉点以检测照明变化的变化率的最大值。关于曝光值ev的波形的一阶微分和二阶微分的信息对应于短时间内的照明条件的突然改变,因此可以用作重新学习或附加学习运动识别用分类器时的规则信息。

以下将作为示例来详细描述从图8中的顶部起第三个波形所指定的照明突然变化的情况。该波形指示在稳定的照明环境下外部光进入的情况的例子。外部光线进入,并且曝光值ev在短时间内增加之后,返回到原始照明条件。在检测到曝光值ev的波形的一阶微分值的情况被检测为该一阶微分值超过阈值的情况,可以检测到曝光值ev突然改变的波形的位置。

此外,在如上述示例中曝光值ev的波形具有峰的情况下,也可以通过检测曝光值ev的波形的一阶微分的零交叉点来检测照明的突然变化。检测到零交叉点的事实也指示照明条件在短时间内改变。在这种情况下,使用照度的时间的和空间的微分值的运动分类器可能会造成误识别。因此,当曝光值ev的波形变得等于或大于阈值时,或者当检测到曝光值ev的波形的一阶微分的零交叉点时,判断存在这样的照明变化,并将其作为判断值输出。虽然在本示例性实施例中输出指示存在或不存在照明变化的两个值中的一个的结果作为判断值,但是可以获得并输出照明变化的概率作为判断值。

尽管在上面的描述中使用在短时间段内曝光值ev的突然变化来获得照明变化的判断值,但是也可以通过使用白平衡中的时间变化的类似处理来获得判断值。此外,可以使用关于曝光值ev和白平衡两者中的突然变化的信息来进行对异常运动(特定运动)的附加学习。在这种情况下,可以通过计算曝光值ev和白平衡的二维矢量的第一偏微分和第二偏微分来判断照明条件的突然改变。在任何情况下,在本示例性实施例中,进行曝光值ev的时间变化分析(步骤s104)和白平衡校正增益的时间变化分析(步骤s105)中的至少一个,并输出是否存在照明变化的判断结果。

此外,在本示例性实施例中,判断曝光值ev的变化量是否大于或等于阈值th_var,作为对曝光值ev的阈值处理,以确定曝光变化是否处于正常范围内,并将确定结果作为参数分析值之一输出(步骤s106)。

图9是示出本示例性实施例中的存储在学习规则存储单元31中的在进行人物运动识别用分类器的附加学习时应用的更新规则的表格。如图9所示,在人物运动识别中有四种识别结果的情况。首先,异常运动正确检测情况(tp:真的肯定)是从输入视频图像(图像)中检测到异常运动并且检测正确的情况,以及,异常运动误检测情况(fp:假的肯定)是误检到运动的情况。此外,异常运动正确未检测情况(tn:真的否定)是从视频图像中未检测到异常运动并且该判断正确的情况,以及异常运动误未检测情况(漏检)(fn:假的否定)是从视频图像中未检测到异常运动并且该判断错误的情况。

如图9所示,异常运动误检测情况的原因是环境光变化或者响应于环境光变化而伴随大的照度变化产生的镜面反射等。在这种情况下,摄像场景中不存在人物,因此af评估值的波形在时间上不变(基本上波形从背景状态不变,而是通过镜面反射增加边缘强度,并且这可以增加峰值)。另外,应该检测不到除背景以外的af评估值的波形的峰。因此,如果根据被摄体存在判断值判断为不存在人物时检测到异常运动,则向存储在学习数据库存储单元32中的学习数据库添加异常运动误检测情况,并且,分类器被重新学习以减少误检测。

另一方面,异常运动误未检测情况的原因的示例包括如此暗的照明,以至于没有获得足够的表示运动信息的时空照度梯度信息。在这种情况下,如在第一示例性实施例中那样,增加异常运动分类器的灵敏度,并且在检测到异常运动之后,正确检测情况被添加到存储在学习数据库存储单元32中的数据库,并且,分类器被重新学习以减少未检测到异常运动。

图10是示出根据本示例性实施例的由自主学习单元30进行的人物运动识别分类器的自主学习的处理的流程图。虽然在本示例性实施例中描述了针对输入视频图像的各个帧进行分类器的自主学习的构造,但是本公开不限于该构造,并且可以针对每若干帧进行自主学习。

首先,在步骤s301中,自主学习单元30接收视频图像识别单元40对前一帧进行的人物运动识别的结果。如果检测到异常运动(步骤s301中为“是”),则处理进行到步骤s302。在步骤s302中,参照基于af评估值的波形的时间分析(步骤s102)和峰检测(步骤s103)的人物存在判断的结果。在步骤s302中,如果存在人物(在步骤s302中为“是”),则处理进行到步骤s303。在步骤s303中,参照参数分析值(步骤s106)当中的曝光值ev的时间变化分析的判断结果,并且,确定曝光的时间变化是否在正常范围内。

如果时间变化在正常范围内(步骤s303中为“是”),则在步骤s304中,进行异常运动检测器的附加学习。另一方面,如果时间变化不在正常范围内(步骤s303中为“否”),则判断为在正常范围内的曝光变化的情况下检测到异常运动,并且不进行异常运动检测器的附加学习。然后,在步骤s309中,如下所述,重置异常运动检测器的检测灵敏度。与第一示例性实施例中一样,当照明条件改善时,检测器的检测灵敏度被重置以防止过度检测。

在本示例性实施例中,作为附加学习方法的示例,描述了将正确情况添加到学习数据库存储单元32以重新学习学习器的方法。可选地,将当前帧中的分类器确定为初始分类器,以生成具有与初始分类器不同的属性的多个分类器,并且使用分类器进行人物检测的结果来进行分类器更新,以进行如a.gaidon,g.zen和jarodriguez-serrano的2014年6月18日的“自学习照相机:物体探测器对未标记视频流的自适应”(arxiv:1406.4296v2[cs.cv])所讨论的自主再学习。上述处理对应于用于人物正确检测(tp)情况的处理。

接下来,将在下面描述用于异常运动误检测情况(fp)的处理。首先,在步骤s301中,判断为在前一帧中检测到异常运动(步骤s301中为“是”),并且处理进行到步骤s302。在步骤s302中,基于af评估值的波形的时间分析(步骤s102)和峰检测(步骤s103),在人物存在判断中判断不存在人物(步骤s302中为“否”),并且,判断异常运动检测的结果很可能是误检测。在异常运动误检测情况(fp)中,在步骤s305中将误检测情况添加到学习数据库存储单元32,并且进行异常运动检测器的附加学习以减少误检测。

接下来,将在下面描述用于异常运动正确未检测情况(tn)的处理。在步骤s301中,在前一帧中未检测到异常运动(步骤s301中为“否”),并且处理进行到步骤s306。在步骤s306中,如步骤s302中那样,判断人物是否存在。在异常运动正确未检测情况(tn)情况下,在步骤s306中判断人物不存在。然后,不进行重新学习,并且处理进行到下一帧而不进行重新学习。

最后,下面将描述用于异常运动漏检(fn)情况的处理。在步骤s301中,在前一帧中未检测到异常运动(步骤s301中为“否”),而在步骤s306中,基于人物存在判断的分析结果,判断人物存在(步骤s306中为“是”)。然后,处理进行到步骤s307,并且在参数分析值(步骤s106)当中参照曝光值ev(曝光值ev显著小于阈值th_low)的阈值判断结果。在步骤s307中,如果判断出曝光值ev显著小于阈值th_low(步骤s307中为“是”),则未检测到异常运动的可能性高。在这种情况下,在步骤s308中,增加异常运动检测器的灵敏度,使得视频图像识别单元40能够检测到未检测到的异常运动。

另一方面,在步骤s307中,如果判断为曝光值ev不显著小于阈值th_low(步骤s307中为“否”),即,如果判断为曝光值ev在合适的范围内,则暂停异常运动漏检判断,并且不进行重新学习。然后,在步骤s309中,重置异常运动检测器的检测灵敏度。

如上所述,在本示例性实施例中,使用af评估值的波形的时间分析和峰分析的结果、曝光值ev的阈值判断结果、曝光值ev的变化量分析以及分类器的异常运动检测的结果来更新学习数据库和分类器。特别地,在本示例性实施例中,使用用于所拍摄的视频图像校正的视频图像信号调整参数(af评估值的波形、曝光值ev、白平衡)来进行异常运动检测分类器的附加学习。因此,视频图像识别以高精度进行,而不受摄像环境的照明变化的影响。

在上述示例性实施例中,使用人物或异常运动检测的结果和视频图像调整参数的分析结果来确定用于分类器的自主学习的规则。可选地,也可以代替确定这样的学习规则而使用如下方法:将人物特征(人物检测用特征或运动识别用特征)与视频图像调整参数联系在一起,以使用人物特征作为单一特征量来直接进行学习。

此外,在上述示例性实施例中,作为分类器的自主学习的示例,描述了人物检测和异常运动检测的两个示例。用于执行自主学习的规则对于各个识别环境和各个识别目标不同,并且,根据用户请求改变规则以提高自主学习的精确度。例如,在室内环境中当打开/关闭照明时发生曝光值ev的突然变化,而在室外环境中由于云朵所产生的阴影的移动而发生曝光值ev的突然变化。环境之间的差异反映在学习规则中,并且学习规则根据照相机所处的环境而改变,从而提高了自主学习的效率。

学习规则的设置可以在设置单元上被改变,尤其是在放置照相机时在视频图像显示系统上显示的用户接口上被改变。学习规则在用户接口上被改变,使得针对多个照相机的学习规则的设置可以经由网络统一设置,特别是在互联网协议(ip)网络照相机的情况下。

实施例的方面能够实现高度精确的视频图像识别,而不会受到进行摄像的环境中的照明变化的影响。

其它实施例

还可以通过读出并执行记录在存储介质(也可更完整地称为“非暂时性计算机可读存储介质”)上的计算机可执行指令(例如,一个或更多个程序)以执行上述实施例中的一个或更多个的功能、并且/或者包括用于执行上述实施例中的一个或更多个的功能的一个或更多个电路(例如,专用集成电路(asic))的系统或装置的计算机,来实现本发明的实施例,并且,可以利用通过由系统或装置的计算机例如读出并执行来自存储介质的计算机可执行指令以执行上述实施例中的一个或更多个的功能、并且/或者控制一个或更多个电路以执行上述实施例中的一个或更多个的功能的方法,来实现本发明的实施例。计算机可以包括一个或更多个处理器(例如,中央处理单元(cpu)、微处理单元(mpu)),并且可以包括分开的计算机或分开的处理器的网络,以读出并执行计算机可执行指令。计算机可执行指令可以例如从网络或存储介质被提供给计算机。存储介质可以包括例如硬盘、随机存取存储器(ram)、只读存储器(rom)、分布式计算系统的存储器、光盘(诸如压缩光盘(cd)、数字通用光盘(dvd)或蓝光光盘(bd)tm)、闪存装置以及存储卡等中的一个或更多个。

本发明的实施例还可以通过如下的方法来实现,即,通过网络或者各种存储介质将执行上述实施例的功能的软件(程序)提供给系统或装置,该系统或装置的计算机或是中央处理单元(cpu)、微处理单元(mpu)读出并执行程序的方法。

虽然已经参照示例性实施例描述了本公开,但是应当理解,本公开不限于所公开的示例性实施例。下述权利要求的范围应当被赋予最宽的解释,以便涵盖所有这类修改以及等同的结构和功能。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1