图像识别装置、移动体装置以及图像识别程序的制作方法

文档序号：16369157发布日期：2018-12-22 08:36阅读：142来源：国知局

本发明涉及图像识别装置、移动体装置以及图像识别程序，例如涉及识别包含于图像的追踪对象的图像识别装置、移动体装置以及图像识别程序。

背景技术

近年来，识别图像中出现的对象，并追踪其移动的图像识别装置的需要不断增长。

这种图像识别装置例如搭载在车辆或机器人上，用于避开行人或障碍物，或者搭载在监视相机上，用于追踪可疑者。

在图像中识别、追踪对象的技术提出了各种，特别优秀的有专利文献1的“物体识别装置、方法以及程序”中所使用的dpm(deformablepartmodel：可变形部件模型)。

该技术通过将用于识别追踪对象人物的全身的整体的区域、和用于识别追踪对象人物的特征的一部分(头部、腰部、…等)的多个部分的区域组合，从而例如即使在追踪对象人物发生姿势变化，较难进行整体的区域中的识别的情况下，也利用部分的区域中的识别来补偿这个，确定图像中的追踪对象人物。

然而，在追踪移动体(例如人物)的情况下，追踪对象混进人群中或照明环境变化等追踪对象的拍摄状态随时间各种变化。

另一方面，在图像中识别追踪对象的方法有使用了被称为hog特征量的对象的边缘检测的方法、使用了对象的颜色分布特征量的方法等各种方法，这些有擅长识别的场景(场面)和不擅长识别的场景，若单独使用这些方法，则存在不能够与追踪对象的拍摄状态的变化对应，追踪失败这样的问题。

专利文献1:日本特开2015－230559号公报。

技术实现要素：

本发明的目的在于进行稳健性高的图像识别。

(1)本发明为了实现上述目的，在技术方案1所记载的发明中，提供一种图像识别装置，其特征在于，具备：图像获取单元，获取图像；观测区域设定单元，基于在前一时刻的图像中用于上述追踪对象的检测的观测区域来设定在上述获取到的图像中观测追踪对象的观测区域；图像特征量获取单元，从上述设定的观测区域获取多个种类的图像特征量；特征相关系数获取单元，按照上述获取到的每个图像特征量获取与基准特征量的特征相关系数；比例设定单元，基于在前一时刻的图像中用于上述追踪对象的检测的比例来设定组合上述获取到的每个图像特征量的特征相关系数的比例；区域相关系数获取单元，按照上述设定的比例组合上述特征相关系数，获取针对上述观测区域的区域相关系数；似然度获取单元，使上述观测区域设定单元设定的观测区域和上述比例设定单元设定的比例变化，并使用上述区域相关系数获取单元获取的区域相关系数来反复获取在上述观测区域观测的对象的似然度；以及检测单元，在成为由上述似然度获取单元获得的多个似然度中满足规定的条件的似然度的获取源的观测区域中检测上述追踪对象。

(2)在技术方案2所记载的发明中，提供技术方案1所述的图像识别装置，其特征在于，上述观测区域设定单元设定观测上述追踪对象的整体的整体观测区域和观测上述追踪对象的一部分的多个部分观测区域的组，作为上述观测区域，上述图像特征量获取单元按照上述整体观测区域以及上述部分观测区域的每一个获取上述多个种类的图像特征量，上述特征相关系数获取单元按照上述整体观测区域以及上述部分观测区域的每一个获取每个上述图像特征量的特征相关系数，上述比例设定单元按照上述整体观测区域以及上述部分观测区域的每一个设定上述比例，上述区域相关系数获取单元按照上述整体观测区域以及上述部分观测区域的每一个获取上述区域相关系数，上述似然度获取单元使用上述整体观测区域以及上述部分观测区域的每一个的区域相关系数来获取上述似然度。

(3)在技术方案3所述的发明中，提供技术方案2所述的图像识别装置，其特征在于，具备权重设定单元，该权重设定单元基于在前一时刻的图像中用于上述追踪对象的检测的权重对上述整体观测区域以及上述部分观测区域的每一个的区域相关系数设定权重，上述似然度获取单元也使上述权重变化并反复获取上述似然度。

(4)在技术方案4所述的发明中，提供技术方案3所述的图像识别装置，其特征在于，上述似然度获取单元在上述区域相关系数低于规定的阈值的情况下除去该区域相关系数来获取上述似然度。

(5)在技术方案5所述的发明中，提供技术方案3或者技术方案4所述的图像识别装置，其特征在于，具备似然度校正单元，上述权重的总和越小的上述整体观测区域和上述部分观测区域的组，则该似然度校正单元将上述似然度校正得越小。

(6)在技术方案6所述的发明中，提供技术方案3、技术方案4或者技术方案5所述的图像识别装置，其特征在于，具备偏向校正单元，该偏向校正单元以上述比例设定单元设定的比例越偏向于一方则上述似然度越小的方式进行校正。

(7)在技术方案7所述的发明中，提供技术方案3～技术方案6中的任意一项技术方案所述的图像识别装置，其特征在于，上述比例设定单元和上述权重设定单元在上述追踪对象的检测失败的情况下，分别将上述比例和上述权重设定为与前一时刻的图像无关系的任意的值。

(8)在技术方案8所述的发明中，提供技术方案1～技术方案7中的任意一项技术方案所述的图像识别装置，其特征在于，上述多个种类的图像特征量是上述获取到的图像的亮度梯度分布特征量、和颜色分布特征量。

(9)在技术方案9所述的发明中，提供技术方案1～技术方案8中的任意一项技术方案所述的图像识别装置，其特征在于，上述似然度满足的规定的条件是似然度的最大值。

(10)在技术方案10所述的发明中，提供技术方案1～技术方案9中的任意一项技术方案所述的图像识别装置，其特征在于，上述区域相关系数获取单元通过基于上述设定的比例的线性和来组合上述获取到的特征相关系数。

(11)在技术方案11所述的发明中，提供移动体装置，其特征在于，具备：检测单元，使用技术方案1～技术方案9中的任意一项技术方案所述的图像识别装置来检测对象；以及移动单元，针对上述检测出的对象，移动至规定的位置。

(12)在技术方案12所述的发明中，提供图像识别程序，其特征在于，通过计算机实现如下的功能：图像获取功能，获取图像；观测区域设定功能，基于在前一时刻的图像中用于上述追踪对象的检测的观测区域来设定在上述获取到的图像中观测追踪对象的观测区域；图像特征量获取功能，从上述设定的观测区域获取多个种类的图像特征量；特征相关系数获取功能，按照上述获取到的每个图像特征量获取与基准特征量的特征相关系数；比例设定功能，基于在前一时刻的图像中用于上述追踪对象的检测的比例来设定组合上述获取到的每个图像特征量的特征相关系数的比例；区域相关系数获取功能，按照上述设定的比例组合上述特征相关系数，并获取针对上述观测区域的区域相关系数；似然度获取功能，使上述观测区域设定功能设定的观测区域和上述比例设定功能设定的比例变化，并使用上述区域相关系数获取功能获取的区域相关系数，反复获取在上述观测区域中观测的对象的似然度；以及检测功能，在成为通过上述似然度获取功能获得的多个似然度中满足规定的条件的似然度的获取源的观测区域中检测上述追踪对象。

根据本发明，通过组合多个种类的图像特征量，能够进行稳健性高的图像识别。

附图说明

图1是用于对图像识别装置的使用方式、观测区域进行说明的图。

图2是用于说明hog特征量的概念的图。

图3是用于说明颜色分布特征量的概念的图。

图4是用于说明实验结果的图。

图5是用于对权重参数wi进行说明的图。

图6是用于说明追踪的失败和其恢复的图。

图7是用于说明图像识别装置的硬件结构的图。

图8是用于说明图像识别处理的顺序的流程图。

图9是用于说明似然度计算处理的图。

图10是表示各实施方式中所使用的算式的说明图。

具体实施方式

(1)实施方式的概要

如图1(b)所示，图像识别装置2在图像4中推测为出现对象者3的位置设定包围对象者3的全身的整体观测区域5、和包围对象者3的特征的部分的部分观测区域6a～6g。

图像识别装置2切取整体观测区域5和部分观测区域6a～6g的图像，并将hog特征量和颜色分布特征量这两个图像特征量组合来计算这些图像与预先学习过的图像的类似度。这两个图像特征量擅长/不擅长的场景不同，但通过将它们组合能够互补地使两者发挥作用。

另外，图像识别装置2针对整体观测区域5和部分观测区域6a～6g分别独立地计算组合hog特征量和颜色分布特征量的最佳的比例(比率)。

该比例的决定通过将设定将hog特征量和颜色分布特征量组合的权重的权重参数αi包含于状态向量并作为粒子滤波器(粒子滤波器)的穷举搜索的对象来进行。

这样，图像识别装置2通过以适合场景的权重来组合两个图像特征量，例如，能够进行针对明暗的变化、对象者3的周围的行人密度的变化等拍摄环境的变化具有稳健性的图像识别以及追踪。

(2)实施方式的详细

(第一实施方式)

图1(a)是用于说明本实施方式的图像识别装置2的使用方式的图。

相机1例如是由数码摄像机等构成的可携带的动态图像拍摄相机。用户把持相机1，针对作为追踪对象的对象者3的后面，一边移动一边利用相机1对对象者3进行动态图像拍摄。

如后述那样，由于图像识别装置2例如针对对象者3与人群的交错、明暗的变化等状态变化是稳健的，所以自身也移动来接受这些的变化，而能够追踪对象者3。

因此，图像识别装置2适合搭载在车辆、机器人等移动体上。

图像识别装置2内置在相机1的内部，通过在拍摄到的影像的各帧的图像中连续地检测对象者3，从而在图像上追踪对象者3。

此外，可以将图像识别装置2设置在相机1的外部，并从相机1向图像识别装置2转送动态图像。

以下，作为一个例子，将追踪对象设为人物，但这并不是限定追踪对象，能够将任意的移动体设为追踪对象。

图1(b)是用于说明在图像4中识别对象者3的方法的图。

图像4表示构成由相机1拍摄并输出到图像识别装置2的动态图像的某一帧的图像。

这样，图像识别装置2具备获取图像4的图像获取单元。

图像识别装置2基于在前时刻的图像4(前一时刻的图像，此处，前一个帧的图像)所检测出的对象者3，在当前时刻的图像4中推测为出现对象者3的区域中设定包围对象者3的全身的矩形的整体观测区域5、和包围对象者3的特征的部分的矩形的部分观测区域6a～6g。

在图的例子中，在对象者3的头部、左侧上肢部，腰部、左侧下肢部、下肢部的下侧、右侧下肢部、右侧上肢部设定有部分观测区域6a～6g。

以下，在不特别区别部分观测区域6a～6g的情况下，仅记载为部分观测区域6，在不特别区别整体观测区域5和部分观测区域6的情况下，仅称为观测区域。

图像识别装置2基于在前时刻的图像4中检测出对象者3的整体观测区域5和部分观测区域6，在其附近使用粒子滤波器手法产生多个位置或大小不同的整体观测区域5和部分观测区域6，然而图中示出的是其中的一个组合。

整体观测区域5被称为路由滤波器，部分观测区域6被称为部分滤波器。

这样，图像识别装置2具备观测区域设定单元，该观测区域设定单元基于在前一时刻的图像中用于追踪对象的检测的观测区域在获取到的图像4中设定观测追踪对象的观测区域。

而且，该观测区域设定单元设定观测追踪对象的整体的整体观测区域5和观测追踪对象的一部分的多个部分观测区域6的组，作为观测区域。

图像识别装置2从图像4切取(提取)被这些区域围起的部分，并通过后述的图像特征量空间中的内积来计算表示切取出的各个图像与预先学习过的图像类似何种程度的类似度的相关系数(特征相关系数)。

而且，图像识别装置2通过规定的运算将针对整体观测区域5和部分观测区域6计算出的相关系数合成(统合)来计算基于整体观测区域5、部分观测区域6的组的相关系数(区域相关系数)，并使用基于整体观测区域5、部分观测区域6的组的相关系数来计算似然度。

似然度是表示通过整体观测区域5和部分观测区域6的组观测的对象何种程度是对象者3这样的程度的量。

图像识别装置2使用粒子滤波器手法，产生多个大小、位置等参数稍微不同的整体观测区域5和部分观测区域6a～6g，并针对各种各样的组合计算似然度。由此获得似然度分布。

图像识别装置2将通过成为最大似然度的整体观测区域5和部分观测区域6a～6g的组观测到的对象设为对象者3，从而从图像4检测出对象者3。

此外，也可以对似然度设置阈值，并在似然度超过该阈值的情况下，将通过此时的整体观测区域5和部分观测区域6a～6g的组观测到的对象设为对象者3等，使用其它基准。

接下来，对粒子滤波器手法的概要进行说明。

在前时刻的图像4中决定好了整体观测区域5和部分观测区域6a～6g，并将此设为初始状态。

作为一个例子，利用状态向量x＝(整体观测区域5的位置，整体观测区域5的大小，各部分观测区域6的位置，…)表示该状态。

由于认为当前时刻的图像4中的整体观测区域5、部分观测区域6与前时刻的差别不大，所以针对状态向量x的各状态变量(状态向量的成分)，使得在前时刻的值的附近产生白噪声(使得产生将前时刻的值为平均值的标准白噪声)，并将该白噪声与前时刻的值叠加，从而推测为当前时刻的值。叠加了白噪声的各值相当于粒子。

这样，图像识别装置2根据前时刻的值来决定对象者3的状态的迁移，假设为不依赖于在此以前的履历的马尔可夫过程，且利用上述的状态迁移模型，使前时刻的状态向量迁移来推断当前时刻的状态向量。

图像识别装置2通过白噪声使无数粒子产生，生成无数与前时刻的观测区域稍微不同的整体观测区域5和部分观测区域6。

由此，图像识别装置2随机搜索(探查)其中似然度为最大的整体观测区域5和部分观测区域6的组合，并通过搜索出的整体观测区域5和部分观测区域6的组来检测对象者3。这成为使用了马可夫性质的序贯贝叶斯推断问题。

接下来，图像识别装置2将搜索出的整体观测区域5和部分观测区域6作为初始状态而使粒子产生，在下一个图像4中进行同样的处理。通过依次反复该处理，图像识别装置2在动态图像的连续的各图像4中识别、追踪对象者3。

这样，在图像识别装置2使用的粒子滤波器手法中，一边反复状态迁移(产生许多观测区域)→观测(搜索最大似然度的组合)→复制(将搜索出的组合设为初始值)的循环一边追踪对象。

基本上，从图像4的整体循环地搜索与学习图像类似的图像，然而大致估计出现对象者3的场所，在其近边进行搜索，能够使图像识别处理更高效。

接下来，对于图像识别装置2使用于图像识别的图像特征量进行说明。

图像识别装置2使用hog(histogramoforientedgradients：方向梯度直方)特征量和颜色分布特征量的组合。

这是因为hog特征量针对明暗的变化是稳健的，但较难进行与周围的人物的区别，而颜色分布特征量针对明暗的变化较弱，但容易进行与周围的人物的区别等，擅长的场景不同，所以通过将它们组合，能够期待互补的效果。

这样，图像识别装置2使用由图像的亮度梯度分布特征量和颜色分布特征量构成的多个种类的图像特征量。

图2是用于说明hog特征量的概念的图。

hog特征量是使用了亮度梯度分布的图像特征量，是检测对象的边缘的技术。例如，换言之，通过基于边缘的轮廓来识别对象。

按照如下的顺序从图像提取hog特征量。

将图2(a)左图所示的图像101设为整体观测区域5、部分观测区域6等关注图像区域。

首先，将图像101分割为矩形的单元102a、102b、…。

接下来，如图2(a)右图所示，按照每个单元102例如在8个方向上将各像素(pixel)的亮度梯度方向(从低亮度朝向高亮度的方向)量子化。

接下来，如图2(b)所示，通过将量子化的亮度梯度的方向分级，并生成将出现次数设为度数的直方图，从而按照每个单元102创建单元102所包含的亮度梯度的直方图106。

然后，按照集中了几个单元102的块单位以直方图106的合计度数为1的方式进行归一化。

在图2(a)左图的例子中，由单元102a、102b、102c、102d形成1块。

将这样归一化的直方图106a、106b、…如图2(c)那样排成一列的直方图107是图像101的hog特征量。

使用了hog特征量的图像的相似与否程度的判断如下那样进行。

首先，考虑将hog特征量的度数(设为有m个)设为成分的向量此处，x是表示图像101的向量，x＝(第一个像素的亮度，第二个像素的亮度，…)。

此外，向量用粗体字等表示，然而为了防止乱码，以下，用通常的字符表示。

图2(d)表示hog特征量空间，图像101的hog特征量被映射至m维空间的向量

此外，在图中，为了简单化，用二维空间表现hog特征量空间。

另一方面，f是通过人物图像的学习而获得的权重向量，是对多个人物图像的hog特征量进行平均化所得的向量。

在图像101与学习过的图像类似的情况下，如向量109那样分布在f的周边，在不类似的情况下，如向量110、111那样分布在与f不同的方向上。

将f和标准化，对于用f和的内积定义的相关系数而言，图像101与学习图像越类似则越接近1，类似程度越低则越接近－1。

这样，通过将成为类似判断的对象的图像映射至hog特征量空间，能够通过亮度梯度分布分离出与学习图像类似的图像和与学习图像不类似的图像。

使用了亮度梯度分布的特征量提取技术，除了hog之外，还有改进了hog的cohog(co－occurrencehog：hog：共生梯度方向直方图)、将此更加强化的mrcohog(multiresolutioncohog：多分辨率共生梯度方向直方图)等，可以使用任意一个。

图3是用于说明颜色分布特征量的概念的图。

图3(a)所示的关注区域的图像101由具有各种各样的颜色成分(颜色1、颜色2、…)的像素构成。

若根据这些颜色成分的出现频率来创建直方图121，则获得将其度数作为成分的向量q。

另一方面，如图3(b)所示，针对追踪对象模型，也创建同样的直方图122，创建以其度数作为成分的向量p。

若这些颜色成分有n个，则如图3(c)所示，将图像101和追踪对象模型的颜色分布被映射至n维的颜色分布特征量空间向量p、q。

在图像101的图像与追踪对象模型类似的情况下，q如向量123那样分布在p的周边，在不类似的情况下，如向量124、125那样分布在与p不同的方向上。

对q和p进行标准化，对于由q和p的内积定义的相关系数而言，图像101与追踪对象模型越类似则越接近1，类似程度越低则越接近－1。

这样，通过将成为类似判断的对象的图像映射至颜色分布特征量空间，能够通过颜色分布特征量分离出与追踪对象模型类似的图像和与追踪对象模型不类似的图像。

接下来，对使用这些要素技术的似然度计算方法进行说明。

图10表示实施方式中所使用的各计算式。

图像识别装置2针对每个观测区域进行使用了hog特征量的观测和使用了颜色分布特征量的观测，动态地组合hog特征量的相关系数和颜色分布特征量的相关系数来计算似然度。具体而言，利用图10的式(1)定义似然度l(x)的计算式。

式(1)的右边第一项目在i＝0～n取r(xi)的总和。

此外，n为部分观测区域6的个数，i＝0、1、2、…对应于整体观测区域5、部分观测区域6a、6b、…。

另外，为了防止乱码，用全角文字记载下标小写字母。

r(xi)如图10的式(2)所示，成为第i个观测区域中的hog特征量的相关系数(项2a)和颜色分布特征量的相关系数(项2b)的线性和。

αi是该线性和中的权重参数，能够取0～1的值，但在图像识别装置2中，设为0.25～0.75的值，必须设定为两者有助于r(xi)。

此处，由于项(2a)、(2b)的和qi是第i个观测区域的hog特征量和颜色分布特征量，所以图像识别装置2具备从设定的观测区域获取多个种类的图像特征量的图像特征量获取单元，该图像特征量获取单元按照整体观测区域5以及部分观测区域6的每一个获取多个种类的图像特征量。

另外，项(2a)、(2b)的fi、pi作为基准特征量发挥作用。而且，项(2a)、(2b)分别表示第i个观测区域中的hog特征量和颜色分布特征量的相关系数(类似度)，并作为特征相关系数发挥作用。

因此，图像识别装置2具备特征相关系数获取单元，该特征相关系数获取单元按照获取到的每个图像特征量获取与基准特征量的特征相关系数，该特征相关系数获取单元按照整体观测区域5以及部分观测区域6的每一个获取每个图像特征量的特征相关系数。

根据图10的式(2)，αi越大则hog特征量对r(xi)的贡献越大，αi越小则颜色分布特征量的贡献越大。

因此，通过适当地选择αi，能够获得适合场景的值，稳健性提高。

αi的值基本上在0.25～0.75穷举搜索，然而很难想到hog特征量和颜色分布特征量在邻接的帧中极度急剧变化，所以通过重点搜索前时刻中的值附近而实现效率化。

更具体而言，如后述那样，图像识别装置2将αi也包含于状态向量中，利用粒子滤波器手法动态地进行推断。

此处，αi作为将获取到的每个图像特征量的特征相关系数组合的比例发挥作用，图像识别装置2为了在前时刻基于值来设定该αi，具备比例设定单元，该比例设定单元基于在前一时刻的图像4中用于追踪对象的检测的比例来设定该αi。而且，该比例设定单元按照整体观测区域5以及部分观测区域6的每一个来设定该比例。

另外，r(xi)作为通过按照由比例设定单元所设定的比例来组合特征相关系数从而针对第i个观测区域设定的区域相关系数发挥作用，所以图像识别装置2具备区域相关系数获取单元，该区域相关系数获取单元获取该区域相关系数。

而且，作为一个例子，该区域相关系数获取单元根据基于所设定的比例的线性和来组合特征相关系数。

而且，该区域相关系数获取单元通过计算第i个r(xi)，从而按照整体观测区域5、以及部分观测区域6的每一个获取区域相关系数。

图10的式(1)的第二项目被称为罚因子，针对j＝1～n，即，对全部部分观测区域6加上项(1b)。这样，罚因子不包括整体观测区域5。

罚因子例如是行走的对象者3的头部突然出现在腹部的周围等，部分观测区域6相对于整体观测区域5采取不自然的形态的情况下，用于除去那样的整体观测区域5和部分观测区域6的组合的量。罚因子越大，越不自然而成为应排除的对象。

在本实施方式中，使用了以往技术中所利用的罚因子。

图10的式(1)所示的项(1b)中的向量dj被称为变形成本，用式(3)表示。该量是学习部分观测区域6的不自然的形态的量。

项(1b)的向量表示部分观测区域6的迁移状态，用式(4)表示。该向量的成分(dx，dy)与部分观测区域6的位置对应，(dx的平方，dy的平方)与部分观测区域6的移动距离对应。即，是将部分观测区域6的位置和移动距离加在一起的量。

通过取该和dj的内积来计算不自然度，部分观测区域6的位置或移动距离越不自然，则从似然度l(x)减去越大的罚因子。

接下来，对在本实施方式中所使用的状态向量进行说明。

图像识别装置2使产生多个整体观测区域5和部分观测区域6的组，搜索似然度最大化的组，然而第s个组的状态向量xs例如由xs＝((x，y)、大小、(dxj，dyj)、αi)表示。

设为j＝1、2、…、n，i＝0、1、…、n，n为部分观测区域6的个数。

(x，y)为整体观测区域5的中心坐标，大小为整体观测区域5的大小，(dxj，dyj)为部分观测区域6的配置，αi为式(2)中所使用的权重参数。

在图像识别装置2中，针对前时刻的这些值，例如逐个生成叠加了标准白噪声(高斯噪声、正态分布随机数)的粒子，从而在前时刻的值近边来逐个创建观测区域的多个组，并使状态迁移。

此外，标准白噪声是按照正态分布(高斯分布)而产生的白色噪声(白噪声)。

例如，若将第i个区域的时刻t中的α表示为α(i，t)，则表示为α(i，t)＝n(α(i，(t－1))，σα的平方)。即，迁移后的α的分布成为将前时刻的α平均，且方差为σα的平方的正态分布。

这样，图像识别装置2使用对于各状态变量将前时刻的值平均，并利用每个状态变量的方差使迁移的状态迁移模型。

而且，图像识别装置2在状态向量中包含权重参数αi，并利用粒子滤波器手法也动态地对其进行推断。

即，在粒子滤波器手法的序贯推断的算法中包含αi，αi也利用序贯贝叶斯推断而推断出有效的值。

而且，图像识别装置2通过确定似然度l(x)为最大的整体观测区域5和部分观测区域6的组，即，通过确定似然度l(x)为最大的状态向量来检测对象者3。

这样，图像识别装置2具备似然度获取单元，该似然度获取单元使观测区域设定单元设定的观测区域、和比例设定单元设定的比例变化，并使用区域相关系数获取单元获取的区域相关系数来反复获取在观测区域中观测的对象的似然度。

而且，该似然度获取单元使用整体观测区域5以及部分观测区域6的每一个的区域相关系数来获取似然度l(x)。

而且，图像识别装置2为了通过带来最大似然度的整体观测区域5和部分观测区域6的组来检测对象者3，具备检测单元，该检测单元在成为由该似然度获取单元获得的多个似然度中满足规定的条件的似然度的获取源的观测区域中检测追踪对象，该规定的条件为似然度的最大值。

作为一个例子作为，图像识别装置2对粒子数设置上限，针对全部粒子，求出似然度l(x)来搜索最大值，从而搜索对象者3，但也能够使用其它条件。

例如，也可以对似然度l(x)设定规定的阈值，在满足该规定的阈值的时刻结束搜索，或在获取似然度l(x)的分布的过程中，如果出现极大点，则采用带来极大的似然度l(x)，并结束搜索。

图4(a)表示记录追踪对象者3实验中的α的并用状况的图表。

纵轴表示整体观测区域5的权重参数α0。该权重参数α0规定基于颜色分布特征量和hog特征量的识别的比例，两者的识别比例的合计为1。例如，在权重参数α0为0.4的情况下，基于颜色分布特征量的识别的比例为0.4，基于hog特征量的识别的比例为0.6。

因此，权重参数α0的值能够设为0～1的范围，但在本实施方式中，为0.2～0.75的范围。

此外，权重参数αi的可取的范围也可以根据追踪对象的种类、大小特征的形状等而变更。

横轴表示拍摄到追踪对象的动态图像的帧编号，示出时间的推移。

在实验中，在大型建筑物的区域内使对象者3行走，一边在其后面追一边利用相机1拍摄对象者3。

对象者3穿着从周围醒目的红色的衣服，从图4(b)所示的照明较亮的地点31朝向图4(c)所示的阴影较多的发暗地点32行进。

在地点31中，由于环境明亮，能够较好地观察颜色，所以认为基于颜色分布特征量的识别占优。

而在地点32中，由于环境较暗，难以进行基于颜色的识别，所以认为对明暗的变化擅长的hog特征量占优。

实验结果如图表所示，在地点31中，α0为0.4左右，基于颜色分布特征量的识别占优，但随着对象者3朝向暗处进入，α0的值逐渐上升，基于hog特征量的识别的比例增加，在地点32中，α0为0.7左右。

通过该实验，确认出与环境对应的hog特征量和颜色分布特征量的与场景对应的作用分担如所期望那样发挥作用。

部分观测区域6a、6b、…中的参数α1、α2、…也是同样的。

根据以上说明的第一实施方式，能够获得如下那样的效果。

(1)通过组合hog特征量和颜色分布特征量，并根据状况使它们的权重变化，能够进行针对状况变化稳健(鲁棒性)的图像识别。

(2)通过在状态向量中包含权重参数αi，能够使用粒子滤波器手法，动态地推断出最佳的值。

(3)由于针对状况的变化具有稳健性，所以能够将图像识别装置2搭载在机器人、车辆等移动体，一边移动一边追踪移动体周边的追踪对象，或避开接近移动体的对象。

(第二实施方式)

在本实施方式中，提高对对象者3的部分隐藏的稳健性。

在对象者3的追踪中，有其他行人、障碍物等遮挡物侵入到观测区域，由此，似然度降低，追踪失败的情况。

因此，在第二实施方式中，如图10的式(5)所示，利用权重参数wi对各观测区域的相关系数r(xi)进行加权，将产生隐藏的观测区域的贡献度调节得较低。

图10的式(5)的wi是针对第i个观测区域的权重参数，取0～1的值。

具体而言，w0为整体观测区域5的权重参数。另外，w1、w2、…为部分观测区域6a、6b、…的权重参数。

权重参数wi的值基本上通过穷举搜索决定，但在对象者3的一部分隐藏的情况下，以时间序列逐渐隐藏。

由此，由于认为权重参数wi的值与前时刻的值没有太大区别，所以以其附近为中心进行搜索。

由此，在状态向量xs中包含权重参数wi，设为xs＝((x，y)，大小，(dxj，dyj)，αi，wi)，利用粒子滤波器手法进行搜索。

这样，图像识别装置2具备权重设定单元，该权重设定单元基于在前一时刻的图像中用于追踪对象的检测的权重对整体观测区域5以及部分观测区域6的区域的每一个的相关系数r(xi)设定权重，似然度获取单元也使该权重变化，并且反复获取似然度。

权重参数wi的推断方法基本如上述那样，为了实现性能的进一步的提高，图像识别装置2在r(xi)的值小于规定的阈值的情况下，判断为在该观测区域中产生隐藏，设为权重参数wi＝0。

这是为了抑制因为r(xi)取－1～1的值，然而产生隐藏的情况下，r(xi)成为接近－1的值，所以从似然度l(x)较大减去，而检测变得不稳定。

因此，图像识别装置2在r(xi)低于规定的阈值的情况下，进行将权重参数wi设为0的校正。阈值通过实验求出即可，但此处，作为一个例子，在r(xi)为负的情况下，设为权重参数wi＝0。

由此，能够从似然度计算切去产生隐藏的观测区域，通过识别对象者3的观测区域来识别对象者3。

这样，似然度获取单元在区域相关系数r(xi)低于规定的阈值的情况下，除去该区域相关系数来获取似然度。

图5(a)是示出未产生隐藏的情况下的权重参数wi的例子。

对象者3与行人200一起行走，但两者在相机1的视野中不重叠。

该情况下，由于在整体观测区域5和部分观测区域6中没有产生隐藏，所以w0～w6都为1.0。

图5(b)是示出产生隐藏的情况下的权重参数wi的例子。

对象者3的一部分与行人200重叠，产生隐藏。

由于部分观测区域6b、6c几乎没有隐藏，所以w2、w3＝1.0。

由于部分观测区域6a、6d的隐藏较轻微，所以w4＝0.8、w4＝0.9。

由于整体观测区域5和部分观测区域6e大体一半隐藏，所以w0＝0.7、w5＝0.6。

由于部分观测区域6f几乎隐藏，r(x6)为负，所以设为w6＝0.0，从似然度l(x)的计算分离出部分观测区域6f。

根据以上说明的第二实施方式，能够获得以下那样的效果。

(1)能够在观测区域的组合中，能够针对各观测区域，对有助于似然度计算的最佳的值设定权重。

(2)通过在状态向量中包含权重参数wi，能够使用粒子滤波器手法动态地推断最佳的值。

(3)包含隐藏那样的导致似然度的降低的观测区域的权重参数wi变小，能够进行减少了隐藏所引起的噪声的似然度计算。

(4)关于隐藏较大的观测区域，能够从似然度的计算切去该观测区域，通过观测对象者3的观测区域能够获得适当的似然度。

(5)由于即使对象者3中产生部分的隐藏也能够继续追踪，所以即使在人的往来或交通繁忙的场所也能够追踪对象者3。

(第三实施方式)

在本实施方式中，基于权重参数wi来评价似然度的可靠性，并使似然度反映该可靠性。

例如，假设在权重参数(w0、w1、w2、w3、w4、w5、w6)为(1.0、1.0、1.0、1.0、1.0、1.0、1.0)的情况下的似然度、和(0.4、1.0、0.3、0.2、0.1、0.0、0.0)的情况下的似然度相同。

该情况下，由于权重参数wi的值整体上较大的前者在整体上观察对象者3，所以认为可靠性较高。

即，在偏向一部分的局部区域的观测中，误追踪具有部分地类似的特征的物体的可能性变高，所以认为能够信赖反映出更多的观测结果的似然度。

因此，在本实施方式中，利用图10的式(6)的项(6a)定义通过权重参数wi的总和来评价可靠性(信赖度)的可靠性因子，并对似然度l(x)乘以该可靠性因子，从而在可靠性较低的情况下，将似然度校正得较小。

项(6a)将权重参数wi的和除以n+1而进行归一化，可靠性越低，取越接近0的值，可靠性越高，取越接近1的值。

进行γ的幂是所谓伽马校正，是调节总和给似然度计算带来的影响力的特性的参数。

例如，在γ为2的平方根(根号2)的情况下，0附近的上升变大，随着接近1而缓慢地变化，在γ为2的情况下，0附近的上升变小，随着接近1而急剧地变化。通过实验来决定最佳的γ。

根据图10的式(6)，可靠性越低(权重参数wi的总和越小)则似然度l(x)被校正得越小。

由此，能够从搜索对象除去可靠性极低的观测区域的组。

这样，图像识别装置2具备似然度校正单元，权重参数wi的总和越小的整体观测区域5和部分观测区域6的组，则该似然度校正单元将似然度校正得越小。

根据第三实施方式，能够获得如下那样的效果。

(1)通过基于根据权重参数wi的总和的权重的可靠性因子，能够使似然度计算反映似然度的可靠性。

(2)能够在获得似然度分布时，淘汰可靠性低的观测区域的组，留存可靠性高的观测区域的组。

(3)通过选择性地忽略观测的区域向一部分极度偏向的观测区域的组，优待整体上均衡地观测的组，能够使似然度计算反映尽可能多的整体观测区域5和部分观测区域6的观测结果。

(4)通过γ校正，能够调节灵敏度。

(第四实施方式)

在本实施方式中，针对偏向hog特征量和颜色分布特征量的任一的似然度计算给予负荷，增大均衡地使用两者的似然度。

虽然可以说在极度偏向hog特征量或颜色分布特征量的一方的似然度也是可靠性较低，然而为了修正这一点，在本实施方式中，对图10的式(6)乘以式(7)。

先前说明的项(6a)是评价由权重参数wi的极度的偏向所引起的可靠性的降低的可靠性因子，但式(7)是评价由αi的极度的偏向所引起的可靠性的降低的可靠性因子。

max是αi可取的最大值，此处，被设定为0.75。进行u幂、v幂是伽马校正，是调节αi的偏向给似然度计算带来的影响力的特性的参数。

图10的式(7)是由本申请发明人通过经验所获得的，各观测区域的αi越接近0.5则越接近1，越远离0.5则越小。

即，在hog特征量和颜色分布特征量的平衡相等时为1，平衡越被破坏则越接近0。

因此，hog特征量和颜色分布特征量的平衡越差则似然度被校正得越低。

图10的式(7)也能够乘以式(1)或式(5)。

这样，图像识别装置2具备偏向校正单元，该偏向校正单元以比例设定单元设定的比例αi越偏向一方则似然度越小的方式进行校正。

根据第四实施方式，能够获得如下那样的效果。

(1)越是有相同的程度均衡地使用hog特征量和颜色分布特征量的趋势的观测区域的组，则在组合的试行中越容易留存。

(2)能够减少过于偏向任一图像特征量而误识别的可能性。

(3)由于αi在前时刻的αi的附近进行搜索，若一旦产生αi的极度的偏向，则它影响后续的αi，然而能够抑制后续的αi被拖到不适当的αi。

(第五实施方式)

在本实施方式中，在追踪失败的情况下，通过切换状态迁移模型，从而发现追踪对象，再开始追踪。

图6(a)示出图像识别装置2识别对象者3，通过整体观测区域5和未图示的部分观测区域6追踪对象者3。

图6(b)示出在追踪中，对象者3绕到行人200的前面，而从相机1的视野消失。

若对象者3从相机1的图像消失，则各观测区域的相关系数逐个降低，追踪失败。

图像识别装置2根据各观测区域的相关系数r(xi)或权重参数wi的变化来检测追踪失败。

例如，图像识别装置2在似然度l(x)低于规定的阈值th1的情况下或者权重参数wi的合计低于规定的阈值th2的情况下，判断为追踪失败。

在前者的条件中，在存在相关系数r(xi)显著高的观测区域的情况下，由此可以追踪。

在后者的条件下，在大半的观测区域隐藏的情况下，由于噪声较多，所以中断追踪。

若这样判断追踪失败，则图像识别装置2如下那样切换状态迁移模型并扩展搜索范围，努力发现对象者3。

首先，对于观测区域的坐标和观测区域的大小等，比追踪时较大地设定标准白噪声的方差值。由此，容易观测在追踪失败的期间状态变化较大的对象者3。

此外，也可以将方差值设为时间的函数，看丢了对象者3的时间越长则越扩展搜索范围的方式随着时间而扩展。

对于权重参数αi和权重参数wi，在追踪时，分别用以前时刻的值为中心的高斯分布来推测出迁移后的值，但失败后，不清楚这些值会变为什么样的值，所以将它们设为随机数(随机)，进行不考虑前时刻的状态的迁移。

在对象者3的整体隐藏的状态消除时，由于不明白从哪个观测区域能够观测，所以在基于随机数的预测中考虑所有状态。

另外，在追踪时，反复状态迁移→观测→复制这个循环，但在失败时，反复状态迁移→观测这个循环。

如图6(c)所示，图像识别装置2若发现对象者3，则再次设定整体观测区域5和未图示的部分观测区域6并再开始追踪。

这样，比例设定单元和权重设定单元在追踪对象的检测失败的情况下，分别将比例和权重设定为与前一时刻的图像无关系的任意的值。

根据第五实施方式，能够获得如下那样的效果。

(1)即使在因对象者3的全身或大部分隐藏而追踪失败的情况下，在对象者3开始出现时，能够迅速地恢复。

(2)准备追踪时的状态迁移模型和追踪失败时的状态迁移模型，并能够根据追踪状况来切换要使用的状态迁移模型。

(3)在追踪失败时的状态迁移模型中，关于位置等，以失败时的位置为基准扩展搜索范围，关于权重参数αi、权重参数wi，能够随机地使其变化等，设定适合对象者3的发现的值。

(4)即便在追踪失败的情况下，由于准备了用于恢复的模式，所以在人或车辆的往来多的场所也能够使用。

图7是用于说明图像识别装置2的硬件构成的图。该结构对第一实施方式～第五实施方式共用。

图像识别装置2通过总线连接cpu(centralprocessingunit：中央处理器)21、rom(readonlymemory：只读存储器)22、ram(randomaccessmemory：随机存取存储器)23、拍摄装置24、存储装置25、输入装置26、输出装置27、接口28等而构成。

cpu21除了按照存储装置25中存储的图像识别程序进行图像识别处理之外，还进行图像识别装置2的各部的控制等。

更详细而言，cpu21针对从拍摄装置24输入的图像4设定观测区域，并识别追踪对象者3。

rom22是存储用于cpu21使图像识别装置2动作的基本的程序、参数等的读取专用的存储器。

ram23是提供用于cpu21进行上述处理的工作存储器的可读写的存储器。

从拍摄装置24输入的图像4被展开至ram23并被cpu21利用。

拍摄装置24使用对被拍摄体进行投影的光学系统、和将投影的投影像变换为电信号的拍摄面而构成，生成将图像4为帧的动态图像数据并输出。

另外，拍摄装置24也具备麦克风，利用麦克风检测声音，并生成包含声音的动态图像数据。

存储装置25例如是硬盘、半导体存储器等使用了存储介质的存储装置，存储用于使cpu21进行上述的图像识别处理的图像识别程序等。

另外，存储装置25也具备对拍摄到的动态图像数据进行存储的数据存储部。

输入装置26是对图像识别装置2输入各种信息的装置，由用于用户操作图像识别装置2的操作按钮等输入设备构成。

输出装置27是图像识别装置2输出各种信息的装置，例如，由操作画面、显示拍摄中、拍摄完毕的动态图像的液晶显示器等输出设备构成。

接口28是使图像识别装置2与外部设备连接的接口，例如，经由接口28使图像识别装置2与机器人、车辆或个人计算机连接，用于转送动态图像数据、追踪数据。

图8是用于说明第五实施方式的图像识别装置2进行图像识别处理的顺序的流程图。

以下的处理是由cpu21按照存储装置25中存储的图像识别程序进行的处理。

首先，图像识别装置2从拍摄装置24获取图像4，并存储至ram23(步骤5)。

接下来，图像识别装置2通过对构成状态向量的各状态变量(整体观测区域5的位置，整体观测区域5的大小，各部分观测区域6的位置，各αi，各权重参数wi等)的前时刻的值叠加标准白噪声等来使状态迁移(步骤10)。

接下来，图像识别装置2针对迁移的状态下决定的观测区域的组进行似然度计算处理(步骤15)。

接下来，图像识别装置2判断对象者3的搜索是否结束(步骤20)。

该判断例如根据是否对粒子的上限n个的情况已经搜索了全部来进行判断。

在搜索没有结束的情况下(步骤20：否)，图像识别装置2返回到步骤10，再使状态向量迁移，继续进行似然度计算。

另一方面，在搜索结束的情况下(步骤20：是)，图像识别装置2从带来搜索出的似然度中的最大似然度的观测区域的组检测对象者3(步骤25)。

接下来，图像识别装置2判断是否继续进行追踪(步骤30)。

该判断例如根据是否进行了用户按下追踪结束按钮等规定的追踪结束操作来进行判断。

在继续进行追踪的情况下(步骤30：是)，图像识别装置2返回到步骤5，对构成动态图像帧的下一个图像进行同样的处理来检测对象者3。

而在结束追踪的情况下(步骤30：否)，图像识别装置2结束处理。

如以上那样操作，图像识别装置2通过在连续的动态图像的帧图像中连续地检测对象者3，从而追踪对象者3。

图9是用于说明步骤15的似然度计算处理的图。

图像识别装置2将识别观测区域的参数i初始化为0(步骤105)。

此处，假设部分观测区域6为6个。因此，i＝0对应于整体观测区域5，i＝1～6对应于部分观测区域6a～6f。

接下来，图像识别装置2获取第i个观测区域的图像(步骤110)。例如，在i＝0的情况下，获取整体观测区域5的图像。

而且，图像识别装置2从第i个观测区域的图像获取hog特征量(步骤115)，并利用图10的式(2)的项(2a)计算hog特征量的相关系数(步骤120)。

接下来，图像识别装置2从第i个观测区域的图像获取颜色分布特征量qi(步骤125)，并利用式(2)的项(2b)计算颜色分布特征量的相关系数(步骤130)。

接下来，图像识别装置2按照基于权重参数αi的比例将两相关系数相加，计算式(2)的r(xi)(步骤135)。

接下来，图像识别装置2对r(xi)乘以权重参数wi来校正r(xi)的权重(步骤140)。

接下来，图像识别装置2使i自加1(步骤145)，并判断i是否大于6(步骤150)。

在i为6以下的情况下(步骤150：否)，由于还存在未处理的部分观测区域6，所以返回到步骤110，对下一个部分观测区域6进行处理。

另一方面，在i大于6的情况下(步骤150：是)，由于对整体观测区域5和全部部分观测区域6计算相关系数，所以利用图10的式(1)的项(1b)计算各部分观测区域6的罚因子，并从r(x)减去其合计(步骤155)。

接下来，图像识别装置2利用图10的式(6)的项(6a)，基于权重参数wi的可靠性来校正似然度l(x)(步骤160)。

而且，图像识别装置2利用图10的式(7)计算基于αi的偏向的校正项，并将其与步骤160中计算出的式(6)的值相乘来校正似然度l(x)(步骤165)。

接下来，图像识别装置2示出实施了各种校正的似然度l(x)(步骤170)。

(第六实施方式)

在本实施方式中，将具备图像识别装置2的相机1搭载在移动体上。

由于相机1能够针对环境变化稳健地追踪对象，所以能够搭载在移动体上，一边在各种环境中移动一种追踪对象。

例如，在移动体为车辆的情况下，将相机1设置于车辆前方，拍摄车辆的前景。

由此，车辆通过从相机1的影像追踪在前方行驶的其它车辆，从而追随该其它车辆，进行所谓列队行驶，或根据在前方移动的车辆、行人的追踪轨迹而判断出碰撞的危险的情况下使制动器工作，或改变行驶方向来进行避开动作等。这样，图像识别装置2能够应用于自动驾驶技术、其它技术。

另外，在移动体为机器人的情况下，作为机器人的眼睛来利用，例如，能够在家庭中提供服务(例如，拿着货物跟在主人的后面)，或一边追踪移动的对象一边利用机器人臂把持该对象；一边追踪家畜一边进行引导等，在民生领域、工业领域、农业领域等工业的各领域中使用。

这样，在本实施方式中，能够提供具备使用图像识别装置2来检测对象的检测单元、和针对检测出的对象移动到规定的位置的移动单元的移动体装置。

以上说明的实施方式只是一个例子，能够进行各种变形。

(1)作为一个例子，图像识别装置2使用两个图像特征要素(hog特征量和颜色分布特征量)的组合来进行图像识别，但并不限于此，可以使用其它图像特征要素，还可以使用三个以上的图像特征要素。

例如，在3种组合的情况下，按照αi、βi、1－αi－βi的比例将第一特征量、第二特征量、第三特征量相加。然而，0＜αi、βi＜1以及αi+βi＜1。为了最起码以某比例必须包括全部特征要素，还可以限制αi、βi的值。

能够使用hog特征要素、颜色分布特征要素之外的图像特征要素。

(2)作为一个例子，图像识别装置2通过基于hog特征量的相关系数和颜色分布特征量的比例αi的线性和计算相关系数r(xi)，但这并不是对r(xi)的计算方法进行限定，也可以根据hog特征量、颜色分布特征量、αi的组合，利用任意的计算方法来计算。

(3)图像识别装置2通过整体观测区域5和多个部分观测区域6的组合来检测对象者3，然而将作为本实施方式的特征的多个种类的图像特征数据组合来识别对象的技术也能够应用于利用单一的检测窗来识别对象的系统。

符号说明

1相机；2图像识别装置；3对象者；4图像；5整体观测区域；6部分观测区域；21cpu；22rom；23ram；24拍摄装置；25存储装置；26输入装置；27输出装置；28接口；31、32地点；101图像；102单元；106、107直方图；109、110、111，123、124、125向量；121、122直方图；200行人。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：山田英夫;久野和宏;榎田修一;桥本达哉
技术所有人：株式会社爱考斯研究;国立大学法人九州工业大学
我是此专利的发明人

上一篇：用于水力输送聚烯烃粒料的方法与流程
上一篇：混凝土布料轴及混凝土布料斗的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。