行动识别装置、行动识别方法以及记录介质与流程

文档序号:18872799发布日期:2019-10-14 19:56阅读:218来源:国知局
行动识别装置、行动识别方法以及记录介质与流程

本发明涉及行动识别装置、行动识别方法以及记录行动识别程序的计算机可读记录介质。



背景技术:

在办公室或工厂等工作现场,让操作人员的行动可视化,改善工作现场的生产效率是一项重要课题。对此,通过摄像机动画拍摄工作现场,分析获得的影像,来识别并分析操作人员特定的标准操作(以下称为标准操作)行动的手段十分有效。

但是,用肉眼分析摄像机拍摄的工作现场影像,提取按一定顺序进行标准操作的行动,测定各个动作的时间,并将它们可视化,需要庞大的解析时间和劳力。因此,现有技术为了自动识别人的行动,从拍摄的影像中识别人,从识别到的人的重心求出人的移动轨迹,根据移动轨迹识别特定的行动。

然而在工作现场,操作人员进行特定行动时的工作姿势多种多样,很难识别发生了姿势变化的人。而且,人的认知误差对人移动轨迹的检测结果有很大影响。其结果,根据人的动作轨迹来识别特定行动存在相当大的误差。所以,对特定行动的开始时间和所需时间进行准确测量是不可能的。为此,现有技术存在如下问题,即关于操作人员进行的标准操作,如操作人员搬运或操纵物品时,仅靠操作人员的动作无法识别标准操作的行为。



技术实现要素:

鉴于上述问题,本发明旨在提供一种能够对应工作现场操作人员的各种姿势变化,自动测量标准操作所需时间的行动识别装置、行动识别識方法以及记录行动识别程序的计算机可读记录介质。

为了解决上述问题,达到本发明的目的,本发明的行动识别装置,用于根据拍摄工作现场所得到的动画来识别操作人员的标准操作,其中具备,动画输入部,用于输入所述工作现场的动画;要素行动识别部,用于识别构成所输入的所述动画中包含的所述操作人员的所述标准操作的一个以上要素行动;以及,标准操作识别处理部,用于根据被识别到的所述一个以上要素行动,来确定所述标准操作的开始时间和所需时间。

本发明的效果在于,能够提供对应工作现场操作人员的各种姿势变化,自动测量标准操作所需时间的行动识别装置、行动识别識方法以及记录行动识别程序的计算机可读记录介质。

附图说明

图1是本发明的实施方式涉及的行动识别装置的一例概略构成模式图。

图2是一例在工作现场拍摄的操作人员的标准操作的示意图。

图3是记载本实施方式涉及的标准操作内容的标准操作手册内容的示意图。

图4是临时放置装有对象商品的箱子的标准操作的要素行动的示意图。

图5是操作者以弯腰状态从装有对象商品的箱子中寻找并取出对象商品的标准操作的要素行动的示意图。

图6是将取出了的对象商品放到商品货架上的标准操作的要素行动的示意图。

图7是图3所示的标准操作以及其要素行动所需时间的一例示意图。

图8是本实施方式涉及的行动认识处理部的概略构成模式图。

图9是本发明实施方式涉及的行动识别处理的一例流程图。

图10是本发明实施方式中被输入到现场拍摄/动画输入部中的一例时序图像帧的示意图。

图11是用于说明本发明实施方式涉及的特征点检测方法的示意图。

图12是图2所示的时空数据中提取的一例特征点的示意图。

图13是图2所示的要素行动经过规定时间后的时间一例特征点的示意图。

图14是用来说明本发明实施方式涉及的步行行动的识别处理的示意图。

图15是用来说明本发明实施方式涉及的要素行动识别处理中发生错误时的动作的示意图。

图16是用来说明本发明实施方式中在仅识别到三个要素行动中的一个要素行动时整个行动的开始时间和所需时间的示意图。

图17是用来说明本发明实施方式中在仅识别到三个要素行动中连续的两个要素行动时整个行动的开始时间和所需时间的示意图。

图18是用来说明本发明实施方式中在识别到三个要素行动中不连续的两个要素行动时整个行动的开始时间和所需时间的示意图。

图19是用来说明本发明实施方式中在识别到所有要素行动时整个行动的开始时间和所需时间的示意图。

图20是制作本发明实施方式涉及的要素行动认识辞典的动作的一例流程图。

图21是本实施方式涉及的摄像机的一例硬件构成模块图。

具体实施方式

以下参照附图,详细说明行动识别装置、行动识别方法、行动识别程序以及记录了该程序的计算机可读记录介质的实施方式。如以下将要进行的描述,在本实施方式中,通过摄像机拍摄工作现场,从拍摄的影像中自动识别工作现场的操作人员进行的标准操作的要素行动,从要素行动中识别标准操作的行动,自动测量标准操作的时间。现场操作人员的行动各种各样,标准操作的行动有各种不同的姿势。对此,在本实施方式中,通过将标准操作的行动分解为多个要素行动,对各个要素行动进行单独识别,来对应工作现场的操作人员的各种姿势变化,自动测量标准操作所需要的时间。在以下说明中,″动画″不仅包含″动画图像(也称为影像)数据″,还包含″由多个连续的静止图像构成的图像数据″。

在该″由多个连续静止图像构成的图像数据″中,例如,也可以包含由以规定周期拍摄的多个连续静止图像所构成的图像数据。

图1是本发明的实施方式涉及的行动识别装置的一例概略构成模式图。如图1所示,行动识别装置具备摄像机20和识别处理装置10。

摄像机20是可以拍摄动画图像的录像机等的摄影装置,被设置在工作现场,拍摄操作人员的操作,将所得动画输入识别处理装置10。图2显示工作现场输入动画的一个例子,其中显示在工作现场拍摄的一例操作人员的标准操作。标准操作内容记录在标准操作手册中。在此用图3例示的标准操作手册说明图2所示的标准操作内容的例子。此处显示将商品放到商品货架上的标准操作的例子。图3是记述本实施方式涉及的标准操作内容的标准操作手册内容的示意图。将商品放到商品货架上的标准操作具有以下s1~s3的3个要素行动。各个标准操作必须在规定的时间内完成。

s1:将装有对象商品的箱子临时放置。

s2:从箱子中寻找并取出对象商品。

s3:将对象商品放到商品货架上。

对操作人员姿势变化较多的行为,如果采用直接识别的方法,那么在某些情况下很难确定工作现场的标准操作。对此,在本实施方式中,将标准操作分解为如图4~图6所示的要素行动,分别进行识别。图4~图6是将商品放入商品货架中的标准操作分解成多个要素行动的例子。在图4~图6中,符号20表示摄像机,符号42表示操作者,符号43表示箱子,符号44表示对象商品。图4显示临时放置装有对象商品44的箱子43的标准操作的要素行动(s1)。图5显示操作者42以弯腰状态从装有对象商品44的箱子43中寻找并取出对象商品44的标准操作的要素行动(s2)。图6显示将取出了的对象商品44放到商品货架上的标准操作的要素行动(s3)。

图7是图3所示的标准操作以及其要素行动所需时间的一例示意图。设要素行动s1所需时间为t1,要素行动s2所需时间为t2,要素行动s3所需时间为t3。因此,整个标准操作所需时间为t1、t2、t3合计所需时间t1+t2+t3。

图1所示的识别处理装置10具备接口部11和行动识别处理部12。接口部11用于输入摄像机20获得的影像,并将其输出到行动识别处理部12。行动认识处理部12执行本实施方式涉及的行动认识处理。图8是本实施方式涉及的行动认识处理部的概略构成模式图。如图8所示,本实施方式涉及的识别处理装置10具备现场摄影/动画输入部101、时空特征点提取部102、要素行动识别部103、标准操作识别处理部104、要素行动识别辞典输入部105、标准操作识别结果输出部106。

在这里,用图8所示的模块图以及图9~图16详细说明本实施方式涉及的行动识别处理部12的动作。图9是对摄像机20取得的动画实行的行动识别处理的一例流程图。

如图8及图9所示,在本动作中,首先,现场拍摄/动画输入部101通过接口部11输入从摄像机20输入的动画(步骤s101)。图10显示一例被输入到现场拍摄/动画输入部101中的时序图像帧。在图10中,输入的图像帧的横轴x、纵轴y是空间坐标。f1、f2、…表示沿时间轴time的时序图像帧。也就是说,输入的图像帧如图11所示,成为用时空(x,y,t)表示的图像数据(以下称为时空图像数据)。时空的一个像素i(x,y,t)是空间坐标(x,y)和时间t的函数。

接下来,为了识别现场标准操作,执行识别要素行动的动作。具体而言,时空特征点提取部102从输入的动画中各切出n个图像帧,对于该各切出的n个图像帧,执行提取时空中的特征点(也称为时空特徴点)的处理(步骤s102)。在此,在步骤s102中,首先定义如图3以及图4~图6所示的要素行动。例如,将商品放入商品货架的标准操作如图3的标准操作手册中所记载的那样,可以用三个要素行动来分解并定义标准操作。也就是说,定义暂时放置装有对象商品44的箱子43的标准操作的要素行动(s1)、操作人员42在弯腰状态下从装有对象商品44的箱子43中寻找并取出对象商品44的标准操作的要素行动(s2)、将取出的对象商品44放到商品货架上的标准操作的要素行动(s3)。决定方便识别和分解标准操作的要素行动的数量。在上述例子中,将标准操作分解为三个要素行为,但是在其他标准操作中,也可以将其分割成不同数量的要素行动。针对各个要素行动,进行行动识别。因此,需要准备不同数量的要素行动识别辞典。

接下来,步骤s102中,时空特征点提取部102识别定义了的要素行动。工作现场的操作人员行动时,图11所示的时空图像数据中产生变化点。时空特征点提取部102通过找到时空图像数据中的变化点,即时空特征点,来识别要素行为。

在此说明本实施方式的特征点检测方法。在本动作中,如图11所示,由n个图像帧组成的时空的图像数据,即时空图像数据,被分割成区块。图11中的大立方体表示整个时空图像数据。在图11中,横轴表示空间坐标x,纵轴以y表示。另外,各个单位是像素,t表示时间轴。例如,时序图像数据由以30帧/秒的速度输入的图像数据构成。时间轴time方向是图像帧的时序轴。通过用图像帧换算时间轴time的值,可以求出实际时间。

在图11所示的例子中,时空图像数据被分割成大小(m,n,t)的区块。1个区块的大小为横向m像素、纵向n像素、t帧。图11中的一个方块表示一个区块。当操作人员的动作发生某个行动时,发生动作时的时空图像数据中,对应区块的特征量变大。换言之,时空中产生大的变化量。

接下来,在步骤s102中说明提取变化量大的区块作为特征点的方法。时空特征点提取部102在从时空图像数据中提取特征点时,首先在空间方向,即(x,y)方向进行消除噪音的平滑处理。在该平滑处理中,使用以下式(1)。

l(x,y,t)=i(x,y,t)*g(x,y)(1)

式(1)中,i(x,y,t)是时间t的帧中的(x,y)坐标的像素的像素值。g(x,y)是用于平滑处理的核心。*是折叠处理。平滑处理可以单纯地是像素平均处理,也可以是既存的高斯平滑滤波处理。

接着,在步骤s102中,时空特征点提取部102在时间轴上进行过滤处理。该过滤处理中,实行使用以下式(2)的gabor过滤处理。在此,gev和god是后述式(3)和式(4)所示的gabor过滤器的核心参数。*为叠层处理。τ和ω是gabor过滤器的核心参数。

r(x,y,t)=(l(x,y,t)*gev)2+(l(x,y,t)*god)2(2)

对图10所示的时空图像数据的全部像素实行如上的过滤处理后,时空特征点提取部102在步骤s102中,求出图11所示的分割区块内的r(x,y,t)的平均值。在该平均值计算处理中,例如通过使用下式(5),求出位于时空坐标(x,y,t)上的区块的平均值。

而后,时空特征点提取部102如下式(6)所示,当区块内的平均值m(x,y,t)大于一定阈值thre_m时,将该区块作为特征点。

m(x,y,t)>thre_m(6)

图12是从表示把图2的工作现场的商品放到货架上的标准操作的要素行动(s1)的时空数据中提取出来的一例时间t的特征点的示意图。如图12所示,在发生动作的部分中提取特征点。图13是图2所示的要素行动(s1)经过规定时间间隔δt之后的时间t+δt时的一例特征点的示意图。

接下来描述如上所述地从时空图像数据中提取的特征点的叙述方法。在从图11所示的时空图像数据中提取特征点区块的情况下,时空特征点提取部102求出该特征点区块内的像素的时空边缘信息e(x,y,t)。在该空间边缘信息的计算中,通过执行以下式(7)所示的微分运算,求出像素i(x,y,t)的边缘信息。

其结果,在图11所示的时空图像数据中,由于一个区块中有m×n×t个像素,因此能够得到m×n×t×3个微分值。因此,时空特征点提取部102用m×n×t×3个微分值的矢量叙述该块。换言之,用m×n×t×3维微分矢量来叙述特征点。

接下来,在执行要素行动识别处理之前,要素行动识别部103制作要素行动识直方图(步骤s103)。在该要素行动识别直方图的制作中,首先要素行动识别辞典输入部105取得要素行动识别辞典,将该取得的要素行动识别辞典输入要素行动识别部103。关于要素行动识别辞典的制作动作,将在后文中用图20说明。接着,要素行动识别部103计算各特征点区块的m×n×t×3维微分矢量与要素行动识别辞典中k个平均矢量vk之间的距离,设各特征点区块的种类与最近的学习平均矢量的区块的种类相同。其结果,特征点区块被归类为k种区块。然后在步骤s103中,要素行动识别部103用各个种类的出现频率求出测试动画的特征点直方图t(k)。

接下来,在步骤s103中,要素行动识别部103用下式(8)来求出测试动画的特征点直方图t(k)和学习数据的学习直方图h(k)之间的相似度s(t,h)。

要素行动识别部103如下式(9)所示,在测试动画的特征点直方图t(k)和学习数据的学习直方图h(k)之间的相似度s(t,h)大于一定阈值thre_s的情况下,执行将测试动画与学习数据认为是相同要素行动的要素行动识别处理(步骤s104)。

s(t,h)>thre_s(9)

接下来,标准操作识别处理部104执行标准操作识别处理(步骤s105)。在标准操作识别处理中,标准操作识别处理部104识别到相当于在步骤s104中识别的要素行动的操作行为。例如,在如图2示例的标准操作的情况下,在后述的利用图15示例的动作中可以求得标准操作识别结果。然后,标准操作识别结果输出部106输出如此求出的标准操作识别结果(步骤s106),本动作结束。

接下来,说明在图9的步骤s104中显示的要素行动识别处理中发生错误时,即没有识别到要素行动时的动作。图15是用来说明图9的步骤s104中显示的要素行动识别处理中发生错误时的动作的示意图。

如图15所示,首先,本动作中首先与图9的步骤s104相同,实行要素行动识别处理(步骤s104)。然后,用要素行动识别处理的结果,执行探测标准操作要素行动的要素行动探测(s111)。在未探测到标准操作的要素行动(s111的否)的情况下,如果要素行动识别处理中发生错误,则执行识别不同于标准操作的其他行动的其他要素行动识别处理(s113)。在其他要素行动识别处理中,例如,执行图14所示的步行行动的识别处理。而后,例如在检测到步行处理行为的情况下(步骤s114的是),结束标准操作的要素行动识别,输出标准操作的识别结果(s116)。

除了步行行动以外,其他标准操作的要素行动作为识别对象时,也进行其他要素行动的识别处理(s114)。同样,如果识别到其他行为(s114的是),则结束标准操作的要素行动识别,输出了标准操作的识别结果(s116)。

另一方面,在未识别到其他要素行动的情况下(s114的否),将要素行动识别处理(s104)中识别到的要素行动的间隔t和预定的时间阈值thre_time进行比较(s115),根据其结果,执行要素行动识别处理(s104)或者标准操作识别结果输出(s116)。

在此,利用图16~图19所示的识别到的标准操作以及该要素行动所需时间的例子,来说明步骤s115的动作。例如如图16所示,在只识别到要素行动s1~s3中的一个要素行动s3情况下,将整个行动的开始时间作为s3的开始时间,并将整个行动的所使用时间设为s3的所需时间t3。

另一方面,如图17所示,在识别到连续的两个要素行动s2以及s3的情况下,以最早的要素行动s2的开始时间作为整个行动的开始时间,最后的要素行动s3的完成时间为整个行动的结束时间,整个行动的所需时间为s2和s3合计所需时间t2+t3。

另外,如图18所示,在识别到不连续的两个要素行动s1和s3的情况下,如果最前面的要素行动s1和最后的要素行动s3之间的间隔t小于预先设定的时间阈值thre_time(s115的是),则将整个行动的开始时间作为要素行动s1的开始时间,将全体行动的结束时间作为要素行动s3的开始时间,将全体行动的结束时间作为要素行动s的结束时间。然后,根据要素行动s1的开始时间和要素行动s3的结束时间计算整个行动的所需时间。

而在识别到不连续的两个要素行动s1以及s3的情况下,如果最前面的要素行动s1和最后的要素行动s3的间隔t在时间阈值thre_time以上时(s115的否),则将要素行动s1和s3作为同一种类的行动,但是行动本身作为不同的行动,计算各自的开始时间和所需时间。

最后,如图19所示,在识别到全部三个要素行动s1、s2以及s3的情况下,以要素行动s1的开始时间为弯腰行动开始时间,整个行动的所需时间为三个要素行动s1~s3合计所需时间t1+t2+t3。

而后,如图15的s116所示,如上所述,特定的整体行动的开始时间和整体行动的所用时间作为标准操作识别结果输出。

接下来用图20详述要素行动识别辞典的制作动作。图20是显示把要素行为的动画样本作为学习数据,制作要素行动认识辞典的动作的一例流程图。

如图20所示,在制作要素行动识别辞典的动作中,要素行动识别辞典输入部105收集要素行动的动画样本,将其作为工作现场学习用的动画数据(以下称为操作学习动画)输入(步骤s201)。

其次,要素行动识别辞典输入部105将输入的工作现场学习动画中包含要素行动的n个图像帧作为一个学习数据,从该学习数据中提取时空特征点(步骤s202)。时空特征点的提取方法可以与上述使用图9的步骤s102进行说明的方法相同。

另外,在步骤s202中,根据输入的工作现场学习动画,生成多个学习数据,分别从所生成的多个学习中提取时空特征点。然后,通过式(7)对提取的各个时空特征点进行微分处理,求出m×n×t×3维的微分矢量。

其次,要素行动识别辞典输入部105对从在步骤s202得到所有学习数据中提取的时空特征点进行分类(步骤s203)。要素行为识别辞典输入部105例如用k-means分类归方法,对学习了的时空特征点进行分类。也就是说,用k-means的分类方法对m×n×t×3维的微分矢量进行分类。将分类数量设为k。由此,从学习数据中提取出的特征点被分类为k种特征点。k-means分类方法中,相同种类的特征点具有相似特征。

其次,要素行动识别辞典输入部105对于k种时空特征点,平均相同种类的特征点的m×n×t×3维边缘矢量,求出k个平均矢量vk(步骤s204)。各平均矢量vk是代表该种特征点的矢量。

其次,要素行动识别辞典输入部105,对于k种时空特征点,计算各组的区块合计数,求出学习直方图h(k)(步骤s205)。h(k)是特征点k组的频率。

然后,要素行动识别辞典输入部105制作以从学习数据中求出的平均矢量vk和学习直方图h(k)为要素行动识别辞典数据的要素行动认识辞典(步骤s206)。所制作的要素行动认识辞典被输入要素行动识别部103(参见图8)。

接下来描述关于本实施方式涉及的摄像机20(参见图1)。图21是本实施方式涉及的摄像机的一例硬件构成模块图。如图21所示,被摄体光通过摄影光学系统201入射ccd(chargecoupleddevice)203。摄影光学系统201和ccd203之间配置通过/遮蔽入射光的机械快门202。摄影光学系统201和机械快么202受马达驱动器206驱动。

ccd203将在摄像面上成像的光学图像转换成电信号,作为模拟图像数据输出。从ccd203输出的图像信息通过cds(correlateddoublesampling:相关二重采样)电路204除去噪声成份,通过a/d转换器205转换为数字值后,再输出到图像处理电路208。

图像处理电路208采用暂时存放图像数据的sdram(synchronousdram)212,进行ycrcb转换处理、白平衡控制处理、对比度补偿处理、边缘强调处理、色转换处理等各种图像处理。在此,白平衡处理是调整图像信息的颜色浓度,对比度补偿处理是调整图像信息对比度的图像处理。边缘强调处理是调整图像信息的锐度,颜色转换处理是调整图像信息色调的图像处理。另外,图像处理电路208在液晶显示器216(以下简称lcd16)上显示经过信号处理和图像处理的图像信息。

同时,经过信号处理和图像处理的图像信息通过压缩扩展部213,记录到存储卡214中。上述压缩扩展部213是用来按照从操作部215取得的指示,压缩从图像处理电路208输出的图像信息并输出到存储卡214,或者扩展从存储卡214读取的图像信息,输出到图像处理电路208的电路。

另外,ccd203、cds电路204以及a/d转换器205通过产生时序信号的定时信号发生器207,由cpu(centralprocessingunit)209控制时机。进而,图像处理电路208、压缩扩展部213、存储卡214也受到cpu209控制。

摄像装置中,cpu209按照程序进行各种演算处理,内置有存储专用软件等的只读存储器rom(readonlymemory)211以及在各种处理过程中利用的工作区域、具有各种数据存储区等读写自由的存储器即ram(randomaccessmemory)210等,这些是通过主线相互连接。

然后,上述摄像机20的输出通过图1所示的识别处理装置10的接口部11输入行动识别处理部12。

如上所述,本实施方式构成如下,从拍摄了工作现场的动画中识别具有一定步骤的操作人员的标准操作。将标准操作分解成多个要素行动,通过要素行动识别,识别标准操作。测量识别到的标准操作的要素行动时间,计算标准操作整体的操作时间。输入多张图像帧,从这些图像中提取时空特征点。从提取的特征点求出标准操作的要素行动的特征量,识别标准操作的要素行动。通过识别到的要素行动来进行操作人员标准操作识别。通过这样的构成,能够识别操作人员在工作现场进行的标准操作,测量标准操作的工作时间。其结果,可以实现对应工作现场操作人员多种多样的姿势变化自动测量标准操作所需时间的行动识别装置、行动识别方法、行动识别程序以及记录该程序的计算机可读取记录介质。

用本实施方式的识别装置执行的工作现场标准操作识别程序具有包含上述工作现场的标准操作识别功能在内的模块构成,作为图1的识别处理装置10的实际硬件,cpu(处理器)通过从上述存储介质中读取图像处理程序执行,上述各功能部被上传到住存储装置上,输出标准操作识别结果。输入要素行为认识辞典,求出从评价式(8)的识别动画中得到的特征点直方图t(k)和学习直方图h(k)的相似度,进行要素行动识别处理。根据要素行为的认识结果,求出工作现场行动的开始时间和所需时间,输出行动识别的结果。

本实施方式涉及的行动识别装置具备cpu等的控制装置、rom(readonlymemory)和ram等记忆装置、hdd及cd驱动装置等外部存储装置、显示器等的显示装置、以及键盘和鼠标等输入装置,为使用普通的计算机的硬件构成。

本实施方式涉及的行动识别装置所执行的程序,以可安装的形式或可执行格式的文件记录在cd-rom、软盘(fd)、cd-r、dvd(digitalversatiledisk)等计算机可读取的记录介质中来提供。

还可以将本实施方式涉及的行动识别装置所执行的程序存储在连接互联网等网络的计算机上,通过网络下载来提供。另外,也可以通过互联网等网络提供或分发本实施方式涉及的行动识别装置所执行的程序。

另外,也可以将本实施方式涉及的行动识别装置所执行的程序预先安装到rom等中来提供。

本实施方式涉及的行动识别装置所实行的程序是包括上述各功能部(工作现场摄影/动画输入部101、时空特征点提取部102、要素行动识别部103、标准操作识别处理部104、要素行动识别辞典输入部105、标准操作识别结果输出部106)的模块构成,通过作为实际的硬件的cpu(处理器)从上述记憶媒体读取行动识别装置执行的程序,将上述各功能部上传到主存储装置上,从而在主存储装置上生成工作现场摄影/动画输入部101、时空特征点提取部102、要素行动识别部103、标准操作识别处理部104、要素行动识别辞典输入部105、标准操作识别结果出部106。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1