动作捕捉装置和动作捕捉方法、以及动作捕捉程序的制作方法

文档序号:1131547阅读:242来源:国知局
专利名称:动作捕捉装置和动作捕捉方法、以及动作捕捉程序的制作方法
技术领域
本发明涉及一种根据用照相机拍摄的图像来识别对象人物的姿势或者动作的动作捕捉装置和动作捕捉方法、以及动作捕捉程序。
背景技术
为了实现人与机器之间的自然的界面,必须综合地解析包括人的手势/姿态的操作者的各种行动、声音等信息来检测并识别人的存在、意图等。为此,一直在探讨与人的运动、行动模式的解析有关的各种技术。作为运动解析技术,可大致区分为使用特殊的标识等获取运动信息的技术和基于无标识图像解析的技术。
使用特殊的标识等的系统包括电磁式、机械式、光学式等,作为最近的运动追踪/捕捉系统,特别地经常利用光学式的动作捕捉系统。例如,Vicon Peaks公司的MX照相机系统(商标)、NaturalPoint公司的OptiTrack(商标)、Motion Analysis公司的Hawk DigitalSystem(商标)等的动作捕捉/解析系统已经利用在CG(ComputerGraphics计算机制图)、电影制作等领域中。作为附加标识运动解析系统的优点,能够正确地测量人物等的运动信息,因此常常利用在CG、电影制作等需要高精度运动解析的地方。
但是,由于该方式需要大规模的系统结构、或者存在由附加标识给人体造成的负担,因此不能称为自然的HMI(HumanMachine Interface人机界面)。
因此,本发明的发明者们为了实现在一般环境下的自然的HMI,使用了基于无标识的图像解析的运动解析技术。已探讨了若干基于无标识的图像解析的运动解析方法,可以代表性地举出基于人物的三维模型和立体图像的运动与姿势的追踪方法(例如参照非专利文献1)、基于使用多个照相机的人物的三维模型的人物运动追踪方法(例如参照非专利文献2)、基于人物区域和运动模型的运动解析方法(例如参照非专利文献3)等。
非专利文献1D.Demirdjian,T.Ko,T.Darrell,ConstrainingHuman Body Tracking,Proceedings of the International Conferenceon Computer Vision,2003.
非专利文献2K.M.Cheung,S.Baker,J.K.Hodgins,and T.Kanade,Markerless Human Motion Transfer,Proceedings of the 2ndInternational Symposium on 3D Data Processing,Visualization andTransmission,September,2004.
非专利文献3Ramanan,D.,Forsyth,DA,Zisserman,A.“Strikea PoseTracking People by Finding Stylized Poses.”ComputerVision and Pattern Recognition(CVPR),San Diego,CA,June 2005.
非专利文献4D.Demirdjian,T.Darrell,3-D Articulated PoseTracking for Untethered Diectic Reference,Proceedings of theInternational Conference on Multimodal Interfaces,2002.

发明内容
发明要解决的问题非专利文献1所记载的方法系统结构简单,在所限定的环境下可实时地估计人物的运动/姿势,但是需要依赖于距离图像的精度、前后帧间的运动量小等条件。
另外,关于非专利文献2所记载的方法,如果能够很好地估计三维模型,则可认为人物运动的位置/姿势的估计精度高,但是系统结构规模很大,为了高精度地构筑三维模型,需要除去人物以外的背景。
另外,关于非专利文献3所记载的方法,虽然算法简单,也可利用在一般背景下,但是为了高精度地估计人物的动作/姿势,需要正确地检测人物的各肢体区域。
另外,在使用这些技术的情况下,如何应用人的身体的模型就成为了重要的问题。例如在非专利文献4中,记载了如下的技术使用视差图像的Depth信息来提取对象人物作为前景,在此应用3D柱模型,但是难以鉴别头、手臂的位置。
这样,在这些现有的方法中,在一般环境下难以估计/追踪人物的自然的运动/姿势,不能实现自然的HMI。
本发明是鉴于这种以往的实际情况而提出的,目的在于提供不受人物动作的速度、复杂的背景等限制而可在实际环境下利用的可靠的动作捕捉装置和动作捕捉方法、以及动作捕捉程序。
用于解决问题的方案本发明所涉及的动作捕捉装置,在追踪对象人物的各关节及肢体的三维位置和姿势的动作捕捉装置中,通过具备如下的单元来解决上述问题生成单元,其从上述对象人物的观测图像生成连结了各关节的运动模型;预测单元,其根据上述运动模型的关节间的连结约束和上一个时刻的预测位置分层算出上述对象人物的各关节的当前时刻的预测位置,并预测当前时刻的各关节与肢体的三维位置和姿势;投影单元,其将由上述预测单元预测出的当前时刻的对象人物的各关节与肢体的三维位置和姿势投影到二维图像上;评价单元,其根据上述对象人物的观测图像来评价由上述投影单元投影的投影位置的可靠性;以及估计单元,其根据上述可靠性的评价结果来估计上述当前时刻的对象人物的各关节与肢体的三维位置和姿势。
另外,本发明所涉及的动作捕捉方法,在追踪对象人物的各关节与肢体的三维位置和姿势的动作捕捉方法中,通过具有如下的工序,解决上述问题生成工序,从上述对象人物的观测图像生成连结了各关节的运动模型;预测工序,根据上述运动模型的关节间的连结约束和上一个时刻的预测位置分层算出上述对象人物的各关节的当前时刻的预测位置,并预测当前时刻的各关节与肢体的三维位置和姿势;投影工序,将由上述预测工序预测出的当前时刻的对象人物的各关节与肢体的三维位置和姿势投影到二维图像上;评价工序,根据上述对象人物的观测图像评价由上述投影工序投影的投影位置的可靠性;以及估计工序,根据上述可靠性的评价结果估计上述当前时刻的对象人物的各关节与肢体的三维位置和姿势。
另外,本发明所涉及的动作捕捉程序,在执行追踪对象人物的各关节与肢体的三维位置和姿势的处理的动作捕捉程序中,通过具有如下的工序解决上述问题生成工序,从上述对象人物的观测图像生成连结了各关节的运动模型;预测工序,根据上述运动模型的关节间的连结约束和上一个时刻的预测位置分层算出上述对象人物的各关节的当前时刻的预测位置,并预测当前时刻的各关节与肢体的三维位置和姿势;投影工序,将由上述预测工序预测出的当前时刻的对象人物的各关节与肢体的三维位置和姿势投影到二维图像上;评价工序,根据上述对象人物的观测图像评价由上述投影工序投影的投影位置的可靠性;以及估计工序,根据上述可靠性的评价结果估计上述当前时刻的对象人物的各关节与肢体的三维位置和姿势。
发明的效果根据本发明,从对象人物的观测图像生成连结了各关节的运动模型,根据运动模型的各关节的连结约束和上一个时刻的预测位置分层算出对象人物的各关节的当前时刻的预测位置,并预测当前时刻的各关节与肢体的三维位置和姿势,将所预测的当前时刻的对象人物的各关节与肢体的三维位置和姿势投影到二维图像上,根据对象人物的观测图像评价投影位置的可靠性,根据该评价结果估计当前时刻的对象人物的各关节与肢体的三维位置和姿势,由此不需要特殊的标识/传感器,并且可以实现自然的人机对话。


图1是表示本发明的一个实施方式中的动作捕捉装置的结构的框图。
图2是用于说明本发明的一个实施方式中的动作捕捉处理的概要的示意图。
图3是用于说明对象人物的运动模型生成处理的概要的示意图。
图4是表示用于生成运动模型的初始化部的结构的框图。
图5是表示初始化部中的初始化处理的流程图。
图6是用于说明初始化处理的图。
图7是用于说明本实施方式中的分层预测方法的图。
图8是表示用于预测运动模型的各关节位置的结构的框图。
图9是表示用于预测运动模型的各关节位置的结构的框图。
图10是用于说明评价上一个关节点Sk-1的追踪结果的可靠性,并使Sk的预测模型动态变化的处理例的示意图。
图11是用于说明姿势/位置投影部、可靠性评价部、以及姿势/位置估计部的处理的示意图。
附图标记说明1L、1R照相机;2照相机参数获取部;3图像/距离信息观测部;4初始化部;5姿势/位置预测部;6姿势/位置投影部;7可靠性评价部;8姿势/位置估计部;41距离测量部;42面部检测部;43掩模生成部;44颜色分布算出部;45手检测窗口生成部;46手检测部;47关节位置算出部。
具体实施例方式
下面,参照附图详细说明应用了本发明的具体实施方式

图1是表示本发明的一个实施方式中的动作捕捉装置的结构的框图。该动作捕捉装置构成为具备以下部分配置在规定的位置上的照相机1L、1R;通过照相机校准获取照相机参数的照相机参数获取部2;观测由照相机1L、1R拍摄的图像/距离信息的图像/距离信息观测部3;生成连结了各关节的运动模型并保存图像信息的初始化部4;预测当前时刻的对象人物的姿势/位置的姿势/位置预测部5;将所预测的姿势/位置投影到二维图像上的姿势/位置投影部6;评价所投影的二维图像的可靠性评价部7;以及根据评价值估计当前时刻的对象人物的姿势/位置的姿势/位置估计部8。
照相机1L、1R被配置在规定的位置上,使其能够拍摄同一对象人物。此外,在本实施方式中,说明了使用从2台照相机的视差算出对象物的距离的“立体视觉”,但是也可以利用“激光测距仪”等,该“激光测距仪”通过测量从照射激光到检测出该激光的反射光之间的时间来算出距离。
照相机参数获取部2通过照相机校准获取使实际世界坐标与照相机图像坐标之间建立关系的照相机参数。该照相机参数被输出到图像/距离信息观测部3和姿势/位置投影部6。
图像/距离信息观测部3将由照相机1L、1R拍摄的图像输出到初始化部4和可靠性评价部7。另外,根据由照相机参数获取部2获取的照相机参数生成距离信息,将距离信息输出到初始化部4和可靠性评价部7。
初始化部4为了生成运动模型,求出对象人物的各关节点Sk的三维坐标(x,y,z),并且为了评价所预测的姿势/位置,保存关节点、关节点间的肢体(Limbs肢)、以及面部等的特征点的图像信息(初始图像模型)。该运动模型是连结了各关节的关节模型。此外,在本实施例中,说明了使用以15个关节点(Skk=0,1,...,14)表现的运动模型。另外,作为图像信息,例如可使用表现表面的质感的纹理、颜色信息、视差信息、轮廓等的可靠性评价值等。
姿势/位置预测部5使用上一个时刻的各关节和肢体的预测位置与运动模型的关节间的连结性约束,根据概率模型分层预测当前时刻的各关节与肢体的位置来预测身体的姿势(姿势)。具体地说,如后面所述,使关节模型的上一层次的关节的估计位置具有概率分布,运算下一层次的关节的预测位置。
姿势/位置投影部6根据由照相机校准得到的投影矩阵P,将由姿势/位置预测部5预测出的当前时刻的对象人物在三维空间上的各关节与肢体的预测位置和姿势投影到二维图像上,求出与三维坐标(x,y,z)对应的二维图像上的投影位置(u,v)。
可靠性评价部7通过计算由姿势/位置投影部6得到的二维图像(观测图像)上的投影位置(u,v)的图像信息(例如,距离信息/颜色信息/纹理信息等)、与预先保存的图像信息(初始图像模型)之间的相似性,来评价投影位置的正确度。
姿势/位置估计部8根据由可靠性评价部7评价出的二维图像上的投影位置的评价值,估计当前时刻的对象人物在三维空间上的位置和姿势。将该当前时刻的对象人物在三维空间上的位置与姿势的估计信息作为上一个时刻的对象人物的各关节与肢体的位置而输出到姿势/位置预测部5。
在此,使用图2所示的示意图说明上述的动作捕捉处理的概要。
首先,预先配置至少2台以上的照相机1L、1R,使其能够拍摄同一对象人物,通过照相机校准获取它们的位置关系、照相机参数等。将该照相机参数等从照相机参数获取部2输出到图像/距离信息观测部3和姿势/位置投影部6。
在初始化部4中,例如根据从图像/距离信息观测部3输出的如图2的(A)那样的对象人物的观测图像来预测视差图像(u,v,depth),将该视差图像(u,v,depth)逆投影到三维空间上,由此算出对象人物的三维形状以及各关节的三维位置/坐标模型(x,y,z),生成运动模型。另外,根据观测图像保存各关节的图像信息(初始图像模型)。
接着,在姿势/位置预测部5中,例如根据如图2的(B)那样的上一个时刻(t-1)的各关节位置/姿势Pt-1的估计结果,使用运动模型的关节间的连结性约束并根据概率模型来分层预测如图2的(C)那样的当前时刻的各关节的位置/姿势Pt。
姿势/位置投影部6根据通过照相机校准得到的投影矩阵P,例如如图2的(D)那样地将所预测的当前时刻的对象人物的各关节位置/姿势Pt投影到二维图像上,求出与三维坐标(x,y,z)对应的二维图像上的投影位置以及视差(u,v,depth)。
然后,在可靠性评价部7中,计算投影在二维图像(观测图像)上的投影位置的视差(u,v,depth)、颜色信息、纹理信息等的图像信息与预先保存的图像信息(初始图像模型)之间的相似性,从而评价投影到二维图像上的对象人物的各关节的投影位置/姿势的正确度。
姿势/位置估计部8根据由可靠性评价部7算出的评价值,最终如图2的(E)那样求出当前时刻的对象人物在三维空间上的预测位置/姿势Pt。
通过这样进行对象人物的位置/姿势/运动追踪,可实现不给对象人物添加负担的自然的HMI(Human Machine Interface人机界面)。
接着,详细说明上述的动作捕捉装置中的各处理。首先,说明对象人物的运动模型的生成。如图3所示,通过预先校准的左右照相机1L、1R观测三维空间的对象人物30的图像,使用这些观测图像(u,v,depth)31L、31R来估计视差图像32。然后,根据由照相机校准求出的投影矩阵将视差图像(u,v,depth)32投影到三维空间上,求出该三维空间上的人物的各关节的坐标位置(x,y,z),由此可以生成对象人物的运动模型33。
图4是表示用于初始化运动模型的初始化部4的结构的框图。初始化部4构成为具备如下的部分生成距离图像的距离测量部41;从输入图像检测面部区域的位置以及距离的面部检测部42;根据距离图像以及面部的距离生成将对象人物作为前景的掩模图像的掩模生成部43;算出面部区域的颜色直方图的颜色分布算出部44;根据面部区域的位置以及距离算出表示手应该存在的位置的窗口位置的手检测窗口生成部45;根据面部区域的色调、彩度、及色调、彩度的各个分散值、手检测窗口的位置、掩模图像来检测手的手检测部46;以及根据面部的位置和距离、手的位置和距离来算出各关节位置的关节位置算出部47。
接着,参照图5所示的流程图和图6所示的示意图,说明初始化部4中的初始化处理。
在步骤S1中,距离测量部41根据从图像/距离信息观测部3输出的图像/距离信息生成距离图像。在此,最好在生成距离图像的同时生成表示该距离的可靠性的图像。由此,可以实现提高后面所述的掩模图像生成的精度。此外,例如在由立体法算出距离并进行了使用标准化相关的匹配的情况下,可靠性可以使用将该匹配代价指数化后的数值。
在步骤S2中,如图6(A)所示,面部检测部42从对象人物的输入图像检测面部F,在判断为检测出面部的情况下,进入步骤S3,在判断为没有检测出面部的情况下,返回步骤S1。
作为面部识别技术,例如如特再WO2003/019475(「ロボツト装置、顔認識方法及び顔認識装置」SONY(株))所记载的那样,可使用如下的方法用Gabor滤波器提取面部特征量,用支持向量机进行面部识别。
在步骤S3中,颜色分布算出部44如图6(B)所示那样算出由面部检测部42检测的面部区域的颜色直方图。在此,直方图与HSI表色系统的H(Hue,色调)以及S(Saturation,彩度)有关,求出该频度最大的H和S,输出分别具有适当的分散值的结果。
在步骤S4中,面部检测部42如图6的(C)所示那样根据检测出的面部F、以及由距离测量部41测量的距离图像来算出面部的距离。在此,为了除去噪声的影响,最好使用面部区域内的中央的距离值即中央值(Median中间值),而不是平均值。
在步骤S5中,手检测窗口生成部45根据由面部检测部42检测出的面部区域的位置以及距离,例如如图6的(D)所示那样算出表示对象人物水平伸展双手时的手应该存在的位置的窗口W的位置。该手检测窗口的生成方法首先根据由照相机参数获取部2获取的照相机参数等将图像中的面部的位置和距离变换为世界坐标系。然后,从面部的位置起加上头和手臂的长度,决定窗口位置。此外,考虑个人差异,将头的长度规定为270mm±150mm,将手臂的长度规定为900mm±350mm。另外,假设对象人物大致正对动作捕捉装置,设为手的距离与面部的距离大致相同。将这样求出的手检测窗口的世界坐标值逆变换为照相机坐标系,算出图像中的手检测窗口的位置。
在步骤S6中,掩模生成部43根据由距离测量部41生成的距离图像以及由面部检测部42算出的面部的距离,生成将图6(E)所示的对象人物设为前景的掩模图像。在此,在距离测量部41中生成了表示距离的可靠性的图像的情况下,掩模生成部43使用距离的可靠性,将从面部的距离只移动了固定距离的值作为阈值而生成2值化的图像作为掩模图像。由此,可以提高掩模图像生成的精度。并且,在图像上实施标记而取得直方图,只留下频度大的区域,由此可除去噪声。
在步骤S7中,手检测部46根据由颜色分布算出部44算出的色调、彩度、以及色调、彩度的各个分散值、由手检测窗口生成部45生成的窗口位置、由掩模生成部43生成的掩模图像来检测手。具体地说,在手检测窗口内,从通过掩模图像中成为前景的区域检测包括在与面部相同的色调以及彩度的范围内的区域作为手。在此,在手的区域中,如果是右手就在右端应用圆、如果是左手就在左端应用圆,将该中心位置作为手的坐标而输出。另外,将手区域内的中央的坐标的距离值作为手的距离而输出。
在步骤S8中,手检测部46判断是否检测出双手,在检测出了的情况下,设为初始化成功,进入步骤S9。另外,在判断为没有检测出双手的情况下,返回步骤S1。
在步骤S9中,关节位置算出部47根据由面部检测部42检测出的面部的位置和距离、由手检测部46检测出的手的位置和距离来算出各关节的位置。图6(F)是表示各关节位置S1~S8的图像。在此,前提是手在水平的状态下被算出,因此通过使用双手的位置、预先准备的肩、上臂以及下臂的长度的比例,可决定肩和肘的位置。并且,通过使用表示由掩模生成部43生成的距离的可靠性的掩模图像,可以除去噪声,实现肘和肩的位置精度提高。具体地说,首先求出在肘的X坐标上的掩模前景部分的Y坐标,将其中央值作为肘的Y坐标而采用。另外,在上臂部的X坐标中采样几个点,将各个点上的掩模前景部分的Y坐标的中央值作为该点的Y坐标而采用,使用这些点而求出上臂部的近似直线。然后,将在肩的X坐标上的该近似直线上的点作为肩位置而采用。通过这些处理,可以大幅提高关节位置精度。
通过这样求出三维空间的各关节位置,能够高精度地初始化运动模型。另外,在运动模型的初始化时,保存与该模型的各关节点对应的图像信息(纹理、颜色、视差、可靠性评价值等),作为初始图像模型。将该初始模型在后面叙述的追踪处理中与观测图像进行比较,在预测的正确度的评价、追踪结果的算出中使用。
下面说明运动模型的各关节位置的预测方法。图7的(A)表示本实施方式中的分层预测方法的概念图。该分层预测法首先使用最容易观测的人物的头部(面部)的信息,估计头的关节S0和头部中心S1的位置。然后以关节S0的估计结果为基础估计肩的关节S2、S3以及后背的关节S8的位置。之后,使用各个关节S2、S3、S8的估计结果,估计双肘的关节S4、S5以及腰部关节S9、S10的位置。近而,以双肘的关节S4、S5为基础估计双臂的关节S6、S7的位置。另外,以腰部关节S9、S10为基础估计双膝的关节S11、S12的位置。最后,根据双膝的关节S11、S12估计双脚的关节S13、S14的位置。即,该分层预测法根据运动模型的关节间的连结性约束以及上一个时刻的关节位置来依次算出当前时刻的各关节位置。
图7的(B)是用于说明各关节点的预测方法的示意图。当前时刻(t)的各关节S1~S14的预测位置是根据上一个时刻(t-1)的预测结果求出的。另外,当前时刻(t)的各关节的预测位置以正规分布表现,进行可靠性(概率)的评价。另外,根据可靠性的评价值使各关节的估计结果在某范围内变动。由此,防止在直接利用了精度差的估计结果的情况下,对分别连结的关节的估计精度产生较大的影响。
图8和图9是表示用于预测运动模型的各关节位置的结构的框图。在此,关节S0~S8的位置/姿势预测部51~58与姿势/位置预测部5对应,关节S0~S8的位置/姿势估计部81~88与姿势/位置估计部8对应。即,在图1中,以与运动模型的关节间的连结性约束相应的顺序,由姿势/位置预测部5预测关节的预测位置,由姿势/位置投影部6将预测位置投影到二维图像上,由可靠性评价部7对投影在二维图像上的预测位置的可靠性进行评价,由姿势/位置估计部8根据评价结果对估计位置进行估计。并且,将由姿势/位置估计部8估计出的估计位置使用在下面预测的层次的关节的预测位置运算中。
使用基于上一个时刻(t-1)的各关节Sm(m=0,...,14)的各假设{k=1,2,...,K}的姿势的预测函数ωm(t,k)以及位置的预测函数ξm(t,k);来计算当前时刻t的各关节的预测值(位置/姿势)(m=0,...,14)。关于各个时刻t的第m关节,如下述那样计算ωm(t,k)和ξm(t,k)。
式1ωm(t,k)=Smω(t-1,k)+φ(um1,σm1)+κm1v(t-1)ω---(1)]]>ξm(t,k)=Smξ(t-1,k)+φ(um2,σm2)+κm2v(t-1)ξ---(2)]]>在此,是用于得到平均值μ、标准方差σ的标准随机数的函数,v表示时刻(t-1)的各关节点的运动速度,κ表示调整贡献度的常数。
图8所示的用于预测上半身的各关节的结构具备预测头的关节S0和头部中心S1的位置/姿势的S0与S1的位置/姿势预测部51、S0与S1的位置/姿势估计部81、根据头的关节S0的估计结果预测肩的关节S2、S3的位置/姿势的S2和S3的位置/姿势预测部52、S2和S3的位置/姿势估计部82、根据肩的关节S2、S3的估计结果预测双肘的关节S4、S5的位置/姿势的S4与S5的位置/姿势预测部53、S4与S5的位置/姿势估计部83、根据双肘的关节S4、S5预测双臂的关节S6、S7的位置/姿势的位置/姿势预测部54、以及S6与S7的位置/姿势估计部84。
S0与S1的位置/姿势预测部51接收上一个时刻(t-1)的头的关节位置S0(t-1,k)和头部中心位置S1(t-1,k)作为输入信息,算出当前时刻(t)的头的关节位置S0(t,k)和头部中心位置S1(t,k)的预测值。
式2S0(t,k)=ξ0(t,k)(S0(t-1,k))(3)S1(t,k)=ω1(t,k)(S1(0)-S0(0))+S0(t,k)(4)S0与S1的位置/姿势估计部81如后面叙述的那样评价当前时刻(t)的头的关节位置S0(t,k)和头部中心位置S1(t,k)的假设{k=1,2,...,K}的可靠性,例如将可靠性最高的头的关节位置的假设S0(t)输出到S2与S3的位置/姿势预测部52。
S2与S3的位置/姿势预测部52接收上一个时刻(t-1)的肩的关节位置S2(t-1,k)、S3(t-1,k)、以及当前时刻(t)的头的关节的估计位置S0(t)作为输入信息,算出当前时刻(t)的肩的关节位置S2(t,k)、S3(t,k)的预测值。
式3S2(t,k)=ω2(t,k)(S2(0)-S0(0))+ξ2(t,k)(S0(t))(5)S3(t,k)=ω2(t,k)(S3(0)-S0(0))+ξ2(t,k)(S0(t))(6)S2与S3的位置/姿势估计部82如后面叙述的那样评价当前时刻(t)的肩的关节位置S2(t,k)、S3(t,k)的假设{k=1,2,...,K}的可靠性,例如将可靠性最高的假设S2(t)、S3(t)输出到S4与S5的位置/姿势预测部53。
S4与S5的位置/姿势估计部83接收上一个时刻(t-1)的双肘的关节位置S4(t-1,k)、S5(t-1,k)、以及当前时刻(t)的肩的关节的估计位置S2(t)、S3(t)作为输入信息,算出当前时刻(t)的双肘的关节位置S4(t,k)、S5(t,k)的预测值。
式4
S4(t,k)=ω4(t,k)(S4(0)-S2(0))+ξ4(t,k)(S2(t))(7)S5(t,k)=ω5(t,k)(S5(0)-S3(0))+ξ5(t,k)(S3(t))(8)S4与S5的位置/姿势估计部83如后面叙述的那样评价当前时刻(t)的双肘的关节位置S4(t,k)、S5(t,k)的假设{k=1,2,...,K}的可靠性,例如将可靠性最高的假设S4(t)、S5(t)输出到S6与S7的位置/姿势预测部54。
S6与S7的位置/姿势预测部54接收上一个时刻(t-1)的双臂的关节位置S6(t-1,k)、S7(t-1,k)、以及当前时刻(t)的双肘的关节位置S4(t)、S5(t)作为输入信息,算出当前时刻(t)的双肘的关节位置S6(t,k)、S7(t,k)的预测值。
式5S6(t,k)=ω6(t,k)(S6(0)-S4(0))+ξ6(t,k)(S4(t))(9)S7(t,k)=ω7(t,k)(S7(0)-S5(0))+ξ7(t,k)(S5(t))(10)S6与S7的位置/姿势估计部84如后面叙述的那样评价当前时刻(t)的双臂的关节位置S6(t,k)、S7(t,k)的假设{k=1,2,...,K}的可靠性,例如将可靠性最高的假设S6(t)、S7(t)作为双臂的关节位置而输出。
另外,图9所示的用于预测下半身的各关节的结构具备预测后背的关节S8的位置/姿势的S8的位置/姿势预测部55、S8的位置/姿势估计部85、根据后背的关节S8的估计结果预测腰部关节S9、S10的位置/姿势的S9与S10的位置/姿势预测部56、S9与S10的位置/姿势估计部86、根据腰部关节S9、S10的估计结果预测双膝的关节S11、S12的位置/姿势的S11与S12的位置/姿势预测部57、S11与S12的位置/姿势估计部87、根据双膝的关节S11、S12预测双脚的关节S13、S14的位置/姿势的位置/姿势预测部58、以及S13与S14的位置/姿势估计部88。
S8的位置/姿势预测部55接收上一个时刻(t-1)的后背的关节位置S8(t-1,k)、以及当前时刻(t)的头的关节位置S0(t)作为输入信息,算出当前时刻(t)的后背的关节位置S8(t,k)的预测值。
式6S8(t,k)=ω8(t,k)(S8(0)-S0(0))+ξ8(t,k)(S0(t))(11)S8的位置/姿势估计部85如后面叙述的那样评价当前时刻(t)的后背的关节位置S8(t,k)的假设{k=1,2,...,K}的可靠性,例如将可靠性最高的假设S8(t)输出到S9与S10的位置/姿势预测部56。
S9与S10的位置/姿势预测部56接收上一个时刻(t-1)的腰部的关节位置S9(t-1,k)、S10(t-1,k)、以及当前时刻(t)的后背的关节位置S8(t)作为输入信息,算出当前时刻(t)的肩的关节位置S9(t,k)、S10(t,k)的预测值。
式7S9(t,k)=ω9(t,k)(S9(0)-S8(0))+ξ9(t,k)(S8(t))(12)S10(t,k)=ω10(t,k)(S10(0)-S8(0))+ξ10(t,k)(S8(t))(13)S9与S10的位置/姿势估计部86如后面叙述的那样评价当前时刻(t)的腰部的关节位置S9(t,k)、S10(t,k)的假设{k=1,2,...,K}的可靠性,例如将可靠性最高的假设S9(t)、S10(t)输出到S11与S12的位置/姿势预测部57。
S11与S12的位置/姿势预测部57接收上一个时刻(t-1)的双膝的关节位置S11(t-1,k)、S12(t-1,k)、以及当前时刻(t)的腰部的关节位置S9(t)、S10(t)作为输入信息,算出当前时刻(t)的双膝的关节位置S11(t,k)、S12(t,k)的预测值。
式8S11(t,k)=ω11(t,k)(S11(0)-S9(0))+ξ11(t,k)(S9(t))(14)S12(t,k)=ω12(t,k)(S12(0)-S10(0))+ξ12(t,k)(S10(t))(15)S4与S5的位置/姿势估计部87如后面叙述的那样评价当前时刻(t)的双膝的关节位置S11(t,k)、S12(t,k)的假设{k=1,2,...,K}的可靠性,例如将可靠性最高的假设S11(t)、S12(t)输出到S12与S13的位置/姿势预测部58。
S13与S14的位置/姿势预测部58接收上一个时刻(t-1)的双脚的关节位置S13(t-1,k)、S14(t-1,k)、以及当前时刻(t)的双膝的关节位置S11(t)、S12(t)作为输入信息,算出当前时刻(t)的双脚的关节位置S13(t,k)、S14(t,k)的预测值。
式9S13(t,k)=ω13(t,k)(S13(0)-S11(0))+ξ13(t,k)(S11(t))(16)S14(t,k)=ω14(t,k)(S14(0)-S12(0))+ξ14(t,k)(S12(t))(17)S13与S14的位置/姿势估计部88评价当前时刻(t)的双脚的关节位置S13(t,k)、S14(t,k)的假设{k=1,2,...,K}的可靠性,例如将可靠性最高的假设S13(t)、S14(t)作为双脚的关节位置而输出。
通过这样根据追踪精度(概率)来预测相邻关节点,能够以较少的假设来预测全身的运动。例如,在将各关节点的假设k(预测滤波器数量)设为10、并同时预测了15关节的动作的情况下,需要1015的假设数量,但是在分层预测了相邻关节点的情况下,只需要10×15=150的假设数量即可。
另外,关于本方法,评价上一个关节点Sk-1的追踪结果的可靠性,使Sk的预测模型(参数)动态地变化,由此可防止例如在S0的估计结果不好的情况下影响到全部的关节点那样的由各层次的误差累积引起的追踪精度的降低。例如,在关节点S4的追踪结果的可靠性的评价值低的情况下,在预测/追踪关节点S6的动作时,如图10所示那样一边使以S4为中心的预测位置(x,y,z)概率性地变化,一边将它作为手臂(S4-S6)的转动中心,进行S6的运动预测和追踪,最终地估计手臂(S4’-S6)的运动,由此可估计新的肘关节点S4’。在该例中,能够将手臂(S4’-S6)的估计结果作为更正确的肘关节位置而得到,因此也可以将肘关节点S4’的结果反馈给上臂(S2-S4)的估计结果。
图11是用于说明姿势/位置投影部6、可靠性评价部7、以及姿势/位置估计部8的处理的示意图。
姿势/位置投影部6将各关节的假设k的预测位置(x,y,z)k投影到2D图像(u,v,depth)k上。即,根据由照相机校准得到的投影矩阵将由图8和图9所示的各位置/姿势预测部51~58所预测的各假设投影到二维图像上。作为具体例,例如对图11的(A)所示的右臂的关节S7的各假设的预测位置(x,y,z),如图11的(B)所示那样,将这些坐标值投影到观测图像上,求出二维图像上的投影位置/视差(u,v,depth)。
可靠性评价部7评价由各假设得到的观测图像上的投影位置的图像信息与预先保存的模型图像的图像信息之间的相似性,计算所预测的各假设的可靠性(概率)。在此,作为模型图像的图像信息,可以使用初始化时保存的图像信息(例如某窗口内的图像纹理、颜色分布、视差等)。另外,作为相似性评价方法,例如可以使用利用这些图像样式的标准化相关、这些图像样式的颜色分布特性的匹配。
匹配评价通过如下的处理进行在将由分层运动预测单元所预测的当前时刻(t)的各关节点Sm(t,k)的假设(m关节点编号、k假设的编号)的三维位置投影到当前时刻(t)的二维图像平面上时,使用假设的运动预测参数(R,T),在与初始化时得到的图像区域对应的三维区域位置上进行旋转(R)、移动(T)处理,求出二维模型图像样式,进行该模型图像样式与假设的投影位置的图像样式之间的相似性评价,计算匹配率。
姿势/位置估计部8对由相似性评价值(概率)得到的各关节Sm的位置/姿势进行估计。也就是说,通过将各假设的预测位置的概率作为贡献度的平均状态的统计处理,决定关节的位置/姿势。具体地说,例如如图11(B)所示,根据由可靠性评价部7的匹配处理评价的可靠性(概率),对右臂的关节S7的各假设的二维图像上的投影位置进行统计处理,由此如图11(C)所示那样估计右臂的关节S7的位置。
如上所述,通过使用对象人物的运动模型来分层预测当前时刻的关节位置,能够强力地估计在一般环境下的对象人物的三维空间的位置/姿势。另外,通过使用2台以上的多个照相机,能够容易地生成对象人物的运动模型,并且能够提高对象人物的位置/姿势的估计精度。另外,由于不使用背景差分、时间差分,因此对环境变化很稳定。另外,由于不使用标识而能够进行对象人物的位置/姿势/运动追踪,因此不给对象人物添加负担,能够实现自然的HMI。
权利要求
1.一种动作捕捉装置,追踪对象人物的各关节与肢体的三维位置和姿势,其特征在于,具备生成单元,其从上述对象人物的观测图像生成连结了各关节的运动模型;预测单元,其根据上述运动模型的关节间的连结约束和上一个时刻的预测位置分层地算出上述对象人物的各关节的当前时刻的预测位置,并预测当前时刻的各关节与肢体的三维位置和姿势;投影单元,其将由上述预测单元预测的当前时刻的对象人物的各关节与肢体的三维位置和姿势投影到二维图像上;评价单元,其根据上述对象人物的观测图像来评价由上述投影单元投影的投影位置的可靠性;以及估计单元,其根据上述可靠性的评价结果来估计上述当前时刻的对象人物的各关节与肢体的三维位置和姿势。
2.根据权利要求1所述的动作捕捉装置,其特征在于,还具备距离图像生成单元,其从上述观测图像生成距离图像;面部检测单元,其从上述观测图像检测面部区域的位置和距离;掩模生成单元,其根据上述距离图像及面部的距离,生成将对象人物作为前景的掩模图像;颜色分布算出单元,其算出上述面部区域的颜色直方图;手检测窗口生成单元,其根据上述面部区域的位置和距离,在规定位置上生成手检测窗口;手检测单元,其根据上述面部区域的颜色直方图、上述手检测窗口的位置以及上述掩模图像来检测手的位置和距离;以及关节位置算出单元,其根据上述面部的位置和距离、上述手的位置和距离来算出上述运动模型的各关节位置。
3.根据权利要求2所述的动作捕捉装置,其特征在于,上述关节位置算出单元将上述掩模图像的前景区域的肘关节在Y轴上的中央值作为肘关节的Y坐标、将上述掩模图像的前景区域的上臂部在Y轴上的中央值作为上臂部的Y坐标而求出上臂部的近似直线,将肩关节在X轴上与上述近似直线上的交点作为肩关节的位置而算出。
4.根据权利要求1所述的动作捕捉装置,其特征在于,上述生成单元从上述观测图像估计对象人物的视差图像,将该视差图像逆投影到三维空间,由此算出上述对象人物的各关节与肢体的三维位置和姿势,生成运动模型。
5.根据权利要求1所述的动作捕捉装置,其特征在于,上述投影单元根据由照相机校准得到的投影矩阵求出与三维空间上的位置对应的二维图像上的投影位置,由此将由上述预测单元预测的当前时刻的各关节与肢体的三维位置和姿势投影到上述二维图像上。
6.根据权利要求1所述的动作捕捉装置,其特征在于,上述评价单元计算对应于上述投影位置的观测图像的图像信息与预先保存的各关节及肢体的图像信息之间的相似性,评价上述可靠性。
7.根据权利要求1所述的动作捕捉装置,其特征在于,上述估计单元根据针对由上述投影单元投影的投影位置的评价值,估计上述当前时刻的对象人物的各关节与肢体的三维位置和姿势。
8.根据权利要求1所述的动作捕捉装置,其特征在于,还具备图像观测单元,该图像观测单元配置至少2台以上的照相机使得能够拍摄同一对象人物,并且预先具有它们的位置关系以及照相机参数。
9.一种动作捕捉方法,追踪对象人物的各关节与肢体的三维位置和姿势,其特征在于,具有以下工序生成工序,从上述对象人物的观测图像生成连结了各关节的运动模型;预测工序,根据上述运动模型的关节间的连结约束和上一个时刻的预测位置,分层地算出上述对象人物的各关节的当前时刻的预测位置,预测当前时刻的各关节与肢体的三维位置和姿势;投影工序,将由上述预测工序预测的当前时刻的对象人物的各关节与肢体的三维位置和姿势投影到二维图像上;评价工序,根据上述对象人物的观测图像,评价由上述投影工序投影的投影位置的可靠性;以及估计工序,根据上述可靠性的评价结果,估计上述当前时刻的对象人物的各关节与肢体的三维位置和姿势。
10.一种动作捕捉程序,执行追踪对象人物的各关节与肢体的三维位置和姿势的处理,其特征在于具有以下工序生成工序,从上述对象人物的观测图像生成连结了各关节的运动模型;预测工序,根据上述运动模型的关节间的连结约束和上一个时刻的预测位置分层算出上述对象人物的各关节的当前时刻的预测位置,并预测当前时刻的各关节与肢体的三维位置和姿势;投影工序,将由上述预测工序预测出的当前时刻的对象人物的各关节与肢体的三维位置和姿势投影到二维图像上;评价工序,根据上述对象人物的观测图像评价由上述投影工序投影的投影位置的可靠性;以及估计工序,根据上述可靠性的评价结果估计上述当前时刻的对象人物的各关节与肢体的三维位置和姿势。
全文摘要
本发明的目的在于提供不管人物运动的速度、复杂的背景等如何都能够在实际环境下利用的可靠性高的动作捕捉装置和动作捕捉方法、以及动作捕捉程序。以与运动模型的关节间的连结性约束相应的顺序,由姿势/位置预测部(5)预测关节的预测位置,由姿势/位置投影部(6)将预测位置投影到二维图像上,由可靠性评价部(7)对投影在二维图像上的预测位置的可靠性进行评价,由姿势/位置估计部(8)根据评价结果对估计位置进行估计。然后,将由姿势/位置估计部(8)估计的估计位置使用在后面进行预测的分层关节的预测位置运算中。
文档编号A61B5/11GK101093582SQ200710108500
公开日2007年12月26日 申请日期2007年6月19日 优先权日2006年6月19日
发明者吴伟国, 山冈启介, 刘玉宇 申请人:索尼株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1