一种信息处理方法及电子设备的制造方法_4

文档序号:9471559阅读:来源:国知局
可以包括与所述关节参数对应的自由度参数;
[0127]根据所述历史离线数据得到至少一个第三模型,所述第三模型用于表征通过所述关节参数分割的人体各个部分,并作为参考标准;
[0128]获取针对至少一个第三模型进行数据采集时得到的对应不同深度的多个第一视频;
[0129]在所述对应不同深度的多个第一视频间运算得到的第一深度信息作为调整量,并用于对所述参考标准进行调整,将调整得到的数据作为人体未来在运动时可能会发生形变的人体姿态预测值,将所述预测值确定为所述训练数据。
[0130]在本发明实施例一实施方式中,所述处理器,进一步用于:
[0131]将所述调整量分割后得到各个调整子参量,将所述各个调整子参量对应匹配到所述通过所述关节参数分割的人体各个部分,如果匹配成功,则对相应的部分进行调整。或者,所述处理器,进一步用于:建立所述调整量与所述通过所述关节参数分割的人体各个部分之间的关联,通过所述关联跟踪所述调整量与所述通过所述关节参数分割的人体各个部分之间的动态变化结果,记录所述动态变化结果,根据所述动态变化结果训练得到一个多层的神经元网络,所述神经元网络能表征通过所述调整量关联到的人体运动可能会发生形变的人体姿态。
[0132]在本发明实施例一实施方式中,所述处理器,进一步用于:
[0133]将所述至少一个第三模型按照所述关节参数对齐,以构成完整的人体跟踪模型;
[0134]提取所述训练数据中用于表征人体各个部分的形状模型参数,结合所述人体跟踪模型组装成用于表征人体运动发生形变时的各姿态身体模型参数;
[0135]获取所述第二数据,所述第二数据为进行数据采集时得到的对应不同深度的多个第二视频,对所述多个第二视频进行预处理得到表征完整人体的第二深度信息;
[0136]将所述第二深度信息按照所述关节参数分割后,得到多个第三数据,将所述表征人体各个部分的形状模型参数用于匹配到相应的第三数据并进行调整和合成,得到第一合成结果;将所述表征人体运动发生形变时的各姿态身体模型参数用于匹配到相应的第三数据并进行调整和合成,得到第二合成结果;
[0137]根据所述第一合成结果和所述第二合成结果生成第二模型。
[0138]以一个现实应用场景为例对本发明实施例阐述如下:
[0139]首先对现有技术的一些技术进行介绍,对于应用场景为:多摄像机的三维人体跟踪与建模(mult1-camera based human tracking&modeling)的情况,三维人体跟踪与建模(3d human tracking and modeling)的目标是在摄像机的视角里面实时跟踪人体的三维运动并建立人体的三维模型,有着广泛的应用,包括自然人机交互,远程呈现(tele-presence),虚拟现实游戏等。和一般物体的三维建模相比,该问题的难度在于人体具有很多关节(主要关节有颈,肩,肘,腕,腰,胯,膝,踝关节),每个关节又有多个自由度,因此人体在运动时会表现出形态多样的形变。此外人体在运动中自遮挡的问题非常常见,这又增加了基于视觉传感方式的难度。
[0140]现有的解决方案主要有如下三种:
[0141]1、如图6所示,依赖用户身上各关节处佩戴的可反光的标识小球,通过多个主动发射近红外光的近红外相机捕捉标示小球在空间中的位置来推算出人体的姿态,来控制通用的人体模型。该方案(optical tracking)是目前专业动作捕捉领域(电影制作)中通用的解决方案,但造价十分昂贵,系统标定复杂,不适合普通用户的使用。虽然可以很精确地跟踪人体姿态,但对个体性的三维建模存在不足。
[0142]2、如图7所示,依赖用户身上各关节处佩戴小型惯性测量单元(MU),更过各个IMU测量到的转动角度来判断人体姿态。该方案是optical tracking的替代方案,解决了部分标定复杂的问题,但IMU需要格外的供电,仍然增加了用户使用的复杂性。
[0143]3、如图8所示,依赖于主动三维深度感知器(active 3d sensors),比如Microsoft Kinect和Intel RealSense等。这种技术需要专门的发光器件和感知器,导致设备的尺寸、造价都没有压缩空间,仅限于室内使用,严重影响了在各种便携式设备(比如手机、tablet等)上面的推广。
[0144]对于上述应用场景,采用本发明实施例的这种新型的三维人体跟踪与建模技术,这种技术只需要用两个或更多的小型摄像头(compact camera)就可以高速(?60FPS)、准确的捕捉到三维人体动作并计算出人体的三维几何形状。这项技术的核心在于结合离线的大规模人体运动数据集学习和实时的粗略深度计算来实现人体模型与运动的快速拟合和修正。这项技术可以产生基于多个compact camera的三维感知方案,无论是精度、速度、尺寸等都更满足实际应用的需求。精确的人体建模可以实现对视线(eye gaze)的自动校正,已解决在视频通讯中没有正视人脸视线的问题;也可以更精准的识别三维的手势,比如整个手掌的三维旋转等,实现更自然的手势控制。
[0145]如图9所示,分成两个支路,一条是针对历史离线数据而言,包括基于历史离线数据得到的训练数据,另一条是针对实时数据而言。对于第一个支路而言,先根据离线捕捉历史数据得到已知的三维人体模型库,该模型库中包括按照关节参数分割的身体各个部分的数据,之后将身体各个部分的数据对应的模型对齐,得到完整的人体模型,再分割身体部件的形状模型,训练各身体部件的形状模型,离线捕捉的三维人体模型库。对于第二条支路而言,通过多摄像机系统,如两个或三个采集设备,以生成多角度深度图,计算点云并融合后,也是按身体部件分割,通过第一条支路得到的形状模型参数作为调节量,结合第二支路一起拟合形状模型,通过第一条支路得到的姿态模型参数作为调节量,结合第二支路一起拟合姿态生成最终的人体模型。
[0146]该新型的三维人体跟踪与建模方案包括以下内容:
[0147]—、离线的大规模人体运动数据集学习:首先需要采集人体运动的高精度三维数据集,这个可以通过主动式深度感知器(比如Kinect)得到,或者通过贴上IR reflector来得到人体的关节模型。这样得到人体运动的ground truth--作为参考标准;同时需要捕捉多摄像头的视频、并计算多视频之间对应的深度图,作为观察量(observat1n)---调整量。接下来需要用机器学习的方法来得到这两者的对应,可以采用的一种办法是spatialtemporal volume matching,对时空域中的小片段进行匹配并对应到高精度的三维运动中;另一种办法是用深度学习的方法来训练一个多层的神经元网络,从多摄像头的视频来关联到尚精度的人体运动。
[0148]二、实时的计算:在基于多摄像头视频的深度计算过程中,我们首先快速计算一个粗略的深度图,然后再用离线学习的结果来反推人体的三维运动。在这个过程中,也同时利用已知的人脸、身体三维网状模型对计算结果进行更强的约束。这样通过离线计算的运动数据、已知的三维模型和快速计算得到的粗略深度图对真实的人体运动及模型进行快速的拟合和估计。
[0149]三、离线计算的运动数据(静态信息,用于学习)+ (已知的三维模型,进一步的优化)+快速计算得到的粗略深度图(实时的动态信息)拟合得到的形态来建模。
[0150]采用本发明实施例,具备以下优点:
[0151]—、相比于只使用普通彩色摄像头,成本低,可以方便的集成到手机和平板电脑上使用;二、受环境光照影响小,可以扩展到室外应用;三、用户不需要佩戴任何标志物,不需要额外的标定,便于非专业人士使用。
[0152]在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
[0153]上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1