一种表情捕捉及动画自动生成系统和方法与流程

文档序号:13760765阅读:779来源:国知局
一种表情捕捉及动画自动生成系统和方法与流程

本发明属于面部运动捕捉跟踪和表情重定向技术领域领域,尤其是一种表情捕捉及动画自动生成系统和方法。



背景技术:

面部表情动画精细而多变,之前的制作过程更是需要大量的后期人工,为了简化工作量,节约时间和制作成本,一个非常可行的方式就是使用表情捕捉及动画自动生成技术,对人物的面部动作捕捉,将表情动态进行三维数字化解算,得到三维动作数据,经由表情编码系统分析编码,将结果输出到3d软件中驱动表情动画模型,重现真人的各种精细表情,从本质上提升CG表情动作效果,有效地节约成本。使用表情捕捉及动画自动生成技术可以实时地准确测量和记录面部肌肉在真实三维空间中的运动轨迹或姿态,对数字化捕捉信息进行表情动作分析后,在虚拟三维空间中重建每一时刻面部表情。该技术让CG表情动作制作效率提高数百倍,大大节省了人力成本和制作周期,制作者可以将更多精力投入在CG创意和细节刻画等方面,大幅提升产品的整体制作水平。技术的开发以好莱坞影视圈为主要基地,目前已引入到3D游戏动漫、电影特效、非物质文化创意数字化、虚拟现实、广告创意、人机交互、机器人仿真等诸多领域。

标记点式表情捕捉技术在三维制作领域已经有着成熟的应用,该技术具有保持自然特征点形态稳定且排除光照条件的不稳定因素的特点。其原理是利用多相机立体视觉技术,对粘贴于被测对象表面的高亮反光标记进行高速同步拍摄、特征跟踪和实时精确地三维重建,记录和重现关键点的运动轨迹。该方法有着独特的技术优势:可以灵活地对面部任何指定点或感兴趣的部位进行稳定可靠的运动跟踪分析;运动测量精确,精度可达到0.1mm/1m;可实现在线实时的数据自动处理分析,操作简单便捷,无需复杂后处理技术操作,同时保证较高的精度和可靠性。

从目前市场应用情况看,表情捕捉及动画自动生成应用相对较少,大部分动作捕捉打造的作品如动画片、游戏等只有肢体动作的真实体验而缺乏表情的体现,这也成为用户对产品普遍诟病的问题。制约该技术应用的主要原因在于现阶段国内的相关技术不成熟,并且没有完整的表情捕捉及动画自动生成流程的系统产品出现,仅有的一些可选方案(国外相关技术软硬件支持)成本过高,导致很多动画制作商对表情捕捉及动画自动生成技术充满期待,却难以找到真正实用的方案。

现在国内外并未出现集表情捕捉、分析处理和动画自动生成于一体的系统产品。一些方案在表情捕捉技术上达到可观的效果,但费用十分昂贵且有缺陷。例如,高端动作捕捉品牌Vicon和魔神采用的方案是肢体捕捉的同时,在人脸粘贴标记点,利用高分辨率系统同步捕捉肢体和面部细节的运动。该技术可达到肢体和表情数据高度同步,缺点是由于面部细节标记点过多,适用于肢体捕捉的大视场捕捉对面部稠密标记点跟踪容易失效,导致大量跳点问题发生,后处理十分繁杂,成为实际应用的最大障碍。OptiTrack方案是将采用落地式动作捕捉系统,将捕捉有效范围调整至人脸适合大小,固定朝向人脸进行标记点捕捉。该技术同样存在大量丢点、跳点问题,影响最终的数据稳定性。Vicon推出了Cara表情捕捉方案,采用双目或四目摄像头对面部标记点进行高清采集和三维重建。该技术最大程度上保证了面部肌肉运动捕捉的精细度和准确度,同时也尽可能地避免了对演员表演的约束,但问题是得到的标记点运动数据如何能够在最终的动画制作中有效地使用,并没有形成简单实用的方案,需要依靠后期制作公司的专业处理才能实现较好的效果。



技术实现要素:

本发明的目的在于克服现有技术的不足之处,提供一种表情捕捉及动画自动生成系统和方法,能够快速、方便、准确地捕捉面部密集的特征点集在三维空间连续运动的轨迹并进行表情分析编码,实现表情重定向动画预览,效率、准确度以及逼真效果比手工制作提高数百倍,同时为表情捕捉及动画自动生成技术在较低成本、较通用技术和简便操作手段的基础上服务于国内市场提供了极大的可能性。

本发明解决技术问题所采用的技术方案是:

一种表情捕捉及动画自动生成系统,包括运动捕捉装置及上位机,所述的运动捕捉装置包括可编程门阵列及视觉图像传感器,所述的上位机分别与可编程门阵列及视觉图像传感器连接,可编程门阵列与视觉图像传感器连接,可编程门阵列接收上位机发送的预设脉冲触发信号和曝光时间,根据预设脉冲触发信号和曝光时间向所述视觉图像传感器发送触发信号,视觉图像传感器接收可编程门阵列发出的触发脉冲信号,曝光采集图像对并数据进行预处理,将处理后的数据传送至上位机,所述的上位机对视觉图像传感器上传的特征点进行提取、预测追踪及三维重建,纠错和编号标识,对捕捉的表情数据进行分析,根据表情编码系统对表情帧编码,提取简化表情描述符,使用简化表情描述符,合成原有表情,实现表情重定向动画预览。

而且,所述的图像的预处理是通过可编程门阵列对图像进行分割,只保留高亮标记点周围的小块图像,除去图像大部分区域黑色背景图像数据。

而且,所述的视觉图像传感器包括多个光学相机,多个光学相机通过上位机定标,在定标计算方法中加入了镜头畸变数学模型,采用大型稀疏矩阵的非线性快速计算方法解算多目视觉系统内外结构参数。

而且,所述的视觉图像传感器包括辅助照明设备,所述的辅助照明设备为环形LED灯,所述环形LED灯同轴安装在相机光学镜头的外沿,通过相机自身的信号输入输出接口与相机连接,该接口输出的闪光灯信号控制LED灯进行与相机采集同步的频闪工作。

而且,所述上位机对视觉传感器获得的特征点二维预处理数据进行二维卡尔曼追踪预测,根据立体视觉原理,将二维数据进行三维重建,并进行三维卡尔曼预测,根据刚体结构约束进行纠错,最后进行编号标识。

而且,上位机根据表情编码系统,将所有的脸部肌肉动作划分为若干个既相互独立又相互联系的基本运动单元,与基准帧的所有特征观察点位置位移差作为任意帧的特征描述,挑选捕捉的表情数据中某些特定帧的结果特征作为基本运动单元的描述符,将这些单元作为字典索引,使用非线性最小二乘法拟合任意表情帧,求取索引编码,即任意表情帧对应的所有基本运动单元权重系数作为简化表情描述符。

而且,所述的表情重定向,具体方法为:结合Blendshape技术,将面部的语义模型定义为一个线性表达,任意表情都由若干blendshape项线性组合而成,则表情重定向转换为求解blendshape项的权重问题,根据blendshape项与基本运动单元之间的映射关系,将表情帧编码系数重新组合,得到blendshape项的权重值,驱动模型,合成表情动画,并可在3d软件中实时输出动画效果。

而且,所述的运动捕捉装置通过固定装置固定在能获取面部观察点的位置。

一种表情捕捉及动画自动生成系统的生成方法,步骤如下:

⑴上位机与视觉图像传感器通讯,检测预先设定的图像采集曝光时间,上位机将上述曝光时间发送至可编程门阵列,可编程门阵列设定脉冲信号输出宽度及触发输出频率;

⑵可编程门阵列发送触发信号控制光学元件频闪并控制视觉图像传感器开始曝光采集图像对并进行数据处理;

⑶视觉图像传感器将采集图像对中所有特征观察点的圆心位置传送至上位机;

⑷上位机使用二维卡尔曼跟踪预测所有图像中的观察点;根据立体视觉原理对极几何理论,对特征观察点进行空间三维重构,并进行三维卡尔曼预测,修正预测偏差;

⑸上位机对重建的特征点进行自动识别并编号;

⑹对捕捉的表情数据进行分析,根据表情编码系统对任意表情帧编码,提取简化表情描述符;

⑺使用表情描述符,合成原有表情,实现表情重定向动画预览。

而且,所述步骤⑵的具体流程为:

①可编程门阵列向视觉图像传感器发出脉冲触发信号;

②光学元件在脉冲信号上升沿通电亮起;

③视觉图像传感器在脉冲信号上升沿开始曝光;

④视觉图像传感器曝光结束,完成一次图像对采集;

⑤光学元件在脉冲下降沿断电熄灭;

⑥等待可编程门阵列下一次触发。

本发明的优点和积极效果是:

本发明基于可编程门阵列FPGA实现表情捕捉系统的精确同步和逻辑控制,三维智能捕捉单元对面部观察点进行追踪、预测、三维重建和编号标识,相机自标定技术对多相机进行参数标定,表情分析模块对表情捕捉数据实时分析,进行表情编码,提取简化的数字化表情描述,表情重定向模块中,结合Blendshape技术,生成精细的表情序列重塑,从而完成低成本、高效率、高可靠性和高精度的表情捕捉及动画自动生成。

附图说明

图1为本发明的结构及功能框图;

图2为本发明表情捕捉装置的结构示意图(以双相机为示例);

图3为使用本系统进行表情捕捉示意图(以多相机为示例);

图4为可编程门阵列FPGA工作方法的流程示意图;

图5为上位机对特征观察点智能追踪的流程示意图;

图6为表情捕捉及动画自动生成系统总流程示意图。

具体实施方式

下面结合附图并通过具体实施例对本发明作进一步详述,以下实施例只是描述性的,不是限定性的,不能以此限定本发明的保护范围。

一种表情捕捉及动画自动生成系统,包括运动捕捉装置及上位机,所述的运动捕捉装置通过固定装置固定在能获取面部观察点的位置。所述的运动捕捉装置包括可编程门阵列(FPGA)及视觉图像传感器,所述的上位机1分别与可编程门阵列3及视觉图像传感器2连接,可编程门阵列与视觉图像传感器连接。该上位机可以理解为操控设备,例如:计算机。其具有相机自标定、观察点智能追踪、表情编码和重定向等功能。

FPGA向视觉图像传感器发送脉冲触发信号,精确控制视觉图像传感器的同步拍摄。FPGA精确同步控制的具体流程参照图4:S401中,上位机与视觉图像传感器通讯,检测预先设定的图像采集曝光时间;S402中,上位机将上述曝光时间发送至FPGA;S403中,FPGA根据接收到的曝光时间以及拍摄频率设定脉冲信号输出宽度及触发输出频率;S404中,FPGA向视觉图像传感器发出脉冲触发信号;S405中,光学元件(包括视觉图像传感器上可能附加的辅助照明光源等)在脉冲信号上升沿通电亮起;S406中,视觉图像传感器在脉冲信号上升沿开始曝光;S407中,视觉图像传感器曝光结束,完成一次图像对采集;S408中,光学元件在脉冲下降沿断电熄灭;S409中,硬件设备等待FPGA下一次触发即循环至S404。

视觉图像传感器由至少两个光学相机组成,光学相机间的结构相对固定,且相机间的相对位置关系和相机内部参数是已知的,多个相机接收FPGA发出的触发脉冲信号,在同一时间点曝光采集图像,每次采集的多幅图像组成一组立体匹配图像对,FPGA对拍摄图像进行预处理,提取特征点圆心的位置,并将结果通过相机传输线缆传送至上位机,进行智能追踪、表情分析和重定向。可选地,视觉图像传感器包括一种辅助照明设备,用于增加图像采集传感器采集到的被测物体表面的反射光强度,例如,一种与图像采集传感器光学镜头外圆轮廓同心的环形LED灯,且通过相机自身的信号输入输出接口与相机连接,该接口输出的闪光灯信号功能可以控制LED灯进行与相机采集同步的频闪工作。

图2所示为本实施例的一种工作状态下的表情捕捉设备结构示意图,表情捕捉设备主要由可编程门阵列FPGA、视觉图像传感器组成。为方便描述,以双相机作为示例,在图2中,两个相机以上下结构布置,故上方相机简称为上相机,下方相机简称为下相机。相机采用近红外波段成像的原理,图像呈黑白灰度对比鲜明的特征,通过高速Camera Link线缆传输。可编程门阵列FPGA对图像进行分割预处理,只保留高亮标记点周围的小块图像,去除图像大部分区域黑色背景图像数据。

摄像机定标过程:使用标定板进行多相机自标定,该标定板表面图案呈圆点阵列或棋盘格分布,相机以若干次不同姿态拍摄标定板,根据相机自标定方法进行多相机参数标定。相机自标定过程中,在定标计算方法中加入了镜头畸变数学模型,采用大型稀疏矩阵的非线性快速计算方法解算多目视觉系统内外结构参数。

以多相机为例,相机阵列分布在前方可以拍摄到人脸观察点的地方,且相对位置固定,与上位机相连,根据触发信号进行曝光拍摄,将处理数据传输到上位机,进行智能跟踪、表情分析和重定向预览。

表情捕捉的具体实现流程如下:对视觉传感器获得的特征点二维预处理数据进行二维卡尔曼追踪预测,根据立体视觉原理,将二维数据进行三维重建,并进行三维卡尔曼预测,根据刚体结构约束进行纠错,最后进行编号标识。其具体流程图如图5所示:S501中,FPGA发送触发信号控制视觉图像传感器曝光一次采集图像对;S502中,对各图像分别进行图像预处理,提取所有特征观察点的圆心位置;S503中,视觉图像传感器将采集图像对中所有特征观察点的圆心位置传送至上位机;S504中,使用二维卡尔曼跟踪预测所有图像中的观察点;S505中,根据立体视觉原理对极几何理论,对二维特征观察点数据进行空间三维重构,并进行三维卡尔曼预测;S506中,对三维重构的观察点进行纠错和编号标识;S507判断是否完成所有追踪任务,否则跳转至S504进入循环;S508如果判断已完成所有跟踪预测任务,则开始进行表情分析编码。

其中,上位机中的三维重建计算的功能,用于对视觉传感器采集图像对中的物体表面特征点进行三维重建,即利用立体匹配图像对中的二维特征点集基于三角测量计算法转化为三维特征点集。本实施例中,物体表面特征是一种粘贴在物体表面的人工设计的圆形标记,图像处理提取的椭圆中心即为图像上的二维特征点。根据对极几何原理,对于上相机图像中的每个特征观察点,在下相机图像的极线上寻找距离最近的二维特征观察点,上下相机对应的二维特征观察点对根据三角测量法可计算出该特征点的三维空间坐标。

上位机中的对面部观察点的编号标识功能,用于识别观察点对应的面部固有拓扑结构节点并进行编号标识。其中包括自动识别和手动识别。手动识别又称标记点模型学习过程,建立一个标准模型,对模型中的所有观察点人工进行编号标识。自动识别则无需人工标识,使用系统的已有模型(具备默认编号)进行标识。标识的具体流程为,求取捕捉的观察点集到模型点集的空间变换矩阵,即[R 0|T0],其中R 0为3×3的旋转矩阵,T0为3×1的位移向量,将捕捉的观察点集根据变换矩阵进行空间位置变换后,再根据最近距离原则,进行对应观察点编号标识。

上位机中的对面部观察点的纠错功能,用于对编号标识中的错误编号点进行纠正。在实时特征运动跟踪时,对观察点编号标识后,需要对结果进行判别和纠错。根据刚体拓扑结构进行检查,若不满足拓扑结构中的距离约束,则进行编号纠正。

上位机中的表情编码的功能,用于对捕捉的表情数据进行分析,简化精细表情表达方式,为表情重定向做准备。具体流程为,根据表情编码系统,将所有的脸部肌肉动作划分为若干个既相互独立又相互联系的基本运动单元。与基准帧的所有特征观察点位置位移差作为任意帧的特征描述,挑选捕捉的表情数据中某些特定帧的结果特征作为基本运动单元的描述符,将这些单元作为字典索引,使用非线性最小二乘法拟合任意表情帧,求取索引编码,即任意表情帧对应的所有基本运动单元权重系数作为简化表情描述符。

上位机中的表情重定向功能,用于根据表情编码自动生成表情动画预览。具体方法为:结合Blendshape技术,将面部的语义模型定义为一个线性表达,任意表情都由若干blendshape项线性组合而成,则表情重定向转换为求解blendshape项的权重问题,根据blendshape项与基本运动单元之间的映射关系,将表情帧编码系数重新组合,得到blendshape项的权重值,驱动模型,合成表情动画,并可在3d软件中实时输出动画效果,方便用户预览。

图6所示为本实施例的整体实现流程:S601、上位机控制FPGA、视觉图像传感器以及上位机开启,进入工作状态;S602中,FPGA发送触发信号控制光学元件频闪并控制视觉图像传感器开始曝光采集图像;S603中,对视觉图像传感器采集的图像进行预处理,并将处理数据传送至上位机;S604中,对视觉图像传感器拍摄图像对中的特征点进行智能追踪,包括跟踪预测、三维重建、纠错和编号标识等;S605中,对捕捉的表情数据进行分析,根据表情编码系统对任意表情帧编码,提取简化表情描述符;S606中,使用简化表情描述符,合成原有表情,实现表情重定向动画预览;S607中,等待下一次FPGA触发信号,跳转至S602进入循环。

上述系统方法提高了技术、设备的易用性和实用性,集表情捕捉及动画自动生成于一体,其特点包括:

达到了高速高分辨率的图像传输。数据在工作站端进行特征提取,由于图像已经过分割,保留的数据占用带宽减小至原始图像的百分之一,数据量减少,一条千兆网线即可传输多路图像至工作站,运算速度比原始图像提升近百倍,占用工作站资源很少。其优点在于相机成本没有任何增加,单元采集盒基于FPGA设计,成本很低,有效图像信息没有任何损失,捕捉精度高,数据稳定,传输模块同样简单,线缆少,保证动作捕捉数据质量的同时很好地控制了成本。

定标精度高。以标定板静态定标方案为基础,操作简单,使用方便,加入镜头畸变数学模型,可以得到精确的内外结构参数,三维重建精度提高的同时降低了系统对于光学镜头畸变控制质量的要求,从而再次降低了硬件成本。

提出了基于刚性体动态结构智能学习的实时动作捕捉方法。该方法使得系统不再单纯依靠系统硬件的高速性能得到可靠的运动跟踪性能,而是通过智能捕捉理论的创新降低了系统硬件的性能要求,同时提升了实时捕捉的正确率和同步动画演示的稳定性。

基于FACS表情编码系统,进行快速表情分析并提取简化描述符。基于单元索引,提取表情的主要成分,简化计算量,节约存储空间,将复杂的表情语义变为数字化表达方式,为表情重定向提供关键便捷的输入参数。

结合Blendshape技术完成精细表情重定向。Blendshape技术将人脸的语义模型表述为一个线性组合形式,仅利用较少的blendshape项权重描述,就可以方便快捷地驱动设计好的复杂脸部模型,完成精细表情重定向动画。

以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1