一种基于运动单元表情映射实现人脸动画的方法与流程

文档序号:17150275发布日期:2019-03-19 23:21阅读:214来源:国知局
一种基于运动单元表情映射实现人脸动画的方法与流程
本发明涉及深度学习和人脸动画技术
技术领域
,具体涉及一种基于运动单元表情映射实现人脸动画的方法。
背景技术
:在计算机图形学和计算机视觉领域中,人脸动画技术旨在获取源主体的面部表情并将其映射至虚拟人物面部。其中,最常见的方法是基于深度摄像机的人脸动画方法和基于视频图像的人脸动画方法,基于深度摄像机的人脸动画方法主要利用动态表情模型实时捕获人脸的刚性和非刚性参数从而估计出人脸表情数据,利用人脸表情数据制作人脸动画,但深度摄像机其设备昂贵、应用场景受限,适用性不强。基于视频图像的人脸动画方法主要通过定位人脸的语义特征点,利用特征点的位置回归出人脸的三维形状,同时调整摄像机参数以计算人脸的姿势参数和表情系数。然而,人脸三维形状的回归是一个耗时费力的工作,且计算出来的表情参数并不足以系统地、准确地刻画人脸表情变化。技术实现要素:本发明实施例的目的在于提供一种基于运动单元表情映射实现人脸动画的方法,用以解决现有实现人脸动画的方法适用性不强,不能直接利用二维特征准确地刻画人脸表情变化的问题。为实现上述目的,本发明实施例提供一种基于运动单元表情映射实现人脸动画的方法,所述实现人脸动画的方法包括:利用面部运动编码系统重新定义24个人脸运动单元,形成新的表情编码系统;采集视频数据,并运用表情量化软件对所述视频数据中的每一帧图像的面部运动单元进行标注,建立人脸表情数据集;对标注后的所述人脸表情数据集进行人脸检测,利用卷积神经网络进行特征提取;基于三层神经网络并结合提取的特征构建对运动单元参数进行回归的回归网络模型;利用所述回归网络模型、结合所述新的表情编码系统和表情融合模型驱动虚拟人物实现人脸动画。作为优选的技术方案,所述新的表情编码系统包括重新定义的9个对称运动单元、10个非对称运动单元、2个对称运动描述符和2个非对称运动描述符。作为优选的技术方案,所述建立人脸表情数据集的方法包括:在自然环境下,利用摄像机对若干参与者进行视频录制,得到在不同光照、不同姿态、不同年龄段、不同性别的人脸表情视频序列;用0-1之间的浮点数量化每一帧人脸图像的每一个运动单元;对每一帧人脸图像所涉及到的运动单元进行标注,最终建立包含若干张标注的表情图像的人脸表情数据集。作为优选的技术方案,所述运动单元的参数用于刻画任一特定表情下各个运动单元相对于自然人脸中各个运动单元的偏离程度,在自然人脸状态下所有运动单元的参数均置为0,所以运动单元的偏离程度越低,运动单元的参数值越小即接近于0,运动单元的偏离程度越高,运动单元的参数值越高即接近于1。作为优选的技术方案,所述特征提取的方法包括:利用二维特征点回归器检测出数据集中每张图像的二维特征点;再依据两个瞳孔间的距离对图像进行裁剪,并将裁减后的图像归一化至网络的输入尺寸;然后利用深度卷积神经网络对人脸特征进行提取。作为优选的技术方案,所述回归网络模型的构建方法包括:利用一个三层的神经网络来联合地回归面部运动单元参数;利用欧氏距离损失来衡量回归结果;其中,所述三层的神经网络包括两个连接了整流线性单元的全连接层以及用于使运动单元参数回归到最优维度的dropout层。作为优选的技术方案,所述回归网络模型的构建方法还包括:通过公开的深度学习框架caffe对所述回归网络模型进行训练,用所述深度学习框架caffe中提供的预训练模型对网络参数进行初始化,基于随机梯度下降算法对回归网络模型进行优化,同时调整包含迭代次数、学习率、权重衰减一系列超参数以最小化欧氏距离损失,最终得到训练完成的最优回归网络模型。作为优选的技术方案,所述实现人脸动画的方法包括:利用所述回归网络模型回归出实时采集的视频序列的每一帧图像的运动单元参数;同时基于epnp算法估计出头部的刚性变换,包括旋转矩阵和平移向量;将得到的运动单元参数映射至虚拟人物,结合虚拟人物和重新定义24个人脸运动单元相对应的基础三维人脸表情形状和中立表情形状,得到动画角色的相应脸部表情;再将头部动作的刚性参数映射至虚拟人物以得到动画角色的相应头部姿态,从而形成人脸动画。本发明实施例具有如下优点:(1)本发明能够基于单个视频摄像机获取到的视频序列,准确地回归出用于刻画人脸表情的人脸运动单元参数,并将该参数映射至虚拟人物面部以驱动动画角色的脸部表情动作。(2)本发明具有很强的适用性,普通用户也可以在任何环境下使用手机、电脑等含有单目摄像头的设备进行拍摄,即可基于整张人脸图像准确地获取人脸的运动单元参数,并将其映射至虚拟人物面部进行表情动画。(3)本发明直接从二维图像中基于深度学习算法更加准确的回归表情参数,无需根据人脸二维特征点进行三维人脸形状的回归以计算表情参数,具有更好的动画效果。附图说明图1为本发明实施例1提供的一种基于运动单元表情映射实现人脸动画的方法的流程图。具体实施方式以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。须知,本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。同时,本说明书中所引用的如“上”、“下”、“左”、右”、“中间”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。实施例1本实施例提供一种基于运动单元表情映射实现人脸动画的方法,包括:s1:利用面部运动编码系统重新定义24个人脸运动单元,形成新的表情编码系统;s2:采集视频数据,并运用表情量化软件对所述视频数据中的每一帧图像的面部运动单元进行标注,建立人脸表情数据集;s3:对标注后的所述人脸表情数据集进行人脸检测,利用卷积神经网络进行特征提取;s4:基于三层神经网络并结合提取的特征构建对运动单元参数进行回归的回归网络模型;s5:利用所述回归网络模型、结合所述新的表情编码系统和表情融合模型驱动虚拟人物实现人脸动画。具体地,本实施例基于面部编码系统即facialactioncodingsystem对24个运动单元进行重新定义生成新的表情编码系统,以表现不同的人脸表情,面部表情编码系统是根据人脸的解剖学特点,将其划分成若干既相互独立又相互联系的运动单元即actionunits,并分析这些运动单元的运动特征及其所控制的主要区域以及与之相关的表情,该套系统将许多现实生活中人类的表情进行了分类,它是如今面部表情的肌肉运动的权威参照标准,也被心理学家和动画片绘画者使用。本实施例中,新的表情编码系统包括重新定义的9个对称运动单元、10个非对称运动单元、2个对称运动描述符和2个非对称运动描述符。由于面部编码系统即facs定义的运动单元主要用于人脸表情分析,为了使驱动人脸动画时的表情融合步骤更加方便,一个运动单元对应于一个三维人脸表情形状,本实施例将facs中的一些非对称运动单元的左右部位视为两个不同的运动单元,如将眼睛闭合运动单元拆分为为左眼闭合运动单元和右眼闭合运动单元,同样的拆分方式适用于facs中的眼睑提升、眉毛下压、下巴滑动、嘴角上扬、嘴角外展运动单元。此外,本实施例将抿嘴运动单元拆分为上嘴唇内收和下嘴唇内收两个不同的运动单元。下表列出了24个运动单元即au的编号与定义和与之相对应的facs中au的编号与定义。au定义facs序号及定义au定义facs序号及定义1左眼闭合au43eyeclosure13右嘴角上扬au12lipcornerpuller2右眼闭合au43eyeclosure14左嘴角外展au20lipstretcher3左眼睑提升au5upperlidraiser15右嘴角外展au20lipstrecher4右眼睑提升au5upperlidraiser16上嘴唇内收au28lipsuck5左眉毛下压au4browlowerer17下嘴唇内收au28lipsuck6右眉毛下压au4browlowerer18下嘴唇向外ad29jawthrust7左眉毛上扬au2outerbrowraiser19上嘴唇向上au10upperlipraiser8右眉毛上扬au2outerbrowraiser20下嘴唇向下au16lowerlipdepressor9张嘴au26jawdrop21嘴角向下au17chinraiser10下嘴唇向左ad30jawsideways22嘟嘴au18lippucker11下嘴唇向右ad30jawsideways23脸颊鼓起ad34puff12左嘴角上扬au12lipcornerpuller24皱鼻子au9nosewrinkler进一步地,本实施例中建立人脸表情数据集的方法包括:利用普通的单目摄像头对122个参与者在自然环境下进行视频录制,要求图像中人脸至少10万像素。每段视频涉及表情4-29个,时长10s至120s,最终得到了在不同光照下,不同姿态、不同年龄段、不同性别的123个人脸表情视频序列。本发明无需特殊的摄像头即可完成,具有很强的适用性。用0-1之间的浮点数量化每一个运动单元,有利于在源图像和三维虚拟人物之间进行表情参数映射,然后对视频序列中的每一帧人脸图像所涉及到的运动单元进行标注,精确到小数点后两位;其中,在自然人脸状态下所有运动单元参数均置为0,各个运动单元参数主要为刻画某一特定表情下各个运动单元相对于自然人脸中各个运动单元的偏离程度,偏离程度越低,该运动单元参数值越小即接近于0,偏离程度越高,该运动单元参数值越高即接近于1。利用表情量化软件提高标注效率,最终建立了包含99356张标注完成的表情图像的人脸表情数据集。进一步地,特征提取的方法包括:首先利用二维特征点回归器跟踪人脸,并定位出人脸表情数据集中每张图像的68个特征点,之后依据图像中两个瞳孔间的距离对图像进行裁剪,再将裁减后的图像归一化至网络的输入尺寸。再利用深度卷积神经网络对人脸特征进行提取,并从深度卷积神经网络的最后一个全连接层获取到1000维的特征向量以刻画人脸特征,用来构建回归网络模型。进一步地,构建回归网络模型的方法包括:利用一个三层的神经网络来联合地回归25个面部运动单元参数,并利用欧氏距离损失来衡量回归结果;其中,三层神经网络的单元数分别为1000,512和24,前两个全连接层均连接了整流线性单元以实现网络的非线性性,由于并不是特征向量的每一维都可以提供关于人脸运动单元的信息,所以需要进行维度缩减,在全连接层之后加上dropout层以让网络自身决定用于运动单元参数回归的最优维度,比手动的进行维度缩减更精确且更有效率,并且dropout率依次为0.4和0.3。再通过公开的深度学习框架caffe对整个网络模型进行训练,用caffe中提供的bvlc_googlenet预训练模型对网络参数进行初始化,基于随机梯度下降算法对网络模型进行优化,其中,迭代次数为130000次,基础学习率为0.001,动量参数设置为0.9,权值衰减设置为0.0002,最终得到了最优的训练完成的网络模型。在此基础上,对比了用alexnet和vgg-16来进行特征提取所得到的回归结果,综合精确度和速度这两方面因素,最终选用googlenet作为特征提取器。更进一步地,利用回归网络模型回归出实时采集的视频序列的每一帧图像的运动单元参数;同时基于epnp算法估计出头部的刚性变换,包括旋转矩阵和平移向量;将得到的运动单元参数映射至虚拟人物,以作为虚拟人物的三维动态表情参数,再结合虚拟人物和重新定义24个人脸运动单元想对应的基础三维人脸表情形状和中立表情形状,得到动画角色的相应脸部表情;再将头部动作的刚性参数映射至虚拟人物以得到动画角色的相应头部姿态,从而形成人脸动画。其中,特定姿态特定表情下虚拟人物的三维人脸形状可总结为下述函数:其中,b0为自然人脸的三维形状,bi为其余与运动单元相对应的人脸三维形状,β={β1,β2,......,β24}为表情参数向量,即从源视频序列中回归出的运动单元参数向量。本发明直接从二维图像中基于深度学习算法更加准确的回归表情参数,无需根据人脸二维特征点进行三维人脸形状的回归以计算表情参数,能够准确地回归出用于刻画人脸表情的人脸运动单元参数,并将该参数映射至虚拟人物面部以驱动动画角色的脸部表情动作。具有更好的动画效果。虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1