数字人表情及其模型生成方法、装置和VR设备的外挂系统与流程

文档序号:33625110发布日期:2023-03-25 17:27阅读:113来源:国知局
数字人表情及其模型生成方法、装置和VR设备的外挂系统与流程
数字人表情及其模型生成方法、装置和vr设备的外挂系统
技术领域
1.本公开涉及对人脸表情的捕捉和图像处理技术,具体而言,涉及一种数字人表情生成方法、数字人表情模型生成方法、装置及使用该装置的vr设备的外挂系统。


背景技术:

2.电影/电视、游戏、广告新媒体、虚拟现实等产业都需要使用大量逼真的三维数据组成的虚拟人。表情是人类传递情感的主要媒介,细节的运动节奏与幅度都参与情感传递,人脸表情追踪的准确度和精度对虚拟人的操控逼真度有直接影响。
3.此外,如果将表演者(也称为使用者)的表情动画迁移到对应的虚拟人的模型上,一般需要手动建模和大量的动画处理时间,以将虚拟人的面部表情动画制作得更逼真,制作过程费时并且昂贵。现有的便携式表情采集装置只能采集脸部的少量采样点,不能保留表演者的表情细节并将其迁移到目标的虚拟人的面部,因此无法还原微表情级别的表演。
4.再者,目前虚拟现实(vr)行业没有成熟的面部捕捉系统,无法对人脸进行准确的面部追踪,这使得vr设备在进行社交和表情交互游戏时,存在脸部表情僵化,不够逼真且不流畅等问题,实际体验并不理想。


技术实现要素:

5.本公开提供一种数字人表情模型生成方法、数字人表情生成方法和装置来实现人脸面部表情的追踪和迁移,并且提供一种vr设备的外挂系统,其可以连接到现有的vr设备,实现对人类面部表情的追踪。
6.为了解决上述技术问题中的至少之一,根据本公开的第一方面,本公开的实施例提供了一种数字人表情模型生成方法,其包括基于训练集中标注的多个面部特征点训练形状模型和纹理模型,通过扰动实验获得回归矩阵,该回归矩阵表示通过所述扰动实验获得的参数变化与纹理残差之间的关系,该训练集包括多张包含人脸表情的图片,作为多个关键帧;为每个关键帧的表情调节多个控制器的数值,得到相似度高的对应的数字人的表情,该多个控制器用于控制数字人的3d模型的表情;基于调节后的所述多个控制器的数值以及所述标注的多个面部特征点的坐标确定从所述人脸表情拟合到数字人的3d模型的映射关系。
7.可选的,所述扰动实验包括缩放尺度的扰动值的变化、旋转角度的扰动值的变化、平移的扰动值的变化、形状模型的形状参数的扰动值的变化和纹理模型的参数的扰动值的变化。
8.可选的,基于所述调节后的所述多个控制器的数值以及所述标注的多个面部特征点的坐标确定从人脸表情拟合到数字人的3d模型的映射关系的所述步骤包括使用以下等式进行拟合,
[0009][0010]
其中基函数,x为所述多个面部特征点的坐标,n为所述多个关键帧的数量,y为所述多个控制器的数值;
[0011]
通过求解上述等式,为每个关键帧获得一组权重w,将为所述多个关键帧所得到的权重作为从所述人脸表情拟合到所述数字人的3d模型的映射关系。
[0012]
可选的,所述训练集是在预先获得的表情视频中选出的所述多个关键帧。
[0013]
可选的,每个控制器的数值表示数字人的某一个特定表情的呈现强度。
[0014]
可选的,所述形状模型的训练包括将所述训练集中的面部特征点的坐标与平均参考特征点对齐,对变换后的训练集进行主成分分析获得形状模型。
[0015]
可选的,平均参考特征点通过以下方式得到:(1)获得初始化的平均参考特征点;(2)将训练集中的面部特征点与平均参考特征点对齐,并将对齐后的面部特征点平均,得到更新后的平均参考特征点,对步骤(2)迭代直到训练集中的面部特征点与平均参考特征点的误差在容许范围。
[0016]
可选的,所述纹理模型的训练包括使用仿射变换在训练集与平均参考特征点之间的对应的小三角形中进行纹理变换。
[0017]
根据本公开的第二方面,本公开的实施例提供一种数字人表情生成方法,其包括:捕捉表演者的表情视频;选择所述表情视频中的多个帧或者全部帧,使用主动外观模型进行拟合来为选择的每一帧获得多个面部特征点;基于为所述多个帧或者全部帧中的每一帧获得的所述多个面部特征点和预先确定的从人脸表情拟合到数字人的3d模型的映射关系,计算用于驱动所述数字人的3d模型的表情的多个控制器的数值;
[0018]
其中得到所述主动外观模型包括以下步骤:基于训练集中所标注的多个面部特征点训练形状模型、纹理模型,并且通过扰动实验获得回归矩阵,该回归矩阵表示通过所述扰动实验获得的参数变化与纹理残差之间的关系,其中所述训练集包括多张包含人脸表情的图片。
[0019]
可选的,得到所述从人脸表情拟合到数字人的3d模型的映射关系包括以下步骤:为所述训练集中的每个人脸表情调节所述多个控制器的数值,得到相似度高的对应的数字人的表情;基于调节后的所述多个控制器的数值以及所述训练集中所述标注的多个面部特征点的坐标得到从所述人脸表情拟合到数字人的3d模型的映射关系。
[0020]
可选的,所述使用所述主动外观模型进行拟合,为选择的每一帧获得多个面部特征点的步骤包括:
[0021]
(1)根据给定的初始化参考点获得纹理特征;
[0022]
(2)获得纹理特征与平均纹理特征之间的差值作为纹理残差,通过调整纹理模型的参数来获得新的平均纹理特征;
[0023]
(3)根据回归矩阵和所述纹理残差,求得参数变化矩阵,得到形状参数和新的纹理
特征,
[0024]
对步骤(2)和(3)迭代直到超过设置的纹理残差的阈值或者最大的迭代次数之后停止迭代。
[0025]
可选的,所述纹理模型的参数通过以下纹理模型公式来调整:
[0026][0027]
其中g是纹理特征,是平均纹理特征,φ
ɡ
是纹理特征空间的基向量,b
ɡ
是纹理特征模型的特征值。
[0028]
可选的,所述计算用于驱动所述数字人的3d模型的表情的所述多个控制器的数值的步骤包括将所述多个面部特征点的坐标带入以下等式,求得所述多个控制器的数值,
[0029][0030]
其中为基函数,x为所述面部特征点的坐标,n为所选择的帧的数量,y为所述多个控制器的数值;
[0031]
权重w基于所述训练集中所标注的多个面部特征点用所述等式预先计算,作为从所述人脸表情拟合到数字人的3d模型的映射关系。
[0032]
可选的,所述训练集中包含的所述多张图片是在预先获得的表情视频中选出的多个关键帧。
[0033]
根据本公开的第三方面,本公开的实施例提供计算机可读存储介质,其上存储有计算机程序,其中,当该程序被处理器执行时实现如第一方面实施例所述的数字人表情模型生成方法;或者,当该程序被处理器执行时实现如第二方面实施例所述的数字人模型生成方法。
[0034]
根据本公开的第四方面,本公开的实施例提供一种数字人表情生成装置,其包括摄像机,用于捕捉表演者的表情视频;
[0035]
视频捕捉控制器,从所述摄像机接收拍摄的视频,并且向所述摄像机发送拍摄指令;
[0036]
处理器;
[0037]
存储器,存储有计算机程序,所述计算机程序包括指令,当所述指令被所述处理器执行时,实现如第一方面实施例所述的数字人表情模型生成方法或者实现如第二方面实施例所述的数字人表情生成方法。
[0038]
根据本公开的第五方面,本公开的实施例提供vr设备的外挂系统,其包括
[0039]
第一组摄像机,面对使用者的眼部,该第一组摄像机包括至少两台具有红外功能的摄像机;
[0040]
第二组摄像机,面对使用者的嘴部,该第二组摄像机包括一台或多台摄像机;
[0041]
第一组红外led灯,被设置在所述第一组摄像机的附近;
[0042]
连接结构,其将所述外挂装置固定到所述vr设备上;
[0043]
同步控制器,其从所述第一组和第二组摄像机接收人脸表情数据,并且向所述第一组和第二组摄像机发送同步拍摄的信号;
[0044]
处理器;
[0045]
存储器,其存储计算机程序,该程序被处理模块执行时实现如第一方面实施例所述的数字人表情模型生成方法或者实现如第二方面实施例所述的数字人表情生成方法。
[0046]
本公开的实施例所提供的建模方法不仅利用脸部的形状信息,而且对脸部的纹理信息也进行了统计分析,构建了形状与纹理相互联系的混合模型,与单独使用形状模型相比可以获得更加精准的拟合结果。建模方法只需要特定人的少量面部表情图片,就可以得到对应的人脸形状和纹理模型,并且结果准确性高于常用的泛化模型。由于计算量较小,训练过程对硬件要求较低,训练时间大大缩减。
[0047]
根据本公开的实施例,可以根据需要对人脸的不同区域(眼部、嘴部、脸部等等)进行全部或者部分区域识别,更改人脸的关键点数量和关键点位置,训练过程灵活可控,可以获得更好的鲁棒性。
[0048]
根据本公开的实施例的数字人表情生成方法和生成装置可以实现将人脸表情实时迁移到数字人的3d模型,精准追踪面部表情。
[0049]
本公开的实施例所提供的vr设备的外挂系统将人脸表情捕捉的功能结合到vr眼镜的中,通过采用体积小性能高的摄像机和补光灯,无需增大vr眼镜的体积,实现了产品的轻量化。
[0050]
本公开的实施例对眼部和嘴部区域采用多于一个摄像机来捕捉人脸动画数据,可以实现更精细的表情捕捉。具有红外功能的摄像机和红外led补光灯,可以实现在黑暗环境下对人脸表情的捕捉。
[0051]
实施本公开的任一装置并不一定需要同时达到以上所述的所有优点。本公开的其它特征和优点将在随后的说明书实施例中阐述,并且,部分地从说明书实施例中变得显而易见,或者通过实施本公开而了解。本公开实施例的目的和优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。
附图说明
[0052]
为了更清楚地说明本公开实施例的技术方案,下面将对实施例的附图作简要地介绍,显而易见地,下面描述中的附图仅仅涉及本公开的一些实施例,而非对本公开的限制。
[0053]
图1是根据本公开一个实施例的将表演者的表情迁移到虚拟人(以下称为数字人)模型的建模步骤示意图;
[0054]
图2是根据本公开一个实施例的将表演者的表情实时迁移到数字人上的示例性方法的流程图;
[0055]
图3示出了根据本公开一个实施例的数字人绑定方案的一部分的示意图;
[0056]
图4是根据本公开一个实施例的关键帧的特征点标注方式的示意图;
[0057]
图5是根据本公开一个实施例的将表演者的表情视频迁移到数字人的3d模型的数字人表情生成装置的示意图;
[0058]
图6是根据本公开的一个实施例的vr设备的外挂系统的示意性的电路框图;
[0059]
图7a和图7b是根据本公开一个实施例的vr设备的外挂系统的结构示意图;和
[0060]
图8是将图7a和图7b所示的外挂系统安装到虚拟现实设备的组装前和组装后的状态示意图。
具体实施方式
[0061]
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例的附图,对本公开实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。各个不同实施例之间可以进行相互组合,以构成未在以下描述中示出的其他实施例。基于所描述的本公开的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
[0062]
除非另作定义,此处使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“一个”或者“一”等类似词语也不必然表示数量限制。“包括”或者“包含”等类似的词语意指出现该词前面的元件或物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
[0063]
图1示出了根据本公开一个实施例的将表演者的表情迁移到数字人的3d模型的建模步骤的流程。步骤的实际执行顺序,除非必要,不一定与图1中示出的顺序相同,例如s120可以在s110之前执行。
[0064]
在步骤s110,录制表演者的脸部视频,其中包括多个表情,比如喜、怒、哀、乐、大笑、微笑、露齿笑等几十到上百种表情。摄像机的数量和位置可以根据需要预先调整,可以采用一台摄像机对脸部进行拍摄,也可以采用两个以上的摄像机从表演者的脸部的不同角度进行拍摄,或者可以针对眼部和嘴部附近各设置一台或多台摄像机进行拍摄,来获得更多的细节信息。对于vr设备,为了获得表情信息,一般可以针对双眼和嘴部周围设置多台摄像机进行拍摄。摄像机可以拍摄表演者的视频,也可以拍摄包含表情图片。
[0065]
在步骤s120,确定控制数字人的3d模型的表情的多个控制器(也可以称为数字人面部的绑定方案)。该方案可以包括多个控制器(以下用q表示控制器的数量),控制器的值可以使用浮点值进行描述,用于表示数字人的某一个特定表情(如脸部某一部位的表情)的呈现强度。例如,每个控制器的数值在0.0-1.0之间。一组控制器的值可以用于表示数字人的某个具体表情。
[0066]
举例来说,数字人面部的绑定方案可以采用以下方式来实现。首先,扫描数字人脸部的面部表情编码系统(facial action coding system,缩写为facs)的关键表情,把这些facs关键表情变成数字人的混合变形(blendshape),每个blendshape的数值就是控制器的数值。
[0067]
图3示出了根据本公开一个实施例的数字人的面部的一部分关键表情300,如左上图为嘴部张开的特定表情。图3中的每个成对图形的左边的图像是无表情状态(如表情
310),其blendshape值可以设为0,右边的图像是关键表情(如表情320),其blendshape值可以设为1。对于一个特定表情来说,blendshape值越接近1表示越接近关键表情。在将该方法应用到vr设备时,可以采用vr设备的现有绑定方案,例如基于metahuman的表情控制方案或者基于苹果arkit标准表情控制方案,也可以采用其他自定义的绑定方案。
[0068]
在步骤s130,对步骤s110中录制的视频中的多个关键帧(以下用n表示关键帧数量)进行面部特征点位置和编号标注获得训练集。训练集是在表情视频中选出的并且被标注的多个关键帧,即为标注过的图片集。如果拍摄的是表情图片而不是视频,则选择表情图片作为关键帧,在选择的图片上进行面部特征点位置和编号的标注来获得训练集。
[0069]
对关键帧的特征点位置和编号标注的实施例可以参考图4。图4示出了在佩戴vr设备时由4个角度的摄像机同时拍摄获得的视频中的一个关键帧。两台摄像机拍摄眼部周围得到图片410、420,两台摄像机拍摄嘴部周围得到图片430、440,而关键帧包含这四张图片组成的一张面部图片。特征点位置和编号可以采用手工标注。其他关键帧可以采用同样的方式进行标注。
[0070]
对每个关键帧进行标注之后,对全部或者特定的特征点进行建模。建模可以只针对一类特征点进行,例如对只包含嘴唇的特征点进行建模,也可以针对多类特征点进行建模。通过结合形状模型和纹理模型来建立主动外观模型,这样可以使得模型反应形状的变化和全局纹理的变化两者。建模过程主要包括形状模型的训练、纹理模型的训练和使用扰动实验求得回归矩阵。
[0071]
形状模型的训练包括:将训练集中每张图片的特征点坐标与平均参考特征点对齐,其可以采用多轮的普氏变换来实现;对变换后的训练集进行主成分分析,得到形状模型。平均参考特征点可以通过以下方式获得:(1)采用均值法获得初始化的平均参考特征点;(2)将训练集中的所有图片的关键点(即用于建模的特征点)与平均参考特征点对齐,将对齐后的训练集中的所有图片的关键点平均,得到更新后的平均参考特征点;对上述步骤(2)迭代直至训练集中的关键点与平均参考特征点的误差在可容忍范围内。
[0072]
纹理模型的训练包括:将训练集中的每张图片的特征点按照预设的三角剖分链接方式连接成多个小三角形;使用仿射变换在训练集图片与平均参考特征点之间的对应的小三角形中进行纹理变换。纹理模型与形状模型不相关。
[0073]
扰动实验包括:可以进行各种扰动变化,例如缩放尺度的扰动值的变化、旋转角度的扰动值的变化、平移的扰动值的变化、形状模型的形状参数的扰动值的变化、纹理模型的参数的扰动值的变化。上述实验过程中分别保留参数变化矩阵δp和纹理残差矩阵δg,将参数变化矩阵与纹理残差矩阵之间的关系记为回归矩阵r,并且δp=rδg。
[0074]
为了减少计算量和节约内存,可以使用雅可比矩阵j进行辅助计算:
[0075][0076][0077]
回归矩阵r包含了关于如何在纹理残差上纠正模型参数的信息。
[0078]
通过上述步骤获得了包含形状模型和纹理模型两者的主动外观模型,该模型反应了形状的变化和全局纹理的变化。
[0079]
步骤s140-s150用于确定人脸表情拟合到数字人脸的3d模型的映射关系。
[0080]
在步骤s140,针对所述n个关键帧的表情,使用在步骤s120中确定的q个控制器调整出与表演者的表情相似度比较高的r个表情。最终获得n*q个控制器数值。
[0081]
在步骤s150,对于n个关键帧,使用标注的f个面部特征点的坐标,产生n*f个特征点数据,基于n个关键帧所对应的q个控制器的数值和面部特征点的坐标,获得人脸表情拟合到数字人脸的3d模型的映射关系。
[0082]
在步骤s150中,人脸的模型空间到目标的数字人的3d模型空间的映射关系可以利用下面的rbf插值函数进行拟合:
[0083][0084]
其中n为多个关键帧的数量,为基函数,基函数可以根据需要选取。
[0085]
将每一帧的f个m维数据(m为表示每个特征点坐标的维度)生成为f*m维的x。例如,特征点p(1.1,2.1),p(3.0,4.0),即两个2维特征点数据,可以合并为x(1.1,2.1,3.0,4.0)。
[0086]
将x带入上述公式(3)。每个关键帧有q个控制器数值,将控制器的数值作为y,可以通过求解下面的等式得到w。
[0087][0088]
q个控制器中的每个控制器都可以通过求解上述等式,得到n个权重w,一共可以得到n*q个权重w。
[0089]
上述方法不仅利用目标对象的形状信息,而且对脸部的纹理信息也进行了统计分析,构建了形状与纹理相互联系的混合模型,与单独使用形状模型相比可以获得更加精准的拟合结果。
[0090]
在实现人脸的特定点定位的过程中,现有的深度学习的方法是通过将输入的原图先进行下采样,执行语义特征的提取,然后进行上采样回复到原图分辨率,在这个过程中会丢失原始图像的信息。上述实施例的方法在保持了原图分辨率的基础上,增加了不同分辨率的子图,从而在数据量少的情况下获得更好的结果。
[0091]
在上述实施例中,每个模型基于特定的人的表情数据生成,所以针对性强,准确性高,训练数据要求少。通过测试可知,该模型只需要特定人的少量面部表情图片(测试中采用了100张左右的人脸表情图片),就可以得到对应的人脸纹理和形状模型,并且结果准确性高于常用的泛化模型。此外,由于计算量较小,训练过程对硬件要求较低,训练时间大大缩减。
[0092]
图2示出了利用上述算法得到的主动外观模型将表演者的表情迁移到数字人的3d模型上的示例性方法的流程图。
[0093]
在步骤s210,用摄像机捕捉表演者的面部视频。为了将表情实时迁移到数字人的3d模型,可以用摄像机实时捕捉表演者的面部视频。
[0094]
在步骤s220,通过步骤s130训练得到的主动外观模型对在视频中选择的一部分或者全部帧中的每一个进行拟合,获得多个面部特征点。
[0095]
利用主动外观模型进行拟合的过程可以进一步包括以下步骤:
[0096]
(1)在给定初始位置之后,根据初始化参考点(可以采用平均参考特征点)分布获得纹理特征g_image;
[0097]
(2)计算纹理残差,即

g=g_image-g_model,g_model是平均纹理特征(用表示),在迭代过程中,通过调整纹理模型的参数bg(用纹理特征模型的特征值来表示)获得新的g_model值,其中纹理模型的参数可以通过以下纹理模型公式来调整:
[0098][0099]
其中g是纹理特征(可以用纹理特征向量表示),φ
ɡ
是纹理特征空间的基向量;其中纹理模型的参数可以进行干预,如为其设定限制条件,使得形状的改变可以被限制在一个合理的范围内;
[0100]
(3)根据公式δp=rδg,求得δp,即可以得到模型的形状参数和新的纹理特征g_image;
[0101]
(4)重复上述步骤(2)和(3),直到超过设置的纹理残差的阈值或者最大的迭代次数之后,停止迭代,此时的形状参数下的追踪范围是拟合的追踪范围,即可以获得所述帧的面部特征点的坐标。
[0102]
在步骤s220,为了减少计算量,还可以通过数学推导来改变φ
ɡ
的特征向量的数量,获得降维后的纹理特征空间。
[0103]
在步骤s230,将所述帧获得的面部特征点带入等式(4),使用步骤s150计算得到的权重值w,可以求得对应于所述帧的q个控制器数值,在这里n为所选择的一部分或者全部帧的数量,而不再是图1所示的实施例中的关键帧的数量。使用该q个控制器数值驱动数字人的3d模型,从而可以获得数字人的表情。
[0104]
上述模型通过严密的数学推导,减少了拟合过程中使用的模型参数,显著减少了计算量。再者,根据本公开的上述实施例,可以根据需要对人脸的不同区域(眼部、嘴部、脸部等等)进行全部或者部分区域识别,还可以根据需要,更改人脸的关键点数量和关键点位置,训练过程灵活可控。在训练过程中,参数可以人为干预,使得形状的改变可以被限制在一个合理的范围内,获得更好的鲁棒性。
[0105]
由于主动外观模型结合了形状模型和纹理模型,所以基于主动外观模型进行拟合,可以获得更准确和更精细的特征点,使得数字人的3d模型的表情映射更加准确并且能够反映出微表情的变化。模型不需要大量的训练集和耗时的计算,同时对于模型所对应的特定的人来说可以获得准确和快速的表情跟踪效果。随着模型数量的增加,新的模型可以基于已知模型进行调整,缩短了建模过程,同时,也增加了模型的普适性。
[0106]
图5是根据本公开一个实施例的将表演者的表情视频迁移到数字人的模型的数字人表情生成装置的示意图。数字人表情生成装置500可以包括两部分,其中第一部分为主控部分,其包括处理模块510、存储器520和接口模块530,主要用于基于获得的表演者的视频计算和输出驱动数字人的3d模型的多个控制器数值;第二部分为视频捕捉部分,其包括视频捕捉控制器550、摄像机560、照明模块570和接口模块580,主要用于捕捉表演者的表情并
向主控部分中的处理模块发送表情数据。两个部分可以作为两个分离的模块(如图6所示),也可以配置为一个整体。两个部分可以各自具有单独的电源模块,也可以共用一个电源540。数字人表情生成装置500可以从服务器(未示出)接收或者预先存储数字人表情模型,也可以可选地生成数字人表情模型(采用如图1所示的方法)。数字人表情生成装置500可以向服务器上传捕获的人脸表情,由服务器生成数字人表情模型。
[0107]
处理模块510可以用于执行根据图1所示的实施例的数字人表情模型生成方法的一部分或者全部和/或根据图2所示的实施例的数字人表情模型生成方法的一部分或者全部。处理模块510可以通过接口模块530从外部设备(例如,vr设备、ar设备等)接收请求,并且向其发送计算得到的驱动数字人的表情的数据或者其他请求的数据。处理模块可以包括一个或多个处理器,处理器可以是微处理器、多核处理器、专用集成电路(asic)、现场可编程门阵列(fpga)等各种处理器。在一些实施例中(未示出),处理模块中可以集成存储器520以存储执行上述操作的指令和/或存储数据。主控部分的一部分或者全部可以与视频捕捉的一部分或者全部设置在一起。例如,当主控部分和视频捕捉部分被配置为一个整体时,视频捕捉控制器550也可以省略,其功能可以由处理模块510或者处理模块510中的处理器完成。处理模块也可以包括模拟或者数字电路来执行根据本公开的实施例的上述操作。
[0108]
存储器520可以包括非易失性存储介质,用于存储执行上述方法的操作指令和/或存储数据。可选的,存储器520还可以存储摄像机560拍摄的视频数据。
[0109]
接口模块530可以包括用于发送和接收数据的有线或者无线数据接口,例如hdmi接口、usb接口、蓝牙接口、wifi接口、以太网接口等等中的一个或者多个。接口模块530可以从外部设备接收请求,例如表情捕捉需求的请求,并且向其发送所请求的数据,例如计算得到的驱动数字人的表情的数据或者发送处理得到的表情数据。接口模块530可以与接口模块580连通,使得处理模块510向视频捕捉控制器550发送拍摄信号或者拍摄指令,从视频捕捉控制器550或者摄像机560接收拍摄的视频数据。
[0110]
视频捕捉控制器550可以包括一个或多个处理器、微处理器、多核处理器、专用集成电路(asic)、现场可编程门阵列(fpga)等,也可以用模拟或者数字电路实现。视频捕捉控制器550可以用于向摄像机560发送拍摄的信号或指令,并且接收拍摄的视频信号。如果摄像机560包括多个摄像机,视频捕捉控制器550可以向摄像机560发送同步拍摄的信号。同步拍摄的信号可以由视频捕捉控制器550生成,例如将外部设备发送的每秒固定频率的脉冲转换为驱动摄像机拍摄每一帧的触发信号。可选地,视频捕捉控制器550还可以用于将视频信号转换为适于通过接口模块580传输的信号。例如,如果接口模块580采用usb接口,视频捕捉控制器550可以把视频信号转换为uvc信号用于发送给处理模块510。视频捕捉控制器550还可以控制照明模块570,以在拍摄时照亮面部。
[0111]
摄像机560可以包括一台或多台摄像机。摄像机560拍摄表演者的面部,拍摄的视频至少包括眼部周围和/或嘴部周围的表情信息。例如,图4所示的实施例采用了4台摄像机,两台用于拍摄眼部周围,另外两台从不同角度拍摄嘴部周围。在多台摄像机的情况下,摄像机560可以从视频捕捉控制器550接收同步拍摄的信号或指令来进行同步拍摄。为了追踪人脸表情的运动,摄像机560的帧速率可以不低于30帧每秒。在较暗的环境下,可以采用红外摄像机。
[0112]
照明模块570可以包括一个或多个led灯等,其设置在摄像机560的附近,用于照亮
面部。在较暗的环境下,照明模块570可以包括红外led灯,以便在较暗的环境中照亮面部而不会晃眼。
[0113]
接口模块580可以包括用于发送和接收数据的有线或者无线数据接口,例如hdmi接口、usb接口、蓝牙接口、wifi接口、以太网接口等等中的一个或者多个。如果主控部分和视频捕捉部分被配置为一个整体,接口模块580可以省略。
[0114]
图6示出了根据本公开的一个实施例的vr设备的外挂系统的示意性电路框图。外挂系统电路部分600与图5中的数字人表情生成装置500的电路逻辑结构相似,不过外挂系统电路部分600适用于vr设备中。外挂系统电路部分600与vr主机601可以通过有线或者无线方式相连接,从vr主机601接收诸如表情捕捉的请求或者指令等等,并向其发送驱动数字人的表情的数据或者其他请求的数据。外挂系统电路部分600可以向服务器(未示出)发送捕获的表演者的视频,从服务器接收或者预先存储数字人表情模型(其可以根据图1所示的实施例获得)。
[0115]
外挂系统电路部分600基本对应于图5所示的数字人表情生成装置500,其中外接盒中的主控制器610对应于数字人表情生成装置500的主控部分,连接vr主机的外挂配件(例如可以是替换vr设备上的海绵衬垫的衬垫)中的电路部分对应于数字人表情生成装置500的视频捕捉部分。主控制器610可以用于执行根据图2所示的实施例的数字人表情生成方法的一部分或者全部,可选地,还可以执行根据图1所示的实施例的数字人表情模型生成方法的一部分或者全部。主控制器610包括处理模块611、存储器612和接口模块613,其与图5中的处理模块510、存储器520和接口模块530相对应,因此可以参照上文中对处理模块510、存储器520和接口模块530的描述,为了简洁,不再赘述。为了能够适用于vr设备,
[0116]
同步控制器620、摄像机630、led灯640和接口模块(未示出)分别对应于图5中的视频捕捉控制器550、摄像机560、照明设备570和接口模块580,因此具体的实施例可以参照上文中对以上各部分的描述,为了简洁,不再赘述。不过,由于外挂系统电路部分600用于vr设备,摄像机630一般包括多台摄像机,因此同步控制器620可以向多台摄像机发送同步拍摄的信号,该信号可以是由vr设备发送的每秒固定频率的脉冲转换的用于驱动摄像机拍摄每一帧的触发信号。
[0117]
连接vr主机的外挂配件和外接盒中可以分别设置电源,也可以共用一个电源。此外,外接盒中的电路的全部或者一部分也可以配置于连接vr主机的外挂配件中。当外接盒中的全部电路配置于连接vr主机的外挂配件中时,外接盒可以省略。
[0118]
图7a和图7b示出了根据本公开一个实施例的vr设备的外挂系统的结构示意图,其中图7a示出了外挂系统的连接vr主机的外挂配件710。该外挂系统的电路布置可以采用图6中所示的外挂系统电路部分实现。
[0119]
外挂系统700包括连接vr主机的外挂配件710和外接盒720。连接vr主机的外挂配件710可以是中空的形状,其中一个表面的形状可以与vr设备的表面形状相匹配,以便于结合。可选的,连接vr主机的外挂配件710与人脸部接触,代替vr设备中的连接vr主机的衬垫。连接vr主机的外挂配件710上设置有第一组摄像机711、第二组摄像机712、led补光灯713、同步控制器715和连接结构716。第一组摄像机711和led补光灯713可以分别包括红外摄像机和红外led灯。此外,外挂系统700还可以进一步包括led补光灯714。补光灯713和714可以采用与安装位置的轮廓适配的条带形状,以减小体积和重量。补光灯713和714各自可以包
括一个或多个led灯。
[0120]
第一组摄像机711设置在连接vr主机的外挂配件710的内部的上部的安装架上,使得连接vr主机的外挂配件710在与vr设备连接之后,第一组摄像机711可以位于显示器的上方,并且大致面对表演者的眼睛。第一组摄像机711用于捕捉用户眼部及眼部周围区域的表情。如图7a所示,第一组摄像机711包括两台具有红外功能的摄像机(如红外摄像机),也可以根据需要设置更多的具有红外功能的摄像机。第一组摄像机711的帧速率不低于30帧每秒。这样设置的帧速率是为了保证追踪过程中不出现因为被扫描人表情运动速度过快导致的追踪不准确问题。具备红外功能可以保证在黑暗环境下识别红外led补光灯发出的肉眼不可见光线。使用红外光照射面部不会造成晃眼,从而有助于更精细地捕获人的面部表情。第一组摄像机711中的摄像机优选对称地设置。
[0121]
红外led补光灯713设置在外挂系统700的内部,并且位于第一组摄像机711的附近,为眼部区域提供照明。例如,如图7a所示,红外led补光灯713可以位于安装第一组摄像机711的安装架的下边缘上。
[0122]
设置在外挂系统700下部的第二组摄像机712用于捕捉嘴部及嘴部周围的表情。第二组摄像机712设置的位置使得外挂系统在与vr设备连接之后,正好与表演者的嘴部相对。第二组摄像机712可以包括至少一台摄像机,可以采用具有红外功能的摄像机,或者也可以采用普通摄像机,如普通的高性能摄像机。摄像机的帧速优选不低于30帧每秒,以防止出现人脸表情运动速度过快时不能准确追踪表情变化的问题。第二组摄像机712可以对称地设置,其拍摄范围包含了嘴部及嘴部周围区域。在如图7a和7b所示的结构中,第二组摄像机712所包含的两台摄像机分别设置在外挂系统700下方对称设置的安装架上。
[0123]
可选的led补光灯714设置在第二组摄像机712附近,例如,如图7a所示,可以设置在第二组摄像机712的安装架的边缘处。当第二组摄像机712选用具有红外功能的摄像机时,该补光灯714可以是红外led补光灯。当第二组摄像机712的摄像机是普通摄像机时,可以选用可见光的led补光灯来获得稳定的照明。
[0124]
如图7b所示,同步控制器715可以设置在用于安装第二组摄像机712的安装架上或其他合适的位置。同步控制器715可以参照上文对于图6中的同步控制器620的描述,在此不再赘述。同步控制器715可以同步触发所有摄像机,使得所有摄像机同步拍摄每一帧。
[0125]
连接部716设置在外挂系统700面向vr设备的一面。连接部716可以是卡扣结构,由多个凸起件构成,设计为与主流的虚拟现实(vr)设备相适配。连接部716还可以为其他连接方式,只要其能够与待连接的vr设备相配合即可,通过连接结构,外挂系统固定到vr设备上。可选地,外挂配件与vr设备相互连接的表面互相贴合在一起。
[0126]
外接盒720包括主控制器721和电源722,可以参照上文中对于图6中的主控制器610和电源的描述,在此不再赘述。
[0127]
图8是根据本公开一个实施例将图7a和图7b所示的外挂系统700安装到vr眼镜的组装前和组装后的状态示意图。
[0128]
从图8可以看出,外挂系统700代替现有的vr眼镜的海绵垫,安装到vr眼镜800上,形成具有人脸表情捕捉功能的vr眼镜810。通过采用体积小性能高的摄像机且如上配置所述补光灯和摄像机的位置,没有增大vr眼镜的体积,同时增强了表演者的沉浸式体验。通过替换现有vr眼镜的衬垫,使用者无需购买新的设备即可体验面部捕捉的功能,降低了购买
成本。
[0129]
为了更加精准的追踪面部表情,上述实施例对眼部和嘴部区域采用多于一台摄像机来捕捉人脸动画数据,可以实现更精细的表情捕捉。此外,采用具有红外功能的摄像机和红外led补光灯,可以实现在黑暗环境下对人脸表情的动画过程进行快速和完整的捕捉。由此,让使用者本人或者其他用户能够实时看到该使用者所对应的虚拟形象的表情,获得更好的用户体验。
[0130]
以上所述仅是本公开的示范性实施方式,而非用于限制本公开的保护范围,本公开的保护范围由所附的权利要求确定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1