虚拟形象的生成方法、装置、设备及存储介质与流程

文档序号:32351525发布日期:2022-11-26 13:29阅读:178来源:国知局
虚拟形象的生成方法、装置、设备及存储介质与流程

1.本技术涉及人工智能技术领域,尤其涉及一种虚拟形象的生成方法、装置、设备及存储介质。


背景技术:

2.虚拟形象是随着语音合成技术、视频生成技术发展而来的新的交互展示媒介,能够极大提升人机交互自然度和体验感,在服务行业、交互场景有着广泛的应用和发展前景。然而,目前虚拟形象的制作主要依赖人工制作形象素材,生成的虚拟形象往往存在与真人形象差距比较大的问题,难以满足用户需求。


技术实现要素:

3.为了解决上述问题,本技术提出一种虚拟形象的生成方法、装置、设备及存储介质,能够有效减小生成的虚拟形象与真人形象之间差距。
4.根据本技术实施例的第一方面,提供了一种虚拟形象的生成方法,包括:确定待处理图像中目标人物的人脸形状特征和表情特征;基于所述人脸形状特征和所述表情特征,优化预设的初始三维真人脸部模型中的第一人脸形状参数和第一表情参数,得到第二人脸形状参数和第二表情参数;基于所述人脸形状特征和所述表情特征,优化预设的初始三维真人脸部模型中的脸部形状参数和表情参数,得到第一人脸形状参数和第一表情参数;利用所述初始三维真人脸部模型与所述初始虚拟形象模型的映射关系,将所述第二人脸形状参数第一人脸形状参数和所述第二表情参数第一表情参数迁移至所述初始虚拟形象模型中,得到目标虚拟形象模型;其中,所述初始三维真人脸部模型和所述初始虚拟形象模型均是由基础脸部模型以及脸部形状基和表情基而确定的模型;基于所述目标虚拟形象模型生成所述目标人物对应的虚拟形象。
5.根据本技术实施例的第二方面,提供了一种虚拟形象的生成装置,包括:确定模块,用于确定待处理图像中目标人物的人脸形状特征和表情特征;处理模块,用于基于所述人脸形状特征和所述表情特征,优化预设的初始三维真人脸部模型中的脸部形状参数和表情参数,得到第一人脸形状参数和第一表情参数;映射模块,用于利用所述初始三维真人脸部模型与初始虚拟形象模型的映射关系,将所述第一人脸形状参数和所述第一表情参数迁移至所述初始虚拟形象模型中,得到目标虚拟形象模型;其中,所述初始三维真人脸部模型和所述初始虚拟形象模型均是由基础脸部模型以及脸部形状基和表情基而确定的模型;生成模块,用于基于所述目标虚拟形象模型生成所述目标人物对应的虚拟形象。
6.本技术第三方面提供了一种电子设备,包括:存储器和处理器;所述存储器与所述处理器连接,用于存储程序;
所述处理器,通过运行所述存储器中的程序,实现上述的虚拟形象的生成方法。
7.本技术第四方面提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程度被处理器运行时,实现上述的虚拟形象的生成方法。
8.上述申请中的一个实施例具有如下优点或有益效果:基于人脸形状特征和表情特征优化预设的初始三维真人脸部模型中的脸部形状参数和表情参数,得到第一人脸形状参数和第一表情参数;由于初始三维真人脸部模型与初始虚拟形象模型存在映射关系,因此可以利用初始三维真人脸部模型与初始虚拟形象模型的映射关系,将第一人脸形状参数和第一表情参数迁移至虚拟形象模型中,得到目标虚拟形象模型,使得目标虚拟形象模型生成的虚拟形象与目标人物的真人形象差距较小,契合度较高,能够针对不同的真人生成个性化的虚拟形象。
附图说明
9.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
10.图1是根据本技术一实施例的虚拟形象的生成方法的流程示意图;图2是根据本技术另一实施例的虚拟形象的生成方法的流程示意图;图3是根据本技术另一实施例的虚拟形象的生成方法的流程示意图;图4是根据本技术另一实施例的虚拟形象的生成方法的具体流程示意图;图5是根据本技术一实施例的驱动目标虚拟形象模型渲染的示意图;图6是根据本技术一实施例的虚拟形象的生成装置的框图;图7是根据本技术另一实施例的虚拟形象的生成装置的框图;图8是用来实现本技术实施例的虚拟形象的生成方法的电子设备的框图。
具体实施方式
11.本技术实施例技术方案适用于应用在各种人机交互的场景中,例如,人车交互、vr场景、人与各种智能家电的语音交互等。采用本技术实施例技术方案,能够更加准确地生成针对不同的真人生成个性化的虚拟形象。
12.本技术实施例技术方案可示例性地应用于处理器、电子设备、服务器(包括云服务器)等硬件设备,或包装成软件程序被运行,当硬件设备执行本技术实施例技术方案的处理过程,或上述软件程序被运行时,可以实现的根据第一人脸形状参数和第一表情参数生成虚拟形象的目的。本技术实施例只对本技术技术方案的具体处理过程进行示例性介绍,并不对本技术技术方案的具体实现形式进行限定,任意的可以执行本技术技术方案处理过程的技术实现形式,都可以被本技术实施例所采用。
13.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
14.示例性方法图1是根据本技术一实施例的虚拟形象的生成方法的流程图。在一示例性实施例中,提供了一种虚拟形象的生成方法,包括:s110、确定待处理图像中目标人物的人脸形状特征和表情特征;s120、基于所述人脸形状特征和所述表情特征,优化预设的初始三维真人脸部模型中的脸部形状参数和表情参数,得到第一人脸形状参数和第一表情参数;s130、利用所述初始三维真人脸部模型与初始虚拟形象模型的映射关系,将所述第一人脸形状参数和所述第一表情参数迁移至所述初始虚拟形象模型中,得到目标虚拟形象模型;其中,所述初始三维真人脸部模型和所述初始虚拟形象模型均是由基础脸部模型以及脸部形状基和表情基而确定的模型;s140、基于所述目标虚拟形象模型生成所述目标人物对应的虚拟形象。
15.在步骤s110中,示例性地,待处理图像是包含目标人物的脸部的图像。可选地,待处理图像可以是通过摄像头拍摄的照片,还可以是视频中的任一视频帧。
16.人脸形状特征用于表示目标人物的脸部的各个五官对应的形状。人脸形状特征可以包括:脸型的特征、眼型的特征、鼻型的特征、嘴型的特征等。
17.脸型的特征可以是方脸型、长脸型、圆脸型等,还可以是自定义的组合脸型,例如,将方脸型和长脸型组合形成新的组合脸型。
18.眼型的特征可以是双眼皮大眼睛、单眼皮小眼睛、单眼皮大眼睛等,还可以是自定义的眼型。
19.鼻型的特征可以是鼻头小、鹰钩鼻等,还可以是自定义的鼻型。
20.嘴型的特征可以是嘴的大小、上下唇厚度等,还可以是自定义的嘴型。
21.可选地,表情特征是表示目标人物的五官状态区别于自然表情的情况下的表情特征,或者是目标人物的五官状态处于自然表情状态时的表情特征。可以理解的是,自然表情指的是目标人物的五官处于自然状态的情况下,目标人物的表情。表情特征可以包括:张嘴、挑眉、噘嘴、嘴角上扬、嘴角下垂等表情的特征,还可以是自定义的表情的特征。
22.可选地,可以通过训练好的神经网络模型确定待处理图像中的目标人物的脸部,并识别目标人物的人脸形状特征和表情特征。可选地,在确定目标人物的人脸形状特征和表情特征时,可以是根据同一神经网络对人脸形状特征和表情特征进行识别,还可以是根据不同的神经网络分别对人脸形状特征和表情特征进行识别。可选地,目标人物的人脸形状特征和表情特征可以是来自于同一张待处理图像,也可以是来自不同的待处理图像。
23.在步骤s120中,示例性地,预设的初始三维真人脸部模型表示目标人物脸部的三维状态。初始三维真人脸部模型可以包括基础脸部模型以及脸部形状基、表情基、脸部形状参数和表情参数。基础脸部模型表示由初始脸部形状和自然表情所构成的脸部模型。可选地,数据库中预先存储有多个对应不同五官形状的基础形状基,不同表情对应的不同的基础表情基。例如,不同脸型对应的不同的基础脸型形状基,不同鼻型对应的不同的基础鼻型形状基等。因此,在获取目标人物的人脸形状特征和表情特征后,可以根据人脸形状特征和表情特征分别选择的基础形状基和基础表情基构成初始三维真人脸部模型。可选地,脸部形状参数用于修正脸部形状基,用于反映脸型、眼型、鼻型、嘴型等脸部形状特征相对于基础脸部模型的变化。表情参数用于修正表情基,用于反应脸部表情特征相对于基础脸部模
型的变化。具体地,由于初始三维真人脸部模型中的脸部形状基和表情基与待处理图像中目标人物的人脸形状特征和表情特征不一致,因此通过人脸形状特征和表情特征优化初始三维真人脸部模型中的脸部形状参数和表情参数,以使优化后的初始三维真人脸部模型形成的三维形象与目标人物更加匹配,其中,可以通过回归函数进行优化,还可以是其他优化参数的方式,在此不作限定。
24.在步骤s130中,示例性地,初始虚拟形象模型表示目标人物对应的虚拟形象的三维状态。初始虚拟形象模型与初始三维真人脸部模型的构成相同,其可以包括基础脸部模型以及脸部形状基、表情基。可选地,可以通过blendshape模型进行建模。可以通过定义不同的人脸形状和不同的表情分别制作不同人脸形状和表情的blendshape模型。
25.可选地,初始三维真人脸部模型与初始虚拟形象模型的映射关系可以是各个参数之间的映射,还可以是整个模型的映射。具体地,在确定出与人脸形状特征对应的第一人脸形状参数和表情特征对应的第一表情参数后,可以是将第一人脸形状参数与初始三维真人脸部模型的脸部形状基的组合,以及初始三维真人脸部模型的表情基与第一表情参数的组合迁移至初始虚拟形象模型中,分别替代初始虚拟形象模型的脸部形状基和表情基,得到目标虚拟形象模型。
26.优选地,初始三维真人脸部模型的脸部形状基与初始虚拟形象模型的脸部形状基相同;初始三维真人脸部模型的表情基与初始虚拟形象模型的表情基相同;具体地,初始三维真人脸部模型的表情基与初始虚拟形象模型的脸部形状基和表情基语义一致且完全对应。
27.相应地,初始三维真人脸部模型与初始虚拟形象模型的映射关系包括:初始三维真人脸部模型的脸部形状参数与初始虚拟形象模型的脸部形状参数对应;初始三维真人脸部模型的表情参数与初始虚拟形象模型的表情参数对应,从而保证了初始三维真人脸部模型与初始虚拟形象模型之间的参数可以进行迁移。
28.在本实施例中,初始三维真人脸部模型:其中,表示三维真人脸部模型的基础脸部模型,表示三维真人脸部模型的脸部形状基,表示三维真人脸部模型的表情基,表示三维真人脸部模型的脸部形状参数和表示三维真人脸部模型的表情参数。
29.初始虚拟形象模型:其中,表示虚拟形象模型的基础脸部模型,表示虚拟形象模型的脸部形状基,表示虚拟形象模型的表情基,表示虚拟形象模型的脸部形状参数和表示虚拟形象模型的表情参数。
30.这样,在确定出与人脸形状特征对应的第一人脸形状参数和表情特征对应的第一
表情参数后,可以是将第一人脸形状参数和第一表情参数分别迁移初始虚拟形象模型中,即,用替换,用替换,根据第一人脸形状参数和初始虚拟形象模型的形状基组成新的形状基,根据第一表情参数和初始虚拟形象模型的表情基组成新的表情基。再根据新的形状基和新的表情基构成目标虚拟形象模型。
31.在步骤s140中,示例性地,虚拟形象指在虚拟环境使用的非真实的(如vr)、软件制作的3d模型。可选地,驱动渲染目标虚拟形象模型生成的虚拟形象的表情可以和待处理图像中的表情特征相同。可选地,还可以通过不同的语音驱动渲染目标虚拟形象模型,那么则需要确定语音的对应表情,从而驱动渲染目标虚拟形象模型生成对应表情的虚拟形象。
32.在本技术的技术方案中,基于人脸形状特征和表情特征优化预设的初始三维真人脸部模型中的脸部形状参数和表情参数,得到第一人脸形状参数和第一表情参数;由于初始三维真人脸部模型与初始虚拟形象模型存在映射关系,因此可以利用初始三维真人脸部模型与初始虚拟形象模型的映射关系,将第一人脸形状参数和第一表情参数迁移至虚拟形象模型中,得到目标虚拟形象模型,使得目标虚拟形象模型生成的虚拟形象与目标人物的真人形象差距较小,契合度较高,能够针对不同的真人生成个性化的虚拟形象。同时,提高自动化虚拟形象建模的精细度。
33.在一种实施方式中,如图2所示,所述基于所述人脸形状特征和所述表情特征,优化预设的初始三维真人脸部模型中的脸部形状参数和表情参数,得到第一人脸形状参数和第一表情参数,包括:s210、基于所述人脸形状特征优化预设的初始三维真人脸部模型中的所述脸部形状参数,得到所述第一人脸形状参数;s220、基于所述第一人脸形状参数更新所述初始三维真人脸部模型,得到第一三维真人脸部模型;s230、基于所述表情特征优化所述第一三维真人脸部模型中的所述表情参数,得到所述第一表情参数。
34.可选地,在待处理图像中确定目标人物的人脸形状特征和表情特征,在目标人物不存在表情特征的情况下,则可以只对脸部形状参数进行优化;在目标人物存在表情特征的情况下,则同时对脸部形状参数和表情参数进行优化。还可以是不论待处理图像中的目标人物面部是否有表情,都同时对脸部形状参数和表情参数进行优化,防止在只优化脸部形状参数的情况下,待处理图像中的目标人物面部存在表情,影响优化后的脸部形状参数的准确性。需要说明的是,在优化脸部形状参数的情况下,一般选择目标人物表情不明显的图像进行识别,这样即使加入表情参数,也不会影响脸部形状,从而减少表情对脸部形状的影响。
35.具体地,先对脸部形状参数进行优化,得到第一人脸形状参数,再在初始三维真人脸部模型中的脸部参数固定第一人脸形状参数得到第一三维真人脸部模型。然后根据表情特征对第一三维真人脸部模型中的表情参数进行单独优化,从而使得优化后的表情参数形成的虚拟形象,更加接近目标人物的真人形象。
36.在一种实施方式中,步骤s210、所述基于所述人脸形状特征优化预设的初始三维真人脸部模型中的所述脸部形状参数,得到所述第一人脸形状参数,包括:确定所述人脸形状特征对应的二维形状关键点坐标;
根据所述初始三维真人脸部模型和所述二维形状关键点坐标,确定对应的三维形状关键点坐标;利用所述三维形状关键点坐标与所述二维形状关键点坐标,更新所述脸部形状参数,得到所述第一人脸形状参数。
37.示例性地,可以通过神经网络模型对待处理图像进行识别,确定目标人物的人脸形状特征对应的二维形状关键点坐标。利用初始三维真人脸部模型对二维形状关键点坐标索引得到对应的三维形状关键点坐标,可以将三维形状关键点进行投影,得到投影二维点。再根据二维形状关键点坐标对投影二维点进行优化,使得投影二维点与二维形状关键点坐标的位置尽可能的接近。还可以是利用三维形状关键点坐标与所述二维形状关键点坐标估计出模型的相机参数,基于相机参数求出人脸参数。
38.在一种实施方式中,所述利用所述三维形状关键点坐标与所述二维形状关键点坐标,更新所述脸部形状参数得到所述第一人脸形状参数,包括:确定所述三维形状关键点坐标与所述二维形状关键点坐标之间的第一误差参数;利用所述第一误差参数对所述初始三维真人脸部模型的脸部形状参数进行迭代更新,直至计算得到的第一误差参数满足预设的第一迭代停止条件;将计算得到的第一误差参数对应的人脸形状参数确定为所述第一人脸形状参数。
39.可选地,利用初始三维真人脸部模型确定三维形状关键点。若待处理图像中的目标人物的脸部朝向为正脸,则可以直接对三维形状关键点进行投影,得到投影二维点。计算二维形状关键点坐标与投影二维点之间的第一误差参数,可选地,第一误差参数进行稀疏约束且在0-1范围内约束。根据第一误差参数更新人脸形状参数和表情参数,将更新后的人脸形状参数和更新后的表情参数重新代入初始三维真人脸部模型进行计算,确定与二维形状关键点坐标的第一误差参数,直至第一误差参数满足预设的第一迭代停止条件。将满足预设的第一迭代停止条件的第一误差参数对应的人脸形状参数确定为所述第一人脸形状参数。其中,第一迭代停止条件可以包括:第一误差参数小于第一设定值,第一设定值可以根据实际需要进行设置。还可以包括:第一误差参数所对应的迭代次数是第一预设次数,第一预设次数可以根据实际需要进行设置。
40.可选地,由于待处理图像中的目标人物的脸部朝向不为正脸,即位姿存在偏差,因此在三维形状关键点坐标进行投影时可以考虑位姿参数对应的投影矩阵,从而可以更准确地对参数进行优化。在计算出第一误差参数之后,可以先更新投影矩阵,从而矫正目标人物的位姿,使得目标人物的位姿与图像更接近。在调整投影矩阵之后,再更新人脸形状参数和表情参数,将更新后的人脸形状参数和更新后的表情参数重新代入初始三维真人脸部模型进行计算,确定与二维形状关键点坐标的第一误差参数,直至第一误差参数满足预设的第一迭代停止条件。将满足预设的第一迭代停止条件的第一误差参数对应的人脸形状参数确定为所述第一人脸形状参数。
41.在本实施例中,在本实施例中,
其中,表示第一误差参数,表示根据初始三维真人脸部模型正向投影到当前图像上的三维形状关键点坐标,lmk表示二维形状关键点坐标,表示待处理图像中的二维形状关键点的数量,表示根据位姿参数得到的投影矩阵,表示二维形状关键点的索引。
42.通过上述公式计算第一误差参数,在第一误差参数对应的迭代次数满足预设次数的情况下,就可以得到待处理图像下的人脸形状参数,使得生成的虚拟形象的脸部特征更接近于目标人物。
43.在一种实施方式中,如图3所示,所述基于所述表情特征优化所述第一三维真人脸部模型中的所述表情参数,得到所述第一表情参数,包括:s310、基于所述表情特征确定至少一个关联表情参数;s320、基于所述至少一个关联表情参数与所述表情参数进行组合,得到预测表情参数;s330、在所述预测表情参数满足预设条件的情况下,将所述预测表情参数确定为所述第一表情参数。
44.示例性地,关联表情参数表示与表情特征相关的表情对应的参数。可选地,可以通过比对目标人物的预先录入的表情和表情特征,确定与表情特征相关的表情。例如,表情特征为噘嘴,但是目标人物的噘嘴和张嘴也类似,因此可以将张嘴作为关联表情,并提取张嘴对应参数。可选地,每个表情可以对应有不同的表情变化,例如,微笑可以有不同的嘴角弧度。因此,每个表情基可以对应多个表情参数。
45.可选地,预设条件可以包括预测表情参数代入第一三维真人脸部模型中输出的预测表情特征与表情特征是否相同,还可以是其他限定条件,在此不作限定。
46.具体地,可以将至少一个关联表情参数与模型表情参数线性相乘组合得到预测表情参数。在预测表情参数满足预设条件的情况下,将预测表情参数确定为第一表情参数,使得根据预测表情参数构成的目标虚拟形象模型,可以生成个性化表情的虚拟角色。
47.在一种实施方式中,步骤s330、所述在所述预测表情参数满足预设条件的情况下,将所述预测表情参数确定为所述第一表情参数,包括:确定所述表情特征对应的二维表情关键点坐标;利用所述预测表情参数更新所述第一三维真人脸部模型,得到第二三维真人脸部模型;根据所述第二三维真人脸部模型和所述二维表情关键点坐标,确定对应的三维表情关键点坐标;确定所述三维表情关键点坐标与所述二维表情关键点坐标之间的第二误差参数;利用所述第二误差参数对所述预测表情参数进行迭代更新,直至计算得到的第二误差参数满足预设的第二迭代停止条件;将计算得到的第二误差参数对应的预测表情参数确定为所述第一表情参数。
48.可选地,可以通过神经网络模型对待处理图像进行识别,确定目标人物的表情特征对应的二维表情关键点坐标。将预测表情参数代入第一三维真人脸部模型中,得到第二
三维真人脸部模型。
49.利用第二三维真人脸部模型确定三维形状关键点。若待处理图像中的目标人物的脸部朝向为正脸,则可以直接对三维表情关键点进行投影,得到投影二维点。计算二维表情关键点坐标与投影二维点之间的第二误差参数。根据第二误差参数更新预测表情参数,即可以根据其他关联表情参数进行组合,得到更新后的预测表情参数。将更新后的预测表情参数重新代入第二三维真人脸部模型进行计算,确定与二维表情关键点坐标的第二误差参数,直至第二误差参数满足预设的第二迭代停止条件。将满足预设的第二迭代停止条件的第二误差参数对应的预测表情参数确定为所述第一表情参数。其中,第二迭代停止条件可以包括:第二误差参数小于第二设定值,第二设定值可以根据实际需要进行设置。还可以包括:第二误差参数所对应的迭代次数是第二预设次数,第二预设次数可以根据实际需要进行设置。
50.可选地,由于待处理图像中的目标人物的脸部朝向不为正脸,即位姿存在偏差,因此在三维表情关键点坐标进行投影时可以考虑位姿参数对应的投影矩阵,从而可以更准确地对参数进行优化。在计算出第二误差参数之后,可以先更新投影矩阵,从而矫正目标人物的位姿,使得目标人物的位姿与图像更接近。在调整投影矩阵之后,再更新预测表情参数,将更新后的预测表情参数重新代入第二三维真人脸部模型进行计算,确定与二维表情关键点坐标的第二误差参数,直至第二误差参数满足预设的第二迭代停止条件。将满足预设的第二迭代停止条件的第二误差参数对应的预测表情参数确定为所述第一表情参数。
51.在本实施例中,可以先输入多个表情(例如,张嘴,噘嘴,抬眉等)的表情基,每个表情有不同的变化,因此每个表情可以对应多个参数,例如,

,。可以根据表情特征组合不同的表情参数,例如,将张嘴对应的和噘嘴对应的进行相乘,则可以得到预测表情参数,根据预测表情参数进行第二误差参数的计算,公式如下:参数进行第二误差参数的计算,公式如下:参数进行第二误差参数的计算,公式如下:其中,表示第二误差参数,表示根据第二三维真人脸部模型正向投影到当前图像上的三维表情关键点坐标,表示二维表情关键点坐标,表示待处理图像中的二维表情关键点的数量,m表示根据位姿参数得到的投影矩阵,表示二维表情关键点的索引。
52.通过上述公式计算第二误差参数,在第二误差参数对应的迭代次数满足预设次数的情况下,就可以得到待处理图像下的表情参数。此时,对应的虚拟形象的表情基可以为:
根据上述表情基生成的虚拟形象的表情更接近于目标人物,同时使得虚拟形象可以生成更多个性化的表情。
53.在一种实施方式中,如图4所示,所述基于所述目标虚拟形象模型生成所述目标人物对应的虚拟形象,包括:s410、根据待处理语音数据确定对应的目标表情参数;s420、根据所述目标表情参数对所述目标虚拟形象模型进行渲染,得到所述目标人物对应的虚拟形象。
54.示例性地,基于人脸形状特征和表情特征,优化预设的初始三维真人脸部模型中的脸部形状参数和表情参数,得到第一人脸形状参数和第一表情参数;利用初始三维真人脸部模型与初始虚拟形象模型的映射关系,将第一人脸形状参数和第一表情参数迁移至初始虚拟形象模型中,得到目标虚拟形象模型之后,获取待处理语音数据,将待处理语音数据输入至训练好的语音到表情参数的预测网络中,根据待处理语音数据确定对应的目标表情参数驱动目标虚拟形象模型进行渲染,得到目标人物对应的虚拟形象,从而实现了虚拟形象的驱动。
55.可选地,训练好的语音到表情参数的预测网络可以是通过在视频中提取真人的语音特征以及语音对应的表情参数对神经网络接全连接层(fully connected layers,fc)结合损失函数进行训练。可选地,神经网络可以为长短时记忆网络(long-short term memor,lstm),还可以为其他神经网络。损失函数可以为均方损失函数(mean squared error loss,mse loss)和重投影关键点误差。语音特征可以是采用梅尔倒谱系数特征(mel-frequency cepstral coefficients,mfcc)或预训练模型wav2vec提取的。可选地,由于是将语音与表情进行匹配,因此神经网络中可以只训练口唇的表情参数,将其他表情参数预先设置在神经网络中。其中,其他表情参数是与唇形无关(例如,眼部、眉毛、鼻子)的脸部表情参数。
56.可选地,如图5所示,获取待处理语音数据后,根据梅尔倒谱系数特征确定待处理语音数据对应的语音特征。根据语音到表情参数的预测网络中确定语音特征对应的口唇表情参数,将口唇表情参数和其他表情参数融合,根据融合后的表情参数驱动目标虚拟形象模型进行渲染,得到目标人物对应的虚拟形象。
57.在一种实施方式中,所述方法还包括:根据预设的虚拟形象类型,确定所述初始三维真人脸部模型中的基础脸部模型;利用所述初始三维真人脸部模型与初始虚拟形象模型的映射关系,将所述初始三维真人脸部模型中的基础脸部模型迁移至所述初始虚拟形象模型中。
58.示例性地,预设的虚拟形象类型用于表示目标人物对应的类型,或是目标人物希望的形象类型。可选地,类型可以是可爱、夸张、滑稽、抽象等。每一个类型可以对应至少一种基础脸部模型。
59.具体地,由于初始三维真人脸部模型与初始虚拟形象模型的组成部分相同,因此
可以修改初始三维真人脸部模型中的基础脸部模型,再对表情参数和脸部形状参数进行优化,再将修改后的基础脸部模型、第一人脸形状参数和第一表情参数迁移至初始虚拟形象模型中,从而修改虚拟形象的风格。
60.示例性装置相应的,图6是根据本技术一实施例的虚拟形象的生成装置的结构示意图。在一示例性实施例中,提供了一种虚拟形象的生成装置,包括:确定模块610,用于确定待处理图像中目标人物的人脸形状特征和表情特征;处理模块620,用于基于所述人脸形状特征和所述表情特征,优化预设的初始三维真人脸部模型中的脸部形状参数和表情参数,得到第一人脸形状参数和第一表情参数;映射模块630,用于利用所述初始三维真人脸部模型与初始虚拟形象模型的映射关系,将所述第一人脸形状参数和所述第一表情参数迁移至所述初始虚拟形象模型中,得到目标虚拟形象模型;其中,所述初始三维真人脸部模型和所述初始虚拟形象模型均是由基础脸部模型以及脸部形状基和表情基而确定的模型;生成模块640,用于基于所述目标虚拟形象模型生成所述目标人物对应的虚拟形象。
61.在一种实施方式中,如图7所示,处理模块620,包括:形状参数优化模块621,用于基于所述人脸形状特征优化预设的初始三维真人脸部模型中的所述脸部形状参数,得到所述第一人脸形状参数;更新模块622,用于基于所述第一人脸形状参数更新所述初始三维真人脸部模型,得到第一三维真人脸部模型;表情参数优化模块623,用于基于所述表情特征优化所述第一三维真人脸部模型中的所述表情参数,得到所述第一表情参数。
62.在一种实施方式中,所述形状参数优化模块621,包括:确定所述人脸形状特征对应的二维形状关键点坐标;根据所述初始三维真人脸部模型和所述二维形状关键点坐标,确定对应的三维形状关键点坐标;利用所述三维形状关键点坐标与所述二维形状关键点坐标,更新所述脸部形状参数,得到所述第一人脸形状参数。
63.在一种实施方式中,所述利用所述三维形状关键点坐标与所述二维形状关键点坐标,更新所述脸部形状参数得到所述第一人脸形状参数,包括:确定所述三维形状关键点坐标与所述二维形状关键点坐标之间的第一误差参数;利用所述第一误差参数对所述初始三维真人脸部模型的脸部形状参数进行迭代更新,直至计算得到的第一误差参数满足预设的第一迭代停止条件;将计算得到的误差参数对应的人脸形状参数确定为所述第一人脸形状参数。
64.在一种实施方式中,所述表情参数优化模块623,包括:基于所述表情特征确定至少一个关联表情参数;基于所述至少一个关联表情参数与所述表情参数进行组合,得到预测表情参数;在所述预测表情参数满足预设条件的情况下,将所述预测表情参数确定为所述第一表情参数。
65.在一种实施方式中,所述在所述预测表情参数满足预设条件的情况下,将所述预测表情参数确定为所述第一表情参数,包括:确定所述表情特征对应的二维表情关键点坐标;利用所述预测表情参数更新所述第一三维真人脸部模型,得到第二三维真人脸部模型;根据所述第二三维真人脸部模型和所述二维表情关键点坐标,确定对应的三维表情关键点坐标;确定所述三维表情关键点坐标与所述二维表情关键点坐标之间的第二误差参数;利用所述第二误差参数对所述预测表情参数进行迭代更新,直至计算得到的第二误差参数满足预设的第二迭代停止条件;将计算得到的第二误差参数对应的预测表情参数确定为所述第一表情参数。
66.在一种实施方式中,所述初始三维真人脸部模型的脸部形状基与所述初始虚拟形象模型的脸部形状基相同;所述初始三维真人脸部模型的表情基与所述初始虚拟形象模型的表情基相同;相应地,所述初始三维真人脸部模型与所述初始虚拟形象模型的映射关系包括:所述初始三维真人脸部模型的脸部形状参数与所述初始虚拟形象模型的脸部形状参数对应;所述初始三维真人脸部模型的表情参数与所述初始虚拟形象模型的表情参数对应。
67.在一种实施方式中,如图7所示,生成模块640,包括:语音处理模块641,用于根据待处理语音数据确定对应的目标表情参数;渲染模块642,用于根据所述目标表情参数对所述目标虚拟形象模型进行渲染,得到所述目标人物对应的虚拟形象。
68.在一种实施方式中,所述装置,还包括:根据预设的虚拟形象类型,确定所述初始三维真人脸部模型中的基础脸部模型;利用所述初始三维真人脸部模型与初始虚拟形象模型的映射关系,将所述初始三维真人脸部模型中的基础脸部模型迁移至所述初始虚拟形象模型中。
69.本实施例提供的虚拟形象的生成装置,与本技术上述实施例所提供的虚拟形象的生成方法属于同一申请构思,可执行本技术上述任意实施例所提供的虚拟形象的生成方法,具备执行虚拟形象的生成方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本技术上述实施例提供的虚拟形象的生成方法的具体处理内容,此处不再加以赘述。
70.示例性电子设备本技术另一实施例还提出一种电子设备,参见图8所示,该设备包括:存储器800和处理器810;其中,所述存储器800与所述处理器810连接,用于存储程序;所述处理器810,用于通过运行所述存储器800中存储的程序,实现上述任一实施例公开的虚拟形象的生成方法。
71.具体的,上述电子设备还可以包括:总线、通信接口820、输入设备830和输出设备
840。
72.处理器810、存储器800、通信接口820、输入设备830和输出设备840通过总线相互连接。其中:总线可包括一通路,在计算机系统各个部件之间传送信息。
73.处理器810可以是通用处理器,例如通用中央处理器(cpu)、微处理器等,也可以是特定应用集成电路(application-specific integrated circuit,asic),或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
74.处理器810可包括主处理器,还可包括基带芯片、调制解调器等。
75.存储器800中保存有执行本发明技术方案的程序,还可以保存有操作系统和其他关键业务。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。更具体的,存储器800可以包括只读存储器(read-only memory,rom)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory,ram)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。
76.输入设备830可包括接收用户输入的数据和信息的装置,例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。
77.输出设备840可包括允许输出信息给用户的装置,例如显示屏、打印机、扬声器等。
78.通信接口820可包括使用任何收发器一类的装置,以便与其他设备或通信网络通信,如以太网,无线接入网(ran),无线局域网(wlan)等。
79.处理器810执行存储器800中所存放的程序,以及调用其他设备,可用于实现本技术上述实施例所提供的任意一种虚拟形象的生成方法的各个步骤。
80.示例性计算机程序产品和存储介质除了上述方法和设备以外,本技术的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本技术各种实施例的虚拟形象的生成方法中的步骤。
81.所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本技术实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如java、c++等,还包括常规的过程式程序设计语言,诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
82.此外,本技术的实施例还可以是存储介质,其上存储有计算机程序,计算机程序被处理器执行本说明书上述“示例性方法”部分中描述的根据本技术各种实施例的虚拟形象的生成方法中的步骤。
83.上述的电子设备的具体工作内容,以及上述的计算机程序产品和存储介质上的计算机程序被处理器运行时的具体工作内容,均可以参见上述的方法实施例的内容,此处不再赘述。
84.对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但
是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本技术所必须的。
85.需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
86.本技术各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减,各实施例中记载的技术特征可以进行替换或者组合。
87.本技术各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。
88.本技术所提供的几个实施例中,应该理解到,所揭露的终端,装置和方法,可以通过其它的方式实现。例如,以上所描述的终端实施例仅仅是示意性的,例如,模块或子模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个子模块或模块可以结合或者可以集成到另一个模块,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
89.作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的,作为模块或子模块的部件可以是或者也可以不是物理模块或子模块,即可以位于一个地方,或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。
90.另外,在本技术各个实施例中的各功能模块或子模块可以集成在一个处理模块中,也可以是各个模块或子模块单独物理存在,也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现,也可以采用软件功能模块或子模块的形式实现。
91.专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
92.结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元,或者二者的结合来实施。软件单元可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
93.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那
些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
94.对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1