仿真3D数字人生成方法、装置、电子设备及存储介质与流程

文档序号:24725440发布日期:2021-04-16 15:55阅读:227来源:国知局
仿真3D数字人生成方法、装置、电子设备及存储介质与流程
仿真3d数字人生成方法、装置、电子设备及存储介质
技术领域
1.本申请涉及虚拟形象构建技术领域,更具体地,涉及一种仿真3d数字人生成方法、装置、电子设备及存储介质。


背景技术:

2.近些年来,随着信息技术的不断发展和应用,仿真数字人呈现场景也日益增多。传统的仿真数字人呈现方法一般是通过固定几个动作,针对不同场景呈现对应状态下的仿真数字人。现阶段出现了一种通过虚拟形象呈现的方法,该种方法通常是通过神经网络的训练,使得仿真数字人能够呈现更加多样化的动作,从而保证呈现效果更好。虽然该种方法相较于传统的仿真数字人呈现方法,显示效果更加逼真,但是由于在现有技术中该通过虚拟形象呈现的方法中,虚拟形象的呈现角度是固定的,使得画面的呈现效果不逼真。


技术实现要素:

3.鉴于上述问题,本申请实施例提出了一种仿真3d数字人生成方法、装置、电子设备及存储介质,以解决以上问题。
4.第一方面,本申请实施例提供了一种仿真3d数字人生成方法,该仿真3d数字人生成方法包括:获取描述参数,描述参数包括目标物相对于参考位置的相对位置信息,目标物包括用于标定仿真数字人角度的物体;根据相对位置信息确定所需呈现的仿真数字人的呈现角度;根据呈现角度和预设的仿真数字人模型,获得与呈现角度对应的仿真数字人图像;输出仿真数字人图像。
5.可选地,获取描述参数,包括:获取包含目标物的图像,基于图像确定目标物的空间位置信息;获取参考位置的参考位置信息,参考位置用于表征仿真数字人的参照物的位置;根据空间位置信息和参考位置信息,确定目标物相对参考位置的相对位置信息。
6.可选地,根据空间位置信息和参考位置信息,确定目标物相对参考位置的相对位置信息,包括:根据空间位置信息获取目标物的目标坐标参数;根据参考位置信息获取参照物的参考坐标参数;将目标坐标参数与参考坐标参数进行比对,确定目标物与参照物之间的相对距离和相对角度,以得到包括相对距离和相对角度的相对位置信息。
7.可选地,根据呈现角度和预设的仿真数字人模型,获得与呈现角度对应的仿真数字人图像,包括:根据呈现角度,从预设的仿真数字人模型中获取与呈现角度对应的多张目标图像;对多张目标图像进行组合,获得与描述参数对应的仿真数字人图像。
8.可选地,在获取描述参数之前,方法还包括:获取多张样本图像以及与每张样本图像对应的样本描述参数;根据样本图像以及样本描述参数构建仿真数字人模型,得到预设的仿真数字人模型。
9.可选地,样本描述参数包括相机参数;根据样本图像以及样本描述参数构建仿真数字人模型,得到预设的仿真数字人模型,包括:获取与相机参数对应的样本图像配置参数;根据样本图像获取目标模特的角度信息,并将角度信息与样本图像配置参数关联;根据
样本图像配置参数和角度信息构建仿真数字人模型,得到预设的仿真数字人模型。
10.可选地,样本描述参数还包括样本输入信息;根据样本图像以及样本描述参数构建仿真数字人模型,得到预设的仿真数字人模型,包括:获取与样本输入信息对应的样本语义信息;根据样本图像获取目标模特的样本面部表情参数,并将样本语义信息与样本面部表情参数关联;根据样本语义信息和样本面部表情参数构建仿真数字人模型,得到预设的仿真数字人模型。
11.可选地,根据样本图像获取目标模特的样本面部表情参数,并将样本语义信息与样本面部标清楚参数关联的步骤,包括:获取样本图像中目标模特的面部区域;获取面部区域中的面部关键点;对面部区域中的面部关键点进行处理,确定样本图像中目标模特的样本面部表情参数。
12.可选地,样本描述参数还包括样本输入信息;根据样本图像以及样本描述参数构建仿真数字人模型,得到预设的仿真数字人模型,包括:获取与样本输入信息对应的样本发音信息;根据样本图像获取目标模特的样本嘴型参数,并将样本发音信息与样本嘴型参数关联;根据样本发音信息和样本嘴型参数构建仿真数字人模型,得到预设的仿真数字人模型。
13.可选地,样本描述参数还包括样本输入信息;根据样本图像以及样本描述参数构建仿真数字人模型,得到预设的仿真数字人模型,包括:获取与样本输入信息对应的样本语义信息;获取样本语义信息的样本语义类别;根据样本图像获取目标模特的样本躯干动作参数,并将样本语义类别与样本躯干动作参数关联;根据样本语义类别和样本躯干动作参数构建仿真数字人模型,得到预设的仿真数字人模型。
14.可选地,根据样本图像获取目标模特的样本躯干动作参数,并将样本语义类别与样本躯干动作参数关联,包括:获取每张样本图像中包括目标模特的有效区域;对有效区域进行语义分割处理,确定每张样本图像中目标模特的样本躯干动作参数,并将样本语义类别与样本躯干动作参数关联。
15.可选地,在输出仿真数字人图像之后,方法还包括:获取多张仿真数字人图像;确定至少两张仿真数字人图像输出的时序信息;根据时序信息,基于多张仿真数字人图像生成仿真数字人视频;根据时序信息为仿真数字人视频配置对应的音频信息;同步播放仿真数字人视频和音频信息。
16.第二方面,本申请实施例提供了一种仿真3d数字人生成装置,该仿真3d数字人生成装置包括描述参数获取模块、呈现角度获取模块、仿真数字人图像获取模块和第一仿真数字人图像输出模块。其中,描述参数获取模块,用于获取描述参数,描述参数包括目标物相对于参考位置的相对位置信息。呈现角度获取模块,用于根据相对位置信息确定所需呈现的仿真数字人的呈现角度。仿真数字人图像获取模块,用于根据呈现角度和预设的仿真数字人模型,获得与呈现角度对应的仿真数字人图像。第一仿真数字人图像输出模块,用于输出仿真数字人图像。
17.可选地,描述参数获取模块包括图像获取单元、位置获取单元和相对位置信息获取单元。其中,图像获取单元用于获取包含目标物的图像,基于图像确定目标物的空间位置信息。位置获取单元用于获取参考位置的参考位置信息,参考位置用于表征仿真数字人的参照物的位置。相对位置信息获取单元用于根据空间位置信息和参考位置信息,确定目标
物相对参考位置的相对位置信息。
18.可选地,相对位置信息获取单元包括目标坐标参数子单元、参考坐标参数子单元和参考坐标参数子单元。其中,目标坐标参数子单元用于根据空间位置信息获取目标物的目标坐标参数。参考坐标参数子单元用于根据参考位置信息获取参照物的参考坐标参数。参考坐标参数子单元用于将目标坐标参数与参考坐标参数进行比对,确定目标物与参照物之间的相对距离和相对角度,以得到包括相对距离和相对角度的相对位置信息。
19.可选地,仿真数字人图像获取模块包括目标图像获取单元和仿真数字人图像获取单元。其中,目标图像获取单元用于根据呈现角度,从预设的仿真数字人模型中获取与呈现角度对应的多张目标图像。仿真数字人图像获取单元用于对多张目标图像进行组合,获得与描述参数对应的仿真数字人图像。
20.可选地,仿真3d数字人生成装置还包括样本描述参数获取单元和仿真数字人模型获取单元。其中,样本描述参数获取单元用于获取多张样本图像以及与每张样本图像对应的样本描述参数。仿真数字人模型获取单元用于根据样本图像以及样本描述参数构建仿真数字人模型,得到预设的仿真数字人模型。
21.可选地,样本描述参数包括相机参数;仿真数字人模型获取单元包括样本图像配置参数获取子单元、图像配置参数关联子单元和第一仿真数字人模型获取子单元。其中,样本图像配置参数获取子单元用于获取与相机参数对应的样本图像配置参数。图像配置参数关联子单元用于根据样本图像获取目标模特的角度信息,并将角度信息与样本图像配置参数关联。第一仿真数字人模型获取子单元用于根据样本图像配置参数和角度信息构建仿真数字人模型,得到预设的仿真数字人模型。
22.可选地,样本描述参数还包括样本输入信息;仿真数字人模型获取单元包括第一样本语义信息获取子单元、样本面部表情参数关联子单元和第二仿真数字人模型获取子单元。其中,第一样本语义信息获取子单元用于获取与样本输入信息对应的样本语义信息。样本面部表情参数关联子单元用于根据样本图像获取目标模特的样本面部表情参数,并将样本语义信息与样本面部表情参数关联。第二仿真数字人模型获取子单元用于根据样本语义信息和样本面部表情参数构建仿真数字人模型,得到预设的仿真数字人模型。
23.可选地,样本面部表情参数关联子单元包括面部区域获取组件、面部关键点获取组件和样本面部表情参数获取组件。其中,面部区域获取组件用于获取样本图像中目标模特的面部区域。面部关键点获取组件用于获取面部区域中的面部关键点。样本面部表情参数获取组件用于对面部区域中的面部关键点进行处理,确定样本图像中目标模特的样本面部表情参数。
24.可选地,样本描述参数还包括样本输入信息;仿真数字人模型获取单元包括样本发音信息获取子单元、样本嘴型参数关联子单元和第三仿真数字人模型获取子单元。其中,样本发音信息获取子单元用于获取与样本输入信息对应的样本发音信息。样本嘴型参数关联子单元用于根据样本图像获取目标模特的样本嘴型参数,并将样本发音信息与样本嘴型参数关联。第三仿真数字人模型获取子单元用于根据样本发音信息和样本嘴型参数构建仿真数字人模型,得到预设的仿真数字人模型。
25.可选地,样本描述参数还包括样本输入信息;仿真数字人模型获取单元包括第二样本语义信息获取子单元、样本语义类别获取子单元、样本躯干动作参数关联子单元和第
四仿真数字人模型获取子单元。其中,第二样本语义信息获取子单元用于获取与样本输入信息对应的样本语义信息。样本语义类别获取子单元用于获取样本语义信息的样本语义类别。样本躯干动作参数关联子单元用于根据样本图像获取目标模特的样本躯干动作参数,并将样本语义类别与样本躯干动作参数关联。第四仿真数字人模型获取子单元用于根据样本语义类别和样本躯干动作参数构建仿真数字人模型,得到预设的仿真数字人模型。
26.可选地,样本躯干动作参数关联子单元包括有效区域获取组件和样本躯干动作参数关联组件。其中,有效区域获取组件用于获取每张样本图像中包括目标模特的有效区域。样本躯干动作参数关联组件用于对有效区域进行语义分割处理,确定每张样本图像中目标模特的样本躯干动作参数,并将样本语义类别与样本躯干动作参数关联。
27.可选地,仿真3d数字人生成装置还包括第二仿真数字人图像输出模块、时序信息确定模块、仿真数字人视频生成模块、音频信息配置模块和播放模块。其中,第二仿真数字人图像输出模块用于获取多张仿真数字人图像。时序信息确定模块用于确定至少两张仿真数字人图像输出的时序信息。仿真数字人视频生成模块用于根据时序信息,基于多张仿真数字人图像生成仿真数字人视频。音频信息配置模块用于根据时序信息为仿真数字人视频配置对应的音频信息。播放模块用于同步播放仿真数字人视频和音频信息。
28.第三方面,本申请实施例提供了一种电子设备,该电子设备包括:一个或多个处理器;存储器;一个或多个程序,其中一个或多个程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于执行第一方面提供的仿真3d数字人生成方法的步骤。
29.第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行第一方面提供的仿真3d数字人生成方法的步骤。
30.相对于现有技术,本申请实施例提供的仿真3d数字人生成方法、装置、电子设备及存储介质可以获取到描述参数,基于描述参数确定仿真数字人的呈现角度,获取并输出与呈现角度对应的仿真数字人图像,使得在用于训练获得仿真数字人的模特没有时间时,可以通过该模特训练得到的仿真数字人模型生成各种角度的仿真数字人图像,无需专门邀约模特在特定时间和地点参与图像拍摄,减少生成图像成本,同时,还可以模拟出用户实时与仿真数字人处于面对面交流的环境,提升了呈现仿真数字人画面的逼真效果,优化了人机交互体验。
31.本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
32.为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
33.图1示出了本申请实施例提供的一种仿真3d数字人生成方法的一种应用环境示意图。
34.图2示出了本申请实施例提供的一种仿真3d数字人生成方法的另一种应用环境示
意图。
35.图3示出了本申请实施例提供的一种仿真3d数字人生成方法的一流程示意图。
36.图4示出了图2所示的方法中构建仿真数字人模型的一流程示意图。
37.图5示出了图4所示的方法中基于样本图像配置参数构建仿真数字人模型的一流程示意图。
38.图6示出了图2所示的方法中基于图像确定相对位置信息的一流程示意图。
39.图7示出了图6所示的方法中基于坐标获取相对位置信息的一流程示意图。
40.图8示出了图2所示的方法中基于图像组合的方式获取仿真数字人图像的一流程示意图。
41.图9示出了图4所示的方法中基于样本语义信息得到仿真数字人模型的一流程示意图。
42.图10示出了图9所示的方法中基于面部关键点得到样本面部表情参数的一流程示意图。
43.图11示出了图4所示的方法中基于样本发音信息得到仿真数字人模型的一流程示意图。
44.图12示出了图4所示的方法中基于样本语义类别得到仿真数字人模型的流程示意图。
45.图13示出了图12所示的方法中关联样本躯干动作参数的一流程示意图。
46.图14示出了本申请实施例提供的一种仿真3d数字人生成方法的又一流程示意图。
47.图15示出了本申请实施例提出的一种仿真3d数字人生成装置的功能模块框图。
48.图16示出了本申请实施例提出的一种电子设备的功能模块框图。
具体实施方式
49.为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
50.术语定义
51.3d数字人:通过3d建模、渲染等计算机图形学技术现实的数字人。
52.仿真数字人:通过深度学习模型生成每一帧画质近乎于相机拍摄的逼真图像,数字人如同相机拍摄的真人的效果。可选地,可以由连贯的逼真图像生成视频数字人。
53.仿真3d数字人:以仿真数字人技术生成数字人,并考虑到数字人的呈现角度,通过仿真数字人实现立体逼真的效果。可选地,可以由多张仿真数字人图像序列生成出立体逼真的视频数字人。
54.目前,现有技术中的仿真数字人呈现方式一般是通过训练神经网络,构建输出仿真数字人图像的模型。为提高仿真数字人呈现画面的逼真程度,通常会为仿真数字人设计各种动作,该各种动作与向用户反馈和传导的语音进行配合,使得用户的观感更佳。虽然将动作与语音配合的方式能够显著地提高仿真数字人呈现画面的逼真程度,但是,该种方式仅将语音与动作进行配合,没有建立用户的姿态与仿真数字人之间的联系,当该种方式在
实际应用时,仿真数字人在呈现画面中通常处于固定显示角度的状态,不符合用户观看人物画面的习惯,进而导致仿真数字人呈现画面的逼真程度较低。
55.为了能够解决上述描述的问题,本申请发明人投入研发,致力于研究如何调整呈现画面中仿真数字人的呈现角度。基于此,发明人提出了本申请实施例的仿真3d数字人生成方法、装置、电子设备及存储介质,可以获取到描述参数,基于描述参数确定仿真数字人的呈现角度,获取并输出与呈现角度对应的仿真数字人图像,使得在用于训练获得仿真数字人的模特没有时间时,可以通过该模特训练得到的仿真数字人模型生成各种角度的仿真数字人图像,无需专门邀约模特在特定时间和地点参与图像拍摄,减少生成图像成本,同时,还可以模拟出用户实时与仿真数字人处于面对面交流的环境,提升了呈现仿真数字人画面的逼真效果,优化了人机交互体验。
56.为了更好理解本申请实施例提供的一种仿真3d数字人生成方法、装置、电子设备及存储介质,下面先对适用于本申请实施例的应用环境进行描述。
57.请参阅图1,图1示出了一种适用于本申请实施例的应用环境示意图。本申请实施例提供的仿真3d数字人生成方法可以应用于如图1所示的仿真3d数字人生成系统100。仿真3d数字人生成系统100包括智能终端101以及服务端102,服务端102与智能终端101通信连接。其中,服务端102可以用独立的服务器或者是多个服务器组成的服务器集群来实现。另外,服务器可以是云端服务器,还可以是传统机房服务器,在此不作具体限定。
58.在一些实施例中,智能终端101可以是具有显示屏且支持数据输入的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和可穿戴式电子设备等。具体地,数据输入可以是基于智能终端101上具有的语音模块输入语音、字符输入模块输入字符、图像输入模块输入图像、视频输入模块输入视频等,还可以是基于智能终端101上安装有的手势识别模块,使得用户可以实现手势输入等交互方式。
59.其中,智能终端101上可以安装有客户端应用程序,用户可以基于客户端应用程序(例如app、微信小程序等)与服务端102进行通信,具体地,服务端102上安装有对应的服务端应用程序,用户可以基于客户端应用程序在服务端102注册一个用户帐号,并基于该用户帐号与服务端102进行通信,例如用户在客户端应用程序登录用户帐号,并基于该用户帐号通过客户端应用程序进行输入,可以输入文字信息、语音信息、图像信息或视频信息等,客户端应用程序接收到用户输入的信息后,可以将该信息发送至服务端102,使得服务端102可以接收该信息并进行处理及存储,服务端102还可以接收该信息并根据该信息将对应的输出信息返回至智能终端101。
60.在一些实施方式中,客户端应用程序可以用于向用户提供客户服务,与用户进行客服沟通,客户端应用程序可以基于仿真数字人与用户进行交互。具体地,客户端应用程序可以接收用户输入的信息,并基于仿真数字人对该信息作出应答。其中,仿真数字人是基于可视化图形的软件程序,该软件程序被执行后可以向用户呈现出模拟生物行为或思想的机器人形态。仿真数字人可以是模拟真人式的仿真数字人,例如根据用户自身或其他人的形态建立的形似真人的仿真数字人,也可以是动漫效果式的仿真数字人,例如动物形态或卡通人物形态的仿真数字人。
61.在一些实施方式中,如图2所示,智能终端101在获取与用户输入的信息对应的回复信息后,可以在智能终端101的显示屏或与其连接的其他图像输出设备上显示对应与该
回复信息的仿真数字人图像。作为一种方式,在播放仿真数字人图像的同时,可以通过智能终端101的扬声器或与其连接的其他音频输出设备播放与仿真数字人图像对应的音频,还可以在智能终端101的显示屏上显示与该回复信息对应的文字或图形,实现在图像、语音、文字等多个方面上与用户的多态交互。
62.在一些实施方式中,对用户输入的信息进行处理的装置也可以设置于智能终端101上,使得智能终端101无需与服务端102建立通信即可实现与用户的交互,此时仿真3d数字人生成系统100可以只包括智能终端101。
63.上述应用环境仅为方便理解所作的示例,可以理解的是,本申请实施例不仅局限于上述应用环境。
64.下面将通过具体实施例对本申请实施例提供的仿真3d数字人生成方法、装置、电子设备及存储介质进行详细说明。
65.请参阅图3,本申请实施例提供了一种仿真3d数字人生成方法,该仿真3d数字人生成方法可以应用于上述仿真3d数字人生成系统100,也可以应用于上述仿真3d数字人生成系统100中的智能终端101,还可以应用于上述仿真3d数字人生成系统100中的服务端102。具体地,该仿真3d数字人生成方法可以包括以下步骤s11至步骤s14。
66.步骤s11:获取描述参数,描述参数包括目标物相对于参考位置的相对位置信息,目标物包括用于标定仿真数字人角度的物体。
67.在本实施例中,参考位置可以是为了获知相对位置信息预先设定的位置。例如,参考位置可以是用于采集目标物图像的摄像头,也可以是用于呈现3d数字人的智能终端101的边框,此处对参考位置的设置不做具体限制。
68.在本实施例中,可以通过直接方式获取描述参数,也可以通过间接方式获取描述参数。当通过直接方式获取描述参数时,工程人员可以直接输入描述参数,以调整仿真数字人的呈现角度。通过直接输入描述参数的方式尤其适用于仿真数字人视频制作的场景(例如,当需要制作仿真数字人视频时,直接输入描述参数,实时调整仿真数字人的呈现角度),仿真数字人的呈现角度处于动态变化状态,当仿真数字人基于真人生成时,制作的仿真数字人视频与录制的真人视频较为接近,提高了仿真数字人视频中仿真数字人呈现画面的逼真程度。
69.在一些示例中,当通过间接方式获取描述参数时,可以获取目标物的所在位置,根据目标物的所在位置和参考位置得到相对位置信息。其中,获取目标物的所在位置的方法可以包括红外测距、音波测距、图像测距等,此处对获取目标物的所在位置的方法不做具体限制。通过间接方式获取描述参数,尤其适用于用户与仿真数字人交互的场景,通过实时检测目标物的相对位置信息,实时调整仿真数字人的呈现角度,从而可以呈现出与用户朝向对应的仿真数字人画面,模拟出用户与仿真数字人面对面交流的环境,提升用户的交互体验。
70.需要注意的是,对于不同方式获取描述参数,可以优先应用于与该方式相应的场景。例如,当采用直接输入描述参数的方式时,可以优先应用于如图1所示的仿真3d数字人生成系统100中;当采用间接方式获取描述参数时,可以优先应用于如图2所示的仿真3d数字人生成系统100中。具体而言,也可以采用直接和间接方式共同作用获取描述参数,此时可以预先设置直接方式获取描述参数的优先级大于间接方式获取描述参数的优先级。在一
些示例中,可以预先设置通过用户输入的信息获取到的描述参数的优先级,大于通过测量的方式获取到的描述参数的优先级,也就是说,若通过用户输入的信息获取到的相对位置信息为a,通过测量的方式获取到的相对位置信息为b,则以a作为方位参数。因此,通过设置优先级的方式,可以基于本实施例的仿真3d数字人生成方法实际的应用场景作相应调整,灵活确定相对位置信息,使得本实施例的仿真3d数字人生成方法适用于一些特殊场景(例如,当用于呈现仿真数字人的智能终端101为会场大屏时,与仿真数字人交互的用户想让仿真数字人朝向会场中的某处位置,而不是想让仿真数字人朝向自己),进而拓宽了该仿真3d数字人生成方法的应用场景,更加符合用户控制仿真数字人的需求。
71.步骤s12:根据相对位置信息确定所需呈现的仿真数字人的呈现角度。
72.在本实施例中,相对位置信息可以与仿真数字人的呈现角度处于对应状态。仿真数字人的呈现角度可以包括仿真数字人的眼球、面部等在呈现仿真数字人的载体(例如会场大屏幕、投影仪、智能手机等)的呈现角度。例如,当根据相对位置信息确定仿真数字人的面部朝向与目标物的面部朝向偏离轴线方向15度,则确定并调整仿真数字人当前的呈现角度,使仿真数字人的面部朝向与该轴线方向大致一致。其中,面部朝向可以为与面部中线处于同一平面,且垂直于面部的射线的方向,该面部中线可以为双眼连接的中点与鼻尖连接形成的线条。轴线方向可以作为面部朝向的参考方向,该轴线方向可以预先设定。
73.步骤s13:根据呈现角度和预设的仿真数字人模型,获得与呈现角度对应的仿真数字人图像。
74.在本实施例中,仿真数字人模型可以是预先构建的用于输出仿真数字人图像的模型。另外,对于仿真数字人模型输出与呈现角度对应的仿真数字人图像的方式,此处不做具体限制。例如,该仿真数字人模型可以是仿真数字人图像构建模型,此时,输入呈现角度,该仿真数字人模型构建在该呈现角度下的仿真数字人图像(例如,呈现角度为面部朝向与轴线方向之间的夹角为零,该仿真数字人模型仅构建与需要呈现的画面对应的图像(仿真数字人的面部正视图),而无需构建仿真数字人呈现的画面以外的图像),因此,在生成仿真数字人图像过程中,无需构建出3d数字人,对3d数字人进行驱动。
75.进一步地,当3d数字人模型为3d数字人时,可以通过调整3d数字人的角度,获取到仿真数字人图像,也可以通过调整获取3d数字人的角度,获取到仿真数字人图像,还可以是调整3d数字人的角度以及调整获取3d数字人的角度结合,获取到仿真数字人图像。
76.当通过调整3d数字人的角度,获取到仿真数字人图像时,可以调整3d数字人转动,以使3d数字人的角度符合呈现角度,进而获取到与呈现角度对应的仿真数字人图像。例如,当3d数字人的面部朝向相较于预期的呈现角度偏差15度,控制3d数字人转动15度,以使3d数字人的面部朝向与预期的呈现角度相符,进而获取到与该呈现角度对应的仿真数字人图像。此时,用于获取仿真数字人图像的采集模块采集图像的方向可以保持不变,只需要对3d数字人的角度进行调整,该种调整3d数字人的角度的方式尤其适用于3d数字人为预先构建的3d数字人模型,且该3d数字人模型中的3d数字人各个方位构建较为完整的场景,而无需消耗大量的算力对图像进行处理。
77.当通过调整获取3d数字人的角度,获取到仿真数字人图像时,可以调整用于采集仿真数字人图像的采集模块采集图像的方向,以使3d数字人的角度符合呈现角度,进而获取到与呈现角度对应的仿真数字人图像。例如,当3d数字人的面部朝向相较于预期的呈现
角度偏差15度,控制该采集模块采集图像的方向偏转15度,以使3d数字人的面部朝向与预期的呈现角度相符,进而获取到与该呈现角度对应的仿真数字人图像。此时,3d数字人的角度可以保持不变,只需要调整该采集模块采集图像的方向,该种调整采集模块采集图像的方向的方式尤其适用于能够实时计算出3d数字人各个角度的仿真数字人图像、处理能力较强的场景,有效减少前期构建3d数字人模型的时间。
78.当调整3d数字人的角度以及调整获取3d数字人的角度结合,获取到仿真数字人图像时,可以调整用于采集仿真数字人图像的采集模块采集图像的方向的同时,调整3d数字人转动,以使3d数字人的角度符合呈现角度,进而获取到与呈现角度对应的仿真数字人图像。例如,当3d数字人的正面相较于预期的呈现角度偏差15度,控制3d数字人转动7.5度,控制该采集模块采集图像的方向偏转7.5度,以使3d数字人的面部朝向与预期的呈现角度相符,进而获取到与该呈现角度对应的仿真数字人图像。此时,可以同时对该采集模块采集图像的方向和3d数字人的角度进行调整。该种同时对该采集模块采集图像的方向和3d数字人的角度进行调整的方式可以兼容调整3d数字人的角度的方式和调整采集模块采集图像的方向的效果,使得仿真数字人图像中的3d数字人的呈现角度更加符合预期,使得3d数字人的动作变化更加逼真,提高了人机交互体验。
79.进一步地,当仿真数字人模型为仿真数字人图像构建模型时,可以将呈现角度和仿真数字人模型输出的图像关联。具体地,当获取到呈现角度,在仿真数字人模型中获取与该呈现角度相关的各个子图像(该子图像可以是在各种呈现角度下表征仿真数字人形态的图像),并将该各个子图像进行拼接,从而输出仿真数字人图像。需要注意的是,由于仿真数字人模型输出的仿真数字人图像为用于训练仿真数字人模型的真人的各真实图像拼接形成,而该仿真数字人图像中仿真数字人的呈现画面为拍摄的真实图像,可以使输出的仿真数字人图像中的仿真数字人更加逼真。
80.可以理解的是,通过3d建模获取立体的3d数字人的过程,非常依赖于建模师人工的先验经验,通过大量地人为的调整来实现与真人接近的3d数字人,获取不同模特对应3d数字人需要重复进行建模过程,耗费大量的人工成本。而预设的仿真数字人模型是通过训练得到的深度学习模型,由仿真数字人模型得到目标仿真数字人图像的过程无需3d建模,得到的仿真数字人也更接近真人模特,效果更加逼真,适用于实际应用中对可能需要对不同真人模特进行建模以获取仿真数字人的情况。
81.步骤s14:输出仿真数字人图像。
82.在本实施例中,可以将该仿真数字人图像输出至用于呈现仿真数字人图像的设备,使得该设备呈现该仿真数字人图像。例如,该设备可以为会场大屏幕、投影仪、智能手机等智能终端101。在一些示例中,当用户面对智能终端101时,智能终端101可以获取到用户的面部朝向,并呈现出与该面部朝向对应的3d数字人画面,模拟出用户与3d数字人面对面交流的环境。在另一些示例中,当本实施例的仿真3d数字人生成方法应用于视频录制时,可以基于描述参数获得符合用户预期的仿真数字人图像,而无需专门对真人进行拍摄。
83.在本实施例中,通过上述步骤s11至步骤s14的实施,可以获取到描述参数,基于描述参数确定仿真数字人的呈现角度,获取并输出与呈现角度对应的仿真数字人图像,使得在用于训练获得仿真数字人的模特没有时间时,可以通过该模特训练得到的仿真数字人模型生成各种角度的仿真数字人图像,无需专门邀约模特在特定时间和地点参与图像拍摄,
减少生成图像成本,同时,还可以模拟出用户实时与仿真数字人处于面对面交流的环境,提升了呈现仿真数字人画面的逼真效果,优化了人机交互体验。
84.为了能够输出仿真数字人图像,可以预先构建仿真数字人模型,为此,本申请实施例还提供一种仿真3d数字人生成方法,如图4所示,该仿真3d数字人生成方法可以包括以下步骤s21至步骤s26。在本实施例中提供的仿真3d数字人生成方法中,可以包括与上述实施例相同或相似的步骤,对于相同或相似步骤的执行,可参考前文介绍,本说明书不再一一赘述。
85.步骤s21:获取多张样本图像以及与每张样本图像对应的样本描述参数。
86.在本实施例中,样本图像可以包括在不同角度下拍摄目标物所生成的图像。具体地,样本图像可以是在各个角度下,目标物做出各种动作、发音、表情等情况下所采集的图像。样本描述参数可以包括用于拍摄样本图像的拍摄装置在拍摄样本图像时的拍摄参数、样本图像的图像参数等。例如,拍摄参数可以包括焦距、拍摄装置拍摄样本图像时与目标物的距离、拍摄装置拍摄样本图像时的方向和角度等。图像参数可以是样本图像的像素大小、对比度、饱和度等。
87.在本实施例中,目标物可以包括与仿真数字人相关的模特。例如,当目标物为某播音主持人时,仿真数字人可以是与该播音主持人形态大致相同的仿真数字人。另外,目标物还可以是与目标物的面容、骨架、身材相仿的人物,还可以是与该目标物的面容、骨架、身材相仿的假人(例如人物蜡像)。
88.在一些示例中,可以将用于采集目标物的图像的摄像装置环球形布置于目标物周边,其中,相对于目标物的同一方位,可以设置不同焦距大小的摄像装置。当目标物发出声音、变化动作、变化面部表情等时,可以采用各个摄像装置同时采集包括目标物的图像,从而得到多张样本图像。
89.步骤s22:根据样本图像以及样本描述参数构建仿真数字人模型,得到预设的仿真数字人模型。
90.在本实施例中,可以基于样本图像和样本描述参数获取在不同角度下目标物的形态信息。其中,形态信息可以包括目标物的躯体变化情况相关的信息。例如,形态信息可以是嘴角下垂、眼球右偏、头部上扬、右手抬起等。
91.在一些示例中,可以基于样本描述参数获取拍摄样本图像的角度,也可以对样本图像进行标定,获取样本图像中目标物的角度。其中,当通过对样本图像进行标定得到该角度时,可以对样本图像中的目标物进行识别,获得样本图像的呈现角度,从而对该样本图像进行标注,得到该角度,还可以通过人工标注各个样本图像,得到该角度。
92.在一些示例中,当对样本图像中的目标物进行识别时,可以通过目标检测算法从样本图像中获取到目标物的各个部位,再基于多张连续性的样本图像中的相同部位的变化状态确定该部位的形态信息,从而得到目标物各个部位的形态信息。例如,目标检测算法可以是滑动窗口目标检测、two stage目标检测算法、one stage目标检测算法等算法。
93.在本实施例中,当获取到不同角度下目标物的形态信息时,可以将各个角度与目标物的不同形态一一对应,当输入包括相对位置信息的描述参数时,可以基于该描述参数得到呈现角度,并将该呈现角度输入至仿真数字人模型,在仿真数字人模型中获取与该呈现角度对应的子图像,该子图像包括该角度对应的目标物的形态,将各个子图像拼接后,输
出仿真数字人图像。此时,本实施例提供的仿真3d数字人生成方法尤其适合应用在用于训练获得仿真数字人的模特没有时间时,可以通过该模特训练得到的仿真数字人模型生成各种角度的仿真数字人图像,无需专门邀约模特在特定时间和地点参与图像拍摄,减少生成图像成本。
94.在本实施例中,当仿真数字人模型为3d数字人时,可以获取原始3d数字人以及原始3d数字人的建模信息,并根据形态信息和建模信息,生成3d数字人。其中,原始3d数字人可以包括已经构建好的3d数字人的模型。例如,该原始3d数字人可以是某一地域的平均人脸模型,也可以是工业动漫中的3d动画模型,此处对原始3d数字人的类型不做具体限制。另外,建模信息可以包括用于构建原始3d数字人的参数信息,通过该建模信息可以还原该原始3d数字人,使该原始3d数字人能够被呈现。
95.在本实施例中,可以将目标物的形态信息与建模信息相结合,使得目标物的形态特征添加至原始3d数字人,从而得到包括目标物的形态信息的3d数字人。另外,当输入包括相对位置信息的描述参数时,可以基于该描述参数得到呈现角度,并将该呈现角度输入至仿真数字人模型,控制仿真数字人模型中3d数字人的呈现角度,获取在该呈现角度下包括3d数字人的仿真数字人图像。此时,本实施例提供的仿真3d数字人生成方法尤其适用于仿真数字人模型中的3d数字人各个方位构建较为完整的场景,而无需消耗大量的算力对图像进行处理,仅需提供描述参数即可驱动3d数字人,使3d数字人的角度为呈现角度。
96.在本实施例中,通过上述步骤s21至步骤s22的实施,可以通过图像拼接或者构建3d数字人的方式获取仿真数字人模型,进而根据该仿真数字人模型生成仿真数字人图像。
97.进一步地,为了能够使仿真数字人模型输出的仿真数字人图像中,仿真数字人的呈现角度符合预期,可以预先获取相机参数,将相机参数与样本图像进行结合;样本描述参数包括相机参数,如图5所示,上述步骤s22可以包括以下步骤s221至步骤s223。
98.步骤s221:获取与相机参数对应的样本图像配置参数。
99.在本实施例中,相机参数可以包括用于拍摄样本图像的拍摄装置拍摄目标模特时所采用的参数。例如,相机参数可以是焦距、光圈大小等。样本图像配置参数可以包括用于拍摄样本图像的拍摄装置拍摄目标模特所生成的样本图像的参数。例如,样本图像配置参数可以是像素大小、图像曝光度、目标模特在图像中的占比、目标模特与地面接触的位置等。
100.步骤s222:根据样本图像获取目标模特的角度信息,并将角度信息与样本图像配置参数关联。
101.在本实施例中,角度信息可以包括样本图像中目标模特呈现的角度。例如,当样本图像中目标模特的面部朝向与预设轴线方向之间的夹角为15度时,可以将15度作为该角度信息。在一些示例中,可以对样本图像进行识别,从而获得目标模特的角度。具体地,可以通过目标检测算法从样本图像中获取到目标模特的各个部位,再基于多张连续性的样本图像中的相同部位的变化状态确定该部位的角度,从而得到目标模特各个部位的角度,并将该各个部位的角度作为角度信息。例如,目标检测算法可以是滑动窗口目标检测、two stage目标检测算法、one stage目标检测算法等算法。
102.步骤s223:根据样本图像配置参数和角度信息构建仿真数字人模型,得到预设的仿真数字人模型。
103.在本实施例中,可以将样本图像视为由多个区域、多个点组成,基于样本图像配置参数和角度信息获取到目标模特在各个角度下多个区域、多个点位的状态,将各个角度下的区域、点位进行结合,构建得到仿真数字人模型,以使仿真数字人模型能够输出不同角度下的包括目标模特的图像。
104.在本实施例中,通过上述步骤s221至步骤s223的实施,可以预先获取相机参数,将相机参数与样本图像进行结合,使仿真数字人模型输出的仿真数字人图像中,仿真数字人的呈现角度与预期的角度之间能够较好吻合。
105.步骤s23:获取描述参数,描述参数包括目标物相对于参考位置的相对位置信息,目标物包括用于标定仿真数字人角度的物体。
106.进一步地,为了能够获取到相对位置信息,可以先获取确定目标物的位置和参考位置,以确定目标物相对参考位置的相对位置信息;如图6所示,上述步骤s23可以包括以下步骤s231至步骤s233。
107.步骤s231:获取包含目标物的图像,基于图像确定目标物的空间位置信息。
108.在本实施例中,包含目标物的图像可以是不同角度采集目标物的图像,也可以是基于音波反馈生成的声音振动图像,此处对包含目标物的图像的表现形式不做具体限制。另外,空间位置信息可以包括用于表征目标物在空间中所处位置的信息。例如,空间位置信息可以为图像中目标物所在的位置,还可以是声音振动图像中预设振幅和频率的片段。
109.步骤s232:获取参考位置的参考位置信息,参考位置用于表征仿真数字人的参照物的位置。
110.在一些示例中,参考位置信息可以包括用于表征参照物位置的信息。为了减少计算方位参数的计算量,可以预先存储参考位置信息,在计算参考位置信息时可以直接提取。另外,参考位置信息的表现形式也可以是图像、数字信号等,此处对参考位置信息的表现形式不做具体限制。
111.步骤s233:根据空间位置信息和参考位置信息,确定目标物相对参考位置的相对位置信息。
112.在本实施例中,可以将控制位置信息与参考位置信息进行比对,进而确定相对位置信息。
113.在本实实施例中,通过上述步骤s231至步骤s233的实施,可以获取到目标物相对于参考位置的相对位置信息,能够实时检测并获取相对位置信息,从而可以基于该相对位置信息实时确定呈现的仿真数字人的呈现角度。
114.进一步地,为了能够获取到更加准确的相对位置信息,可以对目标物和参照物之间的距离和相对角度进行计算;如图7所示,上述步骤s233可以包括以下步骤s2331至步骤s2333。
115.步骤s2331:根据空间位置信息获取目标物的目标坐标参数。
116.在本实施例中,该目标坐标参数可以是目标物的头部、眼部、嘴部等部位的目标坐标参数。例如,当采集到的不同角度包括目标物的图像时,可以获取拍摄装置拍摄该图像时的相机参数以及该图像中的目标物信息,再基于不同图像的拍摄参数和目标物信息确定目标物的目标坐标参数。其中,拍摄装置可以包括用于拍摄目标物以形成图像的装置。相机参数可以包括拍摄装置拍摄目标物时所使用的参数。例如,该相机参数可以包括拍摄装置的
拍摄角度、焦距、光圈等。目标物信息可以包括该图像中目标物的呈现信息。例如,目标物信息可以是目标物在图像中的呈现角度、目标物在图像中的占比、目标物与地面接触的位置等。
117.步骤s2332:根据参考位置信息获取参照物的参考坐标参数。
118.在本实施例中,根据参考位置信息获取参照物的参考坐标参数的方式与上述步骤s2331中根据空间位置信息获取目标物的目标坐标参数的方式类似,此处不再赘述。
119.另外,需要注意的是,也可以预先存储参考坐标参数,在后续可以提取得到参考坐标参数。
120.步骤s2333:将目标坐标参数与参考坐标参数进行比对,确定目标物与参照物之间的相对距离和相对角度,以得到包括相对距离和相对角度的相对位置信息。
121.在本实施例中,可以将目标坐标参数与参考坐标参数置于同一坐标系中进行比对,进而可以计算出目标物与参考位置之间的距离和相对角度,从而得到包括该距离和该相对角度的相对位置信息。
122.在本实施例中,通过上述步骤s2331至步骤s2333的实施,可以获取目标物和参照物之间的距离和相对角度,从而得到相对位置信息,实现实时检测并获取相对位置信息,从而可以基于该相对位置信息实时确定呈现的仿真数字人的呈现角度。
123.步骤s24:根据相对位置信息确定所需呈现的仿真数字人的呈现角度。
124.步骤s25:根据呈现角度和预设的仿真数字人模型,获得与呈现角度对应的仿真数字人图像。
125.进一步地,为了能够获得与呈现角度对应的仿真数字人图像,可以对多张目标图像进行组合;如图8所示,上述步骤s25可以包括以下步骤s251至步骤s252。
126.步骤s251:根据呈现角度,从预设的仿真数字人模型中获取与呈现角度对应的多张目标图像。
127.在本实施例中,目标图像可以包括用于呈现仿真数字人的呈现画面中各个预设区域在呈现角度下所呈现的图像。其中,呈现画面可以包括用于呈现仿真数字人画面的显示装置(例如,该显示装置可以为会场大屏幕、投影仪、智能手机等)所呈现的画面。预设区域可以预先根据经验设定,每个预设区域的大小可以相同,也可以不相同。例如,当呈现画面为会场大屏幕时,可以将该会场大屏幕中用于呈现仿真数字人的画面均等划分为两百等份、四百等份、一千等份等。
128.在本实施例中,可以基于该呈现角度,在该仿真数字人模型中查询各个预设区域在该呈现角度下对应的目标图像。例如,呈现角度为30度,预设区域的数量为两百,可以获取在30度下,分别获取两百个预设区域在30度下所呈现的目标图像。
129.步骤s252:对多张目标图像进行组合,获得与描述参数对应的仿真数字人图像。
130.在本实施例中,可以按照目标图像与预设区域的对应关系,将各个目标图像进行组合拼接,获得与描述参数对应的仿真数字人图像。
131.在本实施例中,通过上述步骤s251至步骤s252的实施,可以获取与呈现角度对应的多张目标图像,并将多张目标图像进行拼接,而无需构建出一个完整的3d数字人,仅需要拼接输出在呈现角度下仿真数字人所呈现的画面,减少训练的仿真数字人模型的时间。
132.步骤s26:输出仿真数字人图像。
133.为了能够使后续输出的仿真数字人图像的呈现效果符合用户预期,可以基于样本语义信息对仿真数字人模型进行训练;样本描述参数还包括样本输入信息,该仿真3d数字人生成方法可以包括以下步骤s31至步骤s36。在本实施例中提供的仿真3d数字人生成方法中,可以包括与上述实施例相同或相似的步骤,对于相同或相似步骤的执行,可参考前文介绍,本说明书不再一一赘述。
134.步骤s31:获取多张样本图像以及与每张样本图像对应的样本描述参数。
135.步骤s32:根据样本图像以及样本描述参数构建仿真数字人模型,得到预设的仿真数字人模型。
136.如图9所示,上述步骤s32可以包括以下步骤s321至步骤s323。
137.步骤s321:获取与样本输入信息对应的样本语义信息。
138.在本实施例中,可以基于样本输入信息的类型,对样本输入信息采取相应的处理方式,获取到样本输入信息所表征的意图,进而得到对应的语义信息。例如,当样本输入信息为语音时,可以对该语音进行语音识别处理,得到与该语音对应的文本,采用意图识别模型对文本进行识别,获得样本输入信息所表征的意图,进而获取到与该样本输入信息对应的语义信息;当样本输入信息为文字时,可以采用意图识别模型对该文字进行识别,获得样本输入信息所表征的意图,进而获取到与该输入信息对应的语义信息;当样本输入信息为图像时,可以对该图像进行图像识别处理,得到该样本输入信息所表征的意图,进而获取到与该输入信息对应的语义信息。需要注意的是,输入信息可以包括语音、文字、图像中多个,此时可以使用与语音、文字、图像相对应的方式分别对输入信息进行处理,得到样本输入信息所表征的意图,进而获取到与该样本输入信息对应的语义信息。
139.在本实施例中,技术人员可以预先确定各种意图,并在每种意图的基础上随机衍生出不同的样本输入信息,以用于仿真数字人模型的训练。
140.步骤s322:根据样本图像获取目标模特的样本面部表情参数,并将样本语义信息与样本面部表情参数关联。
141.在本实施例中,可以通过对样本图像进行图像识别,获得样本面部表情参数。样本面部表情参数可以包括用于表示目标模特的面部各个区域变化状态的参数。例如,样本面部表情参数可以包括左眼角、右眼角、嘴角、面部轮廓、眉毛、鼻翼等变化状态的参数。在一些示例中,可以对样本图像进行图像识别,获取在各个时间节点,目标模特的左眼角、右眼角、嘴角、面部轮廓、眉毛、鼻翼等各个区域的状态,将该状态与时间属性相结合,获得用于目标模特的面部各个区域变化状态的参数。
142.在本实施例中,可以将样本语义信息与样本面部表情关联。例如,在当样本语义信息表示高兴时,将在样本语义信息为高兴的时间段的样本面部表情与该样本语义信息进行关联。由此,可以获得在同一样本语义信息下的多个样本面部表情,并将该样本语义信息与该多个样本面部表情进行关联。
143.需要注意的是,由于目标模特表述样本语义信息的过程具备时间属性,目标模特在做出面部表情时,也是一个动态的过程。因此,在对样本图像识别的过程中,可以获取在各时刻下,目标模特面部的各个区域的动态变化过程,从而获得样本面部表情参数。
144.步骤s323:根据样本语义信息和样本面部表情参数构建仿真数字人模型,得到预设的仿真数字人模型。
145.在本实施例中,可以按照目标模特的情绪类别对样本语义信息进行分类。其中,情绪类别可以预先定义,例如,情绪类别可以是高兴、兴奋、生气、低落等。
146.在本实施例中,通过上述步骤s321至步骤s323的实施,可以特定地获取目标模特的样本面部表情参数,并将该样本面部表情参数与样本语义信息进行关联,由此可以专门针对目标模特的面部表情进行定义,使得后续输出仿真数字人图像时,仿真数字人图像中的仿真数字人的面部表情能够与输出的反馈信息所表征的语义相匹配,有效提高了输出的仿真数字人的逼真程度。
147.为了能够提高样本语义信息与样本面部表情参数关联程度,可以设置面部关键点,将面部关键点与样本语义信息对应,如图10所示,上述步骤s322可以包括以下步骤s3221至步骤s3223。
148.步骤s3221:获取样本图像中目标模特的面部区域。
149.在本实施例中,可以通过目标检测算法从样本图像中获取到目标模特的面部区域。其中,该面部区域可以为样本图像中目标模特的面部轮廓。例如,目标检测算法可以是滑动窗口目标检测、two stage目标检测算法、one stage目标检测算法等算法。
150.步骤s3222:获取面部区域中的面部关键点。
151.在本实施例中,可以通过人工标注的方式获取面部区域中的面部关键点,也可以通过机器学习自动标注的方式获取面部区域中的面部关键点。
152.另外,为了能够准确地获取到面部区域中的面部关键点,可以利用样本面部表情参数在一段时间段内,可以处于动态变化的这一特点,将已标注的面部关键点与目标模特的面部关键点进行对应。具体地,可以获取包括已在面部标注形成面部关键点的目标模特的模特图像,并计算该模特图像中的面部关键点与面部区域中的面部关键点在预设时间段内的变化差值。若该变化差值大于预设差值,则对面部区域中的面部关键点进行修正。若该变化差值小于或等于预设差值,则确定当前面部区域中的面部关键点符合预期。
153.示例地,可以获取包括已在面部标注形成面部关键点的目标模特的模特图像,对连续性模特图像中同一面部关键点进行关联,从而获得预设时间段内模特图像的各个面部关键点的动态变化轨迹,基于该动态变化轨迹获得模特图像的各个面部关键点在各时刻的面部变化幅度;对连续性样本图像中同一面部关键点进行关联,获得预设时间段内样本图像的各个面部关键点的动态变化轨迹,基于该动态变化轨迹获得样本图像的各个面部关键点在各时刻的面部变化幅度;比较模特图像的各个面部关键点在各时刻的面部变化幅度和样本图像的各个面部关键点在各时刻的面部变化幅度,获得变化差值,若在同一时刻下该变化差值大于预设幅度阈值,则确定需要对样本图像中的面部关键点进行修正;若在同一时刻下该变化差值小于或等于预设幅度阈值,则确定当前样本图像中的面部关键点符合预期。
154.步骤s3223:对面部区域中的面部关键点进行处理,确定样本图像中目标模特的样本面部表情参数。
155.在本实施例中,可以对样本面部表情参数进行定义,基于对样本面部表情参数定义的结果,对样本面部表情参数进行分类,并将该样本面部表情参数与面部区域中的面部关键点进行关联。从而在后续输出仿真数字人图像时,可以基于面部关键点输出对应的图像。
156.在本实施例中,通过上述步骤s3221至步骤s3223的实施,可以通过面部关键点预先确定样本图像中目标模特的样本面部表情参数,从而在输出仿真数字人图像过程中,可以基于面部关键点确定所输出的表情,以实现对仿真数字人图像中仿真数字人面部表情的管理。
157.步骤s33:获取描述参数,描述参数包括目标物相对于参考位置的相对位置信息,目标物包括用于标定仿真数字人角度的物体。
158.步骤s34:根据相对位置信息确定所需呈现的仿真数字人的呈现角度。
159.步骤s35:根据呈现角度和预设的仿真数字人模型,获得与呈现角度对应的仿真数字人图像。
160.步骤s36:输出仿真数字人图像。
161.为了能够使后续输出的仿真数字人图像的呈现效果符合用户预期,可以基于样本发音信息对仿真数字人模型进行训练;样本描述参数还包括样本输入信息,该仿真3d数字人生成方法可以包括以下步骤s41至步骤s46。在本实施例中提供的仿真3d数字人生成方法中,可以包括与上述实施例相同或相似的步骤,对于相同或相似步骤的执行,可参考前文介绍,本说明书不再一一赘述。
162.步骤s41:获取多张样本图像以及与每张样本图像对应的样本描述参数。
163.步骤s42:根据样本图像以及样本描述参数构建仿真数字人模型,得到预设的仿真数字人模型。
164.如图11所示,上述步骤s42可以包括以下步骤s421至步骤s423。
165.步骤s421:获取与样本输入信息对应的样本发音信息。
166.在本实施例中,样本发音信息可以包括目标模特在描述样本输入信息所生成的语音。
167.步骤s422:根据样本图像获取目标模特的样本嘴型参数,并将样本发音信息与样本嘴型参数关联。
168.在本实施例中,可以获取目标模特在发出与样本发音信息对应的声音时目标模特的嘴部关键点的变化情况,从而得到用于表征嘴部关键点的变化情况的嘴型参数。其中,嘴部关键点可以包括用于辨识和定位嘴部各个部分的位置。例如,嘴部关键点可以包括左嘴角、右嘴角、颏唇沟、鼻底等。
169.在本实施例中,可以将目标模特发出的声音与样本嘴型参数对应,具体地,将目标模特的各个音素与嘴部关键点的各种状态关联。
170.步骤s423:根据样本发音信息和样本嘴型参数构建仿真数字人模型,得到预设的仿真数字人模型。
171.在本实施例中,可以通过控制嘴部关键点的位置控制输出的仿真数字人图像中仿真数字人的嘴型变化。需要注意的是,由于嘴型参数可以具备时间属性,可以将各个时间节点控制仿真数字人图像中仿真数字人的嘴型变化,从而能够准确地呈现仿真数字人的嘴型的变化过程。
172.在本实施例中,通过上述步骤s421至步骤s423的实施,可以特定地获取目标模特的样本嘴型参数,并将该样本嘴型参数与样本发音信息进行关联,由此可以专门针对目标模特的样本嘴型进行定义,使得后续输出仿真数字人图像时,仿真数字人图像中的仿真数
字人的嘴型能够与输出的语音相匹配,有效提高了输出的仿真数字人的逼真程度。
173.步骤s43:获取描述参数,描述参数包括目标物相对于参考位置的相对位置信息,目标物包括用于标定仿真数字人角度的物体。
174.步骤s44:根据相对位置信息确定所需呈现的仿真数字人的呈现角度。
175.步骤s45:根据呈现角度和预设的仿真数字人模型,获得与呈现角度对应的仿真数字人图像。
176.步骤s46:输出仿真数字人图像。
177.为了能够使后续输出的仿真数字人图像的呈现效果符合用户预期,可以基于样本语义信息对仿真数字人模型进行训练;样本描述参数还包括样本输入信息,该仿真3d数字人生成方法可以包括以下步骤s51至步骤s56。在本实施例中提供的仿真3d数字人生成方法中,可以包括与上述实施例相同或相似的步骤,对于相同或相似步骤的执行,可参考前文介绍,本说明书不再一一赘述。
178.步骤s51:获取多张样本图像以及与每张样本图像对应的样本描述参数。
179.步骤s52:根据样本图像以及样本描述参数构建仿真数字人模型,得到预设的仿真数字人模型。
180.如图12所示,上述步骤s52可以包括以下步骤s521至步骤s524。
181.步骤s521:获取与样本输入信息对应的样本语义信息。
182.步骤s522:获取样本语义信息的样本语义类别。
183.在本实施例中,语义类别可以包括用于对反馈信息进行语义分类的结果。例如,针对同一种语义,可以具有多种不同的表述方式,可以将不同表述方式且语义相同的反馈信息划分为同一语义类别。
184.步骤s523:根据样本图像获取目标模特的样本躯干动作参数,并将样本语义类别与样本躯干动作参数关联。
185.在本实施例中,可以对样本图像进行图像识别,获得样本躯干动作参数。其中,可以先获取样本图像中的躯干关键点,再基于躯干关键点确定目标模特的样本躯干动作参数。其中,躯干关键点可以包括用于辨识和定位仿真数字人躯干各个部分的位置。例如,躯干关键点可以包括脚尖、膝关节、手关节等。样本躯干动作参数可以用于表征各个躯干关键点在一段时间内的变化过程。
186.在本实施例中,可以将目标模特的躯干动作参数与样本语义类别对应,也就是说,当接收到该样本语义类别时,可以输出与该样本语义类别对应的躯干动作参数,以使输出的仿真数字人图像中仿真数字人的躯干动作与样本语义类别对应。
187.进一步地,为了能够提高样本语义类别与样本躯干动作参数关联程度,可以对样本图像进行语义分割处理,将样本语义类别与样本躯干动作参数对应,如图13所示,上述步骤s523可以包括以下步骤s5231至步骤s5232。
188.步骤s5231:获取每张样本图像中包括目标模特的有效区域。
189.在本实施例中,有效区域可以包括样本图像中目标模特的躯干所在区域。在一些示例中,可以通过目标检测算法检测目标模特的躯干所在位置,并输出矩形框,该矩形框所框选的区域可以视为有效区域。
190.步骤s5232:对有效区域进行语义分割处理,确定每张样本图像中目标模特的样本
躯干动作参数,并将样本语义类别与样本躯干动作参数关联。
191.在本实施例中,可以通过语义分割算法获取到在样本图像中目标模特的躯干与环境的交界处,从而将目标模特的躯干从样本图像中提取出来,在目标模特的躯干基础上,获取躯干关键点,进而获得样本躯干动作参数,将样本语义类别与样本躯干动作参数关。其中,语义分割算法可以包括基于区域的语义分割、全卷积网络语义分割、弱监督语义分割等,此处对语义分割算法的类型不做具体限制。
192.步骤s524:根据样本语义类别和样本躯干动作参数构建仿真数字人模型,得到预设的仿真数字人模型。
193.在本实施例中,可以通过控制躯干关键点的位置控制输出的仿真数字人图像中仿真数字人的躯干变化。需要注意的是,由于躯干动作参数可以具备时间属性,可以将各个时间节点控制仿真数字人图像中仿真数字人的躯干变化,从而能够准确地呈现仿真数字人的躯干动作的变化过程。
194.在本实施例中,通过上述步骤s521至步骤s524的实施,可以特定地获取目标模特的样本躯干动作参数,并将该样本躯干动作参数与样本语义类别进行关联,由此可以专门针对目标模特的躯干动作进行定义,使得后续输出仿真数字人图像时,可以先对需要输出的信息进行语义分类,再基于语义分类的结果确定仿真数字人图像中的仿真数字人的躯干动作,使得仿真数字人图像中的仿真数字人的躯干动作能够与输出的信息的语义相匹配,有效提高了输出的仿真数字人的逼真程度。
195.步骤s53:获取描述参数,描述参数包括目标物相对于参考位置的相对位置信息,目标物包括用于标定仿真数字人角度的物体。
196.步骤s54:根据相对位置信息确定所需呈现的仿真数字人的呈现角度。
197.步骤s55:根据呈现角度和预设的仿真数字人模型,获得与呈现角度对应的仿真数字人图像。
198.步骤s56:输出仿真数字人图像。
199.为了能够观较清楚地理会到3d数字人所反馈的内容,可以为仿真数字人视频配置对应的音频;如图14所示,本实施例提供的仿真3d数字人生成方法还可以包括以下步骤s61至步骤s69。在本实施例中提供的仿真3d数字人生成方法中,可以包括与上述实施例相同或相似的步骤,对于相同或相似步骤的执行,可参考前文介绍,本说明书不再一一赘述。
200.步骤s61:获取描述参数,描述参数包括目标物相对于参考位置的相对位置信息,目标物包括用于标定仿真数字人角度的物体。
201.步骤s62:根据相对位置信息确定所需呈现的仿真数字人的呈现角度。
202.步骤s63:根据呈现角度和预设的仿真数字人模型,获得与呈现角度对应的仿真数字人图像。
203.步骤s64:输出仿真数字人图像。
204.步骤s65:获取多张仿真数字人图像;
205.步骤s66:确定至少两张仿真数字人图像输出的时序信息。
206.步骤s67:根据时序信息,基于多张仿真数字人图像生成仿真数字人视频。
207.在本实施例中,可以从该时序信息中获取该多张仿真数字人图像的时序,可以按照该时序,将多张仿真数字人图像依次排序,进而合成仿真数字人视频。
208.步骤s68:根据时序信息为仿真数字人视频配置对应的音频信息。
209.在本实施例中,该音频信息可以是基于用户的输入信息向用户反馈的语音,也可以是自行为仿真数字人配置的语音,此处对音频信息的来源不做具体限制。另外,音频信息的时长可以与仿真数字人视频的时长相同。
210.步骤s69:同步播放仿真数字人视频和音频信息。
211.在本实施例中,通过上述步骤s61至步骤s69的实施,可以使用于呈现仿真数字人画面的设备播放仿真数字人视频和音频信息。
212.在本实施例中,通过本实施例提供的仿真3d数字人生成方法,可以获取到描述参数,基于描述参数确定仿真数字人的呈现角度,获取并输出与呈现角度对应的仿真数字人图像,使得在用于训练获得仿真数字人的模特没有时间时,可以通过该模特训练得到的仿真数字人模型生成各种角度的仿真数字人图像,无需专门邀约模特在特定时间和地点参与图像拍摄,减少生成图像成本,同时,可以预先获取相机参数,将相机参数与样本图像进行结合,使仿真数字人模型输出的仿真数字人图像中,仿真数字人的呈现角度与预期的角度之间能够较好吻合,可以获取与呈现角度对应的多张目标图像,并将多张目标图像进行拼接,而无需构建出一个完整的3d数字人,仅需要拼接输出在呈现角度下仿真数字人所呈现的画面,减少训练的仿真数字人模型的时间,并且尤其适用于播音主持、慰藉逝者、私人订制客服等场景,同时还还可以模拟出用户实时与仿真数字人处于面对面交流的环境,提升了呈现仿真数字人画面的逼真效果,优化了人机交互体验。
213.请参阅图15,其示出了本申请实施例提供的一种仿真3d数字人生成装置的结构框图,该装置可以包括描述参数获取模块41、呈现角度获取模块42、仿真数字人图像获取模块43和第一仿真数字人图像输出模块44。其中,描述参数获取模块41,用于获取描述参数,描述参数可以包括目标物相对于参考位置的相对位置信息,目标物包括用于标定仿真数字人角度的物体。呈现角度获取模块42,用于根据相对位置信息确定所需呈现的仿真数字人的呈现角度。仿真数字人图像获取模块43,用于根据呈现角度和预设的仿真数字人模型,获得与呈现角度对应的仿真数字人图像。第一仿真数字人图像输出模块44,用于输出仿真数字人图像。
214.进一步地,作为本实施例的一种实施方式,描述参数获取模块41可以包括图像获取单元、位置获取单元和相对位置信息获取单元。其中,图像获取单元用于获取包含目标物的图像,基于图像确定目标物的空间位置信息。位置获取单元用于获取参考位置的参考位置信息,参考位置用于表征仿真数字人的参照物的位置。相对位置信息获取单元用于根据空间位置信息和参考位置信息,确定目标物相对参考位置的相对位置信息。
215.进一步地,作为本实施例的一种实施方式,相对位置信息获取单元可以包括目标坐标参数子单元、参考坐标参数子单元和参考坐标参数子单元。其中,目标坐标参数子单元用于根据空间位置信息获取目标物的目标坐标参数。参考坐标参数子单元用于根据参考位置信息获取参照物的参考坐标参数。参考坐标参数子单元用于将目标坐标参数与参考坐标参数进行比对,确定目标物与参照物之间的相对距离和相对角度,以得到可以包括相对距离和相对角度的相对位置信息。
216.进一步地,作为本实施例的一种实施方式,仿真数字人图像获取模块43可以包括目标图像获取单元和仿真数字人图像获取单元。其中,目标图像获取单元用于根据呈现角
度,从预设的仿真数字人模型中获取与呈现角度对应的多张目标图像。仿真数字人图像获取单元用于对多张目标图像进行组合,获得与描述参数对应的仿真数字人图像。
217.进一步地,作为本实施例的一种实施方式,仿真3d数字人生成装置还可以包括样本描述参数获取单元和仿真数字人模型获取单元。其中,样本描述参数获取单元用于获取多张样本图像以及与每张样本图像对应的样本描述参数。仿真数字人模型获取单元用于根据样本图像以及样本描述参数构建仿真数字人模型,得到预设的仿真数字人模型。
218.进一步地,作为本实施例的一种实施方式,样本描述参数可以包括相机参数;仿真数字人模型获取单元可以包括样本图像配置参数获取子单元、图像配置参数关联子单元和第一仿真数字人模型获取子单元。其中,样本图像配置参数获取子单元用于获取与相机参数对应的样本图像配置参数。图像配置参数关联子单元用于根据样本图像获取目标模特的角度信息,并将角度信息与样本图像配置参数关联。第一仿真数字人模型获取子单元用于根据样本图像配置参数和角度信息构建仿真数字人模型,得到预设的仿真数字人模型。
219.进一步地,作为本实施例的一种实施方式,样本描述参数还可以包括样本输入信息;仿真数字人模型获取单元可以包括第一样本语义信息获取子单元、样本面部表情参数关联子单元和第二仿真数字人模型获取子单元。其中,第一样本语义信息获取子单元用于获取与样本输入信息对应的样本语义信息。样本面部表情参数关联子单元用于根据样本图像获取目标模特的样本面部表情参数,并将样本语义信息与样本面部表情参数关联。第二仿真数字人模型获取子单元用于根据样本语义信息和样本面部表情参数构建仿真数字人模型,得到预设的仿真数字人模型。
220.进一步地,作为本实施例的一种实施方式,样本面部表情参数关联子单元可以包括面部区域获取组件、面部关键点获取组件和样本面部表情参数获取组件。其中,面部区域获取组件用于获取样本图像中目标模特的面部区域。面部关键点获取组件用于获取面部区域中的面部关键点。样本面部表情参数获取组件用于对面部区域中的面部关键点进行处理,确定样本图像中目标模特的样本面部表情参数。
221.进一步地,作为本实施例的一种实施方式,样本描述参数还可以包括样本输入信息;仿真数字人模型获取单元可以包括样本发音信息获取子单元、样本嘴型参数关联子单元和第三仿真数字人模型获取子单元。其中,样本发音信息获取子单元用于获取与样本输入信息对应的样本发音信息。样本嘴型参数关联子单元用于根据样本图像获取目标模特的样本嘴型参数,并将样本发音信息与样本嘴型参数关联。第三仿真数字人模型获取子单元用于根据样本发音信息和样本嘴型参数构建仿真数字人模型,得到预设的仿真数字人模型。
222.进一步地,作为本实施例的一种实施方式,样本描述参数还可以包括样本输入信息;仿真数字人模型获取单元可以包括第二样本语义信息获取子单元、样本语义类别获取子单元、样本躯干动作参数关联子单元和第四仿真数字人模型获取子单元。其中,第二样本语义信息获取子单元用于获取与样本输入信息对应的样本语义信息。样本语义类别获取子单元用于获取样本语义信息的样本语义类别。样本躯干动作参数关联子单元用于根据样本图像获取目标模特的样本躯干动作参数,并将样本语义类别与样本躯干动作参数关联。第四仿真数字人模型获取子单元用于根据样本语义类别和样本躯干动作参数构建仿真数字人模型,得到预设的仿真数字人模型。
223.进一步地,作为本实施例的一种实施方式,样本躯干动作参数关联子单元可以包括有效区域获取组件和样本躯干动作参数关联组件。其中,有效区域获取组件用于获取每张样本图像中可以包括目标物的有效区域。样本躯干动作参数关联组件用于对有效区域进行语义分割处理,确定每张样本图像中目标模特的样本躯干动作参数,并将样本语义类别与样本躯干动作参数关联。
224.进一步地,作为本实施例的一种实施方式,仿真3d数字人生成装置还可以包括第二仿真数字人图像输出模块、时序信息确定模块、仿真数字人视频生成模块、音频信息配置模块和播放模块。其中,第二仿真数字人图像输出模块用于获取多张仿真数字人图像。时序信息确定模块用于确定至少两张仿真数字人图像输出的时序信息。仿真数字人视频生成模块用于根据时序信息,基于多张仿真数字人图像生成仿真数字人视频。音频信息配置模块用于根据时序信息为仿真数字人视频配置对应的音频信息。播放模块用于同步播放仿真数字人视频和音频信息。
225.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置中模块/单元/子单元/组件的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
226.在本申请所提供的几个实施例中,所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
227.另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
228.请参阅图16,其示出了本申请实施例提供的一种电子设备,该电子设备包括处理器810、通信模块820、存储器830和总线。总线可以是isa总线、pci总线、eisa总线或can总线等。总线可以分为地址总线、数据总线、控制总线等。其中:
229.存储器830,用于存放程序。具体地,存储器830可用于存储软件程序以及各种数据。存储器830可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作至少一个功能所需的程序可以包括程序代码,程序代码包括计算机操作指令。除了存放程序之外,存储器830还可以暂存通信模块820需要发送的消息等。存储器830可能包含高速ram存储器,也可能还包括非易失性存储器(non

volatile memory),例如至少一个固态硬盘(solid state disk,简称ssd)。
230.处理器810用于执行存储器830存放的程序。程序被处理器执行时实现上述各实施例的仿真3d数字人生成方法的步骤。
231.本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述各实施例的仿真3d数字人生成方法的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,的计算机可读存储介质,如只读存储器(read

only memory,简称rom)、随机存取存储器(random access memory,简称ram)、ssd、带电可擦可编程只读存储器(electrically erasable programmable read only memory,简称eeprom)或快闪存储器(flash memory,简称flash)等。
232.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
233.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、ssd、flash)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例的方法。
234.最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1