本申请涉及计算机,更具体地,涉及一种数字人视频的生成方法、装置、电子设备和存储介质。
背景技术:
1、随着人工智能技术的不断发展,很多企业或机构为提升服务质量以及客户体验,采用数字人视频进行服务。
2、现有技术中,通过采集大量的数据(如不同姿态、语音等数据),进行联合训练,从而得到数字人生成模型,再通过语音驱动,表情驱动等方法制作数字人视频,这种方式一般耗时较长,造成数字人视频的生成效率低。
3、因此,如何提高数字人视频的生成效率,是目前有待解决的技术问题。
4、需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
1、本申请实施例提出了一种数字人视频的生成方法、装置、电子设备和存储介质,用以提高数字人视频的生成效率。
2、第一方面,提供一种数字人视频的生成方法,所述方法包括:获取待播报的目标文本,根据所述目标文本生成目标音频;根据所述目标音频生成唇部动作参数;从真实人脸播报所述目标文本的视频中获取真实人脸图像,根据所述真实人脸图像的形象描述参数生成目标数字人的形象图像;根据所述目标音频、所述唇部动作参数和所述形象图像生成所述目标数字人播报所述目标文本的数字人视频。
3、第二方面,提供一种数字人视频的生成装置,所述装置包括:第一生成模块,用于获取待播报的目标文本,根据所述目标文本生成目标音频;第二生成模块,用于根据所述目标音频生成唇部动作参数;第三生成模块,用于从真实人脸播报所述目标文本的视频中获取真实人脸图像,根据所述真实人脸图像的形象描述参数生成目标数字人的形象图像;第四生成模块,用于根据所述目标音频、所述唇部动作参数和所述形象图像生成所述目标数字人播报所述目标文本的数字人视频。
4、第三方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行第一方面所述的数字人视频的生成方法。
5、第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的数字人视频的生成方法。
6、通过应用以上技术方案,获取待播报的目标文本,根据所述目标文本生成目标音频;根据所述目标音频生成唇部动作参数;从真实人脸播报所述目标文本的视频中获取真实人脸图像,根据所述真实人脸图像的形象描述参数生成目标数字人的形象图像;根据所述目标音频、所述唇部动作参数和所述形象图像生成所述目标数字人播报所述目标文本的数字人视频,无需花费大量时间训练数字人生成模型,只需根据待播报的文本和真实人脸的播报该文本的视频即可快速生成相应的数字人播报视频,从而提高了数字人视频的生成效率。
1.一种数字人视频的生成方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述根据所述目标音频、所述唇部动作参数和所述形象图像生成所述目标数字人播报所述目标文本的数字人视频,包括:
3.如权利要求2所述的方法,其特征在于,在将所述唇部动作视频与所述目标音频进行融合,得到所述数字人视频之前,所述方法还包括:
4.如权利要求1所述的方法,其特征在于,所述根据所述真实人脸图像的形象描述参数生成目标数字人的形象图像,包括:
5.如权利要求1所述的方法,其特征在于,所述根据所述目标音频生成唇部动作参数,包括:
6.如权利要求5所述的方法,其特征在于,所述根据所述预设中性面部中的预设唇部关键点和所述唇部动作序列生成所述唇部动作参数,包括:
7.如权利要求1所述的方法,其特征在于,所述根据所述目标文本生成目标音频,包括:
8.一种数字人视频的生成装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~7中任意一项所述的数字人视频的生成方法。