本发明涉及人工智能多模态领域,特别是涉及一种实时问答虚拟人视频生成方法、电子设备及存储介质。
背景技术:
1、智能问答虚拟数字人,作为新一代web3.0框架下的新式内容交互窗口,兼具了交互的智能性和人性化的典型特点,如今已经越来越多地服务于社会生活中的各个领域,如智能客服、智能导购、虚拟智能培训、景区虚拟导游、企业虚拟员工、元宇宙虚拟分身、虚拟学生、养老虚拟陪护、智能虚拟人前台、智能车载虚拟人助手等,并正在以更快的速度、更宽的广度、更深的深度服务于各行各业,而其中的核心技术之一,便是数字虚拟人的实时驱动渲染。尽管近年来随着深度生成技术的发展,高拟真数字人定制与驱动的研究取得了长足进展,但其高昂的定制成本和难以实时渲染的技术瓶颈,是限制其向更多行业的应用拓展的重要阻碍。
2、数字人最初是以二维或三维卡通形象出现的,其代表如初音未来、洛天依等,其不追求虚拟人的拟真度和细节,渲染消耗的资源较少,可部署在手机等终端设备上,但这类虚拟人却难以达到高拟真虚拟人与人交互时的亲切感与类同感;高拟真虚拟人,指具备与真人高度相似的面貌、体态、声音等细节的虚拟人,其又可分为两种类型,分别是三维建模型高拟真虚拟人与二维高拟真虚拟人。三维建模型高拟真虚拟人定制成本高昂,且拟真度依然难以达到以假乱真的程度,而基于ai人脸生成的二维高拟真虚拟人则在拟真度上有了近乎真人的水平。二维高拟真虚拟人,首先需要采集大量的素材,经过较长的时间方可完成对于单个角色的模型训练,此外,其渲染生成过程较慢,故大多仅可用于ai主播等非实时视频创作领域,难以支撑实时问答虚拟人的场景需求。
技术实现思路
1、针对上述技术问题,本发明采用的技术方案为:
2、本发明实施例提供了一种实时问答虚拟人视频生成方法,所述方法包括以下步骤:
3、基于待播报信息获取对应的音频文件,并基于所述音频文件获取对应的场景视频;
4、对所述音频文件进行特征提取,得到对应的音频特征;
5、基于所述场景视频和所述得到的音频特征,利用预训练多语言音频口型驱动模型生成口型与所述音频特征相匹配的场景视频,作为初始人脸驱动视频;
6、基于所述场景视频中的目标图像以及所述初始驱动视频,利用预训练深度估计与人脸关键点估计模型获取对应的人脸关键点、人脸深度图和人脸的rgb编码特征;
7、基于获取的人脸关键点、人脸深度图和人脸的rgb编码特征,利用预训练人脸表情迁移驱动模型得到目标人脸驱动视频;
8、利用所述目标人脸驱动视频中的人脸替换所述场景视频中的人脸,得到虚拟人视频;
9、将所述虚拟人视频和所述音频文件进行合成,得到待播报的虚拟人播报视频。
10、本发明实施例还提供一种非瞬时性计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现前述方法。
11、本发明实施例还提供一种电子设备,包括处理器和前述的非瞬时性计算机可读存储介质。
12、本发明至少具有以下有益效果:
13、本发明实施例提供的实时问答虚拟人视频生成方法,首先基于待播放信息获取对应的音频文件,并基于获取的音频文件获取场景视频,接着,基于音频文件,利用预训练多语言音频口型驱动模型生成对应的口型,接着,将生成的口型拼接回场景视频中,然后,基于拼接了口型的场景视频和原始场景视频中的一张图像,利用预训练深度估计与人脸关键点估计模型获取对应的人脸关键点、人脸深度图和人脸的rgb编码特征,然后,基于获取的人脸关键点、人脸深度图和人脸的rgb编码特征,利用预训练人脸表情迁移驱动模型得到目标人脸驱动视频;最后,利用目标人脸驱动视频中的人脸替换所述场景视频中的人脸,得到虚拟人视频。可知,本发明中,使用了预训练模型来生成虚拟人视频,并不需要大量素材对模型进行训练,能够降低素材采集和处理难度,并能降低虚拟人视频的制作成本和提高虚拟人视频的制作效率。
1.一种实时问答虚拟人视频生成方法,其特征在于,所述方法包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,所述方法通过并发运行的第一线程至第五线程实现;其中,第i线程中设置有第i数据栈,i的取值为1到4。
3.根据权利要求2所述的方法,其特征在于,其中,所述第一线程用于执行如下操作:
4.根据权利要求1所述的方法,其特征在于,所述预训练多语言音频口型驱动模型为wav2lip。
5.根据权利要求1所述的方法,其特征在于,所述预训练人脸表情迁移驱动模型包括多模态注意力编码器和多模态注意力解码器。
6.根据权利要求3所述的方法,其特征在于,s510具体包括:
7.根据权利要求1所述的方法,其特征在于,还包括:
8.根据权利要求3所述的方法,其特征在于,所述第五线程还用于执行如下操作:
9.一种非瞬时性计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,其特征在于,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-8中任意一项的所述方法。
10.一种电子设备,其特征在于,包括处理器和权利要求9中所述的非瞬时性计算机可读存储介质。