虚拟人视频生成方法和装置与流程

文档序号：35983198发布日期：2023-11-10 03:08阅读：46来源：国知局

本技术涉及大数据中的人工智能(artificial intelligence，ai)，尤其涉及一种虚拟人视频生成方法和装置。

背景技术：

1、人工智能ai是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

2、随着大数据、人工智能、物联网等互联网技术的快速发展，各行各业都在逐渐实现数字化和智能化，以助于提升服务效率和服务质量。其中，在金融、电商、医疗、教育、多媒体等各领域中逐渐出现了数字人、虚拟人等交互方式。

3、虚拟人(virtual human，vh)采用语音交互、虚拟形象模型生成等多项ai技术，实现唇形语音同步和表情动作拟人等效果，广泛应用于虚拟形象播报和实时语音交互两大场景。虚拟形象播报根据文本内容快速合成音视频文件，落地于媒体、教育、会展服务等场景；实时语音交互支持即时在线对话，可赋能智能客服、语音助理等场景。

4、现有技术在生成虚拟人的过程中通常需要人工插入与驱动文本对应的动作子序列，或者直接通过深度学习模型来预测驱动语音对应的3d虚拟人视频。

5、然而，利用上述方式生成的虚拟人动作不可控、准确性较差，且生成的虚拟人动作单一。

技术实现思路

1、本技术实施例提供了一种虚拟人视频生成方法和装置，可以自动生成人物动作准确、可控并符合预设动作规范的虚拟人视频，且可以通过调整动作规范来实现虚拟人动作的个性化定制。

2、第一方面，本技术提供了一种虚拟人视频生成方法，其特征在于，所述方法包括：获取驱动文本；基于所述驱动文本和第一视频的动作标注，获取与所述驱动文本对应的动作类型，其中，所述动作标注中包括所述第一视频中的人物的多个动作类型；基于所述动作类型，从所述第一视频中提取出与所述驱动文本对应的动作表示；基于所述动作表示，生成虚拟人视频。

3、从技术效果上看，本技术通过对基础视频(即第一视频)添加动作标注，并基于驱动文本与动作标注中动作类型之间对应关系，可以自动提取出对应视频帧中的动作表示，在生成虚拟人视频过程中无需人工参与；同时，基于驱动文本与动作类型这种文本与文本之间的对应关系来提取对应动作表示的过程，相比于现有技术中基于文本与图像对应关系提取动作表示的过程而言，本技术所提取的动作表示会更加准确和可控，进而基于动作表示生成的虚拟人视频中的动作也会更加准确，效果更好。

4、在一种可行的实施方式中，所述基于所述驱动文本和第一视频的动作标注，获取与所述驱动文本对应的动作类型，包括：基于映射关系模型，从所述动作标注中搜索出与所述驱动文本的语义对应的动作类型；其中，所述映射关系模型用于表征文本语义和动作类型之间的映射关系。

5、从技术效果上看，本技术可以基于预先建立的映射关系模型快速且自动地识别出驱动文本在动作标注中对应的动作类型，然后基于该动作类型在第一视频中对应的视频帧进行动作表示提取，相比于人工插入驱动文本对应的视频帧而言，可以有效节省人力成本。

6、在一种可行的实施方式中，所述基于所述驱动文本和第一视频的动作标注，获取与所述驱动文本对应的动作类型，包括：基于深度学习模型，从所述动作标注中确定与所述驱动文本的语义对应的动作类型。

7、其中，所述深度学习模型的训练数据包括第二视频、第二视频的动作标注和所述第二视频中的人物语音，所述第二视频的动作标注对应的动作规范和所述第一视频的动作标注对应的动作规范相同。

8、从技术效果上看，本技术还可以通过深度学习模型来学习文本语义信息与动作类型之间这种文本与文本之间的对应关系，进而基于此对应关系来提取驱动文本在第一视频中对应的动作表示。此种基于文本与文本之间对应关系的提取方式，相对于现有技术中直接基于文本与视频帧之间对应关系进行动作表示提取的过程，更加符合客观自然规律，因而准确率更高。同时，通过保持训练过程第二视频的动作标注对应的动作规范和推理时使用的第一视频的动作标注对应的动作规范相同，使得基于深度学习模型推理得到的虚拟人视频中人物动作也符合动作标注所对应的动作规范，即虚拟人视频中的人物动作更加规范可控。

9、在一种可行的实施方式中，所述基于所述动作类型，从所述第一视频中提取出与所述驱动文本对应的动作表示，包括：基于所述动作类型在所述第一视频中对应的视频帧，提取所述动作表示。

10、从技术效果上看，在确定了驱动文本在动作标注中对应的动作类型后，便可基于动作标注准确且快速定位到驱动文本在第一视频中对应的视频帧，进而地进行动作表示提取，因而动作表示的提取准确且可控。

11、在一种可行的实施方式中，所述动作标注中的动作类型是基于动作规范划分得到的；其中，基于所述动作规范划分出的动作类型包括左手在前、右手在前和双手合并，或者基于所述动作规范划分出的动作类型包括开始介绍动作和详细介绍动作，所述开始介绍动作包括左手在前和/或右手在前，所述详细介绍动作包括双手合并。

12、从技术效果上看，可以基于不同的动作规范来划分对应的动作类型，这样便可基于特定场景的需求设计不同的动作规范，进而使得生成的虚拟人视频中的人物动作满足预设的动作规范，即进行人物动作规范的个性化定制，场景兼容性高。

13、在一种可行的实施方式中，所述基于所述动作表示生成与所述驱动文本对应的所述虚拟人视频，包括：获取与所述驱动文本对应的驱动语音；基于所述驱动语音和所述第一视频生成与所述驱动语音对应的头部表示，并利用所述头部表示和所述动作表示合成所述虚拟人视频；其中，所述头部表示用于表征人物的头部动作和人脸动作，所述头部表示包括头部图片或人脸关键点信息中的至少一种。

14、其中，上述基于驱动语音和第一视频生成与驱动语音对应的头部表示的过程可以是基于音唇同步算法、说话者头像生成算法或其它深度学习算法得到的，本技术对此不限定。

15、从技术效果上看，通过将头部表示和动作表示进行合成，便可得到准确，且符合相应动作规范的虚拟人视频。

16、在一种可行的实施方式中，所述动作表示用于表征人物的肢体动作，所述动作表示包括肢体动作视频帧或肢体关键点信息中的至少一种。

17、从技术效果上看，动作表示用于表征人物肢体动作，即通过上述实施例可以提取出准确且符合规范的人物肢体动作信息，进而生成符合特定场景需求的虚拟人视频。

18、在一种可行的实施方式中，所述动作标注通过时间段和所述第一视频在所述时间段内包含视频帧的动作类型进行表征。

19、从技术效果上看，动作标注用于描述第一视频中每一特定时刻视频帧对应的动作类型，这种对应关系可以使得基于驱动文本快速且准确地确定文本语义对应的动作类型所位于的视频帧，进而基于该视频帧进行动作表示提取。

20、第二方面，本技术实施例提供了一种虚拟人视频生成装置，所述装置包括：获取单元，用于获取驱动文本；处理单元，用于基于所述驱动文本和第一视频的动作标注，获取与所述驱动文本对应的动作类型，其中，所述动作标注中包括所述第一视频中的人物的多个动作类型；以及还用于基于所述动作类型，从所述第一视频中提取出与所述驱动文本对应的动作表示；生成单元，用于基于所述动作表示，生成虚拟人视频。

21、在一种可行的实施方式中，在所述基于所述驱动文本和第一视频的动作标注，获取与所述驱动文本对应的动作类型的方面，所述处理单元具体用于：基于映射关系模型，从所述动作标注中搜索出与所述驱动文本的语义对应的动作类型；其中，所述映射关系模型用于表征文本语义和动作类型之间的映射关系。

22、在一种可行的实施方式中，在所述基于所述驱动文本和第一视频的动作标注，获取与所述驱动文本对应的动作类型的方面，所述处理单元具体用于：基于深度学习模型，从所述动作标注中确定与所述驱动文本的语义对应的动作类型。

23、其中，所述深度学习模型的训练数据包括第二视频、第二视频的动作标注和所述第二视频中的人物语音，所述第二视频的动作标注对应的动作规范和所述第一视频的动作标注对应的动作规范相同。

24、在一种可行的实施方式中，在所述基于所述动作类型，从所述第一视频中提取出与所述驱动文本对应的动作表示的方面，所述处理单元具体用于：基于所述动作类型在所述第一视频中对应的视频帧，提取所述动作表示。

25、在一种可行的实施方式中，所述动作标注中的动作类型是基于动作规范划分得到的；其中，基于所述动作规范划分出的动作类型包括左手在前、右手在前和双手合并，或者基于所述动作规范划分出的动作类型包括开始介绍动作和详细介绍动作，所述开始介绍动作包括左手在前和/或右手在前，所述详细介绍动作包括双手合并。

26、在一种可行的实施方式中，所述生成单元具体用于：获取与所述驱动文本对应的驱动语音；基于所述驱动语音和所述第一视频生成与所述驱动语音对应的头部表示，并利用所述头部表示和所述动作表示合成所述虚拟人视频；其中，所述头部表示用于表征人物的头部动作和人脸动作，所述头部表示包括头部图片或人脸关键点信息中的至少一种。

27、在一种可行的实施方式中，所述动作表示用于表征人物的肢体动作，所述动作表示包括肢体动作视频帧或肢体关键点信息中的至少一种。

28、在一种可行的实施方式中，所述动作标注通过时间段和所述第一视频在所述时间段内包含视频帧的动作类型进行表征。

29、第三方面，本技术实施例提供了一种电子设备，所述电子设备包括至少一个处理器，存储器和接口电路，所述存储器、所述接口电路和所述至少一个处理器通过线路互联，所述至少一个存储器中存储有指令；所述指令被所述处理器执行时，上述第一方面中任一所述的方法得以实现。

30、第四方面，本技术实施例提供了一种芯片系统，所述芯片系统包括至少一个处理器，存储器和接口电路，所述存储器、所述接口电路和所述至少一个处理器通过线路互联，所述至少一个存储器中存储有指令；所述指令被所述处理器执行时，上述第一方面中任一所述的方法得以实现。

31、第五方面，本技术实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，该计算机程序被执行时，上述第一方面中任意一项所述的方法得以实现。

32、第六方面，本技术实施例提供了一种计算机程序，该计算机程序包括指令，当该计算机程序被执行时，上述第一方面中任意一项所述的方法得以实现。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈志毅李明磊曹艳怀宝兴
技术所有人：华为云计算技术有限公司
我是此专利的发明人

上一篇：基于噪声检测指标的信号质量表征单元、噪声源定位方法与流程
上一篇：用于系统辨识课程的实验教学设备

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。