说话头视频合成方法、装置、电子设备及存储介质与流程

文档序号:35826015发布日期:2023-10-22 11:32阅读:33来源:国知局
说话头视频合成方法、装置、电子设备及存储介质与流程

本申请属于视频处理,尤其涉及一种说话头视频合成方法、说话头视频合成装置、电子设备及计算机可读存储介质。


背景技术:

1、随着人工智能的发展,虚拟数字人这一概念也越来越被人们所熟悉,其具体为一种运用数字技术创造出来的、与人类形象接近的数字化人物形象。当前,对于虚拟数字人而言,一种常见的相关技术为说话头视频合成,其是指根据一段文本和指定的脸部图像,输出对应该文本和该脸部图像的一段说话头的多模态视频;也即,合成的视频中会包含有合成的语音和说话时的脸部动作等。

2、传统的说话头视频合成方法中,需要定义单模态语音向视觉参数空间的映射。然而,语音在视觉参数空间所对应的标签难以准确获取,这会导致合成所得的说话头视频的自然度和同步度受到影响。


技术实现思路

1、本申请提供了一种说话头视频合成方法、说话头视频合成装置、电子设备及计算机可读存储介质,可以得到拥有较高质量的说话头视频。

2、第一方面,本申请提供了一种说话头视频方法,包括:

3、获取待合成的语音数据及观测数据,观测数据为除语音数据之外的通过观测所得的数据;

4、分别基于语音数据及观测数据进行编码,得到语音数据所对应的语音编码帧及观测数据所对应的观测编码帧;

5、融合语音编码帧及观测编码帧,获得融合所得的潜在空间下的潜在表征;

6、根据潜在表征合成说话头视频。

7、第二方面,本申请提供了一种说话头视频装置,包括:

8、获取模块,用于获取待合成的语音数据及观测数据,观测数据为除语音数据之外的通过观测所得的数据;

9、编码模块,用于分别基于语音数据及观测数据进行编码,得到语音数据所对应的语音编码帧及观测数据所对应的观测编码帧;

10、融合模块,用于融合语音编码帧及观测编码帧,获得融合所得的潜在空间下的潜在表征;

11、合成模块,用于根据潜在表征合成说话头视频。

12、第三方面,本申请提供了一种电子设备,上述电子设备包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,上述处理器执行上述计算机程序时实现如上述第一方面的方法的步骤。

13、第四方面,本申请提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序被处理器执行时实现如上述第一方面的方法的步骤。

14、第五方面,本申请提供了一种计算机程序产品,上述计算机程序产品包括计算机程序,上述计算机程序被一个或多个处理器执行时实现如上述第一方面的方法的步骤。

15、本申请与现有技术相比存在的有益效果是:本申请先获取待合成的语音数据及观测数据,观测数据为除语音数据之外的通过观测所得的数据,然后分别基于语音数据及观测数据进行编码,得到语音数据所对应的语音编码帧及观测数据所对应的观测编码帧,接着融合语音编码帧及观测编码帧,获得融合所得的潜在空间下的潜在表征,最后根据潜在表征合成说话头视频。通过以上过程可知,本申请方案不再直接在视觉空间进行视频合成,而是借助潜在空间进行多模态融合,由此不再需要语音在视觉参数空间所对应的标签,也可得到拥有较高质量的说话头视频。

16、可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。



技术特征:

1.一种说话头视频合成方法,其特征在于,包括:

2.如权利要求1所述的说话头视频合成方法,其特征在于,所述融合所述语音编码帧及所述观测编码帧,获得融合所得的潜在空间下的潜在表征,包括:

3.如权利要求2所述的说话头视频合成方法,其特征在于,在所述将所述语音编码帧及所述观测编码帧进行拼接,得到拼接表征之前,所述说话头视频合成方法还包括:

4.如权利要求3所述的说话头视频合成方法,其特征在于,所述在时间维度上,对齐所述语音编码帧及所述观测编码帧,包括:

5.如权利要求2所述的说话头视频合成方法,其特征在于,所述目标时序模型包括:长短期记忆网络及全连接网络。

6.如权利要求1至5任一项所述的说话头视频合成方法,其特征在于,所述分别基于所述语音数据及所述观测数据进行编码,得到所述语音数据所对应的语音编码帧及所述观测数据所对应的观测编码帧,包括:

7.如权利要求1至5任一项所述的说话头视频合成方法,其特征在于,所述根据所述潜在表征合成说话头视频,包括:

8.一种说话头视频合成装置,其特征在于,包括:

9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。


技术总结
本申请公开了一种说话头视频合成方法、说话头视频合成装置、电子设备及计算机可读存储介质。其中,该方法包括:获取待合成的语音数据及观测数据,所述观测数据为除语音数据之外的通过观测所得的数据;分别基于所述语音数据及所述观测数据进行编码,得到所述语音数据所对应的语音编码帧及所述观测数据所对应的观测编码帧;融合所述语音编码帧及所述观测编码帧,获得融合所得的潜在空间下的潜在表征;根据所述潜在表征合成说话头视频。通过本申请方案,可以得到拥有较高质量的说话头视频。

技术研发人员:丁万,黄东延,杨显杰,郑泽鸿,李鹏辉
受保护的技术使用者:深圳市优必选科技股份有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1