用于视频处理的方法、电子设备和计算机程序产品与流程

文档序号:37281392发布日期:2024-03-12 21:20阅读:16来源:国知局
用于视频处理的方法、电子设备和计算机程序产品与流程

本公开的实施例涉及计算机,并且更具体地,涉及用于视频处理的方法、电子设备和计算机程序产品。


背景技术:

1、深度学习是机器学习领域中的一个研究方向,用于学习样本数据的内在规律和表示层次,使得机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习在计算机视觉、视频处理、自然语言处理等领域中具有广泛的应用。

2、基于化身的视频作为视频处理的一个目标在现代社交网络中越来越流行,例如应用于虚拟会议、视频游戏等方面。如何根据需要更精确地实现化身视频的生成仍是目前亟待解决的问题。


技术实现思路

1、本公开的实施例提供了一种用于视频处理的方案。

2、在本公开的第一方面,提供了一种用于视频处理的方法。该方法包括:获取视频流,视频流包括与视频帧对应的图像数据、音频数据和文本数据,并且视频帧包括第一帧;利用参考图像和针对第一帧的图像数据,生成第一化身图像;基于第一化身图像、图像数据、音频数据和文本数据,获得视频整合特征;以及基于第一化身图像和视频整合特征,生成与视频流对应的化身视频。

3、在本公开的第二方面,提供了一种电子设备。该电子设备包括至少一个处理器;以及存储有计算机可执行指令的至少一个存储器,至少一个存储器和计算机可执行指令被配置为与至少一个处理器一起使得电子设备执行操作。该操作包括:获取视频流,视频流包括与视频帧对应的图像数据、音频数据和文本数据,并且视频帧包括第一帧;利用参考图像和针对第一帧的图像数据,生成第一化身图像;基于第一化身图像、图像数据、音频数据和文本数据,获得视频整合特征;以及基于第一化身图像和视频整合特征,生成与视频流对应的化身视频。

4、在本公开的第三方面,提供了一种计算机程序产品。该计算机程序产品被有形地存储在非易失性计算机可读介质上并且包括计算机可执行指令,计算机可执行指令在被执行时使设备:获取视频流,视频流包括与视频帧对应的图像数据、音频数据和文本数据,并且视频帧包括第一帧;利用参考图像和针对第一帧的图像数据,生成第一化身图像;基于第一化身图像、图像数据、音频数据和文本数据,获得视频整合特征;以及基于第一化身图像和视频整合特征,生成与视频流对应的化身视频。

5、提供
技术实现要素:
部分是为了简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或主要特征,也无意限制本公开的范围。



技术特征:

1.一种用于视频处理的方法,包括:

2.根据权利要求1所述的方法,其中基于所述化身图像、所述图像数据、所述音频数据和所述文本数据,获得视频整合特征包括:

3.根据权利要求2所述的方法,其中对所述第一化身图像特征、所述图像差异特征、所述语音特征和所述文本特征进行整合处理,以获得所述视频整合特征包括:

4.根据权利要求1所述的方法,其中所述方法通过化身视频生成模型来实现。

5.根据权利要求4所述的方法,还包括:

6.根据权利要求5所述的方法,其中基于所述化身视频、所述音频数据和所述文本数据,获得第一损失函数包括:

7.根据权利要求6所述的方法,其中所述视频帧还包括第二帧,所述方法还包括:

8.根据权利要求7所述的方法,还包括:

9.根据权利要求8所述的方法,其中所述方法还包括:

10.一种电子设备,包括:

11.根据权利要求10所述的设备,其中基于所述化身图像、所述图像数据、所述音频数据和所述文本数据,获得视频整合特征包括:

12.根据权利要求11所述的设备,其中对所述第一化身图像特征、所述图像差异特征、所述语音特征和所述文本特征进行整合处理,以获得所述视频整合特征包括:

13.根据权利要求10所述的设备,其中所述操作通过化身视频生成模型来实现。

14.根据权利要求13所述的设备,所述操作还包括:

15.根据权利要求14所述的设备,其中基于所述化身视频、所述音频数据和所述文本数据,获得第一损失函数包括:

16.根据权利要求15所述的设备,其中所述视频帧还包括第二帧,所述操作还包括:

17.根据权利要求16所述的设备,所述操作还包括:

18.根据权利要求17所述的设备,所述操作还包括:

19.一种计算机程序产品,所述计算机程序产品被有形地存储在非易失性计算机可读介质上并且包括计算机可执行指令,所述计算机可执行指令在被执行时使设备:


技术总结
本公开的实施例提供了用于视频处理的方法、电子设备和计算机程序产品。该方法利用利用参考图像和视频流中的针对第一帧的图像数据来生成化身图像,并且利用化身图像以及视频流中的图像数据、音频数据、文本数据来生成化身视频。通过该方案,能够更精确且高质量地生成与真实视频的用户及其动作相适配的用户自定义化身视频。

技术研发人员:刘志松,王子嘉,贾真
受保护的技术使用者:戴尔产品有限公司
技术研发日:
技术公布日:2024/3/11
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1