一种视频处理方法、系统、装置及存储介质与流程

文档序号:35667724发布日期:2023-10-07 11:47阅读:27来源:国知局
一种视频处理方法、系统、装置及存储介质与流程

本发明涉及视频处理,尤其涉及一种视频处理方法、系统、装置及存储介质。


背景技术:

1、随着2d超写实虚拟数字人应用场景的快速发展与各种场景对视频内容丰富多样性要求不断增长,而其中最关键的部分就是虚拟数字人的动作表现,这决定了虚拟数字人是否能够逼真地展现出各种情感,从而产生强烈的互动感和感染力,因此对2d超写实虚拟数字人视频内容生成的人物动作的多样性、动作与当前时间说话语义的匹配性提出了更高的要求。

2、传统的虚拟人动作生成方法如下:依赖于手工设计的规则插值方法,通过专业动画师的手工打造,构建出逼真的动作模型。但这种方法存在缺陷,例如生成的动作不够自然,容易出现运动痕迹和卡顿现象,限制了虚拟人动作的表现力,并且需要大量人力和物力投入,成本高,而且难以复用。


技术实现思路

1、有鉴于此,本发明实施例的目的是提供一种视频处理方法、系统、装置及存储介质,能够生成自然、流畅的虚拟数字人视频,降低成本,复用性好。

2、一方面,本发明实施例提供了一种视频处理方法,包括以下步骤:

3、获取第一视频,并根据所述第一视频确定插入的第二视频和视频插入时间;

4、根据所述第一视频和所述视频插入时间确定视频分割后相邻的第一末帧图像和第一首帧图像,获取所述第二视频的第二首帧图像和第二末帧图像;

5、将所述第一末帧图像和所述第二首帧图像输入到训练好的中间流预测模型得到第一中间流,并将所述第一中间流、所述第一末帧图像和所述第二首帧图像输入到训练好的插帧生成模型得到第一中间帧;

6、将所述第二末帧图像和所述第一首帧图像输入到训练好的中间流预测模型得到第二中间流,并将所述第二中间流、所述第二末帧图像和所述第一首帧图像输入到训练好的插帧生成模型得到第二中间帧;

7、将分割后的第一视频、第一中间帧、第二视频、第二中间帧合并生成插帧视频。

8、可选地,所述根据所述第一视频确定插入的第二视频和视频插入时间,具体包括:

9、获取所述第一视频的特征信息;所述特征信息包括场景信息和或语音信息;

10、根据所述特征信息确定插入的第二视频和视频插入时间。

11、可选地,所述根据所述第一视频和所述视频插入时间确定视频分割后的第一末帧图像和第一首帧图像,具体包括:

12、根据所述视频插入时间将所述第一视频分割成第三视频和第四视频;

13、获取所述第三视频的第一末帧图像以及所述第四视频的第一首帧图像。

14、可选地,所述将分割后的第一视频、第一中间帧、第二视频、第二中间帧合并生成插帧视频,具体包括:

15、将所述第三视频、第一中间帧、第二视频、第二中间帧、第四视频按顺序合并,生成插帧视频。

16、可选地,所述中间流预测模型和所述插帧生成模型的训练过程包括:

17、获取视频样本数据;所述视频样本数据包括不同人物表情、不同肢体动作、不同服饰的视频数据;

18、将所述视频样本数据输入到所述中间流预测模型,根据第一损失函数确定第一损失值;

19、将所述视频样本数据和所述中间流预测模型预测的中间流样本数据输入到所述插帧生成模型,根据第二损失函数确定第二损失值;

20、将所述视频样本数据输入到人脸识别相似度检测模型,根据第三损失函数确定第三损失值;

21、根据所述第一损失值、所述第二损失值和所述第三损失值确定总损失值,根据所述总损失值确定中间流预测模型和插帧生成模型的结构参数。

22、可选地,所述总损失值根据以下计算公式确定:

23、loss=lossmse+αlossflow+βlossface

24、其中,loss表示总损失值,lossmse表示第二损失值,lossflow表示第一损失值,lossface表示第三损失值,α、β均表示调节系数。

25、可选地,所述方法还包括:

26、若视频插入时间包括多个时间点,分别对多个时间点生成插帧视频。

27、另一方面,本发明实施例提供了一种视频处理系统,包括:

28、第一模块,用于获取第一视频,并根据所述第一视频确定插入的第二视频和视频插入时间;

29、第二模块,用于根据所述第一视频和所述视频插入时间确定视频分割后相邻的第一末帧图像和第一首帧图像,获取所述第二视频的第二首帧图像和第二末帧图像;

30、第三模块,用于将所述第一末帧图像和所述第二首帧图像输入到训练好的中间流预测模型得到第一中间流,并将所述第一中间流、所述第一末帧图像和所述第二首帧图像输入到训练好的插帧生成模型得到第一中间帧;

31、第四模块,用于将所述第二末帧图像和所述第一首帧图像输入到训练好的中间流预测模型得到第二中间流,并将所述第二中间流、所述第二末帧图像和所述第一首帧图像输入到训练好的插帧生成模型得到第二中间帧;

32、第五模块,用于将分割后的第一视频、第一中间帧、第二视频、第二中间帧合并生成插帧视频。

33、另一方面,本发明实施例提供了一种视频处理装置,包括:

34、至少一个处理器;

35、至少一个存储器,用于存储至少一个程序;

36、当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上述的方法。

37、另一方面,本发明实施例提供了一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行上述的方法。

38、实施本发明实施例包括以下有益效果:本实施例首先根据第一视频确定插入的第二视频和视频插入时间,然后根据第一视频分割后的第一末帧图像、第二视频的第二首帧图像和中间流预测模型确定第一中间流,进而根据插帧生成模型确定第一中间帧,然后根据第一视频分割后的第一首帧图像、第二视频的第二首帧图像和中间流预测模型确定第二中间流,进而根据插帧生成模型确定第二中间帧,最后将分割后的第一视频、第一中间帧、第二视频、第二中间帧合并生成插帧视频;通过对中间流预测模型生成相邻帧之间的中间流,并通过插帧生成模型将相邻帧和中间流生成插帧视频,从而生成自然、流畅的虚拟数字人视频,降低成本,复用性好。



技术特征:

1.一种视频处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述第一视频确定插入的第二视频和视频插入时间,具体包括:

3.根据权利要求1所述的方法,其特征在于,所述根据所述第一视频和所述视频插入时间确定视频分割后的第一末帧图像和第一首帧图像,具体包括:

4.根据权利要求3所述的方法,其特征在于,所述将分割后的第一视频、第一中间帧、第二视频、第二中间帧合并生成插帧视频,具体包括:

5.根据权利要求1-4任一项所述的方法,其特征在于,所述中间流预测模型和所述插帧生成模型的训练过程包括:

6.根据权利要求5所述的方法,其特征在于,所述总损失值根据以下计算公式确定:

7.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:

8.一种视频处理系统,其特征在于,包括:

9.一种视频处理装置,其特征在于,包括:

10.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-7任一项所述的方法。


技术总结
本发明公开了一种视频处理方法、系统、装置及存储介质,包括:根据第一视频确定插入的第二视频和视频插入时间;根据第一视频和视频插入时间确定视频分割后相邻的第一末帧图像和第一首帧图像,获取第二视频的第二首帧图像和第二末帧图像;将第一末帧图像和第二首帧图像输入到中间流预测模型得到第一中间流,并将第一中间流、第一末帧图像和第二首帧图像输入到插帧生成模型得到第一中间帧;同理,根据第二末帧图像和第一首帧图得到第二中间帧;将分割后的第一视频、第一中间帧、第二视频、第二中间帧合并生成插帧视频。本发明实施例能够生成自然、流畅的虚拟数字人视频,降低成本,复用性好,可广泛应用于视频处理技术领域。

技术研发人员:李权,叶俊杰,王伦基,成秋喜,付玟
受保护的技术使用者:广州赛灵力科技有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1