图像处理和图像处理模型的训练方法、装置、设备和介质与流程

文档序号:37235042发布日期:2024-03-06 16:54阅读:9来源:国知局
图像处理和图像处理模型的训练方法、装置、设备和介质与流程

本公开涉及人工智能,具体为计算机视觉、深度学习、大模型等,可应用于人工智能的内容生成等场景,尤其涉及图像处理和图像处理模型的训练方法、装置、设备和介质。


背景技术:

1、对于目标对象(比如商品)而言,网络销售平台中的各个商品,需要商家提供商品在不同背景(或特定背景)下的图像,以吸引用户或顾客购买商品,或者,主播或数字人直播带货场景中的各个商品,也需要在直播间展示商品在不同背景(或特定背景)下的图像,以吸引观众购买商品。

2、因此,如何生成目标对象在所需背景下的图像,是非常重要的。


技术实现思路

1、本公开提供了一种用于图像处理和图像处理模型的训练方法、装置、设备和介质。

2、根据本公开的一方面,提供了一种图像处理方法,包括:

3、获取展示有目标背景的参考图像和展示有目标对象的待处理图像;

4、对所述待处理图像进行语义分割,得到对象图像和对象掩膜;

5、基于所述对象掩膜,对所述对象图像的第一图像特征和所述参考图像的第二图像特征进行融合,得到所述第三图像特征;

6、根据所述第三图像特征,生成展示有所述目标背景和所述目标对象的目标图像。

7、根据本公开的另一方面,提供了一种图像处理模型的训练方法,包括:

8、获取样本图像和所述样本图像对应的深度图;其中,所述深度图用于指示所述样本图像中各像素点的深度信息;

9、采用初始的深度控制模型对所述深度图进行深度信息提取,得到多个尺度的深度特征;

10、采用初始的图像生成模型基于所述多个尺度的深度特征,对所述样本图像进行处理,得到预测图像;

11、根据所述预测图像和所述样本图像之间的差异,对所述深度控制模型和所述图像生成模型进行联合训练。

12、根据本公开的又一方面,提供了一种图像处理装置,包括:

13、第一获取模块,用于获取展示有目标背景的参考图像和展示有目标对象的待处理图像;

14、分割模块,用于对所述待处理图像进行语义分割,得到对象图像和对象掩膜;

15、融合模块,用于基于所述对象掩膜,对所述对象图像的第一图像特征和所述参考图像的第二图像特征进行融合,得到所述第三图像特征;

16、第一生成模块,用于根据所述第三图像特征,生成展示有所述目标背景和所述目标对象的目标图像。

17、根据本公开的另一方面,提供了一种图像处理模型的训练装置,包括:

18、获取模块,用于获取样本图像和所述样本图像对应的深度图;其中,所述深度图用于指示所述样本图像中各像素点的深度信息;

19、提取模块,用于采用初始的深度控制模型对所述深度图进行深度信息提取,得到多个尺度的深度特征;

20、处理模块,用于采用初始的图像生成模型基于所述多个尺度的深度特征,对所述样本图像进行处理,得到预测图像;

21、训练模块,用于根据所述预测图像和所述样本图像之间的差异,对所述深度控制模型和所述图像生成模型进行联合训练。

22、根据本公开的又一方面,提供了一种电子设备,包括:

23、至少一个处理器;以及

24、与所述至少一个处理器通信连接的存储器;其中,

25、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开上述一方面提出的图像处理方法,或者,执行本公开上述另一方面提出的图像处理模型的训练方法。

26、根据本公开的再一方面,提供了一种计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开上述一方面提出的图像处理方法,或者,执行本公开上述另一方面提出的图像处理模型的训练方法。

27、根据本公开的还一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开上述一方面提出的图像处理方法,或者,实现本公开上述另一方面提出的图像处理模型的训练方法。

28、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。



技术特征:

1.一种图像处理方法,包括:

2.根据权利要求1所述的方法,其中,所述根据所述第三图像特征,生成展示有所述目标背景和所述目标对象的目标图像,包括:

3.根据权利要求2所述的方法,其中,所述基于所述多个尺度的第一深度特征,对所述第四图像特征进行去扰动,以得到所述目标图像,包括:

4.根据权利要求2所述的方法,其中,所述对所述对象掩膜进行深度特征提取,得到多个尺度的第一深度特征,包括:

5.根据权利要求1-4中任一项所述的方法,其中,所述对所述待处理图像进行语义分割,得到对象图像和对象掩膜,包括:

6.根据权利要求5所述的方法,其中,所述对所述待处理图像进行对象检测,得到所述目标对象在所述待处理图像中的目标位置,包括:

7.根据权利要求6所述的方法,其中,所述采用对象检测模型对所述待处理图像进行对象检测,得到至少一个检测框的预测位置和概率分布,包括:

8.根据权利要求6所述的方法,其中,所述根据所述至少一个检测框的概率分布,从所述至少一个检测框中确定目标检测框,包括:

9.根据权利要求6所述的方法,其中,所述对象检测模型采用以下步骤训练得到:

10.根据权利要求1-4中任一项所述的方法,其中,所述对所述待处理图像进行语义分割,得到对象图像和对象掩膜之后,所述方法还包括:

11.根据权利要求10所述的方法,其中,所述基于所述对象掩膜,对所述对象图像的第一图像特征和所述参考图像的第二图像特征进行融合,得到所述第三图像特征,包括:

12.根据权利要求1-4中任一项所述的方法,其中,应用于服务端,所述获取展示有目标背景的参考图像和展示有目标对象的待处理图像,包括:

13.根据权利要求1-4中任一项所述的方法,其中,应用于服务端,所述获取展示有目标背景的参考图像和展示有目标对象的待处理图像,包括:

14.一种图像处理模型的训练方法,包括:

15.根据权利要求14所述的方法,其中,所述采用初始的图像生成模型基于所述多个尺度的深度特征,对所述样本图像进行处理,得到预测图像,包括:

16.根据权利要求15所述的方法,其中,所述将所述多个尺度的深度特征和所述第二样本特征输入至初始的图像生成模型进行去扰动,得到所述图像生成模型输出的所述预测图像,包括:

17.一种图像处理装置,包括:

18.根据权利要求17所述的装置,其中,所述第一生成模块,用于:

19.根据权利要求18所述的装置,其中,所述第一生成模块,用于:

20.根据权利要求18所述的装置,其中,所述第一生成模块,用于:

21.根据权利要求17-20中任一项所述的装置,其中,所述分割模块,用于:

22.根据权利要求21所述的装置,其中,所述分割模块,用于:

23.根据权利要求22所述的装置,其中,所述分割模块,用于:

24.根据权利要求22所述的方法,其中,所述分割模块,用于:

25.根据权利要求22所述的装置,其中,所述对象检测模型采用以下模块训练得到:

26.根据权利要求17-20中任一项所述的装置,其中,所述装置还包括:

27.根据权利要求26所述的装置,其中,所述融合模块,用于:

28.根据权利要求17-20中任一项所述的装置,其中,应用于服务端,所述第一获取模块,用于:

29.根据权利要求17-20中任一项所述的装置,其中,应用于服务端,所述第一获取模块,用于:

30.一种图像处理模型的训练装置,包括:

31.根据权利要求30所述的装置,其中,所述处理模块,用于:

32.根据权利要求31所述的装置,其中,所述处理模块,用于:

33.一种电子设备,包括:

34.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-13中任一项所述的图像处理方法,或者,执行根据权利要求14-16中任一项所述的图像处理模型的训练方法。

35.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-13中任一项所述图像处理方法的步骤,或者,实现根据权利要求14-16中任一项所述图像处理模型的训练方法的步骤。


技术总结
本公开提供了一种图像处理和图像处理模型的训练方法、装置、设备和介质,涉及人工智能技术领域,具体为计算机视觉、深度学习、大模型等技术领域,可应用于人工智能的内容生成等场景。具体实现方案为:对展示有目标对象的待处理图像进行语义分割,得到对象图像和对象掩膜;基于对象掩膜,将对象图像的第一图像特征以及展示有目标背景的参考图像的第二图像特征进行融合,得到第三图像特征;根据第三图像特征,生成展示有目标背景和目标对象的目标图像。

技术研发人员:刘芳龙,李鑫,戎康,宋雨鑫,袁苇航,张琦
受保护的技术使用者:北京百度网讯科技有限公司
技术研发日:
技术公布日:2024/3/5
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1