本申请实施例涉及图像处理,特别涉及一种图像编辑方法、装置、设备、存储介质及程序产品。
背景技术:
1、近年来,图像编辑技术逐渐升起,在进行图像编辑时通常需要先获取目标区域的掩码。
2、相关技术中,通常采用分割的方式获取图像区域掩码。例如,可以采用sam模型对复杂场景下的图像进行分割,响应于用户的点击操作或者通过获取点提示的方式对特定区域进行分割,从而获取目标区域的掩码。
3、然而,由于图像分割模型并未开放语义接口,即图像分割模型无法理解人类语言,则导致相关技术提供的图像分割方案中用户无法通过自然语言控制图像分割模型对特定区域进行分割,智能化程度较低。
技术实现思路
1、本申请实施例提供了一种图像编辑方法、装置、设备、存储介质及程序产品。所述技术方案如下:
2、一方面,本申请实施例提供了一种图像编辑方法,所述方法包括:
3、获取待编辑图像以及所述待编辑图像中编辑对象的描述文本,所述描述文本用于描述所述编辑对象的特征;
4、将所述描述文本以及所述待编辑图像输入视觉语言大模型,得到所述视觉语言大模型输出的第一文本嵌入特征,所述第一文本嵌入特征用于表征所述编辑对象在所述待编辑图像中的位置,所述视觉语言大模型用于从所述待编辑图像中定位所述描述文本指示的所述编辑对象;
5、将所述第一文本嵌入特征以及所述待编辑图像输入图像分割模型,得到所述图像分割模型输出的编辑对象掩膜,所述第一文本嵌入特征是所述图像分割模型的文本提示特征,所述文本提示特征用于提示所述图像分割模型对所述编辑对象进行分割;
6、基于所述编辑对象掩膜以及编辑目标文本,通过图像编辑模型对所述待编辑图像进行图像编辑,得到目标图像,所述编辑目标文本用于指示对所述编辑对象进行图像编辑的方式。
7、另一方面,本申请实施例提供了一种图像编辑装置,所述装置包括:
8、获取模块,用于获取待编辑图像以及所述待编辑图像中编辑对象的描述文本,所述描述文本用于描述所述编辑对象的特征;
9、文本处理模块,用于将所述描述文本以及所述待编辑图像输入视觉语言大模型,得到所述视觉语言大模型输出的第一文本嵌入特征,所述第一文本嵌入特征用于表征所述编辑对象在所述待编辑图像中的位置,所述视觉语言大模型用于从所述待编辑图像中定位所述描述文本指示的所述编辑对象;
10、图像处理模块,用于将所述第一文本嵌入特征以及所述待编辑图像输入图像分割模型,得到所述图像分割模型输出的编辑对象掩膜,所述第一文本嵌入特征是所述图像分割模型的文本提示特征,所述文本提示特征用于提示所述图像分割模型对所述编辑对象进行分割;
11、图像编辑模块,用于基于所述编辑对象掩膜以及编辑目标文本,通过图像编辑模型对所述待编辑图像进行图像编辑,得到目标图像,所述编辑目标文本用于指示对所述编辑对象进行图像编辑的方式。
12、另一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器;所述存储器存储有至少一条指令,所述至少一条指令用于被所述处理器执行以实现如上述方面所述的图像编辑方法。
13、另一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述程序代码由处理器加载并执行以实现如上述方面所述的图像编辑方法。
14、另一方面,本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面的各种可选实现方式中提供的图像编辑方法。
15、本申请实施例中,通过视觉语言大模型对获取到的描述文本以及待编辑图像进行特征提取,得到视觉语言大模型输出的第一文本嵌入特征,该第一文本嵌入特征能够表征待编图像中描述文本所描述的编辑对象所处的位置。由于视觉语言大模型具有自然语言进行处理的能力,因此,用户可以输入自然语言描述文本来描述相应的编辑对象,从而通过视觉语言大模型在待编辑图像中定位该编辑对象。并且将该第一文本嵌入特征输入到图像分割模型中作为图像分割模型的文本提示特征,能够提示图像分割模型对编辑对象进行分割,从而得到编辑对象掩膜后再基于编辑目标文本实现图像编辑。通过采用自然语言大模型和图像分割模型结合的方式,能够使用户通过输入自然语言文本实现图像编辑,有利于在复杂图像场中实现图像编辑能力,智能化程度较高。并且由于视觉语言大模型具有开放世界的知识,从而使得本申请实施例中提供的图像编辑方法具有基于开放世界信息进行图像编辑能力。
1.一种图像编辑方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述获取第一样本图像、第一样本问题文本以及第一样本描述文本,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于所述第一样本描述文本,生成与所述第一样本描述文本对应的所述第一样本问题文本,包括:
5.根据权利要求4所述的方法,其特征在于,所述样本对象标签包括名称标签,所述名称标签用于表征所述样本对象的对象名称;
6.根据权利要求2所述的方法,其特征在于,所述方法还包括:
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
8.根据权利要求6所述的方法,其特征在于,所述方法还包括:
9.根据权利要求1所述的方法,其特征在于,所述将所述第一文本嵌入特征以及所述待编辑图像输入图像分割模型,得到所述图像分割模型输出的编辑对象掩膜,包括:
10.根据权利要求1所述的方法,其特征在于,在通过所述图像编辑模型进行图像编辑得到至少两张候选图像的情况下,所述方法还包括:
11.一种图像编辑装置,其特征在于,所述装置包括:
12.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器;所述存储器存储有至少一条指令,所述至少一条指令用于被所述处理器执行以实现如权利要求1至10任一所述的图像编辑方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述程序代码由处理器加载并执行以实现如权利要求1至10任一所述的图像编辑方法。
14.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中;计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行如权利要求1至10任一所述的图像编辑方法。