图像编辑方法、装置、设备、存储介质及程序产品与流程

文档序号：37167225发布日期：2024-03-01 12:09阅读：12来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本申请实施例涉及图像处理，特别涉及一种图像编辑方法、装置、设备、存储介质及程序产品。

背景技术：

1、近年来，图像编辑技术逐渐升起，在进行图像编辑时通常需要先获取目标区域的掩码。

2、相关技术中，通常采用分割的方式获取图像区域掩码。例如，可以采用sam模型对复杂场景下的图像进行分割，响应于用户的点击操作或者通过获取点提示的方式对特定区域进行分割，从而获取目标区域的掩码。

3、然而，由于图像分割模型并未开放语义接口，即图像分割模型无法理解人类语言，则导致相关技术提供的图像分割方案中用户无法通过自然语言控制图像分割模型对特定区域进行分割，智能化程度较低。

技术实现思路

1、本申请实施例提供了一种图像编辑方法、装置、设备、存储介质及程序产品。所述技术方案如下：

2、一方面，本申请实施例提供了一种图像编辑方法，所述方法包括：

3、获取待编辑图像以及所述待编辑图像中编辑对象的描述文本，所述描述文本用于描述所述编辑对象的特征；

4、将所述描述文本以及所述待编辑图像输入视觉语言大模型，得到所述视觉语言大模型输出的第一文本嵌入特征，所述第一文本嵌入特征用于表征所述编辑对象在所述待编辑图像中的位置，所述视觉语言大模型用于从所述待编辑图像中定位所述描述文本指示的所述编辑对象；

5、将所述第一文本嵌入特征以及所述待编辑图像输入图像分割模型，得到所述图像分割模型输出的编辑对象掩膜，所述第一文本嵌入特征是所述图像分割模型的文本提示特征，所述文本提示特征用于提示所述图像分割模型对所述编辑对象进行分割；

6、基于所述编辑对象掩膜以及编辑目标文本，通过图像编辑模型对所述待编辑图像进行图像编辑，得到目标图像，所述编辑目标文本用于指示对所述编辑对象进行图像编辑的方式。

7、另一方面，本申请实施例提供了一种图像编辑装置，所述装置包括：

8、获取模块，用于获取待编辑图像以及所述待编辑图像中编辑对象的描述文本，所述描述文本用于描述所述编辑对象的特征；

9、文本处理模块，用于将所述描述文本以及所述待编辑图像输入视觉语言大模型，得到所述视觉语言大模型输出的第一文本嵌入特征，所述第一文本嵌入特征用于表征所述编辑对象在所述待编辑图像中的位置，所述视觉语言大模型用于从所述待编辑图像中定位所述描述文本指示的所述编辑对象；

10、图像处理模块，用于将所述第一文本嵌入特征以及所述待编辑图像输入图像分割模型，得到所述图像分割模型输出的编辑对象掩膜，所述第一文本嵌入特征是所述图像分割模型的文本提示特征，所述文本提示特征用于提示所述图像分割模型对所述编辑对象进行分割；

11、图像编辑模块，用于基于所述编辑对象掩膜以及编辑目标文本，通过图像编辑模型对所述待编辑图像进行图像编辑，得到目标图像，所述编辑目标文本用于指示对所述编辑对象进行图像编辑的方式。

12、另一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器；所述存储器存储有至少一条指令，所述至少一条指令用于被所述处理器执行以实现如上述方面所述的图像编辑方法。

13、另一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现如上述方面所述的图像编辑方法。

14、另一方面，本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面的各种可选实现方式中提供的图像编辑方法。

15、本申请实施例中，通过视觉语言大模型对获取到的描述文本以及待编辑图像进行特征提取，得到视觉语言大模型输出的第一文本嵌入特征，该第一文本嵌入特征能够表征待编图像中描述文本所描述的编辑对象所处的位置。由于视觉语言大模型具有自然语言进行处理的能力，因此，用户可以输入自然语言描述文本来描述相应的编辑对象，从而通过视觉语言大模型在待编辑图像中定位该编辑对象。并且将该第一文本嵌入特征输入到图像分割模型中作为图像分割模型的文本提示特征，能够提示图像分割模型对编辑对象进行分割，从而得到编辑对象掩膜后再基于编辑目标文本实现图像编辑。通过采用自然语言大模型和图像分割模型结合的方式，能够使用户通过输入自然语言文本实现图像编辑，有利于在复杂图像场中实现图像编辑能力，智能化程度较高。并且由于视觉语言大模型具有开放世界的知识，从而使得本申请实施例中提供的图像编辑方法具有基于开放世界信息进行图像编辑能力。

技术特征：

1.一种图像编辑方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述获取第一样本图像、第一样本问题文本以及第一样本描述文本，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述第一样本描述文本，生成与所述第一样本描述文本对应的所述第一样本问题文本，包括：

5.根据权利要求4所述的方法，其特征在于，所述样本对象标签包括名称标签，所述名称标签用于表征所述样本对象的对象名称；

6.根据权利要求2所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.根据权利要求6所述的方法，其特征在于，所述方法还包括：

9.根据权利要求1所述的方法，其特征在于，所述将所述第一文本嵌入特征以及所述待编辑图像输入图像分割模型，得到所述图像分割模型输出的编辑对象掩膜，包括：

10.根据权利要求1所述的方法，其特征在于，在通过所述图像编辑模型进行图像编辑得到至少两张候选图像的情况下，所述方法还包括：

11.一种图像编辑装置，其特征在于，所述装置包括：

12.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器；所述存储器存储有至少一条指令，所述至少一条指令用于被所述处理器执行以实现如权利要求1至10任一所述的图像编辑方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现如权利要求1至10任一所述的图像编辑方法。

14.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中；计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行如权利要求1至10任一所述的图像编辑方法。

技术总结
本申请实施例公开了一种图像编辑方法、装置、设备、存储介质及程序产品，属于图像处理技术领域，该方法包括：获取待编辑图像以及待编辑图像中编辑对象的描述文本；将描述文本以及待编辑图像输入视觉语言大模型，得到视觉语言大模型输出的第一文本嵌入特征；将第一文本嵌入特征以及待编辑图像输入图像分割模型，得到图像分割模型输出的编辑对象掩膜，第一文本嵌入特征是图像分割模型的文本提示特征；基于编辑对象掩膜以及编辑目标文本，通过图像编辑模型对待编辑图像进行图像编辑，得到目标图像。采用本申请实施例提供的方法可以使用户通过自然语言指令控制计算机设备对图像中指定的编辑对象进行编辑，同时提升图像编辑的准确性。

技术研发人员：徐金金,李亚乾,杨宇哲
受保护的技术使用者：OPPO广东移动通信有限公司
技术研发日：
技术公布日：2024/2/29

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐金金,李亚乾,杨宇哲
技术所有人：OPPO广东移动通信有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。