图像编辑方法和装置与流程

文档序号：35973594发布日期：2023-11-09 15:26阅读：30来源：国知局

本申请实施例涉及图像处理，尤其涉及一种图像编辑方法、装置、计算机设备及计算机可读存储介质。

背景技术：

1、图像编辑技术在现代数字时代中应用广泛，涵盖了多个领域和行业，从日常生活或娱乐到商业和科学研究都有着重要作用。很多图像编辑软件应运而生，为用户提供了丰富的图像编辑功能，让用户能够轻松地处理自己的照片。

2、传统的图像编辑软件，如photoshop等软件，曾经是图像处理领域的翘楚，被广泛地应用于设计、美术、广告等行业。然而，在现代数字时代的实际应用中，传统的图像编辑软件的局限性和问题也日益显现。1、传统图像编辑软件的学习成本较高，使用需要一定的技能和经验，初学者需要耗费大量时间来学习软件的操作流程和工具使用方法。2、传统图像编辑软件通常依赖于人工的手动操作，容易引入误差，而且人工编辑也需要大量的工作量，而且不能保证图像中的每个细节都能够处理到位。3、在大型图像数据的处理中，传统图像编辑软件通常需要占用大量的内存和处理器资源，运行速度慢，处理效率较低。4、传统的图像编辑软件中用户需要手动指定图像处理操作，无法智能地自动检测图像中的问题并处理，难以实现自动化处理和个性化体验。

技术实现思路

1、本申请实施例的目的是提供一种图像编辑方法、装置、计算机设备及计算机可读存储介质，用于解决以下问题：传统图像编辑软件依赖于人工的手动操作，操作繁琐，学习成本较高，编辑图像的效率低。

2、本申请实施例的一个方面提供了一种图像编辑方法，包括：

3、获取待编辑的图像和用户提示文本；

4、通过预置的图像编辑模型，对所述待编辑的图像进行向量化处理得到第一图像嵌入向量，以及对所述用户提示文本进行向量化处理得到文本嵌入向量，并根据所述第一图像嵌入向量和所述文本嵌入向量进行编辑处理以得到第一目标图像。

5、可选地，所述初始图像编辑模型包含文本嵌入优化模型和扩散模型，所述通过预置的图像编辑模型，根据所述第一图像嵌入向量和所述文本嵌入向量进行编辑处理以得到第一目标图像，包括：

6、通过预置的图像编辑模型的文本嵌入优化模型，根据所述文本嵌入向量对所述第一图像嵌入向量进行调整处理以得到第二图像嵌入向量；

7、通过预置的图像编辑模型的扩散模型，对所述文本嵌入向量和所述第二图像嵌入向量进行插值处理，得到第三图像嵌入向量，并对所述第三图像嵌入向量进行解码生成所述第一目标图像。

8、可选地，所述方法还包括：

9、对所述第一目标图像进行超分辨率处理，以得到第二目标图像；

10、其中，所述第二目标图像的分辨率比所述第一目标图像的分辨率高。

11、可选地，所述预置的图像编辑模型通过如下步骤训练生成：

12、获取多组样本数据和初始图像编辑模型；所述初始图像编辑模型包含文本嵌入优化模型和扩散模型；

13、对所述多组样本数据进行向量化处理得到样本嵌入向量，并根据所述样本嵌入向量对所述文本嵌入优化模型进行训练；

14、根据所述文本嵌入优化模型输出的目标文本嵌入向量对所述扩散模型进行训练；

15、直到所述文本嵌入优化模型和所述扩散模型的收敛效果达到预期，则输出所述预置的图像编辑模型。

16、可选地，每一组所述样本数据包含原始图像、目标图像和用于对所述原始图像进行编辑的提示文本；所述对所述多组样本数据进行向量化处理，得到样本嵌入向量，包括：

17、对所述原始图像进行向量化处理得到第一文本嵌入向量；

18、对所述提示文本进行向量化处理得到第二文本嵌入向量；

19、对所述目标图像进行向量化处理处理到第三文本嵌入向量。

20、可选地，所述根据所述样本嵌入向量对所述文本嵌入优化模型进行训练，包括：

21、根据所述第二文本嵌入向量和所述第三文本嵌入向量，对所述第一文本嵌入向量进行优化处理以得到目标文本嵌入向量，并调整所述文本嵌入优化模型的参数。

22、可选地，所述目标文本嵌入向量与所述第三文本嵌入向量的接近程度大于所述第一文本嵌入向量与所述第三文本嵌入向量的接近程度。

23、可选地，所述根据所述第二文本嵌入向量和所述第三文本嵌入向量，对所述第一文本嵌入向量进行优化处理以得到目标文本嵌入向量，并调整所述文本嵌入优化模型的参数，包括：

24、冻结所述扩散模型的参数；

25、基于预设的重构损失函数，根据所述第二文本嵌入向量和所述第三文本嵌入向量，对所述第一文本嵌入向量进行优化处理以得到目标文本嵌入向量，并调整所述文本嵌入优化模型的参数。

26、可选地，所述根据所述文本嵌入优化模型输出的目标文本嵌入向量对所述扩散模型进行训练，包括：

27、冻结所述文本嵌入优化模型输出的目标文本嵌入向量；

28、基于所述预设的重构损失函数，根据所述文本嵌入优化模型输出的目标文本嵌入向量对所述扩散模型进行训练，以调整所述扩散模型的参数。

29、本申请实施例的一个方面又提供了一种图像编辑装置，包括：

30、图像获取模块，用于获取待编辑的图像和用户提示文本；

31、图像编辑模块，用于通过预置的图像编辑模型，对所述待编辑的图像进行编码处理得到第一图像嵌入向量，以及对所述用户提示文本进行编码处理得到文本嵌入向量，并根据所述第一图像嵌入向量和所述文本嵌入向量进行编辑处理以得到第一目标图像。

32、本申请实施例的一个方面又提供了一种计算机设备，所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述的图像编辑方法的步骤。

33、本申请实施例的一个方面又提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序可被至少一个处理器所执行，以使所述至少一个处理器执行所述计算机程序时实现如上述的图像编辑方法的步骤。

34、本申请实施例提供的图像编辑方法、装置、设备及计算机可读存储介质，通过将用户提示文本作为编辑图像的命令使得可以使用纯文本的命令来编辑图像，而不需要使用复杂的gui交互方式，这种交互方式对于编程经验丰富的用户来说非常友好，并且可以大大提高效率。而且在进行编辑的过程中，不会破坏图像的整体结构和组成；用户可以快速地实现对图像的复杂编辑，并保持图像的原始视觉特性，用户也可以方便地将这些编辑图片的命令进行组合和修改，以实现更复杂的编辑功能，从而提高生产效率。

技术特征：

1.一种图像编辑方法，其特征在于，包括：

2.根据权利要求1所述的图像编辑方法，其特征在于，所述初始图像编辑模型包含文本嵌入优化模型和扩散模型，所述通过预置的图像编辑模型，根据所述第一图像嵌入向量和所述文本嵌入向量进行编辑处理以得到第一目标图像，包括：

3.根据权利要求1所述的图像编辑方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的图像编辑方法，其特征在于，所述预置的图像编辑模型通过如下步骤训练生成：

5.根据权利要求4所述的图像编辑方法，其特征在于，每一组所述样本数据包含原始图像、目标图像和用于对所述原始图像进行编辑的提示文本；所述对所述多组样本数据进行向量化处理，得到样本嵌入向量，包括：

6.根据权利要求5所述的图像编辑方法，其特征在于，所述根据所述样本嵌入向量对所述文本嵌入优化模型进行训练，包括：

7.根据权利要求6所述的图像编辑方法，其特征在于，所述目标文本嵌入向量与所述第三文本嵌入向量的接近程度大于所述第一文本嵌入向量与所述第三文本嵌入向量的接近程度。

8.根据权利要求6所述的图像编辑方法，其特征在于，所述根据所述第二文本嵌入向量和所述第三文本嵌入向量，对所述第一文本嵌入向量进行优化处理以得到目标文本嵌入向量，并调整所述文本嵌入优化模型的参数，包括：

9.根据权利要求8所述的图像编辑方法，其特征在于，所述根据所述文本嵌入优化模型输出的目标文本嵌入向量对所述扩散模型进行训练，包括：

10.一种图像编辑装置，其特征在于，包括：

11.一种计算机设备，所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时用于实现权利要求1至9中任意一项所述的图像编辑方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序可被至少一个处理器所执行，以使所述至少一个处理器执行权利要求1至9中任意一项所述的图像编辑方法的步骤。

技术总结
本申请实施例提供了一种图像编辑方法和装置，包括：获取待编辑的图像和用户提示文本；通过预置的图像编辑模型，对所述待编辑的图像进行向量化处理得到第一图像嵌入向量，以及对所述用户提示文本进行向量化处理得到文本嵌入向量，并根据所述第一图像嵌入向量和所述文本嵌入向量进行编辑处理以得到第一目标图像。通过将用户提示文本作为编辑图像的命令使得可以使用纯文本的命令来编辑图像，而不需要使用复杂的GUI交互方式，这种交互方式对于编程经验丰富的用户来说非常友好，并且可以大大提高效率。而且在进行编辑的过程中，不会破坏图像的整体结构和组成；用户可以方便地将编辑图片的命令进行组合和修改，以实现更复杂的编辑功能，从而提高生产效率。

技术研发人员：李亘杰
受保护的技术使用者：上海哔哩哔哩科技有限公司
技术研发日：
技术公布日：2024/1/16

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李亘杰
技术所有人：上海哔哩哔哩科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。