一种图像处理方法及其相关设备与流程

文档序号：36260575发布日期：2023-12-05 18:03阅读：34来源：国知局

本技术实施例涉及人工智能(artificial intelligence，ai)技术，尤其涉及一种图像处理方法及其相关设备。

背景技术：

1、图像可控生成任务是计算机视觉的一个典型任务，该任务通常指神经网络模型在用户所给出的引导下，生成用户所需要的图像。

2、在相关技术中，当用户需要生成图像时，可向神经网络模型输入图像处理指令以及用于引导模型的图像，图像处理指令用于指示用户所需的目标图像。得到图像处理指令以及该图像后，神经网络模型可该图像进行特征提取，从而得到图像特征。然后，神经网络模型可利用图像特征作为引导信号，以引导针对图像处理指令的编码过程，从而编码得到目标图像，并将目标图像返回给用户观看和使用。

3、上述过程中，由于图像处理指令以及用于引导模型的图像为相互独立的存在，使得神经网络模型可能对用户的引导(也就是用户的图片生成意图)产生理解偏差，这样会导致神经网络模型所生成的目标图像并非正确的图像，无法满足用户的需求。

技术实现思路

1、本技术实施例提供了一种图像处理方法及其相关设备，其使用的模型可以正确理解用户的图像生成意图，使得模型最终输出的目标图像为正确的图像，从而满足用户的需求。

2、本技术实施例的第一方面提供了一种图像处理方法，该方法包括：

3、当用户需要生成目标图像时，可面向用户提供接口，用户可向该接口输入多个参考图像以及针对多个参考图像的第一处理指令，其中，第一处理指令用于指示用户所需的目标图像。如此一来，可通过该接口接收用户输入的多个参考图像以及第一处理指令。

4、得到多个参考图像以及第一处理指令后，可利用多个参考图像对第一处理指令进行调整，从而得到第二处理指令，第二处理指令用于指示多个参考图像中的至少一个参考图像与目标图像之间的关系。比如，第二处理指令用于指示目标图像是由多个参考图像进行融合得到的，又如，第二处理指令用于指示目标图像是由某个参考图像进行转换得到的。

5、得到第二处理指令后，可将第二处理指令输入至目标模型中，以通过目标模型基于第二处理指令对至少一个参考图像进行处理，从而得到并输出目标图像，可提供给用户观看和使用。

6、从上述方法可以看出：当用户需要生成目标图像时，可先获取来自用户的多个参考图像以及针对多个参考图像的第一处理指令，第一处理指令用于指示目标图像。然后，可利用多个参考图像，对第一处理指令进行调整，从而得到第二处理指令，第二处理指令用于指示多个参考图像中的至少一个参考图像与目标图像之间的关系。最后，可将第二处理输入至目标模型，以通过目标模型利用第二处理指令对至少一个参考图像进行处理，从而得到并输出目标图像，以提供给用户观看和使用。前述过程中，由于第二处理指令是基于多个参考图像以及第一处理指令得到的，故目标模型在利用第二处理指令对多个参考图像中的至少一个图像进行处理的过程中，不仅可以考虑到多个参考图像中的至少一个图像的内容以及目标图像的内容，还可考虑到至少一个图像的内容与目标图像的内容之间的联系，所考虑的因素较为全面，这样目标模型可以正确理解用户的图像生成意图，使得其最终输出的目标图像为正确的图像，从而满足用户的需求。

7、在一种可能实现的方式中，该方法还包括：获取多个参考文本，多个参考文本用于描述多个参考图像；基于多个参考图像，对第一处理指令进行调整，得到第二处理指令包括：基于多个参考图像以及多个参考文本，对第一处理指令进行调整，得到第二处理指令。前述实现方式中，所获取到的输入信息不仅包含多个参考图像以及第一处理指令，还包含用于描述多个参考图像的多个参考文本，故可成功获取作为输入信息的多个参考图像、第一处理指令以及多个参考文本。那么，可利用多个参考图像以及多个参考文本对第一处理指令进行调整，从而得到第二处理指令。由此可见，可接收多模态的输入信息，从而更加准确地完成指令调整，进而基于调整后的指令更加准确地完成图像处理。

8、在一种可能实现的方式中，获取多个参考文本包括：获取用户输入的多个参考文本；或，对多个参考图像进行图像识别，得到多个参考文本；或，对第一处理指令进行文本提取，得到多个参考文本。前述实现方式中，可通过多种方式获取用于描述多个参考图像的多个参考文本，比如，用户向接口不仅输入多个参考图像以及第一处理指令，还输入了多个参考文本，又如，对用户输入的多个参考图像进行识别，从而得到多个参考文本，再如，从用户输入的第一处理指令中，提取出多个参考文本。如此一来，可通过多种方式来成功获取多模态的输入信息。

9、在一种可能实现的方式中，基于多个参考图像以及多个参考文本，对第一处理指令进行调整，得到第二处理指令包括：基于多个参考图像以及多个参考文本，生成多个第三处理指令以及多个新参考图像，一个第三处理指令用于指示一个参考图像与一个新参考图像之间的关系；以多个第三处理指令为参考，基于多个参考图像以及多个参考文本，对第一处理指令进行调整，得到第二处理指令，第二处理指令用于指示多个参考图像与目标图像之间的关系。前述实习方式中，得到多个图像文本对(也就是多个参考图像以及多个参考文本)以及第一处理指令后，对于多个图像文本对中的任意一个图像文本对而言，可利用该图像文本对所包含的一个参考图像以及一个参考文本，生成一个问答对，该问答对包含一个第三处理指令(也就是提问)以及一个新参考图像(也就是回答)，该第三处理指令用于指示该图像文本对中的参考图像以及该问答对中的新参考图像之间的关系。对于多个图像文本对中的其余图像文本对而言，也可对其余图像文本对执行类似的操作，故最终可得到多个问答对，多个问答对包含多个第三处理指令以及多个新参考图像。得到多个问答对后，也就是得到多个第三处理指令以及多个新参考图像后，可以多个第三处理指令为参考，并利用多个参考图像以及多个参考文本，对第一处理指令进行调整，从而得到第二处理指令，第二处理指令用于指示多个参考图像与目标图像之间的关系，也就是说，第二处理指令用于指示目标图像是由多个参考图像进行融合得到的。

10、在一种可能实现的方式中，通过目标模型基于第二处理指令，对至少一个参考图像进行处理，得到目标图像包括：以多个第三处理指令以及多个新参考图像为参考，通过目标模型基于第二处理指令对多个参考图像进行融合，得到目标图像。前述实现方式中，目标模型的输入包含多个第三处理指令、多个新参考图像以及第二处理指令，故目标模型可以多个第三处理指令以及多个新参考图像为参考，基于第二处理指令对多个参考图像进行融合，从而准确得到目标图像。

11、在一种可能实现的方式中，多个参考图像包含第一图像、第二图像以及第三图像，多个参考文本包含用于描述第一图像的第一文本、用于描述第二图像的第二文本以及用于描述第三图像的第三文本，基于多个参考图像以及多个参考文本，对第一处理指令进行调整，得到第二处理指令包括：基于第一图像、第一文本以及第二文本，生成第四处理指令以及第二图像，第四处理指令用于指示第一图像与第二图像之间的关系；以第四处理指令为参考，基于第三图像以及第三文本，对第一处理指令进行调整，得到第二处理指令，第二处理指令用于指示第三图像与目标图像之间的关系。前述实现方式中，多个图像文本对包含第一图像文本对、第二图像文本对以及第三图像文本对，第一图像文本对包含多个参考图像中的第一图像以及多个参考文本中的第一文本，第二图像文本对包含多个参考图像中的第二图像以及多个参考文本中的第二文本，第三图像文本对包含多个参考图像中的第三图像以及多个参考文本中的第三文本。那么，可利用第一图像文本对以及第二图像文本对，来生成一个问答对，该问答对包含第四处理指令(也就是提问)以及第二图像(也就是回答)，第四处理指令用于指示第一图像与第二图像之间的关系。得到问答对后，也就是得到第四处理指令和第二图像后，可以第四处理指令为参考，并利用第三图像以及第三文本，对第一处理指令进行调整，从而得到第二处理指令，第二处理指令用于指示第三图像与目标图像之间的关系，也就是说，第二处理指令用于指示目标图像由第三图像转换得到的。

12、在一种可能实现的方式中，通过目标模型基于第二处理指令，对至少一个参考图像进行处理，得到目标图像包括：以第四处理指令以及第二图像为参考，通过目标模型基于第二处理指令对第三图像进行转换，得到目标图像。前述实现方式中，目标模型的输入包含第四处理指令、第二图像以及第二处理指令，目标模型可以第四处理指令以及第二图像为参考，基于第二处理指令对第三图像进行转换，从而准确得到目标图像。

13、在一种可能实现的方式中，第一处理指令包含用于生成目标图像的目标文本，目标文本包含用于描述至少一个参考图像的至少一个参考文本，第二处理指令包含目标文本以及嵌入至目标文本中的至少一个参考图像，嵌入至少一个参考图像的位置为至少一个参考文本在目标文本中的位置。前述实现方式中，若用户需要进行图像融合，第一处理指令中的目标文本包含多个参考文本，故可按照多个参考文本在目标文本中的位置，将多个参考图像嵌入至目标文本中，从而得到第二处理指令。若用户需要进行图像转换，第一处理指令中的目标文本包含第三文本，故可按照第三文本在目标文本中的位置，将第三图像嵌入至目标文本中，从而得到第二处理指令。

14、本技术实施例的第二方面提供了一种模型训练方法，该方法包括：获取多个参考图像以及针对多个参考图像的第一处理指令，第一处理指令用于指示目标图像；基于多个参考图像，对第一处理指令进行调整，得到第二处理指令，第二处理指令用于指示多个参考图像中的至少一个参考图像与目标图像之间的关系；通过待训练模型基于第二处理指令，对至少一个参考图像进行处理，得到目标图像；基于目标图像以及真实图像，对待训练模型进行训练，得到目标模型，真实图像基于至少一个参考图像得到。

15、本技术实施例训练得到的目标模型，具备图像处理功能。具体地，当用户需要生成目标图像时，可先获取来自用户的多个参考图像以及针对多个参考图像的第一处理指令，第一处理指令用于指示目标图像。然后，可利用多个参考图像，对第一处理指令进行调整，从而得到第二处理指令，第二处理指令用于指示多个参考图像中的至少一个参考图像与目标图像之间的关系。最后，可将第二处理输入至目标模型，以通过目标模型利用第二处理指令对至少一个参考图像进行处理，从而得到并输出目标图像，以提供给用户观看和使用。前述过程中，由于第二处理指令是基于多个参考图像以及第一处理指令得到的，故目标模型在利用第二处理指令对多个参考图像中的至少一个图像进行处理的过程中，不仅可以考虑到多个参考图像中的至少一个图像的内容以及目标图像的内容，还可考虑到至少一个图像的内容与目标图像的内容之间的联系，所考虑的因素较为全面，这样目标模型可以正确理解用户的图像生成意图，使得其最终输出的目标图像为正确的图像，从而满足用户的需求。

16、在一种可能实现的方式中，该方法还包括：获取多个参考文本，多个参考文本用于描述多个参考图像；基于多个参考图像，对第一处理指令进行调整，得到第二处理指令包括：基于多个参考图像以及多个参考文本，对第一处理指令进行调整，得到第二处理指令。

17、在一种可能实现的方式中，获取多个参考文本包括：获取用户输入的多个参考文本；或，对多个参考图像进行图像识别，得到多个参考文本；或，对第一处理指令进行文本提取，得到多个参考文本。

18、在一种可能实现的方式中，基于多个参考图像以及多个参考文本，对第一处理指令进行调整，得到第二处理指令包括：基于多个参考图像以及多个参考文本，生成多个第三处理指令以及多个新参考图像，一个第三处理指令用于指示一个参考图像与一个新参考图像之间的关系；以多个第三处理指令为参考，基于多个参考图像以及多个参考文本，对第一处理指令进行调整，得到第二处理指令，第二处理指令用于指示多个参考图像与目标图像之间的关系。

19、在一种可能实现的方式中，通过待训练模型基于第二处理指令，对至少一个参考图像进行处理，得到目标图像包括：以多个第三处理指令以及多个新参考图像为参考，通过待训练模型基于第二处理指令对多个参考图像进行融合，得到目标图像。

20、在一种可能实现的方式中，多个参考图像包含第一图像、第二图像以及第三图像，多个参考文本包含用于描述第一图像的第一文本、用于描述第二图像的第二文本以及用于描述第三图像的第三文本，基于多个参考图像以及多个参考文本，对第一处理指令进行调整，得到第二处理指令包括：基于第一图像、第一文本以及第二文本，生成第四处理指令以及第二图像，第四处理指令用于指示第一图像与第二图像之间的关系；以第四处理指令为参考，基于第三图像以及第三文本，对第一处理指令进行调整，得到第二处理指令，第二处理指令用于指示第三图像与目标图像之间的关系。

21、在一种可能实现的方式中，通过待训练模型基于第二处理指令，对至少一个参考图像进行处理，得到目标图像包括：以第四处理指令以及第二图像为参考，通过待训练模型基于第二处理指令对第三图像进行转换，得到目标图像。

22、在一种可能实现的方式中，第一处理指令包含用于生成目标图像的目标文本，目标文本包含用于描述至少一个参考图像的至少一个参考文本，第二处理指令包含目标文本以及嵌入至目标文本中的至少一个参考图像，嵌入至少一个参考图像的位置为至少一个参考文本在目标文本中的位置。

23、本技术实施例的第三方面提供了一种图像处理装置，该装置包括：获取模块，用于获取多个参考图像以及针对多个参考图像的第一处理指令，第一处理指令用于指示目标图像；调整模块，用于基于多个参考图像，对第一处理指令进行调整，得到第二处理指令，第二处理指令用于指示多个参考图像中的至少一个参考图像与目标图像之间的关系；处理模块，用于通过目标模型基于第二处理指令，对至少一个参考图像进行处理，得到目标图像。

24、本技术实施例中，当用户需要生成目标图像时，可先获取来自用户的多个参考图像以及针对多个参考图像的第一处理指令，第一处理指令用于指示目标图像。然后，可利用多个参考图像，对第一处理指令进行调整，从而得到第二处理指令，第二处理指令用于指示多个参考图像中的至少一个参考图像与目标图像之间的关系。最后，可将第二处理输入至目标模型，以通过目标模型利用第二处理指令对至少一个参考图像进行处理，从而得到并输出目标图像，以提供给用户观看和使用。前述过程中，由于第二处理指令是基于多个参考图像以及第一处理指令得到的，故目标模型在利用第二处理指令对多个参考图像中的至少一个图像进行处理的过程中，不仅可以考虑到多个参考图像中的至少一个图像的内容以及目标图像的内容，还可考虑到至少一个图像的内容与目标图像的内容之间的联系，所考虑的因素较为全面，这样目标模型可以正确理解用户的图像生成意图，使得其最终输出的目标图像为正确的图像，从而满足用户的需求。

25、在一种可能实现的方式中，获取模块，还用于获取多个参考文本，多个参考文本用于描述多个参考图像；调整模块，用于基于多个参考图像以及多个参考文本，对第一处理指令进行调整，得到第二处理指令。

26、在一种可能实现的方式中，获取模块，用于：获取用户输入的多个参考文本；或，对多个参考图像进行图像识别，得到多个参考文本；或，对第一处理指令进行文本提取，得到多个参考文本。

27、在一种可能实现的方式中，调整模块，用于：基于多个参考图像以及多个参考文本，生成多个第三处理指令以及多个新参考图像，一个第三处理指令用于指示一个参考图像与一个新参考图像之间的关系；以多个第三处理指令为参考，基于多个参考图像以及多个参考文本，对第一处理指令进行调整，得到第二处理指令，第二处理指令用于指示多个参考图像与目标图像之间的关系。

28、在一种可能实现的方式中，处理模块，用于以多个第三处理指令以及多个新参考图像为参考，通过目标模型基于第二处理指令对多个参考图像进行融合，得到目标图像。

29、在一种可能实现的方式中，多个参考图像包含第一图像、第二图像以及第三图像，多个参考文本包含用于描述第一图像的第一文本、用于描述第二图像的第二文本以及用于描述第三图像的第三文本，调整模块，用于：基于第一图像、第一文本以及第二文本，生成第四处理指令以及第二图像，第四处理指令用于指示第一图像与第二图像之间的关系；以第四处理指令为参考，基于第三图像以及第三文本，对第一处理指令进行调整，得到第二处理指令，第二处理指令用于指示第三图像与目标图像之间的关系。

30、在一种可能实现的方式中，处理模块，用于以第四处理指令以及第二图像为参考，通过目标模型基于第二处理指令对第三图像进行转换，得到目标图像。

31、在一种可能实现的方式中，第一处理指令包含用于生成目标图像的目标文本，目标文本包含用于描述至少一个参考图像的至少一个参考文本，第二处理指令包含目标文本以及嵌入至目标文本中的至少一个参考图像，嵌入至少一个参考图像的位置为至少一个参考文本在目标文本中的位置。

32、本技术实施例的第四方面提供了一种模型训练装置，该装置包括：获取模块，用于获取多个参考图像以及针对多个参考图像的第一处理指令，第一处理指令用于指示目标图像；调整模块，用于基于多个参考图像，对第一处理指令进行调整，得到第二处理指令，第二处理指令用于指示多个参考图像中的至少一个参考图像与目标图像之间的关系；处理模块，用于通过待训练模型基于第二处理指令，对至少一个参考图像进行处理，得到目标图像；训练模块，用于基于目标图像以及真实图像，对待训练模型进行训练，得到目标模型，真实图像基于至少一个参考图像得到。

33、本技术实施例训练得到的目标模型，具备图像处理功能。具体地，当用户需要生成目标图像时，可先获取来自用户的多个参考图像以及针对多个参考图像的第一处理指令，第一处理指令用于指示目标图像。然后，可利用多个参考图像，对第一处理指令进行调整，从而得到第二处理指令，第二处理指令用于指示多个参考图像中的至少一个参考图像与目标图像之间的关系。最后，可将第二处理输入至目标模型，以通过目标模型利用第二处理指令对至少一个参考图像进行处理，从而得到并输出目标图像，以提供给用户观看和使用。前述过程中，由于第二处理指令是基于多个参考图像以及第一处理指令得到的，故目标模型在利用第二处理指令对多个参考图像中的至少一个图像进行处理的过程中，不仅可以考虑到多个参考图像中的至少一个图像的内容以及目标图像的内容，还可考虑到至少一个图像的内容与目标图像的内容之间的联系，所考虑的因素较为全面，这样目标模型可以正确理解用户的图像生成意图，使得其最终输出的目标图像为正确的图像，从而满足用户的需求。

34、在一种可能实现的方式中，获取模块，还用于获取多个参考文本，多个参考文本用于描述多个参考图像；调整模块，用于基于多个参考图像以及多个参考文本，对第一处理指令进行调整，得到第二处理指令。

35、在一种可能实现的方式中，获取模块，用于：获取用户输入的多个参考文本；或，对多个参考图像进行图像识别，得到多个参考文本；或，对第一处理指令进行文本提取，得到多个参考文本。

36、在一种可能实现的方式中，调整模块，用于：基于多个参考图像以及多个参考文本，生成多个第三处理指令以及多个新参考图像，一个第三处理指令用于指示一个参考图像与一个新参考图像之间的关系；以多个第三处理指令为参考，基于多个参考图像以及多个参考文本，对第一处理指令进行调整，得到第二处理指令，第二处理指令用于指示多个参考图像与目标图像之间的关系。

37、在一种可能实现的方式中，处理模块，用于以多个第三处理指令以及多个新参考图像为参考，通过待训练模型基于第二处理指令对多个参考图像进行融合，得到目标图像。

38、在一种可能实现的方式中，多个参考图像包含第一图像、第二图像以及第三图像，多个参考文本包含用于描述第一图像的第一文本、用于描述第二图像的第二文本以及用于描述第三图像的第三文本，调整模块，用于：基于第一图像、第一文本以及第二文本，生成第四处理指令以及第二图像，第四处理指令用于指示第一图像与第二图像之间的关系；以第四处理指令为参考，基于第三图像以及第三文本，对第一处理指令进行调整，得到第二处理指令，第二处理指令用于指示第三图像与目标图像之间的关系。

39、在一种可能实现的方式中，处理模块，用于以第四处理指令以及第二图像为参考，通过待训练模型基于第二处理指令对第三图像进行转换，得到目标图像。

40、在一种可能实现的方式中，第一处理指令包含用于生成目标图像的目标文本，目标文本包含用于描述至少一个参考图像的至少一个参考文本，第二处理指令包含目标文本以及嵌入至目标文本中的至少一个参考图像，嵌入至少一个参考图像的位置为至少一个参考文本在目标文本中的位置。

41、本技术实施例的第五方面提供了一种图像处理装置，该装置包括存储器和处理器；存储器存储有代码，处理器被配置为执行代码，当代码被执行时，物品推荐装置执行如第一方面或第一方面中任意一种可能的实现方式所述的方法。

42、本技术实施例的第六方面提供了一种模型训练装置，该装置包括存储器和处理器；存储器存储有代码，处理器被配置为执行代码，当代码被执行时，模型训练装置执行如第二方面或第二方面中任意一种可能的实现方式所述的方法。

43、本技术实施例的第七方面提供了一种电路系统，该电路系统包括处理电路，该处理电路配置为执行如第一方面、第一方面中任意一种可能的实现方式、第二方面或第二方面中任意一种可能的实现方式所述的方法。

44、本技术实施例的第八方面提供了一种芯片系统，该芯片系统包括处理器，用于调用存储器中存储的计算机程序或计算机指令，以使得该处理器执行如第一方面、第一方面中任意一种可能的实现方式、第二方面或第二方面中任意一种可能的实现方式所述的方法。

45、在一种可能的实现方式中，该处理器通过接口与存储器耦合。

46、在一种可能的实现方式中，该芯片系统还包括存储器，该存储器中存储有计算机程序或计算机指令。

47、本技术实施例的第九方面提供了一种计算机存储介质，该计算机存储介质存储有计算机程序，该程序在由计算机执行时，使得计算机实施如第一方面、第一方面中任意一种可能的实现方式、第二方面或第二方面中任意一种可能的实现方式所述的方法。

48、本技术实施例的第十方面提供了一种计算机程序产品，该计算机程序产品存储有指令，该指令在由计算机执行时，使得计算机实施如第一方面、第一方面中任意一种可能的实现方式、第二方面或第二方面中任意一种可能的实现方式所述的方法。

49、本技术实施例中，当用户需要生成目标图像时，可先获取来自用户的多个参考图像以及针对多个参考图像的第一处理指令，第一处理指令用于指示目标图像。然后，可利用多个参考图像，对第一处理指令进行调整，从而得到第二处理指令，第二处理指令用于指示多个参考图像中的至少一个参考图像与目标图像之间的关系。最后，可将第二处理输入至目标模型，以通过目标模型利用第二处理指令对至少一个参考图像进行处理，从而得到并输出目标图像，以提供给用户观看和使用。前述过程中，由于第二处理指令是基于多个参考图像以及第一处理指令得到的，故目标模型在利用第二处理指令对多个参考图像中的至少一个图像进行处理的过程中，不仅可以考虑到多个参考图像中的至少一个图像的内容以及目标图像的内容，还可考虑到至少一个图像的内容与目标图像的内容之间的联系，所考虑的因素较为全面，这样目标模型可以正确理解用户的图像生成意图，使得其最终输出的目标图像为正确的图像，从而满足用户的需求。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李繁刘健庄裴仁静邵滨
技术所有人：华为技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。