一种图像处理方法和装置与流程

文档序号：35496853发布日期：2023-09-19 23:32阅读：29来源：国知局

本发明涉及计算机人工智能，尤其涉及一种图像处理方法和装置。

背景技术：

1、目前,图像编辑的应用场景十分广泛，为用户提供了便捷且个性化的图像处理服务，从而能够实现对齐于多图像审核领域的图像重复性利用。

2、在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

3、现有图像编辑方法的实现方式主要采用预设图像编辑选项供用户选择，从而根据用户的选择结果对图像进行对应的处理。上述的图像编辑方法互动性差，灵活度较低，更有甚者，还存在部分的图像编辑选项的描述过于偏向专业术语，因此对于用户来说可读性差，导致用户需花费较多的时间成本和精力成本理解、猜测，进而导致用户体验较差。

技术实现思路

1、有鉴于此，本发明实施例提供一种图像处理方法和装置，能够解决现有图像处理技术手段灵活度低、互动性差的技术问题。

2、为实现上述目的，根据本发明实施例的一个方面，提供了一种图像处理方法，包括获取输入图像和输入数据；根据输入数据整合得到需求语义信息，并根据输入图像提取得到图像语义信息；对需求语义信息和图像语义信息进行匹配合并，生成修正语义信息，以计算对应的困惑度，判断所述困惑度的合理性；响应于确定所述困惑度不合理，弹出预设的报错信息；响应于确定所述困惑度合理，将输入图像重构处理为第一噪声向量，以根据所述图像语义信息、修正语义信息和第一噪声向量，生成目标图像。

3、可选地，根据输入数据整合得到需求语义信息，包括：

4、响应于确定输入数据是语音数据，调用预设的语音识别模型对输入数据进行识别处理，得到对应的需求语义信息。

5、可选地，根据输入图像提取得到图像语义信息，包括：

6、调用预设的多模态模型，以对输入图像进行编码，得到对应的第一编码向量；

7、并调用预设的映射网络，以将所述图像编码向量映射至文本空间，得到相应的文本提示向量序列；

8、且调用预设的文本解码器，以根据所述文本提示序列，生成图像语义信息。

9、可选地，计算对应的困惑度，包括：

10、调用预设的自然语言处理模型计算修正语义信息的困惑度。

11、可选地，判断所述困惑度的合理性，包括：

12、将所述困惑度和预设的合理性阈值进行对比；

13、若所述合理性阈值大于或等于所述困惑度，则确定所述困惑度合理；

14、若所述合理性阈值小于所述困惑度，则确定所述困惑度不合理。

15、可选地，对需求语义信息和图像语义信息进行匹配合并，生成修正语义信息，包括：

16、调用预设的生成式语言模型，以将所述需求语义信息、图像语义信息输入至所述生成式语言模型，得到对应输出的修正语义信息。

17、可选地，调用预设的生成式语言模型之前，包括：

18、使用预设的数据集对所述生成式语言模型进行微调训练，记录对应的输出数据，并计算对应的困惑度，且对所述生成式语言模型的指定指标进行监听；

19、响应于确定所述困惑度达到相应的第一预期值，或确定所述指定指标达到相应的第二预期值；

20、使用微调训练后的生成式语言模型作为最终使用的语言模型。

21、可选地，根据所述图像语义信息、修正语义信息和第一噪声向量，生成目标图像，包括：

22、对图像语义信息、修正语义信息分别进行嵌入处理，得到分别对应的第二编码向量和第三编码向量；

23、调用预设的扩散模型执行反向扩散过程，以基于交叉注意力机制，根据第二编码向量和第三编码向量对第一噪声向量进行编辑处理，并迭代生成对应的目标隐向量；

24、对目标隐向量进行解码，得到目标图像。

25、另外，本发明还提供了一种图像处理装置，包括获取模块，获取输入图像和输入数据；处理模块，根据输入数据整合得到需求语义信息，并根据输入图像提取得到图像语义信息；对需求语义信息和图像语义信息进行匹配合并，生成修正语义信息，以计算对应的困惑度，判断所述困惑度的合理性；响应于确定所述困惑度不合理，弹出预设的报错信息；编辑模块，响应于确定所述困惑度合理，将输入图像重构处理为第一噪声向量，以根据所述图像语义信息、修正语义信息和第一噪声向量，生成目标图像。

26、上述发明中的一个实施例具有如下优点或有益效果：本发明通过获取输入图像和输入数据，得到了本发明进行跨模态数据处理的数据来源；同时，本发明通过根据输入数据整合得到需求语义信息，并根据输入图像提取得到图像语义信息，完成了将用户输入的多模态数据归一化处理为不同的本文表达的技术目的，实现了对多模态数据进行智能化解析处理的技术效果；并且，对需求语义信息和图像语义信息进行匹配合并，生成修正语义信息，以计算对应的困惑度，判断所述困惑度的合理性，实现了对用户的图像编辑指令进行合理化判定的处理过程，从而能够尽早对不合理的用户输入数据进行分流报错，以提升整体的图片处理效率；此外，本发明通过响应于确定所述困惑度不合理，弹出预设的报错信息，能够对用户的错误数据尽早分流处理的技术效果；另外，本发明通过响应于确定所述困惑度合理，将输入图像重构处理为第一噪声向量，以根据所述图像语义信息、修正语义信息和第一噪声向量，生成目标图像，完成了针对合理且匹配的用户输入数据自动化修改输入图像的处理过程，并且通过采用可控图像生成机制确保编辑图像的自由度在合理范围，可以保证本技术方案生成的目标图像能够比较精准地贴合用户的图像编辑需求。

27、上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

技术特征：

1.一种图像处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，根据输入数据整合得到需求语义信息，包括：

3.根据权利要求1所述的方法，其特征在于，根据输入图像提取得到图像语义信息，包括：

4.根据权利要求1所述的方法，其特征在于，计算对应的困惑度，包括：

5.根据权利要求1所述的方法，其特征在于，判断所述困惑度的合理性，包括：

6.根据权利要求1所述的方法，其特征在于，对需求语义信息和图像语义信息进行匹配合并，生成修正语义信息，包括：

7.根据权利要求6所述的方法，其特征在于，调用预设的生成式语言模型之前，包括：

8.根据权利要求1所述的方法，其特征在于，根据所述图像语义信息、修正语义信息和第一噪声向量，生成目标图像，包括：

9.一种图像处理装置，其特征在于，包括：

10.根据权利要求9所述的装置，其特征在于，包括：

11.根据权利要求9所述的装置，其特征在于，包括：

12.根据权利要求9所述的装置，其特征在于，包括：

13.根据权利要求9所述的装置，其特征在于，包括：

14.根据权利要求9所述的装置，其特征在于，包括：

15.根据权利要求14所述的装置，其特征在于，包括：

16.根据权利要求9所述的装置，其特征在于，包括：

17.一种电子设备，其特征在于，包括：

18.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述的方法。

19.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。

技术总结
本发明公开了一种图像处理方法和装置，涉及计算机人工智能技术领域。该方法的一具体实施方式包括获取输入图像和输入数据；根据输入数据整合得到需求语义信息，并根据输入图像提取得到图像语义信息；对需求语义信息和图像语义信息进行匹配合并，生成修正语义信息，以计算对应的困惑度，判断所述困惑度的合理性；响应于确定所述困惑度不合理，弹出预设的报错信息；响应于确定所述困惑度合理，将输入图像重构处理为第一噪声向量，以根据所述图像语义信息、修正语义信息和第一噪声向量，生成目标图像。从而，本发明的实施方式能够解决现有图像处理技术手段灵活度低、互动性差的技术问题。

技术研发人员：郑江,聂砂,罗奕康,丁苏苏,戴菀庭,王伊妍,张士存
受保护的技术使用者：中国建设银行股份有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郑江聂砂罗奕康丁苏苏戴菀庭王伊妍张士存
技术所有人：建信金融科技有限责任公司
我是此专利的发明人

上一篇：一种油溶性缓蚀剂及其制备方法
上一篇：一种基于物联网的音响功放无线远程控制方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。