基于文本生成图像的方法、装置、电子设备及存储介质与流程

文档序号：36446594发布日期：2023-12-21 13:37阅读：18来源：国知局

本申请涉及人工智能绘图，更具体地，涉及一种基于文本生成图像的方法、装置、电子设备及存储介质。

背景技术：

1、人工智能绘图技术包括基于图像生成图像技术以及基于文本生成图像技术。基于图像生成图像是指根据用户输入原始图像生成新图像，例如，根据用户输入的人像图片生成动画形象图片。基于文本生成图像是指根据用户输入的文本生成图像的技术，例如，根据用户输入的一段文字生成与该文字对应的图像。

2、本申请涉及人工智能绘图技术中的基于文本生成图像技术。基于文本生成图像技术可以应用于不同场景中，例如，手机主题商店个性化壁纸创作，微软办公演示文稿(microsoft office powerpoint，简称ppt)中的创意图像素材创作，虚拟空间中的图像内容创作，以及多模态的对话交互系统等。

技术实现思路

1、本申请实施例提供一种基于文本生成图像的方法、装置、电子设备及存储介质，以实现端到端的基于文本生成高度可控的图像的功能，提升基于文本生成图像的效率以及准确性。

2、第一方面，本申请实施例提供一种基于文本生成图像的方法，该方法包括：响应于接收到描述性文本，提取所述描述性文本中的实体标记以及与所述实体标记对应的实体位置信息，所述实体标记用于描述实体；在图像库中搜索与所述实体标记对应的目标图像，所述图像库中的每个图像对应一个实体标记且包括所对应的实体标记描述的实体；根据所述实体标记、与所述实体标记对应的所述实体位置信息、所述目标图像，生成与所述描述性文本对应的图像。

3、第二方面，本申请实施例提供一种基于文本生成图像的装置，该装置包括：特征提取模块，用于响应于接收到描述性文本，提取所述描述性文本中的实体标记以及与所述实体标记对应的实体位置信息，所述实体标记用于描述实体；图像搜索模块，用于在图像库中搜索与所述实体标记对应的目标图像，所述图像库中的每个图像对应一个实体标记且包括所对应的实体标记描述的实体；图像生成模块，用于根据所述实体标记、与所述实体标记对应的所述实体位置信息、所述目标图像，生成与所述描述性文本对应的图像。

4、第三方面，本申请实施例提供一种电子设备，该电子设备包括：存储器和处理器，该存储器中存储有应用程序，该应用程序用于当被处理器调用时执行本申请实施例提供的方法。

5、第四方面，本申请实施例提供一种计算机可读取存储介质，该计算机可读取存储介质上存储有程序代码，该程序代码用于当被处理器调用时使得处理器执行本申请实施例提供的方法。

6、本申请实施例提供的基于文本生成图像的方法、装置、电子设备及存储介质，可以实现端到端的基于文本生成高度可控的高质量图像的功能，通过构建包含大量实体标记以及图像(即，包含实体标记描述的实体的图像)的图像库，一方面，可以为端到端基于文本生成图像提供大量的实体图像数据，解决开放域数据不足导致难以应对开放域的个性化图像生成的问题，为生成由描述性文本引导的高度可控的高质量图像提供了必要的数据保障；另一方面，在图像库中搜索与实体标记对应的目标图像，根据实体标记及其对应的实体位置信息以及目标图像，生成与描述性文本对应的图像，可以确保生成的图像高度可控，提升基于文本生成图像的准确性，同时，通过搜索图像库来确定实体标记对应的目标图像而不是直接生成难度较大的实体图像，可以提升基于文本生成图像的效率以及准确性。

技术特征：

1.一种基于文本生成图像的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述实体位置信息包括检测框，所述在图像库中搜索与所述实体标记对应的目标图像之后，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述在图像库中搜索与所述实体标记对应的目标图像之前，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述样本图像进行分割，得到至少一个分割图像以及至少一个实体标记，包括：

5.根据权利要求1所述的方法，其特征在于，所述提取所述描述性文本中的实体标记以及与所述实体标记对应的实体位置信息，包括：

6.根据权利要求1至5任一项所述的方法，其特征在于，所述根据所述实体标记、与所述实体标记对应的所述实体位置信息、所述目标图像，生成与所述描述性文本对应的图像，包括：

7.根据权利要求6所述的方法，其特征在于，所述主题扩散模型还包括数据接收层，所述将所述实体位置信息、所述第一嵌入信息、所述第三嵌入信息输入主题扩散模型的u-net网络中，包括：

8.一种基于文本生成图像的装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质上存储有程序代码，所述程序代码用于当被处理器调用时执行如权利要求1-7任一项所述的方法。

技术总结
本申请实施例提供一种基于文本生成图像的方法、装置、电子设备及存储介质，涉及人工智能绘图技术领域。通过响应于接收到描述性文本，提取所述描述性文本中的实体标记以及与所述实体标记对应的实体位置信息，所述实体标记用于描述实体；在图像库中搜索与所述实体标记对应的目标图像，所述图像库中的每个图像对应一个实体标记且包括所对应的实体标记描述的实体；根据所述实体标记、与所述实体标记对应的所述实体位置信息、所述目标图像，生成与所述描述性文本对应的图像，从而实现端到端的基于文本生成高度可控的图像的功能，提升基于文本生成图像的效率以及准确性。

技术研发人员：马建,王瑞琛,陈宸,鲁浩楠
受保护的技术使用者：OPPO广东移动通信有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马建王瑞琛陈宸鲁浩楠
技术所有人：OPPO
我是此专利的发明人

上一篇：一种适用不同口径的装配式门窗堵孔装饰条的制作方法
上一篇：一种微生物检验萃取装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。