基于文生图的图像生成方法及装置与流程

文档序号：37919812发布日期：2024-05-10 23:58阅读：6来源：国知局

本发明涉及图像处理，具体而言，涉及一种基于文生图的图像生成方法及装置。
背景技术：
：：1、“文生图”这种系统通常指将用户输入的文本描述生成为对应的图像。这里面需首先利用自然语言处理(nlp)对输入的文本进行解析，分析理解词汇、句法结构和语义关系，以提取文本中的语义信息。然后再利用计算机视觉技术，如潜在扩散模型stablediffusion，利用自动编码器将输入的样本图像压缩到1atent空间，转化为压缩的特征图，在特征图的基础上加噪、去噪，最终进行解码来生成高质量的图像。2、现在市场上的文生图产品，生成的数据虽然多样，但难以保证结果是适合用户的。比如对于同样的prompt输入，不同年龄、性别、兴趣的用户，生成的偏好也可能不一样。如儿童偏好于卡通风格；年轻人可能更偏好二次元风格的图片输出；老人可能喜欢写实、照片风格；男生可能喜欢硬朗风格，女生喜欢可爱温馨风格；it工作者可能喜欢科技感、机械感的图片；传统文化工作者的可能喜欢水墨画风格。3、针对上述相关技术中文生图技术无法为用户生成个性化风格的图片的问题，目前尚未提出有效的解决方案。技术实现思路1、本发明实施例提供了一种基于文生图的图像生成方法及装置，以至少解决相关技术中文生图技术无法为用户生成个性化风格的图片的技术问题。2、根据本发明实施例的一个方面，提供了一种基于文生图的图像生成方法，包括：获取用户输入的文本描述信息和所述用户的标签信息，其中，所述文本描述信息是所述用户对需要生成的目标图像的描述信息，所述标签信息用于描述所述用户的特征；对所述文本描述信息和所述标签信息进行文本扩充，以得到包含用户画像特征和语义特征的完整文本描述；获取所述完整文本描述信息对应的图片信息生成向量；将所述图片信息生成向量输入至文生图模型中，以利用所述文生图模型对所述图片信息生成向量进行处理，得到多张图片，其中，所述文生图模型是使用多组训练数据通过机器学习训练得到的模型，所述多组训练数据中的每一组均包括：样本图片信息生成向量和与所述样本图片信息生成向量对应的样本图片；对所述多张图片进行打分，得到所述多张图片中每一张图片的打分值；将所述多张图片中所述打分值大于预定分值的部分图片发送至终端设备；获取所述用户基于所述终端设备对所述部分图片的反馈信息，并基于所述反馈信息确定所述目标图像。3、可选地，对所述文本描述信息和所述标签信息进行文本扩充，以得到包含用户画像特征和语义特征的完整文本描述，包括：根据所述文本描述信息和所述标签信息确定所述文本描述信息的细节描述信息；利用所述细节描述信息对所述文本描述信息和所述标签信息进行文本扩充，以得到包含所述用户画像特征和所述语义特征的所述完整文本描述。4、可选地，获取所述完整文本描述信息对应的图片信息生成向量，包括：对所述完整文本描述信息进行特征提取，以得到所述完整文本描述信息的特征信息；对所述特征信息进行编码，得到初始图片信息生成向量；利用图片编码器对所述初始图片信息生成向量进行去噪处理，得到所述图片信息生成向量。5、可选地，将所述图片信息生成向量输入至文生图模型中，以利用所述文生图模型对所述图片信息生成向量进行处理，得到多张图片，包括：利用图片解码器对所述图片信息生成向量进行解码，得到所述图片信息生成向量对应的可视化图像；将所述可视化图片输入至所述文生图模型中，以利用所述文生图模型对所述可视化图片进行处理，得到所述多张图片。6、可选地，对所述多张图片进行打分，得到所述多张图片中每一张图片的打分值，包括：将所述多张图片和所述文本描述信息输入至奖惩模型中，以利用所述奖惩模型对所述多张图片和所述文本描述信息进行处理，以得到所述多张图片中每一张图片的所述打分值，其中，所述奖惩模型是使用多组训练数据通过机器学习训练得到的，所述多组训练数据中的每一组均包括：样本多张图片、样本文本描述信息以及与所述样本多张图片和所述样本文本描述信息对应的样本打分值。7、可选地，将所述多张图片中所述打分值大于预定分值的部分图片发送至终端设备，包括：将所述多张图片中每一组图片的所述打分值分别与所述预定分值进行比对，得到所述分值大于所述预定分值的所述部分图片；将所述部分图片发送至所述终端设备。8、可选地，获取所述用户基于所述终端设备对所述部分图片的反馈信息，并基于所述反馈信息确定所述目标图像，包括：对所述反馈信息进行解析，得到所述用户从所述部分图片中选择的满足用户需求的图片；确定所述图片为所述目标图像。9、可选地，在获取所述用户基于所述终端设备对所述部分图片的反馈信息，并基于所述反馈信息确定所述目标图像之后，该基于文生图的图像生成方法还包括：对所述反馈信息进行解析，得到所述用户从所述部分图片中选择的最满意图片和最不满意图片；将所述最满意图片与所述多张图片中的第一张图片进行比较，并将所述最不满意图片与所述多张图片中的最后一张图片进行比较，得到比较结果；在所述比较结果表示所述最满意图片与所述第一张图片一致时，则对所述文生图模型进行分值奖励，反之则对所述文生图模型进行分值惩罚；在所述比较结果表示所述最不满意图片与所述最后一张图片一致时，则对所述文生图模型进行分值奖励，反之则对所述文生图模型进行分值惩罚；在确定所述文生图模型的累计分值小于分值阈值时，对所述文生图模型进行优化。10、根据本发明实施例的另外一个方面，还提供了一种基于文生图的图像生成装置，包括：第一获取单元，用于获取用户输入的文本描述信息和所述用户的标签信息，其中，所述文本描述信息是所述用户对需要生成的目标图像的描述信息，所述标签信息用于描述所述用户的特征；扩充单元，用于对所述文本描述信息和所述标签信息进行文本扩充，以得到包含用户画像特征和语义特征的完整文本描述；第二获取单元，用于获取所述完整文本描述信息对应的图片信息生成向量；处理单元，用于将所述图片信息生成向量输入至文生图模型中，以利用所述文生图模型对所述图片信息生成向量进行处理，得到多张图片，其中，所述文生图模型是使用多组训练数据通过机器学习训练得到的模型，所述多组训练数据中的每一组均包括：样本图片信息生成向量和与所述样本图片信息生成向量对应的样本图片；打分单元，用于对所述多张图片进行打分，得到所述多张图片中每一张图片的打分值；发送单元，用于将所述多张图片中所述打分值大于预定分值的部分图片发送至终端设备；确定单元，用于获取所述用户基于所述终端设备对所述部分图片的反馈信息，并基于所述反馈信息确定所述目标图像。11、可选地，所述扩充单元，包括：第一确定模块，用于根据所述文本描述信息和所述标签信息确定所述文本描述信息的细节描述信息；扩充模块，用于利用所述细节描述信息对所述文本描述信息和所述标签信息进行文本扩充，以得到包含所述用户画像特征和所述语义特征的所述完整文本描述。12、可选地，所述第二获取单元，包括：提取模块，用于对所述完整文本描述信息进行特征提取，以得到所述完整文本描述信息的特征信息；编码模块，用于对所述特征信息进行编码，得到初始图片信息生成向量；去噪模块，用于利用图片编码器对所述初始图片信息生成向量进行去噪处理，得到所述图片信息生成向量。13、可选地，所述处理单元，包括：解码模块，用于利用图片解码器对所述图片信息生成向量进行解码，得到所述图片信息生成向量对应的可视化图像；第一处理模块，用于将所述可视化图片输入至所述文生图模型中，以利用所述文生图模型对所述可视化图片进行处理，得到所述多张图片。14、可选地，所述打分单元，包括：第二处理模块，用于将所述多张图片和所述文本描述信息输入至奖惩模型中，以利用所述奖惩模型对所述多张图片和所述文本描述信息进行处理，以得到所述多张图片中每一张图片的所述打分值，其中，所述奖惩模型是使用多组训练数据通过机器学习训练得到的，所述多组训练数据中的每一组均包括：样本多张图片、样本文本描述信息以及与所述样本多张图片和所述样本文本描述信息对应的样本打分值。15、可选地，所述发送单元，包括：比对模块，用于将所述多张图片中每一组图片的所述打分值分别与所述预定分值进行比对，得到所述分值大于所述预定分值的所述部分图片；发送模块，用于将所述部分图片发送至所述终端设备。16、可选地，所述确定单元，包括：解析模块，用于对所述反馈信息进行解析，得到所述用户从所述部分图片中选择的满足用户需求的图片；第二确定模块，用于确定所述图片为所述目标图像。17、可选地，该基于文生图的图像生成装置还包括：解析单元，用于在获取所述用户基于所述终端设备对所述部分图片的反馈信息，并基于所述反馈信息确定所述目标图像之后，对所述反馈信息进行解析，得到所述用户从所述部分图片中选择的最满意图片和最不满意图片；比较单元，用于将所述最满意图片与所述多张图片中的第一张图片进行比较，并将所述最不满意图片与所述多张图片中的最后一张图片进行比较，得到比较结果；第一奖惩单元，用于在所述比较结果表示所述最满意图片与所述第一张图片一致时，则对所述文生图模型进行分值奖励，反之则对所述文生图模型进行分值惩罚；第二奖惩单元，用于在所述比较结果表示所述最不满意图片与所述最后一张图片一致时，则对所述文生图模型进行分值奖励，反之则对所述文生图模型进行分值惩罚；优化单元，用于在确定所述文生图模型的累计分值小于分值阈值时，对所述文生图模型进行优化。18、根据本发明实施例的另外一个方面，还提供了一种用户画像生成系统，所述用户画像生成系统使用上述中任一项所述的基于文生图的图像生成方法。19、根据本发明实施例的另外一个方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，所述程序执行上述中任意一项所述的基于文生图的图像生成方法。20、根据本发明实施例的另外一个方面，还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述中任意一项所述的基于文生图的图像生成方法。21、在本发明实施例中，获取用户输入的文本描述信息和用户的标签信息，其中，文本描述信息是用户对需要生成的目标图像的描述信息，标签信息用于描述用户的特征；对文本描述信息和标签信息进行文本扩充，以得到包含用户画像特征和语义特征的完整文本描述；获取完整文本描述信息对应的图片信息生成向量；将图片信息生成向量输入至文生图模型中，以利用文生图模型对图片信息生成向量进行处理，得到多张图片，其中，文生图模型是使用多组训练数据通过机器学习训练得到的模型，多组训练数据中的每一组均包括：样本图片信息生成向量和与样本图片信息生成向量对应的样本图片；对多张图片进行打分，得到多张图片中每一张图片的打分值；将多张图片中打分值大于预定分值的部分图片发送至终端设备；获取用户基于终端设备对部分图片的反馈信息，并基于反馈信息确定目标图像。通过本发明提供的技术方案，实现了将用户画像与文生图相结合，实现个性化图像的生成的目的，达到提升用户画像生成的准确性的技术效果，进而解决了相关技术中文生图技术无法为用户生成个性化风格的图片的技术问题。当前第1页12当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵必美,梁寿愚,姚森敬,卢志良,董召杰,敖榜,刘懋,吴石松,姜诚,任正国,郭尧,杨伟,王鹏凯,陈骞,陈元峰,郑桦,李成
技术所有人：南方电网人工智能科技有限公司
我是此专利的发明人

上一篇：一种薄壁加工外部笼式工装的制作方法
上一篇：电池、电池包和用电设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。