图像生成方法、装置、设备及存储介质与流程

文档序号:36007215发布日期:2023-11-16 22:45阅读:36来源:国知局
图像生成方法与流程

本申请实施例涉及机器学习领域,特别涉及一种图像生成方法、装置、设备及存储介质。


背景技术:

1、随着机器学习技术的发展,文本生成图像(text-to-image)技术在图像生成领域中得到了愈来愈多的关注,通过该技术可以根据给定文本生成符合描述的图像,具有巨大的应用潜力。

2、相关技术中,在文本和源图像之间的对应关系下,若需要在调整文本的部分词汇时,仍然保证源图像结构不变,仅对源图像部分内容进行变化,则需要人工预先确定需要进行文本生成的掩码区域(mask),进而将mask、用于生成mask的文本词汇以及源图像输入图像生成模型,以源图像的图像结构为目标图像的图像结构、以文本词汇为限制条件对mask进行图像生成,从而生成符合文本词汇且具有源图像结构的目标图像。

3、然而,上述过程需要人工确定文本生成的mask,从而通过提供的mask指导图像生成模型对图像中的mask进行编辑,不仅确定mask的过程是繁琐且复杂的,大大提升了模型使用成本和使用门槛;还可能会因为人工选取mask的过程导致丢失源图像中重要的结构信息,忽略生成部分与图像其他部分之间的全局结构关联性,使得目标图像的真实性较差,影响图像生成效果。


技术实现思路

1、本申请实施例提供了一种图像生成方法、装置、设备及存储介质,能够充分利用第一文本和第二文本之间的语义关联关系,从粗粒度到细粒度的去噪过程中生成目标图像,提升目标图像生成的精细度和准确性,提升图像编辑效率。所述技术方案如下。

2、一方面,提供了一种图像生成方法,所述方法包括:

3、获取第一文本、第二文本以及加噪图像特征表示,所述第一文本和所述第二文本之间存在语义关联关系,所述第一文本是用于描述源图像的文本,所述第二文本是用于描述目标图像的文本,所述加噪图像特征表示用于通过去噪处理还原得到对所述源图像进行编辑后的所述目标图像;

4、对所述第一文本和所述加噪图像特征表示进行关联度分析,得到第一注意力矩阵,所述第一注意力矩阵用于以所述源图像的第一图像结构约束所述目标图像的第二图像结构;

5、对所述第二文本和所述加噪图像特征表示进行关联度分析,得到第二注意力矩阵和文本值,所述第二注意力矩阵用于通过去噪处理生成所述目标图像的图像局部信息,所述文本值用于描述所述第二文本的文本信息;

6、以所述第二文本为语义去噪条件,基于所述文本值、所述第一注意力矩阵和所述第二注意力矩阵对所述加噪图像特征表示进行去噪处理,得到所述目标图像。

7、另一方面,提供了一种图像生成装置,所述装置包括:

8、获取模块,用于获取第一文本、第二文本以及加噪图像特征表示,所述第一文本和所述第二文本之间存在语义关联关系,所述第一文本是用于描述源图像的文本,所述第二文本是用于描述目标图像的文本,所述加噪图像特征表示用于通过去噪处理还原得到对所述源图像进行编辑后的所述目标图像;

9、矩阵获取模块,用于对所述第一文本和所述加噪图像特征表示进行关联度分析,得到第一注意力矩阵,所述第一注意力矩阵用于以所述源图像的第一图像结构约束所述目标图像的第二图像结构;

10、矩阵获取模块,还用于对所述第二文本和所述加噪图像特征表示进行关联度分析,得到第二注意力矩阵和文本值,所述第二注意力矩阵用于通过去噪处理生成所述目标图像的图像局部信息,所述文本值用于描述所述第二文本的文本信息;

11、去噪处理模块,用于以所述第二文本为语义去噪条件,基于所述文本值、所述第一注意力矩阵和所述第二注意力矩阵对所述加噪图像特征表示进行去噪处理,得到所述目标图像。

12、另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一段程序,所述至少一段程序由所述处理器加载并执行以实现如上述本申请实施例中任一所述图像生成方法。

13、另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一段程序,所述至少一段程序由处理器加载并执行以实现如上述本申请实施例中任一所述的图像生成方法。

14、另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的图像生成方法。

15、本申请实施例提供的技术方案带来的有益效果至少包括:

16、获取第一文本、第二文本以及加噪图像特征表示,对第一文本和加噪图像特征表示进行分析得到第一注意力矩阵;对第二文本和加噪图像特征表示进行分析得到第二注意力矩阵和文本值;进而以第二文本为语义去噪条件,基于文本值、第一注意力矩阵和第二注意力矩阵对加噪图像特征表示进行去噪处理,得到目标图像。在对加噪图像特征表示进行去噪处理的过程中,考虑到需要生成的目标图像是在源图像的基础上进行编辑后得到的内容,充分利用第一文本和第二文本之间的语义关联关系,借助第一注意力矩阵表征的图像结构和第二注意力矩阵表征的局部信息,从粗粒度到细粒度的去噪方式中生成目标图像,使得目标图像不仅能较好地保有源图像的图像结构,还能更准确地展现第二文本所指示的细节信息,提升目标图像生成的精细度和准确性,避免人工标注编辑区域的低效问题,提升图像编辑效率。



技术特征:

1.一种图像生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述以所述第二文本为语义去噪条件,基于所述文本值、所述第一注意力矩阵和所述第二注意力矩阵对所述加噪图像特征表示进行去噪处理,得到所述目标图像,包括:

3.根据权利要求2所述的方法,其特征在于,所述以所述第二文本为所述语义去噪条件,以所述数值比较结果对应的选择条件,选择性通过所述文本值、所述第一注意力矩阵和所述第二注意力矩阵对所述加噪图像特征表示进行去噪处理,包括:

4.根据权利要求1至3任一所述的方法,其特征在于,所述以所述第二文本为语义去噪条件,基于所述文本值、所述第一注意力矩阵和所述第二注意力矩阵对所述加噪图像特征表示进行去噪处理,得到所述目标图像,包括:

5.根据权利要求4所述的方法,其特征在于,所述以所述词汇类型对应的选择条件,选择性通过所述文本值、所述第一注意力矩阵和所述第二注意力矩阵对所述加噪图像特征表示进行去噪处理,包括:

6.根据权利要求4所述的方法,其特征在于,所述以所述词汇类型对应的选择条件,选择性通过所述文本值、所述第一注意力矩阵和所述第二注意力矩阵对所述加噪图像特征表示进行去噪处理,包括:

7.根据权利要求6所述的方法,其特征在于,所述基于所述分析结果,通过所述第一注意力矩阵中的矩阵元素和所述第二注意力矩阵中的矩阵元素组成调整注意力矩阵,包括:

8.根据权利要求4所述的方法,其特征在于,所述以所述词汇类型对应的选择条件,选择性通过所述文本值、所述第一注意力矩阵和所述第二注意力矩阵对所述加噪图像特征表示进行去噪处理,包括:

9.根据权利要求1至3任一所述的方法,其特征在于,所述加噪图像特征表示对应噪声图;

10.根据权利要求1至3任一所述的方法,其特征在于,所述加噪图像特征表示对应噪声图;

11.根据权利要求1至3任一所述的方法,其特征在于,所述以所述第二文本为语义去噪条件,基于所述文本值、所述第一注意力矩阵和所述第二注意力矩阵对所述加噪图像特征表示进行去噪处理,得到所述目标图像,包括:

12.根据权利要求1至3任一所述的方法,其特征在于,所述以所述第二文本为语义去噪条件,基于所述文本值、所述第一注意力矩阵和所述第二注意力矩阵对所述加噪图像特征表示进行去噪处理,得到所述目标图像,包括:

13.根据权利要求12所述的方法,其特征在于,所述以所述第二文本为语义去噪条件,基于所述文本值、所述第一注意力矩阵和所述第二注意力矩阵对所述加噪图像特征表示进行m次迭代去噪处理过程,得到去噪特征表示,包括:

14.根据权利要求1至3任一所述的方法,其特征在于,所述获取第一文本、第二文本以及加噪图像特征表示,包括:

15.一种图像生成装置,其特征在于,所述装置包括:

16.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一段程序,所述至少一段程序由所述处理器加载并执行以实现如权利要求1至14任一所述的图像生成方法。

17.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一段程序,所述至少一段程序由处理器加载并执行以实现如权利要求1至14任一所述的图像生成方法。


技术总结
本申请公开了一种图像生成方法、装置、设备及存储介质,涉及机器学习领域。该方法包括:获取第一文本、第二文本以及加噪图像特征表示,加噪图像特征表示用于通过去噪处理还原得到对源图像进行编辑后的目标图像;对第一文本和加噪图像特征表示进行关联度分析得到第一注意力矩阵;对第二文本和加噪图像特征表示进行关联度分析得到第二注意力矩阵和文本值;以第二文本为语义去噪条件,基于文本值、第一注意力矩阵和第二注意力矩阵得到目标图像。通过以上方式,能够利用语义关联关系,从粗粒度到细粒度的去噪过程中生成准确性较高的目标图像。本申请可应用于云技术、人工智能、智慧交通等各种场景。

技术研发人员:陈春全
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:
技术公布日:2024/1/16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1