用动态值剪辑生成对应于输入文本的图像的制作方法

文档序号:37914308发布日期:2024-05-10 23:53阅读:7来源:国知局
用动态值剪辑生成对应于输入文本的图像的制作方法


背景技术:

1、扩散模型是一类概率生成模型,其通常涉及两个阶段,前向扩散阶段和反向去噪阶段。在正向扩散过程中,输入数据在多次迭代中通过添加不同比例的噪声而逐渐改变和降级。在反向去噪过程中,模型学习反向扩散去噪过程,迭代地将通常由随机噪声构成的初始图像细化为细粒度彩色图像。

2、对比性语言图像预训练(clip)模型是包括图像编码器和文本编码器的语言文本匹配模型。图像和文本编码器分别将图像和语句投影到同一学习潜在空间中的向量中。在这种clip学习潜在空间中,当相应的图像和文本具有相似的语义含义时,图像向量和文本向量被定位得更近。


技术实现思路

1、鉴于上述内容,提供了一种用于生成对应于输入文本的输出图像的计算机系统。该计算系统包括计算设备的处理器和存储器,该处理器被配置成使用该存储器的多个部分来执行程序以从接收来自用户的输入文本。所述处理器还被配置为:对于预定次数的迭代,将初始图像输入到扩散过程中以生成经处理的图像,通过文本图像匹配梯度计算器反向传播所述经处理的图像以计算针对所述输入文本的梯度,并且利用通过将所计算的梯度应用于所述经处理的图像而生成的图像来更新所述初始图像。在预定次数的迭代的第一部分期间的经处理的图像的像素值是被限位到第一范围的值,并且在预定次数的迭代的第二部分期间的经处理的图像的像素值是被限位到第二范围的值,所述第二范围是第一范围的子集。

2、提供本
技术实现要素:
以便以简化形式介绍将在下面的具体实施方式中进一步描述的一些概念。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于限制所要求保护的主题的范围。此外,所要求保护的主题不限于解决在本公开的任何部分中提到的任何或所有缺点的实现。



技术特征:

1.一种用于生成与输入文本相对应的输出图像的计算机系统,所述计算机系统包括:

2.根据权利要求1所述的计算机系统,其中所述预定次数的迭代的所述第一部分是所述预定次数的迭代的至少百分之七十。

3.根据权利要求2所述的计算机系统,其中所述预定次数的迭代的所述第二部分是所述预定次数的迭代的至少百分之二十。

4.根据权利要求1所述的计算机系统,其中所述第一范围近似被归一化为像素的最大值的[-3,3]单位高斯。

5.根据权利要求4所述的计算机系统,其中所述第二范围近似[-1.4,1.4]单位高斯。

6.根据权利要求1所述的计算机系统,其中在所述预定次数的迭代的第三部分期间的所述经处理的图像的像素值是被限位到第三范围的值,所述第三范围是所述第二范围的子集。

7.根据权利要求6所述的计算机系统,其中所述第三范围近似被归一化为像素的最大值的[-1,1]单位高斯。

8.根据权利要求1所述的计算机系统,其中所述扩散过程是去噪扩散隐式模型。

9.根据权利要求1所述的计算机系统,其中所述扩散过程包括梯度估计器模型。

10.根据权利要求1所述的计算机系统,其中所述预定次数的迭代在70次迭代和100次迭代之间。

11.一种用于生成与输入文本相对应的输出图像的方法,所述方法包括用于以下的步骤:

12.根据权利要求11所述的方法,其中所述预定次数的迭代的所述第一部分是所述预定次数的迭代的至少百分之七十。

13.根据权利要求12所述的方法,其中所述预定次数的迭代的所述第二部分是所述预定次数的迭代的至少百分之二十。

14.根据权利要求11所述的方法,其中所述第一范围近似被归一化为像素的最大值的[-3,3]单位高斯。

15.根据权利要求14所述的方法,其中所述第二范围近似[-1.4,1.4]单位高斯。

16.根据权利要求11所述的方法,其中在所述预定次数的迭代的第三部分期间所述经处理的图像的像素值是被限位到第三范围的值,所述第三范围是所述第二范围的子集。

17.根据权利要求16所述的方法,其中所述第三范围近似被归一化为像素的最大值的[-1,1]单位高斯。

18.根据权利要求11所述的方法,其中所述扩散过程是去噪扩散隐式模型。

19.根据权利要求11所述的方法,其中所述扩散过程包括梯度估计器模型。

20.一种用于生成与输入文本相对应的输出图像的计算机系统,所述计算机系统包括:


技术总结
提供了包括执行程序以接收来自用户的输入文本的处理器的系统和方法。所述处理器还被配置为:对于预定次数的迭代,将初始图像输入到扩散过程以生成经处理的图像,通过文本‑图像匹配梯度计算器反向传播所述经处理的图像以计算针对所述输入文本的梯度,并且利用通过将所计算的梯度应用于所述经处理的图像而生成的图像来更新所述初始图像。在预定次数的迭代的第一部分期间的经处理的图像的像素值是被限位到第一范围的值,并且在预定次数的迭代的第二部分期间的经处理的图像的像素值是被限位到第二范围的值,第二范围是第一范围的子集。

技术研发人员:刘炳辰,朱亦哲,杨骁
受保护的技术使用者:脸萌有限公司
技术研发日:
技术公布日:2024/5/9
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1