一种通过修改扩散模型轨迹进行图像补全的方法和系统与流程

文档序号：33897479发布日期：2023-04-21 05:55阅读：111来源：国知局

本发明涉及图像补全领域，尤其涉及一种通过修改扩散模型轨迹进行图像补全的方法和系统。

背景技术：

1、图像补全是计算机视觉中一个重要的研究方向，给定一个部分区域被遮盖的图像(遮罩图像)，图像补全要求根据图像未被遮盖区域的信息，来预测并填补被遮盖的区域，使得修复后的图像看起来非常自然，没有明显地拼接和认为修改的痕迹。图像补全的方法主要分为两类：一类是纹理合成方法，其核心是从图像未被遮盖区域采样相似像素块填充待补全区域；另一类是基于神经网络的生成模型，根据图像未被遮盖区域的特征，生成语义一致的补全图像。

2、近年来，扩散生成模型被提出并在学术界和工业界备受关注。扩散生成模型是在非平衡态热力学的启发下被提出的，非平衡热力学也称为不可逆过程的热力学，主要研究对象包括热传导、物质的扩散等，其中一个主要问题就是演化动力学问题，它要解决微观可逆与宏观不可逆的矛盾。应用到生成模型领域，可以认为数据都是各种变量在外力作用下达到的一种平衡状态，当这种外力消失时，变量会进行自由的扩散，就像粒子的布朗运动一样。通过模拟这个扩散的过程，通过迭代的方法，有规律地、缓慢地摧毁原始数据的分布，使得原始数据分布趋向于一个更加自然的、简单的、容易计算的分布，理论上任何复杂的原始分布都可以通过这一过程被转化为这种简单的分布。拿图像举例，通过不断对每个像素的值做扩散操作，最终这个图像就变成了一张高斯噪声图。微观上，只要每步扩散的程度足够小，扰动足够小，那么它就是可逆的，任务就是去定量估计这个扰动的过程，这比直接显式地建模原始数据分布要简单很多。只要模型学会了扩散的逆向操作，那么任何从简单分布中采样的样本都可被逆转回原始分布中，即生成了一个服从原始分布的样本，这个过程就是生成模型的过程。

3、现有的扩散生成模型预定义一个固定的前向过程，再训练神经网络拟合前向过程的逆过程，从而得到一个生成模型。现有的条件扩散生成模型在神经网络的训练时引入条件的建模，拟合的目标还是预定义的固定的前向过程的逆，对于图像补全来说，即将遮罩图像作为条件输入到逆向过程的神经网络中作为条件，但这种方法极大地限制了模型在图像补全任务上的训练效率和性能表现。

技术实现思路

1、为了克服上述问题，本发明提出了一种通过修改扩散模型轨迹进行图像补全的方法和系统，在对遮罩图像作为条件的建模引入到前向过程中，不再使用原本的扩散模型预定义的固定的前向过程，而是通过对前向过程扩散轨迹进行偏移，提高了训练效率和性能表现。

2、为了实现上述目的，本发明采用的技术方案是：

3、第一个目的，本发明提出了一种通过修改扩散模型轨迹进行图像补全的方法，包括以下步骤：

4、步骤1，通过可训练的神经网络将部分遮盖后的样本图像映射到原始图像空间；

5、步骤2，对原始图像进行采样，得到采样图像xt，采样公式为：

6、

7、其中，t～uniform({1,…,t})，t为预设的总扩散步数，xt表示第t步的采样图像，c表示部分遮盖后的样本图像，x0表示原始图像，kt表示控制扩散轨迹偏移模式的系数，f(·)表示可训练的神经网络，∈表示采样时添加的符合标准高斯分布的噪声，表示前t步的噪声累积；

8、步骤3，根据采样图像计算图像补全网络的损失，损失函数为：

9、

10、其中，gθ(·)表示图像补全网络，其输入为xt和t；

11、步骤4，根据图像补全网络的损失，更新图像补全网络参数和步骤1中可训练的神经网络参数；

12、步骤5，利用训练好的神经网络和图像补全网络，逆向生成遮盖图像的补全结果。

13、进一步地，步骤2中，前t步的噪声累积的计算公式为：

14、

15、其中，βt是预设的第t步扩散参数，αt是第t步噪声参数。

16、进一步地，所述的扩散轨迹偏移模式包括：

17、数据归一化模式：表示将重设不同条件的数据的前向过程的起点，而终点不变的偏移模式；

18、先验偏移模式：表示将不同条件的数据的前向过程的终点设为xt＝f(c)，而起点不变的偏移模式。

19、进一步地，所述的图像补全网络采用unet架构。

20、进一步地，所述的步骤5中，逆向生成遮盖图像的补全结果的公式为：

21、

22、st＝kt·f(c)

23、其中，βt是预设的第t步扩散参数，αt是第t步噪声参数，gθ(·)是图像补全网络，st是第t步的均值偏移量，f(·)是可训练的神经网络，z表示符合标准高斯分布的噪声，z～n(0,i)，n(·)表示高斯分布，i为单位矩阵。

24、进一步地，初始化t＝t时，其中st是第t步的均值偏移量，xt是第t步的补全图像。

25、第二个目的，本发明提出了一种通过修改扩散模型轨迹进行图像补全的系统，包括：

26、空间映射模块，其用于通过可训练的神经网络将部分遮盖后的样本图像映射到原始图像空间；

27、图样采样模块，其用于对原始图像进行采样；

28、损失计算模块，其用于根据采样图像计算图像补全网络的损失；

29、训练模块，其用于根据图像补全网络的损失，更新可训练的神经网络参数和图像补全网络参数；

30、图像补全模块，其用于利用训练好的神经网络和图像补全网络，逆向生成遮盖图像的补全结果。

31、进一步地，所述的图样采样模块的采样公式为：

32、

33、其中，t～uniform({1,…,t})，t为预设的总扩散步数，xt表示第t步的采样图像，c表示部分遮盖后的样本图像，x0表示原始图像，kt表示控制扩散轨迹偏移模式的系数，f(·)表示可训练的神经网络，∈表示采样时添加的符合标准高斯分布的噪声，表示前t步的噪声累积。

34、进一步地，所述的损失计算模块中的损失函数为：

35、

36、其中，gθ(·)表示图像补全网络，其输入为xt和t。

37、进一步地，所述的图像补全模块中逆向生成遮盖图像的补全结果的公式为：

38、

39、st＝kt·f(c)

40、其中，βt是预设的第t步扩散参数，αt是第t步噪声参数，gθ(·)是图像补全网络，st是第t步的均值偏移量，f(·)是可训练的神经网络，z表示符合标准高斯分布的噪声，表示高斯分布，i为单位矩阵。

41、与现有技术相比，本发明的有益效果是：因为本发明采用了更加灵活的和可操控的扩散轨迹进行建模，相比于原本扩散模型使用的固定的扩散轨迹，极大地提升了扩散模型的容量，在图像补全上取得了更好的效果。

技术特征：

1.一种通过修改扩散模型轨迹进行图像补全的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种通过修改扩散模型轨迹进行图像补全的方法，其特征在于，步骤2中，前t步的噪声累积的计算公式为：

3.根据权利要求1所述的一种通过修改扩散模型轨迹进行图像补全的方法，其特征在于，所述的扩散轨迹偏移模式包括：

4.根据权利要求1所述的一种通过修改扩散模型轨迹进行图像补全的方法，其特征在于，所述的图像补全网络采用unet架构。

5.根据权利要求1所述的一种通过修改扩散模型轨迹进行图像补全的方法，其特征在于，所述的步骤5中，逆向生成遮盖图像的补全结果的公式为：

6.根据权利要求5所述的一种通过修改扩散模型轨迹进行图像补全的方法，其特征在于，初始化t＝t时，其中st是第t步的均值偏移量，xt是第t步的补全图像。

7.一种通过修改扩散模型轨迹进行图像补全的系统，其特征在于，包括：

8.根据权利要求7所述的一种通过修改扩散模型轨迹进行图像补全的系统，其特征在于，所述的图样采样模块的采样公式为：

9.根据权利要求8所述的一种通过修改扩散模型轨迹进行图像补全的系统，其特征在于，所述的损失计算模块中的损失函数为：

10.根据权利要求7所述的一种通过修改扩散模型轨迹进行图像补全的系统，其特征在于，所述的图像补全模块中逆向生成遮盖图像的补全结果的公式为：

技术总结
本发明提出了一种通过修改扩散模型轨迹进行图像补全的方法和系统，属于图像补全领域。包括：通过可训练的神经网络将部分遮盖后的样本图像映射到原始图像空间；对原始图像进行采样，得到采样图像；根据采样图像计算图像补全网络的损失；根据图像补全网络的损失，更新图像补全网络参数和可训练的神经网络参数；利用训练好的神经网络和图像补全网络，逆向生成遮盖图像的补全结果。本发明采用了更加灵活的和可操控的扩散轨迹进行建模，相比于原本扩散模型使用的固定的扩散轨迹，极大地提升了扩散模型的容量，在图像补全上取得了更好的效果。

技术研发人员：姜伟昊,黄俊杰,李烈锋,钱冠梁,王志辉,陈梓铭
受保护的技术使用者：杭州东上智能科技有限公司
技术研发日：
技术公布日：2024/1/11

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：姜伟昊黄俊杰李烈锋钱冠梁王志辉陈梓铭
技术所有人：杭州东上智能科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。