一种级联扩散方法

文档序号:37345796发布日期:2024-03-18 18:20阅读:17来源:国知局
本发明属于计算机视觉领域。
背景技术
::1、扩散模型在图像合成方面取得了巨大的成功,显著提升了图片合成的质量。然而,扩散模型在合成高分辨率图片时仍面临较大挑战,一是低分辨率的噪声调度很难直接用于高分辨率,研究者们需要为高分辨的场景谨慎地调节噪声调度表,且仍难以获得良好的结果;二是高分辨的训练过程需要大量资源,计算成本较高。2、一种流行的解决方案是stablediffusion[rombach,2022]提出的在潜在空间内训练,再映射回像素空间,但不可避免地会受到低级伪影的影响;另一种方案[ho,2022]是训练一系列不同分辨率的超分扩散模型构成级联,现有的级联方法是有效的,但它需要每个阶段的完整采样,且严重依赖于条件增强,高分辨率阶段的噪声调度表仍有待调整。3、但是,现有的级联方法的缺点也很明显:(1)虽然确定了低分辨率部分,但仍然要训练和采样从纯噪声开始的完整扩散模型以进行超分辨率,这是耗时的。(2)真实情况和生成的低分辨率条件之间的分布不匹配会损害性能。此外,高分辨率阶段的噪声表仍未得到很好的研究。技术实现思路1、本发明旨在至少在一定程度上解决相关技术中的技术问题之一。2、为此,本发明的目的在于提出一种级联扩散方法,用于将低分辨率图像转为对应的高分辨率图像。3、为达上述目的,本发明第一方面实施例提出了一种级联扩散方法,包括:4、获取低分辨率高斯噪声,通过标准扩散模型对所述低分辨率高斯噪声进行处理得到低分辨率图像;将所述低分辨率图像进行最邻近线性插值,得到模糊高分辨率图像;5、获取高分辨率高斯噪声,根据所述高分辨率高斯噪声构建块状噪声和高斯噪声的混合噪声;将所述模糊高分辨率图像加上所述混合噪声得到加噪模糊图像;6、将所述加噪模糊图像输入中继扩散模型,输出得到所述模糊高分辨率图像的条件概率分布梯度;7、通过模糊扩散利用所述条件概率分布梯度和所述混合噪声构建随机微分方程采样器;对所述加噪模糊图像通过所述随机微分方程采样器进行采样,得到清晰的高分辨率图像。8、另外,根据本发明上述实施例的一种级联扩散方法还可以具有以下附加的技术特征:9、进一步地,在本发明的一个实施例中,所述根据所述高分辨率高斯噪声构建块状噪声和高斯噪声的混合噪声,包括:10、构建块状噪声,表示为:11、12、其中,s是块状内核的大小;13、构建块状噪声和高斯噪声的混合噪声,表示为:14、15、进一步地,在本发明的一个实施例中,所述将所述模糊高分辨率图像加上所述混合噪声得到加噪模糊图像,表示为:16、17、其中,vt表示离散余弦变换,v表示逆离散余弦变换,σt表示扩散过程的噪声时间表,表示逐块的模糊矩阵,是一个对角矩阵。18、进一步地,在本发明的一个实施例中,在将所述加噪模糊图像输入中继扩散模型之前,还包括:19、获取一个截断的噪声时间表;20、构建初始中继扩散模型,通过所述噪声时间表对所述初始中继扩散模型进行训练,得到中继扩散模型;其中训练目标为最小化损失函数:21、22、进一步地,在本发明的一个实施例中,所述对所述加噪模糊图像通过所述随机微分方程采样器进行采样,包括:23、将一个形如的噪声时间表截掉大于1.2的部分,其中t=100,得到截断后的噪声时间表σt{1…n},之后每次采样随机噪声采样的初状态之后连续采样n步,以其中的第n步为例:24、25、其中是神经网络输出的结果,然后二阶步骤,计算最后进行二阶梯度修正,将*式中的dn替换为重新计算一次得到最终的xn-1。26、为达上述目的,本发明第二方面实施例提出了一种级联扩散装置,包括以下模块:27、获取模块,用于获取低分辨率高斯噪声,通过标准扩散模型对所述低分辨率高斯噪声进行处理得到低分辨率图像;将所述低分辨率图像进行最邻近线性插值,得到模糊高分辨率图像;28、构建模块,用于获取高分辨率高斯噪声,根据所述高分辨率高斯噪声构建块状噪声和高斯噪声的混合噪声;将所述模糊高分辨率图像加上所述混合噪声得到加噪模糊图像;29、预测模块,用于将所述加噪模糊图像输入中继扩散模型,输出得到所述模糊高分辨率图像的条件概率分布梯度;30、生成模块,用于通过模糊扩散利用所述条件概率分布梯度和所述混合噪声构建随机微分方程采样器;对所述加噪模糊图像通过所述随机微分方程采样器进行采样,得到清晰的高分辨率图像。31、为达上述目的,本发明第三方面实施例提出了一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上所述的一种级联扩散方法。32、为达上述目的,本发明第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上所述的一种级联扩散方法。33、本发明实施例提出的级联扩散方法,改进以前级联方法的缺点。在超分阶段,借助由模糊扩散(blurring diffusion)[hoogeboom,2022]改变得到的逐块模糊扩散和块状噪音(block noise),从前一阶段的低分辨率生成结果开始扩散,而不是对其进行调节并从纯噪声开始,这极大地减少了训练和采样的成本。同时,本专利提出的块状噪声,其中空间相邻像素的高斯噪声是相关的,而不是普通扩散中的独立。块状噪声主要破坏低频信息,增加了噪声调度设计的灵活性。这项技术不仅弥合了不同分辨率之间的差距,而且有助于提高一般扩散模型的性能。技术特征:1.一种级联扩散方法,其特征在于,包括以下步骤:2.根据权利要求1所述的方法,其特征在于,所述根据所述高分辨率高斯噪声构建块状噪声和高斯噪声的混合噪声,包括:3.根据权利要求1所述的方法,其特征在于,所述将所述模糊高分辨率图像加上所述混合噪声得到加噪模糊图像,表示为:4.根据权利要求1所述的方法,其特征在于,在将所述加噪模糊图像输入中继扩散模型之前,还包括:5.根据权利要求1所述的方法,其特征在于,所述对所述加噪模糊图像通过所述随机微分方程采样器进行采样,包括:6.一种级联扩散装置,其特征在于,包括以下模块:7.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-5中任一所述的级联扩散方法。8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5任意一项所述的级联扩散方法。技术总结本发明提出一种级联扩散方法,包括,获取低分辨率高斯噪声,通过标准扩散模型对低分辨率高斯噪声进行处理得到低分辨率图像;将低分辨率图像进行最邻近线性插值,得到模糊高分辨率图像;获取高分辨率高斯噪声,根据高分辨率高斯噪声构建块状噪声和高斯噪声的混合噪声;将模糊高分辨率图像加上混合噪声得到加噪模糊图像;将加噪模糊图像输入中继扩散模型,输出得到模糊高分辨率图像的条件概率分布梯度;通过模糊扩散利用条件概率分布梯度和混合噪声构建随机微分方程采样器;对加噪模糊图像通过随机微分方程采样器进行采样,得到清晰的高分辨率图像。本发明提出的方法,通过模糊扩散和块状噪声将低分辨率图像转为对应的高分辨率图像。技术研发人员:唐杰,滕嘉彦,郑问迪,丁铭受保护的技术使用者:清华大学技术研发日:技术公布日:2024/3/17
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1