一种基于像素最近邻的图像合成方法与流程

文档序号：14121483阅读：126来源：国知局

本发明涉及图像合成领域，尤其是涉及了一种基于像素最近邻的图像合成方法。

背景技术：

随着数码产品在人们生活中的普及，数字图片成为了越来越重要的信息载体。有些从自然场景中产生的数字图片不能够满足人们的主观审美要求，或者是为了娱乐等原因，人们希望能够任意地改变图片中的某些内容，人为地合成一些新的逼真图片。图像合成技术可以应用在虚拟动画场景、移动设备的图像编辑、人类微动作和微表情的研究以及动画教学等领域；同时可以结合图像编辑等技术，实现用户在网络购物时自主编辑所需衣物，从而更容易搜索到用户满意的目标商品；还可以通过图像合成提前预知环境的相关情况，从而对海上交通管理、捕鱼等海上作业以及海上军事演习等提供便利。然而，由于模式问题而不能产生大量不同的输出，同时也难以控制合成输出；而且在实际中缺乏训练数据和明显的距离度量，也难以将搜索扩展到大型训练集中。

本发明提出了一种基于像素最近邻的图像合成方法，先训练一个初始回归器—卷积神经网络(cnn)，将不完整的输入映射到单个输出图像，然后对来自这个回归输出的像素执行最近邻查询，接着使用捕捉适当的上下文级别的多尺度深度描述符来匹配像素，高效地匹配指数的训练样例，最后从训练集合到合成输出，生成密集的像素级对应。本发明能够自然地生成多个输出，同时可以解释并服从用户的约束，使得图像搜索和匹配速度更快，合成的图像更接近于原始图像。

技术实现要素：

针对难以控制合成输出等问题，本发明的目的在于提供一种基于像素最近邻的图像合成方法，先训练一个初始回归器—卷积神经网络(cnn)，将不完整的输入映射到单个输出图像，然后对来自这个回归输出的像素执行最近邻查询，接着使用捕捉适当的上下文级别的多尺度深度描述符来匹配像素，高效地匹配指数的训练样例，最后从训练集合到合成输出，生成密集的像素级对应。

为解决上述问题，本发明提供一种基于像素最近邻的图像合成方法，其主要内容包括：

(一)卷积神经网络(cnns)的合成；

(二)像素对应；

(三)像素最近邻：一对多映射。

其中，所述的图像合成方法，首先训练一个初始回归器—卷积神经网络(cnn)，将不完整的输入映射到单个输出图像；这个输出图像受到限制，是一个单一的输出；然后对来自这个回归输出的像素执行最近邻查询；使用捕捉适当的上下文级别的多尺度深度描述符来匹配像素(来自训练数据的回归输出)；高效地匹配指数的训练样例，最后从训练集合到合成输出，生成密集的像素级对应。

其中，所述的卷积神经网络(cnns)的合成，cnns应用在分割、深度学习和表面法线估计、语义边界检测等；这些网络通常使用图像标签数据对上的标准损失(例如softmax或l2回归)进行训练；然而，这样的网络通常不能很好地处理来自(不完整)标签的图像合成的逆问题；一个主要的创新是引入了对抗训练的生成网络(gan)；这个表达式在计算机视觉中具有很大的影响力，已经应用于各种图像生成任务，对低分辨率图像、分割蒙版、表面法线图和其他输入进行处理。

其中，所述的像素对应，像素方向最近邻的一个重要结果是在合成输出和训练样例之间生成像素对应；建立了查询和训练图像像素之间的语义对应关系，能够从训练样本中提取高频信息，从一个给定的输入中合成一个新的图像。

其中，所述的像素最近邻：一对多映射，将条件图像合成的问题定义如下：给定输入x的条件(例如边缘图、正常深度图或低分辨率图像)，合成高质量的输出图像；假设输入/输出的训练对，记为(xn,yn)；最简单的方法就是把这个任务作为一个(非线性)回归问题：

其中，f(xn；ω)指的是用ω参数化的任意(可能是非线性的)回归器的输出；在公式中使用全卷积神经网络，特别是像素网络作为非线性回归器；像素最近邻包括频率分析、示例匹配、成分匹配、像素表示法和有效搜索。

进一步地，所述的频率分析，预测输出f(x)在超分辨率的情况下直接进行分析，其中条件输入x是低分辨率图像的情况下；给定脸部的低分辨率图像，可能存在可作为输出生成的多个纹理(例如皱纹)或细微形状线索(例如鼻子的局部特征)；在实践中，这组输出往往被“模糊”为由回归返回的单个输出；这在输入、输出和原始目标图像的频率分析中可以清楚地看到；假设单个输出足够用于中频输出，但需要多个输出来捕捉可能的高频纹理的空间。

进一步地，所述的示例匹配，为了捕捉多个可能的输出，在计算机视觉中使用经典的非参数方法；简单的k-最近邻(knn)算法能返回报告k的输出；然而，可以用它来预测f(x)丢失的(多个可能的)高频图像，而不是用knn模型来返回整个图像：

global(x)＝f(x)+(yk-f(xk))(2)

其中，dist是测量两个(中频)重建之间相似性的距离函数；要生成多个输出，可以从训练集中报告k个最佳匹配，而不是整体最佳匹配。

进一步地，所述的成分匹配，通过从训练集中复制和粘贴(高频)补丁来合成更多的输出；为了允许这样的构图匹配，即简单匹配单个像素而不是全局图像，为重建图像中的第i个像素写入fi(x)，最终的合成输出可写为：

compi(x)＝fi(x)+(yjk-fi(xk)(3)

其中，yjk指训练实例k中的输出像素j。

进一步地，所述的像素表示法，如果距离函数仅考虑全局信息，则组合匹配降低为全局(示例)匹配；相反，深层网络的不同层次倾向于捕获不同数量的空间上下文(由于不同的接受域)；描述符将这些信息跨多个层次聚合成一个高度精确的多尺度像素表示；构造一个像素描述符，使用来自conv-{12,22,33,43,53}的特征来训练用于语义分割的像素网络模型；为了评估像素相似性，计算两个描述符之间的余弦距离。

进一步地，所述的有效搜索，给定重构图像f(x)，首先使用conv-5特征找到全局k-最近邻，然后仅在这组k个图像中的像素i周围的t×t像素窗口搜索像素级匹配；在实践中，从{1,2,…,10}中改变k，从{1,3,5,10,96}中改变t，并为给定的输入生成72个候选输出；由于合成图像的大小为96×96，搜索参数包括全组分输出(k＝10，t＝96)和全局样本匹配(k＝1，t＝1)，将它们作为候选输出。

附图说明

图1是本发明一种基于像素最近邻的图像合成方法的系统框架图。

图2是本发明一种基于像素最近邻的图像合成方法的频率分析。

图3是本发明一种基于像素最近邻的图像合成方法的像素表示法。

图4是本发明一种基于像素最近邻的图像合成方法的有效搜索。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于像素最近邻的图像合成方法的系统框架图。主要包括卷积神经网络(cnns)的合成，像素对应和像素最近邻：一对多映射。

图像合成方法，首先训练一个初始回归器—卷积神经网络(cnn)，将不完整的输入映射到单个输出图像；这个输出图像受到限制，是一个单一的输出；然后对来自这个回归输出的像素执行最近邻查询；使用捕捉适当的上下文级别的多尺度深度描述符来匹配像素(来自训练数据的回归输出)；高效地匹配指数的训练样例，最后从训练集合到合成输出，生成密集的像素级对应。

卷积神经网络(cnns)的合成，cnns应用在分割、深度学习和表面法线估计、语义边界检测等；这些网络通常使用图像标签数据对上的标准损失(例如softmax或l2回归)进行训练；然而，这样的网络通常不能很好地处理来自(不完整)标签的图像合成的逆问题；一个主要的创新是引入了对抗训练的生成网络(gan)；这个表达式在计算机视觉中具有很大的影响力，已经应用于各种图像生成任务，对低分辨率图像、分割蒙版、表面法线图和其他输入进行处理。

像素对应，像素方向最近邻的一个重要结果是在合成输出和训练样例之间生成像素对应；建立了查询和训练图像像素之间的语义对应关系，能够从训练样本中提取高频信息，从一个给定的输入中合成一个新的图像。

像素最近邻：一对多映射，将条件图像合成的问题定义如下：给定输入x的条件(例如边缘图、正常深度图或低分辨率图像)，合成高质量的输出图像；假设输入/输出的训练对，记为(xn,yn)；最简单的方法就是把这个任务作为一个(非线性)回归问题：

示例匹配，为了捕捉多个可能的输出，在计算机视觉中使用经典的非参数方法；简单的k-最近邻(knn)算法能返回报告k的输出；然而，可以用它来预测f(x)丢失的(多个可能的)高频图像，而不是用knn模型来返回整个图像：

global(x)＝f(x)+(yk-f(xk))(2)

其中，dist是测量两个(中频)重建之间相似性的距离函数；要生成多个输出，可以从训练集中报告k个最佳匹配，而不是整体最佳匹配。

成分匹配，通过从训练集中复制和粘贴(高频)补丁来合成更多的输出；为了允许这样的构图匹配，即简单匹配单个像素而不是全局图像，为重建图像中的第i个像素写入fi(x)，最终的合成输出可写为：

compi(x)＝fi(x)+(yjk-fi(xk)(3)

其中，yjk指训练实例k中的输出像素j。

图2是本发明一种基于像素最近邻的图像合成方法的频率分析。预测输出f(x)在超分辨率的情况下直接进行分析，其中条件输入x是低分辨率图像的情况下；给定脸部的低分辨率图像，可能存在可作为输出生成的多个纹理(例如皱纹)或细微形状线索(例如鼻子的局部特征)；在实践中，这组输出往往被“模糊”为由回归返回的单个输出；这在输入、输出和原始目标图像的频率分析中可以清楚地看到；假设单个输出足够用于中频输出，但需要多个输出来捕捉可能的高频纹理的空间。

图3是本发明一种基于像素最近邻的图像合成方法的像素表示法。本图显示了对各种输入模式的输出。如果距离函数仅考虑全局信息，则组合匹配降低为全局(示例)匹配；相反，深层网络的不同层次倾向于捕获不同数量的空间上下文(由于不同的接受域)；描述符将这些信息跨多个层次聚合成一个高度精确的多尺度像素表示；构造一个像素描述符，使用来自conv-{12,22,33,43,53}的特征来训练用于语义分割的像素网络模型；为了评估像素相似性，计算两个描述符之间的余弦距离。

图4是本发明一种基于像素最近邻的图像合成方法的有效搜索。本图显示了使用本方法通过简单改变这些参数生成的多个输出的示例。给定重构图像f(x)，首先使用conv-5特征找到全局k-最近邻，然后仅在这组k个图像中的像素i周围的t×t像素窗口搜索像素级匹配；在实践中，从{1,2,…,10}中改变k，从{1,3,5,10,96}中改变t，并为给定的输入生成72个候选输出；由于合成图像的大小为96×96，搜索参数包括全组分输出(k＝10，t＝96)和全局样本匹配(k＝1，t＝1)，将它们作为候选输出。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：夏春秋
技术所有人：深圳市唯特视科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。