一种保留图片相关性信息的图片拼接方法

文档序号：10553563阅读：277来源：国知局

一种保留图片相关性信息的图片拼接方法
【专利摘要】本发明公开了一种保留图片相关性信息的图片拼接方法，包括以下步骤：步骤1，相关性分析：采集待拼接的图片得到图片集，并使每张图片获得一个类标签，再由t分布随机领域嵌入方法t?SNE方法将图片的相关性信息嵌入到初始展示面板分布中，得到t?SNE分布结果；步骤2，初始化展示面板子区域；步骤3，展示面板子区域划分：结合子区域优化及错误位置校正方法，确定每幅图片的朝向角θ、摆放位置、缩放尺度，并保证图片的相关性信息不被丢失；步骤4，无缝混合渲染：基于概率混合模型对展示面板子区域之间的边界区域进行无缝混合渲染，从而完成图片集中图片的剪切拼接。
【专利说明】
一种保留图片相关性信息的图片拼接方法
技术领域
[0001] 本发明属于计算机图像、多媒体信息技术等领域，尤其涉及一种保留图片相关性信息的图片拼接方法。
【背景技术】
[0002] 随着手持照相设备的日益普及，人们拍照更加方便，获取的图片更加丰富，继而对图片集自动管理技术的需求更加突显。作为一种重要的图片集摘要和展示技术，图片拼贴近年来正受到越来越多的重视。图片拼贴的主要目的在于提供一个紧致、丰富而美观的图片集摘要图。由于手动制作这样的拼贴摘要图需要用到一些专业的图片编辑技巧同时耗时颇多，自动化的拼贴摘要图生成技术近年来成为了一个研究热点。
[0003] 传统的图片拼贴方法一般基于构造一个优化框架，将拼贴结果的好坏以某种客观标准加以量化，此优化方程通常具有复杂的非线性形式。由于每张图片的状态决定于若干参数，总共可能产生成百上千个参数需要优化。在如此复杂的非线性优化方程中求解如此规模的优化解通常是低效的，同时也很容易陷入局部最优解。尽管一些提升求解效率的方法已先后被提出，但此类方法仍有其固有的局限性。
[0004] 目前所提出的方法具有许多方面的不足。第一，每张图片的最优状态参数往往与其它若干图片的状态紧耦合，导致某张图片状态的更新全局性或局部地影响到其它图片，从而导致拼贴的可扩展性很差。第二，用于拼接的图片集中，往往包含很多语义信息，以往的方法都会忽略这一重要信息，只是随机的将图片拼接在一起。第三，不能对图片感兴趣区域进行最大化展示，若只提取每张图片的感兴趣区域，并允许该区域的形状为不规则多边形，则可以在最大化展示图片主要内容的同时，使得拼接结果更加紧凑。

【发明内容】

[0005] 发明目的：本发明提供一种保留图片相关性信息的图片拼接方法，可以保留图片集中图片之间的相关性信息，突出各个图片中的主题内容，且能够更高效地利用面板空间。
[0006] 技术方案:本发明公开了一种保留图片相关性信息的图片拼接方法，其核心在于保留图片之间相关性信息的同时最大化展示图片的主要内容，包括以下步骤：
[0007] 步骤1，相关性分析:采集待拼接的图片得到图片集，采用扩展了的深度神经网络 (Convolutional Neural Networks，简称CNN)模型提取每张图片的语义描述，并使每张图片获得一个类标签，再由t分布随机领域嵌入方法(t-Distributed Stochastic Neighbor Embedding，简称 t_SNE，该方法参见 Van der Maaten 等发表于 Journal of Machine Learning Research的论文《Visualizing data using t_SNE》）将图片的相关性信息嵌入到初始展示面板分布中，得到t_SNE(t分布随机领域嵌入方法，t-Distributed Stochastic Neighbor Embedding，简称t_SNE)分布结果。
[0008] 步骤2,初始化展示面板子区域:结合显著性检测和人脸检测，提取每张图片的R0I 关注区域(Region of Interest，简称R0I关注区域），该区域形状可以是不规则多边形，缩放t-SNE分布结果，使其与展示面板大小相等，并作为初始展示面板，将每张图片的ROI关注区域送入到其在初始展示面板中的对应位置；
[0009] 步骤3，展示面板子区域划分:结合子区域优化及错误位置校正方法，确定每幅图片的朝向角9、摆放位置、缩放尺度，并保证图片的相关性信息不被丢失；
[0010] 步骤4,无缝混合渲染:基于概率混合模型对展示面板子区域之间的边界区域进行无缝混合渲染，从而完成计算机图片集中图片的剪切拼接。
[0011] 步骤1中，利用扩展了的CNN模型得到图片的相关性信息，并由t-SNE方法将相关性信息映射到二维平面上。
[0012] 所述步骤1具体包括以下步骤：
[0013] 步骤1-1，为得到图片的相关性信息，本方法选取目前最为流行的深度学习方法，卷积神经网络（Convolutional Neural Networks，简称CNN)。首先利用VGG-16CNN模型（该模型参见Simony等发表于arXiv preprint arXiv的论文《Very deep convolutional networks for large-scale image recognition》）对每张图片提取一个4096维的特征向量；
[0014]步骤1-2,对于一般主题(容易分类的普通类别，如动物、花等，具有明显区别特征）的图片集，将提取的4096维特征向量直接用主成分分析方法（Principal Component Analysis，简称PCA)进行降维处理，得到一个256维的特征向量，再通过k-means算法(k-均值算法，k取值为50)给每一张图片分配一个类标签；
[0015]对于具有特定主题(难以分类的特殊类别，如旅游、聚会等特征不明显的主题，例如在一个旅游照片集中，让在相同旅游景点拍摄的照片作为一类)的图片集，额外根据主题内容训练一个两层的全连接神经网络。将4096维的特征作为该两层网络的输入，隐含层设置为256维的双曲正切非线性激活函数，输出层获得一个关于主题内容的类标签，即将由 VGG-16CNN(该模型参见Simony等发表于arXiv preprint arXiv的论文《Very deep convolutional networks for large-scale image recognition》）模型得到的4096维特征向量作为输入，然后输出其在特定域内的类别。
[0016]步骤1-3,采用t-SNE方法将每张图片映射到一个2维平面上，使同类图片的位置相近，得到一个t-SNE分布结果；
[0017]步骤2中，提取每张图片的R0I区域，并将这些区域送入到步骤1中获得的t-SNE分布结果中，得到一个初始展示画板分布。
[0018]步骤2具体包括以下步骤：
[0019]步骤2-1，结合显著性检测和人脸检测，提取每张图片的R0I关注区域，该区域的形状可以为任意多边形。显著性检测采用Jiang等提出的方法（该方法参考Jiang等发表于 Proceedings of the IEEE conference on computer vision and pattern recognition 的〈〈A discriminative regional feature integration approach〉〉的论文），为了保证人们通常更加敏感的人脸能得到充分显示，使用OpenCV中的人脸检测算法（该算法可参见 PaulViola 和 Michaeljones 发表于 CVPR 的《RapidOb jectDetectionusingaBoostedCascadeof SimpleFeature》）检测人脸区域，将该区域内显著性置为最大；
[0020]步骤2-2,将步骤1得到的t-SNE分布结果进行缩放，使其与用来图片拼接的展示面板大小相等，并作为初始展示面板，将每张图片的ROI关注区域缩小为原始大小的30%后送入到其在初始展示面板中的对应位置，得到一个初始展示面板分布结果。
[0021]步骤3中，展示面板子区域划分过程中，通过计算设定每幅图片的朝向角、摆放位置和缩放尺度使得每幅图片在展示画板上最大化地呈现其主要内容，并保证图片的相关性信息不被丢失。步骤3具体包括以下步骤：
[0022]步骤3-1，根据步骤2-2得到的初始展示面板分布结果，将展示面板划分为一个个包含图片R0I关注区域的子区域，采集R0I关注区域多边形的边，并利用德洛内三角方法 (Delaunay Triangulation)使这些边及对应顶点形成三角形，由这些三角形形成每个R0I 关注区域的弦轴转换区域(ChordalAxisTransformation，简称CAT);
[0023] 步骤32,子区域优化确定坐标、缩放尺度及方向角：寻找CAT(弦轴转换区域， ChordalAxisTransformation，简称CAT)区域中的最大R0I关注区域，最大化展示面板的覆盖率，该过程采用如下公式计算：
[0024] Maximize f(t,9,s)=s,
[0025] 满足于：
t、0、s分别表示坐标变换、方向角和缩放尺度，Pk(t, 0 , s)为R0I关注区域上的采样点，Ek为CAT区域与采样点pk(t, 0 , s)的维诺区域的相交线段，M为线段总和，ef为CAT区域中指定边幻的起始点，幻为0k中的一条有向线段，〇为每次迭代优化过程中旋转角的总和，对象函数f(t，0，s)等于缩放尺度s，表示该过程的目标是最大化展示面板的覆盖率，为了不使R0I关注区域相对于原始方向旋转得过多，设置旋转角总和小于&
[0028]步骤33,寻找错误放置的R0I关注区域:在子区域优化过程中，无法避免部分不同类的R〇r混在了一起，此时，计算相同类R0I关注区域的重心点，对每个R0I关注区域，计算其重心点到其对应类的重心点的距离，将相同类R0I关注区域的距离和的平均值设置为该类的距离阈值，若一个R0I关注区域的距离大于该距离阈值，则判定该R0I关注区域为错误放置；
[0029]步骤34,错误位置校正，假设有N个错误放置R0I关注区域，则在展示面板上对应有 N个错误位置，对于每一对错误放置R0I关注区域和错误位置，计算每一个错误位置到对应错误放置R0I关注区域相应类的重心点的距离，通过匈牙利算法，分配一个错误放置R0I关注区域到一个错误位置，使距离总和最小，该过程的公式表示如下：
[0030] Minimize f{\xab\N,N) - ZLi (-Vah ^
[0031] 满足于：
[0032] XabG {0,1}, N V，
[0033] y xab - 1} for VI < a < A7, fe-i N
[0034] E xab - 1. forvl < h < Nt a-1
[0035]其中，N为错误放置个数，cab为错误位置j到错误放置R0I(感兴趣区域，Region of Interest，简称R0I)关注区域a对应类重心点的距离，[xab]N*N为一个待优化二值矩阵，xab只有在错误放置R〇I(感兴趣区域，Region of Interest，简称R0I)关注区域a放置到错误位置 b上时才为1;
[0036] 步骤3-5,缩小所有R0I(感兴趣区域，Region of Interest，简称R0I)关注区域直到没有重叠，迭代子区域优化和错误位置校正过程，直到该过程收敛，得到一个所有R0I (感兴趣区域，Region of Interest，简称R0I)关注区域都无法变大且各R0I(感兴趣区域， Region of Interest，简称R0I)关注区域位置相关的图片拼接结果。
[0037]步骤4具体包括以下步骤：
[0038] 对展示面板上的每一个像素点P，均关联一组概率{Probi(p)，Prob2(p)，???，Probn (P)}，其中n为图片总数，Probz(p)表示第z幅图片在该像素点处对应像素能够显示的概率， 1 < i < n，Q P z和Q r z分别表示第z幅图片对应的C A T (弦轴转换区域， ChordalAxisTransformation，简称CAT)区域和R0I(感兴趣区域，Region of Interest，简称R0I)关注区域。混合可以使得Qrz中不在QPZ中的部分也能得到一定程度上的展现，采用如下公式计算Prob z(p):
[0040] 其中，e为自然对数的底，d(p，Qpz)表示点p到CAT区域QPZ的最近欧式距离，d(p，Q rz) 表示像素点P到R0I关注区域Qrz的最近欧式距离，S为贡献率概率概率分布的标准差，计算得 5~0.39894223。
[0041] 得到展示面板每个像素点的关联概率后，将每个像素点的关联概率Probjp)平均的分发到其4邻域上，以使得邻近的像素点具有接近的概率值再将每个像素点的一组关联概率归一化，将得到的概率图即作为无缝混合渲染的Alpha通道值用于最终拼贴图片的合成。
[0042]有益效果:本发明包括以下优点：
[0043] (1)能够表达图片之间的相关性。可以根据图片内容，将图片的相关性信息表现在二维图片拼接中，使拼接结果具有更好的可读性，让用户可以更容易地理解图片拼接结果的内容。
[0044] (2)更高的可扩展性同时兼备低耦合性。这一特性得益于以下三个方面:首先，本发明采用的子区域划分算法高效鲁棒。其次，每张图片的状态参数一一位置、朝向角、缩放尺度和层次的优化互相关性弱，每个参数均可在一个独立的阶段优化求解。最后，每张图片的状态参数优化均与邻近图片的状态解耦合，从而可并行地进行。
[0045] (3)更好地展示图片内容。对于一些感兴趣区域较为不规则的图片，其通过直接对感兴趣区域进行拼接的方法，能够更好的展示图片的内容。
[0046] (4)更高的展示面板空间利用率。通过直接对感兴趣区域进行拼接的方法，有效地利用了展示画板的空间，保证有限的展示面板空间不浪费。
【附图说明】
[0047] 下面结合附图和【具体实施方式】对本发明做更进一步的具体说明，本发明的上述或其他方面的优点将会变得更加清楚。
[0048]图1为本发明方法的流程图。
[0049] 图2为图片相关性分析的工作流程示意图。
[0050] 图3为本发明中展示面板子区域划分的工作流程示意图。
[0051 ]图4为本发明方法实施的实例流程图。
[0052] 图5关于问题1用户调查的反馈结果图。
[0053] 图6关于问题2用户调查的反馈结果图。
[0054] 图7关于问题3用户调查的反馈结果图。
[0055] 图8关于问题4用户调查的反馈结果图。
[0056] 图9为动物图片集的各方法最终生成结果。
[0057]图10为建筑物图片集的各方法最终生成结果。
[0058]图11为巴黎图片集的各方法最终生成结果。
[0059] 图12为交通工具图片集的各方法最终生成结果。
[0060] 图13为三藩市图片集的各方法最终生成结果。
[0061] 图14为模特图片集的各方法最终生成结果。
[0062] 图15为北京图片集的各方法最终生成结果。
[0063] 图16为鸟图片集的各方法最终生成结果。
[0064] 图17为罗马图片集的各方法最终生成结果。
[0065] 图18为鱼图片集的各方法最终生成结果。
【具体实施方式】：
[0066] 本方法的流程如图1所示，首先进行图片相关性分析，并根据相关性分析结果，通过t分布随机领域嵌入方法（t-Distributed Stochastic Neighbor Embedding，简称t_ SNE，该方法参见Van der Maaten等发表于Journal of Machine Learning Research的论文《Visualizing data using t-SNE》）得到展示面板的初始分布，图2展示了得到t-SNE分布结果的工作流程;然后结合显著性检测和人脸检测提取图片的感兴趣区域，缩放t-SNE分布结果，使其与展示面板大小相等，并作为初始展示面板，再将每张图片的感兴趣区域缩小为原始大小的30%后送入到其在初始展示面板中的对应位置，采集感兴趣区域多边形的边，并利用德洛内三角方法(Delaunay Triangulation)使这些边及对应顶点形成三角形，由这些三角形形成每个感兴趣区域的弦轴转换区域(ChordalAxisTransformation，简称 CAT)，得到初始展示面板子区域划分结果;最后，结合子区域优化及错误位置校正方法，确定每幅图片的朝向角9、摆放位置、缩放尺度，并保证图片的相关性信息不被丢失，图3展示了一次优化过程;最后是无缝混合技术处理图片间的重叠算法，获得图片集拼贴展示结果。图4展示了本发明方法的具体流程及每步操作完成后的子结果。
[0067] 具体地说，如图1所示，本发明公开了一种保留图片相关性信息的图片拼接方法：
[0068] 步骤1，相关性分析:采集待拼接的图片得到图片集，采用扩展了的深度神经网络 (Convolutional Neural Networks，简称CNN)模型提取每张图片的语义描述，并使每张图片获得一个类标签，再由t-SNE方法将图片的相关性信息嵌入到初始展示面板分布中，得到 t-SNE分布结果；
[0069]步骤2,初始化展示面板子区域:结合显著性检测和人脸检测，提取每张图片的R0I 关注区域(Region of Interest，简称R0I关注区域），缩放t-SNE分布结果，使其与展示面板大小相等，并作为初始展示面板，将每张图片的R0I关注区域送入到其在初始展示面板中的对应位置；
[0070] 步骤3，展示面板子区域划分:结合子区域优化及错误位置校正方法，确定每幅图片的朝向角9、摆放位置、缩放尺度，并保证图片的相关性信息不被丢失；
[0071] 步骤4,无缝混合渲染:基于概率混合模型对展示面板子区域之间的边界区域进行无缝混合渲染，从而完成图片集中图片的剪切拼接。
[0072]步骤1中，如图2所示，利用扩展了的CNN模型得到图片的相关性信息，并由t-SNE方法将相关性信息映射到二维平面上。
[0073]步骤1具体包括以下步骤：
[0074] 步骤1-1，采用VGG-16CNN模型对每张图片提取一个4096维的特征向量，如图2中最左边的CNN特征提取部分；
[0075]步骤1-2,对于一般主题(容易分类的普通类别，如动物、花等，具有明显区别特征）的图片集，将提取的4096维特征向量用主成分分析方法(Principal Component Analysis，简称PCA)进行降维处理，得到一个256维的特征向量，再通过k-means (k-均值算法，k取值为 50)算法给每一张图片分配一个类标签，其过程如图2中间的k-means聚类部分；
[0076]对于具有特定主题(难以分类的特殊类别，如旅游、聚会等特征不明显的主题，例如在一个旅游照片集中，让在相同旅游景点拍摄的照片作为一类)的图片集，根据主题内容训练一个两层的全连接神经网络，再由该全连接神经网络获得一个关于主题内容的类标签，其过程如图2中间的两层网络分类部分；
[0077]步骤1-3,采用t-SNE方法将每张图片映射到一个2维平面上，使同类图片的位置相近，得到t-SNE分布结果。如图2最右边所示，共7个类，每个类用不同形状的符号表示。可以看到，相同类的子元素（即图片）聚集地分布在一个二维平面上，但仍有部分类的子元素分布在远离其类的位置，而这些子元素的产生是由于错误的分类结果所导致的。
[0078]步骤2中，提取每张图片的R0I区域，并将这些区域送入到步骤1中获得的t-SNE结果中，得到一个初始展示面板分布结果。
[0079]步骤2具体包括以下步骤：
[0080]步骤2-1，结合显著性检测和人脸检测，提取每张图片的R0I(感兴趣区域，Region of Interest，简称R0I)关注区域，该区域的形状可以为任意多边形。显著性检测采用Jiang 等提出的方法，为了保证人们通常更加敏感的人脸能得到充分显示，使用OpenCV中的人脸检测算法检测人脸区域，将该区域内显著性置为最大；
[0081]步骤2-2,将步骤1得到的t-SNE结果缩放，使其与用来图片拼接的展示面板大小相等，并作为初始展示面板，将每张图片的ROI关注区域缩小为原始大小的30%，避免感兴趣区域之间潜在的重叠，然后将每张图片的R0I关注区域送入到其在初始展示面板中的对应位置，得到一个初始展示面板分布结果。
[0082] 步骤3中，展示面板子区域划分过程中，通过计算设定每幅图片的朝向角、摆放位置和缩放尺度使得每幅图片在展示画板上最大化地呈现其主要内容，并保证图片的相关性信息不被丢失。如图4展示面板子区域划分部分所示，具体包括以下步骤：
[0083] 步骤3-1，根据步骤2-2得到的初始展示面板分布结果，将展示面板划分为一个个包含图片R0I关注区域的子区域。采集R0I关注区域多边形的边，并利用德洛内三角方法使这些边及对应顶点形成三角形，由这些三角形形成每个感兴趣区域的CAT(弦轴转换区域， ChordalAxisTransformation，简称CAT)区域。如图3最左边的那张图所示，共包含4类，每个类包含5个子元素，由1到4分别标注，1为狗，2为鸟，3为贝壳，4为花，被标注的不规则多边形即为从原图中提取的R0I关注区域，而包围不规则多边形的外围区域，即为CAT区域；
[0084]步骤3-2,子区域优化确定坐标、缩放尺度及方向角：寻找CAT区域中的最大R0I关注区域，最大化展示面板的覆盖率，该过程采用如下公式计算：
[0085] Maximize f(t,9,s)=s,
[0086] 满足于：
t、0、s分别表示坐标变换、方向角和缩放尺度，Pk(t, 0 , s)为R0I关注区域上的采样点，Ek为CAT区域与采样点pk(t, 0 , s)的维诺区域的相交线段，M为线段总和，e/为CAT区域中指定边幻的起始点，幻为Ek中的一条有向线段，〇为每次迭代优化过程中旋转角的总和，对象函数f(t，0，s)等于缩放尺度s，表示该过程的目标是最大化展示面板的覆盖率，为了不使R0I区域相对于原始方向旋转得过多，设置旋转角总和小于|图3中间那张图即为子区域优化结果。从图中可以看出，各子区域的R0I已经最大，但是，在优化过程中，部分不同类产生了混合，破坏了图片相关性信息。图3中间的那张图为子区域优化后的结果，图中虽然各R0I已经最大，画板的覆盖率最高，但是相同类的部分R0I没有聚集分布(如标注2的鸟，左上角有两个，右下角有3个）；
[0089]步骤3-3,寻找错误放置的R0I关注区域:在子区域优化过程中，无法避免部分不同类的R〇r混在了一起。此时，计算相同类R0I关注区域的重心点，对每个R0I关注区域，计算其重心点到其对应类的重心点的距离，将相同类R0I关注区域距离的平均值设置为距离阈值，若一个R0I关注区域的距离大于该距离阈值，则判定该R0I关注区域为错误放置；
[0090] 步骤3-4，错误位置校正:假设有N个错误放置R0I关注区域，则在展示面板上对应有N个错误位置，对于每一对错误放置R0I关注区域和错误位置，计算每一个错误位置到对应错误放置R0I关注区域相应类的重心点的距离，通过匈牙利算法，分配一个错误放置R0I 关注区域到一个错误位置，使距离总和最小，该过程的公式表示如下：
[0091] Minimize f{[xab\^N) = E^=1 E^=1 c^Xat，
[0092] 满足于：
[0093] XabG {0,1}, N
[0094] ^ xab. = % for ￥1 < a < Nt b=l
[0095] ^ xah ^ 1} for VI <h< Nt a-l
[0096] 其中，N为错误放置个数，cab为错误位置j到错误放置ROI关注区域a对应类重心点的距离，[Xab] N*N为一个待优化二值矩阵，XabR有在错误放置R0I关注区域a放置在错误位置 b上时才为1。图3最右边那张图显示了错误位置校正方法执行后的结果，其中同类的R0I关注区域(标注为相同数字)重新聚合在了一起，图片的相关性信息得到了保留；
[0097]步骤3-5,缩小所有R0I关注区域直到没有重叠，迭代子区域优化和错误位置校正，直到该过程收敛，得到一个所有R0I关注区域都无法变大且各R0I关注区域位置相关的图片拼接结果。
[0098]步骤4具体包括以下步骤：
[0099] 对展示面板上的每一个像素点p，均关联一组概率{Probi(p)，Prob2(p)，???，Probn (P)}，其中n为图片总数，Probz(p)表示第i幅图片在该像素点处对应像素能够显示的概率。 QPZ和Qrz分别表示第z幅图片对应的CAT区域和其R0I关注区域。混合可以使得Q rz中不在QPZ中的部分也能得到一定程度上的展现，采用如下公式计算Probz(p)计算公式如下：
[0101] 其中，e为自然对数的底，d(p，Qpz)表示像素点p到CAT区域QPZ的最近欧式距离，d (P，Qrz)表示像素点P到R0I关注区域Qrz的最近欧式距离，S为贡献率概率概率分布的标准差，计算得S~〇. 39894223;
[0102] 得到展示面板每个像素点的关联概率后，将每个像素点的关联概率Probdp)平均的分发到其4邻域上，再将每个像素点的一组概率归一化，将得到的概率图即作为无缝混合渲染的Alpha通道值用于最终拼贴图片的合成。图4显示了本发明的全过程，其输出图片拼接结果部分即为无缝混合渲染的最终效果图。
[0103] 实施例
[0104] 本实施例用于测试的硬件环境是：Intel-Core 173.46GHz处理器，24G内存。软件环境是]\1丨0'08〇1^￥18皿131：11(1；[02010和]^0*03〇￡1； (1組11(1〇￥87专业版。测试图像来自于组内旅游照片、网络上公开的一些动物、建筑物、交通工具等照片。实验时根据大分类分成10组，分别是动物、建筑物、巴黎、交通工具、三藩市、模特、北京、鸟、罗马、鱼。
[0105] 本方法的实验结果与Vlicrosofll? Photo Gallery套件中的"自动拼贴"功能 (AutoCollage)获得的结果及Yu等发表于Visualization and Computer Graphics的论文 ((Content-aware photo collage using circle packing〉〉所提出的Circle Packing结果进行了用户调查。60位与本发明毫无关系的计算机系同学参与了双盲的用户调查，在没有其他外界干预的前提下靠自己的判断来选择更符合自己审美的结果。从4个方面进行用户调查，分别为（1)哪一个结果更紧凑？(2)哪一个更好地展示了图片的前景？（3)哪一个更容易理解主题，并能够找到图片之间的关系？(4)从整体而言，你更喜欢哪个？图5至图8分别显示了问题1到问题4的用户调查的反馈结果，调查结果已经进行了归一化处理，用百分比来展示用户的偏好，右侧竖线柱体表示选择本实施例生成结果的用户占总人数的百分比，中间斜线柱体表示选择Circle Packing生成结果的用户占总人数的百分比，左侧点柱体表示选择AutoCollage生成结果的用户占总人数的百分比。具体生成结果参见图9至图18,图中最左边为AutoCollage生成结果，中间为Circle Packing生成结果，最右边为本实施例结果。图9至图18的样本大类分别对应为动物、建筑物、巴黎、交通工具、三藩市、模特、北京、鸟、罗马、鱼。问题1对应的结果比依次为：0%，25%，75%:27%，12%，62%:30%，25%， 45% ： 13% ,20% ,67% ：40% ,7% ,53% ： 17% ,5% ,78% ： 23% ,12% ,65% ： 15% ,20% , 65% :40%，12%，68% :30%，17%，53% ;问题2对应的结果比依次为：5%，17%，78% : 25% ,5% ,70% ：43% ,7% ,50% ： 20% ,0% ,80% ： 26% ,2% ,72% ： 15% ,5% ,80% ： 26% , 7%，67% :27%，13%，60% :35%，13%，52% :26%，7%，67% ;问题3对应的结果比依次为： 5% ,18% ,77% ： 33% ,7% ,60% ：47% ,3% ,50% ： 13% ,5% ,82% ： 28% ,0% ,72% ： 12% , 5%，83% :23%，7%，70% :23%，15%，62% :38%，10%，52% :26%，12%，72% ;问题4对应的结果比依次为：2%，12%，86%:40%，2%，58%:42%，8%，50% :17%，0%，83%:27%， 0%,73%：8%,5% ,87% ： 25% ,3% ,72% ： 22% ,17% ,61% ： 38% ,10% ,52% ： 25% ,12% , 63% ；
[0106] 图5至图8为用户调查结果显示，对于4个问题，本实施例生成的结果在所有10组结果中大部分都具有绝对的优势。三种方法对于10类图片的最终生成图片比对如图9至图18 所示。用户调查的结果也表明了大部分用户倾向于选择本方法生成的图片集拼接结果。在用户的调查问卷上，还设置有"选择理由"这一条选答项，从回答该问题的用户意见来看，大部分选择本方法的理由都是集中在以下两个：
[0107] 1，本方法生成的图片具有更好的可读性，更容易让用户理解图片拼接结果所要描述的内容，相对于AutoCollage、Circle Packing生成结果死板且毫无规则的排列更具有语义信息，令人赏心悦目；
[0108] 2,本方法直接用图片的感兴趣区域进行拼接，生成的图片中人脸或者物体遮挡以及图片重要内容的最大化展示的情况均好于AutoCollage、Circle Packing的生成结果。
【主权项】
1. 一种保留图片相关性信息的图片拼接方法，其特征在于，包括W下步骤：步骤1，相关性分析:采集待拼接的图片得到图片集，采用扩展了的C順模型提取每张图片的语义描述，并使每张图片获得一个类标签，再由t分布随机领域嵌入方法将图片的相关性信息嵌入到初始展示面板分布中，得到t-s肥分布结果；步骤2,初始化展示面板子区域:结合显著性检测和人脸检测，提取每张图片的ROI关注区域，缩放t-SNE分布结果，使其与展示面板大小相等，并作为初始展示面板，将每张图片的 ROI关注区域送入到其在初始展示面板中的对应位置；步骤3，展示面板子区域划分:结合子区域优化及错误位置校正方法，确定每幅图片的朝向角9、摆放位置、缩放尺度，并保证图片的相关性信息不被丢失；步骤4，无缝混合擅染:基于概率混合模型对展示面板子区域之间的边界区域进行无缝混合擅染，从而完成图片集中图片的剪切拼接。2. 根据权利要求1所述的一种保留图片相关性信息的图片拼接方法，其特征在于，步骤 1包括W下步骤：步骤1-1，采用VGG-16CNN模型对每张图片提取一个4096维的特征向量；步骤1-2,对于一般主题的图片集，将提取的4096维特征向量直接用PCA方法进行降维处理，得到一个256维的特征向量，再通过k-means算法给每一张图片分配一个类标签；对于具有特定主题的图片集，根据主题内容额外训练一个两层的全连接神经网络，将 4096维的特征作为该两层网络的输入，隐含层设置为256维的双曲正切非线性激活函数，输出层获得一个关于主题内容的类标签；步骤1-3,采用t-S肥方法将每张图片映射到一个2维平面上，使同类图片的位置相近，得到t-S肥分布结果。3. 根据权利要求2所述的一种保留图片相关性信息的图片拼接方法，其特征在于，步骤 2包括W下步骤：步骤2-1，结合显著性检测和人脸检测，提取每张图片的ROI关注区域；步骤2-2,将步骤1得到的t-s肥分布结果进行缩放，使其与用来图片拼接的展示面板大小相等，并作为初始展示面板，将每张图片的ROI关注区域缩小为原始大小的30%后送入到其在初始展示面板中的对应位置，得到一个初始展示面板分布结果。4. 根据权利要求3所述的一种保留图片相关性信息的图片拼接方法，其特征在于，步骤 3包括W下步骤：步骤3-1，根据步骤2-2得到的初始展示面板分布结果，将展示面板划分为一个个包含图片ROI关注区域的子区域，采集ROI关注区域多边形的边，并利用德洛内S角方法使运些边及对应顶点形成S角形，由运些S角形形成每个ROI关注区域的CAT区域；步骤3-2,子区域优化确定坐标、缩放尺度及方向角：寻找CAT区域中的最大ROI关注区域，最大化展示面板的覆盖率，该过程采用如下公式计算： Maximize f(t,白，s) = s，满足于：其中t、0、s分别表示坐标变换、方向角和缩放尺度，l《k《M，jE化，Ek为CAT区域与采样点Pk(t，0，s)的维诺区域的相交线段，M为线段总和Pk(t，0，s)为ROI 关注区域上的采样点，e/为CAT区域中指定边e说起始点，e功Ek中的一条有向线段，。为每次迭代优化过程中旋转角的总和，对象函数f(t，0，s)等于缩放尺度S，表示该过程的目标是最大化展示面板的覆盖率，设置旋转角总和小于步骤3-3,寻找错误放置的ROI关注区域:计算相同类ROI关注区域的重屯、点，对每个ROI 关注区域，计算其重屯、点到其对应类的重屯、点的距离，将相同类ROI关注区域的距离和的平均值设置为该类的距离阔值，若一个ROI关注区域的距离大于该距离阔值，则判定该ROI关注区域为错误放置；步骤3-4，错误位置校正:假设有N个错误放置ROI关注区域，则在展示面板上对应有N个错误位置，对于每一对错误放置ROI关注区域和错误位置，计算每一个错误位置到对应错误放置ROI关注区域相应类的重屯、点的距离，通过匈牙利算法，分配一个错误放置ROI关注区域至Ij一个错误位置使口FT亩丰ng ,k :古::斗革口化八二主二击口下满足于： XabG {0,1}, 其中，N为错误放置个数，Cab为错误位置b到错误放置ROI关注区域a对应类重屯、点的距离，[Xab]N*N为一个待优化二值矩阵，Xab只有在错误放置ROI关注区域a放置到错误位置b上时才为1; 步骤3-5，缩小所有ROI关注区域直到没有重叠，迭代子区域优化及错误位置校正过程，直到该过程收敛，得到一个所有ROI关注区域都无法变大且各ROI关注区域位置相关的图片拼接结果。5.根据权利要求4所述的一种保留图片相关性信息的图片拼接方法，其特征在于，步骤 4包括如下步骤：对展示面板上的每一个像素点P，均关联一组概率{Probi(p) ,Probs(P)，...，Probn (P)}，其中n为图片总数，Probz(P)表示第Z幅图片在该像素点处对应像素能够显示的概率，设Qpz和Qrz分别表示第Z幅图片对应的CAT区域和ROI关注区域;采用如下公式计算 Probz(P):其中，e为自然对数的底，d(p，Qpz)表示像素点P到CAT区域Qpz的最近欧式距离，d(p，Qrz) 表示像素点P到ROI关注区域Qrz的最近欧式距离，S为贡献率概率概率分布的标准差；得到展示面板每个像素点的关联概率后，将每个像素点的关联概率Probz(P)平均的分发到其4邻域上，再将每个像素点的一组概率归一化，将得到的概率图作为无缝混合擅染的 Alpha通道值用于最终拼贴图片的合成。
【文档编号】G06T3/40GK105913377SQ201610172203
【公开日】2016年8月31日
【申请日】2016年3月24日
【发明人】张鸿杰, 刘玲洁, 郭延文, 陈中贵, 王文平
【申请人】南京大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张鸿杰;刘玲洁;郭延文;陈中贵;王文平;
技术所有人：南京大学;
我是此专利的发明人

上一篇：虚拟现实终端及其图片的显示方法和装置的制造方法
上一篇：快速美颜处理的方法和装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。