图像和视频的内容感知大小调整的制作方法

文档序号:6479024阅读:261来源:国知局
专利名称:图像和视频的内容感知大小调整的制作方法
技术领域
本发明总体上涉及图像处理,并且更具体地说,涉及对图像和视频进行大小调整。
背景技术
接缝焊接(seam carving)是用于对内容感知(content aware)图像进行大小调 整(resizing)的有效技术。可能需要针对显示设备利用不同高宽比或不同分辨率对图像 进行大小调整。以类似的方式,应该可以通过改变视频的高宽比、分辨率和时间跨度三者的 任意组合来针对电视机、计算机终端、蜂窝电话和其他手持显示设备对视频进行大小调整。对视频进行接缝焊接的朴素扩展(naive extention)是将各视频帧视为图像, 并独立于其他帧来对各帧进行大小调整。然而,由于缺少时间相关性,这导致抖动伪影 (artifact)0常规的接缝焊接还具有其他限制。在出现凸显(salient)空间结构的图像中,接 缝焊接可能生成令人生厌的伪影。这些伪影会在视频中被放大,其中,空间伪影可能被时间 伪影放大和增加。实际上,由于人类的感知方式,在视频中时间伪影甚至可能更加令人生 厌,因为人的眼睛对运动高度敏感。对于图像和视频的大小调整,已知有多种方法和技术。已经将基于人的时空感知 的注意模型用来检测图像和视频中的感兴趣区域(ROI)。然后,ROI用来限定要在设备上使 用的显示路径,其中,显示大小小于视频(或图像)大小。视频的最不重要的内容被裁剪, 以较大比例保留重要特征,基本上产生类似放大的效果。虚拟摄像机运动或者伪放大/缩小效果已经被用于以视觉愉悦的方式呈现内容。 类似地,裁剪和缩放已经与虚拟摄像机运动一起用来模仿使宽屏特征的胶片和DVD适应标 准电视格式的处理。一种系统基于图像中的对象和诸如面部这样的检测到的对象来最小化 信息损失。然而,裁剪丢弃了相当大的信息量,并且例如在重要的特征位于视频帧的边缘附 近的情况下会有问题可能是有问题的,而这在宽镜头或肩上镜头中是普遍的,因为这些镜 头通常用于拍摄两个演员之间的对话。一种替代方式是将图像分割成背景层和前景层,然后对各层独立地进行缩放。然 后,这些层被重新组合来产生大小调整后的图像。该技术关键是依赖于分割的质量,而这就 其本身而言是困难且复杂的任务。另一种方法是基于对象。输入视频被分割成对象和活动。然后,短视频提要可以 由分割成的对象构成。该方法仅处理重新定时的视频,而不改变其空间范围。
另一种方法使用非均勻的全局弯折(warping),并关注于对包括空间的边、面部检 测和运动检测的视频的有效凸显度图。一种替代方法将2D流形映射到新视频序列中的帧。被称为演进时间前部 (Evolving Time Fronts)的该方法使得能够操纵动态视频场景中的时间。图划分和基于图的代价最小化技术被广泛用于图像和视频处理应用,例如,图像 恢复、图像分割、对象识别以及形状重建。基于相似度测度和约束将表示图像的图划分成两 个不相交的子集。一种方法使用图切割来将2D或3D纹理修补成图像。

发明内容
本发明的实施方式提供了用于内容感知图像和视频的大小调整的方法和系统。所 述方法针对2D图像去除或者插入ID像素接缝,并针对诸如视频这样的3D空时体去除或插 入2D流形。本发明使用适合于3D体的图切割。在网格图中,表示输入图像中的像素的节点通 过有向弧来连接。在该形式中,接缝由网格图中的弧上的切割来定义,从而所产生的接缝中 的像素是单调且相连的(即直接相邻)。另外,本发明提供了能够改善经过大小调整后的图像和视频的可视质量的能量函 数。本发明使用前向能量,并将接缝应用于输入图像以产生输出图像,从而与输入图像相 比,输出图像的能量变化(ΔΕ)被最小化。该准则可以表示为ΔΕ = IE (I0)-[E (I1)-E (Ci)]其中,E是能量函数,例如逐个像素强度差,I1是输入图像,I0是输出图像,Ci是具 有相关联代价的像素的接缝。


图1是用于根据本发明的一个实施方式的内容感知大小调整方法的流程图;图2是包括接缝的示例性输入图像,该接缝用于不同网格图构建;图3A-3D是图像划分和图2的对应网格图的框图;图3Ε是根据本发明的实施方式的网格图的框图;图4A-4C是根据本发明的实施方式的图切割的示意图;图5是空时视频体和形成2D流形的接缝的框图;图6是作为被去除接缝的函数的输出图像能量变化图;图7A-7C示出了垂直接缝的三种可能的方向;图8A-8C比较了分别针对输入图像的现有技术的输出图像和根据本发明的一个 实施方式的由输入图像获得的输出图像;图9Α-9Β示出了具有现有技术的接缝的图像和具有根据本发明的一个实施方式 的接缝的图像;以及图IOA和IOB示出了图9Α-9Β的对应能量图像。
具体实施例方式本发明的实施方式提供了使用从图切割获得的像素的接缝来对图像和视频进行 大小调整的方法。如本文所定义的,“接缝”是像素从图像的顶边到相对的底边或者从左边 到相对的右边的单调且相连的路径。对于视频(即图像的时间序列)来说,接缝可以是时 间维度上的2D流形。通过去除或者插入一个接缝,图像的大小在水平、垂直或者时间维度 上被减小或者增大1个像素。可以重复地去除或插入接缝,以产生期望大小的输出图像。在视频中,我们确定帧序列中的2D接缝(流形)。可以反复应用接缝来增大或减 小输出图像的大小或者去除输入图像中的特定部分来实现对象去除。可以通过复制接缝的 像素并可选地将大小调整后的像素混合到输出图像中,来增大输入图像的大小。在一些实施方式中,图像中的能量与像素强度、颜色或在视频情况下的运动有关。 可以根据能量函数来确定图像中的能量。例如,如本文所描述的,能量函数可以考虑局部凸 显性的测度,包括强度、亮度、颜色、视运动(apparent motion)以及象似性(iconicity)的 变化。我们构建通过有向弧连接的节点的网格图。对于输入图像中的各像素存在一个节 点,并且基于像素的能量对有向弧指派代价(cost)。具有无穷大代价的有向弧被用来施加 单调性和连接性约束,如下面更详细描述的。或者,我们搜索视频帧中具有低重要性的区域。这通过独立地评估各帧上的能量 函数并随后在各像素位置取最大能量来实现。该能量用来对所有帧进行大小调整。我们称 通过该静态方法确定的接缝为“静态”接缝,因为它们在各帧之间不随时间变化。在我们较早于2007年3月6日由Avidan等递交的序列号为11/682,521的已转 让给 Mitsubishi Electric Research Laboratories 公司的美国专利申请 “Method for Retargeting Images”中,我们描述了基于内容的图像重定目标方法,该方法使用动态规划 来从输入图像中去除最小代价的接缝。然而,一些输出图像仍然具有令人生厌的伪影。我 们认识到这些伪影的出现是由于我们未考虑接缝去除对大小调整后的输出图像的能量的 影响。在我们较早的工作中,我们使由于接缝去除造成的输入图像的能量(即,后向能量) 变化最小化。现在,我们最小化输出图像中的能量(即,前向能量)变化。我们还认识到, 我们之前的方法对于对视频进行大小调整来说并不实际。本发明通过使用对多维网格图进行切割而非之前的动态规划来解决这些问题。另 外,作为对最小代价的接缝进行去除的替代,当与输入图像进行比较时,我们现在对大小调 整后的输出图像的能量变化进行最小化。我们将输入视频视为3D图像体(按时间排序的帧序列),并将接缝焊接从2D图像 上的ID接缝扩展到3D体上的2D流形。这些流形与各帧的相交部限定了帧上的接缝。使 用前向能量函数来找到流形,该前向能量函数在大小调整后的输出视频中显著地减少了空 间和时间伪影。因为我们通过3D空时体来构建2D的相连接流形103,所以Avidan等用于 图像大小调整的动态规划法是不可行的。因此,我们的方法使用图切割。然而,常规的图切割并不总是限定了在我们的新颖单调性和连接性约束下的有效 接缝。我们定义了新颖的图切割,其生成单调且相连的接缝。这意味着接缝为1个像素 宽,并且接缝中的像素是相连的,即,在水平或垂直方向上直接相邻。使用该定义,我们将接缝焊接扩展到视频,并且通过视频体来定义单调且相连的2D流形接缝。我们还描述了多分 辨率法,其降低了对视频进行大小调整的处理时间。另外,我们定义了接缝焊接准则,其更好地保护了在空间以及时间上凸显的内容。 这相当大地提高了我们进行大小调整后的图像和视频的可视质量。该新准则最小化了大小 调整后的图像的能量变化,而不是最小化在现有技术中去除或插入的接缝的代价。最小化前向能量变化对能量变化进行最小化的以上准则可以表达为ΔΕ = IE (I0)-[E (I1)-E (Ci)]其中,E是能量函数,例如逐个像素的强度差,I1是输入图像,I0是输出图像,Ci是 具有相关代价的像素的接缝。视频大小调整使用接缝焊接对视频进行大小调整的难点可以表征为过程上的难点、维度上的难 点和基本(cardinal)难点。过程上的难点来自于以下事实,我们不能将现有技术中的Avidan等的动态规划 方法直接扩展到3D视频体。维度上的难点来自于视频的附加的时间上的维度,这增加了空间伪影并且引入了 运动相关的伪影。基本难点来自于以下事实视频是帧序列,并因此视频序列的任何处理都涉及大 量数据。例如,整个视频所需的数据不能存储在随机存取存储器中。因此,这些数据在输出 帧被呈现之前存储在盘上并且按需而加载。我们解决了这些难点,并且描述了视频大小调整应用,例如,针对交互式大小操纵 和对象去除的大小缩小和扩大、多尺寸视频。方法操作图1示出了根据本发明的一个实施方式的方法的步骤。从输入图像101或者在视 频的情况下的图像(帧)序列构建(110)网格图111。对于单个图像,网格图是(X,Y)平 面中的二维图,而对于图像序列,如在视频中,网格图是三维体(X,Y,T)。网格图包括针对各图像中的每个像素的一个节点。网格图中的相邻节点由有向弧112 连接。有向弧在水平方向上向前和向后,在垂直方向上向上和向下,而在对角线方向上向后。使用能量函数E(f)对网格图111中的弧112指派(120)代价。对输入图像计算 能量函数。这些代价可以用来构建代价矩阵或图121,其基本上反映了图像中的全局能量。 在一个图像的情况下,代价图在(X,Y)平面内。在视频的情况下,代价图可以在(Χ,Τ)平面 内或者在(Y,Τ)平面内。代价被指派给连接相邻节点的有向弧。在优选实施方式中,代价 是基于输入图像中相邻像素之间的强度的梯度幅度。即,对连接相邻节点的弧定义代价。根据代价函数132使用代价图M来切割(400)弧。对应于与该切割的一侧相邻的 节点的像素形成接缝。各接缝中像素的坐标施加单调性和连接性约束。在下面更详细地描 述由弧上的代价施加的约束。然后,根据接缝400对输入图像101进行大小调整(140)以产生输出图像104,从 而输出图像的能量变化相对于输入图像被最小化,同时在输出图像中保留来自输入图像的 凸显的可视内容。该大小调整可以添加或者去除像素。然后,输出图像可以被呈现、存储、传送或者进一步处理(150)。以下方法可以应用于利用静态摄像机获取的视频。对于一般的视频而言,参见下 面描述的基于图切割的接缝方法。在N帧的视频序列中,各帧具有{It (i,j)}个像素,其中水平坐标和垂直坐标为i 和j,时间步长为t(帧),t = 1到N。在一个实施方式中,能量函数基于L1范数。对于L1 范数,两个相邻像素之间的弧的代价是它们强度(能量)的绝对差之和。L1范数也被称为 直线(rectilinear)距离、街区距离或曼哈顿距离。我们将空间L1范数梯度幅度能量Espatial与时间梯度幅度能量EtMp。Ml组合以产生 如下的空时L1范数梯度幅度能量Egl。bal^spatialC^i)=〒%{丨基厶(《 ’补+丨悬厶仏州}Stemporai(^J) = 1^ilEglobal (i,j) = α · Espatial+(1-α ) Etemporal其中 α e
。对于视频,能量测度是空间L1范数梯度幅度能量到2D的最大(max)投影,其中α 是对空间和时间能量贡献进行平衡的参数。实际上,因为运动伪影更值得注意,所以我们将 能量偏向于时间重要性,例如α =0.3。我们使用最大投影而非平均值以在能量计算中守 恒。有利之处在于,我们的静态方法是简单且快速的。当视频是通过固定摄像机获取 时,其给出了良好的结果,并且容易识别出前景和背景。然而,在更复杂场景的视频中,或者 在摄像机移动的情况下,或者当存在多个运动时,我们的接缝可能随时间而动态自适应。为此,我们将视频接缝定义为空时中的相连2D流形,其“切割”过3D视频体。表面 与各帧的相交部定义了该帧中的一个接缝。由此,从各视频帧去除该流形的一个接缝。因 为流形是相连的,所以这些接缝保持了视频的时间一致性。使用图切割的接缝焊接我们首先将我们的接缝焊接的一般构想描述为对图像的图切割问题,然后将该接 缝焊接扩展到视频。出于描述的简便,我们搜索图像中的垂直接缝。对于水平接缝,所有图 构建都是相同的,只不过进行了适当的90°旋转。如图3Α-Ε中所示,网格图中的节点通过有向弧连接。我们由输入图像101构建网 格图,其中,各节点301表示一个像素Piij,该图中的直接相邻的节点通过弧302连接,见图 3Α-3Ε。在图中通过将无穷大(①)代价的弧针对水平接缝而连接到与图像的最左和最 右列的像素相对应的所有边节点并针对垂直接缝而连接到与顶部及底部的行相对应的边 节点,来构建虚拟端节点S(源)和τ(目标)。端节点用作图和图像的边上的不可移动的 “锚”。如本文所定义的,切割从网格图的一个边延伸到网格图的正对的边。因此,网格图 上的源到目标(s/τ)切割(或者简称为“切割”)C 400被定义为如下划分其将图中的节 点(以及由这些节点表示的对应像素)划分为两个不相交的子集S311和Τ312,使得s e S且t e T,见图3A-3E和4A-4C。实际上,该切割经过了连接这些节点的弧。在切割并去除 (或者插入)与切割的一侧相邻的接缝之后,然后可以用新的弧和代价来重新连接网格图, 并且可以计算新的代价图。切割C= {S,T}的总代价被定义为被切割的单独弧(p,q)的代价之和,其中P e S 且q e T。这里要注意,代价被指派给弧,而非我们之前由Avidan等进行的工作那样指派 给像素。仅针对前向切割对代价求和。即,后向的弧的无穷大代价并不影响切割的总代价。 为了由切割确定(130)接缝,我们选择与切割的一侧(例如,与对于从顶边延伸到底边的切 割而言的切割的左侧)直接相邻的像素。图切割是已知的。在图论中,切割是将图的顶点划分成两个集合。在形式上,令 G(V, E)表示图。切割是将顶点V划分成两个集合S和T。任何u e S且ν e T(或者在有 向图的情况下,u e T且ν e S)的边(u,ν) e E被称为与切割相交,并且是切割边。然而,在我们的方法和常规的图切割之间存在多个关键的差别。常规的图切割已 经被用于纹理合成,而未用于内容感知图像大小调整。另外,常规的网格图是没有方向性的 非常简单的4联通图,见图3A。该图未针对我们的接缝焊接定义有效接缝,因为它不满足我 们的单调性和连接性约束。单调性约束接缝中的像素ρ的坐标i和j在接缝的所选则方向上必须单调增加,例如[ρ" —Pi+nJ,[Pi,j —Pi,j+n],或者[Pijj-Pi^jJo连接性约束表示接缝中的像素的节点必须相邻并且通过一条弧直接连接,S卩,在上面的单调 性约束中η = 1。单调性约束和连接性约束相结合使得接缝恰好为一个像素宽,并且将接缝连续地 从图像的一条边延伸到图像的正对的边。因此,挑战是构建如下网格图,其确保产生的接缝满足这些约束。针对图像的图切割在我们的网格图中,各节点(像素是8连通到其直接相邻的邻居。根据1^范 数梯度幅度E1能量,我们将弧的代价定义为在水平方向上或者在垂直方向上图像中的代价 对应像素之间的前向差分,如图3E中所示
权利要求
一种用于对图像进行大小调整的方法,该方法包括以下步骤根据输入图像构建网格图,所述网格图针对所述输入图像中的各个像素分别包括一个节点,其中,所述网格图中的相邻节点由弧连接,并且各弧是有向的并且与一个代价相关联;使用代价函数对所述网格图的所述弧应用切割;根据所述切割确定像素的接缝,其中,所述接缝中的像素对应于所述网格图中与所述切割的一侧直接相邻的节点,并且其中,所述接缝中的像素的坐标施加单调性约束和连接性约束;以及根据所述接缝对所述输入图像进行大小调整以产生输出图像,同时与所述输入图像相比使所述输出图像的能量变化最小化。
2.根据权利要求1所述的方法,其中,所述网格图是由图像的时间序列构建的,且所述 网格图是三维的,并且所述接缝形成所述网格图的空间维度为χ和y且时间维度为t的流形。
3.根据权利要求2所述的方法,其中,所述能量是基于像素的强度,并且所述代价由能量函数确定。
4.根据权利要求3所述的方法,其中,所述能量函数考虑强度的局部变化。
5.根据权利要求1所述的方法,该方法进一步包括以下步骤 使用所述弧的代价来施加所述单调性约束和所述连接性约束。
6.根据权利要求1所述的方法,其中,将所述最小化表示为 ΔΕ = E (I0)-[E (I1)-E (Ci)]其中,E是能量函数,I1是输入图像,I。是输出图像,Ci是具有与所述切割相关联的代 价的像素的接缝。
7.根据权利要求1所述的方法,该方法进一步包括以下步骤 呈现所述输出图像。
8.根据权利要求1所述的方法,其中,所述能量根据下式将空间L1范数梯度幅度能量Espatial与时间梯度幅度能量Et p。ral进行组合,以产生空时L1范数梯度幅度能量Egl。bal ^spatial(O) =+^temporal(U) = 1^f U^MhEgiobai (土,J*) 一 α Espatial+(1_ ct) Etemporal其中,It(i,j)对应于像素,t表示时间,而参数α e
对空间代价的贡献和时间 代价的贡献进行平衡。
9.根据权利要求1所述的方法,其中,所述网格图中的边节点借助于具有无穷大代价 的弧连接到其他节点。
10.根据权利要求1所述的方法,该方法进一步包括以下步骤 确定多个接缝;以及根据所述多个接缝来对所述输入图像进行大小调整。
11.根据权利要求1所述的方法,其中,所述切割的总代价C是被切割的弧的代价之和。
12.根据权利要求1所述的方法,其中,所述接缝中的像素ρ的坐标i和j在所述接缝 的所选择的方向上单调增加,并且根据[Pi,j —pi+1,j],[Pi,j —Pi,j+1]或[Pi,j —pi+1,j+1]而 直接相邻。
13.根据权利要求1所述的方法,其中,所述单调性约束和所述连接性约束使得所述接 缝恰好为一个像素宽,并且将所述接缝从所述输入图像的一个边连续地延伸到所述输入图 像的正对的边。
14.根据权利要求1所述的方法,该方法进一步包括以下步骤 在从粗糙到精细的多个分辨率上构建所述网格图;在具有最低分辨率的网格图上对所述切割进行近似,然后以更高的分辨率改进所述切割。
15.根据权利要求1所述的方法,其中,从所述输入图像中去除所述接缝中的像素,以 产生更小的输出图像。
16.根据权利要求1所述的方法,其中,在所述输入图像中复制所述接缝中的像素,以 产生更大的输出图像。
17.根据权利要求1所述的方法,该方法进一步包括以下步骤 最小化所述切割的代价。
全文摘要
本发明涉及对输入图像进行大小调整的方法,该方法首先构建网格图。所述网格图包括分别针对所述输入图像中的各像素的一个节点,并且所述网格图中的相邻节点由弧连接。各弧是有向的并且具有相关联的代价。使用代价函数对所述网格图的所述弧应用切割。由所述切割确定像素的接缝,使得所述接缝中的像素的坐标施加单调性约束和连接性约束。然后,根据所述接缝对所述输入图像进行大小调整以产生输出图像,同时与所述输入图像相比使所述输出图像的能量变化最小化。
文档编号G06T15/20GK101981592SQ200880118338
公开日2011年2月23日 申请日期2008年11月12日 优先权日2007年11月30日
发明者什穆埃尔·阿维丹, 迈克尔·鲁宾斯坦, 阿里埃勒·沙米尔, 马修·E·布兰德 申请人:三菱电机株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1