通过动态规划进行修边的制作方法

文档序号:6634973阅读:184来源:国知局
专利名称:通过动态规划进行修边的制作方法
技术领域
本发明涉及数字图像处理,更特别地,涉及修边。
背景技术
随着计算机技术的发展,具有更强大的处理器及容量更大的存储单元的计算机系统变得更加普遍。随着处理能力和存储容量的增长,数字图像技术的实现也变得更加实用。例如,可以用更短的时间处理分辨率更高的图像。
场景的数字图像可以直接获得(如,通过数码相机)或用传统方式通过胶片相机取得,随后再进行数字化(如,通过扫描仪)。一旦图像已经是数字格式,就可以用数字方式对其进行处理。通常,数字图像处理中的第一步包括选择场景中的特定部分。然后可以对所选部分应用数字技术(如过滤、复制和粘贴)。
目前,一些用于从场景中抽取前景的技术都在不同程度上需要用户参与。然而,抽取出的前景可能包括非自然信号和/或来自背景的渗色。因此,当前的前景抽取技术通常不能对抽取出的前景提供足够光滑的边缘而不进行大量的用户交互。
同样,希望能够更加有效地以改进的方法对场景中的部分进行光滑抽取,例如,不产生非自然信号和/或来自背景的渗色。

发明内容
在此揭示对抽取出的前景图像提供更加有效的改进的修边,如不需额外的用户交互的方法。在此所述的修边方法沿着抽取出的对象的边界生成相对连续的透明度(或α值)(如,限制渗色和/或非自然信号)。
在一种实现中,所述方法包括接收具有前景区域和背景区域的分割图像。该方法沿着这两个区域之间的边界确定轮廓。确定从轮廓延伸出的未知区域(即,需要计算其α图的区域)。另外,也可以从三元图开始确定轮廓,其中在给出的未知区域中确定轮廓。对应于未知区域中的像素的α图的一个或多个参数,定义能量函数。最小化能量函数来估计α图的中心参数和宽度参数。并且,计算对应于估计的中心和宽度参数的α图。
在某些实现中,将制造的物品作为计算机程序产品提供。计算机程序产品的一种实现提供计算机系统可读并编码计算机程序的计算机程序存储媒体。计算机程序产品的另一种实现可以通过由计算系统包含在载波中并编码计算机程序的计算机数据信号来提供。
计算机程序产品对在计算机系统上执行计算机处理的计算机程序进行编码。计算机处理接收具有前景区域和背景区域的分割的图像。该处理沿着这两个区域之间的边界确定轮廓及从轮廓延伸出的未知区域(即,需要计算其α图的区域)。另外,也可以从三元图开始确定轮廓,其中在给出的未知区域中确定轮廓。定义能量函数,它对应于新的未知区域中像素的α图的一个或多个参数。最小化能量函数来估计α图的中心参数和宽度参数。并且,计算对应于估计的中心和宽度参数的α图。
也在此描述和列举了其他实现。


参考附图进行详细说明。在附图中,标记中最左边的数字标识出该标记首次出现的图。在不同的附图中使用的相同标记表示类似或相同的项。
图1展示抽取图像的部分的示例流程图;图2A-C展示对参考图1所述的抽取出的部分106的部分应用修边之后的各种结果;图3展示沿着对象边界生成连续透明度(或α值)的示例修边方法;图4A展示分割为三元图的原始图像;图4B展示轮廓参数化的表示及关联于轮廓C的距离图;图4C展示α曲线的软阶梯函数g,它的中心为Δ,宽度为σ,对应于图4A中的图像;图5展示使用图切割应用于用户定义的二元图或三元图来抽取图像的部分的示例方法;图6展示使用迭代图切割抽取图像的部分的示例方法;图7展示确定前景和背景属性的示例方法;图8A-C展示能量E单调递减及对应的背景前景分离的示例;图9展示用户编辑的示例结果;及图10展示可用于实现本发明所述方法的通用计算机环境。
具体实施例方式
下面的说明概括地描述了改进数字图像处理的方法。更具体地,揭示了改进修边的方法,可以对场景中抽取出的前景部分应用该方法,而不需要额外的用户交互。此外,可以看到,在此揭示的方法可以应用于图像中的任何所需部分(如,对象、前景等等)。
可以看到,在此描述的修边方法限制非自然信号(如,参见图2A-B中的非自然信号)和/或支持恢复前景色,如限制来自背景的渗色。在一种实现中,可以应用修边同时估计对象边界周围的α遮罩及前景像素的颜色,来限制沿着光滑的对象边界上的模糊和/或混合像素带来的负面影响。
概要图1展示抽取图像中的部分的示例流程图100。如图1所示,图像102包括区域104内的所需对象。为了抽取区域104内的对象,用户可以通过画出矩形(或其他形状,如套索、多边形、三角形、梯形、椭圆、圆形等等)选择所需区域(104)来圈住该对象。相应地,在一种实现中,用户通过在图像102上定义两个点(如,起点和终点)来选择所需部分。同样,用户并不需要确切地追踪感兴趣的部分。
一旦选择了区域104,则可以通过在此(如,参考图5和图6)所述的方法抽取区域104内感兴趣的对象或部分(106)。在一种实现中,可以将抽取出的部分106粘贴到另一个图像或进行数字处理(如,应用滤镜、改变颜色等等)。
修边结果概要图2A-C展示对参考图1所述的抽取出的部分106的部分应用修边之后的各种结果。图2A展示根据现有技术中的Knockout 2方法修边得到的结果。图2B展示根据现有技术中的贝叶斯修边方法修边得到的结果。图2C展示根据本发明所述进行修边得到的结果(如,参考图3和图4)。如图2C所示,比起图2A-B中的方法,本发明所述的方法提供更干净的修边。
修边方法图3展示沿着对象边界生成连续透明度(或α值)的示例修边方法300。也可以应用修边同时估计对象边界周围的α遮罩和前景像素的颜色来限制沿着光滑的对象边界上的模糊和/或混合像素带来的负面影响。因此,可以估计α图而不生成非自然信号(如,参见图2A-B的非自然信号)和/或恢复前景色,免于来自背景的渗色。
参考图3、4A和4B,一旦将场景分割为二元图或三元图(302),就可以通过用折线(或其他曲线拟合方法)拟合分割场景的分割边界来确定轮廓C 408(304)。二元图包括两个区域,即,前景402(TF)和背景404(TB)。三元图包括称为未知区域406(TU)的附加区域。在三元图的情况下,轮廓C 408处在未知区域406(TU)中。将进一步参考图5-8说明二元图分割,且可以通过应用迭代硬分割(如,逐像素)来得到二元图分割。
对二元图,接下来将未知区域406(TU)作为轮廓C两边宽±w像素的带状像素集计算(可选步骤306)。在一种实现中,可以将w设置为六个像素宽。因此,此处理定义由前景402(TF)、背景404(TB)和未知区域406(TU)组成的三元图。
另外,如参考步骤302所述,方法300可以将此三元图作为输入接收。然后可以使用多种不同的方法计算轮廓C,例如使用骨架化方法。
为了对TU中的每个像素定义α图或α曲线,即αn,n∈TU,可以对形状TU内的α图使用依赖少量参数的相对简单的模型。为了找到该模型的最优参数,可以定义能量函数。此能量函数可以包括正则化(如,为了增强估计的α图的质量)。可以使用动态规划(DP)算法来最小化能量函数,即,计算模型参数,从而计算出整个TU中的α。
更具体地,由于在一种实现中曲线C是封闭的,用t=1,...,T表示具有周期T的轮廓C的参数化。对每个像素n∈TU,赋予索引t(n),如图4B所示。用软阶梯函数g表示α图(图4C)αn=g(rn;Δt(n),σt(n)),其中rn是从像素n到轮廓C的距离(如,参见图4B)。参数Δ、σ各自确定α图中从0到1转换的中心和宽度(如,参见图4C)。假设具有相同索引t的所有像素都共享参数Δt、σt的值。可以最小化下面的能量函数来估计这些参数值,如使用t上的动态规划E=Σn∈TUD~n(αn)+Σt=1TV~(Δt,σt,Δt+1,σt+1),]]>其中是如下所示的平滑正则子(Δ,σ,Δ′,σ′)=λ1(Δ-Δ′)2+λ2(σ-σ′)2平滑正则子的作用是鼓励α值随着t的增加沿着曲线C平滑地变化(如,取λ1=50而λ2=103)。为了进行动态规划计算来,可以将Δt的值离散化为30个级别,并将σt离散化为10个级别。总平滑项可能需要从t移到t+1的曲线数量的二次时间算法,然而,识别出的正则子支持使用距离变换的线性时间算法。如果轮廓C是封闭的,则不能使用单阶段动态规划确切地进行最小化,并且我们可以使用两阶段动态规划来近似,假设第一阶段的动态规划给出了t=T/2的最优曲线。
数据项定义为D‾n(αn)=-logN(zn;μt(n),(αn),Σt(n)(αn))]]>在上面的公式中,N(zn;μt(n),(αn),∑t(n)(αn))表示具有均值μ和协方差∑的z的高斯概率密度。可以按如下对修边定义上面公式中的均值和协方差μt(α)=(1-α)μt(0)+αμt(1)∑t(α)=(1-α)2∑t(0)+α2∑t(1)将前景和背景的高斯参数μt(α)、∑t(α),α=0,1作为定义为Ft=St∩TF和Bt=St∩TB的每个区域Ft和Bt的样本均值和协方差来估计,其中St是于t处在分割边界C居中的尺寸为L×L像素的正方形区域(如,L=41)。相应地,此方法在给定α值时对未知区域中的像素提供数据似然估计。
回到图3,如上所述,能量函数(E)定义具有正则项()和数据似然项 通过最小化定义出的能量函数,估计出α图的中心和宽度参数(各自为Δ、σ)(310)。使用估计的参数来计算α图(312)。
前景估计除了计算α图(312),可以估计前景像素颜色(314)限制或消除来自源图像背景的渗色来改进修边结果。这样的渗色会发生在某些现有技术的方法中(如贝叶斯修边,如参见图2B),因为所使用的概率算法的目标是从混合的像素中去除背景成分,但是不能做到很精确。去除处理的残差可能带来渗色。在一种实现中,可以通过借用前景TF的像素来避免渗色。首先,可以应用贝叶斯修边算法来获取像素n∈TU的前景色估计 然后,从邻居Ft(n)处(如上定义),借用最接近 的像素颜色来构成前景色fn。使用正则化的α计算和前景像素借用的组合修边结果在图2C中展示。
使用迭代图切割进行前景抽取图5展示示例方法500对用户定义的二元图或三元图应用图切割来抽取图像的部分。在方法500中,用户首先将图像分割为二元图或三元图(502)。在一种实现中,使用二元图(而不是三元图)来帮助用户减少用户交互。在二元图分割中,用户可以定义背景部分和未知部分(分别为TB、TU或B和U,如下面进一步的说明)。在三元图分割中,用户可以即时初始化图像的三元图。三元图包括区域TB、TU和TF,其中TB和TF分别是背景区域和前景区域,而TU是余下的区域(未知区域)。为了简便起见,在此分别将TB、TU和TF称为B、U和F区域。用户可以通过提供TB和TU来初始化二元图(如参考图1所述)。然后,TU和TF起初具有相同的值(如,图1所示矩形(104)的内部)。可以按如下对图像数据建模。
指定图切割的能量将图像视为包括像素zn,其中每个像素都在色彩空间中。色彩空间可以是红绿蓝(RGB)色彩空间。如概率分布这样的分布,例如高斯混合模型(GMM),可以用于实现颜色在色彩空间中的分布。例如,每个GMM(一个用于背景,一个用于前景)可以视为高斯混合与K个分量(如,K=5)的全协方差。同样,可以使用柱状图(如,单色实现)。而不是分布,也可以使用区分方法来定义像素属于特定颜色分布的可能性。也可以按下面进一步的说明使用其他图像特征或属性。
在优化框架中,为了容易地处理GMM,使用附加的向量k={k1,…,kn,…,KN},kn∈{1,…,K},赋予每个像素唯一的GMM分量(来自背景或前景模型的一个分量)作为不透明度值(表示图像的硬分割)αn=0或1。
因此,可以向TU中的每个n对应的像素赋予GMM分量。
kn:=argminknDn(αn,kn,θ,zn).]]>参考图5,确定前景和部分的属性分布(504)。这些属性可以包括有关由用户在502定义的当前部分、前景和/或背景的信息。可以看到,很多不同的特征,如颜色、模糊等等都可以用作属性。在一种实现中,如下面进一步的说明,从数据z中学习GMM参数。
分割的吉布斯能量可以定义为(506)
E(α,k,θ,z)=U(α,k,θ,z)+V(α,z),其中参数θ描述图像前景和背景分布(如例如在步骤504中得到),V是使用以色彩空间中的欧式距离计算的对比项的平滑项,U评估不透明度分布对数据z的拟合度,给出参数θ并负责颜色GMM模型,其中U(α‾,k,θ‾,z)=ΣnD(αn,kn,θ‾,zn),]]>其中D(αn,kn,θ,zn)=-logp(zn|an,kn,θ)-logπ(an,kn),p(□)是高斯概率分布,且π(□)是混合加权系数,因此(加上常数)D(αn,kn,θ‾,zn)=-logπ(αn,kn)+12logdetΣ(αn,kn)]]>+12[zn-μ(αn,kn)]rΣ(αn,kn)-1[zn-μ(αn,kn)].]]>因此,模型的参数是θ={π(α,k),μ(α,k),∑(α,k),α=0,1,k=1…K},(从而得到背景和前景分布的2K个高斯分量的权重π、均值μ和协方差∑)。按如下计算平滑项V(其中的常数项使用色彩空间中的欧式距离来计算)V(α‾,z)=γΣ(m,n)∈C[αn≠αm]exp-β||zm-zn||2·,]]>其中C是相邻像素配对的集合。当常数β=0时,平滑项简单地就是众所周知的Ising优先,鼓励每处的平滑,直到常数γ确定的程度。在一种实现中,β可以大于0,以便放松高对比区域中的平滑趋势。常数β可以根据下面的公式选择1β=2<(zm-zn)2>,]]>其中<□>表示图像样本的期望。在一种实现中,这样选择β确保V中的指数项适当地在高对比度和低对比度之间切换。
得到上述能量模型之后,可以将分割作为全局最小值进行估计α‾^=argminα‾E(α‾,θ‾).]]>相应地,可以使用标准的最小切割算法进行最小化。在一种实现中,使用在估计和参数学习之间更替的迭代方法(如下文中进一步的说明所述)来代替单次最小切割估计算法。方法500继续计算前景和背景部分(508),这是能量最小化的结果α。三元图区域TB中的所有像素都分配给背景,而TF中的所有像素都分配给前景。TU中的像素根据结果α分配给前景或背景。
通过迭代的能量最小化进行分割图6展示使用迭代的图切割抽取图像中的部分的示例方法600。方法600的输入是背景部分、前景部分和属性(602),如参考图5所述的那样,以及用户定义的二元图或三元图。使用前景和背景部分来更新前景和背景属性(604)(如,基于图5中的步骤508计算出的部分)。在下面进一步说明此更新处理。如下所述,也可以基于更新的前景和背景部分(而不是最初计算的背景和前景部分)更新前景和背景属性。
基于更新的前景和背景属性(604),更新前景和背景部分(606)。例如,可以使用最小切割算法(如,参考图5所述的单次版本或迭代版本)做出更新。为了确定在其中推断新前景或背景标记的未知区域U,此处理使用用户最初定义的二元图和三元图。在用户交互的情况下(参见下文),使用由用户编辑的新二元图或三元图。
方法600重复步骤604至606,直到确定达到了收敛(608)。在一种实现中,计算机程序(如参考图10所述的那些)确定是否达到收敛(如,通过设置阈值)。一旦确定已达到收敛,则输出前景和/或背景部分(610)。因此,在一种实现中,方法600通过迭代地更新前景和背景属性以及前景和背景部分,来提供图像中的所需部分。
在一种实现中,方法600的结构能够保证恰当的收敛属性(即,达到局部最小)。这是因为迭代最小化的步骤604至606中的每一个都可以如所示是对总能量E依次相对于三组变量k、θ、α的最小化。因此,E单调递减,并且这在图8的示例中展示,如下文所述。
可以看到,相对于单次图切割方法,迭代最小化可以减少完成分割任务所需的用户交互量。这在两个方面是显而易见的。首先,在初始化和最优化之后所需的用户编辑的程度减少了。其次,初始的交互可以更加简单,例如,允许用户进行不完整的标记,如下所述。
总之,由于使用来自初始的三元图的TU区域中的新标记的像素改进上述的颜色GMM参数θ,迭代的能量最小化允许自动改进不透明度α,即,前景和背景部分。
前景和背景属性的建模与更新图7展示确定前景和背景属性的示例方法700(如,参考图5的步骤504所述)。在初始化二元图或三元图之后(如参考图5所述),向每个像素n分配模型分量kn∈{1,…,K}(702)。步骤720可以通过对每个像素n的kn值(即,kn:=argminknDn(αn,kn,θ,zn))]]>的简单枚举做出。
通过数据z确定一组模型参数(如,高斯参数)(704)θ‾:=argminθ‾U(α‾,k,θ‾,z)]]>步骤704可以作为一组高斯参数估计处理实现,如下所述(这也称为期望最大化(EM))。例如,对在前景模型中给定的GMM分量k,定义像素子集F(k)={zn:kn=k且an=1}。均值μ(α,k)和协方差∑(α,k)以标准的方式作为F(k)中的像素值的样本均值和协方差估计,而权重按如下估计π(α,k)=|F(k)|/∑|F(k)|,其中|S|表示集合S的大小。
在计算出模型参数之后,可以将像素重新分配给模型分量kn∈{1,…,K}。在一种实现中,重复步骤702和704,直到达到收敛(706)。因此,此方法在一种实现中保证收敛到局部最小值。
方法700的输出(708)是模型参数(即,前景或背景的属性)。在一种实现中,单独执行此迭代算法来获取前景和背景的属性。
迭代最小化的收敛图8A展示能量E的示例单调递减及对应的背景和前景分离。还展示了RGB色彩空间中的GMM(侧视图展示R、G)在初始化时(图8B)和收敛之后的情况(图8C)。对背景(如,802)和前景(如,804)两者使用五个混合分量(K=5)。起初(图8B),两个GMM重叠较多,但是随着前景/背景标记变得更加精确,在收敛之后更好地分离开来(图8C)。
用户交互和不完整的三元图迭代最小化方法700允许增加用户交互的多样性。特别地,不完整的标记变得可行,其中用户只需要指定背景区域TB,留下TF=0,即二元图(如参考图2的步骤502所述),而不是指定完整的三元图T。不需要硬性的背景标记。
在一种实现中,迭代最小化(图7)通过如下面所述允许对某些像素进行随后可以取消的临时标记来处理此不完整性。
进一步的用户编辑起初,可以看到,不完整的用户标记通常足够允许自动完成整个分割。另外,也可以执行进一步的用户编辑,如,涂刷像素,限制它们作为稳定的前景或稳定的背景。在涂刷之后,可以应用如图5所示的单次分割。此外,可以应用可选的“改进”操作,在用户编辑之后同样对颜色模型进行更新。这意味着应用如参考图6所述的迭代图切割。这将在某些实现中以有益的方式传播编辑操作的效果。此外,可以看到,可以用现有的工具来改变分割,如使用智能剪刀(亦称为电线或磁力套索)。
在某些实现中,可以应用用户编辑来改进对象抽取。例如,在这些情况下可以应用用户编辑(1)在前景到背景转换处出现低对比度区域,(2)在伪装真实前景和背景分布在色彩空间中部分重叠的情况,或(3)在用户选择的矩形内的背景材料正好不足以表示背景区域。
示例情况在图9中展示。在最初的用户交互和分割(分别为902和904)之后,进一步的用户编辑(906)提供所需结果(908)。在一种实现中,粗略地涂刷错误标记的区域的部分是足够的(906)。在涂刷之后,可以应用估计步骤706来实现所需结果。即,适当地跨越不正确标记的区域传播(906中)涂刷的标记。
硬件实现图10展示通用计算机环境1000,这可以用于实现本发明的方法。例如,可以使用计算机环境1000来执行与参考前面的附图所述的任务关联的指令。计算机环境1000只是计算环境的一个示例且并不意味着对计算机和网络架构的使用范围或功能的限制。也不应将计算机环境1000解释为相对于所示示例计算机环境1000中的任何一个组件或多个组件的组合具有任何依存关系或需求。
计算机环境1000包括形式为计算机1002的通用计算设备。计算机1002的组件可以包括,但不仅限于,一个或多个处理器或处理单元1004(可选地包括加密处理器或协处理器)、系统存储器1006和系统总线1008,系统总线连接包括处理器1004的各种系统组件到系统存储器1006。
系统总线1008表示几种类型的总线结构中的一种或多种,包括存储器总线或存储器控制器、外围设备总线、加速图形端口,及使用多种总线架构中任何一种的处理器或本地总线。作为示例,这样的架构可以包括工业标准架构(ISA)总线、微通道架构(MCA)总线、增强的ISA(EISA)总线、视频电子标准协会(VESA本地总线,及也称为包厢总线的外围组件互连(PCI)总线。
计算机1002通常包括各种计算机可读媒体。这样的媒体可以是可由计算机1002访问的任何可用媒体,并包括易失和非易失媒体、可移动和不可移动媒体。
系统存储器1006包括计算机可读媒体,其形式为易失存储器,如随机存取存储器(RAM)1010和/或非易失存储器,如只读存储器(ROM)1012。基本输入/输出系统(BIOS)1014存储在ROM 1012中,它包含基本的例程,用于帮助在计算机1002的元件之间传输信息,如在启动期间。RAM 1010通常包含可由处理单元1004立即访问和/或操作的数据和/或程序模块。
计算机1002也可以包括其他可移动/不可移动、易失/非易失计算机存储媒体。作为示例,图10展示了读写不可移动、非易失磁媒体(未展示)的硬盘驱动器1016,读写可移动、非易失磁盘1020(如,软盘)磁盘驱动器1018,及读写可移动、非易失光盘1024,如CD-ROM、DVD-ROM或其他光学媒体的光盘驱动器1022。硬盘驱动器1016、磁盘驱动器1018和光盘驱动器1022每个都通过一个或多个数据媒体接口1026连接到系统总线1008。另外,硬盘驱动器1016、磁盘驱动器1018和光盘驱动器1022也可以通过一个或多个接口(未展示)连接到系统总线。
硬盘驱动器及与其相关的计算机可读媒体向计算机1002提供对计算机可读指令、数据结构、程序模块和其他数据的非易失存储。应理解,虽然示例中展示了硬盘1016、可移动软盘1020及可移动光盘1024,可以存储可由计算机访问的数据的其他类型的计算机可读媒体,如磁带或其他磁存储设备、闪存卡、CD-ROM、数字多用途盘(DVD)或其他光学存储、随机存取存储器(RAM)、只读存储器(ROM)、电可擦写可编程只读存储器(EEPROM)等等,也可以用于实现上面的示例计算系统和环境。
任何数量的程序模块都可以存储在硬盘1016、磁盘1020、光盘1024、ROM1012和/或RAM 1010上,作为示例,包括操作系统1026、一个或多个应用程序1028、其他程序模块1030和程序数据1032。每个这样的操作系统1026、一个或多个应用程序1028、其他程序模块1030和程序数据1032(或其组合)都可以实现支持分布式文件系统的内置组件中的全部或部分。
用户可以通过输入设备,如键盘1034和定点设备1036(如,鼠标)输入命令和信息到计算机1002中。其他输入设备1038(未具体展示)可以包括麦克风、操纵杆、游戏垫、卫星天线、串口、扫描仪和/或类似设备。这些和其他输入设备通过连接到系统总线1008的输入/输出接口1040连接到处理单元1004,但是也可以通过其他接口和总线结构连接,如并口、游戏口,或通用串行总线(USB)。
显示器1042或其他类型的显示设备也可以通过接口连接到系统总线1008,如视频适配器1044。在显示器1042之外,其他外围输出设备可以包括如扬声器(未展示)和打印机1046这样的组件,它们可以通过输入/输出接口1040连接到计算机1002。
计算机1002可以在使用到一个或多个远程计算机,如远程计算设备1048的逻辑连接的联网环境中操作。作为示例,远程计算设备1048可以是个人计算机、可移动计算机、服务器、路由器、网络计算机、对等设备或其他普通网络节点、游戏终端等等。远程计算设备1048如所示为可移动计算机,它可以包括在此相对于计算机1002描述的很多或所有元件和特征。
计算机1002和远程计算机1048之间的逻辑连接如所述包括局域网(LAN)1050和通用广域网(WAN)1052。这样的联网环境在办公室、企业范围的计算机网络、内联网和因特网中很常见。
当在LAN联网环境中实现时,计算机1002通过网络接口或适配器1054连接到局域网1050。当在WAN联网环境中实现时,计算机1002通常包括在广域网1052上建立通信的调制解调器1056或其他装置。调制解调器1056对计算机1002来说可以是内置或外置的,可以通过输入/输出接口1040或其他适当的机制连接到系统总线1008。应理解,所示的网络连接是演示性的,可以使用其他装置在计算机1002和1048之间建立通信链接。
在联网的环境中,如参考计算环境1000所示的联网环境,相对于计算机1002所述的程序模块或其部分可以存储在远程存储器存储设备中。作为示例,远程应用程序1058驻留在远程计算机1048的存储器设备中。为了说明,应用程序和其他可执行程序组件,如操作系统,在此作为离散的块展示,虽然应理解,这样的程序和组件在不同的时间驻留在计算设备1002的不同存储组件中,并且由计算机的数据处理器执行。
各种模块和方法在计算机可执行指令,如由一个或多个计算机或其他设备执行的程序模块的一般上下文中描述。通常,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。通常,程序模块的功能可以根据需要组合或分布在不同的实现中。
这些模块和方法的实现可以存储在某种形式的计算机可读媒体上或通过计算机可读媒体进行传输。计算机可读媒体可以是可由计算机访问的任何可用媒体。作为示例,而非限制,计算机可读媒体可以包括“计算机存储媒体”和“通信媒体”。
“计算机存储媒体”包括以存储如计算机可读指令、数据结构、程序模块或其他数据这样的信息的任何方法或技术实现的易失和非易失、可移动和不可移动媒体。计算机存储媒体包括,但不仅限于,RAM、ROM、EEPROM、闪存或其他存储器技术,CD-ROM、数字多用途盘(DVD)或其他光学存储,盒式磁带、磁带、磁盘存储或其他磁存储设备,或可以用于存储所需信息且可以由计算机访问的任何其他媒体。
“通信媒体”通常包括调制的数据信号,如载波或其他传输机制中的计算机可读指令、数据结构、程序模块或其他数据。通信媒体还包括任何信息发送媒体。术语“调制的数据信号”指以在信号中编码信息的方式设置或改变了它的一个或多个特性的信号。作为示例,而非限制,通信媒体包括有线媒体,如有线网络或直接连接,无线媒体,如声音、射频(RF)、红外线(IR)、无线高保真(如,IEEE802.11b无线联网)(Wi-Fi)、蜂窝、蓝牙支持及其他无线媒体。上述媒体的任意组合也包括在计算机可读媒体的范围内。
结论虽然使用特定于结构特征和/或方法论步骤的语言对本发明进行了说明,但是应理解,在附加的权利要求中定义的本发明并不一定限于所述的特定特征和步骤。因此,特定特征和步骤只是作为实现所请求的发明的示例形式揭示。
权利要求
1.一种方法,其特征在于,所述方法包括接收包括前景区域和背景区域的分割的图像;沿着所述前景和背景区域之间的边界确定轮廓;对应于从轮廓延伸出的未知区域中的像素的α图的一个或多个参数,定义能量函数;通过最小化定义出的能量函数,估计所述α图的中心参数和宽度参数;及对应于估计出的中心和宽度参数,计算α图。
2.如权利要求1所述的方法,其特征在于,将所述图像分割为二元图或三元图。
3.如权利要求1所述的方法,其特征在于,通过三元图定义所述未知区域。
4.如权利要求1所述的方法,其特征在于,所述能量函数包括从一组项中选择的一项或多项,所述一组项包括平滑正则子项和数据似然项。
5.如权利要求1所述的方法,其特征在于,通过对所述未知区域的边界应用曲线拟合方法来确定所述轮廓。
6.如权利要求1所述的方法,其特征在于,通过用折线拟合所述未知区域的边界来确定所述轮廓。
7.如权利要求1所述的方法,其特征在于,通过硬分割来提供所述分割的图像。
8.如权利要求1所述的方法,其特征在于,通过动态规划来执行所述能量最小化。
9.如权利要求1所述的方法,其特征在于,所述图像分割由用户定义。
10.如权利要求1所述的方法,其特征在于,对二元图分割的图像,所述方法还包括确定从轮廓延伸出的未知区域。
11.如权利要求1所述的方法,其特征在于,还包括估计一个或多个前景像素颜色,以限制来自背景区域的渗色。
12.如权利要求1所述的方法,其特征在于,还包括估计一个或多个前景像素颜色,以限制来自背景区域的渗色,其中所述估计前景像素颜色包括应用贝叶斯修边来获取对第一个像素的前景色的估计;及从邻近所述第一个像素且颜色上最接近所述第一个像素的估计前景色的第二个前景像素借用像素颜色。
13.一种方法,其特征在于,所述方法包括接收包括前景区域和背景区域的二元图分割的图像;沿着所述前景和背景区域之间的边界确定轮廓;确定从所述轮廓延伸出的未知区域;对所述未知区域中的像素定义能量函数,所述能量函数包括从一组项中选择的一项或多项,所述一组项包括平滑正则子项和数据似然项。;通过最小化所定义的能量函数,估计α图的中心和宽度参数;及对应于所述估计的中心和宽度参数,计算α图。
14.如权利要求13所述的方法,其特征在于,通过对所述未知区域的边界应用曲线拟合方法来确定所述轮廓。
15.如权利要求13所述的方法,其特征在于,通过硬分割来提供所述二元图。
16.如权利要求13所述的方法,其特征在于,通过动态规划来执行所述能量最小化。
17.如权利要求13所述的方法,其特征在于,还包括估计一个或多个前景像素颜色,以限制来自背景区域的渗色。
18.如权利要求13所述的方法,其特征在于,还包括估计一个或多个前景像素颜色,以限制来自背景区域的渗色,其中所述估计前景像素颜色包括应用贝叶斯修边来获取对第一个像素的前景色的估计;及从邻近所述第一个像素且颜色上最接近所述第一个像素的估计前景色的第二个前景像素借用像素颜色。
19.一个或多个计算机可读媒体,包括存储在其上的指令,所述指令在执行时控制机器执行下述步骤接收包括前景区域和背景区域的分割的图像;沿着所述前景和背景区域之间的边界确定轮廓;对应于从轮廓延伸出的未知区域中的像素的α图的一个或多个参数,定义能量函数;通过最小化定义出的能量函数,估计所述α图的中心参数和宽度参数;及对应于估计出的中心和宽度参数,计算α图。
20.如权利要求19所述的一个或多个计算机媒体,其特征在于,将所述图像分割为二元图或三元图。
21.如权利要求19所述的一个或多个计算机媒体,其特征在于,通过三元图定义所述未知区域。
22.如权利要求19所述的一个或多个计算机媒体,其特征在于,所述能量函数包括从一组项中选择的一项或多项,所述一组项包括平滑正则子项和数据似然项。
23.如权利要求19所述的一个或多个计算机媒体,其特征在于,通过对所述未知区域的边界应用曲线拟合方法来确定所述轮廓。
24.如权利要求19所述的一个或多个计算机媒体,其特征在于,通过硬分割来提供所述分割的图像。
25.如权利要求19所述的一个或多个计算机媒体,其特征在于,通过动态规划来执行所述能量最小化。
26.如权利要求19所述的一个或多个计算机媒体,其特征在于,所述图像分割由用户定义。
27.如权利要求19所述的一个或多个计算机媒体,其特征在于,所述步骤还包括估计一个或多个前景像素颜色,以限制来自背景区域的渗色。
28.如权利要求19所述的一个或多个计算机媒体,其特征在于,所述步骤还包括估计一个或多个前景像素颜色,以限制来自背景区域的渗色,其中所述估计前景像素颜色包括应用贝叶斯修边来获取对第一个像素的前景色的估计;及从邻近所述第一个像素且颜色上最接近所述第一个像素的估计前景色的第二个前景像素借用像素颜色。
全文摘要
在此揭示对抽取出的前景图像提供更加有效的改进的修边,如不需额外的用户交互的方法。在此所述的修边方法沿着抽取出的对象的边界生成相对连续的透明度(或α值)(如,限制渗色和/或非自然信号)。
文档编号G06T7/60GK1734499SQ20051008948
公开日2006年2月15日 申请日期2005年8月9日 优先权日2004年8月9日
发明者C·C·E·罗瑟, V·科尔摩格洛夫, A·布雷克 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1