用于非线性的多运动模型和移动边界提取的方法和设备的制作方法

文档序号:6461934阅读:99来源:国知局

专利名称::用于非线性的多运动模型和移动边界提取的方法和设备的制作方法用于非线性的多运动模型和移动边界提取的方法和设备本专利申请为2003年11月6日提交的中国专利申请200380103021.6的分案申请。发明领域本发明有关图像处理。更具体而言,本发明涉及图像中的对象运动的估计。发明背景用于视频编码的标准运动模型包括应用于固定区域(运动块)以估计运动的参数的模型。这些方法是有限的,因为所述模型无法处理运动块内部存在多个(不同的)运动的情况。这带来一个问题。运动估计中的一个基本问题是处理多运动和移动对象边界的模型的能力。诸如仿射或透视模型之类的标准运动模型考虑到区域(即,运动块)的平滑形变以捕获运动块中的所有像素的相关运动(比如转换、变焦、旋转)。在其上估计运动的区域或块不能选择太小;这是从(1)编码的角度来看的,因为较大的区域意味着较小的运动开销,并且也是从(2)估计的角度来看的,较大的区域允许更好的运动参数的估计。从常见运动模型的标准局限性方面出现的一个关键问题是运动块内部的多个运动的出现。运动区域内的移动对象边界是两种可能非常不同的运动(对象的运动以及比方说背景的运动)的象征。此外,移动对象边界暗指一些像素将相对于过去的或未来的运动估计而被遮蔽(occlude)(隐藏)。这种遮蔽效应可能会偏置运动估计,导致较高的预测误差,并且使得难以精确地,提取对象边界。运动分割方面的方法往往依赖于光流估计或参数的(即,仿射)运动模型;这些将在对象边界附近具有常见问题并且具有遮蔽效应。在分割区段中,且由此在对象边界中的某种平滑度能够利用MAP/Bayesian方法中的先验概率项加以实现。这是在没有任何明确的耦合模型以说明对象边界和运动区段的情况下、分割区段的连通性上的更多约束条件。曲率演变模型可以用来捕获移动对象的边界。然而,这种方法不包括运动估计/区段,并且依赖于用于对象边界的演变的模型中的临时差分算子。在另一种方法中,级别设置方法的上下文隐式地对对象边界的轮廓和多个仿射运动区段建模,然而,运动估计仅相对一个参考坐标系来进行,也就是根据帧n-1来确定帧n的运动。正如上面所论述的那样,这有问题。一些靠近对象边界的像素可能会被遮蔽;这将进而又偏置边界的估计,因为由于遮蔽而使得靠近边界的运动区段不可靠。由此,对于常见的运动模型而言存在问题。附图简要说明本发明是以示例的方式来举例说明的,并不局限于附图的图形;其中相似的参考指示类似组件并且其中图l举例说明了其中可以使用本发明的技术的网络环境;图2是其中可以实现本发明的实施例的计算机系统的框图3以流程图形式举例说明了发明的一个实施例;图4以流程图形式举例说明了视频编码的一个实施例;图5举例说明了运动分割成2个区域的一个实施例;图6举例说明了控制像素的时间参考赋值的函数的一个实施例的性状;图7、图8和图9都是示例,举例说明了应用于局部块区域的本发明运动模型的实施例如何实现分离成过去的和未来的运动参考,由此移动边界的提取被捕获;图10是举例说明本发明运动模型的实施例如何估计移动边界的位置的示例;图11是举例说明标准运动模型与本发明运动模型的实施例之间的比较的示例;图12是举例说明3个运动、它们的移动以及最小预测误差参考帧的示例;和图13举例说明了控制用于3个运动的时间参考赋值的接口函数的一个实施例的性状。6详细描述描述了一种用于非线性的多运动模型和移动边界提取的方法和设备-本发明涉及用于估计视频图像中的对象运动的新运动模型。在本发明的一个实施例中,使用了一种涉及空间和时间变量之间的非线性耦合的新运动模型,一种类型的区域竟争以分离多个运动,以及边界建模以提取移动对象边界的估计。所述模型是小型的并且能够用于运动分割和/或视频编码应用。在本发明的另一个实施例中,已经使用运动模型的扩展来解决在背景部分中论述的问题。这种模型的基本特征如下1)引入时间变量以供相对于过去的和未来的帧的组合运动估计用;2)允许多个运动(2个运动或更多)同时存在;3)从用于边界选择的一种类型的区域竟争来确定对象边界提取(所并入的边界的曲率);和4)使用非线性函数来控制/精细化对象边界的估计。本发明能够处理多个运动(两个或更多)。然而,为了不至不必要地混淆本发明,所述详述最初将讨论两个运动,并扩展到i兌明书中稍后所描述的多于两个的运动。本领域的技术人员将会认识到时间变量的使用允许两个运动的引入而且还避免了遮蔽效应。如杲靠近移动对象边界的一些像素例如被隐藏在先前帧中,那么运动区域(这些像素属于所述区域)将势必相对于未来参考其运动(且反之亦然)以便降低预测误差。这在某种意义上讲是一类"区域竟争",其中由于通过选择过去或者未来作为它们用于运动估计的参考帧,2个运动区域竟争以降低它们的预测误差,而获得对象边界。因此,隐式地根据这类区域竟争来确定我们的模型中的移动对象边界。这与显式地引入轮廓模型(即,有效的轮廓模型)的模型相反;这些方法可能会随着轮廓演变而具有有关轮廓的离散化和长度/曲率的控制的显著问题。在本发明的一个实施例中,运动模型局部地应用于图像中的区域/块,并且可以把它看作为对运动估计或运动分割的精细化阶段的一部分。也就是说,如果在经过一遍图像(比如说最初使用一个标准仿射运动模型)的运动估计/分割算法之后一些区域中的预测误差超过某个质量阈值的话,那么本发明运动模型的一个实施例可以被应用于那些区域。图3以流程图形式300举例说明了该过程。在302,来自标准运动模型的用于区域的预测误差被接收。在304,做出关于预测误差(接收自302的)是否大于一个第一预置阈值的判断。如果预测误差(来自于302的)不大于该第一阈值,那么可以进行其它306处理。如果预测误差大于该第一阔值,那么在308捕获用于区域的2个或更多的运动以及相关边界以便提取。接下来,在310,做出检查以判断预测误差(来自于308的)是否大于一个笫二预置阈值。如果预测误差(来自于308的)不大于该第二阈值,那么可以进行其它306处理。如果预测误差大于该第二阈值,那么在312捕获用于区域的更多复合运动和相关边界以便提取。在虚线块314中是执行本发明的一些技术的地方。在本发明的另一个实施例中,运动模型中的扩展可以用于对象边界的真实非刚性形变。例如,图3中的框312也可以指代一个更复杂的模型以处理真实非刚性形变。诸如边界到边界匹配的扩展可以被使用并且被引入图3中举例说明的结构当中。对于视频编码应用,对运动块/区域的简单分割(用于低开销的)以捕获多个运动(以降低预测误差)可以利用块的四叉树分割加以实现,在其中大的预测误差块被划分成用于改进的运动估计的子块。同样,可以利用边界/划分的直线模型来对具有大预测误差的块进行四叉树分割。在本发明的一个实施例中,进一步就运动分割问题本身来调整方法,这涉及获得移动对象边界的位置和局部形状的良好估计的能力。图4以流程图形式400举例说明了视频编码的一个实施例。在这里,运动模型被用来估计运动并消除时间冗余度,从而导致微小的运动残留需要编码。稍后论述的是本发明的附加实施例以及运动模型如何可以被高效且有效地使用于编码。在图4中,在402接收输入图像。在4(H对给定帧执行运动估计,并且运用多运动和边界提取发明来对遮蔽区域以及移动边界进行标识。在406对剩余的运动残留进行编码。在本发明的一个实施例中,时间变量被用于2个运动的表示。在该运动模型中,使用相对于过去和未来的同时估计(即,使用2个参考帧),以便比方说在过去的帧中被遮蔽的靠近边界的像素将根据未来的帧(其中它们未被遮蔽)来选择估计,且反之亦然。它是在模型中采用的遮蔽的这种二元性。在本发明的一个实施例中,非线性方面被用在时间变量(由此是边界模型)以控制和精细化边界接口的估计。在本发明的一个实施例中,可以局部地使用已扩展的运动模型,并且作为连续迭代方法的一部分,,正如在图3中举例说明的那样。视作为不良的(由于高预测误差)区域,比方说在一个第一遍分割过程中,可以利用已扩展的运动模型加以重新估计以捕获多个运动和移动边界。如上所述,通过运动模型中的时间变量来隐式地定义边界,所述运动模型的函数形式考虑到将由平滑的小型支持的区域定义的运动域。标准的模型回顾〖0036]为了让读者更快速而充分地理解本发明的实施例,给出了标准的运动模型回顾。通常用在运动估计中的标准的运动模型是仿射模型,该仿射模型采用了如下形式V=v'r(x,y)=ox++cj/=v少(义,少)=J义++/其中(x',y')是参考帧(即,先前帧)上的像素位置。如果(a=e,d=-b),那么只允许转换、变焦和旋转运动;这些在大部分的情况下是主流模式。非线性的透视模型是仿射模型到8个参数的一种扩展以处理到图像平面的投影。在一些区域(运动块)上应用运动模型,并且参数的估计可以涉及线性最小二乘方投影、预测误差的直接最小化、预测误差的多分辨率最小化等等,运动模型本发明的实施例包括解决多个运动和移动对象边界的估计的模型。使用过去的和未来的运动估计。这涉及时间变量t'(对于基于过去的帧的运动估计而言t'=-1,以及对于基于未来的帧的运动估计而言t'=0)的使用。用于2个运动的模型(稍后论述更为普通的情况)采用如下形式<formula>formulaseeoriginaldocumentpage10</formula>其中B(x,y)包含有关边界/接口模型的信息,并且^-(v人vj)是对于i=1、2个运动的运动模型向量映射。作为模型的一种实现方式,我们考虑模型(即,像素坐标的平滑函数)j=万(.v,力=gx+/zy+ccc2++/其中(g,h,ct,P,i)是用于模型边界曲线的参数。我们还为^采用标准的仿射运动模型,所以上面的等式变为<formula>formulaseeoriginaldocumentpage10</formula>其中(a,b,c,d,e,f,a、b、c、d、e',f'}是仿射运动模型的参数。模型的描述如下第一,考虑上面的最后两个等式。这些等式对两个运动进行建模,一个是6个参数仿射运动,另一个是另外6个参数仿射运动。对于具有t'--l的像素而言,由下式给出运动向量<formula>formulaseeoriginaldocumentpage10</formula>对于具有t'-0的像素而言,由下式给出运动向量v,-(a+a'-l);c+("6'Xy+c+c'时间变量的耦合考虑到了在这个实施例中2个不同的运动存在的情况(即,具有不同的转换、旋转和变焦)。运动区域到2个运动的划分是根据该区域是否为运动估计使用过去的或未来的帧而定义的。这是在图5中示出的。在图5中,运动分割成2个区域是通过用于运动估计的区域的帧参考而获得的。在这个示例中,以速率V。移动的对象是前景对象。通过最小化预测误差(对于过去的和未来的参考帧)来确定模型。最低预测误差将会导致避免任何遮蔽效应以及由此具有定位真实移动边界的最佳潜能的底部划分(510)。502是先前的帧,504是当前的帧,以及506是未来的或下一个帧。508是当前帧到两个运动的一个可能划分。510是当前帧到两个运动的另一个划分,并且当与508划分相比较时是较低预测误差的情况。等式(1)中的时间变量是像素位置的平滑函数,并且从-1到0变化。操作上,当前帧上的运动块中的指定像素位置定义时间变量t'。然后,在最后2个等式中使用这个时间变量以确定运动向量。然后,通过将运动向量在时间t'指向帧上存在的像素位置来形成预测;如果t'=0,则在预测中〗吏用未来的帧,如果t'=-1,则使用过去的帧。对于t'e(-1,0)的情况,使用过去和未来的帧的线性组合。所述时间变量控制对象边界的运动。将边界定义成s-一O.5,通常这是一个由多项式gx+hy+,ax2+py2+i=—0.5描述的曲线。接口模型的平滑度允许每个运动区域将由平滑的小型支持定义。在离开接口饱和到O或-l的意义上,以及定义边界的条件t'-F(-0.5)=-0.5,选择非线性函数F来作为边界的代表。非线性函数<formula>formulaseeoriginaldocumentpage11</formula>实现了这个特征,其中w控制边界处的斜度。让参数w指代边界或接口的"宽度"。在齒6中示出了对应不同边界宽度的函数F的一些标绘。如图6所示,是在运动模型的一个实施例中使用的函数t'-F(s)的性状600。所述函数控制对用于运动估计的过去的(t'=-1)或未来的(W=0)参考帧的像素的赋值,所述运动估计具有在s=-0.5处定义的对象边界。这个函数的特征为宽皮参数(w)且在-1和O处适当饱和。模型中的关键特征是控制时间变量从-1(过去的帧)到0(未来的帧)的延伸的"边界宽度"(w)。靠近边界(由宽度w定义的)的像素是一类混合态,即,2个域的线性组合。也就是说,对于边界区域内的像素而言,所述预测为,<formula>formulaseeoriginaldocumentpage11</formula>以及混合状态可以定义为混合状态:对于域1而言加权(l+t'),并且对于域2而言加权-t,。其中t'e(-1,0)(回想一下时间是参考运动区域/域的)。在本发明的一个实施例中,w本身可以在模型中动态变化。然后,系统将自然地选择表征边界的宽度/粗糙度的数值w,并且确定边界层中的哪些像素是2个域的混合。纯状态在本发明的一个实施例中,在运动参数的估计步骤期间,为了利用精细边界干净地提取2个(纯的)域,w是固定的且是小的。例如,宽度参数定为w=1/3,然后利用连续地较精细接口宽度来执行重新估计(如图5中所示)。利用模型中的非线性函数F(s)和w的减少量来控制和精细化边界的估计。随着接口宽度减小,远离边界的像素对于它们的参考帧而言变为"凝固的"。仅仅允许在边界附近的像素(通过s--0.5而确定的)使它们的时间变量改变(即,迁移到另一个参考帧处),由此来修改边界。〖0046]模型参数的估计:在本发明的一个实施例中,运动模型参数的估计是从预测误差的最小化获得的。;",力=(i+)〃"VH戸'(,乂)其中(x、y',t')是模型参数的函数(参见等式(1))。注意,对于每个像素而言,所述预测是过去的和未来的帧的线性组合;可以运用简单的双线性时间内插。模型参数的估计可以利用多分辨率层(如下所述)而从最陡下降算法中获得。用于运动模型的估计算法的详细程序按如下进行。存在下面可以被使用的3组初始条件(1)相对于先前帧初始化的运动参数(2)相对于未来帧初始化的运动参数(3)来自组(1)和组(2)的运动参数的平均值对于每一组而言,在一个实施例中,都将接口参数选为g=/=a=〃=0;'.--.075广0.5,-0.25.由此,使用了总共9个初始条件,不过最常见的具备i--0.5的组1或组2可能足够了。对于下面的序列丄-l保持将宽度参数定在w=1/3。JL.参数的初始化对于1/16大小的图像(从原始图像的简单抽选中获得的),对相应的运动块中的小块执行块匹配(BM)。对于初始条件组1,BM相对于过去被执行;并且对于组2相对于未来而被执行。然后,利用最小二乘方(LS)将该组运动向量映射到模型参数上。对于初始条件组1和2,这得出初始组参数(a,b,c,d,e,f);将参数(a、b',c、d、e、f')初始化为0。对于第三个初始条件组,使用来自于组1和2的参数的平均值。2.最陡下降被用在1/16大小的图像以得出模型参数P的估计(F2表示对于层2(1/16大小的图像)的模型中所有参数的分量向量(componentvector))。!从1/16到1/4大小的图像投影以开始对1/4大小的图像的估计。这个投影被确定以便根据空间缩放来保持模型的函数形式。对于层2到层1的运动参数的投影,我们有层投影c1=2c2/'=2/2/z'=0.5A2'.'=z'2a'=0.25a2i将来自于上层的投影估计用作为对于等级l的一个初始条件。为1/4大小的图像重复迭代/最陡下降。这得出估计量r。旦.对于1/4的参数投影到原始大小的图像,如在3中那样。1.为全尺寸的图像重复迭代/最陡下降估计。最后的解是".2.为上述该组初始条件重复i-6。!.从具有最低预测误差的初始条件组中选择参数的估计。利用最佳F。作为初始条件重新估计运动参数,但是具有连续地更尖锐的宽度参数w(1/4,1/8,1/16)。这导致移动对象的位置和曲率的改进估计。在这里举例说明了运动模型的一些示例。在第一组示例中,将运动模型应用于包含2个运动的区域(80x80的块)。对于所述示例,在左侧上显示原始图像,并且右侧图像示出了多运动区域分割成2个区域。暗色区域参考过去的帧,而白色区域参考未来的帧。注意,在每一个示例中分割成过去的/未来的区域是与遮蔽效应被最小化相一致的,正如图5中所论述和所示的那样。在图7中示出了示例1。风扇移动到右侧。捕获风扇对象的曲率,并且运动模型实现了分隔成过去的和未来的运动参考,正如图5中所论述和所示的那^f羊。702是原始图>(象,以及704示出了多运动区域分割成2个区域。暗色区域参考过老的帧,以及白色区域参考未来的帧。在图8中示出了示例2。在这里,人向下移动。这是与前一示例中相同的效果。802是原始图像,以及804示出了多运动区域分割成2个区域。暗色区域参考过去的帧,以及白色区域参考未来的帧。这样进行帧参考赋值以便遮蔽效应被最小:化,正如在图5中论述的那样。'在图9中示出了示例3。前景中的少女移动到左侧。因为该少女移动到左侧,所以在她面前的静止区域将优选相对于其中没有遮蔽发生的过去的运动估计。902是原始图像,904示出了多运动区域分割成2个区域。暗色区域参考过去的啤,以及白色区域参考未来的帧。对于上面的示例而言,将预测误差数据作为运动预测区域/块和初始块之间的均方差来计算。标准的运动模型是指单个运动仿射模型,往往用在运动估计中。新的运动模型是指本发明的实施例。如下所示,存在利用新运动模型的预测误差"中的改进。14<table>tableseeoriginaldocumentpage15</column></row><table>应用于大区域的运动模型在下面的示例中,将感兴趣对象周围的大区域划分成80x80块。这个区域是从标准类型的运动分割(仿射运动模型和k均值聚类)中获得的,所述运动分割具有标识移动对象的区域的不充分标记的块(具有高预测误差和/或高度失真类別的块)。接下来,将本发明新运动模型的一个实施例应用于涵盖感兴趣移动对象周围的大区域的一组80x80个块。示例4在图10中被示出,其中细黑线1002是使用新运动模型的边界位置的估计量。在如图IO所示的示例4中,少女走向右侧,背景向左侧"移动"。将运动模型应用于少女周围的大区域。少女(1002)周围的黑线是所提取的移动对象的位置。沿着她的鼻子/脸的丢失的轮廓接近地符合80x80个块的其中一块的边界;由此,那一块中的大部分像素属于一个运动(脸运动),从而系统选择一个没有边界的域/状态。在图11中示出的是利用仿射运动模型(标准运动模型)1104的分割和利用如在本发明的一个实施例中公开的新模型1106的改进之间的比较。小图片1102是原始图像。图像1104是通过使用仿射运动模型的标准方法得来的分割映射。不同的阴影是指不同的运动类别。图像1106是通过利用新的运动模型来重新估计运动而获得的新分割映射。图像1106示出了图像中少女的更好的轮廓,并且比图像1104具有更平滑的分割区段。〖0058]视频编码在本发明的另一个实施例中,视频编码可以使用新的运动模型。上面论述到的、凭借其解决2个运动的能力的模型,能够被应用于大的区域。在先前论述的示例中,使用了80x80个块。可以把新的运动模型看作"简洁地"代表不同的运动和边界信息。例如,在本发明的一个实施例中,本模型具有17个参数,并早如果用在比如80x80个块中(在一个704x484个图像中),约为900个运动参数;这包括用于解码器以提取运动区段和一些移动边界的位置所必需的所有信息。将这个同一个非常简单的标准16x16块匹配算法(2个转换参数,不带明确的移动边界信息)所需的约2662个参数进行比较。。用于M个运动的模型正如先前提到的那样,以上的讨论主Jbl集中在2个运动以便不混淆本发明的实施例。本发明的其它实施例可以解决任意数量的运动(M个)并且可以^皮应用于扩展上述讨论的示例和实施例。可以按如下形式来编写用以解决带有不相交边界的M个运动的2运动模型的扩展(这是等式(1)的扩展)_H,…,W其中,正如在上面的等式(i)中那样,我们能够使用如下面的模型等式~-5;(义,力=g,+/i,+a乂x2+A乂+~,和巧(义,,v)=(fl,;c++。,《x++)在上述模型中,;是指当前帧上的像素位置(其运动正在被估计的一个),;是指参考帧上的位置,(t,)是用于M个运动的提取的M个参考帧。运动向量{^是仿射运动区段,t'是连续时间变量,以及F((Sj)、{Wj}、{t/"})是代表边界的非线性函数(一个接口的示例在图13中示出)。这个函数包括用于M-1个边界的接口等式{Sj,j-l,..M-1}}、M-1个宽度参数{Wj,j=l,...M-l)和用于M个运动的参考时间{t广f,i=l,...M}(每个边界的中心;F的中点,对于2个运动的情况参见图6)。接口等式{sj是对边界的位置和形状建模的多项式。在i=1时(即,对于tZ"=-1)将加权函数的归一化^_选为1从而与等式1中的2个运动的情形相对应。g,'",)2个运动的情形2008上述模型减少为较早实现的情形(参见等式(1))。所述2个参考帧为--l(过去的),和t2"f=0(未来的)。仿射运动向量前的因子为^=1,^=(^1。仅有一个边界/接口变量s和一个宽度变量w。非线性时间等式变为,=(w》,=化)其中,例如,用于2个运动的模型为:F"M,,,,,《/)=(tanh("-(/)/2)/>v—)3个运动在图12中示出了用于3个运动的示例。在这里,图像区域1300中的三个"运动"是中间区域和按箭头指示移动的另外2个区域,所述中间区域是静止前景。2个不相交边界如直线所示。为了最小化遮蔽/暴露的区域效应,最理想状态(较低的预测误差)将导致12中示出的区域帧参考(帧ref:)。在这个示例中,假定有相对于过去的(-1)、未来的(0)和早过去(-2)的2个帧的预测。在图13中示出了这个示例中所使用的接口函数1300的示例。在图13中示出了用于3个运动(2个不相交边界)的接口函数的示例。所述函数可以写成,》,W,W卜。.5tanh(""^2)化nh("^,V0.5其中t/ef=-1、t/ef--2、t3"f=0,并且w,、识2是表现边界的平滑度/粗糙度的特征的宽度参数(在上述示例中,w,=0.25,w2=0.25)。正如用于2个运动情形的文本中论述的那样,宽度参数{Wj}可以是固定的外部参数,然而通常也可以动态地确定它们(这将允许系统调节或选择边界的宽度/粗糙度)。正如我们在上述的视频编码中论述的那样,还可以把本发明看作简洁地代表多运动和边界信息。对于3个运动的示例而言,我们将具有约30个参数(对于由6个参数仿射模型建模的3个运动为6x3,对于由二次多项式建模的2个边界为5x2,并且比方说2个宽度参数)。然而,由于我们能够捕获3个运码增益。由此,已经公开的是一种用于非线性的多运动模型和移动边界提取的方法和设备。图l举例说明了可以在其中应用所描述的技术的网络环境100。正如示出的,由S个服务器104-1至104-S和C个客户机108-1至108-C的形式的几个计算机系统通过例如可以是一个基于家庭的网络的网络102被相连。注意,替代地,该网络102可以是或包括因特网、局域网(LAN)、广域网(WAN)、卫星链路、光纤网路、有线电视网或这些和/或其它的组合中的一个或多个。服务器例如可以代表单独的磁盘存储系统或存储器和计算资源。同样,客户机可以具有计算、存储和查看能力。可以将这里所描述的方法和设备应用于基本上不论是本地还是远程的,比如LAN、WAN、系统总线等等的任何类型的通信装置或设备。图2以框图形式举例说明了计算机系统200,所述计算机系统可以表示图1中所示的任何客户机和服务器,而且可以表示本发明的一个实施例。所述框图是高级的概念表示并且可以用各种方法和通过各种结构来实现。总线系统202互连中央处理单元(CPU)2(M、只读存储器(ROM)206、随机存取存储器(RAM)208、存储器210、显示器220、音频、222、键盘224、指示器226、各种各样的输入/输出(I/O)设备228和通信230。总线系统202可以是例如一个或多个像系统总线这样的总线,外围设备互连(PCI)、高级图形端口(AGP)、小型计算机系统接口(SCSI)、电气和电子工程师协会(IEEE)标准号1394(FireWire(火线))、通用串行总线(USB)等等。所述CPU204可以是单个、多个或者甚至是一个分布式计算资源。存储器210可以是压密盘(CD)、数字多用途盘(DVD)、硬盘(HD)、光盘、磁带、闪存、记忆棒、录像机等等。显示器"0可以例如是阴极射线管(CRT)、液晶显示器(LCD)、投影系统、电视(TV)等等。注意,取决于计算机系统的实际实现方式,计耳机系统可以包括框图中组件的一些、所有、更多或重新安排。例如,瘦客户机可以由例如不带传统键盘的无线手持式设备组成。因此,图2的系统上的许多变形是可能的。为了论述和理解本发明起见,应当理解的是,本领域的技术人员使用各种不同的术语来描迷技术和方法。此外,在说明书中,为了解释起见,提出许多特定细节以便提供对本发明的彻底理解。然而,对于本领域技术人员而言显而易见的是可以在没有这些特定细节的情况下实践本发明。在一些例子中,以框图形式而非详细地示出了众所周知的结构和设备,以免混淆本发明。这些实施例;故足够详细地描述以使本领域的技术人员能实践本发明,并且应当理解的是,可以采用其它的实施例,并且可以在不脱离本发明的范围的情况下做出逻辑的、机械的、电学的及其它的改变。说明书的一些部分可以按照对例如计算机存储器内的数据位进行运算的算法和符号表示被提出。这些算法的说明和表示都是数据处理领域的技术人员所用的手段以便最有效地向本领域的其它技术人员传达他们的工作的实质。一个算法在这里并且通常设想成为导致期望结果的动作的自相容序列。所述动作是那些需要物理量的物理操纵的。通常,尽管不一定,但是这些量采取能被存储、传送、组合、比较和其它操作的电或磁信号的形式。有时主要地为了公共用途的原因,证明它方便地指代了如位、数值、元件、符号、特征、项、号码等等这样的这些信号。然而,应该记住的是,所有这些和类似的项是将与适当的物理量相关联的并且只是应用于这些量的方便标记。除非明确地指明,否则通过该论述是显而易见地,应当理解,贯穿本说明书,使用诸如"处理"或"计算(computing)"或"运算(?alculating)"或"确定"或"显示"等等之类的术语的论迷可能是指计'算机系统或类似的电子计算设备的动作和过程,所述电子计算设备将表示为计算机系统的寄存器和存储器内的物理(电子)量的数据操作和变换成同样表示为计算机系统存储器或寄存器或其它这样的信息存储、传输或显示设备内的物理量的其它数据。、在这里,本发明可以通过用于执行操作的设备来实现。可以专门地为所需的目的而构造这种设备,或者它可以包括由存储在计算机中的计算机程序来有选择地激活或重新配置的通用计算机。这样的计算机程序可以被存储在计算机可读存储介质中,比如但不限于任何类型的盘,包括软盘、硬盘、光盘、压密盘只读存储器(CD-ROM)和磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、电可编程只读存储器(EPR0M)、电可擦除编程只读存储器(EEPR0M)、闪存、磁或光学卡,等等,或是适合于将电子指令本地存储到计算机或者远程存储到计算机中的任何类型的介质。在这里所出现的算法和显示并不是固有地与任何特定计算机或其它设备相关的。依照这里的教导,可以使用具有程序的各种通用系统,或者可以证明便于构造更多的专门设备以执行所需的方法。例如,根据本发明的任何方法都能够以硬接线电路、通过对通用处理器进行编程或通过硬件和软件的任何的组合来实现。本领域技术人员将会立即认识到本发明能够利用除所述的那些以外的计算机系统配置加以实现,包括手持式设备、多处理器系统、基于微处理器的或可编程的用户电子设备、数字信号处理(DSP)装置、机顶盒、网络PC、小型计算机、大型计算机等等。本发明还可以在其中由通过通信网络被链接的远程处理设备来执行任务的分布式计算环境中实践。本发明的方法可以利用计算机软件来实现。如果以符合所认可的标准的程序设计语言来进行编写,则能够为各种不同硬件平台上的执行和为到各种不同的操作系统的接口对设计来实现所述方法的指令序列进行编译。另外,没有参照任何特定的程序设计语言来对本发明进行描述。应当理解,各种程序设计语言都可以用来实现如这里所描述的本发明的教导。此外,在本领域中以一种形式或另一种形式(例如程序、过程、应用、驱动,……)说到软件作为采取动作或产生结果是常见的。这样的表达仅仅是由计算机对软件的执行引起计算机的处理器执行动作或产生结果的简写形式。应当理解,各种不同的术语和技术由本领域那些技术人员来使用以描述通信、协议、应用、实施方式、机制等等。一种这样的技术就是按照算法或数学表达式的技术的实施方式的说明。也就是说,虽然所述技术可以例如作为计算机上的执行码来实现,那个技术的表达可以更加适当而简明地作为公式、算法或数学表达式加以传达和传递。因此,本领域熟练技术人员将把表示A+B=C的一个块认识为一个其在硬件和/或软件中的实现将采用两个输入(A和B)并且产生总和输出(C)的相加函数。因此,像说明^这样的公式、算法或数学表达式的使用应当被理解为具有至少为硬件和/或软件形式的物理体现(比如,其中可以实践本发明的技术并且作为一个实施例实现的计算才几系统)。将机器可读介质理解成包括任何用于以机器(例如,计算机)可读的形式存储或传输信息的机制。'例如,机器可读介质包括只读存储器(ROM);随机存取存储器(RAM);磁盘存储器介质;光存储介质;闪存设备;电学的、光学的、听觉的或其它形式的传播信号(例如,载波、红外信号、数字信号等);等等。单词"一个实施例"或"一实施例"或类似语言的的使用不意味着只有本发明的单个实施例,而是指示在论述的特定实施例中它是几种可能实施例的其中之一。由此,已经描述了一种用于非线性的多运动模型和移动边界提取的方法和设备。权利要求1.一种用计算机实现的方法,包括接收运动预测误差,该运动预测误差对应于一个视频序列帧内的一个输入帧内的运动块,其中,该运动预测误差与单运动模型相关联;如果所述对应的接收到的运动预测误差满足预设的条件,则选择一个运动块;对于被选定的运动块,计算相对于第一参考帧和第二参考帧的多个运动预测误差,其中,所述输入帧、第一参考帧和第二参考帧是所述视频序列内不同的帧;按照使得所述多个运动预测误差中的每一个取值最小的布局,对所述被选定的运动块进行划分,其中,所述布局包括相对所述第一参考帧进行预测的第一像素区域和相对所述第二参考帧进行预测的第二像素区域;根据所述布局得到所述被选定的运动块的多运动模型;以及利用所述多运动模型和单运动模型对所述输入帧进行编码。2.如权利要求1所述的用计算机实现的方法,其中,得到多运动模型的步骤包括根据所述第一和第二区域的交集估计所述视频序列内一个运动对象的边界。3.如权利要求2所述的用计算机处理的方法,其中,所述布局进一步包括根据所述第一和第二参考帧的组合进行预测的混合像素区域,并且对所述边界进行估计的步骤包括根据单个参考帧改变所述被预测的混r合区域内的一个像素。4.如权利要求3所述的用计算机处理的方法,其中,对所述边界进行估计的步骤进一步包括识别时间变量t'-F(s)--O.5的所述混合区域内的像素,这里F(s)为非线性函数,s为边界模型B(x,y),x和y为像素坐标,对于相对过去的帧进行预测的像素,t'=-l,对于相对未来的帧进行预测的像素,1/=0,并且对于所述混合区域内的像素,t'e(-1,0)。5.如权利要求11所述的用计算机处理的方法,其中,所述非线性函数给定如下其中w是边界宽度并且用于控制所述混合区域内像素的数量。6.如权利要求4所述的用计算机处理的方法,其中,所述边界模型给定如下其中g,h,cc,P,i为预设参数。7.如权利要求3所述的用计算机处理的方法,其中,计算所述多个运动预测误差的步骤包含利用给定如下的包含时间变量t,的6参数(a,b,c,d,e,f)仿射运动模型计算运动矢量(Vx,v》x'=odc++c+(a'x++c')(/'+1)/=血++./十(d'x+e'_y+/')(,'+1)这里x和y确定了像素在所述输入帧内的位置,x,和y,确定了相应的像素在参考帧内的位置,对于相对过去的帧进行预测的像素,r=-l,对于相对未来的帧进行预测的像素,t'=0,其中,相对过去的帧进行预测的像素的运动矢量为vx=;c'—jc-(a-l)x++cv少二/-P血+(")"/而相对未来的帧进行预测的像素的运动矢量为vx=(a+a'-l);c+(6+6')少+c+c'=(t/++0+e'-l)少+/+/'8.如权利要求7所述的用计算机处理的方法,其中,通过应用所述过去的帧和未来的帧的运动矢量来预测所述输入帧内的像素。9.如权利要求1所述的用计算机处理的方法,其中,所述参考帧选自由所述视频序列内相对于输入帧而言是过去的帧和未来的帧所组成的组。10.—种系统,包4舌接收运动预测误差的逻辑,该运动预测误差对应于一个视频序列帧内的一个输入帧内的运动块,其中,该运动预测误差与单运动模型相关联;如果所述对应的接收到的运动预测误差满足预设的条件,则选择一个运动块的逻辑;对于被选定的运动块,计算相对于第一参考帧和第二参考帧的多个运动预测误差的逻辑,其中,所述输入帧、第一参考帧和第二参考帧是所述帧序列内不同的帧;按照使得所述多个运动预测误差中的每一个取值最小的布局,对所述被选定的运动块进行划分的逻辑,其中,所述布局包括相对所述第一参考帧进行预测的第一像素区域和相对所述第二参考帧进行预测的第二像素区域;根据所述布局得到所述被选定的运动块的多运动模型的逻辑;以及利用所述多运动模型和单运动模型对所述输入帧进行编码的逻辑。11.如权利要求10所述的系统,其中,得到多运动模型的逻辑进一步根据所述第一和第二区域的交集估计所述视频序列内一个运动对象的边界。12.如权利要求11所述的系统,其中,所述布局进一步包括根据所述第一和第二参考帧的组合进行预测的混合像素区域,并且得到多运动模型的逻辑进一步根据单个参考帧改变所述被预测的混合区域内的一个像素。13.如权利要求10所述的系统,其中,所述参考帧选自由所述视频序列内相对于输入帧而言是过去的帧和未来的帧所组成的组。14.如权利要求10所述的系统,进一步包括根据所述多运动模型和单运动模型对所述视频序列进行解码的逻辑。全文摘要公开了一种用于非线性的多运动模型和移动边界提取的方法和设备。在一个实施例中,接收一个输入图像,将该输入图像划分成区域/块,并且将新的多运动模型应用于每个区域以提取运动和相关的移动边界。文档编号G06T7/20GK101257632SQ20081008831公开日2008年9月3日申请日期2003年11月6日优先权日2002年11月11日发明者J·J·小卡里格,M·帕尼科尼申请人:索尼电子有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1