视频运动检测的制作方法

文档序号:7640096阅读:194来源:国知局

专利名称::视频运动检测的制作方法
技术领域
:本发明涉及视频运动检测。技术背景视频运动检测用在视频压缩或其他处理系统中。在压缩系统中,检测图像间运动允许图像的一部分通过参考另一个图像的相似部分来编码。在其他应用中,诸如标准转换,清晰度转换(例如标准清晰度到高清晰度或反之亦然)或隔行到逐行(interlacetoprogressive)扫描转换,新产生的图像的一部分从一个或多个其它当时邻近的图像中得到或内插。在这样的配置中,运动检测允许邻近图像的合适区域用在内插过程中。基于图像区域挨着图像区域的基理,图像运动通常表示为运动"向量"。通常,对图像块检测运动向量,运动向量被分配到整个块或被分配到这种块之中的像素或像素组。在压缩系统中,不正确的运动向量意味着图像区域4艮难编码一也就是说由于其与运动向量参考的另一个图像部分相对地不相似,其需要更多的数据编码。然而,在基于从一个或多个邻近图像中产生或内插新图像的其他系统中,情况更糟。不正确的运动向量意味着邻近图像的错误部分被用作内插的基础。这可能导致在输出(新)图像中产生高度可见的伪像。由此在视频运动检测配置中始终需要得到高质量和精确的运动信息。
发明内容本发明提供视频运动检测设备,其包括用于将运动测试应用到检测两个或多个测试图像之间的图像间运动中的装置,运动测试产生测试结果,测试结果提供运动向量和被检测的运动向量的完整性的指示;以及用于将运动测试应用到测试图像之一中以检测所述测试图像中的图像内相似性的装置;其中》口果图像间运动相关联的测试结果显示了比由图像内相似性测试得到的测试结果更高的完整性,则由图像间运动测试产生的运动向量可用于作为所述设备的输出;以及如果图像间运动相关联的测试结果没有显示出比由图像内相似性测试得到的测试结果更高的完整性,则由图像间运动测试产生的运动向量不可用于作为所述设备的输出。在本发明中,运动检测测试应用于测试图像之一的本身中。如果所迷一个图像中的运动检测结果优于两个图像之间的运动检测结果,则图像间结果被看作是低质量的并且被舍弃。本发明的其他各个方面和特征在随附权利要求中限定。本发明的实施例仅以例子的方式并通过参考附图进行描述,其中图1示意性地说明了纯平显示器配置;图2示意性地说明了工作室环境中的视频混合操作;图3示意性地说明了隔行到逐行扫描转换器;图4a和4b示意性地说明了"标准,,和广义采样定理(GST);图5示意性地说明了使用子像素位置校正的转换过程的一部分;图6示意性地说明了子像素误差;图7a示意性地说明了水平子像素校正;图7b示意性地说明了垂直子像素校正;图8a到8c示意性地说明了多相位内插;图9示意性地说明了换向器;图IO显示了示例图像;图11示意性地说明了使用GxSobel算子的边缘检测;图12示意性地说明了使用GySobel算子的边缘检测;图13示意性地说明了块匹配尺寸图;图14示意性地说明了块匹配向量的合格结果(acceptanceresult)j图15示意性地说明了运动向量验证;图16示意性地说明了垂直半带滤波;图17a到17c示意性地说明了GST滤波器设计的各个方面;以及图18a到18e示意性地说明了处理运动的图像对象的各个方面。具体实施方式图1示意性地说明了一种纯平显示器配置IO,其包括隔行视频素材源(sourceofinterlacedvideomaterial)20,隔行到逐行扫描转换器30和诸如液晶(LCD)或等离子显示器之类的显示板40。这说明了隔行到逐行扫描转换的一般使用,其中许多广播信号是隔行的形式,而许多平板显示器最成功的是以逐行扫描的形式来操作。因此,在图1中,隔行素材源20接收的广播信号被用来产生用于显示的隔行信号。其被传递给隔行到逐行扫描转换器30,以便从隔行信号产生逐行扫描信号。这就是传递给显示器40的逐行扫描信号。将会意识到隔行素材源20不需要是广播接收器,而可以是诸如DVD播放器的视频重放装置,诸如因特网连接的网络连接等等。图2示意性地说明了在工作室环境中的视频混合操作,以便给出隔行到逐行扫描转换的应用的另一个实例。在这里,隔行素材源50和逐行扫描素材源60被提供。这些源可以是照相机,视频重放装置(诸如视频磁带记录器或者硬盘记录器),广播接收器或类似物。来自隔行素材源50的隔行输出被提供给隔行到逐行扫描转换器70,以便产生逐行扫描信号。其可以连同来自源60的逐行扫描素材一起被视频混合器(visionmixer)80处理,以便产生已处理的逐行扫描输出。当然,如果需要(例如用于接下来的广播或记录),视频混合器80的逐行扫描输出可以被转换回隔行形式。还将意识到视频混合器80只是视频处理装置的一个例子;取而代之,例如,数字视频效果单元,可以用在图2中的这个位置。图3示意性地说明了接收基于场的输入信号并产生逐行扫描基于帧的输出信号的隔行到逐行扫描转换器。在当前的实施例中,对于输入信号的每一个场,输出信号具有一个帧。图3中的转换器包括一个或多个场存储器100,运动估计器110,运动补偿器120,水平和垂直位置校正器130,隐藏发生器(concealmentgenerator)140和输出选择器150。为了描述的清楚,运动补偿器120和位置校正器130被表示为分开的项目;事实上,很可能这两个功能被作为同一个操作的部分来执行。输入场被存储在一个或多个场存储器100中并且也被传递给运动估计器110。使用将在下面描述的基于块的运动估计技术,并且参考一个或多个场存储器ioo,运动估计器110得到表示在当前场和另一个场(例如先前的场)之间的图像运动的运动向量。运动向量4皮推导为子像素精确度。为了产生输出帧,运动补偿器120被用于产生"缺少的"像素,以便增加当前场的像素。所以,当前场的像素被保留,并且使用运动补偿,那些像素之间的空行被来自一个或多个存储场的像素占据。运动补偿器120的操作将在下面做更详细的描述。虽然运动补偿器的输出精确到最近的像素,但是因为通常没有与输出帧中的采样点(像素位置)完全对齐,因此使用水平和垂直位置校正器。这是因为运动估计^f皮执行为子像素分辨率。使用多相位滤波校正水平位置误差。使用利用所谓的广义采样定理的特定情形的滤波器校正垂直位置误差。以下将对这些操作作更详细的描迷。隐藏发生器140被用来提供像素值,以便防依靠运动的补偿配置未能提供像素值。在推导对每一个像素的校正运动向量所需要的处理未能完成的情况下这可能是需要的,例如由于图像的特性使得推导运动向量不准确或者处理器密集(processor-intensive)。事实上,隐藏发生器被包括在运动补偿器/位置校正器的功能性之中,但是在图3中被示意性地表示为单独的单元。相似地,选择器150是运动补偿器/位置校正器/隐藏发生器的功能性的一部分,但是其被单独地表示,以便说明其操作。当运动补偿像素不能被产生时,选择器150(在逐块的基础上)选择隐藏像素。图4a和4b提供了广义采样定理(GST)的综述。特别地,图4a示意性地说明了"标准"采样定理,然而图4b示意性地说明了GST。在图4a中,说明了常见的情况,由此具有最大频率fs/2的信号可以通过以fs速率的采样(也就是说每1/fs规则地出现采样点)被完美重建。这种分析对于基于时间的系统或者基于空间的系统同样有效,也就是采样率fs可以被表达为每秒的釆样或者每空间单位的采样。图4b示意性地说明了GST的一个实例。根据GST,事实上不需要用一个固定的采样周期(1/fs)采样。取而代之,如果具有最大频率fs/2的信号以每2/fs周期两个采样点被采样,则具有最大频率fs/2的信号可以被完美重建,。图5示意性地说明了由图3的装置执行的转换过程的一部分,以便说明基于GST的位置校正的需要。场0、l和2在时间上均匀分隔。目的是使用来自场1的现有像素还有运动补偿像素(填充在缺少的行中)创建逐行扫描帧,帧1,在这个实施例中运动补偿像素是从场0和2通过使用基于块的运动估计的运动补偿技术得到的。在场1中缺少的像素被插入像素的行之间,以便创建帧1。但是帧1中的运动补偿像素有子像素位置误差。注意在其他实施例中缺少的像素只从一个场得到。如上所述,子像素位置误差通过两种技术校正。水平子像素误差使用多相位滤波校正。垂直误差使用GST滤波校正。图6示意性地说明了这些子像素误差。白色圆圏UO代表填充在场l的缺少行中,以便产生帧1的运动补偿像素的所要求的位置。灰色像素180代表来自场1的真实像素的位置。黑色像素190代表在本例中运动补偿像素的位置。可以看出,运动补偿像素190接近但没有完全对准所要求的位置170。图7a示意性地说明了使用多相位滤波器以校正水平位置。多相位滤波技术将在下面作更详细的描述,但是笼统来讲,滤波器200接收一组运动补偿像素值作为输入。滤波器包括滤波器抽头h的P个集合,每一个所述集合被配置以相对输入运动补偿像素的不同相位(在像素的情况下,就是水平位置)产生输出值。在图7a中相位被示意性的表示(210)成从O(在本例中,相位O与左手边的真实像素对准)到P-l(在本例中,相位P-l与右手边的真实像素对准)。换句话说,水平位置误差被量化为1/P像素间隔的子像素精确度。示意性的换向器220选择正确的抽头集^^,以便产生与真实像素170水平对准的新的像素值190'。图7b示意性地说明了使用GST来校正垂直位置。这里,像素190,被表示为其水平位置已如上所述被校正。在垂直方向,在两(帧)行的每个空间周期中,两个像素被提供来自场1的真实像素180,和已水平校正的像素190,。在两行的空间周期中两个有效采样点的存在意味着每一个单独的像素170的"原始,,值可以通过垂直滤波过程被恢复。完全垂直对准的像素组230很少或没有受到混叠。相反,不正确垂直对准的像素组240受到垂直混叠。合适的GST滤波器的方程式如下;Xc卿+no)sb(p(h-n')/^(-1)2knsin(p$i-ng)/^/(n-kN-Xc(n)一=_i,俨t,w+l^zXc(JN+n))sin(p(h-iio)/H(-l)2krtsin(p(n-n^/h5/(n-kN-n,)其中2个子采样数据序列形成采样集合nN+np(p-O...(N-l)),N是每尼奎斯特(Nyquist)周期中离散等间隔采样的最大数目,n是采样数。因此,总之,GST能够用于重建来自两个或多个隔行场的准最佳的(quasi-perfect)逐行帧。该过程包括来自一个场的像素的复制和逐行扫描帧中的剩余像素(从其它场中得到的)的位置复原。随后,水平相位校正和垂直GST重建得到像素值,这完成了准最佳逐行扫描帧。然而,为了复原来自第二个场的像素的位置和相位,精确到空间采样分辨率的某个小数的运动向量必须已知。因此,接下来是运动估计器IIO的操作的描述。运动估计器一般是为了使用图像和其空间移位版本(version)之间的一些局部最小误差来检测真实向量的幅值和方向。然而,如果图像数据是子采样(如用于隔行源的场的情况),在具有不同位移的版本之间可能有一点或者甚至零相关性,以这种方式抑制运动的检测。已知一些运动估计方法。它们包括1.梯度方法在其最简单的形式中,这一技术假设局部区域上的常数亮度梯度以用线性(直线)关系将像素中的变化或者小块平均(small-block-average)亮度转化为运动。2.基于块的方法这种方法通常包括视频序列的两个或多个连续帧之间的块匹配,以便建立正确的位移。使用的匹配标准是最小像素差测量,通常是相应的块之间的MSE(均方误差)。3.傅立叶变换方法这一技术与基于块的方法大致相同,但是使用傅立叶变换来计算二维旋转巻积。这将有效地减小计算大区域上的块搜索结果所需要的计算量。基于块的方法在操作上是普通的(也就是基于块搜索的结果应当与应用傅立叶方法之后的结果相同)并且比由其关联的假设支持的梯度方法产生更准确的算术结果。块匹配方法用于当前的实施例中,但是将会意识到的是其他方法也可以使用。然而,块搜索方法的已知缺点是由不正确的MSE最小化搜索带来的错误的运动向量的计算。发生这一现象由于至少三个可能的原因1.被选择用于搜索的块缺少足够的细节来保证任何位移产生大于零位移的MSE。2.由于像素差,MSE计算中的求和可能过载,对于块位移比其他明显不正确的位移更接近真实引起报告更大的误差。3.被选择用于搜索的块自相关以产生比使用块的真实帧间向量位移获得的MSE更低的(帧内)MSE。通过为每一个原因使用特定技术,在当前实施例解决这些可能的失败。现在参考图8a到8c,多相位内插是用于分析连续的帧之间的子像素运动的方法,作为由产生隔行场的过程引起的原始源图像的非完整像素转移的结果被告知。用于子块MSE搜索的多相位内插可以被看作有效计算方法,该方法首先通过应用原始带宽约束在数据序列中插入样本,然后用期望的子像素移位选择有规则的样本集合。多相位内插方法可以从图8a到8c的示意图得到。图8a示意性地说明了原始离散时间采样信号。图8b示意性地说明了图8a的原始信号,零衰减(zero-pad)。换句话说,零值采样已经(至少在概念上)插入图8a的信号的"真实"采样之间。图8c示意性地说明了图8b的信号,其已经被滤波以再运用原始带宽约束(也就是图8a的信号的带宽)。原始信号和滤波器都被假设为在0+nT时刻被釆样的离散时间序列,其中n-0,l,2等。为了简化当前的分析,替换T-1被用来归一化采样周期。称为x(n)(不是x(nT),因为T-l)的原始信号首先是零衰减的以反映内插比。例如,通过因子N的内插要求在原'始(真实)采样之间插入N-1个零,以便产生长度是原始的N倍的采样序列。应用原始带宽约束(当前第N带),零衰减输入序列和(长度为L+l的)滤波器h(n)进行巻积产生结果序列y(n):y(0〉-x(0)h(0〉;y(l)",);y(N:l)-x(N-l歸..y(N)=x(N)h(O)+x(0)h(N)+...明显地,y(O),y(N),y(2N)等结果被计算作为x(n)与滤波系数h(O),h(N),h(2N)等的巻积。同样地,y(l),y(N+l),y(2N+1)等是通过与滤波系数h(l),h(N+l),h(2N+l)等的巻积来计算的。这些简式计算可以被巧妙的表达为如图9所示的在系数集合P之间选择的示意性换向器300的形式。换向器选择需要的子像素相位。这个操作的效果在于,只需提供乘法和加法就能计算需要的特定结果。通常,增益因子N浮皮施加在输出端,因为零衰减原始采样序列被认为具有第1/N个原始的能量。在块匹配算法中多相位计算被水平地和垂直地使用。因此,运动向量用子像素分解产生。像素中的最大搜索范围(也就是一个场中的块和另一个场中的块之间的最大允许测试位移,其可能是测试块尺寸的绝对值或者倍数)祐L转化为这里表示的子像素的数量。对于任何从零开始的给定偏移量,所要求的相位是在被内插比划分的子像素中被测量的这个移位的模数。像素中的绝对位移是该转移通过内插比的整数划分。可变的块尺寸选择方法用于鲁棒的基于帧的运动估计。每一个块在水平(大写X)和垂直(大写Y)方向上被分配最小和最大2的幂的尺寸。首先,所有块的尺寸被设置为预定的最大2的幂(例如5,设定最大块尺寸为25个像素),但是因为帧的外部尺寸作为约束所以块尺寸可以从开端在X和/或Y减小以保证边缘合适。基于使用Sobel算子被检测和测量的边缘内容,垂直地或水平地(后者优先)将每一个块划分为两半的迭代过程被执行。一般原则是如果发现包含不止一个要求的边缘内容,则块被划分(受限于最小块尺寸-见下面)。Sobel算子采取并应用为两个单独的二维3*3系数滤波器的形式。首先,Gx,显示在左下方,检测垂直边缘,其次,Gy,显示在右下方,^r测水平边缘。<table>tableseeoriginaldocumentpage12</column></row><table>由于Gx和Gy的系数值的范围,当在0到1的范围内与图像数据进行巻积时,这些滤波器呈现+4和-4的最大增益。因此从应用这些滤波器得到的结果首先是通过被4划分而被归一化为-1到+1的范围。(作为选择,归一化系数可以在Sobel算子中使用)图10说明了在其上应用了一些技术的源视频序列的一个图像。源视频序列事实上是通过从4096*1696像素的基本图像开始而人工产生的。应用整个像素移位(模拟照相机全景拍摄),以便将运动给予这样的图像的序列。最终的输出场通过使用相同因子的第n带(nth-band)滤波和随后的子采样得到的,其中值n=8提供了512*512个像素的完成尺寸。因此,源视频序列中的每一个场包括关于相邻场的运动,还表示基本图像的子采样版本。依次使用每一个算子(即,Gx的和Gy的)结果的绝对值并且只接受0.2和其以上(也就是,应用"大于"阈值0.2)的绝对(归一化)值,将Gx和Gy应用于如图IO所示的源图像产生图11和12中所示的两个边缘检测图像。特别地,图11示意性地说明了使用Gx算子检测的边缘,图12示意性地说明了使用Gy算子检测的边缘。像素由此被识别并标记为"边缘"像素。关于计划用于块匹配中的每一个像素块,^L检测的边缘像素的总数(最小归一化幅值0.2)被进行进一步的阈值测试以确定块是否可以被分离。每一个块在概念上被子划分为四个1/4(垂直地和水平地子划分两次)。如果每一个四分之一包括水平和垂直的边缘像素总数(其大于或等于预定最小(不能分割的)块尺寸中的像素数量),则块划分被接受。然而,如果只有水平数不足,则四分之一块的边界被融合(merged)并且两次垂直划分被接受。最后,如果只有垂直数不足,则四分之一块的边界被融合并且两次水平划分被接受。如果两个数都不足则块不划分,在每种情况下标记停止标准。当不再有子划分时,块匹配映射就完成了。将这一技术应用于具有如图11和12中所示的边缘阈值结果的如图IO所示的源图像,就会产生如图13中示意性所示的块划分模式。为了防止或至少避免用于估计块相似性的均方误差计算回到误差最小量,像素差限制被用来防止在地面实况周围的小范围内的块位移的总数饱和。用在块匹配中的标准MSE计算如公式1所示。<formula>formulaseeoriginaldocumentpage13</formula>在公式1中,块尺寸是^M个像素并且在一个帧中被表示为Ax,y,在下一个帧中被表示为Bx+j.y+k,其中j和k是在最小限度搜索期间应用的整个像素的水平和垂直位移。当然,B^,y+k代表根据使用图9和这里分析所要求的(在子像素中)实际位移的模数推导的那些的图像的合适相位。核差计算被限制每一个像素的全部误差的计算取代,如公式2所<formula>formulaseeoriginaldocumentpage13</formula>在公式2中,q是合适的常数。对于在0…1范围内的图像数据,已经发现q-l(T的值能^艮好的工作。这样的像素差限制已经被发现来提供在块搜索产生的完全二维误的更大的分辨力和区别。为了防止或至少减小由于块搜索方法带来的错误(或"劣质,,)向量的产生,通过块帧内(自)相关性能够得到用于劣质结果的潜在的预先警告的发生。为了应用这一技术,在同样的图像中的所要求的范围内块搜索被首先执行。最小MSE被记录。在第二帧中的块搜索如以前一样接着被执行,然而如果最小MSE记录大于帧内MSE,则从搜索中分解的向量祐^舍弃。使用帧内相关性结果,最大MSE标准也能够被应用。仅通过允许至少一个子像素在X和Y上的位移,用于可信匹配的最差可允许MSE的测量就可以得到。当已分解的位移(运动向量)应该理想地在地面实况的一个子《象素内时,对于任何帧间MSE这将是上限。根据描述的劣质向量消除方法,每一个向量的有效性在图14中显示,其中只有那些算法确认的以提供真实运动估计结果的块给出了轮廓。进一步地,现在将描述用于使用广义采样定理将运动向量估计应用于隔行逐行帧转换方法的技术。上文已经描述了鲁棒的基于帧的运动向量估计。然而,在当前的实施例中,不存在帧数据,将使用GST重建帧数据。没有准最佳运动向量,帧数据就不可能被创建,从而从一个场中复原像素位置到另一个中,并且为GST滤波器选择检测相位对准。帧数据和完美运动向量没有对方的话都不能存在,但任何一个都4艮难首先得到。一种选择是基于场的运动估计。不幸地是,由于从逐行形式的转换中的2:1子采样或者由于为了随后的显示使用隔行形式产生源素材的捕捉设备的固有工作方式,场数据被混叠。子采样不能保证图像数据的块与另一个图像中的任何大致相同的块完全匹配,因为选择的代表可能在一个样本集合中自然地排除在另一个样本集合中明显的一些或全部特点。然而,有可能至少一些数据将以同样的方式被混叠,从而将得到与正确位移的场间匹配。关于为保证鲁棒的基于帧的运动估计所作的三个改善,并不是所有这些改善都可以应用于基于场的估计。首先,场数据可能是以从一个或多个区域中排除重要细节的方式采样的结果,然而,事实上(或者在另一种情况(在时间上较后的场)中)该细节是存在的。因此,对可变块尺寸选择使用细节分析对于场数据来说是不相关的。然而,由于大的像素差,为防止误差总和溢出的MSE计算核的修改对于场数据是有效的。最好的情况是不含有由于原始信号内容的本质带来的混叠的伪像的场;由此核计算的修改提高了搜索算法的能力以分辨可归因于真实位移向量的最小误差。对于劣质向量回避技术同样如此。对于块搜索算法它是一个补充并且它只能够为没有重大混叠现象的场提高性能。对于严重混叠的场,有为什么块搜索算法可能如已经讨论过的那样失败的基本原因一一在这些条件下保留MSE核修改或者劣质向量消除方法将不会进一步降低性能。基于场的运动估计算法在下面进行描述,最初通过细节分析进行块选择的替换,随后通过进一步增强,使该技术在基于场的系统中更加成功。在GST运动估计算法中,通过一些最大初始尺寸在X和Y上的二的幂划分,用于基于场的MSE搜索的块尺寸是可变的。然而,这些划分被可允许的像素区域控制,在其下,块不能收缩。该方法支持粗劣的(awkward)图像尺寸(未将尺寸定为X或Y中任意二的幂的倍数)(也就是,MSE最小值是地面实况位移),同时保证块匹配计算中包括足够数量的像素以得到相关性结果的期望精度。在X和Y上用于块尺寸的起动值一般等于2《,但是具有总的初始最小区域值为2048个像素。在X和Y上小到22的最终的块尺寸由25个像素的最小区域支持。用于GST的运动估计包括用于有代表性的运动的场间块搜索,用于块相似性的场内搜索和帧间块位移验证。算法的两个阶段被执行以支持可变的块尺寸,如稍后将要讨论的。将子像素运动向量搜索算法应用于场数据会产生围绕地面实况向量的运动向量分布,甚至包含MSE核计算修改和劣质向量移除技术。这完全由于混叠和缺少场之间的图像数据的重复性。例如,测试序列产生如下表1中的运动向量分布,在该测试序列中,连续的图像在X和Y上分别以每帧9和3个子像素(在本例中是1/8个像素)的比率被移位。<table>tableseeoriginaldocumentpage16</column></row><table>从表1中,最多的向量是X,Y=18,3,其当然是正确的。基于场的运动估计在相同类型(偶数或者奇数)的场之间应用,其意味着有效地,在这些场被产生的帧之间在X和Y上有双运动。然而,仅使用场线的采集,这个双运动随后在Y上减半,只有X事实上,皮报告两倍于实际运动。因此,在用于建立场的帧之间,在X和Y上的9和3个像素的位移被检测为18和3个像素的位移。在这个例子中,合成的仅全景拍摄运动保证一个主要向量被检测。然而,实际场间运动可能比这个复杂的多。通常,候选运动向量以支持它们的块的数量为序被分类,以普及度(popularity)为序的一个或多个向量可以被选择用于进一步的处理和验证。通过场搜索得到的候选运动向量被验证以保证(或者至少增加其可能性)其有效性。在当前实施例中使用的方法包括使用GST的来自两个连续(先奇后偶,或者先偶后奇)场的帧的重复重建。用于重建的运动向量是从基于场的运动估计中得到的,以普及度为序分类。一旦两个连续的帧被重建,则基于块的匹配被用来验证每一个向量的正确性。用于匹配的块尺寸是可变的,并且是基于用于先前的场块尺寸选择所述的固定区域标准。假设正在被验证的运动穿过四个场都不变是有用的。从一个场对匹配得到的向量可以与从另一个场对匹配得到的向量结合,形成了滤波过程的第一阶段。例如,如果向量不被至少一个来自每个场对的块所支持,则其被舍弃。图15示意性地说明了向量验证的全部过程。候选运动向量在四场序列中的同样类型(奇数或偶数)的场之间产生。这些向量列表(以普及度为序分类,以及入口的阈值舍弃(如果其不出现至少两次,例如,在每个场对之间一次))的结合都帮助建立了向量的具优先次序的集合,保证了用于帧重建的GST的成功。一旦GST使用同样类型的相邻场重建两个帧,则当与其他比较时,用于所述情况的场向量是应用到映射在一个帧中的块的那个场向量。匹配标准是MSE优于块的任何帧内(自)相关性,其位移大于或等于一个子像素。其可被认为是与正在被验证的块中的视频的能量和复杂度相关的阈值并且暗指GST正在使用的运动向量必须正确使得在一个子像素之中用于帧之间的块匹配获得成功。对于除最少细节块外的所有块,验证阈值操作的很好,其中帧内误差小并且GST计算引起的伪像超过了它。验证运动向量的块被交予最终输出帧结果。从场分析中得到的候选运动向量列表可以被引用给下一个最普及向量,并且重复该过程,直到使用最小区域约束给予的块尺寸得到输出帧的最大可能比例。以上所述的运动向量的合格标准可以留下一部分未验证的重建帧块。自(帧内)相关设置的MSE阈值是非常紧缩的并且如果是下面情况则趋于舍弃块,1.块区域中的源帧细节特别低,产生很小的自相关MSE,不论GST重建有多好其都不能通过帧间相关变优。2.源帧具有在正在被分析的块区域中的复杂的运动(多于一个代表性向量)。(虽然见以下图18a到18e的讨论)由于显露的或覆盖的像素,在帧之间将不能得到好的块匹配。3.由于以上的特定情况(2),位于帧边缘的块,由于全景拍摄运动遭受当前像素的损失和新像素的增加,并且不能与其他帧中的块4艮好的匹配。通过块尺寸减小所有这些问题可以被解决到一定程度。在以上的(2)和(3)的情况中,较小的块将更适合于帧的一部分(其运动可以通过单个向量描述),细化对象和背景区域直到,但不包括,其轮廓。用于基于场运动估计和基于帧的运动验证的最小块区域被减小,并且以上所述过程被重复。小到16个像素的最小块区域(X和Y维各4个像素)在当前实施例中目前是被允许的。从大到小的块区域选择之后的基本定律如下。从大约2048个像素的最大块区域开始,最精确的基于场的运动估计和基于帧的运动验证被得到。随后将处理可能更易受到MSE最小量(不代表地面实况位移)的影响的较小的块,这样任何小的重建误差更好的被隐藏。在完成基于帧的向量验证的每一个循环之后,由于使用如下的较小块区域的基于场的候选运动向量的产生,任何被分解的图画区域从块选择中被排除。通过简单子采样,未分解的帧像素掩码;陂建立并^L2垂直地抽取。该掩码覆盖在场数据上用于候选向量产生的下一个循环。任何完成大于90%的场块从分析中被去除,因为任何使用其可以被分解的向量都已经被分解。未使用低于确定的阈值的MSE重建的其他块区域是那些沿着帧(由于全局拍摄运动其遭受新像素的增加和当前像素的损失的帧(以上第3点))的底部和左边缘的区域。带有未分解的运动的像素被半带内插现有场像素取代。平块区域缺少高频细节,这可能另外构成混叠。在最终的输出图像中,它们的内插对应部分通常在主观上不可检测。概括地说,单纯通过实例,迄今为止描述的全部运动估计算法可以如以下的步骤列表被陈述。对于从最大运动向量检测块尺寸降到最小运动向量检测块尺寸的连续块尺寸进行这些步骤。l.使用场0和2之间的最低MSE匹配标准,为所有的块位置产生运动向量列表,丢弃任何劣质的向量(其场内相似性比在块搜索期间发现的非零场间相似性要好)。2.对场1和3重复步骤1。3.联合(pooU两个向量列表。移除在联合列表中没有出现至少两次的向量(也就是在任何一个列表中出现两次或者在每一个列表中出现一次)。4.将列表以向量普及度为序分类(以最高频率发生的向量位于第一位)5.对于在列表次序中的每一个向量5.1使用场0作为当前场并且场2作为运动补偿场,使用来自联合分类列表的被选向量,重建测试输出图像。5.2重复步骤5.1,但是使用场l作为当前场,使用场3作为运动补偿场。5.3对于来自最大验证块尺寸降到最小验证块尺寸中的连续块尺寸5.3.l对于从场0和2中创建的测试输出图像中的块,使用一个子像素的位移得到图像内匹配阈值块相似性测量。5.3.2将从场0和2中创建的测试输出帧与从场1和3中创建的测试输出帧之间的块进行匹配。5.3.3如果测试帧间匹配优于帧内阈值,则接受向量并且将使用场0和2创建的测试输出帧中的被块覆盖的区域提交给最终输出图象。由此运动产生和运动验证阶段独立工作,并且都使用可变的块尺寸(从大约2048[达到64*32]个像素的区域开始,并且小到4个像素[例如2*2]结束),同时为了尺寸的减小用2重复划分。为了随后的在一个更小的块尺寸上的运动向量验证,有一个重叠规则,其在运动向量验证结果的反馈中被使用。这是需要的,因为最终输出图像的复杂区域可能存在(由于在多种块尺寸上的成功验证),甚至在下一个可变的块尺寸被用于产生更多的运动向量之前。任何在最终输出图像中4皮验证的块都被那样作标记。产生这个掩码的"场尺寸"表示,也就是,一种帧掩码的垂直子采样版本,其中如果该像素的运动已被验证(也就是,它是已经被验证的块的一部分),则在帧掩码中的每个位置是"1"(在这个例子里),如果没有被验证,那么就那是"0"。为了下一个块尺寸运动向量的产生,场尺寸掩码接下来被用来排除场区域。在下一个运动向量产生块尺寸上,如果块与已经验证的输出像素掩码有90%以上的重叠,它就不被用来产生运动向量。这样,当输出帧的剩余部分被分解/验证时,场之间的运动向量的随后联合应该收敛到未分解的图象区域的运动。目的是使主要的运动总是在联合候选运动向量列表的顶端。从较大的区域开始,特别是当试着使用潜在的混叠场数据估计运动时,通常产生需要随后验证的更准确的向量。这是从较大块开始的主要原因。大约同样尺寸或比块小的尺寸的对象中的运动可能不净皮检测——因此需要减小块尺寸。现在,图3的装置的各种详细方面将被描述。图16示意性地说明了半带滤波的方法。在图16中,已知像素行由阴影行400表示,运动补偿像素行由白色行410表示。假设除特定像素420之外所有的像素被成功地运动补偿。水平和垂直相位(子像素位置)校正将被执行。作为这个的一部分,有必要水平相位校正与缺少的像素420相邻(或者至少在半滤波器长度之内)的像素(例如像素440)。为了应用水平相位校正,使用多相位滤波器,如上所述。但是对于像素420这种滤波器需要一个值作为它的其中一个输入。但是没有这样的值,所以在邻近像素的相位校正执行之前必须产生一个值。没有这样一个值,则相邻或附近的像素440的相位校正将会不正确。这种类型的错误可能被随后的垂直相位校正放大,并且可能导致在输出帧上的主观干扰伪像。因此对于像素420发现好的隐藏值是适当的。其在下面被完成。首先,垂直半带内值被用于产生一行在像素420周围排列的垂直内插像素值,垂直内插像素值的数量对水平多相位滤波器的每个抽头是足够的。图16通过垂直折线盒示意性地显示了垂直内插滤波器430。每个垂直内插滤波器在与像素420相同的行中产生像素值。注意行410中的运动补偿值是为该过程临时备用;在行400中垂直半带滤波器仅参看真实的像素值。以上的过程在像素420周围产生一行半带内插像素值。在那一行里这些不能代替任何有效的运动补偿值,而仅用于到达对于像素420有用的隐藏值。通过多相位滤波器,"反向"的水平相移应用于这一组。"反向"相移是与应用于相邻或附近的像素440的相移相等并相对的相位移位。因此,在像素420周围创建的组里,反向相移滤波器的输入是半带内插像素。反向相移的结果是用于像素420的隐藏像素值。用于像素420的这个隐藏值像通常一样用于像素440的水平相移。这个技术可以扩展到其中缺少不止一个像素(将被水平相移的像素的滤波器尺寸内)的情况。通过垂直半带滤波产生所缺少的像素和它周围的那些像素。然后,反向相移应用于每一个像素。然后将被相移的像素通过多相位滤波器滤波,同时滤波器的至少一些输入由反向相移像素提供。这样得到的运动向量可以通过运动补偿器被使用以从一个或多个场(一般是临时相邻于当前场的一个或两个场)得到缺少的像素。图17a到17c示意性地说明了GST滤波器设计的实施例。特別地,图17a示意性地说明了隔行信号的典型空间频率语。场包含达到场尼奎斯特极限(场采样率的一半)的空间频率,但是由于隔行子采样过程,这些频率分量中的一些事实上将混叠,如图17a中阴影区域所示。然而,已经注意到逐行扫描帧的频率内容通常不扩展直到帧尼奎斯特极限,这就意味着当隔行场形成时,混叠分量(其关于场尼奎斯特极限"折叠")不趋向于向下扩展到零频率。当前实施例可以利用隔行信号的这个特点,记住GST空间位置校正滤波器的目的是减小混叠效应。在不存在混叠的频率区域,没有必要应用GST校正或甚至应用GST校正是不适宜的。图17b示意性地说明了低通("LP")-高通("HP")滤波器响应,借此达到场尼奎斯特极限的频率范围被划分为较低的频率区和较高的频率区域。基于经验试验,两个区域之间的交叉点在本实施例中被设置为大约场尼奎斯特极限的20%。因此,通常希望较低的频率区域不趋于包括任何混叠频率分量,而较高的频率区域包含混叠频率分量。图17b中显示的滤波器响应被应用于GST滤波器在其上操作的像素。较高的频率区域被进行GST空间位置校正,而较低的频率分量不进行GST空间位置校正。然后,这两个加回到一起。在经验测试中,已经发现改善了整个系统的信噪响应。图17c示意性地说明了用于执行滤波和部分校正技术的配置。特别地,图17c的配置显示是在运动补偿过程被执行以从当前场的相对极性的场中产生运动补偿像素之后的情况。参考当前场像素,其在上釆样器(upsampler)500上被因子2上采样。使用上采样是由于低频/非混叠分量正用于创建帧。该过程事实上是上采样和滤波过程-在执行中其被作为内插执行(带有应用于所使用的滤波器的20%场尼奎斯特频率响应)。然后,上采样像素平行于低通滤波器510和补偿延迟元件52(M支提供。低通滤波器510产生图Ub中所示的较低的频率区域。其被传递给下采样器530并且从那到加法器540。滤波器510的较低频率输出也通过减法器550从原始信号的延迟版本中被减去。这产生了较高频率区域,其通过采样器560被下采样,结果被传递给GST校正滤波器570。关于运动补偿像素,其遵循相似的路径,经过上采样器580,低通滤波器590,补偿延迟600,减法器610和下采样器620,由此运动补偿像素的较高频率分量被传递给GST滤波器570。GST滤波器的输出通过加法器540加回到当前场像素的较低频率分量。注意到一般来说,从已知场得到的低频分量只有一点或没有运动。来自已知场和未知场的较高频率分布通过位置校正滤波器被处理,以提供所需位置上的像素值。这给出了相位校正高频信息。其被加回给低频分布,其基本上是已知场的垂直内插。将参考图18a到18c来说明用于处理对象和图像边界,以及隐藏像素的技术。图18a示意性地说明了一种图像,其中对象700在确定的方向上运动并且图像背景在不同的方向上运动。显示了示意性的初始块匹配栅格,其标记了用在块匹配运动向量检测过程中的初始(最大的)块的位置。即使是图18a的简单情况,也会产生多种潜在的问题。例如,在对象700的尾缘,当对象移过时,像素将被揭示。这样的像素不能从先前的场中得到,因为它们不存在于所述场中。在对象和背景之间的边界上,选择正确的运动向量将会困难。同样,GST滤波器应用于在边界或4艮接近边界上的像素时,将接收来自边界另一边的像素值。所以,滤波器(其打算通过在边界像素上应用子像素校正来改进图像)实际上可能通过混乱对象700的边缘而损坏图像。如先前所述,在运动向量产生阶段间,对于一幅图象,通常产生多种不同的运动向量,但是对于图18a的图像,两个向量将是最频繁发生。这些是代表对象700运动的向量和背景运动的向量。这些向量的验证应当成功地远离对象700和背景之间的边界。但是验证过程将在边界上努力。图18b示意性地说明了最小块匹配栅格,其可被用在以上所述的块匹配过程中。即使用该最小栅格,在对象700和其运动背景之间的边界仍留有块(如黑方块所示),由此运动向量不能被正确地分解。现在将参考对象700和背景之间的边界区域处的四个块。这些块在图18c到18e中示意性地显示。在图18c中,显示了水平多相位滤波器720的一个实例,该水平多相位滤波器720用于校正正好在背景中的像素710的相位。显示的另一个实例是水平多相位滤波器740,其用于校正正好在对象中的像素730的相位。滤波器720将被对象像素(其将具有关于背景的不正确相位)"污染(contaminate),,,并且滤波器740将被背景像素污染(其将具有关于对象的不正确相位)。最好避免这种污染。同样的关注应用于垂直GST滤波器(未显示在图18c中)。使用镜像过程来重复使用正确公亩(are)(对象或背景)中的像素,由此避免该污染是可能的。图18d是该过程的示意性实例,其中多相位滤波器720、740(其降低边界的"错误边")中的抽头(tap)事实上被应用于来自边界的正确边的像素值。如已说明的,镜像过程是关于滤波器中心(像素710或730)对称的,但是相反,反射是关于边界对称的。相似的考虑应用到垂直GST滤波器中。然而不幸的是,这样的镜像过程依赖于边界位于哪儿的知识。边界的位置要求成功的运动向量验证阶段。所以,这是一个循环问题;边界的位置需要用来正确地放置边界。当前实施例通过一流的简单技术处理这个问题,该技术是使用比用于像素输出更短的用于运动向量验证的位置校正(多相位/GST)滤波器。由于其提供质量上的全面提高,因此为了最终的输出图像希望保留较长的滤波器。较短的滤波器可能在输出图像中引起不希望的伪像,诸如"鸣振(ringing)"。然而对于运动向量验证,由此运动向量被分配到每一个像素,较短的滤波器给予较低的污染危险并提供增加的能够在运动边界附近正确分配运动向量的机会。图18e示意性地说明了应用于运动向量验证阶段的两个短滤波器720和740/。诸如在图18c中示意性显示的较长滤波器(可能具有图18d所描述的镜像)可用于产生最终的输出图像。同样的考虑可以垂直地和水平地应用。一般滤波器抽头长度如下<table>tableseeoriginaldocumentpage24</column></row><table>可以理解,本发明的实施例能够在合适的软件控制的可编程或半可编程硬件操作下执行。这可以是通用计算机或诸如ASIC(专用集成电路)或FPGA(现场可编程门阵列)的配置。软件可以提供在诸如磁盘或固态存储器的存储介质上,或通过诸如网络或因特网连接的传输介质来提供,或者通过这些的结合来提供。权利要求1.视频运动检测设备,包括用于将运动测试应用到检测两个或多个测试图像之间的图像间运动中的装置,所述运动测试产生测试结果,所述测试结果提供运动向量和被检测的运动向量的完整性的指示;以及用于将所述运动测试应用到测试图像之一中以检测所述测试图像中的图像内相似性的装置;其中如果图像间运动相关联的测试结果显示了比由图像内相似性测试得到的测试结果更高的完整性,则由图像间运动测试产生的运动向量可用于作为所述设备的输出;以及如果图像间运动相关联的测试结果没有显示出比由图像内相似性测试得到的测试结果更高的完整性,则由图像间运动测试产生的运动向量不可用于作为所述设备的输出。2.根据权利要求1所述的设备,其中关于图像内相似性而检测的运动向量被限定为指示非零图像运动的运动向量。3.根椐权利要求1所述或权利要求2所述的设备,其中用于应用所述运动测试的装置包括,用于比较图像的测试区域和所述图像或另一个图像中的候选区域以检测测试区域和候选区域之间的位移,以给出测试区域和所述候选区域之间的最大相似性的装置;所述运动向量依赖于测试区域和所述候选区域之间的位移;以及所述运动向量的完整性依赖于检测的相似性。4.根据权利要求3所述的设备,其中候选区域位于关于测试区域的预定最大位移中。5.根据权利要求3所述或权利要求4所述的设备,其中所述运动向量的完整性与测试区域和所述候选区域之间的图像差异程度的关系相反。6.根据权利要求5所述的设备,其中所述差异程度是测试区域中的像素值和所述候选区域中的相应像素值之间的均方误差。7.视频处理设备,包括根据先前任一权利要求所述的视频运动检测设备;以及用于依赖于检测的运动向量而处理视频信号的装置。8.根据权利要求7所述的视频处理设备,该设备是扫描转换设备。9.视频运动检测方法,包括如下步骤应用运动测试以检测两个或多个测试图像之间的图像间运动,所述运动测试产生测试结果,所述测试结果提供运动向量和被检测的运动向量的完整性的指示;将所述运动测试应用到测试图像之一,以检测所述测试图像中的图像内相々乂性;如果图像间运动相关联的测试结果显示了比由图像内相似性测试得到的测试结果更高的完整性,则由图像间运动测试产生的运动向量可用于作为输出;以及如果图像间运动相关联的测试结果没有显示出比由图像内相似性测试得到的测试结果更高的完整性,则由图像间运动测试产生的运动向量不可用于作为输出。10.具有程序代码的计算机软件,当所述程序代码由计算机执行时,其被配置为使计算机执行根据权利要求9所述的方法。11.一种介质,通过所述介质提供根据权利要求10所述的软件。12.根据权利要求11所述的介质,该介质是存储介质。13.根据权利要求11所述的介质,该介质是传输介质。全文摘要视频运动检测装置,包括用于将运动测试应用于检测两个或多个测试图像之间的图像间运动的装置,所述运动测试产生测试结果,测试结果提供运动向量和被检测的运动向量的完整性的指示;和将运动测试应用于测试图像之一以检测该测试图像中的图像内相似性的装置;如果图像间运动相关联的测试结果显示了比由图像内相似性测试得到的测试结果更高的完整性,则由图像间运动测试产生的运动向量可用于作为所述设备的输出;以及如果图像间运动相关联的测试结果没有显示出比由图像内相似性测试得到的测试结果更高的完整性,则由图像间运动测试产生的运动向量不可用于作为所述设备的输出。文档编号H04N5/44GK101283577SQ200680037438公开日2008年10月8日申请日期2006年10月27日优先权日2005年10月31日发明者J·利文申请人:索尼英国有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1