检测一序列视频图象中的静止区域的方法

文档序号：7581874阅读：447来源：国知局

专利名称：检测一序列视频图象中的静止区域的方法
技术领域：
本发明涉及一种用来检测一序列数字视频图象中的静止区域的方法。这样一种方法通常可以被用于视频信号处理设备中，来检测一序列视频图象的中的运动情况。更具体地说，本发明的一种应用是瞬时视频格式转换领域，这种瞬时视频格式转换可以是运动补偿型的，也可以不是。这包括用于视频信号上变频转换的算法，如在装有50Hz至100Hz上变频装置的电视接收机中。这一应用领域包括低端上变频算法和高端上变频算法，在低端上变频算法中，简单的场(半帧)/帧重复被用来生成中间场/帧，在高端上变频算法中，采用运动补偿技术对中间场/帧进行计算。另一个应用领域是视频标准转换，主要是50Hz(赫兹)至60Hz和60Hz至50Hz的转换。其它重要的应用领域是MPEG视频编码和隔行扫描到逐行连续扫描的转换。
有了一序列视频图象中的静止区域的映象图，才可以实现对非运动区域的象素的具体处理。其效果例如可以是这样的，在采用运动补偿技术用于插入图象(转换技术)或用于复构图象(压缩技术)时保持一幅图象中的静止区域的完整分辨率。关于静止区域的信息通常可用于检测视频图象序列中的运动的所有算法，因为零运动的区域就是视频广播场景中按统计结果出现最频繁的区域。
在一个上变频转换或视频标准转换中，输出序列的分辨率可以在非运动区域进行优化，其方式是将运动补偿处理关闭并简单地将源象素复制到输出中。
在MPEG视频解码领域，传输被划分为静止区域的象素块中的最小量的信息，可以节省比特速率。的确，如果运动补偿作用于两帧或具有同样奇偶性的两个场，对于静止象素块来说，只要传输象素块为静止的信息就足够了。这意味着象素块的运动矢量为0，而且所有的预测误差(这种说法是针对MPEG视频标准)应该为0(它们可能并不正好是0，但如果确定了象素块是静止的，那么很明显，非零预测误差代表着不应被传输的噪声组份)。
另一个好处来自于一种自然现象，即，人的眼睛对静止区域的缺陷比对运动区域中的缺陷更敏感，这样，有关图象中静止区域的位置的信息显得非常重要，因为只要简单地复制静止区域的源象素，因运动补偿处理所造成的缺陷就可以避免了。
本发明的目的在于提供一种用于检测一序列视频图象中的静止区域的可靠的算法。这一目的是通过本发明的权利要求1中所提供的方法来实现的。
本发明所提供的方法原则上包括5个步骤第一，计算连续帧或具有相同的奇偶性的连续场相应的象素之间的象素差异；第二，针对视频图象的象素块，累计象素差异的幅度；第三，针对所述象素块，计算累计象素差异的阈值；第四，把所述阈值与累计象素差异进行比较，得到静止象素块的一个初步映象图；第五，通过消除孤立的静止象素块或小组的相邻静止象素块，对静止区域的初步映象图进行清理。
本发明在隔行扫描源条件下可以取得具有良好可靠性的静止象素块的检测，因为它在具有相同奇偶性的两个场上操作。这样，也避免了由于隔行扫描效果而带来的不需要的扰动。通过累计相应象素的差异值的幅度，有噪声存在条件下静止区域检测的强度得到提高，因为噪声组份的随机变化被消除了。
从属权要求中所表达的方法进一步改进了权利要求1中(也即上面)所描述的方法。如权利要求2所述的，通过把象素块的阈值匹配于帧或场的一个估计的噪声水平和一个象素块梯度的量，本方法的可靠性进一步提高。考虑象素块梯度的原因是摄象机即使发生非常小的移动，也会在存在很高空间频率的区域造成巨大的象素差异。所以用来确定阈值的公式包括一个与象素块梯度成正比的“惩罚”项。
考虑到这一因素后计算阈值的一个简单的公式由权利要求3给出。如果在一个象素块中存在许多较高空间频率组份与/或明显的噪声，那么，将要与象素块的累计象素差异进行比较的相应阈值将会高。有了这些方法，划分一个象素块为静止的或非静止的决定就比正常化了，就是说，可以不受噪声和图象内容的影响。
权利要求4提供了检测象素块梯度的一个最佳实施例。
权利要求5给出了用于计算阈值的公式中的比例常数α、β的最佳实施例。这些数值是针对估计噪声水平σ被作为一个标准偏差来计算、并用灰度水平进行表达的情况而优化的。
权利要求6给出了把阈值用于累计帧差异的一个简单的实施例。
权利要求7提供了用来对静止区域的初步映象图进行清理的优选方案。其中，孤立的静止象素块或小组的邻近象素块被从静止/非静止象素块的初步映象图中消除。
权利要求9至11提出了可以采用本发明技术方案的重要的设备。
对本发明的实施例的详细描述是结合下述附图进行的，其中

图1是用来检测一个视频图象序列中的静止区域的算法的流程图；图2a)是用来解释相应象素之间的象素差异的计算方法的连续视频帧的示意图；图2b)是用来解释具有相同奇偶性的场中的相应象素之间的象素差异的计算方法的连续视频场的示意图；图3是帧被再分成等大小的象素块的帧的片段；图4是静止区域的一个初步映象图的片段；图5是用于静止区域的一个初步映象图的清理过程的水平与垂直邻近区域的示例；以及图6是与相应于图4的一个静止区域最终映象图的片段。
本发明所提供的用于检测两幅连续视频图象中的静止区域的新方法需要一个前提，即视频图象必须是以数字形式存在的，就是说，模拟源的视频图象必须被进行离散取值和数字化处理。如此生成的数字象素值被存储于帧或场存储器中，这是本领域所公知的内容。如果源视频信号比如是一个标准NTSC信号，那么离散取值的频率是13.5MHz，帧重复速率是每秒30帧。一个水平线周期持续63.5毫秒。所以，在每个水平线中生成858个象素。由于NTSC制式中每帧含有525个水平扫描线，一帧就有858×525=450450个象素。通常用8个比特来表示一个象素，对于帧存储器来说，一个帧存储器必须提供858×262.5=225225字节的存储容量。
本发明的方法适用于逐行扫描和隔行扫描视频图象。其差别将在下面加以详述。
本发明所提供的用来检测连续视频图象中的静止区域的新方法含有几个必须一一顺次进行的步骤。所有的步骤都可以由一个处理单元来执行，该处理单元比如可以含有一个执行一个相应的计算机程序的微处理器。下面结合图1对这样的一个程序加以解释。毋需解释的是，该方法还可以用一个专用集成电路来实施，如一个具有用来执行不同的步骤和任务的专用硬件的ASIC电路。
在步骤10中，对于逐行连续扫描视频系统，第一帧N-1被读入一个第一帧存储器；对于隔行扫描视频系统来说，一个奇/偶场被读入一个第一场存储器。在步骤11中，对于连续扫描视频系统来说，下一帧N被读入一个第二帧存储器；对于隔行扫描视频系统来说，与步骤10中被读入的场具有同样的奇偶性的下一个奇/偶场被读入一个第二场存储器。当这些步骤完成的时候，两个平行的分支程序开始被执行。
采用第一种对图象进行模型化的方法，图象可以被模型化为一个代表图象信息的第一信号组份与一个噪声组份的叠合。在非移动图象部分，相应象素间的差异正是场间或帧间噪声差异的样本。在移动图象部分，由一个特定的象素位置所表示的场景目标中的坐标点在一幅图象与下一幅图象中是不同的，所以一个额外的信号差异组份将被加入到噪声差异中。因此，从均值角度来说，移动部分的差异幅度大于静止部分的差异幅度。这就是为什么本发明的方法中象素差异被与阈值进行比较以区分静止与移动象素的原因。
回到图1中的流程图，第一分支含有步骤12至15，在这些步骤中，对两个帧/场的差异进行分析。第二个分支含有步骤16至21，在这些步骤中，对阈值进行计算以决定图象的哪个部分是静止的或非静止的。
先对含有步骤12至15的第一分支进行说明。这里所提出的方法是基于对连续帧/场的象素内的差异进行分析。所说的差异被定义为占据同一位置的象素的灰度的差异，包括两种情况逐行连续输入源条件下的两个连续帧，隔行输入源条件下的具有相同奇偶性的两个场，即两个场周期分开的两个场。
在步骤12中，对存储于帧/场存储器中的两个帧或两个场进行象素差异计算。图2的上半部分给出的是两个连续帧N-1和N。其中，帧N-1所关心的是前一帧，而帧N所关心的是当前帧。这些帧都含有一定数目的线，如图2所示。每线都含有一定数目的象素，前面已有所描述。在帧N-1和帧N中都分别给出了一个象素30。这两个象素的差异可以由下列公式来计算PD(x,y)=LN(x,y)-LN-1(x,y)其中，LN(x,y)代表当前帧中(x,y)位置象素30的亮度值，LN-1(x,y)代表前一帧中(x,y)位置象素30的亮度值。
在图2的下半部分，给出了隔行扫描视频图象条件下的3个连续的场N-2、N-1、N。场N-2与场N具有相同的奇偶性，而场N-1具有相反的奇偶性。这也可以通过图2中的实线与虚线清楚地看出来。仍然用参考序号30来表示将要计算差异值的象素，这一次的计算用下面的公式来进行PD(x,y)=LN(x,y)-LN-2(x,y)在步骤13中，象素差异计算的结果被存储于相应的存储器位置。存储有最旧的帧N-1/场N-2的帧/场存储器可以用于这一用途。在存储器中等于是存储了一幅象素差异的映象图。
步骤14中，象素差异的幅度被累加到预先确定的象素块上，可以是交迭的，也可以是不交迭的。图3给出了非交迭象素块中帧或场的再分示例。在这个例子中，每个象素块含有16×8个象素。自然，其它的例子也可用，如8×8象素块等。采用非交迭式象素块简化了存储器组织。
对于每个象素块B(i,j)，计算组成象素块的每个象素的象素差异PD(i,j)的绝对值的总和，作为累计象素差异APD(i,j)。这提高了在有噪声存在的情况下静止象素块检测的鲁棒性，因为图象中的噪声组份的随机变化可以被累计操作的过程消除。
在步骤15中，累计象素差异值APD(i,j)被收集于相应的存储器位置。注意，数字i和j决定了帧或场内象素块的位置。
下面对图1中含有步骤16至21的第二分支加以说明。在此分支中，计算前述每个象素块的阈值T(i,j)。注意，在这个分支中，只考虑当前帧或场的象素数据。在步骤16中，计算一个“象素块梯度”g(i,j)。所谓的象素块梯度是指存在于当前象素块B(i,j)中的空间梯度。在本发明的最佳实施例中，g(i,j)的计算方式是从水平gx(i,j)与垂直gy(i,j)梯度组份中选取大的那个，用如下公式表示g(i,j)=MA×[gx(i,j),gy(i,j)]其中，水平梯度组份gx(i,j)被估计为水平相邻的象素的亮度差异的绝对值的平均，垂直梯度组份gy(i,j)被估计为垂直相邻的象素的亮度差异的绝对值的平均，计算的对象包括组成当前象素块B(i,j)的N个象素P(k,l)，其灰度用L(k,1)表示。计算公式如下{gy(i,j)=1NΣL(k,l)&Element;B(i,j)|L(k,l)-L(k,l-1)|gx(i,j)=1NΣL(k,l)&Element;B(i,j)|L(k,l)-L(k-1,l)|]]>在步骤17中，如此算得的象素块梯度被存储于相应的存储位置。只所以考虑象素块梯度是因为即使摄象机发生非常小的移动，到了存在很高的空间频率的区域，也会导致巨大的象素差别。
在步骤18中计算阈值。阈值T(i,j)被设计成与象素块梯度相匹配，相匹配的方式是它包含一个与象素块梯度成正比的“惩罚项”。这些阈值还被设计成与当前帧或场的噪声水平的估计值相匹配。噪声水平是被作为步骤18的一个外部输入。噪声水平的估计是在视频处理领域一个众所周知的问题。例如，号码为EP-A-0 562407的专利申请就公开了一种用于噪声测量的方法与装置。所以，在此不必详细解释噪声估计的过程。但上述专利申请可以作为参考。另外一个有用的信息是，本专利申请的发明人在本专利申请的同一申请日提交了另一份有关噪声估计的一种新方法的发明申请，其内部参考号是PF980012。
设一个象素块中的象素数是N,σ是可能的噪声水平的估计值，每个阈值都可以由σ和g(i,j)的加权平均来获得T(i,j)=N(ασ+βg(i,j))数值α和β取决于噪声水平σ和象素块g(i,j)被表达的精确度。出于此目的，一个由不同数值的α和β所组成的表格可以被存储于存储器中。如果按照本发明的最佳实施例算得g(i,j)，如上所述，并且如果σ代表了被表达成了一个灰度水平的标准偏差，那么α和β的最佳选择分别是1.4与1/8。
在步骤21中，这些阈值被收集到相应的存储器位置中。
步骤22中，针对每个象素块B(i,j)把累计帧差异APD(i,j)与阈值T(i,j)进行比较，以提供静止区域的一个初步映象图PM。该映象图的每个象素PM(i,j)都与一个象素块B(i,j)相关联并代表一个为这个象素块所采取的二重(静止的或非静止的)决定。按照惯常的作法，数值1代表静止象素块，0代表非静止象素块，PM(i,j)可以由如下公式给出
比较是在步骤22内进行的，其结果在步骤23被输入存储器。当步骤23执行完成后，在存储器中已经有了一个初步的静止区域映象图。图4所示是这样一个初步映象图的示例。
值得注意的是，在多个非静止象素块所组成的区域内会有一些静止的象素块。通常这些象素块的尺寸远远小于图象中的真实物体的相应尺寸。这种情况下，孤立的象素块或小组孤立的象素块一定是误检测的结果，不能代表静止物体。所以，在初步映象图中的这些静止象素块相关联的象素必须有表示非静止象素块的象素来替代。
出于这种目的，在下一个步骤24中执行一个对映象图进行腐蚀的步骤，即把孤立的静止象素块或小组的相邻静止象素块去掉，就象进行对映象图进行腐蚀一样，从而提供一个最后的静止区域映象图FM。这一步骤主要起作用于象素块的尺寸远远小于图象中真实物体的尺寸的情况。
在本发明的最佳实施例中，腐蚀过程的实现过程是处理初步映象图中的每个输入(等同于当前场或帧中的每个象素块)，具体过程如下如果当前象素块B(i,j)已经被划分为非静止的，即PM(i,j)=0，那么，也设定FM(i,j)=0(即，什么也不做)，而如果PM(i,j)=1，则1．考虑一个以当前象素块为中心的水平邻近区域，并把MX个象素块作为水平邻近它的象素块；2．数出在这个邻近区域内被划分为静止态的象素块的数目SX。
3．如果比值SX/MX小于一个预先设定的阈值TX，那么设定FM(i,j)=0，即说明这一象素块为非静止的。
4．考虑一个以当前象素块为中心的垂直邻近区域，并把MY个象素块作为垂直邻近它的象素块；5．数出在这个邻近区域内被划分为静止态的象素块的数目SY。
6．如果比值SY/MY小于一个预先设定的阈值TY，那么设定FM(i,j)=0。
数值MX、MY、TX、TY应该与象素块和图象的尺寸相匹配。图5给出了用于在NTSC、PAL、SECAM和16×8象素的标准电视图象中对映象图进行腐蚀的过程所采用的水平与竖直邻近区域的一个示例。参考标号40表示含有3个相邻象素块的竖直邻近区域。参考标号41表示含有5个相邻象素块的竖直邻近区域。当前象素块由参考标号42表示。在这个例子中，TX值被确定为3/5,TY值被确定为2/3。
对于位于场或帧的边界的象素块来说，可以改变对初步映象图进行腐蚀的步骤。例如，对于顶部和底部边界的象素块来说，步骤4至6可以被省略。对于左右边界的象素块来说，步骤1至3可以被省略。
在映象腐蚀步骤24之后，在步骤25中获得静止象素块的最终映象图。图6所示即是在对图4中的初步映象图进行清理之后而获得的最终映象图。
权利要求
1．一种用来检测一序列视频图象中的静止区域的方法，其特征在于，它包括以下步骤a)计算连续帧或具有相同奇偶性的连续场的相应象素(30)之间的象素差异；b)针对视频帧的象素的象素块(B(i,j))累计象素差异的幅度；c)计算象素块的阈值T(i,j)；d)把阈值T(i,j)用于相应的象素块的累计象素差异，提供静止区域的一个初步映象图(PM)；e)通过消除孤立的静止象素块和小组的相邻静止象素块，修正所述初步映象图(PM)。
2．如权利要求1所述的方法，其特征在于，所述的每个象素块的阈值T(i,j)被匹配于a)当前场或帧的一个估计的噪声水平(σ)，和b)一个象素块梯度的量值(g(i,j))。
3.如权利要求1或2所述的方法，其特征在于，所述的阈值水平T(i,j)是通过如下公式计算的T(i,j)=N(ασ+βg(i,j))其中N是一个象素块中的象素数，数值α和β是基于如何确定估计的噪声水平σ和象素块g(i,j)所选择。
4.如权利要求2或3所述的方法，其特征在于，象素块梯度g(i,j)的计算方式是从水平gx(i,j)与垂直gy(i,j)梯度组份中选取大的那个，即g(i,j)=MAX[gx(i,j),gy(i,j)]其中，i,j是一帧或场的一行和一列中的象素块数，水平梯度组份gx(i,j)和垂直梯度组份gy(i,j)被分别计算为水平相邻的象素的亮度差异的绝对值的平均，计算是根据象素块B(i,j)的灰度值L(k,l)对N个象素P(k,l)进行的，即{gy(i,j)=1NΣL(k,l)&Element;B(i,j)|L(k,l)-L(k,l-1)|gx(i,j)=1NΣL(k,l)&Element;B(i,j)|L(k,l)-L(k-1,l)|]]>
5.如权利要求4所述的方法，其特征在于，如果所述帧的噪声水平σ代表一个由灰度水平表示的标准偏差，α被取值为1.4,β被取值为1/8。
6.如权利要求1至5所述的方法，其特征在于，把象素块B(i,j)的累计帧差异APD(i,j)与相应的阈值T(i,j)进行比较，而且，为每个象素块B(i,j)指定一个代表该象素块是静止或非静止的的数值，最好按以下公式进行
其中PM(i,j)是静止区域的一个初步映象图的一个输入，数值1代表静止象素块，0代表非静止象素块。
7.如权利要求1至6所述的方法，其特征在于，所述静止区域的初步映象图被如下处理a)如果当前象素块B(i,j)已经在静止区域的初步映象图中被划分为非静止的，即PM(i,j)=0，那么，相应的输入在静止区域的最终映象图中也被划分为非静止的，即FM(i,j)=0；b)如果当前象素块B(i,j)已经被划分为静止的，则进行如下步骤ⅰ)造成一个以当前象素块(42)为中心的、具有MX个象素块的水平邻近区域(41)；ⅱ)数出在这个邻近区域内被划分为静止态的象素块的数目SX；ⅲ)分析比值SX/MX是否小于一个预先设定的阈值TX，如果是这样，那么在静止区域的最终映象图中把当前象素块划分为非静止的，即FM(i,j)=0；ⅳ)造成一个以当前象素块为中心的、具有MY个象素块的垂直邻近区域(40)；ⅴ)数出在这个邻近区域内被划分为静止态的象素块的数目SY。ⅵ)分析比值SY/MY是否小于一个预先设定的阈值TY，如果是这样，那么在静止区域的最终映象图中把当前象素块划分为非静止的，即FM(i,j)=0。
8.如权利要求7所述的方法，其特征在于，其中所述的数值MX、MY、TX、TY与象素块的尺寸、帧或场的尺寸相匹配。
9.如权利要求1至8中任何一个所述的方法，其特征在于，它们是应用于一种用于视频图象的运动补偿编码的设备的方法。
10.如权利要求1至8中任何一个所述的方法，其特征在于，它们是应用于一个用于视频图象的运动补偿编码的设备，尤其用于50Hz至100Hz上变频、50Hz至60Hz标准转换、或60Hz至50Hz标准转换的方法。
11.如权利要求1至8中任何一个所述的方法，其特征在于，它们是应用于一种用于隔行扫描到逐行连续扫描转换的视频信号处理设备的方法。
全文摘要
本发明公开了一种用来检测一序列视频图象中的静止区域的方法,它包括以下步骤:计算连续帧或具有相同奇偶性的连续场的相应象素(30)之间的象素差异;针对视频帧的象素的象素块(B(i,j))累计象素差异的幅度;计算象素块的阈值T(i,j);把阈值T(i,j)用于相应在象素块的累计象素差异,提供静止区域的一个初步映象图(PM);通过消除弧立的静止象素块和小组的相邻静止象素块,修正所述初步映象图(PM)。
文档编号H04N5/44GK1234691SQ9910329
公开日1999年11月10日申请日期1999年3月31日优先权日1998年4月14日
发明者弗朗西斯·勒克莱尔申请人:汤姆森多媒体公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：弗朗西斯.勒克莱尔
技术所有人：汤姆森多媒体公司
我是此专利的发明人

上一篇：一种多路传输数据总线的远程终端的制作方法
上一篇：数据通信系统、方法、设备和数字接口的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。