适用于任意形状目标结构的预处理方法

文档序号:7715669阅读:208来源:国知局
专利名称:适用于任意形状目标结构的预处理方法
技术领域
本发明涉及预处理对应代表任意形状目标的图像元素(像素)的输入数据的方法,所说输入数据包括用于每个目标的纹理部分,对应于所说目标的像素的值,和目标掩模,将所说输入数据细分成分别对应于在所说结构部分中的全部或部分不透明像素和透明像素的第一和第二数据子组,所说预处理方法被提供用于确定对应于所说不透明像素的DCT(分立余弦变换)系数,和对每个考虑的目标包括步骤(1)将目标平面划分成平面块;(2)在由所说块定义的图像区域中引入一组选择的基底矢量,以表示初始像素值的估算为所说基底矢量的线性组合;(3)定义一个成本函数ψ,以测量在该像素值的初始表示和该初始表示的所说估算之间的失真;(4)求得允许使该成本函数ψ最小化的系数。
目的在于有效地编码任意形状的结构的本发明特别在与MPEG-4标准相关的方面有用,但不限于这样的应用。
背景技术
在1999年颁发的MPEG-4标准为的是对有效地编码在原始的和综合图像中的可见目标提出一个统一的方法。对于不得不涉及这些目标(一般由依次可包含任意形状目标的若干层制成)的一个编码器,它们以两个部分的形式出现目标掩模,它可以是二进制的,或由灰度级像素制成,和对于情景合成表示由该解码的使用的字母通道(alphachannel)值,以及结构部分,即该目标的像素的值(在该掩模中的一个白的像素意味着在结构部分中的相应像素是不透明的,由此替换在该层的分级结构中在它的后面的任意其他目标的像素,而一个黑的像素意味着在结构部分中的相应像素是完全透明的,即是看不见的)。本发明特别提供了该结构部分的编码操作。
对于在一个MPEG-4编码器中编码移动的结构,普通方法是使用图像块的DCT变换(分立余弦变换)。更准确地,该被编码的平面划分成16×16像素大小的宏块,而16×16亮度信息进一步划分成四个由平面8×8 DCT变换编码的4个8×8块(相同的2D变换再次用于包含U和V色度信息的两个8×8块)。对于任意形状的目标,任意8×8块能降落到三个类别或者它仅包含透明的像素(则这里不需要编码结构信息)或者仅包含不透明像素(标准矩形的8×8 DCT用来编码该结构信息)或者它包含至少一个不透明的像素和一个透明的像素。按该第三种情况解决的问题是借助位耗损有效编码该部分结构信息。
首先通过扩展纹理边界像素,在空的空间充满之后该结构能经典地DCT编码成矩形宏块(在不透明区域的边界处每个取样被水平地重复到左或右方向,以取代透明区域,而在垂直方向重复相同的处理,得到的填充的像素稍后由解码器删除,因为它知道该目标掩模)。然而该填充方法从频谱的观点来看引入不是最佳的模式(它们在水平方向可以是平坦的,而在垂直方向随机改变并导至不希望的频率分量,当宏块是DCT编码时,这些频率分量将消耗更多的位。
另一个在MPEG-4标准中归一化的解决方案是所谓形状-自适应DCT,它用两个步骤过程编码

图1的模式(如说明给出的)。如图2中说明的,所有不透明的像素在欲被编码的块中首先偏移到最上位置,然后一个自适应的一维n-DCT施加到每列,n是在所说列中不透明像素的数量(在图2例中,从左到右,1,4,7,5,7和1-DCT分别施加在垂直方向)。之后合成的垂直的DCT系数类似地偏移到块中最左位置,从而产生图3的模式,同时一维n-DCT类似地施加到每行(n是在有关行中不透明像素的数量)。不幸地,用此方法,需要在有关的MPEG-4解码器中专门的功能度(如与用于全不透明块的经典的8×8 DCT算法相反),这种偏移操作通常引入高的频率,因为它们使在空间上分离并因此相关性小的像素或系数连续起来。
发明概述因此本发明的目的在于提出一种预处理方法,这种方法避免引入不要的频率并由此导致一个更好的编码效率。
因此,本发明是与一种方法相关,这种方法例如在说明书引言中所定义的而其特征在于(a)所说成本函数ψ由该类型关系给出ψ=(fopaque.Σi=164cibopaque(i))]]>这里f是有关块的像素的列矢量,((bi),iε(1-64))是8×8 DCT的基底矢量,fopaque是对所说块的不透明像素的f的限制,((bopaque),iε(1-64))是对该块的不透明像素的位置的所说基底矢量的限制,和 称为fopaque的再现;(b)所说求得步骤本身包括下列操作-初始化下列参数,包括迭代参数K=0;fopaqueE=0]]>的初始估算;初始再现系数ci0=0;]]>-提取对投影系数的不透明像素和计算限制的基底矢量pi0={(fopaque-fopaqueE),bopaque(i)}]]>用{}表示交叉相关函数,i从1变化到64,和(bopaque)是所说受限制的基底矢量;-迭代(s),每个所说迭代提供来用于执行下列子步骤[a]求得该基底矢量的指数i*,其最好贡献于使成本函数最小;[b]按关系更新fopaqueE的再现fopaqueE(k+1)=fopaqueE(k)+pik·bopaque(i)]]>[c]对i≠i*和ci*k+1=ci*k+pi*k]]>和投影系数 更新再现系数cik+1=c1k;]]>-如果所说成本函数ψ低于一个给定的阈值,或如果达到一预定的迭代量,中断所说迭代。
附图简述现在将通过例子,参照附图5描述本发明,其中图1-3说明用来编码一个任意形状的目标的结构像素的现有技术方法(形状自适应DCT);
图4说明给出按本发明的一种预处理方法的主要步骤的流程。
发明的详细说明按本发明的预处理方法是基于古典的8×8 DCT变换,以便如在MPEG-4标准中定义的那样取得现存解码器结构的优点,但是通过计算该DCT系数提供了较好的编码效率,DCT系数最好地再现不透明像素而不管透明的像素,同时使非零系数的数量最小。所说方法是以下文献中所描述的方法的一种修正J.H.Chang and al,“A projectiononto the overcomplete basis approach for block lossrecovery”,Proceeding ICIP-97,october 26-29,1997,SantaBarbara,Calif.,USA,Vol.II,pp.93-96。
按照在所说文献中描述的方法提供的修正,开始想的是在不可靠的MPEG-4视频流情况下丢失信息的隐蔽技术(在这样的一种情况中,甚至在这样的流中一个小误差将传播到大量的块,以及需要识别和发现损坏的图象块),基本思想是通过引入过完全的(over-complete)基底,将对一层块的估算表示为该基底矢量的线性组合,并求得该基底矢量的投影系数以使失真测量最小来从一系列未损坏值得到非损坏的原始像素值的估算。例如下列符号D=一个损坏的块N=所说块的未损坏的相邻块U=D和N的结合(=更大的块)的确打算从未损坏的相邻信息N估算包含关心的受损的块D的更大的块U。如果f=(fij,(i,j)εU指示未损坏的原始像素值(具有i,j∈N),因此任务就是估算f。如果知道每N个像素值,则可预料f的估算fE的失真的测量,而失真测量定义成以下方差ψ(fE)=||f-fE||N2=Σi,j(fi,i-fi,jE)2]]>如果(b)l=(bi,jl)]]>是U的一个基底,而一组基底矢量被选择来将原始f表示成该基底矢量的线性组合,由于信息记录区的相关以及考虑某些相关的假设,一个受损块和它的相邻可能具有类似的频谱特性。因此投影系数<f,bl>N=Σi,jfi,j·bi,jl---(i,jϵN)]]>可以是该原始系数的一种良好的估算<f,bl>U=Σi,jfi,j·bi,jl---(i,jϵU)]]>因此,如果系数a’lS是使fNE=Σlalbl]]>是fN的一个好的近似,则fUE=Σlalbl]]>将是fU的一个好的近似(下标N和U表示矢量域)。
发现一个受损块的问题则是求得允许使ψ最小的这些系数a’lS,使用该文献中所描述的迭代算法这是可能的。按本发明目的的该预处理方法,现在该问题用修改的符号和考虑重新加以阐述-f现在是被编码的宏块的像素的列矢量;-fopaque是对所说宏块的不透明像素的f的限制;-B指示8×8 DCT变换的基底函数B=(bi),i∈(1-64);-Bopaque=(bopaque(i)),i∈(1-64),指示对不透明像素的位置这些基底矢量的限制。
之后所说的问题在于通过使最小化的成本函数ψ=||fopaque-Σi=164cibopaquei||2]]>具有最大数量的零系数求得在最小均方意义上最好再现fopaque的紧凑的一组系数(ci)。
如果该宏块f是全部不透明的,则可能存在能再现所有像素的DCT系数的唯一的组合(矩形8×8 DCT)。但是如果只希望再现f的特定部分,则存在能再现包含相同不透明像素的块的无数DCT系数。事实上,正DCT系数(和最紧凑系数组)的确定是不明显的,因为当限制到不透明像素位置时,DCT变换的基底函数不再是正规化的。为求得使成本函数ψ最小的系数,现在提出下列迭代算法,其用最大能量对一个投影函数顺序地搜索(绘制在图4中)(1)第一步骤(初始化INIT)
K=0(迭代数)fopaqueE=0]]>(初始估算fopaque)ci0=0]]>(初始再现系数)(2)第二步骤(提取子步骤EXTR和计算子步骤CALC)计算投影系数pi0={(fopaque-fopaqueE),bopaque(i)},]]>用{}指示交叉相关函数,i从1-64变化,(bopaque(i))是对不透明像素(像素PWT具有结构,由形状掩模SM限定)限制的提取的8×8 DCT基底矢量。
(3)第三步骤(K次迭代,利用估算),每次迭代,例如第K次迭代,本身包括操作(a)求得基底矢量的指数i*,其捕获余数的最大能量i*=arg.max||pik·bopaque(i)||2]]>对于i=1-64(b)按下列关系更新再现fEopaque(在子步骤UPDA中)fopaqueE(k+1)=fopaqueE(k)+pik·bopaque(i)]]>(c)更新再现系数cik+1=cik]]>对于i≠i*和ci*k+1=ci*k+pi*k]]>(在子步骤UPDA中);(d)更新(在子步骤UPDA中)余数的投影系数pik+1={fopaque-(fopaqueE(k+1),bopaque(i))}]]>pik+1={fopaque-Σj=1j=64pjk·(bopaque(i)-((pi*k·bopaque(i*)),bopaque(i))}]]>pik+1=pik-pi*k·{bopaque(i*),bopaque(i))}]]>(4)第四步骤(中断迭代算法试验,或子步骤TEST),其中,如果该余数小于一给定的阈值εψk+1=|fopaque-fopaqueE(k+1)|≤ϵ]]>或者如果达到一预定的迭代数kmax,则迭代处理将停止(反回YES到测试),否则通过重复第三步骤(3)继续(反回NO到测试),只要不满足这些条件。在算法实施结束时,cik是8×8 DCT系数,其将产生任意形状的不透明像素。
之后,这样描述的预处理方法可继之以一般提供于结构编码的普通的操作量化,单个系数的预测(如果需要),以进一步降低它们的熵,系数的扫描和可变长度编码,如像在普通MPEG编码策略中提供用于一个全不透明块的DCT系数那样。而上述本发明与MPEG-4标准的特定例子有关,要理解的是本发明不打算限界或限制到该特定例子本发明不限制到任何特定的用于得到输出位流的编码策略。
权利要求
1.一种预处理对应代表任意形状目标的图像元素(像素)的输入数据的方法,所说输入数据包括用于每个目标的纹理部分,对应于所说目标的像素的值,和目标掩模,将所说输入数据细分成分别对应于在所说结构部分中的全部或部分不透明像素和透明像素的第一和第二数据子组,所说预处理方法被提供用于确定对应于所说不透明像素的DCT(分立余弦变换)系数,和对每个考虑的目标包括步骤(1)将目标平面划分成平面块;(2)在由所说块定义的图像区域中引入一组选择的基底矢量,以表示初始像素值的估算为所说基底矢量的线性组合;(3)定义一个成本函数ψ,以测量在该像素值的初始表示和该初始表示的所说估算之间的失真;(4)求得允许使该成本函数ψ最小化的系数;其特征在于(a)所说成本函数ψ由该类型关系给出ψ=(fopaque.Σi=164cibopaque(i))]]>这里f是有关块的像素的列矢量,((bi),iε(1-64))是8×8 DCT的基底矢量,fopaque是对所说块的不透明像素的f的限制,((bopaque),iε(1-64))是对该块的不透明像素的位置的所说基底矢量的限制,和 称为fopaque的再现;(b)所说求得步骤本身包括下列操作-初始化下列参数,包括迭代参数K=0;fopaqueE=0]]>的初始估算;初始再现系数ci0=0;]]>-提取对投影系数的不透明像素和计算限制的基底矢量pi0={(fopaque-fopaqueE),bopaque(i)}]]>用{}表示交叉相关函数,i从1变化到64,和(bopaque)是所说受限制的基底矢量;-迭代(s),每个所说迭代提供来用于执行下列子步骤[a]求得该基底矢量的指数i*,其最好贡献于使成本函数最小;[b]按关系更新fopaqueE的再现fopaqueE(k+1)=fopaqueE(k)+pik·bopaque(i)]]>[c]对i≠i*和ci*k+1=ci*k+pi*k]]>和投影系数 更新再现系数cik+1=c1k;]]>-如果所说成本函数ψ低于一个给定的阈值,或如果达到一预定的迭代量,中断所说迭代。
2.按权利要求1的预处理方法,其特征在于该成本函数由关系定义ψ=||fopaque-Σi=164cibopaque(i)||2]]>和子步骤[a]被提供用来求出捕获余数fopaque-Σi=164cibopaque(i)]]>的最大能量的基底矢量的指数i*i*=arg.max||pik·bopaque(i)||2]]>对于i=1-64
3.一种编码对应于任意形状目标的结构的输入数据的方法,所说编码方法包括至少所说结构输入数据的一种DCT变换,从所说变换得到的系数的量化,微分预测编码的数据,和所说量化系数的可变长度编码操作,其特征在于所说DCT系数是系数cik,由实施按权利要求1的预处理方法得到并对应于任意形状目标的不透明像素。
4.一种用于编码对应于任意形状目标的结构的输入数据的编码设备,所说编码设备包括至少一个装置用于实施所说纹理输入数据的一种DCT变换,从所说变换得到系数的量化,编码的数据的微分预测,和所说量化系数的可变长度编码操作,其特征在于所说DCT系数是系数cik,由实施按权利要求1的预处理方法得到并对应于任意形状目标的不透明像素。
全文摘要
本发明涉及预处理数据的一种方法,该数据相应于任意形状的目标和对每个目标包括纹理部分和目标掩模,所说方法对与一个目标相关的每个目标平面包括步骤(1)把目标平面划分成平面块;(2)在每一块中引入一组选择的基底矢量,以便将初始像素值的估算表示为所说基底矢量的一种线性组合;(3)定义一个成本函数ψ以便测量该像素值的初始表示和该初始表示的所说估算之间的失真;(4)求得允许使所说成本函数ψ最小化的系数,该步骤本身包括下列操作初始化,提取检索不透明像素的基底矢量和计算投影系数,迭代,和按照一个预定的标准中断所说迭代。
文档编号H04N7/30GK1456014SQ02800223
公开日2003年11月12日 申请日期2002年1月29日 优先权日2001年2月6日
发明者S·E·瓦伦特 申请人:皇家菲利浦电子有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1