帧间编码的方法和装置的制作方法

文档序号:7738242阅读:172来源:国知局
专利名称:帧间编码的方法和装置的制作方法
技术领域
本发明涉及数字信号处理,本发明尤其涉及编码数字图像信息的无损方法。
背景技术
数字图像处理在数字信号处理的主要学科中具有十分突出的位置。人类视觉的重要性已经在数字图像处理技术和科学中引发了极大的兴趣和发展。在视频信号的传输和接受的领域中,例如,一些适用于投影胶片或电影的领域中,已经对图像压缩技术进行了多种改进。许多当前使用的和计划中的视频系统都采用了数字编码技术。该领域的各个方面涉及到图像的编码、图像的恢复,以及图像的特征选择。图像编码是指试图以一种有效的方式来传输数字通信信道的图片,使用尽可能少的比特来减小所需的频带宽度,同时,将失真保持在一定的限制范围中。图像恢复是指努力恢复目标的真实图像。在通信信道上所传输的编码图像会受到各种因素的影响而失真。在从目标产生图像中就会出现原始的降级根源。特征的选择是指图片中的某些属性的选择。这些属性在更宽背景中的识别、分类和判决中都是必需。
诸如在数字摄像机中的视频的数字编码是一个受益于改进的图像压缩技术的领域。数字图像压缩一般可分成为两类无损的方法和有损的方法。无损的图像是没有损失任何信息而恢复的图像。有损的方法包含着一种某些信息不可恢复的损失,这种损失取决于压缩比率、压缩算法的质量,以及算法的实现方法。一般说来,有损压缩方法被认为能够获得适用于成本-有效的数字影院方法所需的压缩比率。为了能达到数字影院的质量等级,压缩方法应该具有视觉无损的性能等级。正是如此,虽然作为压缩处理存在着信息的数学损失,但是在正常的观看条件下,由这种损失所引起的图像失真应该是观众所不能观察到的。
现有的数字图像压缩技术一直是为其它应用,通常是为电视系统所开发的。这种技术已经作出了设计的折衷以适用于预定应用,但是这些方法并不能满足影院放映所需要的质量要求。
数字影院压缩技术应该具有常看电影的人原先所经历的视觉质量。理想的是,数字影院的视觉质量应该试图超过高质量的发行反印胶片的视觉质量。同时,压缩技术应该具有实用的高编码效率。正如本文所定义的,编码效率是指适用于满足一定质量等级的压缩图像质量所需的比特率。
典型的视频压缩技术是基于差分脉冲编码调制(PDCM)、离散余弦变换(DCT)、运动补偿(MC)、熵编码、分开压缩,以及小波变换。一种压缩技术既能提供压缩的显著等级同时又能保持适用于视频信号所需的质量等级,它采用了编码的DCT系数数据的自适应大小的分块和子分块。下文将这种技术称之为自适应分块大小差分余弦变换(ABSDCT)方法。
视频压缩的一个关键方面是在序列中的相邻帧之间的相似性。一种在该领域中的突出的现有技术是运动补偿,正如在MPEG中的运动补偿。所进行的运动补偿是采用来自序列中的相邻帧的有不完全预测来编码图像的。这类预测和/或补偿方案都会在原始的源和解码的视频序列之间引入误差。经常是。这些误差会增加到难以接受的地步并在高质量的应用中带来了一些讨厌的问题。例如,在运动图片专家组(MPEG)的压缩材料中,运动的假象时常是可以观察到的。运动的假象是指在当前帧中能够看到的前面帧或后面帧的影响,或重影。这类运动的假象也使得以一帧一帧为基础的视频编辑成了一件困难的工作。于是,就需要一种帧间编码方案,来克服当前帧间编码技术中的缺点,并且减小诸如运动假象这类视觉缺陷。

发明内容
本发明的实施例揭示了一种帧间编码的方法,该方法可有效地增加了采用任意基于变换的压缩技术所提供的压缩增益且不会引入任何附加的失真。这类方法在本文中称之为delta编码器或delta编码处理,它揭示了视频序列在频域中的空间和时间的冗余性。即,delta编码器揭示了序列在从一帧到下一帧只存在着很小变化的情况下则该序列存在着高度的时域相关性。正是如此,变换域特性在视频序列中的相邻帧之间保持着十分明显的连贯性。
在适用于对数字视频进行编码的系统中,讨论了一种帧间编码的方法。数字视频包括一个固定的帧和至少一个后续帧。每一个固定的帧和每一个后续帧都包含着多个象素元素。固定帧和每个后续帧的多个象素都可以从象素域的元素转换成频域的元素。频域的元素被量化以强调那些对人们视觉系统较敏感的元素和不强调那些对人们视觉系统不敏感的元素。确定在固定帧的每个量化频域元素和每个后续帧的相应的量化频域元素之间的差值。在一个实施例中,一个固定帧是与预定数量的后续帧相关联的。在另一实施例中,固定帧是与后续帧相关联的,直至在后续帧和固定帧之间的相关特性达到了难以接受的地步。在还有一个实施例中,采用了滚动的固定帧。
因此,本发明的一个性能和优点是能有效地进行图像数据的编码。
本发明的另一性能和优点是减小运动假象的影响。


参照附图阅读以下较佳实施例的说明,将能更清晰地理解本发明的性能、目的和优势。在整个附图中,相同的标号标示相应的部件,其中图1是图像处理系统的方框图,该图结合了本发明的基于方差的分块大小分配系统以及其方法;图2是说明在基于方差的分块大小分配中所涉及的处理步骤的流程图;图3是说明在帧间编码中所涉及的处理步骤的流程图;图4说明了在delta编码器操作中所涉及的处理步骤的流程图。
较佳实施方式的说明为了能便于数字信号的数字传输以及享有其相应的利益,这就需要采用一些信号压缩的方式。为了能在最终的图像中获得高清晰度,保持图像的高质量也是很重要的。此外,为了满足小型的硬件实施就需要计算的效率,这在许多应用中都是很重要的。
在一个实施例中,本发明的图像压缩是基于离散余弦变换(DCT)技术。一般来说,在数字域中要处理的图像是由象素数据所组成的,这些图像可分成一系列非重叠块,在大小上为N×N。对每一块可进行两维DCT。该两维DCT可以由下列关系来定义
X(k,l)=α(k)β(l)NΣm=0N-1Σn=0N-1x(m,n)cos[(2m+1)πk2N]cos[(2n+1)πl2N],0≤k,l≤N-1]]>式中 和x(m,n)是在一个N×M块中的象素位置(m,n),以及,X(k,l)是对应的DCT系数。
由于象素数值是非负的,所以DCT分量X(0,0)始终是正的,并且具有最大的能量。事实上,对于一个典型的图像来说,大多数变换能量是集中在X(0,0)分量周围。这种能量的紧缩特性使得DCT技术成为一种具有吸引力的压缩方法。
可以理解的是,大多数自然图像是由平坦的相对较慢变化的区域,以及诸如目标边界和高对比度纹理的繁忙变化的区域所组成。对比度自适应编码方案可利用通过给繁忙的区域分配较多的比特和给较不繁忙的区域分配较少的比特的这一因素。在美国专利5,021,891题为“自适应块大小图像压缩方法和系统”中披露了这一技术,该专利已转让给本发明的受让人并通过引用包括在此。在美国专利5,170,345题为“自适应块大小图像压缩方法和系统”中也披露了DCT技术,该专利已转让予本发明的受让人并通过引用包括在此。此外,在美国专利5,452,104题为“自适应块大小的图像压缩方法和系统”中也披露了与一个差分四叉树状变换技术组合的ABSDCT技术的使用,该专利已转让予本发明并通过应用包括在此。在这些专利中所披露的这些系统采用被称之为“帧内”编码,在该编码中,各帧图像数据的编码是与任何其它帧的内容无关的。使用ABSDCT技术,在较大程度上,所获得的数据率是与图像质量的可分辨的降级程度无关。
使用ABSDCT,视频信号一般将分成适用于处理的象素块。对各个块来说,亮度和色度分量输入到块的交织器。例如,可以向块交织器提供16×16(象素)块,块交织器在每个16×16的块中排序或组织图像采样,以产生适用于离散余弦变换(DCT)分析的数据块和合成子块。DCT运算器是一种将时间采样信号转换成同一信号的频率表示的方法。通过转换成频率表示,当量化器能够设计成可利用一幅图像的频率分布特性时,DCT技术就显示出具有非常高的压缩程度。在较佳实施例中,一个16×16的DCT用于第一次排序,四个8×8 DCT用于第二次排序,十六个4×4 DCT用于第三次排序,而六十四个2×2 DCT用于第四次排序。
从图像处理的目的来说,DCT操作是对分成为一非重叠块阵列的象素数据进行的。应该注意的是,尽管在本文所讨论的块大小是以N×N为大小的,但是使用其它各种块大小也是显而易见的。例如,在N和M都是整数而M或是大于或是小于N的情况下,可以使用N×M块大小。另一重要的方面是,各块可以分成为至少一层子块,例如,N/i×N/i,N/i×N/j,N/i×M/j,以及其它等等,其中i和j都是整数。此外,本文所举例的块是一个对应于DCT系数的块和子块的16×16的象素块。还应该理解的是,诸如两个都是奇数或偶数的整数的各种其它整数也都可以使用,例如,9×9。
一般来说,一幅图像可以分成为适用于处理的象素块。彩色信号可以从RGB空间转换成YC1C2空间,其中,Y可以是亮度或辉度分量,而C1和C2是色度或彩色分量。因为眼睛对彩色只具有较低的空间灵敏度,所以许多系统就在水平和垂直方向按4倍来子采样C1和C2分量。然而,这种子采样并不是必须的。全分辨率的图像,称之为4∶4∶4格式,在一些称之为复盖“数字影院”的应用中既是非常有用的还是必须的。两种可能的YC1C2表示方法是YIQ表示法和YUV表示法,这两种表示法都是该领域中的熟知技术。也有可能采用一种YUV表示法的变形,称之为YCbCr。
现在参照图1,图1显示了一种结合了本发明的图像处理系统100。图像处理系统100包括编码器102,它用于对所接受到视频信号进行编码。通过物理媒介,通过传输信道104来发送或传输被压缩的信号,并由解码器106来接受。解码器106将所接受到的信号解码成图像样本,随后显示该样本。
在较佳的实施例中,Y、Cb和Cr分量并没有采用子采样来处理。于是,向编码器102提供一个16×16象素块的输入。编码器102可以包括一个块大小分配元件108,它用于进行块大小分配,以准备视频压缩。块大小分配元件108根据在块中图像的感觉特征确定16×16块的块分解。依据在16×16块中的运动,块大小可以四叉树结构将各个16×16块子分成更小的块。块大小分配元件108产生四叉树数据,可称之为PQR数据,该数据的长度可以在1和12比特之间。于是,如果块大小分配确定一个16×16块需要再分,就设置PQR数据中的R位并且紧跟着对应于四个再分的8×8块的Q数据的四个附加比特。如果块大小分配确定8×8块中的任何一个需要再细分,则增加适用于每个被细分的8×8块的P数据的四个附加比特。
现在参照图2,该图提供了显示块大小分配元件108的操作细节的流程图。该算法采用了一个块的方差作为决定再分一个块的度量。在步骤202开始,读取一个16×16的象素块。在204,计算该16×16块的方差,v16。该方差可以采用下列方法来计算var=1N2Σi=0N-1Σj=0N-1x2i,j-(1N2Σi=0N-1Σj=0N-1xi,j)2]]>式中N=16,以及xi,j是在N×N块第i行和第j列的象素。在步骤206,如果块的平均数值是在两个预定的数值之间,则改变第一方差阈值T16,使之提供一个新的阈值T’16,随后再将块方差与新的阈值T’16相比较。
如果方差v16不大于阈值T16,则在步骤218,写入该16×16块的起始地址,并且将PQR数据中的R比特设置为0,以表示该16×16块没有进行再分。该算法随后读取下一个16×16象素块。如果该方差v16大于阈值T16,则在步骤210,将PQR数据中的R设置为1,以表示该16×16块将被再分成四个8×8块。
正如在步骤212中所显示的,接着考虑四个8×8块,i=1∶4,作为进一步的再分。对于每个8×8块来说,在步骤214,计算方差v8i。在步骤216,如果块的平均数值是在两个预定的数值之间,则改变第一方差阈值T8,以提供新的阈值T’8,随后将块方差与该新的阈值相比较。
如果方差v8i不大于阈值T8,则在步骤218,写入该8×8块的起始地址,并且将相对应的Q比特,Qi设置为0。随后处理下一个8×8块。如果方差v8i大于阈值T8,则在步骤220,将对应的Q比特,Qi设置为1,以表示该8×8块将需要再分成四个4×4块。
正如步骤222所显示的,接着考虑该四个4×4块,Ji=1∶4,用于进一步的再分。对于每个4×4块来说,在步骤224,计算方差v4ij。在步骤226,如果块的平均数值是在两个预定数值之间,则改变第一阈值T4,以提供一个新的阈值T’4,则将块方差与这新的阈值相比较。
如果方差v4ij不大于阈值T4,则在步骤228,写入4×4块的地址,并且将对应的P比特,Pij设置为0。随后,处理下一个4×4块。如果方差v4ij大于阈值T4,则在步骤230,将对应的P比特,Pij设置为1,以表示该4×4块将要再分成四个2×2块。此外,写入四个2×2块的地址。
阈值T16,T8和T4可以是预先确定的常数。这被称之为硬判决。另一种选择是,可以进行一种自适应和软判决。该软判决可根据2N×2N块的平均象素数值来改变用于方差的阈值,其中N可以是8,4和2。于是,平均象素数值的函数可以作为阈值来使用。
为了说明的目的,来考虑下列实例。对于16×16,8×8和4×4块来说,让Y分量的预先所确定的方差阈值分别为50,1100和880。换句话说,T16=50,T8=1100,而T4=880。让均值设置的范围为80和100。假定适用于16×16块的计算方差为60。由于60和它的均值90都大于T16,则16×16块再分成四个8×8子块。假定适用于8×8块的计算方差是1180,935,980,和1210。由于两个8×8块具有超过T8的方差,所以这两个块进一步再分,以产生总共八个4×4子块。最终,假定八个4×4块的方差是620,630,670,610,590,525,930,和690,与第一四个对应的均值为90,120,110,115。由于第一4×4块的平值均在范围(80,100)内,它的阈值将被降低为T’=200,这小于880。所以,该4×4块将与第七4×4块一样被再分。
值得注意的是,可以采用类似的过程来分配适用于彩色分量C1和C2的块大小。彩色分量可以在水平,垂直和两者方向上被抽选。另外,值得注意的是,尽管已经以自顶向下的方式讨论了块大小的分配,在这过程中,最大的块是最先被估计(在本发明中是16×16),但也可以采用自底向上的方式。自底向上的方式将首先估计最小的块(在本发明中是2×2)。
再次参考图1,来讨论图像处理系统100中的其它部分。PQR数据,与所选择的块地址一起,提供给DCT元件110。DCT元件110采用PQR数据对所选择的块进行适当大小的离散余弦变换。只有被选择的块才需要进行DCT处理。
图像处理系统100可任选的包括DQT元件112,用于减小在DCT的DC系数之间的冗余度。可以在各个DCT块的左上角找到DC系数。一般来说,该DC系数比AC系数大。这种大小上的矛盾使得设计一个有效的可变长度编码器很难。因此,减小在DC系数之间的冗余度这是有利的。
DQT元件112对DC系数进行2维DCT,且每次取2×2。在4×4块中以2×2块开始,对四个DC系数进行一次2维DCT。这个2×2DCT被称为4个DC系数的差分四叉树变换或DQT。接着,DQT的系数,与8×8块中的三个相邻DC系数一起用于计算下一级的DQT。最后,在16×16块中的四个8×8块的DC系数可以用于计算DQT。于是,在一个16×16块,就存在着一个正真的DC系数,而其它是相对应于DCT和DQT的AC系数。
变换系数(DCT和DQT两者)都提供给量化器114,用于量化。在一个较佳实施例中,DCT系数是采用频率加权掩模(FWM)和一个量化标度因子来量化的。FWM是一个作为与输入DCT系数块的相同维数的频率加权的表。频率加权对不同的DCT系数使用不同的加权。所设计的加权是用于强调具有对人视觉系统更为敏感的频率成分的输入采样,以及不强调具有对视觉系统不是很敏感的频率成分的采样。该加权也可以根据观察的距离等等来设计。
可以根据一幅图像的测量和理论统计量来设计霍夫曼码(Huffman)。可以观察到,大多数的自然图像都是由空白的或相对较慢变化的区域,和诸如目标边界和高对比度纹理的繁忙区域所组成。具有频域变换(例如,DCT)的霍夫曼码可通过向繁忙的区域分配更多的比特和向空白的区域分配较少的比特来利用这种性能。一般来说,霍夫曼码可以使用查找表的方式来对运行长度和非零数值进行编码。
可根据经验数据来选择加权。在国际标准化组织1994年发布的ISO/IECJTC1 CD 10918,“连续频调静止图像的数字压缩和编码一部分1基本要求和指导原则”中讨论了对8×8 DCT系数的加权标志的设计方法,其内容通过引用包括在此。一般来说,可设计两个FWM,其中,一个用于亮度分量,而另一个用于色度分量。采用抽选的方法可以获得块大小位2×2,4×4的FWM表,通过对8×8块的FWM表的内插就能获得16×16的FWM表。标度因子控制着量化系数和质量和比特率。
于是,各个DCT系数可以根据以下关系来量化 式中DCT(i,j)是输入DCT系数,fwm(i,j)是频率加权掩模,q是标度因子,以及DCTq(i,j)是量化系数。值得注意的是,根据DCT系数的符号,在大括号内的第一项是上下轮转的。DQT系数也是使用适当的加权掩模来量化的。然而,可以使用多个表格和掩模,并且将它们应用于Y、Cb和Cr分量的每一个。
量化的系数可提供给delta编码器115。Delta编码器115可以不增加任何其它失真或量化噪声的方式,有效地增加由基于压缩技术,例如,DCT或ABSDCT,的任何变换所提供的压缩增益。Delta编码器115可构成用于确定在相邻帧之间的系数差分形式的非零系数,并且对差分信息进行无损编码。在另一实施例,可以对差分信息进行稍微有损的编码。在平衡与空间和/或速度要求有关的质量的考虑中,这类实施例是必要的。
固定帧和相应的后续帧的delta编码系数可提供给Z字形扫描串行化器116。该串行化器116以Z字形的格式来扫描量化系数块,以产生一个量化系数的串行化码流。也可以选择多个不同的Z字形的扫描图形,以及不是Z字形的其它图形。一个实施例采用了8×8块大小作为Z字形扫描,但是也可以采用诸如32×32,16×16,4×4,2×2或上述组合的其它大小。
值得注意的是,Z字形扫描串行化器116可以设置在量化器114的前面或者后面。其最终结果是相同的。
在任何情况下,量化系数的码流提供给可变长度编码器118。可变长度编码器118可以在编码之前使用零的游程长度编码。该技术在先前提及的美国专利5,021,891,5,107,345和5,452,104进行了详细的讨论,本文进行了综合。游程长度编码器是取出量化系数并注意从非连续系数中的连续系数的游程。该连续的数值可称之为游程长度的数值,并进行编码。该非连续的数值是相互分开进行编码的。在一个实施例中,该连续系数是零的值,并且非连续系数是非零的值。典型的是,任意长度范围是从0至63名并且该大小是一个从1-10的AC数值。文件代码的结束要增加一个附加代码,于是,就存在着总共为641个可能的代码。
所压缩的图像信号一般是由编码器102所产生的,并且通过传输信道104发送至解码器106。PQR数据,它可包含块大小的分配信息,也提供给编码器106。解码器106包括一个可变长度解码器120,该解码器可以解码游程长度的数值和非零数值。
频域方法,例如DCT,可以将一块象素变换成一个较低相关性和较少变换系数的新的块。这类频域的压缩方案也采用了在图像中察觉到的失真的知识来改善该编码方案的目标性能。图3说明了一个帧间编码器300的这种处理过程。在象素域中式将所编码帧的数据原始读取到系统中304。各帧编码的数据随后分成象素块308。在一个实施例中,块大小是可变的并且可以使用一种自适应块大小的离散余弦变换(ABSDC)技术来分配。块大小可根据在一个给定区域中的细节数量来变化。任何块大小都可以使用,例如,2×2,4×4,8×8,16×16或者32×32。
随后,对编码的数据进行处理,将数据从象素域转换成频域中的元素312。这涉及到DCT和DQT的处理,正如图2所讨论的。在待处理的美国专利申请“使用蝶形处理器来计算离散余弦变换的装置和方法”(2001年6月6日提交,序列号不详,律师代理号No.990437)中也讨论了DCT/DQT的处理,该文内容通过特殊引用包括与此。
随后,量化所编码的频域元素316。量化可以涉及根据由系数量化前的对比度灵敏度的频率加权,在频域中经编码数据的最终块具有很少的非零系数用于编码。在频域的相邻帧中经编码的数据的对应块一般在零的位置和图案以及系数的数值方面都具有相似的特征。随后,量化的频率元素进行delta编码320。Delta编码器计算适用于相邻帧之间的非零系数的系数差值,并且对信息进行无损编码。对信息的无损编码是通过串行化324和游程长度幅度编码328来完成的。在一个实施例中,游程长度幅度编码后紧随着是诸如霍夫曼编码的熵编码。可以在所感兴趣的帧之间延伸串行化处理324,以获得较长的游程长度,从而进一步增加delta编码器的效率。在一个实施例中,也采用了Z字形的排序。
图4说明了delta编码器400的操作。可以将多个相邻的帧看成一个第一帧,或固定帧,和相对应的相邻帧,或后续帧。首先,输入固定帧的频域中的元素块404。在408,也读取了下一帧和后续帧的元素所相对应的块。在一个实施例中,所用的16×16的块大小与BSA对块大小的突破是没有关系的。然而,这只是一种可以使用任何块大小的预期。
在一个实施例中,可以使用由BSA所定义的可变块大小。在固定帧和后续帧的相对应元素之间的差值是可以确定的412。在一个实施例,只是在固定帧和每个后续帧的块中相对应的AC数值被比较。在另一实施例中,DC数值和AC数值都进行比较。于是,后续帧可以采用在固定帧和后续帧之间的差异结果来表示416,只要该差异是与适当的固定帧是相关联的。一块接着一块进行处理,比较固定帧和后续帧的所有相对应的元素并计算其差异。随后,讯问是否存在着另一个后续帧420。如果存在,则固定帧就以同样的方式与下一个后续帧进行比较。重复上述处理,直至完成了固定帧和所有相关的后续帧的计算。
在一个实施例中,一个固定帧与四个后续帧有关,尽管可以设想使用任何数量的帧。在另一实施例中,一个固定帧可以与N个后续帧相关联,其中N取决于图像序列的相关性特征。换句话说,一旦在一个固定帧和一个给定的后续帧之间所计算的差异超过了指定的阈值,就将建立一个新的固定帧。在一个实施例中,阈值是预先确定的。已经发现在保持一个可接受比特率的同时,需要考虑大约95%平衡质量的帧间的相关性。然而,这是可以根据所基于处理的材料改变的。在另一实施例中,该阈值可以构成在任意相关的程度上。
在还有一个实施例中,采用了旋转的固定帧。一旦第一后续帧的计算完成之后,该后续帧就变成位新的固定帧424,并且进行该帧与其相邻帧的比较。因此,一旦确定了在一个固定帧和一个后续帧之间的差异之后,该后续帧就变成为新的固定帧,并进行再次比较。例如,如果帧1是固定帧,而帧2是后续帧,以上述所讨论的方式确定在帧1和帧2之间的差异。帧2就作为新的固定帧再与帧3进行比较,并且再次计算在相对应元素之间的差异。重复该处理,直至材料的所有帧都通过。
在许多压缩和数字视频处理方案中包含着在实施例各方面所采用的压缩编码算法和方法。本发明的实施例可以驻留在计算机中或专用集成电路中,来执行数字视频的压缩和编码。该算法本身可以软件方式或以可编程方式或以专用硬件方式来执行。
再参照图1,可变长度解码器120的输出提供给一个逆Z字形扫描串行化器122,它根据所采用的扫描方案来排序系数。逆Z字形扫描串行化器122可接受PQR数据,以辅助将系数适当地排序成复合的系数块。
将复合块提供给一个逆量化器124,用于解除由于频率加权掩模的使用而附加的处理。随后,将最终的系数块提供给一个IDQT元件126,如果是已经应用了差分四叉树形变换,则紧接着提供给IDCT元件128。否则,该系数块就直接提供给IDCT元件128。TDQT元件126和IDCT元件128对系数进行逆变换,以产生一个象素数据块。该象素数据块随后必须进行内插,转换成RGB格式,并随后存储以备进一步显示。
作为实例,结合本文所披露的实施例进行讨论的各个图示的逻辑模框、流程图、和步骤都是可以硬件方式和软件方式以应用专用集成电路(ASIC),可编程逻辑器件,分离门电路或晶体管逻辑,分离硬件元件(例如,寄存器和FIFO),能执行一组中间件指令的处理器,任何常规的可编程软件和处理器,或者它们的任何组合方式来实现或实施。处理器可以是微处理器,也可以是其它处理器,处理器可以是任何常规处理器,控制器,微控制器或状态机。软件可以驻留在RAM存储器,闪存存储器,ROM存储器,寄存器,硬盘,移动盘,CD-ROM,DVD-ROM或在本领域中尽人皆知的何其它形式的存储媒介。
较佳实施例的上述讨论使得本领域中的熟练技术人士都能理解和使用本发明。对于本领域的熟练技术人士来说,这些实施例的各种变化都是显而易见的,并且本文所定义的基本原理也可以无需任何创造性劳动应用于其它实施例。因此,本发明试图并不局限于本文所显示的各个实施例,而是符合于所解释的原理和新颖特征相一致的最宽范围。
权利要求
1.在一个适用于对数字视频编码的系统中,数字视频包括一个固定帧和至少一个后续帧,该固定帧和每个后续帧都包含了多个象素元素,一种帧间编码的方法,该方法包括将固定帧和每个后续帧中的多个象素从象素域元素转换成频域元素,该频域元素能够以DC元素和AC元素来表示;将频域元素量化成强调那些对人视觉系统较敏感的元素而不强调那些对人视觉系统不敏感的元素;以及,确定在固定帧的每个量化频域元素和每个后续帧的相关量化频域元素之间的差。
2.如权利要求1所述的方法,其特征在于,所述转换的操作是采用离散余弦变换(DCT)。
3.如权利要求2所述的方法,其特征在于,所述转换的操作还包括采用离散四叉树变换(DQT)。
4.如权利要求1所述的方法,其特征在于,所述量化的操作还包括使用频率加权掩模来加权元素。
5.如权利要求4所述的方法,其特征在于,所述量化的操作还包括采用量化器阶跃函数。
6.如权利要求1所述的方法,其特征在于,有四个后续帧与固定帧进行比较。
7.如权利要求1所述的方法,其特征在于,只确定在AC量化的频域元素之间的差。
8.如权利要求1所述的方法,其特征在于,还包括将多个象素元素分组成16×16块大小。
9.如权利要求1所述的方法,其特征在于,所述量化的操作产生无损的频域元素。
10.如权利要求9所述的方法,其特征在于,所述量化的操作产生有损的频域元素。
11.如权利要求1所述的方法,其特征在于,还包括将后续帧表示成在固定帧的量化频域元素和后续帧的对应频域元素之间的差。
12.如权利要求1所述的方法,其特征在于,还包括串行化所量化的频域元素。
13.如权利要求12所述的方法,其特征在于,还包括对串行化的量化频域元素进行可变长度编码。
14.在一个用于对数字视频编码的系统中,数字视频包括多个帧1,2,3,...,N,每个帧都包含多个象素元素,一种帧间编码的方法,该方法包括将每个帧中的多个象素从象素域元素转换成频域元素,该频域元素能够以行和列来表示;将频域元素量化成强调那些对人视觉系统较敏感的元素而不强调那些对人视觉系统不敏感的元素;以及,确定在第一帧的量化频域元素和第二帧的对应量化频域元素之间的差;以及,重复确定在后续帧的量化频域元素之间差的处理,使得每个帧的量化频域元素与紧接着它前面的帧的量化频域元素进行比较。
15.如权利要求14所述的方法,其特征在于,还包括将帧2至N的每个帧表示成在帧2至N的量化频域元素和帧1至N-1的对应频域元素之间的差。
16.如权利要求14所述的方法,其特征在于,所述转换的操作还采用了离散余弦变换(DCT)。
17.如权利要求16所述的方法,其特征在于,所述转换的操作还采用了离散四叉树变换(DQT)。
18.如权利要求14所述的方法,其特征在于,所述量化操作还包括使用频率加权掩模来加权元素。
19.如权利要求18所述的方法,其特征在于,所述量化操作还包括采用量化器阶跃函数。
20.如权利要求14所述的方法,其特征在于,只确定在AC量化的频域元素之间的差异。
21.如权利要求14所述的方法,其特征在于,还包括将多个象素元素分组成16×16块大小。
22.如权利要求14所述的方法,其特征在于,所述确定的操作产生无损的频域元素。
23.如权利要求14所述的方法,其特征在于,所述确定的操作产生有损的频域元素。
24.如权利要求14所述的方法,其特征在于,还包括将后续帧表示成在固定帧的量化频域元素和后续帧的对应频域元素之间的差。
25.如权利要求14所述的方法,其特征在于,还包括串行化所量化的频域元素。
26.如权利要求25所述的方法,其特征在于,还包括对串行化的量化频域元素进行可变长度编码。
27.如权利要求26所述的方法,其特征在于,所述可变长度编码的串行化量化的频域元素是经霍夫曼编码的。
28.在一个用于对数字视频编码的系统中,数字视频包括一个固定帧和至少一个后续帧,该固定帧和每个后续帧都包含了多个象素元素,一种构成帧间编码的装置,该装置包括用于将固定帧和每个后续帧中的多个象素从象素域元素转换成频域元素的装置,且该频域元素能够以DC元素和AC元素来表示;用于将频域元素量化成强调那些对人视觉系统较敏感的元素而不强调那些对人视觉系统不敏感的元素的装置;以及,用于确定在固定帧的每个量化频域元素和每个后续帧的对应量化频域元素之间的差的装置。
29.如权利要求28所述的装置,其特征在于,所述用于转换的装置采用离散余弦变换(DCT)。
30.如权利要求29所述的装置,其特征在于,所述用于转换的装置还包括采用离散四叉树变换(DQT)。
31.如权利要求28所述的装置,其特征在于,所述用于量化的装置还包括使用频率加权标志来加权元素。
32.如权利要求31所述的装置,其特征在于,所述用于量化的装置还包括采用量化器阶跃函数。
33.如权利要求28所述的装置,其特征在于,有四个后续帧与固定帧进行比较。
34.如权利要求28所述的装置,其特征在于,所述用于确定的装置只确定在AC量化的频域元素之间的差。
35.如权利要求28所述的装置,其特征在于,还包括用于将多个象素元素分组成16×16块大小的装置。
36.如权利要求28所述的装置,其特征在于,所述用于量化的装置产生无损的频域元素。
37.如权利要求36所述的装置,其特征在于,所述用于量化的装置产生有损的频域元素。
38.如权利要求28所述的装置,其特征在于,还包括用于将后续帧表示成在固定帧的量化频域元素和后续帧的对应频域元素之间的差的装置。
39.如权利要求28所述的装置,其特征在于,还包括用于串行化所量化的频域元素的装置。
40.如权利要求39所述的装置,其特征在于,还包括用于对串行化的量化频域元素进行可变长度编码的装置。
41.在一个用于对数字视频编码的系统中,数字视频包括多个帧1,2,3,...,N,每个帧都包含多个象素元素,一种帧间编码的方法,该装置包括用于将每个帧中的多个象素从象素域元素转换成频域元素的装置,该频域元素能够以行和列来表示;用于将频域元素量化成强调那些对人视觉系统较敏感的元素而不强调那些对人视觉系统不敏感的元素的装置;以及,用于确定在第一帧的量化频域元素和第二帧的对应量化频域元素之间差的装置;以及,用于重复确定在后续帧的量化频域元素之间差的处理,使得各个帧的量化频域元素与紧接着它前面的帧的量化频域元素进行比较的装置。
42.如权利要求41所述的装置,其特征在于,还包括用于将帧2至N的每一帧表示成在帧2至N的量化频域元素和帧1至N-1的对应频域元素之间差的部件。
43.如权利要求41所述的装置,其特征在于,还包括用于将后续帧表示成在固定帧的量化频域元素和后续帧的对应频域元素之间差的部件。
44.在一个用于对数字视频编码的系统中,数字视频包括多个帧1,2,3,...,N,每个帧都包含多个象素元素,一种帧间编码的方法,该装置包括一个DCT/DQT变换器,它构成了将每个帧中的多个象素从象素域元素转换成频域元素,该频域元素能够以行和列来表示的;一个量化器,它连接到变换器,构成为将频域元素量化成强调那些对人视觉系统较敏感的元素而不强调那些对人视觉系统不敏感的元素;以及,一个delta(Δ)编码器,它连接着量化器,构成为确定在第一帧的量化频域元素和第二帧的相关量化频域元素之间的差,以及重复确定在相续帧的量化频域元素之间差的处理,使得每个帧的量化频域元素与紧接着它前面的帧的量化频域元素进行比较。
45.如权利要求44所述的装置,其特征在于,只确定在AC量化的频域元素之间的差。
46.如权利要求44所述的装置,其特征在于,还包括一个块大小分配,它构成为将多个象素元素分组成可变的块大小。
47.如权利要求44所述的装置,其特征在于,所述delta编码器产生无损的频域元素。
48.如权利要求44所述的装置,其特征在于,所述delta编码器产生有损的频域元素。
49.如权利要求44所述的装置,其特征在于,还包括一个与所述量化器相连接的串行化器,它构成为接受量化的频域元素并重新排序所量化的频域元素。
50.如权利要求49所述的装置,其特征在于,还包括一个与所述串行化器相连接的可变长度编码器,它构成为对量化的频域元素进行可变长度编码。
全文摘要
讨论了一种用于在编码数字视频系统中帧间编码的方法。一个数字视频帧的序列可以表示成固定帧和至少一个相关的后续帧。固定帧和每个后续帧的多个象素(304)都可以从象素域元素转换成频域元素(312)。量化该元素(316),以强调那些对人视觉系统较敏感的元素和不强调那些对人视觉系统不敏感的元素。对在固定帧每个量化的频域元素和后续帧的对应量化的每个频域元素之间的差进行确定和编码。
文档编号H04N1/00GK1539239SQ02815407
公开日2004年10月20日 申请日期2002年6月6日 优先权日2001年6月7日
发明者A·C·厄维尼, A C 厄维尼, V·R·拉维恩德兰, 拉维恩德兰 申请人:高通股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1