视频编码器和记录设备的制作方法

文档序号:7716592阅读:138来源:国知局
专利名称:视频编码器和记录设备的制作方法
技术领域
本发明涉及视频编码器,它被设计来把输入的未压缩的图象的序列变换成压缩的图象,该编码器包括一个重新排序的图象库。
本发明还涉及视频记录设备,其中包括收集装置,用于收集代表一系列未压缩的图象的视频数据;视频编码器,被设计来把输入的未压缩的图象的序列变换成压缩的图象,该编码器包括重新排序图象库;以及贮存装置,用于存储代表压缩的图象的数据。
在开头段落中描述的这种视频编码器可以从M.Ghanbari著的书“Video coding,an introduction to standard codecs(视频编码,标准编码译码器入门)”(ISBN,0852967624,第46-48和90-107页)中获知。
在该书中描述到,因为随机接入和高效率的编码的矛盾的需求,不是所有的视频序列图象都应当以同一种方式被编码。各种技术被用来开发接连的图象之间强有力的关系,以便大大地减小发送或存储它们所需要的信息量。这些技术,被称为“带运动估值的预测”,包含用最小的附加信息(它代表图象之间的差值)从先前的和甚至以后的图象得出一个序列的大多数图象。这些技术需要在视频编码器中存在运动估值器。
在该书中,指明了视频序列中以下类型的图象-第一类图象是以中等的压缩在图象内编码的。它们被称为I图象。I图象不用参照另一个图象而被编码,但I图象用作为参考图象。I图象包含由译码器重新构建它们所必须的所有的信息。它们提供到编码的序列的接入点,以便译码。
-第二类图象是图象间编码的。它们被称为P图象。P图象通过使用运动补偿预测的技术并参照前面的I编码或P编码图象而进行预测编码。它们本身可作为参考图象,即固定点,用于对将来的图象编码,但由于运动补偿是不美的,不可能把在两个I图象之间扩展非常多数目的P图象。P图象的压缩率,即压缩程度,大大地高于I图象的压缩率。
-第三类图象也是图象内编码的。它们被称为B图象。B图象可以是双向地或单向地编码的图象。B图象在它们的预测中可以使用过去的、将来的或两种图象的结合。这个用法提高运动补偿效率,因为运动目标的闭合部分可以从将来的帧更好地被补偿。由于它们不被使用于编码以后的图象,则B图象不传播编码误差。B图象提供最高的压缩率。
在H.Herve编著的书“Digital Television MPEG-1,MPEG-2,andprinciple of the DVB system(数字电视MPBG-1,MPBG-2,以及DVB系统的原理)”中,ISBN,03400691905,pp.36-42,描述了P和B图象如何从先前的和/或以后的图象被预测。在活动图象序列中,活动目标导致在接连的图象的相应的区域之间的差别,使得在这两个区域之间没有明显的相关。运动估值包含定义一个运动矢量,它通过使用被称为块匹配的技术确保在第二图象上的到达的区域与在第一图象上的出发的区域之间的相关。这是通过从先前的图象移动小的搜索窗口内的当前的图象的宏块(即,16×16象素的块)以及把它与窗口内各可能的宏块进行比较,以便找出最类似的宏块,而完成的。两个匹配的宏块的位置上的差别给出运动矢量。对于每个宏块至少计算一个运动矢量。一个图象被划分成多个宏块。一个图象的所有的宏块的运动矢量形成一个运动场。在比较P图象和I图象,或比较两个P图象时,由于在这些图象之间的时间差距,块的匹配通常是不完美的,以及运动矢量会具有相当高的幅度。这就是在要被编码的实际的块与匹配的块之间的差别或预测误差为什么接连地用离散余弦变换器、量化器、运行电平编码器和可变长度编码器来计算和被同样地编码到I图象的块中的原因。这个处理过程被称为运动补偿。
对于B图象,运动矢量是通过以三种不同的方式(即,前向、后向和双向)进行最接近的参考图象的矢量的时间内插而被计算的;给出最小预测误差的结果被保留,以及误差以P图象的相同的方式被编码。只有与被使用于预测的图象不同的宏块才需要被编码,这大大地减小对于编码B图象和P图象所需要的信息量。由于运动目标的尺寸通常大于宏块,在接连的宏块的运动矢量之间有很强的相关,以及使用差分编码方法来编码矢量,因此,减小了所需比特的数目。当预测没有给出有用的结果时,例如,移动摄影机而在图象上出现完全新的区域的情形下,图象的相应的部分以与I图象相同的方式进行图象内编码。
由于B图象在以后使用I图象和P图象作为预测,它们必须在以后编码。这需要对输入的图象序列重新排序。在M.Ghanbari著的书“Video coding,an introduction to standard codecs(视频编码,标准编码译码器入门)”(ISBN,0852967624,第97页)中,描述了在位于编码器的入口处的预处理器中实行重新排序。在编码器的入口处,B图象的编码被推迟到I图象和P图象(这对于编码B图象是需要的)的编码之后实行。
图象重新排序的缺点在于,用于重新排序的图象的暂时贮存需要大量存储器,从而需要存储器总线的带宽。大量存储器和随之而来的带宽的需求特别是对于高清晰度(HD)视频编码成为一个问题。
本发明的第一个目的提供开头段落中描述的、对于顺序地重新排序图象只有相对较少的贮存需求的这种视频编码器。
本发明的第二个目的提供包括对于重新排序图象只有相对较少的贮存需求的视频编码器的视频记录设备。
本发明的第一个目的是这样达到的重新排序的图象库被设计成对多个压缩的图象重新排序。压缩的图象比起未压缩的图象具有较小的贮存量。一次几个压缩的图象(约三个左右)被存储在重新排序图象库中,等待在以后的时间进一步处理。
按照本发明的视频编码器的实施例的特征在于,压缩的图象可以是预测的图象间编码的图象或双向地图象间编码的图象。本实施例的优点在于递归运动估值算法(诸如,3D递归搜索(3D-RS))的收敛性和相关性预期有改进。这是由于图象以显示的次序到达视频编码器,所以具有小的时间差别。注意,当重新排序发生在视频编码器的输入端时情形不是这样。由于搜索窗口是增量型的,因而它很可能被做得更小,同时候选的运动矢量的数目可被减小,但却能保持与传统的运动估值器相同的性能。减小候选的运动矢量数目的有利的副作用是,运动估值处理过程的计算和存储器带宽需求大大地减小。
按照本发明的视频编码器的实施例包括-编码器链,被设计来把未压缩的图象变换成压缩的图象,该链具有开始点和结束点,以及相继地具有运动估值器,离散余弦变换器,量化器,和运行电平编码器;-译码器链,被设计来把压缩的图象变换成未压缩的图象,该链具有开始点和结束点,以及相继地具有运行电平译码器,逆量化器,逆离散余弦变换器,和运动补偿器;-可变长度编码器;以及-重新排序图象库,位于编码器链的结束点与译码器链的开始点之间。
在这个实施例中,它受到所考虑的结构很强的影响,重新排序图象库的位置是在运行电平编码器(RLE)之后,和在可变长度编码器(VLE)之前。重新排序图象库的位置实际上可以在编码器链中的任何地方,它工作在离散余弦变换器(DCT)到可变长度编码器(VLE)之间。如果它被放置在VLE端,这意味着小的贮存器,但相应的大的用于解压缩的计算能力。同样地,当被放置在接近于DCT时,这意味着较小的计算工作量,但较大的贮存需求。对于在编码器链中重新排序图象库各个给定的位置,专用的嵌入的压缩和解压技术,不论是无损的和有损的,都可用来进一步减小贮存需求。位置的选择受到嵌入的压缩算法的类型和复杂性的影响。可变长度编码器可被设计成执行Huffman(霍夫曼)编码或Arithmetic(算术)编码。
按照本发明的视频编码器的实施例被设计成把至少一个预测的图象间编码的图象重新编码成双向图象间编码的图象。未压缩的图象经两个阶段而变换成压缩的双向图象间编码器图象。在第一遍中,未压缩的图象被变换成预测的图象间编码的图象,在第二遍中,这些后者的图象可被变换成双向图象间编码的图象。这将在下面更详细地描述。在第一遍中,输入的未压缩的图象被压缩为I图象,P图象和Bforward图象,其中我们把Bforward图象定义为只具有从前面的参考图象向前预测的B图象。注意,P图象和Bforward图象在结构上是相同的,但在使用上是不同的P图象用作为参考图象,而Bforward图象不一定,但以后可成为双向图象间编码的图象。例如,打算的图象组(GOP)结构是{I,B,B,P,B,B,P},则图象在第一遍中被编码为{I,Bforward,Bforward,P,Bforward,Bforward,P}。这些压缩的图象被暂时存储在重新排序图象库中。重新排序是在这些压缩的图象上执行的。I图象和P图象,也形成参考图象,首先离开重新排序图象库,而位于中间的Bforward图象跟随在后,但不是在它们被重新编码为B图象之前。形成参考图象的、经压缩的I图象和P图象当需要时从重新排序图象库中取出,并被压缩和被存储在参考图象库,它具有地方放置所需要的前向和后向参考图象。在第二遍中,存储的Bforward图象通过从提取重新排序图象库中提取它们和借助于译码器链解压它们而被重新产生。然后重新产生的Bforward图象被编码为B图象,具有加上的后向预测。后向预测是通过将来的参考图象完成的,将来的参考图象是在以前提取的并存放在参考图象库中。可任选地,前向预测可被更新。这会是有利的,因为在第二遍中,来自其他矢量场的信息可被引用,导致更好的运动补偿。运动矢量是通过以三种不同的方式(即,前向、后向和双向)对最接近的参考图象进行时间内插而计算的;能给出最小预测错误的结果被保持。这样创建的B图象然后再次借助于编码器链被压缩,并流到重新排序图象库。重新排序图象库的输出是以传输的先后为次序。例如,通过使用先前提到的GOP结构,传输输出次序是{I,P,B,B,P,B,B}。离开重新排序图象库的图象进一步由可变长度编码器可任选地被压缩以形成比特流。注意,对于忠实的重新产生,Bforward图象的质量必须足够高。这意味着精细的量化,它可以不同于传输时发出的I,P和B图象的量化。
本实施例的优点在于,在初始的第一遍后有选择参考图象的位置的自由。初始地被指派为P的、到达重新排序图象库的压缩图象,可被重新指派为Bforward,以便扩展预测深度。反过来,也可以把Bforward重新指派为P,以及把它固定为参考图象。在压缩期间,得到有关图象的更多的统计信息,它们可以有利于作出这些决定。统计信息涉及到例如运动矢量和预测误差的大小。
本实施例的另一个优点在于,压缩度可以相当高。有可能跳过第二遍,以及把Bforward图象通过重新排序图象库直接发送到可变长度编码器。这种类型的编码至少是对于{I,Bforward,P,Bforward,P,...}序列是已知的。Bforward图象的压缩度可以比P图象高,导致比起对于相等的压缩度时的总的更高的压缩度。
按照本发明的视频编码器的实施例被设计成通过修改预测的图象间编码而把至少一个预测的图象间编码的图象重新编码成预测的图象间编码的图象。在第二遍中,来自其他矢量场的信息可被引用,导致更好的运动补偿。此外,预测的图象间编码可以通过重新量化被调整。重新量化的优点在于,它能适应对每个图象所分配的可用比特。量化器可以利用在第一遍压缩期间得到的统计信息,来自适应地改变图象的量化。这使能得到良好的编码效率和稳定的质量。
按照本发明的视频编码器的实施例被设计成对未压缩的图象执行MPEG编码以得到压缩的图象。各种类型的MPEG编码可以由按照本发明的各个实施例执行,例如,MPEG-1,MPEG-2或MPEG-4。
按照本发明的视频编码器的实施例被设计成可以调整压缩的图象的数目,这些压缩图象具有一个压缩度,以及可以通过改变压缩的图象的压缩度而同时被存储在重新排序图象库中。用于图象库重新排序所需要的存储器量取决于-未压缩的图象的尺寸,-在I和P图象之间的接连的B图象的数目,也被称为预测深度,以及-压缩图象的压缩度。
如果用于重新排序图象库的可提供的存储器是固定的,则有可能改变压缩图象的压缩度,以便增加可被同时存储的图象的数目。大多数编码器被限制为至多两个相继的B图象。对于按照本发明的视频编码器的实施例,在I和P图象之间发送的相继的B图象的数目可增加。压缩的图象的尺寸可以因为对质量的折衷而受到例如量化水平的影响。
按照本发明的视频编码器的实施例被设计成能够从以下的重新编码的类型中选择哪种类型必须被应用-把预测的图象间编码的图象重新编码成双向图象间编码的图象;-把预测的图象间编码的图象重新编码成包括更新的前向预测的双向图象间编码的图象;或-通过修正预测的图象间编码,把预测的图象间编码的图象重新编码成图象间编码的图象。
这个实施例使它能适用于运行时间可缩放性,即,其参量的决定能对不同的性质具有不同的解决方案。视频编码器的这个实施例可以在运行时间上在不同的类型的重新编码之间切换,每种类型在计算性能、存储器需求、存储器带宽、功率、编码效率、和质量的空间中各设置一个点。除了这个运行时间可缩放性以外,也有可能引用编码器链和译码器链的更便宜的版本,例如非依从的DCT等等,它们需要较小的计算性能或带宽但也许要以质量为代价。遵从编码标准以执行参考图象的内部译码是可行的。
本发明的第二个目的是这样达到的视频记录设备包括视频编码器,它被设计成把输入的未压缩的图象序列变换成压缩的图象,它包括重新排序图象库,其特征在于,重新排序图象库被设计成重新排序多个压缩的图象。
通过参考此后描述的实施方案和实施例和参照附图,将明白按照本发明的视频编码器和视频记录设备的这些和其他方面,其中

图1示意地显示视频编码器的实施例;图2示意地显示一组图象的例子;图3显示两遍预测;图4示意地显示在运动估值器方面数据类型的例子;以及图5示意地显示视频记录设备的单元。
图1示意地显示视频编码器100的实施例,它被设计成把输入的未压缩的图象序列变换成压缩的图象。视频编码器100包括-编码器链102,具有开始点和结束点,以及相继地具有运动估值器124,离散余弦变换器126,量化器128,和运行电平编码器129;-译码器链116,具有开始点和结束点,以及相继地具有运行电平译码器123,逆量化器122,逆离散余弦变换器120,和运动补偿器118;-可变长度编码器134;-重新排序图象库104,位于编码器链102的结束点与译码器链116的开始点之间;-参考图象库103,用于存储先前的参考图象130和将来的参考图象132。
重新排序图象库104被设计来保持多个压缩的图象。以下的类型的图象可被存储I图象106,P图象108,Bforward图象109和B图象110。
输入的未压缩图象序列在它的输入连接头112处进入视频编码器100。我们在宏块的基础上(即16×16象素的块)描述图象的编码。在每个图象内,宏块从左至右顺序地被编码。对于给定的宏块,选择编码模式。这取决于图象类型和运动补偿预测的有效性。取决于编码模式,基于过去和或将来的参考图象宏块的内容的运动补偿预测由运动估值器124形成。这些参考图象从参考图象库103被检索。从当前的宏块中实际的数据中(即,未压缩的图象中的象素)减去该预测,形成预测误差。注意,预测误差是象素的矩阵。预测误差被输入到离散余弦变换器126,它把预测误差划分成8×8象素块,以及对每个8×8象素块执行离散余弦变换。得出的二维8×8DCT系数的块输入到执行量化的量化器128。量化主要影响高频。人的视觉系统对于较高的频率的图象失真不太敏感。量化的二维8×8DCT系数块以来回的次序被扫描,并被运行电平编码器129变换成一维的量化的DCT系数串。这个串代表压缩的图象。这样的压缩的图象可被存储在重新排序图象库104,供以后使用,例如用作为参考图象。压缩的图象也被变换成可变长度编码的串。这个变换由可变长度编码器134执行。
除了预测误差以外,其他信息,例如图象和运动矢量场的类型,以同样的方式被编码。
运动估值需要参考图象。先前的参考图象130和将来的参考图象由译码器链116从压缩的图象被重新构建。压缩的图象在需要时从重新排序图象库104检索。它们被运行电平译码器123,逆量化器122,逆离散余弦变换器120,和运动补偿器118相继地处理。这四个单元执行涉及到编码器链102的四个单元的逆运算,但其次序相反。在重新构建后,参考图象被暂时存储在参考图象库,以便用于对于以后的未压缩的图象的运动估值。
图2示意地显示一个图象序列202-206。可以区分以下类型的图象-I图象202和226,-P图象208,214和220,-B图象204,206,210,212,216,218,222和224。
序列的一部分被称为图象组(GOP)。图2显示对于N=3和M=12的MPEG图象组(GOP)的例子,其中-N,在规定一个GOP的两个相继的I图象202和226之间的距离,以图象数计;-M,在两个相继的P图象208,214和220之间的距离,以图象数计。
曲线箭头,例如228,表示图象被用作为参考图象来对另一个图象编码。例如,I图象202被用作为参考图象来预测和对P图象208编码。P图象208反过来被用来预测P图象214和得出B图象204,206,210和212,分别用曲线箭头230,232,234和236表示。
图3示意性地显示图象序列302-320二次-在通过图1所示的视频编码器的第一遍后,用Pass 1表示,以及-在通过图1所示的视频编码器的第二遍后,用Pass 2表示。
以下的表显示在第一和第二遍后哪些图象类型可被区分,以及显示在附图中使用的参考
曲线箭头,例如322,表示图象被用作为参考图象来编码另一个图象。例如,I图象302被用作为参考图象来预测和编码P图象308。P图象308反过来被用来得出B图象305,307,310和312,分别用曲线箭头328,330,332和334表示。
图4示意性地显示在编码器链102方面,有关运动估值的数据类型的某些事例。描绘了以下事例-要被压缩的、未压缩的图象402-参考图象404-预测406-运动矢量场408;以及-预测误差410。
根据要被压缩而未压缩的图象402和参考图象404,计算预测406和运动矢量场408。从未压缩的图象402中减去预测406。结果是预测误差410。预测误差410和运动矢量场408借助于编码器链102的其余部分被编码。
图5显示按照本发明的视频记录设备500的各单元。视频记录设备500具有收集装置508,用于收集代表要被记录的图象的视频信号。视频信号可在外部产生以及被发送到视频记录设备500。在这种情形下,信号可以是通过天线或电缆接收的广播信号。视频信号可以借助于电荷耦合器件(CCD)502在内部产生。视频记录设备500,例如,摄像机可以是便携式的。视频记录设备500还具有视频编码器100,用于压缩收集的视频信号,以及贮存装置506,用于存储代表压缩的视频信号的比特流。压缩的视频信号的传输也是可能的。压缩的视频信号在输出连接头504处提供。视频编码器100如图1上描述的那样被实施。
应当指出,上述的实施例是说明而不是限制本发明,本领域技术人员将能够设计替换的实施例而不背离附属权利要求的范围。在权利要求中,被放置在括号之间的任何参考符号不应当看作为限制权利要求。单字“包括”并不排除存在权利要求中未列出的单元或步骤。在单元前面的单字“一个”并不排除存在多个这样的单元。本发明可以借助于包括几个不同的单元的硬件和借助于适当的编程的计算机被实施。在枚举几个装置的组合权利要求中,几个这样的装置可以用同一个硬件项目实施。
权利要求
1.视频编码器(100),被设计用来把输入的未压缩的图象序列变换成压缩的图象,它包括重新排序图象库(104),其特征在于重新排序图象库(104)被设计成将多个压缩的图象重新排序。
2.如权利要求1中要求的视频编码器(100),其特征在于,压缩的图象可以是预测的图象间编码的图象(108)或双向图象间编码的图象(110)。
3.如权利要求2中要求的视频编码器(100),其特征在于包括-编码器链(102),它被设计来把未压缩的图象变换成压缩的图象,该链具有开始点和结束点,以及相继地具有运动估值器(124),离散余弦变换器(126),量化器(128),和运行电平编码器(129);-译码器链(116),它被设计来把压缩的图象变换成未压缩的图象,该链具有开始点和结束点,以及相继地具有运行电平译码器(123),逆量化器(122),逆离散余弦变换器(120),和运动补偿器(118);-可变长度编码器(134);以及-重新排序图象库(104),位于编码器链(102)的结束点与译码器链(116)的开始点之间。
4.如权利要求2中要求的视频编码器(100),其特征在于被设计成把至少一个预测的图象间编码的图象(108)重新编码成双向图象间编码的图象(110)。
5.如权利要求2中要求的视频编码器(100),其特征在于被设计成通过修正预测的图象间编码以便把至少一个预测的图象间编码的图象(108)重新编码成预测的图象间编码的图象(108)。
6.如权利要求2中要求的视频编码器(100),其特征在于被设计成对于未压缩的图象执行MPEG编码而得到压缩的图象。
7.如权利要求2中要求的视频编码器(100),其特征在于被设计成通过改变压缩图象的压缩度而修正压缩图象的数目,这些压缩图象具有一个压缩度,并可以同时存储在重新排序图象库中。
8.如权利要求2中要求的视频编码器(100),其特征在于被设计成能够选择以下的重新编码的类型中必须应用哪种类型-把预测的图象间编码的图象(108)重新编码成双向图象间编码的图象(110);或-通过修正预测的图象间编码,把预测的图象间编码的图象(108)重新编码成图象间编码的图象(108)。
9.视频记录设备(500)包括-收集装置(502),用于收集视频数据,它们代表未压缩的图象的序列;-视频编码器(100),它被设计成把输入的未压缩的图象序列变换成压缩的图象,它包括重新排序图象库(104);以及-贮存装置(506),用于存储代表压缩的图象的数据,其特征在于,重新排序图象库(104)被设计成对多个压缩图象重新排序。
10.如权利要求2中要求的视频记录设备(500),其特征在于压缩的图象可以是预测的图象间编码的图象(108)或双向图象间编码的图象(110)。
11.如权利要求9中要求的视频记录设备(500),其特征在于视频编码器被设计成把至少一个预测的图象间编码的图象(108)重新编码成双向图象间编码的图象(110)。
12.如权利要求9中要求的视频记录设备(500),其特征在于视频编码器被设计成通过修正预测的图象间编码,把至少一个预测的图象间编码的图象(108)重新编码成预测的图象间编码的图象(108)。
全文摘要
视频编码器(100)可以把输入的未压缩的图象序列变换成压缩的图象,它可以是预测的图象间编码的图象(108),双向图象间编码的图象(110)或图象内编码的图象(106)。这些图象分别被称为P图象,B图象,I图象。由于B图象使用I图象和P图象作为预测,它们以后必须被编码。这需要对图象序列重新排序。视频编码器(100)包括重新排序图象库(104),用来对压缩的图象重新排序。
文档编号H04N7/32GK1459200SQ02800607
公开日2003年11月26日 申请日期2002年1月28日 优先权日2001年3月12日
发明者G·J·赫克斯特拉 申请人:皇家菲利浦电子有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1