先进电视中时域和分辨率的分层方法

文档序号:7574831阅读:395来源:国知局
专利名称:先进电视中时域和分辨率的分层方法
技术领域
本发明涉及本发明一般涉及电子通信系统,并具体涉及一种具有压缩图象帧的时域(Temporal)和分辨率分层的先进电子通信系统。
2相关技术说明美国目前使用NTSC标准进行电视传输。不过,已经计划用一种先进电视标准来代替NTSC标准。例如,到这个文件为止,先进电视业务顾问委员会(ACATS)正在计划使U.S采用数字标准的清晰度和24Hz、30Hz、60Hz以及60Hz隔行扫描的先进电视格式。显然这些帧频是想持续(并且因此相兼容)现存的60Hz(或59.94Hz)的NTSC电视显示率。显然,当显示具有每秒24帧的时域速率(fps)的电影时,则指定“3-2下降”(3-2Pulldown)用于在60Hz显示装置上显示。尽管,ACATS提供一种可从可能的制式中选择的菜单,每个菜单只编码或解码单一的分辨率和帧频。由于这些制式的显示或运动速率相互之间不是整数倍地相关,因此从一个向另一个转换是很困难的。
另外,目前的ACATS建议并没有提供一种与计算机显示相兼容的关键性能力。这些所建议的图象运动速率是基于可追溯至本世纪初期的数据的历史速率。如果打算进行“净化-打算”,则这些数据未必会被选中。在计算机工业中,显示装置在近十年中采用了任意的速率,在70至80Hz范围中的速率已被证明是最优的,72和75Hz是最常用的速率。遗憾的是ACATS所建议的30和60Hz速率不能与72或75Hz合作,结果损害了时域特性。
另外,由于在高帧频处规定要有1000线以上的分辨率,因此本领域的技术人员建议采用帧隔行扫描,但是基于该理论,在常规6MHz广播电视频道的有效的18-19M比特/秒之内这种图象是不能被压缩的。
如果能采用一种单一信号制式,它包含所有希望的标准和高清晰度分辨率,则这是人们所特别希望的。不过,为了在常规6MHz广播电视频道的带宽限制之内,就需要帧频(时域)和分辨率(空间域)都被压缩(或“可伸缩性”)。一种用来提供如此可测量性的具体方法是MPEG-2标准。不幸的是,MPEG-2内的规定的时域和空域可伸缩性特征并不足够有效地适应U.S先进电视的需要。因此,针对基于时域(帧频)和空域(分辨率)分层的U.S先进电视的目前的ACATS建议是无效的,并因此需要独立的制式。
本发明克服该ACATS建议的这些和其它问题。
发明概要本发明提供一种图象压缩的方法和装置,在高质量的高帧频可证明实现好于1000线分辨率图象压缩。而且,在一个常规电视广播频道的有效带宽之内还能实现以这种分辨率以这种高帧频的时域和分辨率的可测量性。该发明的技术有效地实现由ACATS为先进电视所建议的压缩率的两倍。
图象内容最好是以72fps的初始或基本帧频获取。然后产生一个MPEG-2数据流,它包括(1)一个基层,最好只使用MPEG-2P帧编码,包括一个低分辨率(例如,1024×512像素),低帧频(24或36Hz)比特流;(2)一个可任选的基础分辨率时间增强层,只使用MPEG-2B帧来编码,包括一个低分辨率(例如,1024×512像素),高帧频(72Hz)比特流;(3)一个可任选的基础时域高分辨率层,最好只使用MPEG-2P帧优先地编码,包括一个高分辨率(例如2K×2K像素),低帧频(24×36Hz)比特流;(4)一个可任选的高分辨率时域增强层,只使用MPEG-2B帧来编码,包括一个高分辨率(例如,2K×1K像素),高帧频(72Hz)比特流。
本发明提供能够显著地改善ACATS计划的一些关键技术属性,并包括用单一分层的分辨率和帧频代替多个的分辨率和帧频;为了在一个6MHz电视频道内以高帧频(72Hz)实现好于2兆像素图象的1000线分辨率,不需要隔行扫描;通过72fps的主帧频的使用可与计算机显示相兼容;以及,比目前针对先进电视的未分层的ACATS制式计划更强的稳健性,因为当碰到“重点”图象内容时,所有的有效比特被分配至一个较低的分辨率基层。
本发明的优选实施例的细节是由下面的附图和说明书来体现的。对于本领域技术人员来说一旦了解了本发明的这些细节,则许多附加创新和改变将变得很显然。
附图的简要说明

图1是表示用于使24fps和36fps内容以60Hz显示的下降速率(pulldown rate)的一个时序图。
图2是一个第一优选的MPEG-2编码图。
图3是一个第二优选的MPEG-2编码图。
图4是表示按照本发明的优选实施例的时域层解码的方框图。
图5是表示以60Hz隔行扫描输入至一个36Hz和72Hz都能输出的一个转换器的一个方框图。
图6是表示用于24或36Hz的一个基础MPEG-2层的“主模板”(master template)的一个框图。
图7是示出利用MPEG-2使用分级分辨率可测量性的一个基础分辨率模板的增强的一个框图。
图8是示出优选的分层分辨率编码过程的一个框图。
图9是示出优选的分层分辨率解码过程的一个框图。
图10是示出按照本发明的用于一个解码器的分辨率和时域可测量性的一个组合的一个方框图。
发明的详细说明在各种图中相同的参考数字表示相同的单元。通过本说明书,所示出的优选实施例和例子应该被当做范例看待,而非对本发明的限制。一个时域速率系列的目的经过考虑了现有技术的问题以后,并采用本发明,为了规定一个未来数字电视系统而定义了下面的目的·最佳地显示高分辨率传统的24帧/每秒电影,·平滑运动获取快速移动图象类型,诸如体育运动,·既可以在现有的模拟NTSC显示装置也可以在以72或75Hz上工作的计算机兼容显示装置上平滑显示体育运动和相似的图象。
·诸如新闻和室内剧,较少有快速移动图象,对它进行适当的但更有效的运动获取。
·经一个转换盒到现有的NTSC显示装置上适当地显示所有新的数字型图象。
·在计算机兼容显示装置上高质量地显示所有新数字型的图象。
·如果60Hz数字标准或高分辨率显示装置进入市场,也能在这些显示装置上适当或高质量地显示出来。
由于在除了24Hz的电影速率以外的任何速率60Hz和72/75Hz是根本上不兼容的,如果消取72/75或者消取60作为显示速率,则这将是最好的结局。由于72或75Hz是N.I.I.(National InfornationInfrastructure)和计算机应用所需的帧频,因此,去掉60Hz帧频做为根本的废除将是最面向未来的。不过,在广播和电视工业中有许多竞争,并且存在一个很大的需求量,即,任何新数字电视基础是基于60Hz(和30Hz)的。这就导致在电视、广播和计算机工业之间激烈的争辨。
另外,在广播和电视工业中的一些利益所坚持的隔行扫描60Hz格式加宽了与计算机显示需求的之间的距离。由于数字电视系统的类似计算机应用需要运行扫描显示,因此当显示隔行扫描信号时就需要去隔行扫描器(de-interlacer)。由于在每个这种接收装置中都将需要去隔行扫描器,因此存在关于去隔行扫描器的造价和质量的很大争论。除了去隔行扫描以外,帧频转换也影响成本和质量。例如,NTSC-PAL和PAL-NTSC转换器依旧是非常昂贵的并且转换操作对于很多公用型景物仍是不可靠的。由于隔行扫描的课目是一个复杂并且疑难的主题,并且为了试图论述该问题和时域速率的课目,因此本发明是在一个没有隔行扫描的数字电视标准的方面上进行介绍的。
选择最佳时域速率差频问题(beat Droblem)。如果生成具有等于该显示速率(分别是72或75Hz)的一个运动速率的摄像或者模拟的图象,则将会在72或75Hz显示装置上产生最佳显示,并且反之亦然。同样,在一个60Hz显示装置上的最佳运动保真度将来自于一个60Hz摄像或模拟图象。用60Hz显示装置来显示72Hz或75Hz的发生帧频,结果分别地导致12Hz或15Hz的差频,经过运动分解,可以消除这种差拍,但是运动分解是昂贵的并且不精确的,经常导致可视的人工痕迹和时域的混叠。在缺少运动分解的情况下,差频支配着可察觉的显示速率,使12或15差拍出现以提供比24Hz还低的低精确运动。这样,24Hz构成一个在60与72Hz之间的固有的时域公分母。尽管75Hz比60Hz有一个稍高15Hz差拍,其运动仍然不象24Hz一样平滑,并且除非24Hz速率提高到25Hz,否则在75Hz和24Hz之间不存在积分关系。(在欧洲50Hz图象中,经常以25Hz即快4%地放映电影,这就能够使电影显示在75Hz显示装置上)。
在每个接收装置缺少运动分解的情况下,在72或75Hz显示装置上的60Hz运动,以及在60Hz显示装置上的75或72Hz运动,将比24Hz图象更不平滑。因此,72/75Hz和60Hz运动都不适于到达包括72或75Hz和60Hz显示装置的一个多元显示总体。
3-2下降(3-2Pulldown)。由于在电视电影(电影至视频)转换处理过程中,组合了视频效果的“3-2下降”的使用,使在选择一个最佳帧频过程中出现了另一个困难。在这样的转换过程中,该3-2下降模式重复3次第一帧(或场),然后重复2次下一帧,然后重复3次下一帧,然后重复2次下一帧,等等。这就是24fps电影在电视上以60Hz(实际上,对于NTSC彩色为59.94Hz)显示的原因。即,在一秒钟内每12对2帧电影被显示5次。图1示出该3-2下降模式。
经过某些估算,在视频上所有电影的大部分具有相当大的部分,已经以59.94Hz视频场频对这些部分做出调整以显示24fps电影。这种调整包括“扫视和扫描”(pan-and scan)、色校正以及标题滚动。另外,为了适合在一个给定的广播时刻表之内,许多电影是经过降低帧或者裁剪场景的开头和结尾的时间调整的。这些操作使得该3-2下降处理过程不可逆,这是因为59.94Hz和24Hz运动都存在。这使得很难利用MPEG-2标准来压缩电影。幸运的是,这种问题限于现有NTSC-分辨率内容,这是因为不存在太多利用3-2下降的较高分辨率数字电影的文库。
运动模糊(motion blur)。为了进一步探测发现一个高于24Hz的共用时域速率的问题,注意在运动图象的获取过程中的运动模糊是很有意义的,在每帧的一部分周期内打开摄像传感器和电影胶片来感测一个移动图象。在电影摄像机和许多视频摄像机上,这种曝光的周期是可调的。电影摄像机需要一段时间来推进电影,并且通常限于只以360度中的约210度,或者58%占空度打开。在具有CCD传感器的视频摄像机上,经常需要一部分的帧时间从传感器“读”图象。这种时间可以在帧时间的10%-50%之间变化。在一些传感器中,在这种读出时间内,必须使用一个电子快门来断开光线。这样,CCD传感器的占空度经常从50%至90%变化,并且在一些摄像机中,它是可调的。如果需要,有时可以调整该光快门以减少该占空度。不过,对于电影和视频,最常用的传感器占空度是50%。
优选的速率考虑这种问题,可以考虑仅使用来自以60、72或75Hz获取的图象序列的一些帧,利用二、三或四等等中的一帧,可以导出表1所示的亚速率速率1/2速率 1/3速率 1/4速率 1/5速率 1/6速率75Hz37.525 18.2515 12.572Hz36 24 18 14.41260Hz30 20 15 12 10表115Hz的速率是在60和75Hz之间的一个统一速率。12Hz速率是在60和72Hz之间的一个统一速率。不过,一个需要大于24Hz的需求取消了这些频率。24Hz不是共同的,但是3-2下降的使用已经逐步被工业所采纳,以便在60Hz显示装置上显示。因而仅仅30、36和37.5Hz是候选速率。由30Hz与75Hz有一个7.5Hz的差拍。并且与72Hz有一个6Hz差拍,因此作为一个候选它是无用的。
当在60和72/25Hz显示装置上显示时,36和37.5Hz的运动速率成为用于比24Hz内容更平滑运动的首要候选。这些速率都比24Hz快约50%并且更平滑。由于37.5Hz的速率既不适于60也不适于72Hz,因此必须取消它,只剩下36Hz具有所需要的时域速率特征。(如果电视的60Hz显示频率能够提高4%到62.5Hz,则可以使用37.5Hz的运动速率。注意60Hz的后面,62.5Hz不常出现-甚至存在用于新电视系统的那些建议的非常过时的59.94Hz速率。不过,如果将要做出这样的改变,本发明的另一方面将适合该37.5Hz速率)。
剩下24、36、60和72Hz的速率做为一个时域速率系列的候选。如上所述,72和60Hz的速率不能用做分配速率,这是因为当在这两个速率之间转换时,比使用24Hz作为分配速率更不平滑。假设我们正在找一个比24Hz快的速率。因此,36Hz是用于使用60和72/75Hz显示装置的一个主要的、统一运动获取以及图象分配速率的一个首要候选。
如上所注,用于24Hz内容的该3-2下降模式重复3次第一帧(或场)、然后重复两次下一帧,然后重复3次下一帧,然后重复两次下一帧,等等,每个模式最佳地应该按照一个2-1-2模式被重复。这可以由表2和表1中看到。速率 帧数60H 1234567891024H 111223334436H 1123344566表236Hz和60Hz之间的这种关系只适用于真正的36Hz内容。如果是隔行扫描,则60Hz内容可“存储”在36Hz内,但是没有运动分解和重建则不能从60Hz中适当地生成36Hz。不过,在为运动寻找一个新的速率中,36Hz在60Hz上提供比24Hz所达到的稍微平滑的运动,而且在72Hz显示装置上提供明显更好的图象运动平滑性能。36Hz是用于一个主要的、统一运动获取以及图象分配速率的一个最佳速率,用来与60和72Hz显示装置使用,在这种显示装置上,显示比24Hz内容更平滑的运动。
尽管36Hz迎合上述的目标,但不是唯一合适的获取频率。因为不能从60Hz是简单地提取出36Hz,60Hz不能为获取提供一个合适的速率。不过,72Hz可用于获取,用每隔一帧然后用作36Hz分配的基础。从使用72Hz内容的每隔一帧得到的运动模糊将是以36Hz获取的运动模糊的一半。对从72Hz的每隔两帧显示的运动模糊的测定表明以24Hz断续的选通是不能采用的。不过,使用从72Hz中每隔一帧用于36Hz显示对于眼睛来说与36Hz原来的获取相比并不是不能采用的。
这样,通过以72Hz获取,36Hz给予在72Hz显示装置上提供非常平滑运动的机会,同时通过使用72Hz原来获取内容的隔一帧来实现一个36Hz分配速率并且然后利用2-1-2下降以导出一个60Hz图象,36Hz在60Hz显示装置上提供比24Hz内容更好的运动。总之,表3示出依照本发明的用于获取和分配的该优选的最佳时域速率。
优选的速率获取分配 最佳显示装置可允许的显示装置72Hz36Hz+36Hz72Hz 60Hz
表3这也是值得注意的,即利用从一个72Hz摄像机的隔一帧的这种技术可以利用一个增加的运动模糊占空度。正常的以72Hz的50%占空度引出一个以36Hz的25%占空度,这已经可论证地被允许了,并且在60Hz和72Hz显示装置上再现超过24Hz的一个显示的改善。不过,如果把占空度提高至75-90%范围之内,则36Hz取样就会更开始接近更通用的50%占空度。例如,通过利用“后备存储”(backing store)CCD设计可以实现占空比的提高该“后备存储”CCD设计有一个短的遮光时间,产生一个高的占空度。可以采用包括22CCD复用设计在内的其它方法。
修改的MPEG-2压缩为了有效地存储和分配,应该压缩具有该优选的36Hz的时域速率的数字源内容。本发明的该优选的压缩的格式是利用一个MPEG-2标准的新的变型来实现的。
MPEG-2基础。MPEG-2是定义一种视频语法的一种国际视频压缩标准,该标准提供了以更复杂的编码的数据的方法再现图象顺序的一种有效的途径。编码的比特的语言就是该“语法”。例如,一些令牌(token)可以再现一整个64取样的块。MPEG还描述了使已编码的比特从该复杂的表示变换成为原来的图象顺序的“原始”制式的一种解码(重建)过程。例如,在该编码的比特流中的一个标记符表示后续的比特是用一种离散余弦变换(DCT)算法还是用一种预测算法来解码。这些包括该解码过程的算法是由MPEG所定义的语义来规定的。这种语法能用于探测通用的视频特性,诸如空间冗余、时间冗余、均匀运动、空间掩蔽等等。实际上,MPEG-2定义了一种程序设计语言以及一种数据格式。一种MPEG-2解码器必须能够对一种输入的数据流进行语法分析和解码,但是一旦该数据流遵守MPEG-2语法,则可以采用广泛的各种各样可能的数据结构和压缩技术。本发明通过导出用于使用MPEG-2标准的时域和分辨度换算的一种新的装置和方法来利用这种灵活性。
MPEG-2使用一种帧内和帧间的压缩的方法。在绝大多数视频景物中,当在前景中发生动作时其背景保持相对地静止。背景可能会移动,但许多景物是重复的。MPEG-2通过产生一个称为I(即内部)帧的参照帧来开始它的压缩处理。I帧是不必参考其它帧而被压缩的并且因此包含一个完整的视频信息帧。I帧提供入口点进入一个数据流用于随机存取,但是可以仅仅被中等地压缩。通常,每隔10至15帧就在比特流中放置表示I帧的数据。因此,由于仅仅属于参考I帧的帧的一小部分与归类在一起的I帧有差别,因此仅仅捕获、压缩和存储该差异。两种型式的帧用于这样的差异-P(即预测)帧和B(即双向内捕)帧。
P帧通常参照一个过去的帧(或者一个I帧或者一个前面的P帧)进行编码,并且,通常将被用作给未来的P帧的一个参照。P帧接收相当高的压缩。B帧图象提供最高的压缩但为了编码通常过去帧和未来参考都需要。双向帧从不做为参照帧。
P帧内的宏块也可以利用帧内编码来单独地编码。B帧内的宏块也可以利用帧内编码、向前预测编码、向后预测编码、或者既向前也向后、或者双向内插、预测编码来单独地编码。一个宏块是由四个8×8DCT块连同P帧的一个运动矢量以及B帧的一个或两个运动矢量集聚成的一个16×16象素。
编码以后,一个MPEG数据流就包括I、P和B帧的一个序列。一个序列可能由几乎任何I、P和B帧的模式组成(在它们的位置上存在一些小型语法限制)。不过,在工业实践中这是常用的以具有一个固定的模式(例如IBBPBBPBBPBBPBB)。
做为本发明的一个重要部分,即产生包含一个基层、至少一个可任选的时域增强层以及一个可任选的分辨率增强层的一个MPEG2数据流。下面将详细描述这些层中的每一个。
时域可伸缩性(temporal scalability)基层。使用该基层以携带36Hz源内容,在该优选的实施例中,两种MPEG-2帧顺序中的一个可用于该基层LBPBPBP或者IPPPPPP。后面的模式是最优选的,这是因为如果还需解码24Hz电影的话,解码器将只需解码P帧而不必解码B帧,因此降低了所需的存储带宽。
72Hz时域增强型层。当利用MPEG-2压缩时,如果P帧距离是偶数的话,嵌入一个36Hz时域增强型层做为用于36Hz基层的MPEG-2序列之内的B帧这是可能的。这允许36Hz显示装置和72Hz显示装置都支持的单一数据流。例如,两种层都可被解码以产生一个用于计算机显示器的72Hz信号,而仅仅该基层可以被解码并转换以产生用于电视机的60Hz信号。
在优选实施例中,IPBBBPBBBPBBBP或者IPBPBPBPB的MPEG-2编码模式都允许用只含有时域增强型B帧的一个单独的流中的另外的帧来代替,以处理36Hz至72Hz。图2和3分别示出这些编码模式。图3的2帧P间隔编码模式还有一个辅加的优点,即如果还需解码24Hz电影的话,则36Hz解码器只需解码P帧而不解码B帧,因此降低了所需的存储带宽。
对高分辨率图象的研究已经建议对于绝大多数图象类型来说图3的2帧P间隔是最佳的。即,图3的结构显示出提供用于60和72Hz都支持的该最佳时域结构,同时在现代72Hz计算机兼容显示装置上提供卓越的结果。这种结构允许两种数字流,一个是以36Hz用于基层,一个以36Hz用于增强层B帧以实现72Hz。图4中表示了这个,它以方框图的形式示出36Hz基层MPEG-2解码器50仅仅解码P帧以产生36Hz输出,然后该36Hz输出准备被或者转变至60Hz显示装置或者转变至72Hz显示装置。一个可任选的第二解码器52仅仅解码B帧以产生第二36Hz输出,该36Hz输出当与基层解码器50的36Hz输出组合时结果形成一个72Hz输出(下面讨论一种组合的方法),在另一实施例中,一个快速MPEG-2解码器50能够都解码用于基层的P帧和用于增强层的B帧。
最佳主制式。一些公司正在制做以约11M像素/秒运行的MPEG-2解码芯片。MPEG-2标准针对分辨率和帧频已经定义了一些“轮廓”(profile)。尽管这些轮廓顽固地偏向于计算机非兼容制式诸如60Hz、无正方像素、以及隔行扫描,但是许多芯片制造商似乎正在开发操作在“主轮廓,主平面”(main-profile main level)上的解码芯片。这些轮廓定义,至少水平分辨率达到720像素、至少垂直分辨率在高达25Hz处达到576线,以及在高到30Hz处帧频达到480线,还规定了从近似1.5M比特/秒至约10M比特/秒的一个很宽范围的数据速率。不过,从芯片的角度来说,主要的目标是解码像素的速率。主平面、主轮廓像素速率是约10.5M像素/秒。
尽管在芯片制造商中存在变更,但绝大多数MPEG-2解码器芯片实际上将工作在13M像素/秒,给予快的支持存储。一些解码器芯片将快到20M像素/秒或更快。使得CPU芯片能以一个给出的成本每年趋向于获得50%的改善或者更高,在MPEG-2解码器芯片的像素速率中可以期望一些临近限度的灵活性。
表4示出一些希望的分辨率和帧频、以及它们相应的像素速率分辨率 帧频 像素速率XY(Hz) (M像素/秒)640 480 3611.1720 486 3612.6720 486 30(用于比较) 10.5704 480 3612.2704 480 30(用于比较) 10.1680 512 3612.51024 512 2412.6表4所有这些制式都可以被MPEG-2解码器芯片利用它产生至少12.6M像素/秒。几乎所有目前的芯片都能实现非常需要的36Hz的640×480像素的制式,因为它的速率是11.1M像素/秒。一个宽屏1024×512图象可以通过一个1.5∶1压缩被压缩成680×512图象,并且如果能处理12.5M像素/秒的话,则能36Hz来支持。当MPEG-2解码器芯片可以处理约18.9M像素/秒时,非常希望的1024×512的矩形像素宽屏样板可以达到36Hz。这将变得更合理,如果24Hz和36Hz内容只用P帧编码,使得在72Hz时域增强层解码器中只需要B帧。只利用P帧的解码器要求更少的存储容量和存储宽度,它使得19M像素/秒的目标更容易达到。1024×512分辨率样板将更经常用于24fps的2.35∶1和1.85∶1的宽高比的电影。这样内容只需11.8M像素/秒,它应该在绝大多数现有的主水平-主轮廓解码器的范围之内。
在图6中以24或36Hz的基层的一种“主样板”(master template)的方式示出了所有这些制式。因此,本发明提供一种与现有技术相比能适应各种各样宽高比和时域分辨率的独特的方法。(下面是一个主样板的进一步讨论)。
利用一个具有双倍的上述规定的像素速率的一个芯片或者使用相平行的辅助存取解码器存储的一个第二芯片能够解码产生72Hz的B帧的时域增强型层。在本发明的指导下,至少存在两种方法用于增强型层和基层数据流的合并以插入该交替的B帧。第一,利用MPEG-2传输层来进行合并而不被解码器芯片察觉。可以把关于两种PIDS(程序IDS)的该MPEG-2传输包认做包含了基层和增强型层,并可以把这些流的内容简便地传输给一个双速率能力解码器芯片,或者给恰当构形的一对常规速率解码器。第二,利用在MPEG-2数据流中的“数据划分”特性代替从MPEG-2系统发出的传输层这也是可以的。该数据划分特性允许把B帧标记成属于在MPEG-2已压缩的数据流之内的一个不同的级,并且因此可被标识以使只支持时域基层速率的36Hz解码器忽略它。
由MPEG-2视频压缩所定义的时域可伸缩性并不如本发明的简便B帧划分优秀。该MPEG-2时域可伸缩性仅仅向前参考前面的P或B帧,并因此对这里所建议的向前和向后都参考的B帧编码来说缺乏有效的可利用性。另外,单纯利用B帧做为时域增强层提供一种比在MPEG-2内所定义的时域可伸缩性更简单并更有效的时域可伸缩性。尽管如此,这种使用B帧做为时域可伸缩性的机理完全依从MPEG-2。经过关于B帧的数据划分或者交替的PID′s,识别这些B帧做为一个增强型层的两种方法也是完全兼容的。
50/60Hz时域增强型层。除了或者做为上述的72Hz时域增强型层(编码一个36Hz信号)的另一种,可以按相似的方式把一个60Hz时域增强型层(编码一个24Hz信号)加至36Hz基层。对于编码现有的60Hz隔行扫描的视频内容来说60Hz时域增强型层是相当有用的。
绝大多数60Hz隔行扫描内容是按模拟的、D1或D2制式的NTSC视频带。也有小部分日本HDTV(SMPTE 240/260M)。也有此制式工作的摄像机。按照一种公知的方法可以处理任何这样的60Hz隔行扫描制式以使信号被去隔行扫描并且帧频转换。这种处理包含非常复杂的图象认识技术,相似于自动控制观测。即使利用非常完善的技术,由于算法和不时的得出人为现象(artifact),通常时域混叠将导致“误认识”。注意图象捕获的典型的50%占空度意味着摄像机一半时间“不看”。在电影中的“反向车轮”(“back ward wagon wheels”)就是由于这种时域欠抽样的通常作法的时域混叠的一个例子。没有人工辅助重建这样的人工因素通常是不能消除的。因此,将会总存在不能自动地校正的情况。不过,运动转换使得当前的技术应该对大多数内容有效。
单个高清晰度摄像机或者磁带式机器的价格与这样一个转换器的造价是一样的。因此,在具有几个摄像机和磁带式机器的一个演播室中,这样转换的成本变得适中。不过,进行这样充分地处理目前是在家庭和办公产品的预算之外的。因此,最好是在初始的演播室内完成关于现有内容的去隔行扫描和转换帧频的复杂的处理过程。这在图5中示出,它以一个方框图的形式表示了从摄像机60或者其它源(诸如非电影视频带60)输入的60Hz隔行扫描的信号输入至转换器64,它包括了一个去隔行扫描功能和一个帧频转换功能并能够输出一个36Hz信号(只有36Hz基层)和一个72Hz信号(36Hz基层加上来自时域增强型层的36Hz)。
作为输出一个72Hz信号(36Hz基层加上来自时域增强型层的36Hz)的另一个选择,可以采用这种转换处理以在36Hz基层上产生一个第二MPEG-2 24Hz时域增强型层,它能够再生原始的60Hz信号,不过已去隔行扫描。如果相似的量化处理被用于60Hz时域增强型层B帧,则由于存在更少的B帧,因此数据速率应该比72Hz时域增强型层稍微少一些。
美国所感兴趣的大量主要的节目是低分辨率NTSC。目前,在大多数家庭电视上大多数NTSC信号被质量降低地观看。另外,观众已开始接收受利用3-2下降而在电视上显示电影的方式中所固有的这种时域损伤。几乎所有的早期电视是根据每秒24帧的电影而制作的。因此,只有体育新闻和其它视频-原始节目需要按这种方法处理。通过对信号高质量的去隔行扫描所伴随的提高,极大地补偿了转换这些节目至36/72Hz制式所带来的人工因素和损失。
注意在60Hz(或59。94Hz)场中固有的运动模糊应该非常类似于在72Hz帧中的运动模糊。因此,提供一个基层和增强型层的这种技术,按运动模糊观点来看,应该似乎与72Hz起因相似。因此,当隔行扫描的60Hz NTSC内容被处理成一种36Hz基层,加上来自时域增强型层的24Hz,并且以60Hz显示时。几乎没有观众将注意到差别,除非可能做为一种稍稍的改善,不过那些购买了新的72Hz数字逐行扫描电视的人当观看NTSC时,会注意到小的改善,而当观看以72Hz获取或组织的内容时会注意到一个大的改善。即使在72Hz显示装置上显示的已解码的36Hz基层看起来也将与高质量的数字NTSC一样的好,代替了具有一个更慢的帧频的隔行扫描的产物。
把现有的PAL 50Hz内容转换成一个第二MPEG-2增强型层中也使用相同的处理方式。在这样的转换之前把PAL视频带最大地放慢至48Hz。活动着的PAL需要利用分别不关联的50、36和72Hz的速率来转换。目前仅仅在广播信号的源处买得起这样的转换单元,而在家庭和办公室中的每个接收装置目前并没有实施。
分辨率可伸缩性这是可能的即利用使用MPEG-2的分层的分辨率可伸缩性来增强基层分辨率模板以实现建在一个基层之上的更高的分辨率。增强型的使用可以实现1.5×和2×基层的分辨率。分两个步骤,通过使用3/2然后4/3,或者可以是两个步骤的一个单一的因素,可以实现双分辨率。图7中表示了这种步骤。
通过产生一个分辨率增强型层做为一个独立的MPEG-2流并且对该层进行MPEG-2压缩能够实现分辨率增强的处理。这种技术与MPEG-2所定义的已证明是相当低效率的“空间可伸缩性”不同。不过,MPEG-2包含所有的构造一个有效的分层分辨率以提供空间可伸缩性的工具。图8示出本发明的优选的分层分辨率编码过程。图9示出本发明的优选的分层分辨率解码过程。
分辨率层编码。在图8中,在每个方向上一个初始的2K×1K图象80被按常规方式滤波成1/2分辨率以产生一个1024×516基层81,然后利用常规MPEG-2算法压缩该基层81产生一个适合传输的MPEG-2基层82。重要的是,在这种压缩步骤期间可以使用全部MPEG-2运动压缩。然后利用常规的MPEG-2算法解压缩同样的信号还原成1024×512图象83。该1024×512图象83被扩展。(例如,通过像素复制或者最好利用诸如样条内插的更好的滤波器)成一个第一2K×1K放大型84。
同样,做为一个可选步骤,把该已滤波的1024×512基层81扩展成一个第二2K×1K放大型85。从初始的2K×1K图象80减去该第二2K×1K放大型85以产生一个表示在初始的高分辨率图象80与初始的基层图象81之间的分辨率的最高倍频程(top Octave)的图象。把结果的图象可任选地乘以一个锐度系数或者一个加权,并且与初始2K×1K图象80与第二2K×1K放大型85的差值相加以产生一个中心-加权的2K×1K增强型层源图象86。然后根据常规的MPEG-2算法压缩这种增强型层源图象86,产生适合传输的一个单独的MPEG-2分辨率增强型层87。重要的是,在这种压缩步骤期间可以使用全部MPEG-2运动压缩。
分辨率层解码。在图9中,利用常规MPEG-2算法解压缩基层82还原成1024×512图象90。该1024×512图象90扩展成一个第一2K×1K图象91。同时,利用常规MPEG-2算法解压缩该分辨率增强型层87还原成一个第二2K×1K图象92。然后第一2K×1K图象91和第二2K×1K图象92相加以产生一个高分辨率2K×1K图象93。
超过MPEG-2的改善。大体上,通过扩展已解码的基层,找出初始图象与已解码的基层之间的差并进行压缩,就产生了该增强型层。不过,一个已压缩的分辨率增强型层也可以可任选地在解码之后与基层相加以在解码器中产生一个更高分辨率的图象。本发明的分层分辨率编码过程与MPEG-2空间可伸缩性有几方面的差异。
·增强型层差分图象被压缩成它自己的MPEG-2数据流,用I、B和P帧。这种差异代表了MPEG-2空间可伸缩性无效的地方,但按所建议的,分辨率是有效的之处的主要原因。MPEG-2中所定义的空间可伸缩性允许编码一个较上层作为该较上层图象与该扩展了的基层之间的差异,或者作为一个已运动补偿实际图象的MPEG-2数据流,或者两者的组合。不过,这些编码方法都是无效的。因为本发明中,与基层的差异应该被认做该差异的I帧,它与一个已运动补偿的差分图象相比较是无效的。MPEG-2中所定义的上层编码也是无效的。因为它与完全的上层的编码是一样的。如在本发明中,已运动补偿的差分图象的编码因此明显地更加有效。
·由于增强型层是一种独立的MPEG-2数据流,MPEG-2系统传输层(或者另外相似的机构)必须被用来复用基层和加强型层。
·扩展和分辨率降低滤波可以是一种高斯或者样条功能,它比MPEG-2空间可伸缩性中所规定的双线内插更加优秀。
·在优选的实施例中在较低和较高层之间图象宽高比必须相匹配。在MPEG-2空间可伸缩性中,扩展宽度和/或高度是允许的。由于有效性的需要,因此在优选的实施例中这样的扩展是不允许的。
·由于有效性的需要,以及在增强型层中使用的极罕见的压缩,因此该增强型层的整个区域不编码。通常,从增强型层排除的区域将是边界区域。这样,在优选实施例中2K×1K增强型层源图象86是中心加权的。在优选实施例中,使用衰落功能(诸如线性加权)以使增强型层“滑”(feather)向图象的中心并远离边界边缘,以避免在图象中的不连续的变换。另外,可以采用确定具有肉眼将观察的细节的区域的任何人工或者自动方法,以选择需要详细细节的区域并排除不需要的多余细节的区域。所有图象具有基层水平的详细细节,因此显示所有图象。只有特别感兴趣的区域受益于增强型层。在不存在其它准则的情况,如上面所述的中心-加权实施例,可以把帧的边缘或者边界从增强型中排除。MPEG-2参数“较低-层-预测-水平或垂直补偿”参数用作为标识的负整数,与“水平或垂直-亚取样-系数-m或n”值相结合,可用来规定增强型层矩形的总尺寸和在扩展的基层内的位置。
·把-个锐度系统加到该增强型层上以补偿在净化期间所发生的锐度损失。必须注意只使用这些参数存储初始图象的清晰度和锐度而不增强该图象。如上面图8有关方面所示,该锐度系数是初始高分辨率图象80与初始基层图象81(经扩展之后)之间分辨率的“高倍频”。这种高倍频图象除了包含分辨率的高倍频的锐度和细节以外,还将含有许多噪声。加入太多的这种图象可导致在已运动补偿的增强型层编码过程中的不稳定性。应该加入的数量取决于在初始图象中噪声的程度。一个典型的加权值是0.25。对于有噪声的图象,锐度不应该加入,并且甚至在压缩之前,利用用于保存细节的常规抑制噪声技术来抑制增强型层的初始中的噪声。这也是合理的。
·在基层和增强层上利用关于从36Hz至72Hz的时域增强型的B帧来内部混合时域和分辨率可伸缩性。以此方式,由于可得到两级时间可伸缩性的选择。四级解码操作能具有两层分辨率可伸缩性。
这些差异代表了超过MPEG-2空间和时间可伸缩性的显著改善。不过,这些差异仍然与解码器芯片相一致,尽管在解码器中可能需要附加的逻辑以便在如图9所示的分辨率增加型解码过程中进行扩展和加法。这种附加逻辑与较低效的MPEG-2空间可伸缩法所需的相一致。
可任选的分辨率增强型层的非MPEG-2编码。针对分辨率增强型层使用一种不同于MPEG-2的压缩技术这是可能的。另外,针对分辨率增强型不必使用与基层所用的相同的压缩技术。例如,当差异层被编码时,可以使用经运动补偿的块子波来非常有效地匹配和跟踪细节。即使由于改变了差异的数量使得子波布局的最有效位置在显示屏周围跳动,但在低幅增强型层中也将不会被察觉到。另外,不必覆盖整个图象-只需把子波放置在细节上。该子波可以由图象中的细节区域来引导它们的布局。该布局也可以偏离边界。
多重分辨率增强型层。按这里正在讨论的比特速率,已经成功地证明只有在一个基层(1024×512×72fps)和一个单一分辨率增强型层上,才能以18.5M比特/秒对按每秒72帧的2M像素(2048×1024)进行编码。不过,从分辨率增强型层编码的进一步精加工所得到的预先改善的效率应该允许多个分辨率增强型层。例如,可以想象一个按512×256的基层可以被四层分辨-增强成1024×512,1536×768,以及2048×1024。借助现有的MPEG-2编码按每秒24帧的电影帧频这是可以实现的。在高频率诸如每秒72帧的速率,在分辨率增强型层的编码过程中MPEG-2不能提供有效的效率以允许目前的这些层。
主版制作格式(mastering formats)利用一个处于或接近2048×1024像素的样板,能够为各种各样的释出制式产生一个单数字活动图象版格式源。如图6所示,一个2K×1K样板可以有效地支持1.85∶1和2.35∶1的共同宽屏幕宽高比。一个2K×1K样板也可以适应1.33∶1和其它的宽高比。
尽管整数(尤其是2倍)和简单的分数(3/2或4/3)是在分辨率分层处理中最有效的等级大小,利用任意比例来完成任何所需的分辨率分层也是可以的。不过,利用一个2048×1024样板,或者接近的样板,不仅提供一种高质量的数字主版制式,而且从两倍基层(1K×512)中可提供许多其它常规的分辨率,包括NTSC、U.S电视标准。
按照更高的分辨率,诸如4K×2K、4K×3K或4K×1K来扫描电影也是可能的。利用任选的分辨率增强,这些较高的分辨率可以从一个接近2K×1K的中心主版制式分辨率中产生。这种针对电影的增强型层将都包括图象细节、增益以及其它噪声源(诸如扫描器噪声)。由于这种噪声,在增强型层中压缩这些非常高分辨率的压缩技术将需要使用代替MPEG-2型压缩技术的另外技术。幸运的是,存在其它的压缩技术,可以用它来压缩这种噪声信号,同时在图象中仍保持所希望的细节。这种压缩技术的一个例子是运动补偿子波或者运动补偿系数(fractals)。
最好,应该按照电影的帧频产生数字制版格式,如果从现有的电影中(即按照每秒24帧)产生的话。3-2下降和隔行扫描的共同使用将不适合数字电影主版。对于新的数字电子内容,人们希望在不久的将来停止使用60Hz隔行扫描,而代之以与计算机更兼容的帧频,诸如72Hz,如同这里所建议的一样。应该按照获取该图象的任何频率来制作数字图象主版,无论是72Hz、60Hz、36Hz、37.5Hz、50Hz或者其它速率。
作为用于所有电子释放格式的一个单数字源画面制式的一个主版制作格式的概念有别于现有的常规,PAL、NTSC、信箱、扫视-和-扫描、以及其它主版通常全都是由一个电影原版独立地制作成的。该主版制作格式的使用允许电影和数字/电子节目都被制作一次,以便释出各种各样的分辨率和格式。
组合的分辨率和时域增强型层如上所述,时域和分辨率增强分层两者可以组合。时域增强型是通过解码B帧来提供的,分辨率增强型层也有两个时域层,并因此也含有B帧。
对于24fps电影,最有效并最低成本的解码器可以只使用P帧,因此存储器和存储器带宽都可最小化,而且通过删除B帧解码简化了解码器。这样,根据本发明,可以利用不具备B帧解码能力的解码器对按24fps的电影和按36fps的先进电视进行解码。如图3所示,然后可以在P帧之间使用B帧,以产生72Hz的较高时域层,可以由第二解码器来解码该B帧。这种解码器也是简化的,这是因为只需解码B帧。
这样分层方式也可用于增强的分辨率层,它同样可以只利用24和36fps速率的P帧和I帧。通过在分辨率增强型层内加入B帧解码,该分辨率增强型层能加入高分辨率的72Hz的全时域速率。
图10示出有关一个解码器的组合的分辨率和时域可伸缩性的任选项。这个例子也示出了用于实现本发明的空间一时间分层的先进电视的一个几乎18M比特/秒数据流的比例的分配。
在图10中,一个基层MPEG-21024×512像素数据流(在优选实施例中只含有P帧)被送至一个基本分辨率解码器100。对于P帧需要几乎5M比特/秒的带宽。该基本分辨率解码器100可以按24或36fps解码。该基本分辨率解码器100的输出包括低分辨率、低帧频图象(按照24或36Hz的1024×512)。
来自相同数据流的B帧被语法分析出来并供给一个基本分辨率时域增强型层解码器102。对于这种B帧需要几乎3M比特/秒的带宽。该基本分辨率解码器100的输出也耦合至时域增强型层解码器102。该时域增强型层解码器102能按36fps进行解码。时域增强型层解码器102的组合输出包括低分辨率、高帧频图象(按照72Hz的1024×512像素)。
也是在图10中,一个分辨率增强型层MPEG-22K×1K数据流(在优选实施例中只含有P帧)被送至一个基本时域高分辨率增强型层解码器104。对于该P帧需要几乎6M比特/秒的带宽。该基本分辨率解码器100的输出也耦合至该高分辨率增强型层解码器104。该高分辨率增强型层解码器104能按24或36fps进行解码。该高分辨率增强型层解码器104的输出包括高分辨率、低帧频图象(按照24或36Hz的2K×1K像素)。
来自相同数据流的B帧被语法分析出来并供给一个高分辨率时域增强型层解码器106。对于这样的B帧需要几乎4M比特/秒的带宽。该高分辨率增强型层解码器104的输出被耦合至高分辨率时域增强型层解码器106。时域增强型层解码器102的输出也耦合至高分辨率时域增强型层解码器106。该高分辨率时域增强型层解码器106能按照36fps进行解码。该高分辨率时域增强型层解码器106的组合的输出包括高分辨率、高帧频图象(按照72Hz的2K×1K像素)。
注意由这种可伸缩编码机理得到的压缩速率例是非常高的、显示出极好的压缩效率。在表5中列出针对图10中范例的每个时域和可伸缩性任选项的这些速率。这些速率是基于按24比特/像素的源RGB像素的。(如果带入系数常规4∶2∶2编码的16比特/像素或者常规4∶2∶0编码的12比特/像素,则压缩比例将分别为3/4和1/2
表5由两种因素能够实现这些高压缩速率1)高帧频72Hz图象的高时域相关性;2)高分辨率2K×1K图象的高空间相关性;3)分辨率增强技术应用于图象的重要部分(例如,中心部分)而非不重要部分(例如,帧的边缘)。
这些因素是通过采用MPEG-2编码语法强度从本发明的分层压缩技术中探索出来的。这些强度包括双直接内插的关于时域可伸缩性的B帧。通过在基层和增强型层两者中都使用运动矢量,MPEG-2语法还提供有效的运动表示法(efficent motion representation)。直到高噪声和快速图象变化的某个阈值,通过运动压缩和DCT量化相结合,在增强型层内MPEG-2还能有效地编码细节代替噪声。在这个阈值之上,该数据带宽被最好地分配给基层。依照本发明当使用这些机能时它们共同作用以产生很高的效率和有效的编码,它既是时域性的也是空间性的可伸缩。
当与CCIR601数字视频的5M比特/秒相比较时,表5中的压缩速率是相当高的。一个原因是由于隔行扫描而导致的某种相关性的损失。隔行扫描消极地影响预测顺序帧和场的能力,还消极地影响垂直相邻像素之间的关联。因此,这里描述的,压缩效率的增长是由于不存在隔行扫描。
由本发明所实现的大的压缩速率可以看成是每个MPEG-2宏块可用来编码的比特数的透视。如前所述,宏块是由四个8×8DCT块、和一个P帧运动矢量以及一个或两个B帧运动矢量共同组成的一个16×16像素。表6示出关于每层的适合每宏块的比特。
表6
在增强型层中每个宏块可用来编码的比特数少于在基层中的比特数。这是恰如其分的,因为对于基层来说它希望尽可能好的质量。运动矢量需要8比特左右,余下10至25比特给宏块型码和所有4个8×8DCT块的DC和AC系数。这些余下空间只给少数“关键的”AC系数。这样,据统计,每个宏块可利用的绝大多数信息一定来自一个增强型层的前面的帧。
很容易发现按照这些压缩速度的MPEG-2空间可伸缩性之所以无效的原因,是因为没有足够的数据空间可用来编码足够的DC和AC系数以再现由增强型差异图象所代表的详细的高倍频程。这些倍频程主要是用15至18水平和垂直AC系数来表示的。因此如果每DCT块只有少数可利用的比特,则不能获得这些参数。
这里所描述的系统通过利用来自前面增强型差异帧的运动补偿预测来提高它的效率。这对于在时域和分辨率(空间)分层编码中提供极好的结果是显著有效的。
适度恶化。这里描述的时域划分和分辨率划分技术对于利用一个2K×1K初始源以每秒72帧正常运行的内容来说是很好的。这些技术还很好地处理以24fps运行的以电影为基础的内容。不过,在高帧频处,当编码一个非常象噪声的图象时,或者当在一个图象流内存在大量的散粒中断(shot cuts)时,增强型层可能会损失有效编码所必需的帧间相关性。这样的损失是很容易检测的,因为一个典型的MPEG-2编码/解码器的缓冲-充满度/速率-控制将试图将量化器设置为非常近似的设置。当碰到这种情况时,所有的通常用来编码分辨率增强型层的比特可以被分配给基层,因为为了编码应力(stressful)内容,基层将需要尽可能多的比特。例如,按照72帧/秒来传输约0.5与0.33M像素/秒之间的基层,则结果的像素速率将是24至36M像素/秒。基层可利用的所有比特以18.5M比特/秒提供额外的约0.5至0.67M比特/帧,它应该足够用来很好地编码,即使针对应力内容。
在绝大多数极端的情况下,即每帧都非常像噪声和/或每几帧就发生中断的情况下,在基层中适度恶化甚至不必进一步的分辨率损失这是可能的。通过移去B帧编码时域增强型层就可以达到这种适度恶化,并且因此允许以36fps的基层的、I帧和P帧使用所有可利用的带宽。这种每个基层帧可使用的增加的数据量是在约1.0与1.5M比特/帧之间(取决于基层的分辨率)。在极端的应力编码条件作用下,这种适度恶化将仍然以相当高质量的基层分辨率产生相当好的36fps的运动再现速率。不过,如果基层量化器在按36fps约18.5M比特/秒的条件下仍然以一个粗调水平运行的话,则基层帧频可以动平衡地降至24、18甚至12fps(在1.5和4M比特/帧之间它将是可利用的)即使最病态的活动图象型,它应该能够控制,在这种情况中改变帧频的方法是现有技术中公知的。
U.S先进电视的当前建议并不允许这些适应恶化的方法,并且因此不能如本发明的系统那样在重要内容上很好地工作。
在大多数MPEG-2解码器中,由输出缓冲深度来控制自适应的量化级。按照本发明的分辨率增强型层中所包括的高压缩比,这种机理可能不会最佳地起作用。可以使用各种各样的技术来优化至最恰当的图象区的数据的分配。理论上最简单的技术是在分辨率增强型层上进行预先(pre-pass)编码,以便集中统计并找出应该预留的细节。从预先编码中得出的结果可以用来设置适合的量化,以便优选在分辨率增强型层中的细节预留。该设置也可以人为地偏置以便在图象上形成非均匀性,从而使图象细节偏置分配至主要屏幕区,而远离帧的极边缘处的宏块。
除了保留一个按高帧频的增强型层边界以外,其它地方不再需要这些调整,这是因为不用这样的改善现有的解码器就能很好地起作用。不过,在增强型层编码器中这些进一步的改善是有一些额外效果的。
总结选择36Hz做为一个新的共同基础时域速率看来是最佳的,对这种帧频的使用的论证表明对于60Hz和72Hz显示的显示装置来说它提供了超出24Hz的显著改善。利用来自72Hz图象获取的隔一帧可以产生36Hz的图象。它允许36Hz的一个基层(最好利用P帧)与36Hz的一个时域增强型层相合并以实现一个72Hz显示。
本发明不局限于72Hz的“未来展望”(future-looking)速率,同时还为60Hz模拟NTSC显示装置提供转换。如果其它的正在讨论的“仅仅被动式娱乐”(passive-entertainment-only)(非计算机兼容)60Hz制式被接受,则本发明还允许为其它60Hz显示提供转换。
通过利用一个分辨率增强型层的单独的MPEG-2图象数据流,可以实现分辨率可伸缩性。分辨率可伸缩性可以利用B帧趋近于基层分辨率和增强型分辨率层中都提供时域可伸缩性。
这里所描述的发明具有许多特别需要的特点。
在U.S先进电视进程中所包含的一些方案中已经申明了这些特点,在地面广播中可获得的近似18.5M比特/秒的高清晰度分辨率既不能实现分辨率可伸缩性也不能实现时域可伸缩性。不过,本发明在这种可获得的数据速率内既能实现时域可伸缩性也能实现空间分辨率可伸缩性。
并且已经申明,在该可获得的18.5M比特/秒数据速率之内不使用隔行扫描不能实现高帧频的2M像素。不过,不仅实现分辨率可伸缩性而且实现时域可伸缩性,它能以72帧/秒提供2M像素。
除了提供这些能力以外,特别是与先进电视的目前建议相比,本发明还非常坚固耐用。当碰到非常重要图象内容时,通过把大多数的或者所有比特分配至基层使得它成为可能。这种重要内容的特点是既象噪声又非常快地变化。在这种情况下,肉眼不能看与分辨度的增强层有关的细节。由于该比特被供给基层,所再现的帧明显地比先进电视的目前建议更精确,它使用一个单一固定的较高的分辨率。
因此,该发明的系统使感性和编码效率都最佳化,同时提供最大的可视反响。这种系统按照多数人已经认为是不可能的一种分辨率和帧频特性来提供一种非常清楚的图象。可以相信该发明的系统可能会优于ACATS所建议的先进电视制式。除了这种可预见的优越性能之外,本发明还提供该相当高价值的时域和分辨率分层特性。
可以用硬件或软件、或者硬件和软件两者相结合的形式来实现该发明。不过,最好用在可编程计算机上执行的计算机程序来实现该发明,这种可编程计算机的每个包括一个处理器、一个数据存储系统(包括易失性的和非易失性的存储器和/或存储单元)、至少一个输入装置以及至少一个输出装置。把程序码加至输入数据以执行这里所描述的功能并产生一个输出信息。把该输出信息加至已知类型的一个或多个输出装置。
每个程序最好是按可与一个计算机系统通信的一个高级程序或面向目标可编程语言来实现。不过,如果需要,这些程序也可以用汇编或机器语言来实现。总之,该语言可以是一种汇编或翻译语言。
每个这样的计算机程序最好是存储在由一种普通的或专用的可编程计算机来读取的一种存储介质或装置上(例如ROM或软磁盘),当计算机读取该存储介质或装置以执行这里所描述的处理过程时,这样的计算机程序用于配置和操作该计算机。也可以把该发明的系统看成是一种计算机可读存储介质,配置有一种计算机程序,该存储介质中如此配置使得一种计算机按照一种特殊并且预定义的方式来操作以执行这里描述的功能。
已经描述了本发明的许多实施例。不过,应该明白在不脱离本发明的精神和范围下可以做出各种各样的变更。例如,当该优选实施例使用MPEG-2编码和解码时,该发明将工作在任何能提供B帧、P帧和层的等效物的比较标准下。另外,很小的偏离(小于1Hz)于上述给出的精确的频率和帧率通常将不会明显地响应本发明。因此,应该明白的是,本发明并不局限于特别示出的实施例,而仅由附加的权利要求书的范围所局限。
权利要求
1.一种用于获取和压缩视频信息的方法,包括以下步骤(a)按照从近似的36fps、72fps和75fps之中选出的一种初始帧频,获取多个帧中的视频图象;(b)把该获取的视频图象编码成一种压缩的数据流,包括(1)一个基层,包含具有相当低的分辨率和从近似的24Hz、36Hz以及37.5Hz之中选出的一种帧频的一种已编码的比特流;(2)可任选地,至少一个时域增强型层,包含具有相当低的分辨率和从近似的60Hz、72Hz和75Hz之中选出的一种帧频的一种已编码的比特流;(3)可任选地,至少一个高分辨率增强型层,包含具有相当高的分辨率和从近似的24Hz、36Hz以及37.5Hz之中选出的一种帧频的一种已编码的比特流;(4)可任选地,至少一个高分辨率时域增强型层,包含具有相当高的分辨率和从近似的72Hz以及75Hz之中选出的一种帧频的一种已编码的比特流。
2.如权利要求2所要求的方法,其中该已压缩的数据流具有不大于19M比特/秒的比特率。
3.如权利要求1所要求的方法,其中该已压缩的数据流是利用MPEG-2压缩方式来编码的。
4.如权利要求3所要求的方法,其中只利用MPEG-2压缩P帧来编码该基层。
5.如权利要求3所要求的方法,其中只利用MPEG-2压缩B帧来编码每个时域增强型层。
6.如权利要求3所要求的方法,其中只利用MPEG-2压缩P帧来编码每个高分辨率增强型层。
7.如权利要求3所要求的方法,其中只利用MPEG-2压缩B帧来编码每个高分辨率时域增强型层。
8.如权利要求1所要求的方法,还包括利用一种2-1-2下降速率从该已压缩的数据流的基层在近似60Hz提取用于显示的帧的步骤。
9.如权利要求1所要求的方法,其中该基层具有从近似的640×480像素、近似的720×486像素、近似的704×480像素、近似的680×512像素以及近似的1024×512像素之中选出的一种分辨率。
10.如权利要求1所要求的方法,其中至少一个分辨率增强型层在每个维上具有两倍于基层的分辨率。
11.如权利要求1所要求的方法,其中至少一个分辨率增强型层增强只在该基层的一个中央区域中的该基层的像素。
12.一种用于产生用于视频信息的主制式的方法,包括以下步骤(a)产生一种单一数字源图象制式,具有近似36Hz的帧频的基层、当与基层相结合时的近似72Hz的帧频的时域增强型层以及近似2048×1024像素的分辨率;以及(b)由该单一数字源图象制式导出所有后续的显示格式。
13.一种用于把在一些帧中按照一种初始的帧频所获取的视频信息进行压缩的装置,该初始的帧频是从近似的36fps、72fps和75fps之中选出的,该装置包括用于把所获取的视频帧编码并输出成为一种已压缩的数据流的编码器,该已压缩的数据流包括(a)一个基层,包含具有相当低的分辨率和从近似的24Hz、36Hz以及37.5Hz之中选择出的一个帧频的已编码的比特流;(b)可任选地,至少一个时域增强型层,包含具有相当低的分辨率和从近似的60Hz、72Hz以及75Hz之中选择出的一个帧频的已编码的比特流;(c)可任选地,至少一个高分辨率增强型层,包含具有相当高的分辨率和从近似的24Hz、36Hz以及37.5Hz之中选择出的一个帧频的已编码的比特流;(d)可任选地,至少一个高分辨率增强型层,包含具有相当高的分辨率和从近似的72Hz与75Hz之中选择出的一个帧频的已编码的比特流。
14.一种用于把在一些帧中按照一种初始的帧频来获取的视频信息进行压缩的的计算机程序,该初始的帧频是从近似的36fps、72fps以及75fps之中选择出的,在一种可由计算机系统读取的介质中存储的该计算机程序,用于当读取时配置该计算机系统并且由该计算机系统来执行以完成以下功能(a)把所获取的视频帧编码成包括以下部分的一种已压缩的数据流,它包括(1)一个基层,包含具有相当低的分辨率和从近似的24Hz、36Hz以及37.5Hz之中选择出的一个帧频的已编码的比特流;(2)可任选地,至少一个时域增强型层,包含具有相当低的分辨率和从近似的60Hz、72Hz以及75Hz之中选择出的一个帧频的已编码的比特流;(3)可任选地,至少一个高分辨率增强型层,包含具有相当高的分辨率和从近似的24Hz、36Hz以及37.5Hz之中选择出的一个帧频的已编码的比特流;(4)可任选地,至少一个高分辨率时域增强型层,包含具有相当高的分辨率和从近似的72Hz与75Hz之中选择出的一个帧频的已编码的比特流;(b)输出该已压缩的数据流。
15.一种计算机可读取的存储介质,配置有用于把在一些帧中按照一种初始的帧频来获取的视频信息进行压缩的一种计算机程序,该初始帧频是从近似的36fps、72fps和75fps之中选择出的,在存储介质中如此配置以使得计算机按照一种特殊的并且预定义的方式进行操作来完成以下功能(a)把所获取的视频帧编码成包括以下部分的一种已压缩的数据流,它包括(1)一个基层,包含具有相当低的分辨率和从近似的24Hz、36Hz以及37.5之中选择出的一个帧频的已编码的比特流;(2)可任选地、至少一个时域增强型层,包含具有相当低的分辨率和从近似的60Hz、72Hz以及75Hz之中选择出的一个帧频的已编码的比特流;(3)可任选地,至少一个高分辨率增强型层,包含具有相当高的分辨率和从近似的24Hz、36Hz以及37.5Hz之中选择出的一个帧频的已编码的比特流,(4)可任选地,至少一个高分辨率时域增强型层,包含具有相当高的分辨率和从近似的72Hz与75Hz之中选择出的一个帧频的已编码的比特流;(b)输出该已压缩的数据流。
全文摘要
一种图象压缩的方法和装置,证明它可以高质量在高帧频处实现好于1000线分辨率的图象压缩、随后产生一个MPEG-2数据流,它包括:(1)一个基层(100),只用MPEG-2P帧优选地编码,包括一个低分辨率(例如,1024×512像素),低帧频(24或36Hz)比特流;(2)一个可任选的基础分辨率时域增强层,只用MPEG-2B帧来编码,包括一个低分辨率(例如,1024×512像素),高帧频(72Hz)比特流;(3)一个可任选的基础时域高分辨率增强型层(104),只用MPEG-2P帧优选地编码,包括高分辨率(例如,2K×1K像素),低帧频(24或36Hz)比特流;(4)一个可任选的高分辨率时域增强层(106),只用MPGEG-2B帧来编码,包括高分辨率(例如,2K×1K像素),高帧频(72Hz)比特流。
文档编号H04N5/44GK1219255SQ9719321
公开日1999年6月9日 申请日期1997年1月24日 优先权日1996年1月30日
发明者G·E·德莫斯 申请人:德莫格拉夫克斯公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1