低复杂度、高帧率视频编码器的制作方法

文档序号:7847854阅读:176来源:国知局
专利名称:低复杂度、高帧率视频编码器的制作方法
技术领域
本发明涉及视频压缩。更具体地,本发明涉及对现有视频压缩技术的新颖使用以增强有视觉吸引力的高帧率,而不引发使用常规技术的高帧率编码所共有的比特率和计算
复杂度。
_5]
背景技术
本申请相关的主题内容可在于2008年I月17日提交的针对“System And Methodfor a Conference Server Architecture for Low Delay and Distributed ConferencingApplications (用于低延迟和分布式会议应用的会议服务器架构的系统和方法)”的美国专利No. 7,593,032和于2009年8月 11 日提交的针对“System And Method For A ConferenceServer Architecture For Low Delay And Distributed Conferencing Applications(用 于低延迟和分布式会议应用的会议服务器架构的系统和方法)”的共同待审美国专利申请序列号12/539,501中找到,这两者的整体内容皆通过援引纳入于此。许多现代视频压缩技术利用对残差信号进行运动补偿和变换编码的帧间预测作为其达成高压缩的关键因素之一。压缩视频序列的给定画面通常涉及运动向量搜索以及许多二维变换操作。根据这些技术实现画面编码器要求具有一定计算复杂度的技术,这可例如使用足够强大的通用处理器、专用硬件电路系统、数字信号处理器(DSP)或其任何组合的软件实施来实现。经压缩的视频信号可包括诸如运动向量、(经量化的)变换系数和头部数据之类的分量。为了表示这些分量,需要某个量的比特,这在想要传输该经压缩的信号时导致某种比特率要求。提高帧率增加了要在给定区间中编码的画面的数目,并因此既增加了编码器的计算复杂度又增加了比特率要求。已知人类视觉器官能够清楚地分辨在低于约20Hz的频率上的运动画面序列中的个体画面。在较高帧率下,诸如欧洲(PAL/SECAM)使用的24Hz (在传统的基于胶片的放映机电影院中使用)、25Hz,或美国(NTSC)使用的30Hz,画面序列趋于“模糊”成接近于流体的运动序列。然而,取决于信号特性,已经表明许多人类观察者对于较高帧率(诸如60Hz或更高)感到更“舒适”。相应地,在消费者和专业视频渲染电子产品两者中均倾向于利用高于50Hz的较高帧率。诸如60Hz之类的高帧率从人类视觉舒适性视角来看是期望的,但从编码复杂度视角来看却是不期望的。然而,考虑到整条视频传输链,如果解码器被迫以较高帧率来解码(和显示)则是有利的,即使编码器可能只具有适合于诸如30帧每秒(fps)之类的较低帧率的计算能力或连通性(例如,最大比特率)。需要一种允许解码器以最小带宽开销且无显著计算开销在高比特率运行、并且还允许能够处理该操作的所有解码器呈现相同结果的解决方案。用于解码器本地的帧率增强的技术已经公开了多年,通常被称为“时间内插”。在北美消费者电子产品市场中可获得的提供60Hz、120Hz、240Hz或甚至更高帧率的许多高端电视(TV)机似乎使用了此类技术之一。然而,因为每个TV制造商自由使用其自己的技术,在时间内插之后所显示的视频信号在不同制造商的TV之间看起来会有细微的不同。在消费者电子产品环境中,这可能是可接受的,或甚至是作为产品区分因素而想要的。然而,在专业视频会议中,这是缺点。例如,在远程医疗中或在执法所涉视频传输使用情形、视频监督及类似情形中,出于可靠性原因必须避免引入端点特有的和非可重现的伪像。至少某些形式的解码器侧时间内插还具有输入信号非线性改变的问题。已知人类视觉系统能感知照明条件的相对快速的改变。许多人可观察到在33ms内从黑色切换至白色的一幅图像与分别在16ms内从黑色通过灰色切换至白色的两幅图像之间的视觉感知差 别。由于较高计算要求或较高带宽要求,或出于成本效率原因,利用未经优化的编码器来编码较高帧率可能是不可行的。带外信令可用于告知解码器或附带的渲染器使用定义好的/标准化形式的时间内插。然而,这样做要求时间内插技术及其信令支持两者的标准化,这在今天的TV、视频会议或视频电话协议中皆不可用。可从http://www. itu. int/rec/T-REC-H. 264-200903-1 或瑞士日内瓦联合国广场(Place des Nations, 1211 Geneva 20,Switzerland)的国际电信联盟得到的 ITU-TRec. H. 264附录G (替换地称为可缩放视频编码或即SVC,下文标示为“SVC”)包括“片_跳过_标志”句法元素,其启用我们将称为“片跳过模式”的模式。根据此模式并且如在本发明中使用的被跳过的片在文献JVT-S068 (可从http://wp3. itu. int/av-arch/jvt-site/2006_04_Geneva/JVT-S068. zip得到)中被引入作为该SVC句法的简化且直接的增强。然而,此文献和相关JVT会议的会议报告(http://wftp3. itu. int/av-arch/jvt-site/2006_04_Geneva/AgendaffithNotes_d8. doc)均未提供将与给出的本发明相似的关于所建议和采用的该句法元素的使用的任何信息。发明概述本文中所公开的是被安排成使用现有视频压缩技术来增强有视觉吸引力的高帧率而不引发使用常规技术的高帧率编码所共有的比特率和计算复杂度的技术以及包含指
令的计算机可读介质。SVC跳过片(skip slice)-即其中片头部中的片_跳过_标志被
设置成值I的那些片——需要比特流中非常少的比特,藉此保持非常低的比特率开销。而且,在使用恰当的实施方式时,用于编码完全由被跳过的片组成的增强层画面的计算要求几乎是可忽略的。然而,在收到跳过片时的解码器操作是被恰当定义的。此外,增强层中的被跳过的片继承来自(诸)基层的运动信息,藉此即使不消除也会最小化非线性运动和线性内插之间可能的不良相关性。而且,前述的画面(或其显著部分)的过激亮度改变问题不存在,这是因为基层是以全帧率被编码的并且可包含也可由增强层继承的与亮度改变有关的信息。
根据本发明的一个示例性实施例,分层编码器利用较高帧率的至少一个基础层来表示输入信号。“基础层”包括单个基层,或者包括单个基层和一个或更多个增强层。它还利用具有比该(诸)基础层更高的空间分辨率的处于较低帧率的至少一个空间增强层、和增强该空间增强层的具有较高帧率的至少一个时间增强层。在此时间增强层之内,至少一个画面至少部分地被编码为一个或更多个跳过片。作为一示例,基础层仅由基层组成。该基层以60Hz被编码。空间增强层以30Hz被编码。时间增强层是仅仅使用跳过片以60Hz被编码的,并且结果得到的经编码画面将被称为“跳过画面”。在该示例中,在传输之后,在解码器处,该基层、空间增强层和时间增强层被一同解码(采用哪种确切的解码技术与本发明是无关的一单环解码和多环解码两者均将产生相同结果)。因为增强层的运动向量、粗略纹理信息以及其它信息是从(诸)基层继承的,所以减少了内插空/时伪像的量。这在解码之后导致60Hz的高帧率的可再现的、在视觉上舒适的高质量信号。然而,编码复杂度和比特率需求降低了。用于编码时间增强层的计算需求降至实质上为零。比特率也显著减小,尽管量化此量是困难的,因为其高度取决于信号。若干其它操作模式也是可行的。在相同或另一实施例中,分层结构可以更复杂,例如,可使用包括跳过片的一个以上的时间增强层。例如,编码器可被设计成实现30Hz的空间增强层,以及60Hz和120Hz的两个时间增强层。使用诸如在美国专利No. 7,593,032和共同待审美国专利申请序列号12/539,501中公开的那些技术,接收机可接收和解码仅仅那些它能够解码和显示的时间增强层;由编码器产生的其它增强层被视频路由器丢弃。在相同或另一实施例中,可使用SNR可伸缩性。“SNR可伸缩层”是通过提供尤其是较精细的量化系数数据并由此提供纹理信息中的较少量化误差来提高质量(通常可以信噪比“SNR”测量)而不增加帧率或空间分辨率的层。可以想象,(诸)时间增强层可以是基于SNR可伸缩层以替代或补充以上所描述的空间增强层。在相同或另一实施例中,跳过片可覆盖时间增强层的各部分。例如,足够强大的编码器可通过使用跳过片来编码时间增强层的背景信息(例如,墙壁等),而它使用对于时间增强层公知的工具有规则地编码前景信息(即,讲话者的面部)。附图
简要描述图I是解说根据本发明的视频传输系统的示例性架构的框图。图2是根据本发明的示例性分层比特流的示例性层结构。发明详细描述图I描绘了示例性数字视频传输系统,其包括编码器(101)、至少一个解码器
(102)(不必在相同位置、由相同实体所拥有、在相同时间操作,等等)、和用于传送数字经编码视频数据的机制(例如网络云(103))。类似地,示例性数字视频存储系统也包括编码器
(104)、至少一个解码器(105)(不必在相同位置、由相同实体所拥有、在相同时间操作,等等)、和存储介质(106)(例如,DVD)。本发明涉及在数字视频传输、数字视频存储或类似体系的编码器(101和104)中操作的技术。其他元素(102、103、105、106)如常操作并且无需任何修改就能与根据本发明操作的编码器(101、104)相兼容。、
示例性数字视频编码器(下文称为“编码器”)对未经压缩的输入视频流应用压缩机制。未经压缩的输入视频流可由某个空时分辨率的数字化像素组成。尽管本发明可利用可变分辨率和可变输入帧率两者来实践,但为简明起见,在下文中假设并讨论固定空间分辨率和固定帧率。编码器的输出通常被标示为比特流,不管该比特流是作为整体还是以片断形式投入周围的较高级格式(诸如文件格式或分组格式)以用于存储或传输。编码器的实际实现取决于许多因素,诸如成本、应用类型、市场容量、功率预算、形状因子以及其它因素。已知的编码器实现包括完全的或部分的硅实现(其可被分解成若干模块)、运行在DSP上的实现、运行在通用处理器上的实现,或任何这些实现的组合。每当涉及可编程设备时,编码器的部分或全部可实现在软件中。该软件可分布在计算机可读介质(107、108)上。本发明不要求或排除前述实现技术中的任何技术。尽管并非只限于分层编码器,但本发明更有利地用在分层编码器的上下文中。术语“分层编码器”在本文中指能产生由多于一层构造的比特流的编码器。分层比特流中的诸层处于给定关系中,通常以有向图的形式绘出。
图2描绘根据本发明的分层比特流的示例性层结构。基层(201)可以QVGA空间分辨率(320x 240像素)并以30Hz的固定帧率来编码。时间增强层(202)把帧率提高至60,但仍处于QVGA分辨率。空间增强层(203)把基层的分辨率提高至VGA分辨率(640x 480像素),处于30Hz。另一时间增强层(204)把该空间增强层(203)提高至60Hz且处于VGA分辨率。箭头标示各层的依存性。基层(201)不依赖于其他任何层并且因此其自身可有意义地被解码和显示。时间增强层(202)仅依赖于基层(201)。类似地,空间增强层(203)仅依赖于基层。时间增强层(204)直接依赖于两个增强层(202)和(203),并且间接依赖于基层(201)。现代视频通信系统(诸如在美国专利No. 7,593,032和共同待审美国专利申请序列号12/539,501中公开的那些)可利用分层结构(诸如在图2中绘出的那些)以便向目的地传送、中继或路由仅仅那些层以进行处理。现有技术分层编码器经常采用即使不相同也是类似的技术来编码每个层。这些技术可包括通常被概述为具有运动补偿的帧间预测,并且可要求运动向量搜索、DCT或类似变换、和其它在计算上复杂的操作。尽管恰当设计的分层编码器可在编码不同层时使用协作,但是分层编码器的计算复杂度仍往往显著高于使用与分层编码器的分层结构中的最高层相似的复杂编码算法以及相似的分辨率及帧率的传统非分层编码器。作为其在编码过程之后的输出,分层编码器产生分层比特流。在一个示例性实施例中,该分层比特流除头部数据之外还包括属于四个层(201、202、203、204)的比特。该分层比特流的确切结构与本发明是无关的。仍然参照图2,如果常规编码算法被应用于全部四个层(201、202、203、204),那么比特流预算可以如下分配,例如,基层(201)使用1/10的比特(205),时间增强层(202)也使用1/10的比特(206),并且增强层(203)和(204)分别使用4/10的比特(207、208)。这可通过每时间区间每像素使用相同数目的比特来达成。可使用可导致更舒适的视觉性能的其它比特率分配。例如,适当构建的分层编码器可向用作基层的那些层分配比增强层更多的比特,尤其是在增强层是时间增强层时。
比特率的减小是想要的。如果时间增强层(204)的所有画面是以覆盖整个画面的空间区域的一个大的跳过片的形式被编码的,那么该增强层的比特率(209)将从例如一兆比特每秒以上减小至例如几百比特每秒。结果,通过使用所讨论的本发明,分层比特流的在不使用本发明的情况下设为100% (210)的比特率在使用本发明的情况下约为60% (211)。对计算复杂度应用非常类似的考量。计算复杂度的分配经常以“循环”描述。例如,循环可以是CPU或DSP的指令,或测量固定数目的操作的另一形式。如果常规编码算法被应用于全部四个层,那么可以如下分配,基层(201)使用1/10的循环(205),时间增强层
(202)也使用1/10的循环(206),并且增强层(203)和(204)分别使用4/10的循环(207、208)。这可通过每时间区间每像素使用相同数目的比特来达成。应当注意,可使用可导致更加优化的总体循环预算的其它循环分配。具体而言,以上提及的循环分配不把各层的编码之间的协作效应纳入考虑。实践中,恰当构建的分层编码器可向被用作基层的那些层分配比增强层更多的循环,尤其是在增强层是时间增强层时。总循环计数的减小以及因此总体计算复杂度的减小是想要的。例如,如果增强层(204)的所有画面是以覆盖整个画面的空间区域的一个大的跳过片的形式被编码的,那么·用于该增强层的编码的循环计数将降低至非常低的数目,例如,比以其传统方式编码该层低许多个数量级。这是因为将不会执行真正在计算上复杂的操作(诸如运动向量搜索或变换)。仅仅那些表示跳过片的少数比特需要被放置在比特流中,这会是在计算上非常不复杂的操作。结果,通过使用所讨论的本发明,分层比特流的在不使用本发明的情况下设为100%(210)的循环计数在使用本发明的情况下约为60% (211)。用于编码跳过片的句法在可从http://www. itu. int/rec/T-REC-H. 264-200903-1或瑞士日内瓦联合国广场(Place des Nations, 1211 Geneva 20,Switzerland)的国际电信联盟得到的ITU-T建议H. 264附录G版本03/2009第7. 3. 2. 13节“跳过片标志”中描述,且该标志的语义可在语义章节中的页428ff上找到。比特流中要包括的表示跳过片的诸比特对于已经学习过该ITU-T建议H. 264之后的本领域技术人员而言是显而易见的。
权利要求
1.一种用于把视频序列编码成比特流的方法,所述方法包括 (a)以第一帧率编码基础层,所述第一帧率是所述视频序列的帧率的分数, (b)基于所述基础层以所述第一帧率编码第一空间增强层, (c)基于所述基础层以第二帧率编码第二时间增强层,其中所述第二帧率高于所述第一帧率但是低于或等于所述视频序列的所述帧率,以及 (d)基于所述基础层、所述第一空间增强层和所述第二时间增强层以第三帧率编码第三增强层, 其中所述第三增强层的经编码画面完全由被跳过的宏块组成。
2.如权利要求I所述的方法,其特征在于,所述被跳过的宏块由具有被置位的片跳过标志的至少一个片表不。
3.如权利要求I所述的方法,其特征在于,所述帧率是可变的。
4.如权利要求I所述的方法,其特征在于,所述帧率是固定的。
全文摘要
本文中所公开的是被安排成使用现有视频压缩技术来增强有视觉吸引力的高帧率而不引发使用常规技术的高帧率编码所共有的比特率和计算复杂度的技术以及包含指令的计算机可读介质。SVC跳过片——即其中片头部中的片跳过标志被设置成值1的那些片——需要比特流中非常少的比特,藉此保持非常低的比特率开销。
文档编号H04N7/12GK102754433SQ201180007121
公开日2012年10月24日 申请日期2011年1月14日 优先权日2010年1月26日
发明者J·翁坎普, M·霍罗威茨 申请人:维德约股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1