具有基于知觉的帧内切换的模式决策的制作方法

文档序号:7990732阅读:140来源:国知局
具有基于知觉的帧内切换的模式决策的制作方法
【专利摘要】一种方法包括:对于要编码的每个目标图像部分,通过最优化包括失真的估计和对目标图像部分编码所需的比特率度量的函数而选择编码模式组中的优选模式,所述编码模式至少包括帧内模式和帧间编码模式;使用选择的编码模式将目标图像部分编码到编码的视频流中;以及通过有损信道发送编码的视频流。失真的估计基于来自包括目标块的可能损失的通过信道的可能新损失的贡献,并且基于来自包括目标部分的解码所依赖的编码的视频流的历史中的可能损失的通过信道的可能过去损失的贡献。该方法包括累积随着时间的推移来自过去损失的贡献,从而失真的估计增长,而不管来自新损失的贡献如何。
【专利说明】具有基于知觉的帧内切换的模式决策
【技术领域】
[0001]本发明涉及在使用帧内和帧间编码对视频信号编码时平衡比特率与失真之间的折衷。
【背景技术】
[0002]图1a中示意性地图示出要编码的视频数据流。该流包括多帧(F),每帧代表不同的对应时刻的视频图像。如本领域技术人员所熟悉的,为了编码的目的,每帧(F)被划分成若干部分并且每个部分也可以被细分成更小的子部分,每个部分或子部分包括多个像素。例如,依照一种术语,要编码的视频流的每帧被划分成宏块(MB)并且每个宏块被细分成块
(b),每个块包括多个像素。每帧也可以被划分成可独立解码的切片(S),每个切片包括一个或多个宏块。应当注意,图1a中示出的划分仅仅是示意性的,用于说明的目的,并且应当理解的是,这些划分不一定预期与任何实际的编码方案相应一例如,每帧很可能包含更大数量的宏块。
[0003]图2的框图中示意性地图示出其中可以采用视频编码的一个实例通信系统。该通信系统包括第一发送终端12和第二接收终端22。例如,每个终端12、22可以包括移动电话或智能电话、平板计算机、膝上型计算机、台式计算机或者诸如电视机、机顶盒、立体声系统等等之类的其他家用电器。第一和第二终端12、22中的每一个可操作地耦合到通信网络32,并且第一发送终端12因此被布置成发送将由第二接收终端22接收的信号。当然,发送终端12也可能能够接收来自接收终端22的信号并且反之亦然,但是出于讨论的目的,所述发送在这里从第一终端12的视角进行描述,并且所述接收从第二终端22的视角进行描述。通信网络32可以包括例如基于分组的网络,例如广域网和/或局域网,和/或移动蜂窝网络。
[0004]第一终端12包括诸如闪存或其他电子存储器、磁性存储设备和/或光学存储设备之类的存储介质14。第一终端12也包括:具有一个或多个核的CPU形式的处理装置16 ;至少具有发送器18的诸如有线或无线调制解调器之类的收发器;以及视频照相机15,其可以与或者可以不与终端12的其余部分容纳在相同的外壳内。存储介质14、视频照相机15和发送器18中的每一个可操作地耦合到处理装置16,并且发送器18经由有线或无线链接可操作地耦合到网络32。类似地,第二终端22包括:诸如电子、磁性和/或光学存储设备之类的存储介质24 ;以及具有一个或多个核的CPU形式的处理装置26。第二终端包括:至少具有接收器28的诸如有线或无线调制解调器之类的收发器;以及屏幕25,其可以与或者可以不与终端22的其余部分容纳在相同的外壳内。第二终端的存储介质24、屏幕25和接收器28中的每一个可操作地耦合到对应的处理装置26,并且接收器28经由有线或无线链接可操作地耦合到网络32。
[0005]第一终端12上的存储介质14至少存储被布置成在处理装置16上执行的视频编码器。当被执行时,编码器接收来自视频照相机15的“原始”(未编码)输入视频流,对该视频流编码以便将它压缩成较低比特率流,并且输出编码的视频流以便经由发送器18和通信网络32传输至第二终端22的接收器28。第二终端22上的存储介质至少存储被布置成在其自身的处理装置26上执行的视频解码器。当被执行时,该解码器接收来自接收器28的编码的视频流,并且对它解码以便输出到屏幕25。可以用来指称编码器和/或解码器的通用术语为编解码器。
[0006]视频编解码器的目标是降低传输视频信号所需的比特率,同时维持最高的可能的质量。这个目标通过利用统计冗余(视频信号中的相似性)和知觉不相关性(与人类视觉系统的灵敏度有关)来实现。
[0007]当今的大多数视频编解码器基于这样的架构,该架构包括从其他像素块预测像素块,变换预测残差,量化变换系数以及对量化指标进行熵编码。这些步骤有助于降低冗余和不相关性。
[0008]参阅以下文献:
[1]ITU-T, Recommendation H.264, "Advanced video coding for genericaudiovisual services' 2007;
[2]Zhang et al.,"Error resilience video coding in H.264 encoder withpotential distortion tracking' In Proc.1EEE International Conference on ImageProcessing, pp.163-166, 2004;
[3]M.Barkowsky, B.Eskofier,R.Bitto,J.Bialkowski, and A.Kaupj"Perceptually motivated spatial and temporal integration of pixel based videoquality measures," in MobConQoE,07: Workshop on Mobile Content Quality ofExperience, pp.1-7,2007;`
[4]Joint Video Team (JVT) of IS0/IEC MPEG and ITU-T VCEGj document numbersJVT-N046 & JVT-V079, Sullivan et al, 1998。
[0009]预测典型地可以根据与当前帧不同的视频帧中的像素(帧间预测)以及根据相同帧中的像素(帧内预测)进行。换言之,如果使用帧内编码进行编码,那么该帧的一定块或部分(目标块或部分)相对于该帧中的另一块或图像部分(参考块或部分)进行编码;并且如果使用帧间编码进行编码,那么目标块或部分相对于另一帧中的参考块或部分进行编码。这个过程常称为预测或者预测编码。帧间或帧内预测模块因此将在帧内编码的情况下生成例如相邻块指示形式的预测和/或在帧间编码的情况下生成运动矢量。典型地,编码器也生成表示预测块与实际块之间的“剩余”差值的残差信号。然后,帧内预测、运动矢量和残差典型地经由诸如量化器和熵编码器之类的另外的编码级输出到编码的视频流中。因此,视频中的大多数块可以按照块之间的差值进行编码,这与对绝对像素值进行编码相比需要编码更少的比特,并且因而节省了比特率。帧内预测编码典型地需要比帧间预测更多的比特,但是相对于对绝对值进行编码仍然代表一种节省。用于视频的适当的帧间和帧内编码技术的细节应当是本领域技术人员所熟悉的。
[0010]现代编解码器允许将不同的预测编码模式用于帧内的不同部分。具有不同编码选项的可能性提高了视频编解码器的率失真效率。对于每一个帧区域,必须找到最优编码表示。典型地,这样的区域为例如16x16像素的宏块。即,因此有可能对于每个宏块单独地选择帧内预测或帧间预测模式,使得相同帧内的不同宏块可以利用不同的模式进行编码。也可能的是,在一些编解码器中基于宏块的不同分割水平使用不同的模式,例如在其中对于宏块内的每个4x4块执行单独的预测的较高复杂度模式或其中基于仅仅8x8或8x16块或者甚至整个宏块执行预测的较低复杂度模式之间进行选择。可用的模式也可以包括不同的用于执行预测的选项。例如,如图1b中示意性地图示出的,在一种帧内模式中,4x4块(b)的像素可以通过根据来自正上方的块的相邻像素向下外插或者通过根据来自正左方的块的相邻像素向侧面外插而确定。称为“跳跃模式”的另一种特殊的预测模式也可以在一些编解码器中提供,其可以被认为是可替换类型的帧间模式。在跳跃模式(PSkip)中,基于向顶部和向左边的运动矢量推断目标的运动矢量,并且不存在对于残差系数的编码。该推断运动矢量的方式与运动矢量预测一致,并且因而运动矢量差值为零,因此只需用信号表示MB为跳跃块。
[0011]图3为示意性地图示出例如可能在发送终端12上实现的编码器的高层次框图。该编码器包括:离散余弦变换(DCT)模块51,量化器53,逆变换模块61,逆量化器63,帧内预测模块41,帧间预测模块43以及减法级(_)。该编码器也包括开关47和模式选择模块49。这些模块或功能块中的每一个优选地实现为存储在发送终端的存储介质14上并且被布置用于在其处理装置16上执行的代码的部分,但是不排除这些模块或功能块中的一些或全部完全或者部分地在专用硬件电路中实现的可能性。
[0012]开关47和模式选择模块49中的每一个被布置成接收包括多个宏块MB的输入视频流的实例。模式选择模块49被布置成为每个宏块选择编码模式“O”,并且可操作地耦合到复用器47以便控制它将逆量化器63的输出传送至适合于选择的模式的帧内预测模块41或者帧间预测模块43的输入。模式选择模块49也可以被布置成向有关预测模块41、43指示选择的模式“o”(例如指示4x4分割模式、8x8模式、跳跃模式等等)。然后,帧内预测模块41或者帧间预测模块43的输出继续耦合到减法级(_)的输入,该减法级被布置成在其另一输入处接收未编码的输入视频流并且从其未编码的对等物中减去预测的块,从而生成残差信号。然后,残差块被传送通过其中将其残差值转换到频域中的变换(DCT)模块51,然后被传送到其中将变换的值转换成离散量化指标的量化器53。将量化的变换的信号通过逆量化器63和逆变换模块61反馈以生成所述块的预测版本(如解码器处将看到的)以供选择的预测模块41、43使用。预测模块41、43中使用的预测的指示、帧间预测模块43生成的运动矢量以及如变换和量化模块51、53所生成的残差的量化的变换的指标都是用于典型地经由另外的诸如熵编码器(未示出)之类的无损编码级包含在编码的视频流中的输出,在所述无损编码级中,预测值和变换的量化的指标可以使用本领域中已知的无损编码技术进一步压缩。
[0013]依照以上所述,编码表示因此可以包括块分割信息、预测模式、运动矢量、量化精度等等。最优编码选项取决于视频内容、比特率、早期编码决策等等。变换系数的量化精度典型地被选择成满足比特率约束。此外,失真应当最小化。
[0014]例如,H.264视频编码器在选择预测模式中提供了很大的灵活性[I]。对于亮度分量的帧间预测而言,可以将16x16像素的宏块表示为一个16x16像素块或者两个16x8像素块或者两个8x16像素块或者四个8x8像素块。此外,可以将8x8块表示为一个8x8像素块或者两个8x4像素块或者两个4x8像素块或者四个4x4像素块。对于宏块的每一个允许的分割,尝试帧间预测。块的帧间预测通过索引参考帧和运动矢量(从对应参考帧中的参考块的空间移动)来表示,所述运动矢量典型地以子像素精度估计。对于亮度分量的帧内预测而言,存在用于16x16块的四种可能的模式以及用于4x4块的九种可能的模式。此外,存在用于色度分量的四种可能的模式。最佳预测模式通过比较帧内和帧间预测模式的性能进行选择。
[0015]诸如H.264 AVC [I]的视频编解码器的率失真性能在较大的程度上取决于宏块模式选择o的性能。换言之,确定是否使用例如帧内模式或帧间模式(根据先前编码的帧预测)按照率失真折衷对宏块最佳地编码的过程。从鲁棒性的视角来看,帧内编码的宏块是有益的,因为它们停止了时间误差传播(假设使用有约束帧内预测,即禁止根据帧间预测的宏块进行帧内预测)。然而,帧内编码的宏块与帧间编码的宏块相比通常在代价方面更昂贵,并且因此重要的是系统地引入帧内编码的宏块,使得给定特定比特预算和信道条件,解码器处的失真(例如平均失真)最小化。Zhang等人[2]提出了基于解码器处的期望平均差平方和(SSD)的最小化引入帧内编码的宏块的这种系统框架。通过跟踪潜在的失真,Zhang等人能够计算与期望误差传播失真(解码器处)有关的偏差项,其在计算编码器率失真回路内的帧间宏块的成本时添加到源编码失真。
[0016]率失真性能优化问题可以根据在比特率约束R下最小化失真而公式化。拉格朗日优化框架经常用来解决这个问题。在这里,优化准则用公式表示为
【权利要求】
1.一种对包括多帧的视频流编码的方法,每帧包括多个图像部分,该方法包括: 对于要编码的每个目标图像部分,通过最优化包括失真的估计和对目标图像部分编码所需的比特率度量的函数而选择编码模式组中的优选模式,所述编码模式至少包括(i)相对于相同帧中的参考图像部分对目标图像部分编码的帧内模式,和(ii)相对于先前编码的帧中的参考图像部分对目标图像部分编码的帧间编码模式; 使用选择的编码模式将目标图像部分编码到编码的视频流中;以及 通过有损信道发送编码的视频流; 其中失真的估计基于来自包括目标部分的可能损失的通过信道的可能新损失的贡献,并且基于来自包括目标部分的解码所依赖的编码的视频流的历史中的可能损失的通过信道的可能过去损失的贡献;并且 该方法包括累积随着时间的推移来自过去损失的贡献,从而失真的估计增长,而不管来自新损失的贡献如何。
2.权利要求1的方法,其中失真的估计包括表示源编码失真的第一项以及表示由于通过所述信道的损失而经历的失真的估计的偏置项,该偏置项基于所述来自可能的新损失和过去的损失的贡献。
3.权利要求2的方法,其中偏置项基于:第二项,其表示在目标部分确实通过信道到达的情况下由于目标部分的预测所依赖的目标部分历史中的参考部分未到达而将经历的失真的估计;以及隐藏项,其表示由于隐藏而将经历的失真的估计;并且所述累积包括将时间积分因子应用到第二项。
4.权利要求3的方法,其中隐藏项包括:第三项,其表示在目标部分通过信道损失的情况下目标部分相对于用来`隐藏目标部分的损失的图像部分的隐藏失真的度量;以及第四项,其表示由于目标部分的隐藏所依赖的目标部分历史中的图像部分的损失而将经历的失真的估计。
5.权利要求4的方法,其中来自新损失的贡献由第三项和第四项造成,并且来自过去损失的贡献由第二项和第四项造成。
6.权利要求3、4或5的方法,包括确定分组将通过信道损失的概率/7,其中第二项由因子1-/7加权,隐藏项由因子/7加权,并且第二项进一步由时间积分因子加权,从而第二项由大于IT的组合因子加权。
7.权利要求3、4、5或6的方法,其中偏置项基于包括所述第二项和隐藏项的误差传播失真图中的条目,并且该方法包括: 在每个编码模式选择之后更新误差传播失真图,以及根据误差传播失真图确定误差传播偏置项以用于每个对应的后续编码模式选择中。
8.权利要求2和7的方法,其中选择的编码模式0_由下式计算:
9.权利要求7或8的方法,其中用于帧/7+1的更新的失真图A5这样配置以便随着来自新损失的贡献趋向零而趋向:
Dep(fl+D = aDepQi) 其中a为时间积分因子,并且/7为已经对其确定了失真图的先前编码的帧。
10.一种用于对包括多帧的视频流编码的装置,每帧包括多个图像部分,该装置包括:编码器,其被配置成对于要编码的每个目标图像部分,通过最优化包括失真的估计和对目标图像部分编码所需的比特率度量的函数而选择编码模式组中的优选模式,所述编码模式至少包括(i)相对于相同帧中的参考图像部分对目标图像部分编码的帧内模式,和(ii)相对于先前编码的帧中的参考图像部分对目标图像部分编码的帧间编码模式; 其中该编码器被配置成使用选择的编码模式将目标图像部分编码到编码的视频流中; 该装置进一步包括用于通过有损信道发送编码的视频流的发送器; 失真的估计基于来自包括目标部分的可能损失的通过信道的可能新损失的贡献,并且基于来自包括目标部分的解码所依赖的编码的视频流的历史中的可能损失的通过信道的可能过去损失的贡献;并且 所述编码器进一步被配置成累积随着时间的推移来自过去损失的贡献,从而失真的估计增长,而不管来自新损 失的贡献如何。
【文档编号】H04N19/89GK103609115SQ201280031219
【公开日】2014年2月26日 申请日期:2012年6月22日 优先权日:2011年6月24日
【发明者】M.尼尔松, R.瓦芬, S.V.安德森 申请人:斯凯普公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1