金字塔式双向预测模式的视频恒定质量控制方法

文档序号：7646265阅读：193来源：国知局

专利名称：金字塔式双向预测模式的视频恒定质量控制方法
技术领域：
本发明涉及一种视频技术领域的视频恒定质量控制方法，具体是一种金字塔式双向预测模式的视频恒定质量控制方法。

背景技术：
视频信号的传输与存储通常需要对编码压缩参数进行优化选择。在编码过程中，优化的目标既可以以输出比特率恒定为目标也可以以输出的质量恒定为目标。前者称为恒定比特率编码，通常采用码率控制的方式实现，后者称为恒定质量编码，通常采用固定每帧量化参数的方式实现。
现有的视频编码标准如ITU指定的H.261，H.263，H.263+，H.264标准以及ISO的MPEG组织指定的MPEG-1，MPEG-2，MPEG-4等都是建立在混合编码，即Hybrid Coding框架之上的。所谓混合编码框架是一种混合时间空间视频图像编码方法。在混合编码框架中有三种类型的编码帧帧内编码帧(I帧)和帧间编码帧(P帧)以及双向预测帧(B帧)。目前，ISO和ITU-T组织联合开发的H.264标准的可伸缩扩展部分已处于标准化过程的后期。与之前的视频标准相比，可伸缩扩展部分在对B帧编码时，支持时间域金字塔式的双向预测模式。金字塔式双向预测帧可以灵活地实现时间可分级特性，但这种结构如果采用固定量化参数的编码方式，由于参考帧距离较远，对于高速运动或含有场景切换的视频，很容易造成编码质量较大幅度的波动。
经对现有技术的文献检索发现，现有文献中的视频恒定质量控制方法都是基于传统的IPPP(图像组中第一个帧类型为I帧，其余帧类型为P帧)模式和IBBP(图像组中第一个帧类型为I帧，接着的两个帧类型为B帧，再接着帧类型为P帧)模式，如Fabio De Vito等人在2005年《第5届IEEE信号处理与信息技术国际论坛》(Proceeding of the 5th IEEE International Symposiumon Signal Processing and Information Technology)第5期612到617页发表的“PSNR Control for GOP-level Constant Quality in H.264 Video Coding，”(H.264视频编码中用于图像组层恒定质量的峰值信噪比控制)一文论述了用于IPPP和IBBP图像组结构的恒定质量控制技术。然而该方法没有考虑金字塔双向预测的这一特殊预测结构带来的不同时间层视频帧的远近交错对质量波动的影响，因此不能有效地应用于包含时间域金字塔式预测结构。

发明内容
本发明针对H.264及可分级扩展中时间域金字塔式的双向预测模式下，采用固定量化实现恒定质量编码的不足，提供一种金字塔式双向预测模式的视频恒定质量控制方法，本发明有效地限制了视频序列中图象质量的波动范围，提高了整个视频信号输出的质量。
本发明是通过以下技术方案实现的，本发明在H.264及可分级扩展视频编码标准中，对每帧图像数据进行编码时动态调整帧级量化参数，首先根据峰值信噪比和量化参数的线性关系，对整个视频序列设定初始量化参数；然后根据已编码图像的峰值信噪比以及编码帧和参考帧之间平均绝对差值的变化信息，调整时间基本层的量化参数；最后根据时间基本层参数和前后参考帧平均绝对差值的变化信息，调节时间增强层的量化参数，从而实现金字塔式双向预测模式下的视频恒定质量的控制。
以下对本发明步骤作进一步的描述第一步，根据峰值信噪比PSNR和量化参数QP的线性关系，对整个视频序列设定初始量化参数，具体如下令量化参数值为A和B，A和B的默认值为10和40，可以根据应用需要重新设定。按照常规H.264编码方法按照时间轴金字塔式预测结构对视频按照固定量化参数的方法编码两次，分别得到两个峰值信噪比。然后按照线性关系式(1)计算出斜率k和截距b。
PSNR＝k×QP+b(1) 然后将目标峰值信噪比代入，即可按照下式获得初始量化参数值QP0 其中round(·)表示取整操作。
第二步，根据已编码图像的峰值信噪比以及编码帧和参考帧之间平均绝对差值的变化信息，调整时间基本层的量化参数，具体如下步骤一，首先计算过去N个已编码时域基本层图像帧的平均峰值信噪比值，若该平均值与目标峰值信噪比值的差异在阈值Δ之内，当前帧将使用和上一帧相同的量化参数进行编码。即其中下标j为下一个待编码帧的序号，T为目标峰值信噪比值。
步骤二，如果差异大于阈值Δ时，则根据该差值的正负，将当前帧的量化参数相应的增加或减小。即增加和减小值δ由下式计算出其中，运算符[·]表示截尾取整。δ和具有相同的正负性。而参数K控制量化参数调整的最大步长，以防止算法过分剧烈地自适应而造成局部质量效果的大幅变化。参数γ是一个与视频内容有关的尺度因子。参数(N，Δ，γ，K)的选取会对算法的性能有所影响，默认值为N＝3，Δ＝0.5，γ＝1.8，K＝2。
步骤三，计算平均绝对差值和平均绝对差值比率，以平均绝对差值和平均绝对差值比率作为帧复杂度的度量，来检测序列中视频变化剧烈的时刻。对于I帧和I宏块，使用原始像素的绝对值来代替残差像素的绝对值。
平均绝对差值采用下式计算其中，pixorig为原始像素值，pixref为运动补偿后参考帧中的对应像素值，对于I帧和I宏块，使用原始像素的绝对值来代替残差像素的绝对值，w、h为图像的宽度和高度。
平均绝对差值比率MADratio采用下式计算即当前帧j的平均绝对差值与先前已编码的各P帧的实际平均绝对差值的平均值之比。中间变量MADPj用线性模型预测 MADPj＝α×MADj-1+β(8) α，β的初始值为1，0。之后用线性回归的方法逐帧更新。
步骤四，根据平均绝对差值比率MADratio，进一步调整量化参数值QP
第三步，根据时间基本层参数和前后参考帧MAD的变化信息，调节时间增强层的量化参数，具体如下首先通过前向、后向两个参考帧(下标L和R)的已编码信息来决定当前帧的量化参数。
QPj＝(MADL＜MADR)？QPL∶QPR(10) 随后，N取值为2，用与公式(3)，(4)，(5)相同的方法调整量化参数。
本发明中，时间域金字塔式的双向预测这一特殊模式使得编码过程中始终使用同一个量化参数难以带来较稳定的峰值信噪比输出，因此需要根据各编码帧所处的时间层，并结合视频内容的运动和纹理特性进行量化参数的动态调整。在本发明第二步骤中基本时间层的设定综合考虑了前N个时间基本层峰值信噪比的平均以及编码帧和参考帧之间平均绝对差值的变化，第三步骤中量化参数的调节综合了时间基本层参数和平均绝对差值的变化，很好地实现了分层和内容自适应的动态质量调节思想。
与现有技术相比，本发明的主要特点是根据时间域金字塔式的双向预测模式的特点，动态地调节每帧量化参数。本发明能提高时间域可伸缩视频编码质量的一致性，有效地减少视频帧之间的波动性。针对最新的JVT参考软件JSVM8.6，在相同的实验条件下，所做实验表明本发明能有效地降低金字塔双向预测结构下视频序列PSNR的波动范围。

图1实现时域可分级的金字塔双向预测结构示意图。
图2是本发明实施例的量化参数值和重建视频峰值信噪比之间的线性关系图。
图3是本发明实施例在H.264编码金字塔双向预测结构下效果图。

具体实施例方式 下面结合附图对本发明的实施例作详细说明本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和过程，但本发明的保护范围不限于下述的实施例。
如图1所示，300帧图像组成的stefan视频序列的前两个完整图像组的预测模式，每个GOP包含8帧图像，序号0，1，…，16表示视频的编码顺序，Tx(x＝0，1，2，3)表示对应帧所处的时间级别，其中T0表示基本层，其余表示增强层，箭头所示表示预测关系，同一图像组内按照编码序号从小到大的顺序执行。假设目标PSNR的值为PSNRtarget＝32.2db，操作步骤如下 1.对整个序列分别设定量化参数值为10和QP，按照上述图像组结构执行两次H.264编码，计算出峰值信噪比的值。根据公式(1)拟合出k＝0.77，b＝59，如图2所示。
2.根据目标峰值信噪比(PSNRtarget)，按照公式(2)获得所有帧的初始量化参数QP0； 3.对序号为0的帧采用H.264帧内编码的方式编码为I帧类型，量化参数设定为步骤2获得的量化参数； 4.对序号为1的帧取N＝1，Δ＝0.5，γ＝1.8，K＝2，按照公式(3)、(4)、(5)、(6)、(7)、(8)、(9)进一步调整初始量化参数； 5.对序号为1的帧，根据步骤4获得的量化参数，采用H.264帧间编码的方式编码为P帧类型； 6.对序号为2的帧按照公式(10)调整初始量化参数； 7.对序号为2的帧取N＝2，Δ＝0.5，γ＝1.8，K＝2，按照公式(3)、(4)、(5)、(6)、(7)、(8)、(9)进一步调整步骤6获得的量化参数； 8.对序号为2的帧，根据上一步骤获得的量化参数，采用H.264帧间编码的方式编码为B帧类型； 9.对序号大于3的时间基本层为T0的帧，取N＝3，Δ＝0.5，γ＝1.8，K＝2，按照公式(3)、(4)、(5)、(6)、(7)、(8)、(9)调整初始量化参数，采用H.264帧间编码的方式编码为P帧类型； 10.对序号大于3的时间增强层为Tx(x＝0，1，2，3)的帧，顺序执行6、7、8步骤。
实施效果依据上述步骤，对标准测试序列CIF格式，25fps的stefan进行300帧编码。采用图1所示的H.264编码Hierarchical B结构，重建图像目标PSNR为32.2db，平均码率为840kbps。
如图3所示为采用本发明得到的重建图像的PSNR随时间(Frames)的变化曲线。对比方案采用固定量化参数值为35的编码方法。从图中可以看出本发明有效地降低了编码过程中的峰值信噪比波动，同时和预先设定的目标峰值信噪比值也十分接近。
权利要求
1.一种金字塔式双向预测模式的视频恒定质量控制方法，其特征在于，包括以下步骤
第一步，根据峰值信噪比和量化参数的线性关系，对整个视频序列设定初始量化参数；
第二步，根据已编码图像的峰值信噪比以及编码帧和参考帧之间平均绝对差值的变化信息，调整时间基本层的量化参数；
第三步，根据时间基本层参数和前后参考帧平均绝对差值的变化信息，调节时间增强层的量化参数，从而实现金字塔式双向预测模式下的视频恒定质量的控制。
2.如权利要求1所述的金字塔式双向预测模式的视频恒定质量控制方法，其特征是，所述的根据峰值信噪比和量化参数的线性关系，对整个视频序列设定初始量化参数，具体如下
①令量化参数值为A和B，A和B的默认值为10和40，按照H.264编码方法按照时间轴金字塔式预测结构对视频按照固定量化参数的方法编码两次，得到两个峰值信噪比值PNSR，按照下式计算出斜率k和截距b
PSNR＝k×QP+b
②将目标峰值信噪比值PSNRtarget代入，按照下式获得初始量化参数值QP0，round(·)表示取整操作
3.如权利要求2所述的金字塔式双向预测模式的视频恒定质量控制方法，其特征是，所述的令量化参数值A和B，可重新设定。
4.如权利要求1所述的金字塔式双向预测模式的视频恒定质量控制方法，其特征是，所述的根据已编码图像的峰值信噪比以及编码帧和参考帧之间平均绝对差值的变化信息，调整时间基本层的量化参数，具体如下
步骤一，计算过去N个已编码时间基本层图像帧的平均峰值信噪比，若该平均值与目标峰值信噪比的差异在阈值Δ之内，当前帧将使用和上一帧相同的量化参数值进行编码，即
其中下标j为下一个待编码帧的序号，T为目标峰值信噪比PSNR值；
步骤二，如果差异大于阈值Δ时，则根据该差值的正负，将当前帧的量化参数QP相应的增加或减小，增加和减小值δ由下式计算出
其中，运算符[·]表示截尾取整，δ和具有相同的正负性，参数K控制量化参数QP调整的最大步长，参数γ是一个与视频内容有关的尺度因子，参数N，Δ，γ，K默认值为N＝3，Δ＝0.5，γ＝1.8，K＝2；
步骤三，计算平均绝对差值和平均绝对差值比率，平均绝对差值采用下式计算
其中，pixorig为原始像素值，pixref为运动补偿后参考帧中的对应像素值，对于I帧和I宏块，使用原始像素的绝对值来代替残差像素的绝对值，w、h为图像的宽度和高度；
平均绝对差值比率MADratio采用下式计算
即当前帧j的预测平均绝对差值与先前已编码的各P帧的实际平均绝对差值的平均值之比，中间变量MADPj用线性模型预测
MADPj＝α×MADj-1+β
α，β的初始值为1，0，之后用线性回归的方法逐帧更新；
步骤四，根据平均绝对差值比率，进一步调整量化参数值QP
5.如权利要求1所述的金字塔式双向预测模式的视频恒定质量控制方法，其特征是，所述的根据时间基本层参数和前后参考帧MAD的变化信息，调节时间增强层的量化参数，具体如下
步骤一，通过前向、后向两个参考帧的已编码信息MADL和MADR来决定当前帧的量化参数QP
QPJ＝(MADL＜MADR)？QPLQPR
②步骤二，N取值为2，采用第二步中的方法进一步调整量化参数QP。
全文摘要
一种金字塔式双向预测模式的视频恒定质量控制方法，属于视频技术领域。本发明包括第一步，根据峰值信噪比和量化参数的线性关系，对整个视频序列设定初始量化参数；第二步，根据已编码图像的峰值信噪比以及编码帧和参考帧之间平均绝对差值的变化信息，调整时间基本层的量化参数；第三步，根据时间基本层参数和前后参考帧平均绝对差值的变化信息，调节时间增强层的量化参数，从而实现金字塔式双向预测模式下的视频恒定质量的控制。本发明能提高时间域可伸缩视频编码质量的一致性，有效地减少视频帧之间的波动性。
文档编号H04N7/32GK101110957SQ20071004373
公开日2008年1月23日申请日期2007年7月12日优先权日2007年7月12日
发明者利宋, 张文军, 杨小康, 郑世宝, 谈永敏申请人:上海交通大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：宋利;张文军;杨小康;郑世宝;谈永敏
技术所有人：上海交通大学
我是此专利的发明人

上一篇：集成三重播放业务的无源光网络传输方法
上一篇：移动定位点故障的通信恢复方法、代理设备及移动节点的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。