人脸区域时域依赖性与全局率失真优化相结合的会话视频编码方法

文档序号：7889544阅读：140来源：国知局

专利名称：人脸区域时域依赖性与全局率失真优化相结合的会话视频编码方法
技术领域：
本发明属于视频编码和处理领域，具体涉及会话视频编码过程中率失真优化编码方法的研究。
背景技术：
人脸作为人类区别于其他生物的关键特征之一，在人际交往及社会活动中扮演着主要信息载体的角色，因而对其进行全面而深入的研究具有十分重要的理论和现实意义。随着实时多媒体服务的兴起，视频会议、可视电话、新闻播报等应用都与人脸有着直接或间接的联系。伴随这些应用的广泛推广，人脸研究的重要性更是与日俱增。通常，视频编码及通信界用“会话视频序列”来对上述应用加以概括，而与其相应的编码技术则称为会话视频编码技术。在经典的视频压缩理论中，所有的帧图像及编码单元都基于同等重要性而被顺序编码。随着研究的深入，人们逐渐意识到视频编码算法的评价指标除了压缩率和峰值信噪比(Peak Signal to Noise Ratio, PSNR)之外，还应考虑“感兴趣区域(Region of Interest,ROI) ”的编码质量。事实上，使用者往往以对ROI压缩效果的主观感受的好坏来直接评价视频编码结果的可接受程度。因此，如何保证或提高会话视频序列中人脸ROI的编解码质量是当前会话视频编码领域中亟待研究的前沿课题。从已有的研究成果看，围绕人脸ROI视频编码的相关研究主要分为两类1)编码端优先保护人脸ROI，如基于人脸ROI的帧内编码模式更新、基于人脸ROI的比特分配及资源优化；幻解码端重点恢复或在出现差错的情况下优先恢复人脸R0I，如基于人脸ROI的差错掩盖。其中，大部分研究成果通过赋予人脸ROI更高的编解码优先级，一定程度上实现了人脸ROI主客观质量的提高并促进了会话视频编码技术的发展。然而学者们忽视的一个问题是，人脸ROI的质量虽然具有视频评价上的特殊作用，但由于其只是会话视频序列中的一部分，对于人脸ROI的侧重编解码必然意味着会话视频序列的其他部分即非人脸 ROI部分编解码优先级的降低。这一点在编码过程中的体现尤为突出，如在比特资源有限的情况下，侧重人脸ROI的比特分配即以牺牲非人脸ROI的编码比特为前提。当所牺牲的编码比特影响到非人脸ROI的编码质量时，此时编码质量陡然降低的非人脸ROI会超越人脸ROI成为人眼关注的核心。如此一来，虽然人脸ROI的编码质量因比特侧重分配获得了明显提高，但人眼所感觉到的视频序列整体编码质量非但不会提高反而降低。另一方面，人脸ROI中各部分的重要性也并非完全一致，虽然已有部分文献中对人脸编码优先级给出了更细致的划分(如按眼、耳、口、鼻区域)以对该问题加以突出，但相关划分方法仍显得过于主观。因此，基于人脸ROI实际编码时还应结合人脸ROI在编码过程中的具体表现如率失真(fcite-Distortion，R-D)性能来进行。率失真优化(Rate Distortion Optimization, RD0)控制策略是在有限的带宽条件下提供解码端最佳视频质量的有效手段之一。理论上，视频编码RDO的最优解是对所有编码单元进行全局优化的结果。为了使问题更易于求解，学者们往往倾向于做一个独立性假设，即认为各编码单元间互不影响，从而实现各编码单元码率及失真度的独立衡量。以此为基础并结合拉格朗日乘子法，视频编码RDO问题即被分而治之而求解。事实上，因为单个编码单元在特定编码模式下的比特数必须在其他编码单元计算完毕后才能获得，所以从严格意义上讲，各编码单元最佳编码模式的判决是相互依赖的。由于视频编码的关键任务是移除不同编码单元间的冗余(时间冗余、空间冗余及统计冗余)，于是与其相关的运动估计、运动补偿和熵编码等常用策略导致了复杂的编码依赖性，该依赖性也使得每个编码单元的RDO不可能是一个完全封闭的个体。因此，基于独立性假设的RDO方法并不合理，且在各编码单元RDO过程中考虑编码依赖性已成为改善视频编码性能的重要手段之一。近年来，很多视频编码相关研究工作中对编码依赖性已经有所涉及，但这些方法普遍存在计算复杂度较高的缺陷。为了取得编码效率和时间复杂度之间的平衡，大量RDO 方法不得不放弃对部分编码依赖性的考虑以获得性能上的提高。在本发明所关注的会话视频编码中，由于人脸ROI编码单元纹理的相似性和运动的一致性，因而在一个图像组 (Group of Picture, GOP)中相邻帧编码时所表现出来的依赖性更强。

发明内容
鉴于现有技术的以上不足，本发明的目的是设计一种提高会话视频编码性能的新方法，使之取得更优秀的编码性能和很好的应用价值和理论意义，且适用于视频存储(可设置GOP最大长度为整个序列帧数)及实时性要求大于一个GOP延时的实时视频编码。本发明的目的是通过如下的手段实现的。一种人脸区域时域依赖性与全局率失真优化相结合的会话视频编码方法，利用人脸感兴趣区域ROI在同一图像组GOP内相邻编码帧之间的时域依赖性，提前估计人脸ROI 的失真度及其扩散影响，为最佳运动向量及模式划分选择提供有效的辅助手段，以实现视频序列整体及人脸ROI在主客观质量上的同步提高，其实现方式包括如下的序列步骤A.(在编码会话视频序列各GOP之前)对当前GOP内所有编码帧进行人脸ROI检测，从而确定人脸ROI编码单元的具体位置。会话视频序列、G0P、编码单元及人脸ROI编码单元的定义和示意图见下文关于附图
和术语的说明第1项。B.根据当前编码单元是否属于人脸R0I，选择不同的RDO方法进行优化编码。对于人脸ROI编码单元，B. 1构造人脸ROI编码单元时域扩散链。人脸ROI编码单元时域扩散链的定义见见下文关于附图和术语的说明第2项。为了降低人脸ROI编码单元时域扩散链构造时的时间复杂度，本发明给出一种简化的人脸ROI编码单元时域扩散链构造方法如下(1)对会话视频序列的当前编码GOP内各编码单元进行前向运动搜索，以获得各编码单元在下一帧中最佳匹配单元位置，记录对应的前向运动向量及前向预测差值(该步骤在当前GOP内仅进行一次)。前向运动搜索、最佳匹配单元、前向运动向量、前向预测差值见见下文关于附图和术语的说明第3项。(2)根据步骤(1)中得到的前向运动向量推导人脸ROI编码单元在当前GOP下一编码帧中的扩散位置，该扩散位置所对应的与人脸ROI编码单元大小相同的单元称为人脸 ROI扩散单元。区别起见，本步骤人脸ROI扩散单元称为1号人脸ROI扩散单元。实际上， 1号人脸ROI扩散单元即为步骤(1)中当前人脸ROI编码单元的最佳匹配单元。本步骤存储人脸ROI编码单元的前向预测差值及1号人脸ROI扩散单元的位置。(3)将步骤O)中1号人脸ROI扩散单元中心所在的实际编码单元的前向运动向量作为该人脸ROI扩散单元的前向运动向量，从而可得到其在当前GOP的再下一个编码帧中的扩散位置。该扩散位置所对应的与人脸ROI编码单元大小相同的单元即为人脸ROI编码单元在当前GOP的再下一个编码帧中的人脸ROI扩散单元，称为2号人脸ROI扩散单元。此处所得到的扩散单元不应超出发明内容步骤A中所得到的当前编码帧中人脸ROI范围，若超出则将扩散单元水平平移至人脸ROI范围内作为2号人脸ROI扩散单元，若平移后仍超出人脸ROI范围则继续垂直平移直至扩散单元完全位于人脸ROI范围内。同时，根据步骤( 所得到的1号人脸ROI扩散单元在各实际编码单元上的比例情况，将各实际编码单元的前向预测差值按比例求和作为1号人脸ROI扩散单元的前向预测差值。本步骤存储1 号人脸ROI扩散单元前向预测差值及2号人脸ROI扩散单元的位置。(4)类似于步骤C3)推导后续的人脸ROI扩散单元，直至人脸ROI扩散单元位于当前GOP的最后一帧。将人脸ROI编码单元及其在后续帧上的所有扩散单元连接在一起形成人脸ROI编码单元时域扩散链，各前向预测差值保存供后述使用。该方法的示意图及相关说明见见下文关于附图和术语的说明第2项。B. 2计算人脸ROI编码单元及人脸ROI编码单元时域扩散链上所有扩散单元的失真度估计值。失真度估计值是在当前编码单元或扩散单元未编码前对其实际编码后所产生的失真度进行合理估计所得的结果，本发明给出一种根据残差DCT系数的拉普拉斯分布特性所得到的失真度估计方法为如下公式1 :D = Dmcp-Fi^Q/^β^)其中D为失真度估计值，Dmcp为时域扩散链上当前编码单元的上一个编码单元或扩散单元的前向预测差值，Q为量化步长。由于人脸ROI编码单元是时域预测链的起始单元，因此计算其失真度估计值时需采用其后向预测差值。后向预测差值基于后向运动搜索得到，后向运动搜索及后向预测差值见说明书定义及附图第4项。对于公式1中的F( □) 函数，其计算方法如下，公式2:
θC0 (k+d+l)-0F(0)= JV.KyMF+ X j [c(y)-\y-(k^d^m)-e\2 ^(l-c(y))-y2)·p(y)-dy 。
_ 0k=() (k+d)-e_B. 3计算人脸ROI编码单元时域扩散链上所有扩散单元受人脸ROI编码单元影响的失真度扩散系数并求和得到总失真度扩散系数。失真度扩散系数是某一编码单元或扩散单元的编码结果对其时域扩散链下一相邻扩散单元编码影响的衡量标志。本发明给出一种
基于实验推导所得的失真度扩散系数计算方法表示如下，
n Dt公式3 Λ = D +dMCP其中β t表示当前扩散单元受时域扩散链上前一编码单元或扩散单元影响的失真度扩散系数，Dt表示当前扩散单元的失真度估计值，Dt^1表示前一编码单元或扩散单元的失真度估计值，辟MeP表示当前扩散单元的前向预测差值。为了计算人脸ROI编码单元时域扩散链上所有其他扩散单元受人脸ROI编码单元影响的失真度扩散系数并进而求得总失真
6度扩散系数，本发明分别计算人脸ROI编码单元时域扩散链上某扩散单元受前一编码单元或扩散单元影响的失真度扩散系数，然后利用基于推导得到的乘性关系得出其受人脸ROI 编码单元影响的失真度扩散系数。例如，当前扩散单元N及其前面N-I个扩散单元的失真度扩散系数分别为βΝ，β η，……，，则其受人脸ROI编码单元影响的失真度扩散系数为 β 1 * β 2.....β N。Β· 4更新拉格朗日系数。(1)统计人脸ROI编码单元的实际编码方式(SKIP、DIRECT、帧内、帧间等)、运动补偿预测失真值及重建失真值。运动补偿预测失真值对应人脸ROI编码单元与其在视频编码运动搜索相应的编码单元之间的绝对差均值，重建失真值则对应人脸ROI编码单元与其在视频编码后的重建单元之间的绝对差均值。(2)若当前人脸ROI编码单元为当前帧最后一个人脸ROI编码单元(按空间顺序从前向后从上向下)，计算所有已编码GOP及当前GOP内已编码帧中以帧内方式进行编码的人脸ROI编码单元百分比、人脸ROI编码单元的平均运动补偿预测失真值及人脸ROI编码单元的平均重建失真值。否则，跳至STEP 3。(3)调整拉格朗日系数。相应的调整公式为，公式
权利要求
1.人脸区域时域依赖性与全局率失真优化相结合的会话视频编码方法，利用人脸感兴趣区域ROI在同一图像组GOP内相邻编码帧之间的时域依赖性，提前估计人脸ROI的失真度及其扩散影响，为最佳运动向量及模式划分选择提供有效的辅助手段，以实现视频序列整体及人脸ROI在主客观质量上的同步提高，其实现方式包括如下的系列步骤A.在编码会话视频序列各GOP之前对当前GOP内所有编码帧进行人脸ROI检测，从而确定人脸ROI编码单元的具体位置；B.根据当前编码单元是否属于人脸R0I，选择不同的RDO方法进行优化编码对于人脸ROI编码单元，B. 1构造人脸ROI编码单元时域扩散链，构造方法如下(1)对会话视频序列的当前编码GOP内各编码单元进行前向运动搜索，以获得各编码单元在下一帧中最佳匹配单元位置，记录对应的前向运动向量及前向预测差值；该步骤在当前GOP内仅进行一次；(2)根据步骤(1)中得到的前向运动向量推导人脸ROI编码单元在当前GOP下一编码帧中的扩散位置，该扩散位置所对应的与人脸ROI编码单元大小相同的单元称为人脸ROI 扩散单元；区别起见，本步骤人脸ROI扩散单元称为1号人脸ROI扩散单元，存储人脸ROI 编码单元的前向预测差值及1号人脸ROI扩散单元的位置；(3)将步骤O)中1号人脸ROI扩散单元中心所在的实际编码单元的前向运动向量作为该人脸ROI扩散单元的前向运动向量，从而得到其在当前GOP的再下一个编码帧中的扩散位置；该扩散位置所对应的与人脸ROI编码单元大小相同的单元即为人脸ROI编码单元在当前GOP的再下一个编码帧中的人脸ROI扩散单元，称为2号人脸ROI扩散单元；此处所得到的扩散单元不应超出发明内容步骤A中所得到的当前编码帧中人脸ROI范围，若超出则将扩散单元水平平移至人脸ROI范围内作为2号人脸ROI扩散单元，若平移后仍超出人脸ROI范围则继续垂直平移直至扩散单元完全位于人脸ROI范围内；同时，根据步骤(2)所得到的1号人脸ROI扩散单元在各实际编码单元上的比例情况，将各实际编码单元的前向预测差值按比例求和作为1号人脸ROI扩散单元的前向预测差值，存储1号人脸ROI扩散单元前向预测差值及2号人脸ROI扩散单元的位置；(4)重复步骤C3)处理后续的人脸ROI扩散单元，直至人脸ROI扩散单元位于当前GOP 的最后一帧时，将人脸ROI编码单元及其在后续帧上的所有扩散单元连接在一起形成人脸 ROI编码单元时域扩散链，各前向预测差值保存供后述步骤使用；B. 2计算人脸ROI编码单元及人脸ROI编码单元时域扩散链上所有扩散单元的失真度估计值，失真度估计方法为如下公式 l:D = DMCP·F(42Q/^D^p)其中D为失真度估计值，Dmcp为时域扩散链上当前编码单元的上一个编码单元或扩散单元的前向预测差值，Q为量化步长，公式1中的F( □)函数，其计算方法如下，公式2
全文摘要
本发明公开了一种人脸区域时域依赖性与全局率失真优化相结合的会话视频编码方法，利用人脸感兴趣区域ROI在同一图像组GOP内相邻编码帧之间的时域依赖性，提前估计人脸ROI的失真度及其扩散影响，为最佳运动向量及模式划分选择提供有效的辅助手段。采用本发明方法，从全局的角度侧重优化人脸ROI编码单元，较好保证了人脸ROI编码单元及未来以其作为参考的编码单元的主客观质量，避免了传统编码过程中因失真度扩散所引起的额外比特开销，在维持或提升编码图像主客观质量的前提下，有效降低了会话视频编码码率，改善了编码性能，完全兼容于传统的顺序编码结构，适用于视频存储及实时性要求大于一个GOP延时的实时视频编码等应用场合。
文档编号H04N7/26GK102547293SQ201210034708
公开日2012年7月4日申请日期2012年2月16日优先权日2012年2月16日
发明者彭强, 杨天武, 王琼华, 范小九申请人:西南交通大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：范小九;彭强;杨天武;王琼华
技术所有人：西南交通大学
我是此专利的发明人

上一篇：一种二次地址分配方法和装置的制作方法
上一篇：电力发送设备、电力发送方法和电力传送系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。