一种基于运动信息的最优可伸缩多模式决策方法

文档序号：9870839阅读：298来源：国知局

一种基于运动信息的最优可伸缩多模式决策方法
【技术领域】
[0001]本发明涉及视频压缩领域，更具体地，涉及一种基于运动信息的最优可伸缩多模式决策方法。
【背景技术】
[0002]新一代的视频标准HEVC仍然采用了基于block的混合编码结构，并增加了更多新的编码技术作为可选项，与H.264相比，在保持相同视频质量的同时降低了 50%的码率，但是也带来了更加高的计算复杂度。HEVC的编码过程实际上可以看作是对众多编码选项进行决策的过程。例如，在MD过程中，每一个⑶都可以递归地分解成四个小⑶，直到到达最大深度，同时每一个CU都会进行多达7种的PU尝试，以决定(decide)最佳的分解模式。MD决策所形成的类似四叉树的CU结构使得可能的模式数目从H.264的15种增加到了 595种，而新的模式决策过程也使搜索的面积数比H.264增加了约3倍。因此，对MD的优化是一个很重要的研究课题。

【发明内容】

[0003]本发明为克服上述现有技术所述的至少一种缺陷(不足)，提供一种基于运动信息的最优可伸缩多模式决策方法，该方法可自动调整以适应不同的可用计算资源并尽可能保持在该计算资源下理论最优的率失真性能。
[0004]为解决上述技术问题，本发明的技术方案如下:
[0005]—种基于运动信息的最优可伸缩多模式决策方法，其步骤为:
[0006](I)读取原始视频文件，开始编码；
[0007](2)对于当前编码帧，判断该帧是否属于关键帧，是则利用关键帧的分解模式初始化下一帧的MCC表格，否则执行步骤(4);
[0008](3)对当前帧，根据MCC的大小进行排序；
[0009](4)根据当前可用的计算资源，决定进行多模式决策的编码单元个数并标记编码单元；
[0010](5)对于当前帧每一个编码单元，判断其有无标记，有则进行多模式决策，否则只进行相当于编码单元大小的运动估计并跳过细分编码单元的多模式决策过程；
[0011](6)对每一个子块，判断其最终编码模式是否inter编码模式，是则跳过步骤(8)，否则执行步骤(7);
[0012](7)计算该子块的几何中心点，并根据其运动向量将其反向映射至下一帧的对应位置，作为其子块的运动目标位置，并累加运动冲突计数；
[0013](8)判断当前编码单元全部是否执行完毕，是则进行步骤(9)，否则回到步骤(5);
[0014](9)当前帧编码结束，判断是否有下一帧；是则回到步骤(2)，否则所有帧编码完毕，算法结束，原始视频压缩完毕。
[0015]与现有技术相比，本发明技术方案的有益效果是:本发明将基于HEVC并针对多模式决策，提出一个在帧层面对各个编码单元(CU)进行计算资源最优分配的算法，实现帧层面多模式算法计算复杂度的最优可伸缩功能。
[0016]在帧层面实现计算资源的最优分配，就是根据最大编码单元(LCU)的MD收益越大则分配时间越多的原则建立收益-复杂度模型。然而，事实上进行某一项编码选项的收益必须在实际执行了该选项之后才能得到，所以这个收益-复杂度模型只是理论上的最优模型，无法在决策前得到，但是它可以作为衡量算法好坏的一个benchmark。要实现帧间最优伸缩性能，关键挑战在于如何进行多模式决策收益的快速预测，并且预测过程不能引入过于复杂的计算量。而视频内容的多样性和复杂性，使得建立预测模型更加困难。本发明将利用相邻域的运动信息和已有模式信息，进行快速收益预测，并据此给出最优可伸缩多模式决策算法。
[0017]从HEVC编码的实验结果观察到，物体运动剧烈的部分一般会有较高的MD收益，而利用多模式决策的结果信息，这些运动的物体在相邻帧的位置变化是有迹可循的，并且相邻帧的高收益区域也会随着这些运动信息而传递。
[0018]从这个观察出发，本发明提出了适应HEVC的递归化MD的最优可伸缩多模式决策算法，该方法利用相邻帧的运动信息，预估当前帧的各个LCU的大致收益分布并给出一个比较粗粒度的LCU排序，根据可用计算资源的多寡，可以决定进行多模式决策的LCU的个数，然后再根据需要应用更细粒度的基于预测JC-slope的排序算法;而对于进行多模式决策的LCU，贝IJ可以更进一步地预估每一个层次的⑶的MD收益。然后，在这些收益排序的基础上，设计了一种根据当前可用计算资源自适应地调整复杂度并保持RD性能的控制策略。
[0019]其中，本发明的主要特点包括有两个方面:(I)提出了一个可预测各个LCU进行MD的收益的特征值。(2)基于此特征值，设计了一种与HEVC实际编码顺序兼容的复杂度控制策略。
【附图说明】
[0020]图1是MCC特征值计算示例图。
[0021 ]图2是最优多模式算法复杂度调整示例图。
【具体实施方式】
[0022]附图仅用于示例性说明，不能理解为对本专利的限制；
[0023]为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；
[0024]对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。
[0025]下面结合附图和实施例对本发明的技术方案做进一步的说明。
[0026]实施例1
[0027](一)总体功能架构
[0028]本方法主要包括两个部分:帧内运动复杂程度与MD收益分布预测模型，以及多模式决策算法复杂度自动调整策略。
[0029]帧内运动复杂程度与MD收益分布预测模型可以帮助编码器在当前帧开始编码前，准确预测各个编码单元的收益。复杂度调整模块则是基于帧内收益分布的预测，根据当前可用的计算资源，在多个分解深度层次进行对编码单元的资源分配，以获得在资源约束下的最优的编码性能。
[0030](二)实施流程
[0031]步骤1、读取视频，开始编码。
[0032]步骤2、对每一

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张倚豪;黄士超;李璜;朝红阳;
技术所有人：广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。