基于分层结构渐进式字典学习的可分级视频编码系统的制作方法

文档序号：8226376阅读：430来源：国知局

基于分层结构渐进式字典学习的可分级视频编码系统的制作方法
【技术领域】
[0001] 本发明涉及可分级视频编码方案，具体地，涉及一种基于分层结构渐进式字典学习的可分级视频编码系统。
【背景技术】
[0002] 为了自适应的满足不同传输特性的异构网络上的视频传输要求和不同客户端的应用要求，可分级视频编码受到了广泛的关注。可分级视频编码的目的在于保持与现有框架编码每个子视频流相同的复杂度和重构质量的同时，去除多层视频流之间的时间、空间、质量冗余度。去除冗余的时间信息本质在于基于有限的先验信息有效地预测一组视频帧 (GOP)内的连续帧。近几年热门的超分辨率重构技术证明了字典学习算法能够有效地通过非参数的方式对稀疏采样的低分辨率图像和高分辨率图像之间的相关性进行估计，得到对非参考帧更精细和稀疏的表达，同时避免了过拟合。
[0003] 经过对现有技术的文献检索发现，现有的两个主流的可分级视频编码方案为德国Heinrich-HertzInstitute(HHI)Schwarz,H.Marpe，D.Wiegand，T?在 2007 年的〈〈IEEETransactionsonCircuitsandSystemsforVideoTechnology〉〉(TCSVT)期干丨J上发表的"OverviewoftheScalableVideoCodingExtensionoftheH. 264/AVCStandard" 一文中提出的基于H. 264 的编码方案，W&G.J.Sullivan，J.M.Boyce，C.Ying，J-R. Ohm,C.A.Segall,A.Vetro在 2013 年的《IEEEJournalofSelectedTopicsinSignal Processing》期刊上发表的基于HEVC的可分级视频编码框架"StandardizedExtensions ofHighEfficiencyVideoCoding(HEVC)"。为了实现H.264/SVC的时间可分级，H. 264/ AVC的MCTF扩展框架在运动估计更新操作过程中在原始参考帧加上平移和伸缩后的预测误差。然而与传统的混合编码框架相比，加入的运动估计更新操作增加了应用复杂度以及降低了编码效率。同时，由于MCTF的开环编码控制系统，参考信号无法被补偿以至于量化误差累积。因此，传统基于DCT的混合编码方案利用可分级B帧的闭环控制来解决MCTF量化误差累积的问题。在可分级B帧预测结构中，粗糙层中的B帧将会作为精细层的参考帧用于精细层B帧的预测。然而，虽然不再需要多余的运动补偿更新操作，可分级B帧需要更多的空间来保存B帧，导致了更高的编码延迟。同时，快速运动的物体会在编码端导致很高的计算复杂度，并且无法由参考帧的原始块来稀疏地表示。

【发明内容】

[0004] 针对现有技术中的缺陷，本发明的目的是提供一种基于分层结构渐进式字典学习的可分级视频编码系统，可以有效提高视频信号编码效率以及重构系统的主客观质量，并可作为一种通用的可分级视频编码框架。
[0005] 为实现以上目的，本发明提供一种基于分层结构渐进式字典学习的可分级视频编码系统，包括：基于层次化结构的系统框架、渐进式字典学习模块以及可分级视频帧重构模块，其中：
[0006] 所述基于层次化结构的系统框架，在时间域采用可分级B帧预测结构，利用帧间的时间冗余信息，对下采样后的非参考帧依次通过时空学习字典超分辨率重建，其中凡为第i层视频流，将作为参考帧对更精细层Ti+1的视频帧进行恢复；
[0007] 所述渐进式字典学习模块，将前一层训练出的时空字典作为初始字典，提取重构得到的可分级B帧图像中对应的原始高分辨率图像帧和其下采样后的低分辨率图像帧所提取的三维视频块生成训练集，利用随机梯度下降法优化学习出该层的子字典基；
[0008] 所述可分级视频帧重构模块，对非参考视频帧进行基于学习的超分辨率重建算法构造出不同时间层次的原始高分辨率图像，基于时空字典学习的考虑，每次重构同时恢复连续的两帧，进行重排列后实现时间可分级视频编码。
[0009] 优选地，所述的基于层次化结构的系统框架实现基于可分级B帧预测结构，基本层的视频帧由原始视频流中的一组图像帧（GOP)前两帧构成，将原始高分辨率图像帧和其下采样后的低分辨率图像帧作为参考帧沿着运动估计方向提取三维视频块，其中，时间维度上由两帧图像组成，由三维视频块所组成的训练集用于学习时空字典集以达到重建下一层增强层图像帧的目的。
[0010] 更优选地，所述的基于层次化结构的系统框架基于渐进式学习的可分级B帧预测结构，由上层增强层重构出的非参考帧将作为下一层精细层的参考帧，通过可分级B帧预测，时空字典学习算法，超分辨率重建对整个重构增强层进行操作来实现。
[0011] 优选地，所述的渐进式字典学习模块实现由随机梯度下降法实现稀疏表示误差的最小化，能够适应性的表示出三维（时间-空间）信号的内在结构，相对于固定基能更有效地稀疏表示视频信号，这种在过完备学习字典基矩阵上的稀疏表示是具有结构化稀疏的；同时随机梯度下降法在每一次迭代中仅基于当前训练块最小化代价函数，能实时地接受提取的训练块进行学习，通过提取重构所得图像帧的训练块，字典学习的先验知识增加，能够更稀疏地表达当前视频信号。
[0012] 更优选地，所述的可分级视频帧重构通过一种凸松弛算法模型实现，通过稀疏编码技术计算出样本块在低频字典上最优的稀疏表示系数，乘以对应高频子字典基，得到丢失的高频信息，实现图像帧的重建；因重建顺序和视频播放的时间顺序独立，因此通过重新排列得到不同层的视频流。
[0013] 本发明所述系统为视频信号的可分级编码压缩提供了通用的解决方案。本发明所使用的基于层次化结构的系统框架基于渐进式字典学习的可分级B帧预测结构，既弥补了 MCTF框架量化误差积累的缺陷，又通过字典学习算法自适应地得到过完备字典基，能够得到视频信号更精细和稀疏的表达，同时基本层由原始分辨率编解码组成，保证了低码率传输中基本层的视频质量，增强层的可分级B帧的重建基于传输的下采样视频图像以及前一层B帧训练所得字典基，利用了视频流层间的时间冗余性同时降低了编码复杂度；另一方面，鉴于随机梯度下降法可以实时地接受训练样本进行学习更新，本发明通过随机梯度下降法的方法对每层重建的B帧所提取的训练集进行学习，得到相应的基渐进式自适应地获得更多该视频流的先验知识，这样能够使得帧块信号具有适应性稀疏表示，并且该稀疏表示具有结构性，进而提高视频中自然信号的表示精确性，还能加速凸松弛重构算法的收敛及稳定性，有助于本发明可分级视频编码的性能及实用性的提升。
[0014] 与现有技术相比，本发明具有如下的有益效果：
[0015] 本发明大大提高了重构性能，与传统的可分级B帧预测结构或者基于学习的超分辨率重建的视频压缩传感系统相比，由于本发明的重构采用的是适应性的全局最优的基，因此在重构效果上均能够得到增强，同时渐进式学习实现了时间可分级；对于空间、质量可分级实现，本发明通过适当的修改也可实现，具有较强的适应性；在重建时由于渐进式学习字典基的特殊构造，使得信号具有结构性的稀疏表示，因此本发明在相同的编码速率的情况下可以进一步提高重构质量，同时也

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：熊红凯;唐欣;
技术所有人：上海交通大学;
我是此专利的发明人

上一篇：一种融合视觉感知特征的可分层视频编码方法
上一篇：用于像素内插的系统及方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。