基于分层结构渐进式字典学习的可分级视频编码系统的制作方法

文档序号:8226376阅读:430来源:国知局
基于分层结构渐进式字典学习的可分级视频编码系统的制作方法
【技术领域】
[0001] 本发明涉及可分级视频编码方案,具体地,涉及一种基于分层结构渐进式字典学 习的可分级视频编码系统。
【背景技术】
[0002] 为了自适应的满足不同传输特性的异构网络上的视频传输要求和不同客户端的 应用要求,可分级视频编码受到了广泛的关注。可分级视频编码的目的在于保持与现有框 架编码每个子视频流相同的复杂度和重构质量的同时,去除多层视频流之间的时间、空间、 质量冗余度。去除冗余的时间信息本质在于基于有限的先验信息有效地预测一组视频帧 (GOP)内的连续帧。近几年热门的超分辨率重构技术证明了字典学习算法能够有效地通过 非参数的方式对稀疏采样的低分辨率图像和高分辨率图像之间的相关性进行估计,得到对 非参考帧更精细和稀疏的表达,同时避免了过拟合。
[0003] 经过对现有技术的文献检索发现,现有的两个主流的可分级视频编码方案为 德国Heinrich-HertzInstitute(HHI)Schwarz,H.Marpe,D.Wiegand,T?在 2007 年的 〈〈IEEETransactionsonCircuitsandSystemsforVideoTechnology〉〉(TCSVT)期干丨J上发 表的"OverviewoftheScalableVideoCodingExtensionoftheH. 264/AVCStandard" 一文中提出的基于H. 264 的编码方案,W&G.J.Sullivan,J.M.Boyce,C.Ying,J-R. Ohm,C.A.Segall,A.Vetro在 2013 年的《IEEEJournalofSelectedTopicsinSignal Processing》期刊上发表的基于HEVC的可分级视频编码框架"StandardizedExtensions ofHighEfficiencyVideoCoding(HEVC)"。为了实现H.264/SVC的时间可分级,H. 264/ AVC的MCTF扩展框架在运动估计更新操作过程中在原始参考帧加上平移和伸缩后的预测 误差。然而与传统的混合编码框架相比,加入的运动估计更新操作增加了应用复杂度以及 降低了编码效率。同时,由于MCTF的开环编码控制系统,参考信号无法被补偿以至于量化 误差累积。因此,传统基于DCT的混合编码方案利用可分级B帧的闭环控制来解决MCTF量 化误差累积的问题。在可分级B帧预测结构中,粗糙层中的B帧将会作为精细层的参考帧 用于精细层B帧的预测。然而,虽然不再需要多余的运动补偿更新操作,可分级B帧需要更 多的空间来保存B帧,导致了更高的编码延迟。同时,快速运动的物体会在编码端导致很高 的计算复杂度,并且无法由参考帧的原始块来稀疏地表示。

【发明内容】

[0004] 针对现有技术中的缺陷,本发明的目的是提供一种基于分层结构渐进式字典学习 的可分级视频编码系统,可以有效提高视频信号编码效率以及重构系统的主客观质量,并 可作为一种通用的可分级视频编码框架。
[0005] 为实现以上目的,本发明提供一种基于分层结构渐进式字典学习的可分级视频编 码系统,包括:基于层次化结构的系统框架、渐进式字典学习模块以及可分级视频帧重构模 块,其中:
[0006] 所述基于层次化结构的系统框架,在时间域采用可分级B帧预测结构,利用帧间 的时间冗余信息,对下采样后的非参考帧依次通过时空学习字典超分辨率重建,其中凡为 第i层视频流,将作为参考帧对更精细层Ti+1的视频帧进行恢复;
[0007] 所述渐进式字典学习模块,将前一层训练出的时空字典作为初始字典,提取重构 得到的可分级B帧图像中对应的原始高分辨率图像帧和其下采样后的低分辨率图像帧所 提取的三维视频块生成训练集,利用随机梯度下降法优化学习出该层的子字典基;
[0008] 所述可分级视频帧重构模块,对非参考视频帧进行基于学习的超分辨率重建算法 构造出不同时间层次的原始高分辨率图像,基于时空字典学习的考虑,每次重构同时恢复 连续的两帧,进行重排列后实现时间可分级视频编码。
[0009] 优选地,所述的基于层次化结构的系统框架实现基于可分级B帧预测结构,基本 层的视频帧由原始视频流中的一组图像帧(GOP)前两帧构成,将原始高分辨率图像帧和其 下采样后的低分辨率图像帧作为参考帧沿着运动估计方向提取三维视频块,其中,时间维 度上由两帧图像组成,由三维视频块所组成的训练集用于学习时空字典集以达到重建下一 层增强层图像帧的目的。
[0010] 更优选地,所述的基于层次化结构的系统框架基于渐进式学习的可分级B帧预测 结构,由上层增强层重构出的非参考帧将作为下一层精细层的参考帧,通过可分级B帧预 测,时空字典学习算法,超分辨率重建对整个重构增强层进行操作来实现。
[0011] 优选地,所述的渐进式字典学习模块实现由随机梯度下降法实现稀疏表示误差的 最小化,能够适应性的表示出三维(时间-空间)信号的内在结构,相对于固定基能更有效 地稀疏表示视频信号,这种在过完备学习字典基矩阵上的稀疏表示是具有结构化稀疏的; 同时随机梯度下降法在每一次迭代中仅基于当前训练块最小化代价函数,能实时地接受提 取的训练块进行学习,通过提取重构所得图像帧的训练块,字典学习的先验知识增加,能够 更稀疏地表达当前视频信号。
[0012] 更优选地,所述的可分级视频帧重构通过一种凸松弛算法模型实现,通过稀疏编 码技术计算出样本块在低频字典上最优的稀疏表示系数,乘以对应高频子字典基,得到丢 失的高频信息,实现图像帧的重建;因重建顺序和视频播放的时间顺序独立,因此通过重新 排列得到不同层的视频流。
[0013] 本发明所述系统为视频信号的可分级编码压缩提供了通用的解决方案。本发明所 使用的基于层次化结构的系统框架基于渐进式字典学习的可分级B帧预测结构,既弥补了 MCTF框架量化误差积累的缺陷,又通过字典学习算法自适应地得到过完备字典基,能够得 到视频信号更精细和稀疏的表达,同时基本层由原始分辨率编解码组成,保证了低码率传 输中基本层的视频质量,增强层的可分级B帧的重建基于传输的下采样视频图像以及前一 层B帧训练所得字典基,利用了视频流层间的时间冗余性同时降低了编码复杂度;另一方 面,鉴于随机梯度下降法可以实时地接受训练样本进行学习更新,本发明通过随机梯度下 降法的方法对每层重建的B帧所提取的训练集进行学习,得到相应的基渐进式自适应地获 得更多该视频流的先验知识,这样能够使得帧块信号具有适应性稀疏表示,并且该稀疏表 示具有结构性,进而提高视频中自然信号的表示精确性,还能加速凸松弛重构算法的收敛 及稳定性,有助于本发明可分级视频编码的性能及实用性的提升。
[0014] 与现有技术相比,本发明具有如下的有益效果:
[0015] 本发明大大提高了重构性能,与传统的可分级B帧预测结构或者基于学习的超分 辨率重建的视频压缩传感系统相比,由于本发明的重构采用的是适应性的全局最优的基, 因此在重构效果上均能够得到增强,同时渐进式学习实现了时间可分级;对于空间、质量可 分级实现,本发明通过适当的修改也可实现,具有较强的适应性;在重建时由于渐进式学习 字典基的特殊构造,使得信号具有结构性的稀疏表示,因此本发明在相同的编码速率的情 况下可以进一步提高重构质量,同时也
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1