基于长程-短程结合的视频超分辨率方法

文档序号:36599805发布日期:2024-01-06 23:08阅读:15来源:国知局
基于长程-短程结合的视频超分辨率方法

本发明属于视频超分辨率,尤其涉及一种基于长程-短程结合的视频超分辨率方法。


背景技术:

1、超分辨率的定义是通过学习低分辨率到高分辨率的映射关系,将低分辨率的输入重建为高分辨的输出。随着近几年硬件设备算力的大幅提升,用户对于画质的要求也越来越高。由于直接传输高质量的图像或视频需要消耗的资源带宽过大,因此实际往往在传输过程中传输的是低质量媒体载体,传输到显示终端之前再对于媒体载体进行超分辨率提高画质。超分辨率目前具有大量的实用场景,例如医学图像重建、卫星图像遥感、数字高清、显微成像、游戏直播、电影视频等等。

2、超分辨率可以分为图像超分辨率和视频超分辨率两种:图像超分通过输入单张低分辨图片还原出高分辨率图片;视频超分通过输入多帧连续图片并利用帧间关系还原出高分率图片。传统的视频超分方法往往通过仿射变换或概率统计进行估计,这些方法很难有效地估计视频中物体的复杂的运动过程以及场景切换问题。随着深度学习在各领域取得了巨大的成功,基于深度学习的视频超分辨率算法被广泛研究,目前基于深度学习的超分辨率算法主要包括三种结构:基于卷积神经网络(cnn)的网络结构,这种结构利用滑窗方式提取相邻帧间的短程特征并参与计算;基于循环神经网络(rnn)的网络结构,这种结构利用隐藏态可以储存历史帧或未来帧的长程特征并参与计算,且特征在计算过程中不断更新;基于transformer的网络结构,这种结构利用注意力机制提取特征并参与计算。

3、由于视频是一个连续序列,距离目标帧越近的相邻帧往往能提供更多的有用信息,而卷积神经网络利用了局部滑窗这一特征提取方式对特征进行提取和融合,很好的利用了帧间的短程信息;同时视频前后帧都有一定的关联性,可能存在较远的某一帧对目标帧的重建有较大的帮助,因此如果网络能关注到较长的视频序列或具有较大的时间感受野,则网络可以获得更好的视频超分辨率效果。目前现有的网络没有很好的将短程信息和长程信息二者相结合,部分transformer可以利用query和key之间的注意力匹配机制获得二者的结合,但是transformer的参数量庞大且运算浮点数大,没有达到很好的性能与资源的平衡。


技术实现思路

1、为了解决上述技术问题,本发明公开了一种基于长程-短程结合的视频超分辨率方法,将低分辨率图片通过滑窗获得短程特征,再将短程特征输入循环网络获得长程特征,二者进行特征融合和特征重建可获得高分辨率图像。本发明充分利用了视频序列中的短程信息和长程信息,超分辨率后的图片具有丰富的细节信息。

2、本发明解决其技术问题所采用的技术方案如下:

3、一种基于长程-短程结合的视频超分辨率方法,包括以下步骤:

4、步骤(1).获取低分辨视频并逐帧进行图像增强;

5、步骤(2).提取图像增强后的低分辨率视频的每帧图片浅层特征;

6、步骤(3).根据图像增强后的每帧图片及相邻帧浅层特征,计算帧间运动补偿信息;

7、步骤(4).依次将每帧图片视为目标帧,利用可变形卷积和步骤(3)计算出的帧间运动补偿信息对相邻帧进行弯曲形变,将相邻帧浅层特征向目标帧浅层特征对齐;

8、步骤(5).将目标帧浅层特征和相邻帧对齐后浅层特征进行融合,得到目标帧短程特征;

9、步骤(6).根据目标帧及相邻帧短程特征,采用基于循环神经网络的长程特征提取模块生成目标帧长程特征;

10、步骤(7).遍历全部目标帧,将步骤(2)、步骤(5)及步骤(6)得到的低分辨率视频每帧图片浅层特征、短程特征、长程特征进行融合得到重建特征,对重建特征进行上采样插值以及通道维度转换生成高分辨率视频。

11、进一步地,所述的步骤(1)中,图像增强包括镜像对称、水平90°翻转、垂直90°翻转。

12、进一步地,所述的步骤(2)中,将步骤(1)得到的图像增强后的低分辨率视频的每帧图片通过卷积层扩张通道维度且保持分辨率不变,得到每帧图片浅层特征。

13、所述的步骤(1)-(2)中,首先对输入的低分辨率视频序列段进行图像增强,之后提取视频序列每帧图像的空间特征。由于这些特征属于浅层特征,所以能较为完整的保留原始图片的信息。这些浅层特征在后续重建特征的计算过程中作为引导信息,能帮助模型快速收敛同时达到不错的性能。进一步地,所述的步骤(3)中,将步骤(2)得到的每帧图片浅层特征依次与其相邻帧浅层特征进行处理,分别得到前后相邻帧的帧间运动补偿信息,表示为:

14、

15、

16、其中,表示第t帧图片浅层特征,分别表示第t帧图片前后相邻帧浅层特征,r(.)表示堆叠的残差块结构,relu(.)表示激活函数,表示第t-1帧图片浅层特征向第t帧图片浅层特征对齐的后向帧间运动补偿,表示第t+1帧图片浅层特征向第t帧图片浅层特征对齐的前向帧间运动补偿。

17、所述的步骤(3)中,将低分辨率视频序列每帧图片进行运动补偿计算,计算出每帧图片的前后向光流,即后向帧间运动补偿和前向帧间运动补偿

18、进一步地,所述的步骤(4)中,利用可变形卷积,将帧间运动补偿作为目标帧及其相邻帧的位置偏差,分别将历史帧和未来帧浅层特征向目标帧浅层特征进行帧间对齐,得到历史帧对齐后浅层特征和未来帧对齐后浅层特征。

19、所述的步骤(4)中,运用之前得到的运动补偿信息,对于图片进行warp弯曲,将参考帧向目标帧进行对齐。具体的,使用步骤(3)中得到的运动补偿信息作为可变性卷积dconv中的offset,而相邻帧的浅层特征作为输入对浅层特征进行弯曲变形。

20、进一步地,所述的步骤(5)中,将历史帧对齐后浅层特征、目标帧浅层特征、未来帧浅层特征三者在通道维度进行拼接,再依次通过卷积层、激活函数层和堆叠的残差块进行特征融合,得到目标帧短程特征。

21、进一步地,所述的步骤(6)中,基于循环神经网络的长程特征提取模块的计算公式如下:

22、

23、

24、

25、其中,分别表示目标帧及相邻帧短程特征,ht-1表示历史帧隐藏状态,c(.,.)表示按通道维度拼接,conv(.)表示卷积层,relu(.)表示激活函数,r(.)表示堆叠的残差块结构,rnn(.)表示循环神经网络,ht表示当前帧隐藏状态,表示目标帧长程特征,表示目标帧短程特征、历史帧短程特征、未来帧短程特征和历史帧隐藏状态融合后的特征。

26、进一步地,所述的步骤(7)中,将每帧图片浅层特征、短程特征、长程特征三者在通道维度进行拼接,再依次通过卷积层、激活函数层和堆叠的残差块进行特征融合,得到重建特征。

27、进一步地,所述的步骤(7)中,通过亚像素卷积层对重建特征进行上采样插值,再将上采样插值后的特征恢复原始通道维度,生成高分辨率视频。

28、本发明的有益效果:

29、本发明设计了一套完整的基于长程-短程结合的视频超分辨率的网络结构,包括数据预处理模块、浅层特征提取模块、短程特征提取模块、长程特征提取模块、超分重建模块,属于一种多层次结构的网络架构。网络结构首先利用浅层特征提取模块计算每帧低分辨率图片的浅层特征,其次利用局部特征提取滑动窗口提取短程特征,最后通过循环神经网络计算每帧低分辨率图片的长程特征并将之前的得到的三种特征进行特征融合得到最终的高分辨率图片。通过分别计算目标帧的临近帧特征(短程特征)和较远帧特征(长程特征),之后进行特征融合,从而可以有效的利用视频序列上下文相关联的特征,使得超分后的视频具有更好的时序关联性以及一致性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1