基于环绕式注意力机制的视频超分辨率重构方法、设备及介质

文档序号:35211403发布日期:2023-08-24 12:55阅读:39来源:国知局
基于环绕式注意力机制的视频超分辨率重构方法、设备及介质

本发明属于计算机软件,涉及视频超分辨率重构技术,具体为一种基于环绕式注意力机制的视频超分辨率重构方法、设备及介质。


背景技术:

1、视频超分辨率重构任务的目标是对于一个视频片段,将它重构为一个具有更高分辨率的视频,使得视频拥有更丰富的细节,视觉上更清晰。目前主流先进的视频超分辨率重构器主要采用两种范式,一种基于循环神经网络,在重构某帧图像时,对上一帧图像在重构过程中所产生的特征加以利用,循环执行这一过程,使每帧的重构过程能够利用之前处理过的所有帧的信息;另一种基于滑动窗口,以待重构的图像为中心,划分出一个图像窗口,然后利用窗口内所有图像的信息进行重构。基于循环神经网络的重构方法,由于能够利用更多帧的时序互补信息,因此效果往往更好;而基于滑动窗口的重构方法虽然可以并行重构每一帧,但由于未充分利用其他帧的信息,重构效果略差。此外,为了获取更好的重构效果,目前基于这两种范式的先进方法都被设计成两阶段过程:首先,引入一个运动估计网络对帧之间像素的运动信息进行预估;其次,使用预估的运动信息辅助不同帧特征的融合过程。这种两阶段过程的缺点是:首先,需要使用额外的训练数据对运动估计网络进行单独训练,才能确保预估的运动信息的准确性;其次,测试过程中需要同时部署并依次执行运动估计网络和视频超分辨率重构网络,导致重构流程复杂,且重构效果直接受限于运动估计网络的准确性。

2、近年出现了基于注意力机制的视频超分辨率重构方法,采用滑动窗口范式,使用注意力机制融合窗口内不同帧的信息,实现了单阶段的视频超分辨率重构,并取得了不错的重构效果。但这类方法的缺点是:首先,由于受限于滑动窗口范式,因此无法利用更多帧的时序互补信息,导致重构效果次优;其次,它们并未针对视频超分辨率重构问题对注意力机制进行改造,存在重构效果不精细、不适用于重构运动量较大的视频等问题。


技术实现思路

1、本发明要解决的问题是:主流视频超分辨率重构器无法端到端训练,同时重构流程复杂且重构效果受限于运动估计网络的准确性;新出现的基于注意力机制的视频超分辨率重构器存在重构效果受限于滑动窗口范式的问题,且未针对视频超分辨率重构问题对注意力机制进行改造,导致重构效果不精细、不适用于重构运动量较大的视频。

2、本发明的技术方案为:基于环绕式注意力机制的视频超分辨率重构方法,构建一个视频超分辨率重构器用于视频超分辨率重构,所述视频超分辨率重构器首先使用特征提取网络提取出视频各帧的浅层特征,然后将浅层特征分别以顺序和逆序的方式输入环绕式注意力对齐模块,循环对齐每帧及其邻帧的特征,再通过特征融合网络对每帧的浅层特征和邻帧的对齐特征进行融合,作为每帧的融合特征,最终利用上采样网络将各帧的融合特征转化为具有更高分辨率的图像残差,叠加经过双线性插值的原始图像帧,重构出高分辨率视频,完成视频超分辨率重构任务;

3、其中环绕式注意力对齐模块包括顺序循环和逆序循环两种方式,顺序循环时,对于当前帧第i帧,以第i帧和第i-1帧的浅层特征si,si-1以及第i-1帧的融合特征为输入,输出与第i帧对齐后的第i-1帧的对齐特征环绕式注意力对齐模块执行如下:

4、a)特征转换:对第i帧和第i-1帧的浅层特征si,si-1以及第i-1帧的融合特征使用层归一化操作和卷积层进行特征转换,将它们分别转换为查询qi、键ki-1和值vi-1,用于接下来的环绕式窗口划分,当i=1时,使用零值替代不存在的特征si-1和

5、b)环绕式窗口划分:首先,对查询qi进行均匀划分,获得n个大小为p×p的查询窗口,将第j个查询窗口记为qi,j;其次,对每个查询窗口qi,j,在键ki-1和值vi-1上分别划分出大小均为(1+δ)×p×(1+δ)×p的键窗口ki-1,j和值窗口vi-1,j,三个窗口的中心在同一位置且δ>0,因此ki-1,j和vi-1,j环绕qi,j,后续将第i帧的查询窗口特征与第i-1帧的环绕式键、值窗口特征进行对齐,进而融合邻帧的时序互补信息;

6、c)软硬性注意力对齐:首先,将n组查询窗口、键窗口和值窗口分组输入一个软性注意力模块,对于每组窗口,基于查询窗口和键窗口的特征进行像素级别的注意力权重计算,其次使用计算得到的注意力权重对值窗口的特征进行加权求和,加权所得的特征融合了第i-1帧中与第i帧相关的信息;同时,将每组中计算的注意力权重和值窗口输入一个硬性注意力模块,硬性注意力模块从值窗口内筛选出具有最大注意力权重的特征,该特征保留第i-1帧中与第i帧相关的高频信息;最后,将软、硬性注意力模块输出的特征进行拼接,通过卷积层和多层感知机进行特征映射,得到与第i帧对齐后的第i-1帧的对齐特征

7、同理,逆序循环时,对于当前帧第i帧,以第i帧和第i+1帧的浅层特征si,si+1以及第i+1帧的融合特征为输入,输出与第i帧对齐后的第i+1帧的对齐特征

8、进一步的,所述视频超分辨率重构器的实现包括网络配置阶段、训练阶段以及测试阶段:

9、1)网络配置阶段:构建基于环绕式注意力机制的视频超分辨率重构器的网络框架,包括以下配置:

10、1.1)特征提取网络:使用基于卷积层和残差块的特征提取网络对视频中的每帧图像进行特征提取,得到编码每帧图像空间信息的浅层特征,将第i帧的浅层特征记为si;

11、1.2)环绕式注意力对齐模块:使用基于环绕式注意力机制的对齐模块分别以顺序和逆序的方式循环对齐视频帧特征;

12、1.3)特征融合网络:根据环绕式注意力对齐模块的顺序和逆序循环方式,顺序循环方式下,当执行视频的第i帧时,输入为第i帧的浅层特征si以及与第i帧对齐后的第i-1帧的对齐特征特征融合网络将两部分特征输入进行拼接,然后基于卷积层和残差块进行特征融合,利用中的时序互补信息来恢复出第i帧的细节,融合后的第i帧融合特征记为同理,逆序循环方式下,特征融合网络将第i帧的浅层特征si以及第i+1帧的对齐特征进行特征融合,得到第i帧的融合特征

13、1.4)上采样网络:对第i帧,上采样网络以和为输入,将两种融合特征拼接后,通过卷积层以及像素洗牌操作,输出高分辨率的第i帧图像残差;其次,通过双线性插值算法,直接放大第i帧的原始图像;最终,叠加第i帧的图像残差和放大的原始图像,得到高分辨率版本的第i帧图像,获取所有帧的高分辨率版本后,生成高分辨率视频,完成视频超分辨率重构任务;

14、2)训练阶段:给定高分辨率视频真值,分别使用双三次下采样和高斯模糊下采样的低分辨率版本视频,对步骤1)中配置的视频超分辨率重构网络进行训练,使产出的重构网络适用于重构不同类型的视频,训练中,使用charbonnier损失函数计算网络重构出的高分辨率视频与真实高分辨率视频的损失,使用adam优化器和反向传播算法更新网络参数,并采用余弦退火策略来更新学习率,不断重复以上过程,直至达到网络最大迭代次数;

15、3)测试阶段:将经过双三次下采样或高斯模糊下采样的视频输入到对应的完成训练的视频超分辨率重构器中,得到高分辨率版本的重构视频,进行视频超分辨率重构器的性能度量。

16、基于上述方法,本发明还提供一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行,实现上述的基于环绕式注意力机制的视频超分辨率重构方法,得到所述的视频超分辨率重构器,用于对输入视频完成视频超分辨率重构任务。

17、本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序被执行时实现上述基于环绕式注意力机制的视频超分辨率重构方法,得到所述的视频超分辨率重构器。

18、本发明提出了一种新的视频超分辨率重构器,在基于循环神经网络的基础上,只需要使用所设计的环绕式注意力对齐模块,结合顺序和逆序循环方式,对不同帧中的时序互补信息进行融合,即可帮助恢复出具有更多细节的高分辨率视频。所设计的对齐模块能够简化时序互补信息的融合过程,从而实现端到端的、单阶段的视频超分辨率重构器,在提高重构器的效果的同时,提高它在运动量较大的视频上的适用性。

19、本发明与现有技术相比有如下优点

20、本发明所提出的单阶段视频超分辨率重构器流程直接,不需要额外的训练数据或训练过程,可直接进行端到端训练,训练收敛速度快。

21、本发明所提出的视频超分辨率重构器结合了循环神经网络和注意力机制的优点,其所采用的循环神经网络范式能够实现对多帧信息的利用,所采用的基于注意力机制的对齐模块能够有效融合多帧的时序互补信息,从而显著提高重构效果。

22、本发明所提出的环绕式注意力对齐模块,能够快速有效地为当前帧查询窗口中的像素对齐邻帧环绕窗口内相关像素的互补信息,使模型在计算复杂度较小的前提下,提高重构效果,且环绕式注意力机制的设计使重构器适用于重构运动量较大的视频输入。

23、本发明在视频超分辨率重构任务上具有重构流程直接、重构结果准确、适用于重构运动量较大的视频等特点。和现有的方法相比,本发明在多个主流数据集上取得了更好的表现。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1