基于轻量化驱动和三尺度编码的视频帧插值方法及系统

文档序号:33703312发布日期:2023-03-31 20:32阅读:38来源:国知局
基于轻量化驱动和三尺度编码的视频帧插值方法及系统

1.本发明涉及计算机视觉技术领域,特别是涉及基于轻量化驱动和三尺度编码的视频帧插值方法及系统。


背景技术:

2.本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。
3.视频帧插值是一种通过从连续的原始帧中提取时空特征来合成一个或多个中间帧的技术,它可以大大提高时间分辨率(帧速率)。视频帧插值作为计算机视觉的一个研究热点,在慢动作生成、图像恢复、视频帧速率上转换等各种应用中发挥着重要作用。然而,现实视频中的复杂运动和遮挡给视频帧插值带来了巨大挑战,导致无法准确生成中间帧。
4.早期的传统方法基于运动估计和运动补偿,依赖输入帧之间的运动矢量。运动矢量的估计分为块级和像素级,基于块在一定程度上影响运动信息的准确性而基于像素的方法需要对输入帧的每个像素进行估计这将带来巨大的计算量。因此传统方法无法较好完成帧插入,并可能带来过重的模型。近年来,基于深度神经网络的方法逐渐取代传统方法成为主流。现有的方法大多是基于流的、基于内核的和混合的方法。
5.基于流的方法有的利用现成的流模型来提取光流,有的通过网络估计自己所需的特定流,作为像素级任务的指导。然后使用得到的流对原始帧进行扭曲以合成插值帧。然而,预先训练的流模型增加了模型的内存和复杂性,并且面向任务的光流无法精确处理复杂的运动和遮挡。
6.基于核的方法将像素插值视为两个输入帧中相应局部面片的卷积,并通过深度神经网络估计输出帧中每个像素的卷积核。然而,它们受到内核大小和运动的限制,无法处理超出核尺寸的大型运动,并带来巨大的计算成本。虽然niklaus等人通过用可分离卷积核替换正常卷积核来减少参数的数量,但它仍然无法处理大尺寸运动。混合方法结合了上述方法的优点,但模型更重,计算成本更高。


技术实现要素:

7.为了解决现有技术的不足,本发明提供了基于轻量化驱动和三尺度编码的视频帧插值方法及系统;采用通道注意力机制模块融合三尺度特征,采用通道空间注意力机制增强编码特征与解码特征相结合保留运动信息。通过使用循环残差卷积单元和可分离循环残差卷积单元提高网络性能,同时减少模型参数,降低模型尺寸。
8.第一方面,本发明提供了基于轻量化驱动和三尺度编码的视频帧插值方法;
9.基于轻量化驱动和三尺度编码的视频帧插值方法,包括:
10.获取待插值视频的第i帧原始图像和第i+1帧原始图像;分别对第i帧原始图像和第i+1帧原始图像进行尺度缩放,得到第i帧缩小尺度的图像、第i+1帧缩小尺度的图像、第i帧放大尺度的图像、第i+1帧放大尺度的图像;
11.将原始图像和尺度缩放后的图像均输入到训练后的视频帧插值模型中,输出插值
图像;
12.其中,训练后的视频帧插值模型,对原始图像和尺度缩放后的图像,分别进行三个尺度的特征提取,采用通道注意力机制模块对三个尺度的特征进行融合,采用双重注意力机制模块对融合后的特征进行增强;再对增强后的特征进行帧扭曲操作,得到插值图像。
13.第二方面,本发明提供了基于轻量化驱动和三尺度编码的视频帧插值系统;
14.基于轻量化驱动和三尺度编码的视频帧插值系统,包括:
15.获取模块,其被配置为:获取待插值视频的第i帧原始图像和第i+1帧原始图像;分别对第i帧原始图像和第i+1帧原始图像进行尺度缩放,得到第i帧缩小尺度的图像、第i+1帧缩小尺度的图像、第i帧放大尺度的图像、第i+1帧放大尺度的图像;
16.处理模块,其被配置为:将原始图像和尺度缩放后的图像均输入到训练后的视频帧插值模型中,输出插值图像;
17.其中,训练后的视频帧插值模型,对原始图像和尺度缩放后的图像,分别进行三个尺度的特征提取,采用通道注意力机制模块对三个尺度的特征进行融合,采用双重注意力机制模块对融合后的特征进行增强;再对增强后的特征进行帧扭曲操作,得到插值图像。
18.第三方面,本发明还提供了一种电子设备,包括:
19.存储器,用于非暂时性存储计算机可读指令;以及
20.处理器,用于运行所述计算机可读指令,
21.其中,所述计算机可读指令被所述处理器运行时,执行上述第一方面所述的方法。
22.第四方面,本发明还提供了一种存储介质,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行第一方面所述方法的指令。
23.第五方面,本发明还提供了一种计算机程序产品,包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。
24.与现有技术相比,本发明的有益效果是:
25.本发明通过三尺度编码器处理大运动和复杂小运动,便于提取更准确的深度特征,采用通道注意力机制模块融合三尺度特征,采用双重注意力机制模块增强编码特征与解码特征相结合保留运动信息。通过使用循环残差卷积单元和可分离循环残差卷积单元提高网络性能,同时减少模型参数,降低模型尺寸。以较少的模型参数取得优秀的插值效果。
附图说明
26.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
27.图1为本技术实施例一的系统总体框架;
28.图2为本技术实施例一的通道注意力机制模块内部连接结构图;
29.图3为本技术实施例一的双重注意力机制模块cbam内部连接结构图;
30.图4为本技术实施例一的循环残差卷积单元rrcu结构图;
31.图5为本技术实施例一的可分离循环残差卷积单元s_rrcu结构图;
32.图6为本技术实施例一的当t=2时,循环卷积层内部结构。
具体实施方式
33.应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
34.需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
35.在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
36.本实施例所有数据的获取都在符合法律法规和用户同意的基础上,对数据的合法应用。
37.实施例一
38.本实施例提供了基于轻量化驱动和三尺度编码的视频帧插值方法;
39.基于轻量化驱动和三尺度编码的视频帧插值方法,包括:
40.s101:获取待插值视频的第i帧原始图像和第i+1帧原始图像;分别对第i帧原始图像和第i+1帧原始图像进行尺度缩放,得到第i帧缩小尺度的图像、第i+1帧缩小尺度的图像、第i帧放大尺度的图像、第i+1帧放大尺度的图像;
41.s102:将原始图像和尺度缩放后的图像均输入到训练后的视频帧插值模型中,输出插值图像;
42.其中,训练后的视频帧插值模型,对原始图像和尺度缩放后的图像,分别进行三个尺度的特征提取,采用通道注意力机制模块对三个尺度的特征进行融合,采用双重注意力机制模块对融合后的特征进行增强;再对增强后的特征进行帧扭曲操作,得到插值图像。
43.进一步地,训练后的视频帧插值模型,其网络结构包括:依次连接的编码器、解码器和帧扭曲模块;
44.所述编码器,包括:三个并列的分支;所述三个并列的分支分别为第一分支、第二分支和第三分支;每个分支均包括三个依次连接的循环残差卷积单元;
45.所述第一分支,包括:依次连接的循环残差卷积单元rrcu11、循环残差卷积单元rrcu12和循环残差卷积单元rrcu13;
46.所述第二分支,包括:依次连接的循环残差卷积单元rrcu21、循环残差卷积单元rrcu22和循环残差卷积单元rrcu23;
47.所述第三分支,包括:依次连接的循环残差卷积单元rrcu31、循环残差卷积单元rrcu32和循环残差卷积单元rrcu33;
48.其中,相邻分支的循环残差卷积单元之间通过通道注意力机制模块进行连接;
49.循环残差卷积单元rrcu11的输出端和循环残差卷积单元rrcu31的输出端,均通过各自的通道注意力机制模块与循环残差卷积单元rrcu21的输入端连接;
50.其中,循环残差卷积单元rrcu12的输出端和循环残差卷积单元rrcu32的输出端,均通过各自的通道注意力机制模块与循环残差卷积单元rrcu22的输入端连接;
51.其中,循环残差卷积单元rrcu13的输出端和循环残差卷积单元rrcu33的输出端,均通过各自的通道注意力机制模块与循环残差卷积单元rrcu23的输入端连接;
52.其中,循环残差卷积单元rrcu23的输出端与可分离循环残差卷积单元s_rrcu1的输入端连接;可分离循环残差卷积单元s_rrcu1的输出端与可分离循环残差卷积单元s_rrcu2的输入端连接。
53.进一步地,如图2所示,所述通道注意力机制模块,内部结构包括:
54.并列的分支r1和分支r2;
55.所述分支r1,包括依次连接的平均池化层、二维卷积层、线性整流函数层、二维卷积层和sigmoid激活函数层;平均池化层的输入端,作为通道注意力机制模块的输入端;
56.所述分支r2,包括:加法器j1;加法器j1的输入端与平均池化层的输入端连接,加法器j1的输入端还与sigmoid激活函数层的输出端连接;加法器j1的输出端作为通道注意力模块的输出端。
57.进一步地,所述通道注意力机制模块,其工作原理包括:两个二维卷积层获得非线性的通道间关系,平均池化层用以聚合通道的统计信息,得到特征图的各个通道的权重,通过各个通道的权重赋予每个通道权重值,在后续操作中重点关注权重值高于设定阈值的通道。
58.进一步地,所述第一分支,用于输入第i帧缩小尺度的图像和第i+1帧缩小尺度的图像;
59.第二分支,用于输入第i帧原始图像和第i+1帧原始图像;
60.第三分支,用于输入第i帧放大尺度的图像和第i+1帧放大尺度的图像。
61.示例性地,本发明属于基于内核的视频帧插入技术,将前后两帧i0和i2作为输入,然后通过上下采样从原始尺度的输入得到二分之一尺度,原始尺度,两倍尺度的输入图片
62.进一步地,同一分支中相邻循环残差卷积单元之间通过平均池化层进行连接;
63.所述循环残差卷积单元rrcu11与循环残差卷积单元rrcu12之间通过平均池化层进行连接;所述循环残差卷积单元rrcu12和循环残差卷积单元rrcu13之间通过平均池化层进行连接;
64.所述循环残差卷积单元rrcu21与循环残差卷积单元rrcu22之间通过平均池化层进行连接;所述循环残差卷积单元rrcu22和循环残差卷积单元rrcu23之间通过平均池化层进行连接;
65.所述循环残差卷积单元rrcu31与循环残差卷积单元rrcu32之间通过平均池化层进行连接;所述循环残差卷积单元rrcu32和循环残差卷积单元rrcu33之间通过平均池化层进行连接;
66.循环残差卷积单元rrcu23与可分离循环残差卷积单元s_rrcu1之间通过平均池化层进行连接;可分离循环残差卷积单元s_rrcu1与可分离循环残差卷积单元s_rrcu2之间通过平均池化层进行连接。
67.进一步地,所述循环残差卷积单元rrcu11、循环残差卷积单元rrcu12、循环残差卷积单元rrcu13、循环残差卷积单元rrcu21、循环残差卷积单元rrcu22、循环残差卷积单元rrcu23、循环残差卷积单元rrcu31、循环残差卷积单元rrcu32和循环残差卷积单元rrcu33
综合起来被称之为三尺度特征提取器;
68.其中,三尺度,是指循环残差卷积单元rrcu11、循环残差卷积单元rrcu21、和循环残差卷积单元rrcu31采用32维度;
69.循环残差卷积单元rrcu12、循环残差卷积单元rrcu22、和循环残差卷积单元rrcu32采用64维度;
70.循环残差卷积单元rrcu13、循环残差卷积单元rrcu23、和循环残差卷积单元rrcu33采用128维度。
71.进一步地,所述循环残差卷积单元rrcu11、循环残差卷积单元rrcu12、循环残差卷积单元rrcu13、循环残差卷积单元rrcu21、循环残差卷积单元rrcu22、循环残差卷积单元rrcu23、循环残差卷积单元rrcu31、循环残差卷积单元rrcu32和循环残差卷积单元rrcu33的内部结构是一致的;
72.如图4所示,所述循环残差卷积单元rrcu11,包括:
73.并列的分支a1和分支a2;
74.所述分支a1,包括:依次连接的第一循环卷积层和第二循环卷积层;
75.所述分支a2,包括:加法器j2;
76.所述第一循环卷积层的输入端作为循环残差卷积单元rrcu11的输入端;
77.所述加法器j2的输入端与循环残差卷积单元rrcu11的输入端连接;
78.所述加法器j2的输入端还与第二循环卷积层的输出端连接;
79.所述加法器j2的输出端作为循环残差卷积单元rrcu11的输出端。
80.进一步地,所述循环残差卷积单元rrcu11,其工作原理包括:利用残差模块,将经过两个循环卷积层处理的特征与原始特征执行像素级加法,进行特征积累,以实现特征提取。
81.进一步地,为了描述循环残差卷积单元rrcu11内部第一循环卷积层的内部结构,用(i,j)表示第一循环卷积层中的第k个特征图上的一个像素。输出用表示,其中,t表示时间步长:
[0082][0083]
其中,*表示卷积操作,和表示第l层循环卷积的前馈输入和循环输入。和表示前馈连接和循环连接的权重,f代表前馈,r代表循环,bk是偏差值。第l层循环卷积的输出被输入到relu激活函数,其表示为:
[0084][0085]
在循环残差卷积单元rrcu11中,将输入残差模块进行特征积累,循环残差卷积单元rrcu11的输出可以表示为(3):
[0086][0087]
其中,u
l+1
表示循环残差卷积单元rrcu11的输出,u
l
表示循环残差卷积单元rrcu11的输入。
[0088]
应理解地,第一循环卷积层和第二循环卷积层,将循环连接结合到卷积中,循环卷积层的状态随着时间步长t的变化而演变。设置时间步长t=2,得到一个深度为3的前馈子网络,循环卷积层包含两个循环连接和三个前馈连接,前馈连接输入在所有迭代中保持不变,而每个循环连接输入会随着每次迭代而变化,其中循环连接和前馈连接具有本地连接并共享权值。
[0089]
进一步地,所述编码器,工作原理是给定两个相邻的输入帧i0和i2,输入帧分三个尺度进行处理,以增加运动接收的范围。增加编码器低维部分的宽度可以提高整个编码器的性能,仅在32、64、128个维度上增加了编码器的宽度,并在不同的尺度之间允许卷积层共享权重,以保证不增加额外模型参数。利用通道注意力机制模块将不同尺度特征进行融合,减少信息丢失,该编码器扩大了运动接受范围,提高了处理复杂小和大运动的能力。
[0090]
进一步地,所述解码器,包括:依次连接的可分离循环残差卷积单元s_rrcu3、可分离循环残差卷积单元s_rrcu4、循环残差卷积单元rrcu24和循环残差卷积单元rrcu25;
[0091]
其中,可分离循环残差卷积单元s_rrcu3的输入端与可分离循环残差卷积单元s_rrcu2的输出端连接;
[0092]
其中,循环残差卷积单元rrcu25的输出端与自适应流协作扭曲模块的输入端连接。
[0093]
进一步地,所述可分离循环残差卷积单元s_rrcu3与可分离循环残差卷积单元s_rrcu2之间通过上采样层进行连接;可分离循环残差卷积单元s_rrcu3与可分离循环残差卷积单元s_rrcu4之间通过上采样层进行连接;可分离循环残差卷积单元s_rrcu4与循环残差卷积单元rrcu24之间通过上采样层进行连接;循环残差卷积单元rrcu24与循环残差卷积单元rrcu25之间通过上采样层进行连接。
[0094]
进一步地,所述解码器的各个层与所述编码器的对应层之间通过双重注意力机制模块cbam进行连接。
[0095]
进一步地,所述循环残差卷积单元rrcu32的输出端与第一双重注意力机制模块cbam的输入端连接;第一双重注意力机制模块cbam的输出端与循环残差卷积单元rrcu25的输出端,均与第一拼接单元的输入端连接,第一拼接单元的输出端与上采样层的输入端连接;
[0096]
所述循环残差卷积单元rrcu33的输出端与第二双重注意力机制模块cbam的输入端连接;第二双重注意力机制模块cbam的输出端与循环残差卷积单元rrcu24的输出端,均与第二拼接单元的输入端连接,第二拼接单元的输出端与上采样层的输入端连接;
[0097]
可分离循环残差卷积单元s_rrcu1的输出端与第三双重注意力机制模块cbam的输入端连接;第三双重注意力机制模块cbam的输出端与可分离循环残差卷积单元s_rrcu4的输出端,均与第三拼接单元的输入端连接,第三拼接单元的输出端与上采样层的输入端连接;
[0098]
可分离循环残差卷积单元s_rrcu2的输出端与第四双重注意力机制模块cbam的输入端连接;第四双重注意力机制模块cbam的输出端与可分离循环残差卷积单元s_rrcu3的输出端,均与第四拼接单元的输入端连接,第四拼接单元的输出端与上采样层的输入端连接。
[0099]
进一步地,所述第一双重注意力机制模块cbam、第二双重注意力机制模块cbam、第
三双重注意力机制模块cbam和第四双重注意力机制模块cbam的内部结构是一致的;
[0100]
进一步地,如图3所示,所述第一双重注意力机制模块cbam,包括:并列的分支b1和分支b2;所述分支b1,包括:并联的分支c1和分支c2;
[0101]
分支c1包括:依次连接的最大池化层z1、二维卷积层e1、线性整流函数层、二维卷积层e2;
[0102]
分支c2包括:依次连接的平均池化层p1、二维卷积层e3、线性整流函数层、二维卷积层e4;
[0103]
分支c1的最大池化层的输入端作为第一双重注意力机制模块cbam的输入端;平均池化层的输入端与最大池化层的输入端连接;
[0104]
二维卷积层e2的输出端与加法器j5的输入端连接;二维卷积层e4的输出端与加法器j5的输入端连接;加法器j5的输出端与sigmoid激活函数层s1的输入端连接;sigmoid激活函数层s1的输出端与加法器j3的输入端连接;
[0105]
所述分支b2,包括:依次连接的加法器j3和加法器j4;
[0106]
加法器j3的输出端分别与最大池化层z2的输入端和平均池化层p2的输入端连接,最大池化层z2的输出端和平均池化层p2的输出端与通道拼接单元的输入端进行连接;通道拼接单元的输出端与二维卷积层e5的输入端连接,二维卷积层e5的输出端与sigmoid激活函数层s2的输入端连接,sigmoid激活函数层s2的输出端与加法器j4的输入端连接,加法器j4的输出端作为第一双重注意力机制模块cbam的输出端。
[0107]
其中,通道拼接单元,其工作原理为保证特征尺寸不变,将通道数相加,仅在通道数上扩展。
[0108]
进一步地,所述可分离循环残差卷积单元s_rrcu1、可分离循环残差卷积单元s_rrcu2、可分离循环残差卷积单元s_rrcu3和可分离循环残差卷积单元s_rrcu4的内部结构是一致的;
[0109]
如图5所示,所述可分离循环残差卷积单元s_rrcu1,内部结构包括:
[0110]
并列的分支d1和分支d2;
[0111]
所述分支d1,包括:依次连接的可分离循环卷积层k1和可分离循环卷积层k2;
[0112]
所述分支d2,包括:加法器j5;
[0113]
可分离循环卷积层k1的输入端作为可分离循环残差卷积单元s_rrcu1的输入端;可分离循环卷积层k2的输出端与加法器j5的输入端连接;
[0114]
加法器j5的输入端与可分离循环卷积层k1的输入端连接,加法器j5的输出端作为可分离循环残差卷积单元s_rrcu1的输出端。
[0115]
进一步地,为了描述可分离循环残差卷积单元s_rrcu1内部可分离循环卷积层k1的内部结构,用(i,j)表示可分离循环卷积层k1中的第k个特征图上的一个像素。输出用表示,其中,t表示时间步长:
[0116][0117]
其中,

表示深度可分离卷积操作,和表示第l层循环卷积的前馈输入和循环输入。和表示前馈连接和循环连接的权重,f代表前馈,r代表循
环,bk是偏差值。可分离循环卷积层k1的输出被输入到relu激活函数,其表示为:
[0118][0119]
在可分离循环残差卷积单元s_rrcu1中,将输入残差模块进行特征积累,可分离循环残差卷积单元s_rrcu1的输出可以表示为(6):
[0120][0121]
其中,u
l+1
表示可分离循环残差卷积单元s_rrcu1的输出,u
l
表示可分离循环残差卷积单元s_rrcu1的输入。
[0122]
应理解地,所述可分离循环残差卷积单元s_rrcu1,其工作原理包括:首先,深度可分离卷积将普通卷积拆分为逐通道卷积和逐点卷积。逐通道卷积中一个通道仅由一个卷积核卷积,得到的特征图通道数和输入的通道数完全一样。逐点卷积为1
×
1卷积,使深度可分离卷积能够自由改变输出通道的数量,并对逐通道卷积输出的特征图进行通道融合。明显减少普通卷积层的参数,而在可分离循环残差卷积单元中,我们将内部用到的普通卷积操作替换为深度可分离卷积,以得到一个高效卷积单元。
[0123]
进一步地,所述解码器,其工作原理为以高维运动语义为输入,通过可分离循环残差卷积单元(s_rrcu)和循环残差卷积单元(rrcu)对特征进行译码,使用双线性插值进行上采样更改特征尺寸,借用双重注意力机制模块cbam将编码特征融合进解码特征中,以减少信息丢失,通过解码器得到高质量深度特征一遍后续帧扭曲模块提取所需信息。
[0124]
进一步地,如图1所示,所述帧扭曲模块,包括:7个并列的分支;
[0125]
分支f1,包括:依次连接的卷积层、激活函数层relu、卷积层、激活函数层relu、卷积层、激活函数层relu、上采样层、卷积层和softmax函数层;
[0126]
分支f2,包括:依次连接的卷积层、激活函数层relu、卷积层、激活函数层relu、卷积层、激活函数层relu、上采样层、卷积层;
[0127]
分支f3,包括:依次连接的卷积层、激活函数层relu、卷积层、激活函数层relu、卷积层、激活函数层relu、上采样层、卷积层;
[0128]
分支f4,包括:依次连接的卷积层、激活函数层relu、卷积层、激活函数层relu、卷积层、激活函数层relu、上采样层、卷积层和sigmoid函数层;
[0129]
分支f5,包括:依次连接的卷积层、激活函数层relu、卷积层、激活函数层relu、卷积层、激活函数层relu、上采样层、卷积层和softmax函数层;
[0130]
分支f6,包括:依次连接的卷积层、激活函数层relu、卷积层、激活函数层relu、卷积层、激活函数层relu、上采样层、卷积层;
[0131]
分支f7,包括:依次连接的卷积层、激活函数层relu、卷积层、激活函数层relu、卷积层、激活函数层relu、上采样层、卷积层。
[0132]
进一步地,如图1所示,所述帧扭曲模块,其工作原理包括:使用分支f1,f2,f3提取前一输入帧中像素在x,y方向的偏移向量和权重,使用分支f5,f6,f7提取后一输入帧中像素在x,y方向的偏移向量和权重,使用分支f4估计两帧的融合权重,判断两帧对应像素的重要程度,用来融合前后两帧特征图得到插值帧。
[0133]
进一步地,训练后的视频帧插值模型,其训练过程包括:
[0134]
构建训练集,所述训练集为已知视频;
[0135]
将训练集输入到视频帧插值模型中,对模型进行训练,当模型的整体损失函数值不再降低时,停止训练,得到训练后的视频帧插值模型。
[0136]
应理解地,编码器用来获得准确的运动信息,并融合多尺度特征以获得高级的图像特征,后续子网络以此估计图像参数,然后使用自适应流协作(adacof,源自论文adaptive collaboration of flows for video frame interpolation)完成输入帧的扭曲操作,得到高质量插值帧。轻量化思想贯穿整个模型,在确保插值帧的准确性的同时减少模型参数的数量。
[0137]
本发明只在编码器的低维部分提取多尺度运动语义,不同位置共享权重,这使本发明能够在不添加参数的情况下获得更多信息。此外,本发明使用深度可分卷积与循环卷积相结合的方法来实现局部轻量化,并大大减少了参数。本发明关键技术体现在低维度三尺度编码器、两级注意力级联特征融合方式和深度可分离卷积与循环卷积联合局部轻量化这三个方面。
[0138]
本发明采用的技术方案如下:
[0139]
基于三尺度编码的特征提取器:设计一个新的三尺度编解码风格的特征提取模块,在32,64,128维度上从三个尺度对输入的前后参考帧进行深度特征估计,得到具有指导意义的低维运动语义。
[0140]
基于三尺度特征的两级注意力级联策略:利用通道注意力机制模块对三尺度特征进行融合,利用级联的通道注意力机制和空间注意力机制对融合后的三尺度特征和解码特征进行级联,实现特征增强。
[0141]
基于编解码器所得特征的帧扭曲操作:利用三尺度编解码器提取的特征通过三个子网络得到自适应流协作扭曲模块所需的像素级参数并扭曲输入帧。
[0142]
深度可分离卷积与循环卷积联合局部轻量化策略:对编解码结构中的低维部分的普通卷积单元替换为循环残差卷积单元,对编解码结构中的高维度部分进行深度可分离卷积和循环卷积的融合,以最大限度降低模型参数。
[0143]
将前后两原始帧随机裁剪得到256
×
256的块;通过上下采样改变图片块尺度,得到二分之一尺度,原始尺度和两倍尺度的输入;将三尺度的输入分别输入对应尺度的低维编码器得到低维运动语义。
[0144]
在32,64,128维度,通过通道注意力机制提取通道权重图,将二分之一尺度和两倍尺度的特征融合为原始尺度特征;利用级联的通道注意力和空间注意力机制对低维度融合过后的特征和高维度特征提取权重图,通过像素级乘法进行特征增强;将特征增强后的编码特征通过像素级加法在对应维度上与解码特征进行融合。
[0145]
根据三尺度特征提取器得到的深度特征,通过三个子网估计每个目标像素在水平垂直方向的偏移向量和每个目标像素卷积核的权重;采用自适应流协作作为扭曲模块,其利用偏移向量扩大运动采样范围,且每个像素不共享权重以将输入图像扭曲为输出图像;进行像素级运算,得到扭曲的输出帧。
[0146]
将编码器和解码器中32,64,128维度的卷积单元替换为融合循环卷积层和残差操作的循环残差卷积单元,循环残差卷积单元可以在卷积单元的基础上减少参数;在256,512维度上将深度可分离卷积与循环残差卷积单元进行融合,利用深度可分离卷积降低模型百
分之90左右的参数。
[0147]
本发明提出了一种基于轻量化驱动和三尺度编码结构的帧插入算法与系统,可以用较少的参数对低帧率视频进行插帧。整个流程如图1,具体实施方式如下:
[0148]
(1)数据准备。本发明采用最常见的开源数据集vimeo-90k作为训练集。vimeo-90k由51312组分辨率为256*448的三帧组成,其中第一帧和第三帧用作输入,第二帧作为真实帧用以微调训练结果。本发明进一步随机裁剪数据集,获得分辨率为256*256的图像块,通过水平和垂直随机翻转样本并扰乱时间顺序,来增加数据多样性。测试集为常见开源数据集middlebury、davis和ucf101。
[0149]
(2)三尺度运动特征提取。本发明基于u-net编解码结构设计了一个三尺度特征提取器,其在三个尺度上处理输入帧,以增加运动接收范围。本发明仅在32、64、128维度上增加编码器的宽度,并在不同的尺度之间共享权重,控制参数的同时提高整个编码器的性能。该三尺度编码器扩展了运动接受范围,以处理复杂和大型运动,而无需增加模型参数。
[0150][0151]
l
lowen
{
·
},l
highen
{
·
},l
de
{
·
}分别表示低维三维编码器、高维编码器和解码器。表示三个尺度上的输入,f-1
,f0,f1表示在三个尺度上得到的低维运动语义。然后将三组低维语义融合,输入高维编码器,得到高维运动语义f,并通过解码器获得最终的特征out来表示运动细节。
[0152]
(3)基于三尺度特征的两级注意力级联策略。为了更好的融合三个尺度的运动信息,减少信息丢失,本发明提出了通道注意力机制模块、以及双重注意力机制模块cbam。
[0153]
通道注意力机制模块自适应地获得编码器32、64、128维不同层的通道权重图,以保留有关运动内容和遮挡的信息。每个尺度上的信息通过采样融合到原始尺度特征中。通道注意力机制模块的结构,如图2所示,通道注意力机制模块由两个1
×
1卷积层组成,以获得非线性通道间关系,而平均池化用于聚合信道的统计信息。通道注意力机制模块可以用数学形式表示为(8)。
[0154]
eic(f)=σ(w1*(relu(w0*avg(f))))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0155]
其中,w0,w1表示两个1
×
1卷积的权重,f表示输入特征,avg(f)表示对特征图进行平均池化得到新的特征图,relu(
·
)表示线性整流函数,*表示卷积运算,σ(
·
)表示sigmoid函数,eic(f)表示通道注意力机制模块。
[0156]
双重注意力机制模块cbam自适应地获得整个编码器不同层的空间权重图和信道权重图。在通道注意力机制模块融合低维三个尺度后,双重注意力机制模块cbam提取权重图,并增强融合后的原始尺度特征以保留运动和遮挡信息。图3显示了双重注意力机制模块cbam的详细架构。双重注意力机制模块cbam使用平均池化和最大池化并行聚合通道信息。通过1
×
1卷积和sigmoid函数得到通道注意特征图。本发明将输入特征和通道注意特征图逐像素相乘,以获得特征f'。以f'作为第二阶段的输入,平均池化和最大池化分别聚合一个通道的统计信息,然后基于通道拼接两个特征映射。最后,通过7
×
7卷积将通道缩减为一个
通道,并使用sigmoid函数生成空间注意特征图。最终特征将通过逐像素乘法运算获得。双重注意力机制模块cbam的两个阶段可以表示为:
[0157][0158]
在(3)中,w2和w3表示第一阶段第一行的两个1
×
1卷积的权重,两行的卷积层共享权重,w7×7表示7
×
7卷积。f表示输入特征,avg(
·
)和max(
·
)分别表示平均池化操作和最大池化操作,σ(
·
)和*表示σ函数和卷积,relu(
·
)表示线性整流函数,而和
×
分别表示元素加法和乘法,cic(f)表示双重注意力机制模块cbam。
[0159]
本发明将编解码结构特征提取程序的过程表示为获取特征,我们首先利用通道注意力机制模块对附加的两个尺度上低维度的特征图进行特征增强,然后通过采样操作将其融合到原始尺度中,以减少大、小运动的信息损失。我们使用双重注意力机制模块cbam来处理融合后的低维特征和原始高维特征,并分别将它们与相应的解码特征相加,以保留编码信息。
[0160]
(4)基于编解码器所得特征的帧扭曲操作。本发明引用自适应流协作(adacof)来合成插值帧,将三尺度编解码器提取的特征通过三个子网络得到自适应流协作扭曲模块所需的像素级参数并扭曲输入帧。它估计每个目标像素的偏移向量来扩展信息采样位置,每个像素的权重不再共享,其操作可以用以下方程式进行数学表示:
[0161][0162]it

⊙in
+(j-v)
⊙in+1
[0163]
其中,

表示像素相乘,j和v表示一个m
×
n的1矩阵和遮挡图,in和i
n+1
分别表示前后两帧,i
t
表示前后两帧融合得到的最后结果。s表示卷积核尺寸,(m,n)表示像素位置,而w
p,
(m,n),和d是第(p,q)个核的权重、偏移向量和膨胀值。
[0164]
(5)深度可分离卷积与循环卷积联合局部轻量化策略。在多尺度编解码结构中,本发明引入了循环残差卷积单元(rrcu,recurrent residual convolutional unit)来代替32,64,128维度上原来的普通卷积单元。该单元的关键部件是循环卷积层(rcl),它将循环连接合并进普通卷积。rcl的状态随时间步长t演化。同时,本发明将循环连接合并进深度可分离卷积中,提出了一种可分离rrcu(s_rrcu,separable recurrent residual convolutional unit)。rrcu和s_rrcu的具体结构如图4和图5所示。每个rrcu包含两个rcl。如图6所示,当本发明设置时间步长t=2时,本发明将获得深度为3的前馈子网络。前馈输入在所有迭代中保持不变,而每个循环输入都随着迭代而发展。当t=2时,rcl通过两个循环连接和三个前馈连接,其中循环连接和前馈连接具有局部连接并共享权重。rrcu内只有两个rcl,且rcl内部共享权重,而原始卷积单元包含三个普通卷积层,因此rrcu可以用较少的参数实现更好的插值效果。对编解码结构中的低维部分的普通卷积单元替换为rrcu,对编解码结构中的高维度部分进行深度可分离卷积和循环卷积的融合,将普通卷积单元替换为s_rrcu以最大限度降低模型参数。
[0165]
提出了一种具有两级注意级联的三尺度编解码结构来表示多尺度运动信息,然后采用循环卷积层和残差运算设计循环残差卷积单元来代替三尺度结构中的普通卷积单元。最后,本发明应用局部轻量化思想来显著减少模型参数,对编解码结构中的高维部分进行深度可分离卷积和循环卷积的融合,以最大限度降低模型参数。本发明提出的三尺度结构在不增加模型参数的情况下提高了模型性能,循环残差卷积单元也在降低参数方面发挥了关键作用。
[0166]
实施例二
[0167]
本实施例提供了基于轻量化驱动和三尺度编码的视频帧插值系统;
[0168]
基于轻量化驱动和三尺度编码的视频帧插值系统,包括:
[0169]
获取模块,其被配置为:获取待插值视频的第i帧原始图像和第i+1帧原始图像;分别对第i帧原始图像和第i+1帧原始图像进行尺度缩放,得到第i帧缩小尺度的图像、第i+1帧缩小尺度的图像、第i帧放大尺度的图像、第i+1帧放大尺度的图像;
[0170]
处理模块,其被配置为:将原始图像和尺度缩放后的图像均输入到训练后的视频帧插值模型中,输出插值图像;
[0171]
其中,训练后的视频帧插值模型,对原始图像和尺度缩放后的图像,分别进行三个尺度的特征提取,采用通道注意力机制模块对三个尺度的特征进行融合,采用双重注意力机制模块对融合后的特征进行增强;再对增强后的特征进行帧扭曲操作,得到插值图像。
[0172]
此处需要说明的是,上述获取模块和处理模块对应于实施例一中的步骤s101至s102,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
[0173]
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
[0174]
所提出的系统,可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
[0175]
实施例三
[0176]
本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述实施例一所述的方法。
[0177]
应理解,本实施例中,处理器可以是中央处理单元cpu,处理器还可以是其他通用处理器、数字信号处理器dsp、专用集成电路asic,现成可编程门阵列fpga或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0178]
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
[0179]
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者
软件形式的指令完成。
[0180]
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
[0181]
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元及算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0182]
实施例四
[0183]
本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述的方法。
[0184]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1