基于事件点图融合的视频插帧方法

文档序号:35675750发布日期:2023-10-08 05:51阅读:31来源:国知局
基于事件点图融合的视频插帧方法

本发明涉及视频插帧领域,特别是一种基于事件点图融合的视频插帧方法。


背景技术:

1、视频插帧是将低时间分辨率转换为高时间分辨率视频,旨在提高视频的帧率和流畅度,可以运用于慢动作视频生成(slow-motion generation),新视角图像的合成(novelview synthesis),动画创作(cartoon creation)和视频压缩(video compression)等领域。

2、视频插帧现阶段有两种技术方法,分别是借助图像的插帧方法和基于事件的插帧方法。

3、基于图像的插帧方法旨在通过连续的帧来合成中间图像。它可以被分类成光流对齐法,卷积核依赖法和直接合成法。光流对齐法显式的估计出了两帧到中间帧时刻的光流图并将光流向中间帧对齐,这类方法大多数都是建立在线性运的假设和光度一致性假设的基础上的。尽管一些方法也进行了非线性估计的尝试,但是这类方法仍然无法解决复杂运动场景下的插帧问题。卷积核依赖法可以通过在小的图像块上进行卷积来解决运动模糊的问题,但是它却不适合帧间位移大的情况。直接合成法借助3d卷积,可变形卷积,像素重排等手段来合成中间帧。这些借助图像的插帧方法在一些问题上取得了成效,但是由于帧间运动信息的缺失,不能很好的适应复杂运动背景。

4、不同于借助图像的插帧方法,基于事件的插帧方法还涵盖额外的事件相机来提供补充的运动信息。早期的工作研究了事件的积分和图像之间的关系,并通过循环卷积网络提取事件流中的残差信息。而近期的工作更多把注意力转向光流对齐法来处理大位移的情况。总的来说,这些工作都改变了事件的表征,利用人为设计的聚合策略,把事件流转换成了网格状的数据形式,来支持后续应用卷积网络实现提取特征的过程。因此,依据不同的聚合策略,本发明实施例将基于事件的插帧方法分为,体素化方法和时间表面切片方法。

5、体素化方法将原本的事件流化分了离散的体素化网格,并将落在每个网格中的事件点根据极性进行累加。rebecq等人第一次引入了计算机视觉的方式来处理这种转换后的网格事件数据,并且提出了一种循环神经网络架构来合成图像。tulyakov等人将事件相机作为常规相机的补充设备,实现将常规相机拍摄的图像和事件相机记录的事件相结合,并设计了一种基于光流和直接合成的双分支网络来分别提取光流信息和残差信息。wang等人提出了一种稀疏学习网络来处理不同极性的事件体素网格。时间表面切片方法将2d输入事件转换成4维图像。在每个像素位置上,第一维和第二维分别记录正负极性的事件数目,第三维和第四维分别记录正负极性事件的最后一次触发时刻。he等人为这种事件表面数据设计了一个无监督学习框架,通过循环一致性实现无监督学习的插帧。

6、不管是体素化方法,还是时间表面切片的方法,都是在算法的早期将事件的特殊格式依照某些策略进行聚合,以适应目前已有的为空间排列好的网格数据设计的卷积操作。这种处理流程有着以下两个弊端:前期将事件的点形式转换成网格形式,破坏了原有事件点的稀疏存储特性,同时对大量时间维的离散化又会导致时间信息的丢失;第二,这样的人为设计的聚合形式是不可学习的,不能对适应不同任务下的事件数据。目前也有一些工作,针对分类或姿态估计的任务,采用了一些其他的新型事件表征,比如基于块的事件表示,点云表示和向量表示,并取得了一定的成功。然而,对于如何处理这样的事件和图像结合的双端输入的视频插帧问题,目前还没有一个不进行事件表征转换的解决方法。


技术实现思路

1、本发明所要解决的技术问题是,针对现有技术不足,提供一种基于事件点图融合的视频插帧方法,充分利用事件流的时域信息,避免计算冗余。

2、为解决上述技术问题,本发明所采用的技术方案是:一种基于事件点图融合的视频插帧方法,包括以下步骤:

3、s1、获取两张图片i0、i1,确定该两张图片i0、i1的中间事件流e和需要插帧的帧数n;

4、s2、提取两张图片i0、i1的特征,得到图像特征f_i;

5、提取中间事件流e的特征,得到事件特征f_e;

6、对事件特征f_e进行时域上的聚合,得到聚合后的事件特征f_e’;

7、s3、利用所述图像特征f_i和聚合后的事件特征f_e’获得两边帧到中间帧的光流图;

8、s4、利用所述光流图对齐图片i0和图片i0的浅层特征,以及对齐图片i1和图片i1的浅层特征;

9、s5、融合对齐后的图片、图片特征、以及图像特征f_i和聚合后的事件特征f_e’拼接后的特征,得到最终的插帧结果图。

10、本发明利用事件流提供的丰富的时域信息对物体的运动进行了补充,同时直接对事件点进行卷积减少了计算冗余,提高了插帧效率。本发明插帧图片中运动物体的中间时刻位置恢复得准确,形状完整,边缘锋利,出现的伪影较少。

11、提取两张图片i0、i1的特征,得到图像特征f_i的具体实现过程包括:

12、将图片i0和图片i1分别输入上采样单元,得到第一上采样特征和第二上采样特征;

13、连接所述第一上采样特征和第二上采样特征;

14、将连接后的特征输入残差卷积模块,得到第三特征;

15、将所述第三特征输入下采样单元,得到图像特征f_i。

16、本发明图像特征提取模块采用u-net网络结构,扩大了底部卷积层感受野,同时减少了计算量,适合提取有更大位移的运动信息。

17、提取中间事件流e的特征,得到事件特征f_e的具体实现过程包括:

18、将中间事件流e的时间维与缩放因子相乘,得到缩放中间事件流;所述中间事件流e包括n个长度为4的向量,每个向量的不同位置上的值分别为时间戳、空间位置坐标的横坐标、空间位置坐标的纵坐标、极性;

19、对于缩放中间事件流中的每个事件点的前三维,通过k近邻搜索的方法找到k个最近邻点;每个事件点的前三维是指时间戳、空间位置坐标的横坐标、空间位置坐标的纵坐标;

20、将缩放中间事件流的所有事件点对应的k个最近邻点的位置特征、缩放中间事件流所有事件点的极性作为第一下采样卷积模块的输入;

21、对缩放中间事件流中的每个事件点的前三维进行第一次下采样,搜索第一次下采样后的每个事件点的最近邻点;

22、将第一次下采样后的所有事件点的最近邻点的位置特征、所述第一下采样卷积模块的输出作为第二下采样卷积模块的输入;

23、对第二次下采样后的特征进行第二次下采样,搜索第二次下采样后的每个事件点的最近邻点;

24、将第二次下采样后的所有事件点的最近邻点的位置特征、所述第二下采样卷积模块的输出作为第三下采样卷积模块的输入;

25、依此类推,直至将最后一次下采样,即第m次下采样后的所有事件点的最近邻点的位置特征、第m-1下采样卷积模块的输出作为第m下采样卷积模块的输入;

26、对第m下采样卷积模块的输出进行插值,将插值后的结果作为第一上采样卷积模块的输入,对第一上采样卷积模块的输出进行插值,插值后的结果作为第二上采样卷积模块的输入,依此类推,直至对最后一个上采样卷积模块的输出进行插值,得到事件特征f_e。

27、本发明直接对事件点进行卷积,保持了事件点的稀疏性,同时提取到丰富的运动特征。

28、所述下采样卷积模块包括多个级联的编码层,最后一个编码层与特征连接层连接;所述特征连接层与第一多层感知机连接;所述第一多层感知机的输出与第一个编码层的输入经第二多层感知机后的输出累加,累计后的结果输入非线性激活层。本发明的下采样卷积模块可以通过不断减少事件点的总数而增大邻点域的范围,扩大感受野,同时减少计算量。

29、所述编码层对输入的特征进行包括如下步骤的处理:

30、对每个事件点的最近邻点的位置特征进行归一化,归一化后的结果进行插值操作;

31、连接输入的事件特征和归一化后的结果,连接后的特征输入第三多层感知机;

32、将插值操作得到的特征与第三多层感知机的输出进行点乘,对点乘后的结果进行累加。

33、本发明编码层将事件的邻点位置进行编码构成卷积核,实现空间不规则事件点的卷积。

34、本发明中,所述上采样卷积模块采用多层感知机。

35、对事件特征f_e进行时域上的聚合,得到聚合后的事件特征f_e’的具体实现过程包括:

36、离散化所述事件特征的时间戳,得到离散化后的事件特征向量;

37、对离散化后的事件特征向量、空间注意力图、时间注意力向量进行注意力加权,得到注意力加权后的特征;所述空间注意力图为提取两张图片i0、i1的特征时获得的注意力特征;所述时间注意力向量为提取中间事件流e的特征时获得的注意力向量;

38、将所述注意力加权后的特征转换为三维空间中的事件特征;

39、将所述三维空间中的事件特征作为卷积聚合模块的输入,得到聚合后的事件特征f_e’;

40、其中,所述卷积聚合模块包括多个依次连接的三维卷积层。

41、本发明实现了不规则的点特征对空间网格形状特征的转换,通过注意力加权与卷积聚合模块,尽可能地保留了时域信息。

42、步骤s3的具体实现过程包括:

43、拼接图像特征f_i和聚合后的事件特征f_e’;

44、将拼接后的特征输入残差卷积模块,得到两边帧到中间帧的光流图。

45、残差卷积模块包括:

46、多个级联的输入单位卷积块;

47、最后一个单位卷积块输出的特征经卷积处理后,与第一个单位卷积块的输入进行拼接;

48、拼接后的特征通过激活函数输入输出单位卷积块;

49、所述输入单位卷积块和输出单位卷积块结构相同;

50、所述输入单位卷积块包括依次连接的第一卷积层、第一激活函数、第二卷积层、第二激活函数;第一卷积层的输入与第二卷积层的输出为所述第二激活函数的输入。

51、本发明残差卷积模块中添加了跳跃连接的设计,结构比与普通卷积更加紧凑高效。

52、与现有技术相比,本发明所具有的有益效果为:本发明能将事件的优势融入网络中,解决了现有技术将高效存储的事件转换成了稀疏排列的矩阵,造成了网络参数量大和计算量存在冗余的问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1