基于置信度引导的解耦传播与级联优化光流估计方法

文档序号:36414648发布日期:2023-12-19 12:31阅读:41来源:国知局
基于置信度引导的解耦传播与级联优化光流估计方法

本发明涉及计算机视觉与模式识别技术,具体涉及一种基于置信度引导的解耦传播与级联优化光流估计方法。


背景技术:

1、光流估计任务是在给定一对相邻帧或一组具有视角、物体位移等差异的图片时,求解每个像素点的光流矢量,从而分析视频中的物体、相机、场景的运动状态。3光流估计在自动驾驶、视频压缩、视频插帧、场景重建、场景分割、目标识别、物体跟踪等基于视频的下游任务中具有重要的应用价值。4 传统的光流估计方法主要基于差分法,利用图像亮度不变假设和空间平滑假设构建能量函数,通过最小化能量函数求解光流场。这类方法虽然简单高效,但是对于弱纹理区域、遮挡区域、物体形变区域等难以匹配的情况,往往无法得到准确的光流结果。近年来,随着深度学习技术的发展,基于深度神经网络的光流估计方法取得了显著的进步。这类方法通过端到端训练的卷积神经网络直接从图像对中预测光流场,可以学习到更丰富的图像特征和运动模式,提高了光流估计的准确性和鲁棒性。

2、为了得到精准的光流预测结果,文献(dosovitskiy a, fischer p, ilg e, etal. flownet: learning optical flow with convolutional networks[c]//proceedings of the ieee international conference on computer vision. 2015:2758-2766.)首次将端到端训练的u-net卷积神经网络用于光流估计,该方法包含flownets和flownetc两个网络,分别通过直接堆叠前后两张图片以及先分别提取两张图片特征、再通过卷积计算特征图相关性的方式对图片进行编码操作,但flownet依然使用传统的变分优化方法对输出结果进行优化。文献(sun d, yang x, liu m y, et al. pwc-net: cnnsfor optical flow using pyramid, warping, and cost volume [c]//proceedings ofthe ieee conference on computer vision and pattern recognition. 2018: 8934-8943.)在光流估计的网络中引入空间金字塔(spacial pyrimid)结构,从低分辨率到高分辨率的网络层分别用于处理从大位移到小位移的运动,通过构建“代价体”(cost volume)的方式直接将扭曲操作应用于特征图匹配和上采样、光流优化的各个金字塔层级中,实现了超越以往cnn光流模型准确度的同时显著降低了模型大小和推理时间。文献(teed z,deng j. raft: recurrent all-pairs field transforms for optical flow[c]//computer vision–eccv 2020: 16th european conference, glasgow, uk, august 23–28, 2020, proceedings, part ii 16. springer international publishing, 2020:402-419.)首次将循环神经网络(recurrent neural network, rnn)应用于光流场预测的迭代更新,通过共享参数的gru迭代更新光流场,网络输出1/8图像分辨率大小的光流图,再经上采样模块采样至完整分辨率,该方法在常用的光流评测数据集上表现出良好的泛化能力。文献x将光流任务视为全局匹配任务,通过transformer模块对两张图片的特征图做特征增强,并构建全局相似度矩阵,再直接通过softmax操作得到光流预测结果。这类光流预测方法虽然通过引入不同的网络结构提高了光流预测的精度,但图像中具有无序快速运动、低纹理区域和严重遮挡的物体使得光流估计结果在这些难以匹配的区域中很不准确,些算法在当前主流的光流任务评测数据集上的评测指标仍有很大的提升空间。为了进一步提高光流估计的准确度和泛化性,本发明提出了一种基于置信度引导的解耦传播与级联优化光流估计的模型架构。


技术实现思路

1、本发明要克服现有技术中光流估计在遮挡区域、弱纹理区域、运动模糊等极端情况下不准确的缺点,提出一种基于置信度引导的解耦传播与级联优化光流估计算法。

2、本发明采用深度神经网络作为光流估计模型,将输入的两帧图像转换为稠密的光流场,即每个像素点在两帧图像之间的运动位移。从而有效地分析视频中的物体、相机、场景的运动方向、运动速度、运动趋势等信息,对于自动驾驶、视频压缩、视频插帧、场景重建等基于视频的下游任务具有重要意义。

3、本发明的基于置信度引导的解耦传播与级联优化光流估计算法,包括如下步骤:

4、步骤1:获取当前帧和后一帧图像数据;

5、步骤2:将图像数据输入图像特征提取网络,得到多尺度图像特征;

6、步骤3:将多尺度特征图输入到transformer特征增强网络,得到增强后的特征图;

7、步骤4:将特征图输入全局匹配模块,得到初始的光流场和全局匹配的相关性矩阵;

8、步骤5:将初始的光流场输入置信度预测模块,得到有效区域掩码;

9、步骤6:将初始的光流场和有效区域掩码输入解耦传播模块,得到经解耦传播后的光流场;

10、步骤7:将解耦后的光流场输入自适应的光流初始化模块,得到自适应初始化的光流;

11、步骤8:将自适应初始化的光流输入级联优化模块,得到最终的光流场。

12、所述的步骤2具体流程如下所示:

13、步骤2-1:使用多层卷积神经网络对图像进行编码操作,得到不同尺度的图像特征;

14、步骤2-2:使用上采样和跳跃连接操作对图像特征进行融合操作,得到更高分辨率和更丰富语义信息的图像特征;最终的多尺度特征图表示为。

15、所述的步骤3具体流程如下所示:

16、步骤3-1:将图像的多尺度特征图经过位置编码算法加入序列化的位置编码信息。

17、步骤3-2:将经过位置编码的特征输入到transformer模块,通过l层swintransformer进行特征增强,得到增强后的特征图。

18、所述的步骤4具体流程如下所示:

19、步骤4-1:将增强后的两个特征进行矩阵乘法,得到一个四维的相关性张量(correlation volume):。

20、步骤4-2:对相关性张量进行softmax操作,得到两张特征图之间每个坐标点的全局匹配概率。

21、步骤4-3:构建一个大小的二维标准坐标网格。

22、步骤4-4:将与相减得到一个粗糙的起始的光流场。

23、步骤4-5:对正向与反向的光流场应用前后一致性检测操作,计算一个前后一致性差异。

24、所述的步骤5具体流程如下所示:

25、步骤5-1:通过起始光流场、全局相关性信息、上下文特征和图像域误差图输入到一个三个卷积层、两个批标准化(batchnorm)层和两个 leakyrelu激活函数组成的卷积神经网络模块中,预测出一个光流置信度。

26、步骤5-2:通过一个置信度阈值对进行阈值操作,得到一个有效区域掩码。

27、所述的步骤6具体流程如下所示:

28、步骤6-1:将初始的光流场和有效区域掩码输入解耦传播模块,通过矩阵乘法操作将进行解耦,得到有效区域的和非有效区域的。

29、步骤6-2:对和分别应用注意力机制,计算出不同区域的注意力分数并通过 softmax 操作将其转换成概率矩阵、,最后对两部分对应的的光流场进行二阶段的解耦传播,得到传播后的光流。

30、所述的步骤7具体流程如下所示:

31、步骤7-1:通过对第二帧对应的特征图进行空间变换操作,得到变换后的特征图。

32、步骤7-1:将前后一致性差异、视图融合的误差图、空间变换后的特征图输入自适应的光流初始化模块,经过两层的卷积处理后,采用的卷积将特征通道数压缩为 1,最后通过 sigmoid 函数计算出自适应权重。

33、步骤7-1对原始的稠密初始化流与该自适应权重相乘后得到修正后的稠密光流。

34、所述的步骤8具体流程如下所示:

35、步骤8-1:将初始光流、上下文特征输入到1/8分辨率尺度的gru迭代优化模块,进行2次的光流迭代更新,得到。

36、步骤8-2:将、通过双线性插值上采样到1/4分辨率大小,输入到1/4分辨率尺度的gru迭代优化模块,进行2次的光流迭代更新,得到最终的光流结果。

37、本发明的优点是:1、本发明提出了一种基于解耦机制的光流传播方法,将遮挡区域、匹配区域进行显式地解耦传播,并给出了二次传播机制,提高了模型的光流估计的准确度;

38、2、本发明提出了一种基于光流置信度预测的解耦传播优化方法,在解耦传播的基础上,进一步通过可学习的方式在网络中引入了评估自身光流估计结果的稠密置信度预测,既能够更有效地为光流结果优化提供指引,也能为下游任务提供一个更灵活的置信度输入;

39、3、本发明提出了基于级联优化的光流迭代优化算法,自适应的光流初始化模块和基于级联gru模块的光流迭代算法使得光流初值能够自适应地提供更准确的、符合实际物体运动趋势的优化方向指引,同时能够在不同尺度上对光流场应用级联的多个循环神经网络进行迭代优化,进一步提升了光流估计的整体准确性和鲁棒性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1