光流估计方法和装置与流程

文档序号:33819131发布日期:2023-04-19 18:34阅读:26来源:国知局
光流估计方法和装置

本技术涉及计算机视觉,更具体地,涉及一种光流估计方法和装置。


背景技术:

1、在计算机视觉中,光流扮演着非常重要的角色。由于光流包含了对象的潜在的运动信息,因而在视频目标检测、目标分割、行为识别、目标跟踪、机器人导航以及形状信息恢复等方面都有着非常重要的应用。

2、为了提高光流估计的精度,现有的光流估计方法通过将变形器(transformer)引入光流估计任务来提取大量的上下文特征,以减少图像中存在重复纹理、无纹理区域、大位移以及遮挡等场景所引起的光流预测的局部模糊。然而transformer结构导致计算量和内存消耗大,而光流估计的应用场景主要集中在一些资源受限的终端设备中,因此需要平衡计算量与光流估计的精度。

3、为了降低计算量,可通过轴向分离注意力机制来优化图像的特征矩阵。具体地,针对图像的宽度轴(width-axis)和高度轴(height-axis)分别建立一维的标准多头自注意力(multi-head self-attention,msa)层,两个轴向注意力层分别沿着水平(或宽度)轴向和垂直轴向进行注意力计算。然而,虽然这种注意力计算机制可降低计算量,但是,基于这种注意力计算机制更新的图像特征是正交的,并且每一行(列)在水平(垂直)轴向的注意力是相互独立的,这样相互独立的特征不利于获取图像的全局上下文信息。这会降低光流估计的精度。

4、因此,如何提高光流估计的精度是亟待解决的问题。


技术实现思路

1、本发明的目的在于提供一种存储装置的光流估计方法和装置,所述光流估计方法和装置能够提高光流估计的精度和/或降低光流估计的计算量以提高光流估计效率。

2、根据本发明的示例性实施例的一方面,提供一种光流估计方法,可包括:对于两个图像中的每个图像,将已训练的第一行矢量加入由特征编码器从所述每个图像提取的所述每个图像的源图像特征图,并将加入了所述第一行矢量的所述每个图像的源图像特征图输入所述每个图像对应的第一多头注意力模块获取融合了所述每个图像的行关系信息的所述每个图像的第一水平轴向分离融合注意力特征图;基于所述每个图像的第一水平轴向分离融合注意力特征图和所述每个图像的源图像特征图获取所述每个图像的第一注意力特征图;将已训练的第一列矢量加入所述每个图像的第一注意力特征图,并将加入了所述第一列矢量的所述每个图像的第一注意力特征图输入所述每个图像对应的第二多头注意力模块,获取融合了所述每个图像的行关系信息和列关系信息的所述每个图像的第一垂直轴向分离融合注意力特征图;基于所述每个图像的第一垂直轴向分离融合注意力特征图和所述每个图像的第一注意力特征图获取所述每个图像的第二注意力特征图;基于所述两个图像的第二注意力特征图,获取所述两个图像的光流估计。

3、根据本公开的实施例,通过引入可学习矢量,可获得关于图像的行关系信息和列关系信息,在基于水平(或垂直)轴向分离注意力计算机制优化特征图的基础上,利用图像的行关系信息和列关系信息进一步优化特征图,这样获得的特征图可更好地反应图像的行之间以及列之间的关系,从而更好地反映图像的全局信息。

4、可选地,所述基于所述两个图像的第二注意力特征图,获取所述两个图像的光流估计的步骤可包括:针对所述两个图像中的第一图像,将已训练的第二行矢量加入所述第一图像的第二注意力特征图和所述两个图像中的第二图像的源图像特征图,并将加入了所述第二行矢量的所述第一图像的第二注意力特征图和第二图像的源图像特征图输入第一图像对应的第三多头注意力模块,获取还融合了第二图像的行关系信息的所述第一图像的第二水平轴向分离融合注意力特征图;基于所述第一图像的第二水平轴向分离融合注意力特征图和所述第一图像的第二注意力特征图,获取所述第一图像的第三注意力特征图;将已训练的第二列矢量加入所述第一图像的第三注意力特征图,并将加入了所述第二列矢量的所述第一图像的第三注意力特征图输入第一图像对应的第四多头注意力模块,获取还融合了第二图像的列关系信息的所述第一图像的第二垂直轴向分离融合注意力特征图;基于所述第一图像的第二垂直轴向分离融合注意力特征图和所述第一图像的第三注意力特征图,获取所述第一图像的第四注意力特征图;针对第二图像,将已训练的第二行矢量加入所述第二图像的第二注意力特征图和第一图像的源图像特征图和所述两个图像中的第二图像的源图像特征图,并将加入了所述第二行矢量的所述第二图像的第二注意力特征图和第一图像的源图像特征图输入第二图像对应的第三多头注意力模块,获取还融合了第一图像的行关系信息的所述第二图像的第二水平轴向分离融合注意力特征图;基于所述第二图像的第二水平轴向分离融合注意力特征图和所述第二图像的第二注意力特征图,获取所述第二图像的第三注意力特征图;将已训练的第二列矢量加入所述第二图像的第三注意力特征图,并将加入了已训练的第二列矢量的所述第二图像的第三注意力特征图输入第二图像对应的第四多头注意力模块,获取还融合了第一图像的列关系信息的所述第二图像的第二垂直轴向分离融合注意力特征图;基于所述第二图像的第二垂直轴向分离融合注意力特征图和所述第二图像的第三注意力特征图,获取所述第二图像的第四注意力特征图;基于所述两个图像的第四注意力特征图,获取所述两个图像的光流估计。

5、根据本公开的实施例,进一步引入交叉注意力计算,获得的特征图可更好地反映两张图像的关联,从而基于获得的特征图可更准确地获得光流估计。

6、可选地,将已训练的第一行矢量加入由特征编码器从所述每个图像提取的所述每个图像的源图像特征图,并将加入了所述第一行矢量的所述每个图像的源图像特征图输入所述每个图像对应的第一多头注意力模块获取融合了所述每个图像的行关系信息的所述每个图像的第一水平轴向分离融合注意力特征图的步骤包括:将所述第一行矢量和所述每个图像的源图像特征图进行拼接concatenate操作;将concatenate操作结果输入所述每个图像对应的第一多头注意力模块,获取所述每个图像的第一水平轴向分离注意力可学习矢量特征图;从所述每个图像的第一水平轴向分离注意力可学习矢量特征图分离出所述每个图像的第一水平轴向分离注意力特征图和第一行信息图;基于所述每个图像的第一行信息图获取所述每个图像的行关系信息图,并基于所述每个图像的行关系信息图和所述每个图像的第一水平轴向分离注意力特征图,获取融合了所述每个图像的行关系信息的所述每个图像的第一水平轴向分离融合注意力特征图。

7、可选地,将已训练的第一列矢量加入所述每个图像的第一注意力特征图,并将加入了所述第一列矢量的所述每个图像的第一注意力特征图输入所述每个图像对应的第二多头注意力模块,获取融合了所述每个图像的行关系信息和列关系信息的所述每个图像的第一垂直轴向分离融合注意力特征图的步骤包括:将所述第一列矢量和所述每个图像的第一注意力特征图进行拼接concatenate操作;将concatenate操作结果输入所述每个图像对应的第二多头注意力模块,获取所述每个图像的第一垂直轴向分离注意力可学习矢量特征图;从所述每个图像的第一垂直轴向分离注意力可学习矢量特征图分离出所述每个图像的第一垂直轴向分离注意力特征图和第一列信息图;基于所述每个图像的第一列信息图获取所述每个图像的列关系信息图,并基于所述每个图像的列关系信息图和所述每个图像的第一垂直轴向分离注意力特征图,获取融合了所述每个图像的行关系信息和列关系信息的所述每个图像的第一垂直轴向分离融合注意力特征图。

8、可选地,可基于以下等式获取每个图像的行关系信息图或列关系信息图relation_map:

9、

10、其中,proj(·)表示线性投影,info_map指示行信息图或者列信息图,cnum指示通道数。

11、根据本公开的实施例的另一方面,提供了一种光流估计方法,可包括:将第一图像的图像特征矩阵中的特征划分为多个子集;从第二图像的图像特征矩阵中确定与所述多个子集中的每个子集中的特定特征最相关的k个特征;计算所述每个子集与所述每个子集对应的k个特征的相关性以获得第一图像和第二图像的像素点匹配损失矩阵;基于所述像素点匹配损失矩阵,获取一图像和第二图像的的光流估计。

12、可选地,所述划分步骤包括:对第一图像的图像特征矩阵中的特征执行聚类以将第一图像的图像特征矩阵中的特征划分为多个簇;所述确定步骤包括:在第二图像的图像特征矩阵中确定与所述多个簇中的每个簇的簇中心特征最相关k个特征;所述获得步骤包括:计算所述每个簇与所述每个簇对应的所述k个特征中的相关性以获得所述像素点匹配损失矩阵。根据本公开的实施例,通过在第一图像的图像特征矩阵中为第二图像的图像特征矩阵中的簇中心特征寻找最相关的k个像素来计算像素点匹配损失矩阵,不仅可提高损失矩阵的计算精度,而且可减少计算量。

13、根据本公开的实施例的另一方面,提供了一种光流估计装置,包括:第一水平轴向注意力单元,被配置为:对于两个图像中的每个图像,将已训练的第一行矢量加入由特征编码器从所述每个图像提取的所述每个图像的源图像特征图,并将加入了所述第一行矢量的所述每个图像的源图像特征图输入所述每个图像对应的第一多头注意力模块获取融合了所述每个图像的行关系信息的所述每个图像的第一水平轴向分离融合注意力特征图,基于所述每个图像的第一水平轴向分离融合注意力特征图和所述每个图像的源图像特征图获取所述每个图像的第一注意力特征图;第一垂直轴向注意力单元,被配置为:将已训练的第一列矢量加入所述每个图像的第一注意力特征图,并将加入了所述第一列矢量的所述每个图像的第一注意力特征图输入所述每个图像对应的第二多头注意力模块,获取融合了所述每个图像的行关系信息和列关系信息的所述每个图像的第一垂直轴向分离融合注意力特征图,基于所述每个图像的第一垂直轴向分离融合注意力特征图和所述每个图像的第一注意力特征图获取所述每个图像的第二注意力特征图;获取单元,被配置为:基于所述两个图像的第二注意力特征图,获取所述两个图像的光流估计。

14、可选地,所述获取单元可被配置为:针对所述两个图像中的第一图像,将已训练的第二行矢量加入所述第一图像的第二注意力特征图,所述两个图像中的第二图像的源图像特征图,并将加入了所述第二行矢量的所述第一图像的第二注意力特征图和第二图像的源图像特征图输入第一图像对应的第三多头注意力模块,获取还融合了第二图像的行关系信息的所述第一图像的第二水平轴向分离融合注意力特征图;基于所述第一图像的第二水平轴向分离融合注意力特征图和所述第一图像的第二注意力特征图,获取所述第一图像的第三注意力特征图;将已训练的第二列矢量加入所述第一图像的第三注意力特征图,并将加入了所述第二列矢量的所述第一图像的第三注意力特征图输入第一图像对应的第四多头注意力模块,获取还融合了第二图像的列关系信息的所述第一图像的第二垂直轴向分离融合注意力特征图;基于所述第一图像的第二垂直轴向分离融合注意力特征图和所述第一图像的第三注意力特征图,获取所述第一图像的第四注意力特征图;针对第二图像,将已训练的第二行矢量加入所述第二图像的第二注意力特征图和第一图像的源图像特征图,并将加入了所述第二行矢量的所述第二图像的第二注意力特征图和第一图像的源图像特征图输入第二图像对应的第三多头注意力模块,获取还融合了第一图像的行关系信息的所述第二图像的第二水平轴向分离融合注意力特征图;基于所述第二图像的第二水平轴向分离融合注意力特征图和所述第二图像的第二注意力特征图,获取所述第二图像的第三注意力特征图;将已训练的第二列矢量加入所述第二图像的第三注意力特征图,并将加入了已训练的第二列矢量的所述第二图像的第三注意力特征图输入第二图像对应的第四多头注意力模块,获取还融合了第一图像的列关系信息的所述第二图像的第二垂直轴向分离融合注意力特征图;基于所述第二图像的第二垂直轴向分离融合注意力特征图和所述第二图像的第三注意力特征图,获取所述第二图像的第四注意力特征图;基于所述两个图像的第四注意力特征图,获取所述两个图像的光流估计。

15、可选地,第一水平轴向注意力单元可被配置为:将所述第一行矢量和所述每个图像的源图像特征图进行拼接concatenate操作;将concatenate操作结果输入所述每个图像对应的第一多头注意力模块,获取所述每个图像的第一水平轴向分离注意力可学习矢量特征图;从所述每个图像的第一水平轴向分离注意力可学习矢量特征图分离出所述每个图像的第一水平轴向分离注意力特征图和第一行信息图;基于所述每个图像的第一行信息图获取所述每个图像的行关系信息图,并基于所述每个图像的行关系信息图和所述每个图像的第一水平轴向分离注意力特征图,获取融合了所述每个图像的行关系信息的所述每个图像的第一水平轴向分离融合注意力特征图。

16、可选地中,第一垂直轴向注意力单元可被配置为:将所述第一列矢量和所述每个图像的第一注意力特征图进行拼接concatenate操作;将concatenate操作结果输入所述每个图像对应的第二多头注意力模块,获取所述每个图像的第一垂直轴向分离注意力可学习矢量特征图;从所述每个图像的第一垂直轴向分离注意力可学习矢量特征图分离出所述每个图像的第一垂直轴向分离注意力特征图和第一列信息图;基于所述每个图像的第一列信息图获取所述每个图像的列关系信息图,并基于所述每个图像的列关系信息图和所述每个图像的第一垂直轴向分离注意力特征图,获取融合了所述每个图像的行关系信息和列关系信息的所述每个图像的第一垂直轴向分离融合注意力特征图。

17、可选地,可基于以下等式获取每个图像的行关系信息图或列关系信息图relation_map:

18、

19、其中,proj(·)表示线性投影,info_map指示行信息图或者列信息图,cnum指示通道数。

20、根据本公开的实施例的另一方面,提供了一种光流估计装置,可包括:划分单元,被配置为:将第一图像的图像特征矩阵中的特征划分为多个子集;确定单元,被配置为:从第二图像的图像特征矩阵中确定与所述多个子集中的每个子集中的特定特征最相关的k个特征;计算单元,被配置为:计算所述每个子集与所述每个子集对应的k个特征的相关性以获得第一图像和第二图像的像素点匹配损失矩阵;获取单元,被配置为:基于所述像素点匹配损失矩阵,获取一图像和第二图像的的光流估计。

21、可选地,划分单元可被配置为:对第一图像的图像特征矩阵中的特征执行聚类以将第一图像的图像特征矩阵中的特征划分为多个簇;确定单元可被配置为:在第二图像的图像特征矩阵中确定与所述多个簇中的每个簇的簇中心特征最相关k个特征;获得单元可被配置为:计算所述每个簇与所述每个簇对应的所述k个特征中的相关性以获得所述像素点匹配损失矩阵。

22、根据本公开的实施例的另一方面,提供了一种存储有计算机程序的计算机可读存储介质,其中,当所述计算机程序被处理器执行时使得所述处理器执行如上所述的光流估计方法。

23、据本公开的实施例的另一方面,提供了一种电子装置,可包括:处理器;存储器,存储有计算机程序,当所述计算机程序被处理器执行时使得所述处理器执行如上所述的光流估计方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1