一种第一人称视角无人机视频显著性预测方法及系统

文档序号:37280851发布日期:2024-03-12 21:19阅读:26来源:国知局
一种第一人称视角无人机视频显著性预测方法及系统

本发明涉及视频显著性预测领域,特别涉及一种基于相机运动信息以及第一人称视角先验信息的第一人称视角无人机视频显著性预测技术方案。


背景技术:

1、在观察一个场景时,人类的视觉系统会从接收到的大量信息中快速地,有选择性地识别出最吸引人注意的部分,而不是对所有区域的信息进行处理。即使在复杂的环境中,人类也能迅速将注意力集中在场景中重要的部分。这称为视觉注意力机制,场景中能够吸引人视觉系统注意力的区域称为显著性区域。理解和建模这种机制以预测视频中哪些区域更加吸引人类注意力就是视频显著性的研究内容。通过将人类视觉注意力机制应用于视频处理领域,可以协助计算机对视频中的信息进行有选择的处理。它能够使计算机将有限的计算资源优先分配给更加重要的区域,这将极大提高视频处理方法的工作效率。

2、在过去几十年中,无人机技术取得了快速发展,并在火灾检测、野生动物统计、环境保护和新闻报道等关键领域得到了广泛应用。因此,对于分析无人机图像和视频的计算机视觉研究需求不断增加。与传统视频相比,无人机视频具有几个明显的特点。首先,大多数无人机视频是从鸟瞰角度拍摄的,导致对象的外观、形状、大小和其他特征与传统视频有很大的差异。其次,无人机视频的背景通常复杂且场景信息丰富,涵盖多样的景观。第三,无人机视频通常涉及较少的手动编辑和场景切换,相邻帧之间的变化相对较小。这些无人机视频的特性可能会影响人类对视频中内容的注意力。

3、最近,一种新型无人机变得越来越受欢迎,被称为第一人称视角无人机。这些无人机配备了实时图像传输功能,使用户可以佩戴飞行眼镜(一种头戴显示设备),体验到像自己在空中飞行一样控制无人机的沉浸感。第一人称无人机视频与传统无人机视频相比呈现出明显的差异:(1)拍摄角度:与传统无人机视频的典型鸟瞰角度不同,第一人称无人机视频提供了更多样化的视角,包括平视和仰视。(2)相机运动模式:传统无人机通常提供有限的相机运动模式。相比之下,第一人称无人机视频展示了更广泛的相机运动模式,例如加速、刹车、旋转和升降。第一人称目前在电影中被广泛应用,使观众可以从演员的视角观察场景。

4、在过去的几十年里,视频显著性预测从传统使用手工特征的显著性预测算法到利用深度学习方法的模型,其预测准确性方面取得了明显提高。但是现有的主流视频显著性预测方法针对的都是传统视频,并且视频都是在lcd显示屏上播放的,但这与第一人称视角无人机的拍摄与观看方式是存在差异的。此外目前视频显著性预测方法中大多数采用中心先验。但对第一人称视角无人机视频的眼动追踪实验结果的分析中可以看到观看第一人称视角视频时,人们往往会倾向于观看中心偏下方的部分并且水平和竖直方向上的方差是不同的,因此中心先验无法适用。同时相机运动也会影响人们的注意力,例如当无人机向左旋转时,人们更倾向于注意画面左半部分的内容,向右旋转同理。因此,基于相机运动以及第一人称视角先验信息的视频显著性预测方法得到的预测结果将更贴合人类在真实场景下的观看第一人称视角无人机视频的状态。相比于已经成熟的传统视频显著性预测方法,针对第一人称视角无人机视频的显著性预测方法的研究方兴未艾。且相机运动信息在视频显著性任务中的运用还很少,因此,如何合理地利用相近运动进行第一人称视角无人机视频显著性预测,是当前本技术领域的一个重要挑战。


技术实现思路

1、由于人们在拍摄和观看第一人称视角无人机视频时通过佩戴vr头盔进行沉浸式观看,而目前大部分视频显著性预测方法只针对在lcd显示屏上播放的传统视频,这些方法可以较好地预测传统视频例如(电影,短视频)中感兴趣的区域,但很难预测第一人称视角无人机视频。同时,第一人称无人机视频中存在着相机运动影响人类注视区域的现象,可以使用相机运动信息帮助显著性预测,并且已有的方法往往采用中心先验,但在观看第一人称视角视频时并不适用。本发明针对这一现状,提供了一种基于相机运动以及第一人称视角先验信息的第一人称无人机视频显著性预测技术方案。

2、本发明提供的技术方案提供一种第一人称视角无人机视频显著性预测方法,基于相机运动信息以及第一人称视角先验信息,进行第一人称无人机视频显著性预测,实现方式包括首先基于输入的若干连续视频帧,通过运动恢复结构方式计算出每一帧的旋转矩阵;同时将视频帧送入显著性基础特征提取模块,所得到的输出继续送入时空特征提取模块中的时间编码器和空间编码器中,将两个编码器的输出相加并送入2d卷积层中整合后,与显著性基础特征提取模块的输出相加得到时空特征提取模块的输出;将时空特征提取模块的输出与运动恢复结构所计算出的旋转矩阵作为相机运动模块的输入,并将相机运动模块的输出送入第一人称视角先验模块;将第一人称视角先验模块的输出送入时序平均模块,再将结果送入解码器中,最终得到显著性预测图。

3、而且,第一人称无人机视频显著性预测实现过程包括如下步骤,

4、步骤1,将需要预测的视频帧通过运动恢复结构方式得到相机运动的四元数,并进一步处理得到每一帧旋转矩阵,对视频帧进行预处理;

5、步骤2,构建显著性基础特征提取模块,用于提取视频帧的基础显著性特征;

6、步骤3,构建时空特征提取模块,所述时空特征提取模块中,时间编码器从多个连续视频帧提取帧间的时间特征,空间编码器从视频帧中提取空间特征,并融合时间特征与空间特征,得到时空特征;

7、步骤4,构建相机运动模块,将步骤1通过运动恢复结构方式得到的旋转矩阵送入相机运动模块中用于提取相机运动信息,并与步骤3所得时空特征自适应融合;

8、步骤5,构建第一人称视角先验模块,所述第一人称视角先验模块中,通过对数据的统计,生成第一人称视角先验图,并将多尺度的先验图与基于相机运动的时空显著性特征融合;

9、步骤6,构建时序平均模块,使预测得到的显著图在时间维度上更加平滑;

10、步骤7,利用解码器将显著性特征整合成单通道显著性图;

11、步骤8,对由步骤2-步骤6构建的整体模型进行训练;

12、步骤9,利用训练好的整体模型实现视觉显著性预测。

13、而且,所述构建显著性基础特征提取模块的实现方式如下,

14、基于mobilenet-v2模型进行改进,将mobilenet-v2模型中最后的空间池化层换成带孔金字塔池化层,以获得多尺度的特征用来提取不同尺寸的显著性物体的特征,而后使用mobilenet-v2最后三个卷积层的特征进行特征融合,得到显著性基础特征fx,x为输入视频帧序号。

15、而且,所述时空特征提取模块提取时空特征的实现方式如下,

16、当视频帧xi经过显著性基础特征提取模块得到特征fi后,输入空间编码器,在空间编码器中通过深度可分离卷积层来整合fi中不同抽象层次的空间特征,得到空间显著性特征

17、当n个连续视频帧x1,x2,…,xn通过n个并行的显著性基础特征提取模块,输入时间编码器后,在时间编码器中将从显著性基础特征提取模块得到的n个相应特征连接起来,首先通过一个卷积层降维,接下来采用bi-sub算子计算当前帧特征与前后帧特征之差,得到时序差异特征;设置最后一个卷积层用于特征升维,使得输入和输出特征维度相同,最终输出时间显著性特征x1,x2,…,xn的时间遍码器输出共用这一个输出;

18、计算得到时间域特征和空间域特征后,采用逐元素加法进行特征融合,同时使用1×1卷积层进一步整合时空特征,并将该特征使用残差连接方式叠加到显著性基础特征fi上得到时空显著性特征

19、而且,所述相机运动模块中,

20、将每一帧的旋转矩阵通过两个连续的全连接层得到相机运动特征并将时空显著性特征在空间维度上全局平均池化得到池化特征将相机运动特征与池化特征在通道维度上叠加,并使用一个全连接层和sigmoid激活函数得到各通道相对应的权重w;最后将时空显著性特征与权重w逐通道相乘,得到基于相机运动的时空显著性特征

21、而且,所述第一人称视角先验模块中,

22、首先对数据集中的注视点进行统计,得到注视点位置坐标在水平和竖直方向上的均值μx,μy和方差σx,σy;根据统计得到的结果生成八张均值相同但方差不同的先验图,使用两个2d卷积层对先验图进行整和,并于基于相机运动的时空显著性特征在通道维度上叠加,并使用一个2d卷积层进行特征整合得到基于相机运动与第一人称视角先验的时空显著性特征

23、而且,所述时序平均模块中,

24、将现在时刻的时空显著性特征与上一时刻时序平均模块的输出分别送入一卷积层,并将卷积层的输出相加,然后利用sigmoid激活函数得到权重w,最后将权重与现在时刻的时空显著性特征逐元素相乘,(1-w)与上时刻的时序平均模块输出逐元素相乘,再将两部分相乘结果相加得到现在时刻的时序平均模块输出。

25、另一方面,本发明还提供一种第一人称视角无人机视频显著性预测系统,用于实现如上所述的一种第一人称视角无人机视频显著性预测方法。

26、或者,包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的存储指令执行如上所述的一种第一人称视角无人机视频显著性预测方法。

27、或者,包括可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序执行时,实现如上所述的一种第一人称视角无人机视频显著性预测方法。

28、本发明所提出的基于相机运动以及第一人称视角先验信息的第一人称视角无人机视频显著性预测方案采用级联架构来提高显著性预测的准确度。为了有效提取与显著性相关的视觉时间特征、视觉空间特征并利用相机运动作为先验信息提升预测的准确度,提出了一种全新的结构,其中设置显著性特征提取模块从视频帧中提取基础的显著性特征,时空特征提取模块由两个编码器组成:时间编码器从多个连续视频帧提取帧间的时间特征,空间编码器从视频帧中提取空间特征;并设计了时序平均模块使得预测得到显著图在时间维度上更加的平滑;为了有效地利用相机运动信息提升视觉显著性预测的准确度,还提出了一个相机运动模块,利用运动恢复结构方法以及一些后处理计算出每一帧的旋转矩阵,根据旋转矩阵提取出相机运动特征并于时空显著性特征融合;为了有效地利用先验信息实现更加准确地预测,提出了一个第一人称视角先验模块,通过统计生成适用于观看第一人称视角视频的先验图并与特征融合。

29、本发明有益效果如下:

30、通过使用一种全新的生成基于相机运动生成的先验图的方式有效地建模人类视觉注意力与相机运动之间的关系。通过在模型中添加一种通过自适应的融合相机运动的相机运动模块,更有效地融合了相机运动信息和显著性特征。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1