一种基于双流架构的视频显著性预测方法

文档序号：32797654发布日期：2023-01-03 22:47阅读：43来源：国知局

1.本发明属于图像处理领域，具体涉及一种基于双流架构的视频显著性预测方法。

背景技术：

2.人类能够迅速将注意力集中到视野中的重要区域并过滤掉不相关的信息，这种选择过程称为视觉注意力机制，它帮助人类实时处理大量视觉信息。20世纪90年代，视觉注意力在计算机视觉领域开始研究，并显示出广泛的应用，例如：目标分割、视频压缩、视频字幕等。将视觉注意力机制运用到上述任务中可以将有限的计算资源分配到与任务最相关的目标中。
3.近年来提出了许多基于深度学习的模型来模拟人在静态场景中的视觉注意力机制(图像显著性预测)，但是用来模拟人在动态场景中的视觉注意力机制(视频显著性预测)的模型却很少。与图像显著性预测不同，在视频中，时间和空间信息都是影响人类注意力方向的重要因素。如何有效地整合来自不同领域和不同尺度的显著性特征是视频显著性预测的一个基本但长期未解决的问题。
4.目前基于深度学习的视频显著性预测模型主要有以下三种，第一种是基于双流架构的模型，其中光流主干用来从光流图中提取时间信息，外观主干用来从视频帧中提取空间信息，但目前的双流模型大多将时空信息在主干末端简单融合，使得时间信息无法被充分利用。第二种是基于长短期记忆网络(lstm)的模型，先使用卷积网络提取空间信息，再使用lstm获取时间信息，但是时空信息的单独处理限制了显著性预测的准确度。第三种是基于3d卷积的模型，其中3d卷积能同时处理时间和空间信息，但是3d卷积根据其内核大小只能在固定的局部时空中对视觉信息进行编码，无法有效获取视频中长期的时空信息。

技术实现要素：

5.本发明所要解决的技术问题：现有的视频显著性预测方法无法有效提取并融合时间和空间特征，无法有效捕获视频中的长期时空信息，从而导致预测的显著性区域不准确。
6.本发明解决该技术问题所采用的技术方案：使用一种基于双流架构的视频显著性预测模型来提高视频显著性预测的准确度。为了有效提取时间和空间特征，提出了一种全新的双流架构，其中时间编码器用来从光流图中提取时间特征，空间编码器用来从视频帧中提取空间特征。为了有效地融合时间和空间特征，提出了一个注意力模块并将其部署到双流架构的各个层级，该模块首先对输入的时间特征依次执行通道注意力和空间注意力，然后将增强后的时间特征传输到空间编码器融合。为了去除空间特征中的干扰信息，提出了一种时间掩膜方法即先通过时间解码器生成掩膜图，再使用掩膜图对编码器顶层的空间特征进行加权过滤，突出显著特征并去除冗余特征。为了有效捕获视频中的长期时空信息，在模型中使用了门控循环单元(gru)，它能够通过控制内部的重置门和更新门的开启程度来捕获连续视频帧中包含的有效时空信息。
7.一种基于双流架构的视频显著性预测方法，步骤如下：
8.步骤1：提取视频帧和光流图中包含的时间和空间特征。
9.首先将待预测的视频帧和对应的光流图进行尺寸调整、数据类型转换、数值归一化的预处理，经过预处理后的图片能够提高模型的运行效率。然后将预处理后的视频帧和光流图分别输入到模型的时间编码器和空间编码器，用于提取时间特征和空间特征。
10.步骤2：通过注意力模块增强时间特征并将时间和空间特征融合。
11.首先将时间编码器提取的时间特征输入到注意力模块进行增强处理，注意力模块的处理包括两个步骤，第一步是使用通道注意力机制对特征图进行加权处理，第二步是使用空间注意力机制对特征图中的不同区域进行加权处理。注意力模块的使用不仅能够保持时间和空间特征之间的语义一致性，而且能够减小质量差的光流图对模型性能造成的干扰。然后将增强后的时间特征与空间编码器提取的空间特征进行融合，融合后的时空特征会被输入到更高层的空间编码器进一步处理。需要注意的是，注意力模块被部署在编码器的各个层级，因此对于不同尺度的时间特征会从低到高依次执行特征的增强与融合。
12.步骤3：使用时间解码器生成的掩膜图过滤时空特征。
13.首先将时间编码器顶层的时间特征输入到时间解码器处理，时间解码器包括两个卷积层和一个sigmoid激活函数，处理完成后时间解码器输出一张掩膜图，其中包含了视频帧中运动物体的大致位置和轮廓。然后使用掩膜图对空间解码器顶层的时空特征进行加权过滤，从而有效去除时空特征中包含的干扰信息并突出显著性特征。
14.步骤4：使用gru模块获取视频帧之间的长期时空信息。
15.首先将经过掩膜图过滤的时空特征输入到门控循环单元gru处理，gru模块会通过控制内部的重置门和更新门的开启程度来捕获连续视频帧中包含的有效时空信息。然后将处理完的时空特征输入到空间解码器进一步处理。
16.步骤5：使用空间解码器生成预测图。
17.将经过gru模块处理的时空特征输入到空间解码器处理，即先经过两个卷积层处理将其通道维度降至1，再经过一个sigmoid激活函数处理，最后使用双线性上采样函数将其尺寸放大到原始视频帧大小即可得到最终的预测图。
18.进一步的，步骤1具体方法如下：
19.首先对待预测的视频帧和对应的光流图进行预处理，内容包括：根据图片地址读取图片并将其转换为rgb格式；将尺寸调整为224
×
224大小；将数据类型转化为tensor型；将数值范围从[0,255]映射到[-1,1]。
[0020]
然后将预处理后的视频帧xs和光流图x
t
分别输入到模型的时间编码器和空间编码器，用于提取时间特征和空间特征时间编码器和空间编码器具有相同的结构，都是基于resnet-50主干构建的，其中时间编码器的卷积块t1-t5和空间编码器的卷积块s1-s5对应于resnet-50主干的卷积块conv1-conv5。
[0021]
进一步的，步骤2具体方法如下：
[0022]
首先将时间编码器提取的时间特征输入到注意力模块进行增强处理。注意力模块的处理包括两个部分，第一部分是使用通道注意力机制对特征图进行加权处理即先使用全局平均池化将特征维度变成c
×1×
1，随后使用两个连续的卷机层先将特征维度压缩到c/16
×1×
1再膨胀回原始维度c
×1×
1，接着使用sigmoid激活函数将特征的数值范围映射
到[0,1]即可生成一个权重向量ci，最后将权重向量ci和原始时间特征相乘并使用残差连接即可得到通道加权特征以上过程可由公式1表示。
[0023][0024]
其中，i∈{1,2,3,4,5}表示编码器的5个层级；gap表示全局平均池化层；conv表示1
×
1卷积层；relu表示relu激活函数；sigmoid表示sigmoid激活函数；
⊙
表示逐元素相乘；表示逐元素相加。
[0025]
第二部分是使用空间注意力机制对特征图中的不同区域进行加权处理即先使用一个1
×
1卷积层将通道加权特征的维度变成1
×h×
w，再使用sigmoid激活函数生成一个权重矩阵ti，最后将权重矩阵ti和原始通道加权特征相乘并使用残差连接即可得到最终的时间增强特征以上过程可由公式2表示。
[0026][0027]
然后将增强后的时间特征与空间编码器提取的空间特征进行融合，融合后的时空特征会被输入到更高层的空间编码器进一步处理。以上过程可由公式3表示。
[0028][0029]
需要注意的是，注意力模块被部署在编码器的各个层级，因此对于不同尺度的时间特征会从低到高依次执行特征的增强与融合。
[0030]
进一步的，步骤3具体方法如下：
[0031]
首先将时间编码器顶层的时间特征输入到时间解码器处理，时间解码器会先使用两个连续的1
×
1卷积层将特征通道维度依次降为c/2和1，再使用一个sigmoid激活函数处理后即可得到一张掩膜图p
t
。然后使用掩膜图p
t
对空间解码器顶层的时空特征进行加权过滤即可得到加权后的时空特征以上过程可由公式4表示。
[0032][0033]
进一步的，步骤4具体方法如下：
[0034]
首先将经过掩膜图过滤的时空特征输入到门控循环单元gru处理，gru模块会通过控制内部的重置门和更新门的开启程度来捕获连续视频帧中包含的有效时空信息，其具体执行过程可由公式5表示。
[0035]
[0036]
其中，r
t
表示重置门；z
t
表示更新门；表示候选隐状态；h
t
表示新的隐状态；x
t
表示输入的特征；h
t-1
表示旧的隐状态；w
xr
,w
hr
,w
xz
,w
hz
,w
xh
,w
hh
表示卷积层的权重参数；br,bz,bh表示卷积层的偏置参数；σ表示sigmoid激活函数；tanh表示tanh激活函数。
[0037]
然后将gru模块输出的包含丰富时空信息的隐状态h
t
输入到空间解码器进一步处理。需要注意的是，为了使用gru模块，批量大小设置为6，即模型每次处理需要在空间编码器中输入同一个视频的6张连续的视频帧，并在时间编码器中输入对应的6张光流图，经过一系列处理后模型将预测出最后一张视频帧对应的显著图。
[0038]
进一步的，步骤5具体方法如下：
[0039]
将gru模块输出的隐状态h
t
输入到空间解码器处理得到最终的预测图，具体来说，先使用两个连续的1
×
1卷积层将特征通道维度依次降为c/2和1，再使用一个sigmoid激活函数处理，最后使用双线性上采样函数将其尺寸放大到原始视频帧大小即可得到最终的显著性预测图ps。以上过程可由公式6表示。
[0040]
ps＝up(sigmoid(conv2(relu(conv1(h
t
)))))
ꢀꢀꢀ
(6)
[0041]
其中，ps表示预测的显著图；up表示双线性上采样函数。
[0042]
本发明有益效果如下：
[0043]
通过使用一种新颖的双流架构更加有效地提取出光流图和视频帧中包含的时间和空间特征；通过使用注意力模块对不同尺度的时间特征进行增强处理，更加有效地融合了时间和空间特征；通过使用一种时间掩膜方法更加准确地定位出时空特征中显著对象的位置；通过使用gru模块能够捕获到视频中更长的时空信息。
附图说明
[0044]
图1为基于双流架构的视频显著性预测模型结构图；
[0045]
图2为注意力模块结构图；
[0046]
图3为门控循环单元(gru)结构图。
具体实施方式
[0047]
结合发明内容和附图对该发明的执行步骤进行详细论述。
[0048]
一种基于双流架构的视频显著性预测方法，步骤如下：
[0049]
步骤1：提取视频帧和光流图中包含的时间和空间特征。
[0050]
首先对待预测的视频帧和对应的光流图进行预处理，内容包括：根据图片地址读取图片并将其转换为rgb格式；将尺寸调整为224
×
224大小；将数据类型转化为tensor型；将数值范围从[0,255]映射到[-1,1]。需要注意的是，本发明使用的光流图是通过现有的光流模型raft生成的。
[0051]
然后将预处理后的视频帧xs和光流图x
t
分别输入到模型的时间编码器和空间编码器，用于提取时间特征和空间特征时间编码器和空间编码器具有相同的结构，都是基于resnet-50主干构建的，其中时间编码器的卷积块t1-t5和空间编码器的卷积块s1-s5对应于resnet-50主干的卷积块conv1-conv5。
[0052]
步骤2：通过注意力模块增强时间特征并将时间和空间特征融合。
[0053]
首先将时间编码器提取的时间特征输入到注意力模块进行增强处理。具体来说，如图2所示，注意力模块的处理包括两个部分，第一部分是使用通道注意力机制对特征图进行加权处理即先使用全局平均池化将特征维度变成c
×1×
1，随后使用两个连续的卷机层先将特征维度压缩到c/16
×1×
1再膨胀回原始维度c
×1×
1，接着使用sigmoid激活函数将特征的数值范围映射到[0,1]即可生成一个权重向量ci，最后将权重向量ci和原始时间特征相乘并使用残差连接即可得到通道加权特征以上过程可由公式1表示。
[0054][0055]
其中，i∈{1,2,3,4,5}表示编码器的5个层级；gap表示全局平均池化层；conv表示1
×
1卷积层；relu表示relu激活函数；sigmoid表示sigmoid激活函数；
⊙
表示逐元素相乘；表示逐元素相加。
[0056]
第二部分是使用空间注意力机制对特征图中的不同区域进行加权处理即先使用一个1
×
1卷积层将通道加权特征的维度变成1
×h×
w，再使用sigmoid激活函数生成一个权重矩阵ti，最后将权重矩阵ti和原始通道加权特征相乘并使用残差连接即可得到最终的时间增强特征以上过程可由公式2表示。
[0057][0058]
然后将增强后的时间特征与空间编码器提取的空间特征进行融合，融合后的时空特征会被输入到更高层的空间编码器进一步处理。以上过程可由公式3表示。
[0059][0060]
需要注意的是，注意力模块被部署在编码器的各个层级，因此对于不同尺度的时间特征会从低到高依次执行特征的增强与融合。
[0061]
步骤3：使用时间解码器生成的掩膜图过滤空间特征。
[0062]
首先将时间编码器顶层的时间特征输入到时间解码器处理，时间解码器会先使用两个连续的1
×
1卷积层将特征通道维度依次降为c/2和1，再使用一个sigmoid激活函数处理后即可得到一张掩膜图p
t
。然后使用掩膜图p
t
对空间解码器顶层的时空特征进行加权过滤即可得到加权后的时空特征以上过程可由公式4表示。
[0063][0064]
步骤4：使用gru模块获取视频帧之间的长期时空信息。
[0065]
首先将经过掩膜图过滤的时空特征输入到门控循环单元(gru)处理，gru模块会通过控制内部的重置门和更新门的开启程度来捕获连续视频帧中包含的有效时空信息，其具体执行过程可由公式5表示。
[0066][0067]
其中，r
t
表示重置门；z
t
表示更新门；表示候选隐状态；h
t
表示新的隐状态；x
t
表示输入的特征；h
t-1
表示旧的隐状态；w
xr
,w
hr
,w
xz
,w
hz
,w
xh
,w
hh
表示卷积层的权重参数；br,bz,bh表示卷积层的偏置参数；σ表示sigmoid激活函数；tanh表示tanh激活函数。
[0068]
然后将gru模块输出的包含丰富时空信息的隐状态h
t
输入到空间解码器进一步处理。需要注意的是，为了使用gru模块，批量大小应设置为6，即模型每次处理需要在空间编码器中输入同一个视频的6张连续的视频帧，并在时间编码器中输入对应的6张光流图，经过一系列处理后模型将预测出最后一张视频帧对应的显著图。
[0069]
图3为门控循环单元(gru)结构图。
[0070]
步骤5：使用空间解码器生成预测图。
[0071]
将gru模块输出的隐状态h
t
输入到空间解码器处理得到最终的预测图，具体来说，先使用两个连续的1
×
1卷积层将特征通道维度依次降为c/2和1，再使用一个sigmoid激活函数处理，最后使用双线性上采样函数将其尺寸放大到原始视频帧大小即可得到最终的显著性预测图ps。以上过程可由公式6表示。
[0072]
ps＝up(sigmoid(conv2(relu(conv1(h
t
)))))
ꢀꢀꢀ
(6)
[0073]
其中，ps表示预测的显著图；up表示双线性上采样函数。
[0074]
模型训练细节：
[0075]
图1为基于双流架构的视频显著性预测模型结构图；
[0076]
所提出的模型使用pytorch在一个nvidiatitanxpascal gpu上实现。其中时间和空间编码器的参数都使用resnet-50初始化，其余部分的参数由pytorch的默认设置初始化。使用adam优化器训练整个模型，初始学习率设置为10-5
。
[0077]
模型使用dhf1k、hollywood-2和ucfsports数据集的训练集进行训练，使用dhf1k的验证集监控整个训练过程，使用这三个数据集的测试集评估模型性能。输入的视频帧和光流图都被调整为224
×
224大小，批量大小设置为6即每次训练迭代将处理同一个视频中的6张连续的视频帧，为了预测视频的前5帧需要将第一帧复制5次。需要注意的是，模型在测试过程中仅使用预测图ps，但是在训练过程中需要同时监督时间解码器输出的掩膜图p
t
和空间解码器输出的预测图ps，总的训练损失可由公式7表示。
[0078]
l(p,g)＝l
loss
(ps,g)+l
loss
(p
t
,g)
ꢀꢀꢀ
(7)
[0079]
其中，p表示预测的显著图；g表示真值显著图；l
loss
表示混合损失函数，其计算过程可由公式8表示。
[0080]
l
loss
(p,g)＝kl(p,g)+cc(p,g)
ꢀꢀꢀ
(8)
[0081]
其中，kl是衡量两个概率分布之间差异的常用指标，其计算过程可由公式9表示。
[0082][0083]
其中，ε表示正则化常数。
[0084]
指标cc用于衡量两个分布图之间的依赖关系，用公式10表示。
[0085][0086]
其中，sd表示标准差，cov表示协方差。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：颜成钢武松鹤高宇涵陈楚翘孙垚棋朱尊杰王鸿奎殷海兵胡冀张继勇李宗鹏
技术所有人：杭州电子科技大学
我是此专利的发明人

上一篇：一种构造煤的定量分类方法
上一篇：一种胶合板加工用高精密砂光机的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。