一种基于结合时域通道相关性块的行为识别方法与流程

文档序号:21202866发布日期:2020-06-23 19:31阅读:158来源:国知局

本发明涉及计算机视觉领域,具体涉及一种基于结合时域通道相关性块的行为识别方法。



背景技术:

视频占据了互联网流量的70%份额,而且还在不断上升。现在,大多数手机摄像头不仅可以捕获图像,还可以捕获高分辨率视频。许多现实世界的数据源都是基于视频的,从仓库的库存系统到自动驾驶汽车或无人飞机。视频可以说是计算机视觉的下一个领域前沿,因为它捕获了静态图像无法传达的大量信息。因此,视频行为识别一直是计算机视觉等领域研究的热点问题。

视频序列中的人类动作是三维(3d)时空信号,包含空间特征时间特征。空间特征主要描述了与动作有关的对象的外观以及场景的配置以及视频的每个帧内的场景。空间特征学习类似于静止图像识别,因此很容易受益于深度卷积神经网络(cnn)带来的最新进展。视频时间特征捕获随时间变化而嵌入在不断发展的帧中的运动线索,包含有价值的运动信息,这些信息需要纳入视频识别任务中。视频行为识别需要解决的两个主要问题:一个是如何学习时间特征,另一个是如何正确融合空间和时间特征。

研究人员起初对时间运动信息和空间信息进行并行显式建模。原始帧和相邻帧之间的光流被用作深度神经网络的两个输入流。另一方面,作为用于静止图像识别的二维卷积(2dconv)的泛化,提出了三维卷积(3dconv)来处理3d体积视频数据。在三维卷积网络中,空间和时间特征紧密地纠缠在一起并共同学习。也就是说,不是单独学习空间和时间特征并将其融合在网络顶部,而是通过分布在整个网络上的三维卷积来学习联合时空特征。考虑到cnn出色的特征表示学习能力,理想的三维卷积应该在视频理解方面取得巨大成功,就像二维卷积在图像识别上一样。但是,大量的模型参数和低计算效率限制了三维卷积的有效性和实用性。



技术实现要素:

本发明的目的在于克服现有技术的不足,提出了一种基于结合时域通道相关性块的行为识别方法。

一种基于结合时域通道相关性块的行为识别方法,其包括以下步骤:

s1、通过空间全局平均池化操作对输入的初始三维时空信号特征图进行压缩,获得一个时域通道描述算子;

s2、将时域通道描述算子输入注意力模块获得时域通道全局非线性依赖;

s3、将注意力模块输出的张量赋值为经过特征选择后每个通道重要性的权重,通过残差连接将所述步骤s1中输入的初始三维时空信号特征图与所述步骤s2中注意力模块输出的张量逐通道相乘得到通道加权之后的特征图。

优选地,在上述的基于结合时域通道相关性块的行为识别方法中,在所述步骤s1中输入的初始特征图的三维时空信号表示为:其中t、h、w、c分别表示输入信号时域长度、空间域的高和宽以及通道数。

优选地,在上述的基于结合时域通道相关性块的行为识别方法中,在所述步骤s1中获得的时域通道描述算子的表达式为:其中,

优选地,在上述的基于结合时域通道相关性块的行为识别方法中,所述注意力模块由两个全连接层组成,其中第一个全连接层的特征维度降为而第二个特征维度将特征增加至c。

优选地,在上述的基于结合时域通道相关性块的行为识别方法中,在所述骤s3中,通过所述注意力模块融合时域-通道信息并提取逐通道信息的过程表示为:z=σ(mlp(f))=σ(w1(δ(w0z));其中,δ和σ分别表示为relu和sigmoid激活函数,r为一个超参数,用于降低注意力模块的参数量。

优选地,在上述的基于结合时域通道相关性块的行为识别方法中,在所述骤s3中,所述注意力模块输出的张量赋值

优选地,在上述的基于结合时域通道相关性块的行为识别方法中,在所述骤s3中,所述的通过残差连接将步骤s1中输入的初始三维时空信号特征图与步骤s2中注意力模块输出的张量逐通道相乘得到通道加权之后的特征图表示为xc,xc=fscale(x,z)=x·z;其中,x=[x1,x2,…,xc],fscale(x,z)表示特征图的逐通道相乘。

优选地,在上述的基于结合时域通道相关性块的行为识别方法中,所述的超参数r的取值为[2,4,8,16,32,…]。

优选地,在上述的基于结合时域通道相关性块的行为识别方法中,所述的超参数r取值为16。

本发明的有益效果:本发明通过网络层有效的捕获时域-通道之间的相关信息,对任何网络都能有效地执行时域-通道相关性特征学习,获得一个逐通道描述算子,通过乘法逐通道加权到之前的特征上,完成在通道维度上对原始特征的重新加权。通过将网络的计算资源更多的集中到对输出结果比较重要的特征通道中去,优化了网络计算资源,提高了行为识别准确率。

具体实施方式

下面将结合本发明的具体实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

本发明的实施例提出的一种基于结合时域通道相关性块的行为识别方法,其包括以下步骤:

s1、通过空间全局平均池化操作对输入的初始三维时空信号特征图进行压缩,获得一个时域通道描述算子。该输入的初始特征图的三维时空信号表示为:其中t、h、w、c分别表示输入信号时域长度、空间域的高和宽以及通道数。获得的时域通道描述算子的表达式为:其中,

s2、将时域通道描述算子输入注意力模块获得时域通道全局非线性依赖,为了实现此目标,该注意力模块必须满足两个条件:首先,该注意力模块必须具有灵活性,特别是,该注意力模块必须能够学习时域-通道之间的非线性相互作用;其次,该注意力模块必须学习非互斥关系。因为我们将旨在确保允许加强多个通道,而不是独热激活。

具体地,所述注意力模块由两个全连接层组成,其中第一个全连接层的特征维度降为而第二个特征维度将特征增加至c,使用空间全局平均池化可以获得空间维度全局感受野。

s3、将注意力模块输出的张量赋值为经过特征选择后每个通道重要性的权重,通过残差连接将所述步骤s1中输入的初始三维时空信号特征图与所述步骤s2中注意力模块输出的张量逐通道相乘得到通道加权之后的特征图。

具体地,在本发明的优选实施例中,步骤s3中通过所述注意力模块融合时域-通道信息并提取逐通道信息的过程表示为:z=σ(mlp(f))=σ(w1(δ(w0z));其中,δ和σ分别表示为relu和sigmoid激活函数,r为一个超参数,用于降低注意力模块的参数量。

所述注意力模块输出的张量赋值所述的通过残差连接将步骤s1中输入的初始三维时空信号特征图与步骤s2中注意力模块输出的张量逐通道相乘得到通道加权之后的特征图表示为xc,xc=fscale(x,z)=x·z;其中,x=[x1,x2,…,xc],fscale(x,z)表示特征图的逐通道相乘。超参数r的取值为[2,4,8,16,32,…],即23n,n为大于等于0的自然数。在实践中,通过实验显示,超参数r的取值为16时效果最好。

具体地,整个网络架构如下表所示:

上表中,3d-resnet101表示基本的101层残差网络,而3dctc-resnet101表示加上“结合时域通道相关性块(ctc)”之后的网络架构,我们在残差网络的每个块上加上ctc模块构成3dctc-resnet10网络。上表两种网络架构均采用三维卷积核和三维池化,在表中所示的每个卷积层均对应复合序列bn-relu-conv操作。在行为识别数据集ucf-101和hmdb-51测试显示,基准网络加上该ctc模块均能在一定程度上提高识别率。

综上所述,本发明通过网络层有效的捕获时域-通道之间的相关信息,对任何网络都能有效地执行时域-通道相关性特征学习,获得一个逐通道描述算子,通过乘法逐通道加权到之前的特征上,完成在通道维度上对原始特征的重新加权。通过将网络的计算资源更多的集中到对输出结果比较重要的特征通道中去,优化了网络计算资源,提高了行为识别准确率。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内,本发明要求的保护范围由所附的权利要求书及其等同物界定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1