一种基于时空共生双流网络的视频图像分类方法与流程

文档序号:12158470阅读:360来源:国知局
一种基于时空共生双流网络的视频图像分类方法与流程

本发明涉及视频图像分类领域,尤其是涉及了一种基于时空共生双流网络的视频图像分类方法。



背景技术:

视频图像分类是一个非常有挑战的问题,因为姿势和外观变化引起大的内部类型的变化,还有在类型之间的整体外观上的细微差异引起的小的内部变化。近来,深度卷积神经网络(DCNNs)已被用来学习许多强大的功能,用层次模型来处理大的变化,自动定位区域。尽管这些方法有所进步,但以前的工作把对象的分类任务作为一个静止的图像分类问题,忽略视频中存在的互补的时间信息。至今,没有使用神经网络方法为基础的方法来对视频的对象进行分类。

本发明引入基于视频的对象分类问题,采用了早融的双流网络结合时间和空间信息(时空共生)方法,首先输入图像和光流信息,结合时间网络和空间网络进行早期融合,将融合输出作为特征向量输入到SVM分类器之中,获得最终分类结果。从每个视频使用更多的帧(即更多的空间数据)产生一个显著的精度提高;空间和时间信息的结合,两者形成互补,精度达到65.8%。采用早期融合是由于晚期融合有一个潜在缺点,空间和时间的信息融合是在最后完成,这限制了从SoftMax分类层组合获得的补充信息的数量(或决定),所以,通过使用共生的方法较少的分离的集群形成,和分离的集群往往是更紧密的在一起,可以更好地利用时间信息。



技术实现要素:

针对忽略了对视频数据进行分类的问题,本发明的目的在于提供一种基于时空共生双流网络的视频图像分类方法,采用早融的双流网络结合时间和空间信息(时空共生)方法,使用猴类的视频数据集,提高分类性能。

为解决上述问题,本发明提供一种基于时空共生双流网络的视频图像分类方法,其主要内容包括:

(一)数据输入;

(二)时空双流网络;

(三)融合;

(四)SVM分类器。

其中,一种基于时空共生双流网络的视频图像分类方法,采用早融的双流网络结合时间和空间信息(时空共生)方法,使用猴类的视频数据集,从每个视频使用更多的帧(即更多的空间数据)产生一个显著的精度提高;空间和时间信息的结合,两者形成互补,精度达到65.8%。

其中,一种基于时空共生双流网络的视频图像分类方法,基于降维的可视化技术使用t-分布邻域嵌入算法(t-SNE)得出,通过使用共生的方法较少的分离的集群形成,和分离的集群往往是更紧密的在一起,更好地利用时间信息。

其中,所述的数据输入,包括图像和光流信息,数据集由100种猴类视频集组成;该数据集分为训练集和测试集。在一定距离内记录猴类视频,该数据集具有较大的挑战,如大规模的相机运动变化和相当大的姿态变化;

对于每一个类(猴种)提供以下数据:具有活动注释的视频剪辑,声音剪辑,包围盒,以及分类和分布位置。

进一步地,所述的测试,每个视频剪辑采用每秒5帧(FPS)的方式测试,计算每5帧的光流来计算效率。

其中,所述的时空双流网络,包括时间网络,空间网络,以及时空共生译码。

进一步地,所述的时间网络和空间网络,包括

(1)时序网络使用作为水平流Ox,竖直流Oy和光流的大小Omag的输入结合形成一个单一的光学特征映射O∈Rh×w×3,其中h×w是特征映射(图像)的大小;

(2)空间网络使用RGB帧(图像)作为输入;

和都使用DCNN结构,由5个卷积层组成Sc1,Sc2,…,Sc5,其次是完全连接层Sfc6;该网络进行训练,通过每一个视频的输入帧(图像或光流)是一个单独的实例,使用预训练网络;在进行分类时,每一个图像(或帧的光流)最初被视为独立的;对于一个视频的Nf帧生成Nf分类决定。

进一步地,所述的时空共生译码,包括通过共同出现的联合的空间和时间特征,使用DCNNs方法通过计算共生结合空间和时间网络的卷积层,具体地说,让时空网络的第n层的特征映射为和dn是特征映射的维数的数目,计算特征映射组合

和是指位置(i,j)上的空间和时间流的局部特征向量,进行矢量化操作,作为位置(i,j)的共生特征;因此,在每个空间位置的共生模式,外积运算捕获的视觉运动,最大池应用到所有的本地编码向量;Pi,j创建最后的特征表示最后,L2标准化应用于编码向量;

时空双线性DCNN特征结合fc6时空特征用于双流早期融合,这使我们能够结合局部和全局的空间和时间信息。

其中,所述的融合,包括如下步骤:

(1)早期融合

(2)使用两个独立的时序网络和空间网络So和的双流网络用于动作识别,在早期结合双流的信息,通过融合fc6输出,Sfc6和Tfc6,fc6是第一个全连接层,经常用来从DCNNs中提取单特征;我们把这个网络称为双流早融;

(3)进行早期融合,采用双线性DCNN然后融合双流的方法,空间和时间信息相结合;通过完全连接的层的组合原始数据预处理、确定分类计算对象、在计算对象上进行分类。

其中,所述的SVM分类器,其原理为:

设线性可分样本集和为(xi,yi),i=1,…,n,x∈Rd,y∈{+1,-1}是类别标号,则

w·x+b=0

是SVM分类器的分类面方程;

在分类时,为了使分类面对所有样本正确分类且分类间隔达到最大,需要满足下面两个条件:

Φ(x)=min(wTw)

yi(w·xi+b)-1≥0

通过解此约束优化问题就可以得到最优分类面,而过两类样本中离分类面最近的点且平行于最优分类面的超平面上的训练样本就是使得公式中等号成立的那些特殊样本,因为它们支撑了最优分类面,因此被称为支撑向量;将融合输出作为特征向量输入到SVM分类器之中,获得最终分类结果。

附图说明

图1是本发明一种基于时空共生双流网络的视频图像分类方法的系统流程图。

图2是本发明一种基于时空共生双流网络的视频图像分类方法的猴类的视频数据集。

图3是本发明一种基于时空共生双流网络的视频图像分类方法的使用T-SNE可视化定性评价。

图4是本发明一种基于时空共生双流网络的视频图像分类方法的时空共生概念图的方法。

图5是本发明一种基于时空共生双流网络的视频图像分类方法的早期融合策略示意图。

图6是本发明一种基于时空共生双流网络的视频图像分类方法的猴类实例定位图。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于时空共生双流网络的视频图像分类方法的系统流程图。主要包括数据输入;时空双流网络;融合;SVM分类器。

数据输入包括图像和光流信息,数据集由100种猴类视频集组成;该数据集分为训练集和测试集。在一定距离内记录猴类视频,该数据集具有较大的挑战,如大规模的相机运动变化和相当大的姿态变化;对于每一个类(猴种)提供以下数据:具有活动注释的视频剪辑,声音剪辑,自动定位器检测,以及分类和分布位置。

其中,每个视频剪辑采用每秒5帧(FPS)的方式测试,,计算每5帧的光流来计算效率。

时空双流网络,包括时间网络,空间网络,以及时空共生译码。

其中,时间网络和空间网络,包括

(1)时序网络使用作为水平流Ox,竖直流Oy和光流的大小Omag的输入结合形成一个单一的光学特征映射O∈Rh×w×3,其中h×w是特征映射(图像)的大小;

(2)空间网络使用RGB帧(图像)作为输入;

和都使用DCNN结构,由5个卷积层组成Sc1,Sc2,…,Sc5,其次是完全连接层Sfc6;该网络进行训练,通过每一个视频的输入帧(图像或光流)是一个单独的实例,使用预训练网络;在进行分类时,每一个图像(或帧的光流)最初被视为独立的;对于一个视频的Nf帧生成Nf分类决定。

其中,时空共生译码,包括通过共同出现的联合的空间和时间特征,使用DCNNs方法通过计算共生结合空间和时间网络的卷积层,具体地说,让时空网络的第n层的特征映射为和dn是特征映射的维数的数目,计算特征映射组合

和是指位置(i,j)上的空间和时间流的局部特征向量,矢量化操作,作为位置(i,j)的共生特征;因此,在每个空间位置的共生模式,外积运算捕获的视觉运动,最大池应用到所有的本地编码向量;Pi,j创建最后的特征表示最后,L2标准化应用于编码向量;

时空双线性DCNN特征结合fc6时空特征用于双流早期融合,这使我们能够结合局部和全局的空间和时间信息。

融合包括如下步骤:

(1)早期融合:使用两个独立的时序网络和空间网络So和的双流网络用于动作识别,在早期结合双流的信息,通过融合fc6输出,Sfc6和Tfc6,fc6是第一个全连接层,经常用来从DCNNs中提取单特征;我们把这个网络称为双流早融;

(2)进行早期融合,采用双线性DCNN然后融合双流的方法,空间和时间信息相结合;通过完全连接的层的组合原始数据预处理、确定分类计算对象、在计算对象上进行分类。

SVM分类器的原理为:

设线性可分样本集和为(xi,yi),i=1,…,n,x∈Rd,y∈{+1,-1}是类别标号,则

w·x+b=0

是SVM分类器的分类面方程;

在分类时,为了使分类面对所有样本正确分类且分类间隔达到最大,需要满足下面两个条件:

Φ(x)=min(wTw)

yi(w·xi+b)-1≥0

通过解此约束优化问题就可以得到最优分类面,而过两类样本中离分类面最近的点且平行于最优分类面的超平面上的训练样本就是使得公式中等号成立的那些特殊样本,因为它们支撑了最优分类面,因此被称为支撑向量;将融合输出作为特征向量输入到SVM分类器之中,获得最终分类结果。

图2是本发明一种基于时空共生双流网络的视频图像分类方法的猴类的视频数据集。包括图像和光流信息,数据集由100种猴类视频集组成;该数据集分为训练集和测试集。在一定距离内记录猴类视频,该数据集具有较大的挑战,如大规模的相机运动变化和相当大的姿态变化;

图3是本发明一种基于时空共生双流网络的视频图像分类方法的使用T-SNE可视化定性评价。基于降维的可视化技术使用t-分布邻域嵌入算法(t-SNE),可以看出,通过使用共生的方法较少的分离的集群形成,和分离的集群往往是更紧密的在一起,更好地利用时间信息。

图4是本发明一种基于时空共生双流网络的视频图像分类方法的时空共生概念图的方法。包括通过共同出现的联合的空间和时间特征,使用DCNNs方法通过计算共生结合空间和时间网络的卷积层,具体地说,让时空网络的第n层的特征映射为和dn是特征映射的维数的数目,计算特征映射组合

和是指位置(i,j)上的空间和时间流的局部特征向量,矢量化操作,作为位置(i,j)的共生特征;因此,外积运算捕获的视觉和运动在每个空间位置的共生模式,最大池被施加到所有的本地编码向量;Pi,j创建最后的特征表示最后,L2标准化应用于编码向量;

时空双线性DCNN特征结合fc6时空特征用于双流早期融合,这使我们能够结合局部和全局的空间和时间信息。

图5是本发明一种基于时空共生双流网络的视频图像分类方法的早期融合策略示意图。融合包括如下步骤:

(1)早期融合

使用两个独立的时序网络和空间网络So和的双流网络用于动作识别,在早期结合两个流的信息,通过融合fc6输出,Sfc6和Tfc6,fc6是第一个全连接层,经常用来从DCNNs中提取单特征;我们把这个修改网络称为双流(早融);

(2)进行早期融合,通过完全连接的层的组合原始数据预处理、确定分类计算对象、在计算对象上进行分类;采用双线性DCNN然后融合双流的方法,空间和时间信息相结合。

图6是本发明一种基于时空共生双流网络的视频图像分类方法的猴类实例定位图。在大多数情况下,可以准确的定位到图像中猴类的位置。但是当图片中出现混淆的纹理,杂乱的物体和闭塞情况时,视频图像的定位发生错误。

对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1