一种基于神经网络的动作识别方法与流程

文档序号:11678030阅读:1530来源:国知局
一种基于神经网络的动作识别方法与流程

本发明涉及人体动作识别领域,尤其涉及一种基于神经网络的动作识别方法。



背景技术:

随着移动互联网的发展,信息的载体已经由文字逐渐扩展到音频、图像、视频等多种形式。近年来,视频数据量呈爆炸性增长,应用领域更趋多样性,涉及到安全、监控和娱乐等各个领域[1]。面对如此海量的数据,传统的人工处理已经无法满足人们的需求。因此,利用计算机强大的存储和计算能力实现对视频信息的识别和理解,具有重要的学术价值和广阔的应用前景。

事实上,在计算机视觉领域,关于视频的研究已经开展了数十年,研究课题包括动作识别、异常检测和视频检索等。人体动作识别是其中一个重要的研究方向,并取得了较大的进展,研究成果涉及智能监控、医疗看护、视频检索、人机交互、行为分析、虚拟现实等各个领域[2]。其中,以人机交互最为成熟,如微软的kinect(体感)摄像头,可实现对人体动作的捕捉和理解。然而,关于人体动作识别的研究仍存在很大的难点和挑战,如真实自然场景下的动作识别、群体动作识别等。这些问题的存在,使人体动作识别距离有效应用于现实场景中还有很长一段距离。

随着并行计算设备(gpus(图形处理器)、cpu集群)的发展,以及大规模训练数据的出现,卷积神经网络(convolutionalneuralnetworks,cnns)再次兴起,并在物体识别,自然语言处理,语音分类,人机交互,人体追踪,图像复原、去噪和分割等方向取得了突出的成果。然而,在视频识别领域,卷积神经网络的应用还很少。



技术实现要素:

本发明提供了一种基于神经网络的动作识别方法,本发明避免了大量噪声特征对分类结果的影响,避免了固定样本长度对动作识别结果的负面影响,详见下文描述:

一种基于神经网络的人体动作识别的方法,所述方法包括以下步骤:

基于视频数据库训练n个相互独立的3d卷积神经网络,用作视频特征提取器;

根据视频特征提取器,训练多示例学习分类器;

输入待识别视频,经过训练好的网络提取视频特征,通过分类器进行动作分类。

其中,所述基于视频数据库训练n个相互独立的3d卷积神经网络,用作视频特征提取器的步骤具体为:

将视频库中的每个视频分为若干个帧长为fi的视频片段,每个视频片段均作为网络i的一个训练样本,训练3d卷积神经网络,n个独立的3d卷积神经网络共同构成视频特征提取器。

其中,所述根据视频特征提取器,训练多示例学习分类器的步骤具体为:

将数据库中的每一个视频分别输入视频特征提取器,提取特征向量;然后将每个视频看作多示例学习的一个包,特征向量作为包中的示例,进行多示例学习。

其中,所述将数据库中的每一个视频分别输入视频特征提取器,提取特征向量的步骤具体为:

给定一个视频m,将视频m分为mi个帧长为fi的视频片段,作为网络的输入提取到mi个n维的特征向量,则视频m共提取到(m1+m2+…+mn)个特征向量。

其中,所述输入待识别视频,经过训练好的网络提取视频特征,通过分类器进行动作分类的步骤具体为:

通过训练好的网络,提取p个n维的特征向量,将整个视频作为多示例学习的一个包,每个特征向量作为包中的一个示例,通过多示例学习对其进行动作分类。

本发明提供的技术方案的有益效果是:

1、在c3d(3d卷积)特征的基础上,引入对同一视频产生多个特征的方法,利用多示例学习方法,降低大量噪声特征对分类结果的影响;

2、考虑到时间序列长度对动作识别结果的影响,分别采用不同长度组合的视频片段进行特征学习,避免了固定样本长度对动作识别结果的负面影响。

附图说明

图1为基于神经网络的动作识别方法的流程图;

图2为3d卷积神经网络结构图;

图3为3d卷积神经网络训练示意图;

图4为c3d特征提取示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。

为解决以上问题,需要能够全面、自动、准确的提取视频特征,并进行分类。研究表明c3d特征在视频分类领域具有较高的准确率,多示例学习可以消除大量噪声特征对分类结果的影响。

实施例1

本发明实施例提出了一种基于神经网络的动作识别方法,参见图1,该动作识别方法包括以下步骤:

101:基于视频数据库训练n个相互独立的3d卷积神经网络,用作视频特征提取器;

102:根据视频特征提取器,训练多示例学习分类器;

103:输入待识别视频,经过训练好的网络提取视频特征,通过分类器进行动作分类。

其中,步骤101中的基于视频数据库训练n个相互独立的3d卷积神经网络,用作视频特征提取器的步骤具体为:

将视频库中的每个视频分为若干个帧长为fi的视频片段,每个视频片段均作为网络i的一个训练样本,训练3d卷积神经网络,n个独立的3d卷积神经网络共同构成视频特征提取器。

其中,步骤102中的根据视频特征提取器,训练多示例学习分类器的步骤具体为:

将数据库中的每一个视频分别输入视频特征提取器,提取特征向量;然后将每个视频看作多示例学习的一个包,特征向量作为包中的示例,进行多示例学习。

其中,上述将数据库中的每一个视频分别输入视频特征提取器,提取特征向量的步骤具体为:

给定一个视频m,将视频m分为mi个帧长为fi的视频片段,作为网络的输入提取到mi个n维的特征向量,则视频m共提取到(m1+m2+…+mn)个特征向量。

其中,步骤103中的输入待识别视频,经过训练好的网络提取视频特征,通过分类器进行动作分类的步骤具体为:

通过训练好的网络,提取p个n维的特征向量,将整个视频作为多示例学习的一个包,每个特征向量作为包中的一个示例,通过多示例学习对其进行动作分类。

综上所述,本发明实施例通过上述步骤101-步骤103避免了大量噪声特征对分类结果的影响,避免了固定样本长度对动作识别结果的负面影响,大大提高了人体动作识别的鲁棒性和准确性。

实施例2

下面结合具体的实例、图2-图4对实施例1中的方案进行进一步地介绍,详见下文描述:

201:建立视频数据库,并基于视频数据库训练n个相互独立的3d卷积神经网络,用作视频特征提取器,即c3d特征;

其中,c3d特征的学习是在3dconvnets(3d卷积神经网络)上进行的,其网络结构图如图2所示,所有的卷积滤波器尺寸都是3*3*3,时空步长为1。除了pool1(1*2*2),所有的池化层尺寸都是2*2*2,步长为1。最终,在全连接层fc6和fc7分别得到4096维的输出。

其中,视频特征提取器需要训练n个相互独立的3dconvnets,每个网络的训练过程相同,参见图3,以网络i(i=1,2,3,…,n)为例,具体过程是:将数据库中的每个视频分成若干个帧长为fi的视频片段,每个视频片段均作为网络i的一个训练样本,训练3dconvnets。改变帧长fi,重复以上过程,可获得n个不同的3dconvnets,共同构成人体动作识别系统的视频特征提取器。

202:根据视频特征提取器,训练多示例学习分类器;

其中,利用训练好的n个3dconvnets提取数据库中每一个视频的特征向量,每个网络的特征提取过程相同,参见图4,以网络i(i=1,2,3,…,n)为例,具体过程是:将视频m分为mi个帧长为fi的视频片段,作为网络i的输入,提取到mi个特征向量。因此,视频m通过特征提取器(n个3dconvnets)共提取到(m1+m2+…+mn)个特征向量。

最后,将视频库中每一个视频看作多示例学习的一个包,通过视频特征提取器提取到的特征向量看作包中的一个示例,进行多示例学习,训练分类器模型。

203:输入待识别视频,经过训练好的网络提取视频特征,通过分类器进行动作分类。

进行动作识别时,输入一个待识别视频k,首先分别将其通过训练好的n个3dconvnets,提取到(k1+k2+…+kn)个特征向量,将视频k作为多示例学习的一个包,特征向量作为包中的示例,通过步骤(2)中训练好的分类器,得到分类结果。

综上所述,本发明实施例通过上述步骤2-01-步骤203避免了大量噪声特征对分类结果的影响,避免了固定样本长度对动作识别结果的负面影响,大大提高了人体动作识别的鲁棒性和准确性。

参考文献:

[1]turagap,chellappar,subrahmanianvs,etal.machinerecognitionofhumanactivities:asurvey[j].ieeetransactionsoncircuitsandsystemsforvideotechnology,2008,18(11):1473-1488.

[2]aggarwaljk,ryooms.humanactivityanalysis:areview[j].acmcomputingsurveys(csur),2011,43(3):16.

[3]laptevi.onspace-timeinterestpoints[j].internationaljournalofcomputervision,2005,64(2-3):107-123.

[4]jis,xuw,yangm,etal.3dconvolutionalneuralnetworksforhumanactionrecognition[j].ieeetransactionsonpatternanalysisandmachineintelligence,2013,35(1):221-231.

[5]trand,bourdevl,fergusr,etal.c3d:genericfeaturesforvideoanalysis[j].corr,abs/1412.0767,2014,2:7.

本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1