一种基于神经网络的动作识别方法与流程

文档序号：11678030阅读：1530来源：国知局

本发明涉及人体动作识别领域，尤其涉及一种基于神经网络的动作识别方法。

背景技术：

随着移动互联网的发展，信息的载体已经由文字逐渐扩展到音频、图像、视频等多种形式。近年来，视频数据量呈爆炸性增长，应用领域更趋多样性，涉及到安全、监控和娱乐等各个领域^[1]。面对如此海量的数据，传统的人工处理已经无法满足人们的需求。因此，利用计算机强大的存储和计算能力实现对视频信息的识别和理解，具有重要的学术价值和广阔的应用前景。

事实上，在计算机视觉领域，关于视频的研究已经开展了数十年，研究课题包括动作识别、异常检测和视频检索等。人体动作识别是其中一个重要的研究方向，并取得了较大的进展，研究成果涉及智能监控、医疗看护、视频检索、人机交互、行为分析、虚拟现实等各个领域^[2]。其中，以人机交互最为成熟，如微软的kinect(体感)摄像头，可实现对人体动作的捕捉和理解。然而，关于人体动作识别的研究仍存在很大的难点和挑战，如真实自然场景下的动作识别、群体动作识别等。这些问题的存在，使人体动作识别距离有效应用于现实场景中还有很长一段距离。

随着并行计算设备(gpus(图形处理器)、cpu集群)的发展，以及大规模训练数据的出现，卷积神经网络(convolutionalneuralnetworks，cnns)再次兴起，并在物体识别，自然语言处理，语音分类，人机交互，人体追踪，图像复原、去噪和分割等方向取得了突出的成果。然而，在视频识别领域，卷积神经网络的应用还很少。

技术实现要素：

本发明提供了一种基于神经网络的动作识别方法，本发明避免了大量噪声特征对分类结果的影响，避免了固定样本长度对动作识别结果的负面影响，详见下文描述：

一种基于神经网络的人体动作识别的方法，所述方法包括以下步骤：

基于视频数据库训练n个相互独立的3d卷积神经网络，用作视频特征提取器；

根据视频特征提取器，训练多示例学习分类器；

输入待识别视频，经过训练好的网络提取视频特征，通过分类器进行动作分类。

其中，所述基于视频数据库训练n个相互独立的3d卷积神经网络，用作视频特征提取器的步骤具体为：

将视频库中的每个视频分为若干个帧长为fi的视频片段，每个视频片段均作为网络i的一个训练样本，训练3d卷积神经网络，n个独立的3d卷积神经网络共同构成视频特征提取器。

其中，所述根据视频特征提取器，训练多示例学习分类器的步骤具体为：

将数据库中的每一个视频分别输入视频特征提取器，提取特征向量；然后将每个视频看作多示例学习的一个包，特征向量作为包中的示例，进行多示例学习。

其中，所述将数据库中的每一个视频分别输入视频特征提取器，提取特征向量的步骤具体为：

给定一个视频m，将视频m分为mi个帧长为fi的视频片段，作为网络的输入提取到mi个n维的特征向量，则视频m共提取到(m1+m2+…+mn)个特征向量。

其中，所述输入待识别视频，经过训练好的网络提取视频特征，通过分类器进行动作分类的步骤具体为：

通过训练好的网络，提取p个n维的特征向量，将整个视频作为多示例学习的一个包，每个特征向量作为包中的一个示例，通过多示例学习对其进行动作分类。

本发明提供的技术方案的有益效果是：

1、在c3d(3d卷积)特征的基础上，引入对同一视频产生多个特征的方法，利用多示例学习方法，降低大量噪声特征对分类结果的影响；

2、考虑到时间序列长度对动作识别结果的影响，分别采用不同长度组合的视频片段进行特征学习，避免了固定样本长度对动作识别结果的负面影响。

附图说明

图1为基于神经网络的动作识别方法的流程图；

图2为3d卷积神经网络结构图；

图3为3d卷积神经网络训练示意图；

图4为c3d特征提取示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

为解决以上问题，需要能够全面、自动、准确的提取视频特征，并进行分类。研究表明c3d特征在视频分类领域具有较高的准确率，多示例学习可以消除大量噪声特征对分类结果的影响。

实施例1

本发明实施例提出了一种基于神经网络的动作识别方法，参见图1，该动作识别方法包括以下步骤：

101：基于视频数据库训练n个相互独立的3d卷积神经网络，用作视频特征提取器；

102：根据视频特征提取器，训练多示例学习分类器；

103：输入待识别视频，经过训练好的网络提取视频特征，通过分类器进行动作分类。

其中，步骤101中的基于视频数据库训练n个相互独立的3d卷积神经网络，用作视频特征提取器的步骤具体为：

其中，步骤102中的根据视频特征提取器，训练多示例学习分类器的步骤具体为：

其中，上述将数据库中的每一个视频分别输入视频特征提取器，提取特征向量的步骤具体为：

给定一个视频m，将视频m分为mi个帧长为fi的视频片段，作为网络的输入提取到mi个n维的特征向量，则视频m共提取到(m1+m2+…+mn)个特征向量。

其中，步骤103中的输入待识别视频，经过训练好的网络提取视频特征，通过分类器进行动作分类的步骤具体为：

综上所述，本发明实施例通过上述步骤101-步骤103避免了大量噪声特征对分类结果的影响，避免了固定样本长度对动作识别结果的负面影响，大大提高了人体动作识别的鲁棒性和准确性。

实施例2

下面结合具体的实例、图2-图4对实施例1中的方案进行进一步地介绍，详见下文描述：

201：建立视频数据库，并基于视频数据库训练n个相互独立的3d卷积神经网络，用作视频特征提取器，即c3d特征；

其中，c3d特征的学习是在3dconvnets(3d卷积神经网络)上进行的，其网络结构图如图2所示，所有的卷积滤波器尺寸都是3*3*3，时空步长为1。除了pool1(1*2*2)，所有的池化层尺寸都是2*2*2，步长为1。最终，在全连接层fc6和fc7分别得到4096维的输出。

其中，视频特征提取器需要训练n个相互独立的3dconvnets，每个网络的训练过程相同，参见图3，以网络i(i＝1,2,3,…,n)为例，具体过程是：将数据库中的每个视频分成若干个帧长为fi的视频片段，每个视频片段均作为网络i的一个训练样本，训练3dconvnets。改变帧长fi，重复以上过程，可获得n个不同的3dconvnets，共同构成人体动作识别系统的视频特征提取器。

202：根据视频特征提取器，训练多示例学习分类器；

其中，利用训练好的n个3dconvnets提取数据库中每一个视频的特征向量，每个网络的特征提取过程相同，参见图4，以网络i(i＝1,2,3,…,n)为例，具体过程是：将视频m分为mi个帧长为fi的视频片段，作为网络i的输入，提取到mi个特征向量。因此，视频m通过特征提取器(n个3dconvnets)共提取到(m1+m2+…+mn)个特征向量。

最后，将视频库中每一个视频看作多示例学习的一个包，通过视频特征提取器提取到的特征向量看作包中的一个示例，进行多示例学习，训练分类器模型。

203：输入待识别视频，经过训练好的网络提取视频特征，通过分类器进行动作分类。

进行动作识别时，输入一个待识别视频k，首先分别将其通过训练好的n个3dconvnets，提取到(k1+k2+…+kn)个特征向量，将视频k作为多示例学习的一个包，特征向量作为包中的示例，通过步骤(2)中训练好的分类器，得到分类结果。

综上所述，本发明实施例通过上述步骤2-01-步骤203避免了大量噪声特征对分类结果的影响，避免了固定样本长度对动作识别结果的负面影响，大大提高了人体动作识别的鲁棒性和准确性。

参考文献：

[1]turagap,chellappar,subrahmanianvs,etal.machinerecognitionofhumanactivities:asurvey[j].ieeetransactionsoncircuitsandsystemsforvideotechnology,2008,18(11):1473-1488.

[2]aggarwaljk,ryooms.humanactivityanalysis:areview[j].acmcomputingsurveys(csur),2011,43(3):16.

[3]laptevi.onspace-timeinterestpoints[j].internationaljournalofcomputervision,2005,64(2-3):107-123.

[4]jis,xuw,yangm,etal.3dconvolutionalneuralnetworksforhumanactionrecognition[j].ieeetransactionsonpatternanalysisandmachineintelligence,2013,35(1):221-231.

[5]trand,bourdevl,fergusr,etal.c3d:genericfeaturesforvideoanalysis[j].corr,abs/1412.0767,2014,2:7.

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：苏育挺;安阳;聂为之
技术所有人：天津大学
我是此专利的发明人

上一篇：一种多级移动式装仓机的制造方法与工艺
上一篇：一种摇匀缸上料装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。