基于深度学习和多尺度信息的行为识别方法与流程

文档序号:13719878阅读:150来源:国知局
技术领域本发明涉及人体行为识别领域,特别是涉及一种基于深度学习和多尺度信息的行为识别方法。

背景技术:
随着计算机、摄像头等硬件技术的成熟和社会管理的更高要求,人体行为识别的研究越来越引起计算机视觉研究工作者的重视,并已广泛应用于自动监控,事件检测,人机接口,视频获取等各个领域。传统的人体行为识别方法首先针对每一个描述人体行为的视频进行特征提取,如方向梯度直方图(HistogramsofOrientedGradient,HOG),运动历史图像(MotionHistoryImage,MHI)等,然后采用支持向量机、随机森林等分类器对提取的特征进行分类识别。基于计算方法的人体行为识别的研究已经取得了很多优秀成果,然而也存在一些难以解决的问题:提取的特征具有针对性,不易泛化到其他数据;计算开销太大,很难做到实时性。深度学习能自动提取隐藏在数据间的多层特征表示,基于卷积神经网络的深度学习研究在图像分类、识别、定位、分割等方面取得了很大的成功。然而,图像处理中的卷积为二维运算,不能直接应用于描述人体行为的三维视频。

技术实现要素:
本发明的目的在于针对现有技术的不足,提供一种基于深度学习和多尺度信息的行为识别方法,使用深度学习的方法能够有效进行行为识别,尤其是当各行为动作差别较大时,识别率会得到显著提高,且本发明的泛化性能好,可以在一个大数据集上进行训练,然后用于缺少训练数据的行为识别领域,可大大减少行为识别的时间开销,实时性高。本发明以深度视频数据为研究对象,通过构建基于CNN的深度神经网络结构,并融合全局的人体行为信息和局部的手部动作等多尺度信息,使用传统的二维CNN来研究三维的人体行为识别。本发明通过构建多个深度网络,组成并行结构来研究深度视频的人体行为识别。首先将深度视频先拆分成多个视频段,然后分别使用各并行分支神经网络进行学习,再对各神经网络分支学习到的高层表示进行融合连接,将各个分支神经网络的数据向量化后进行连接,变成一维向量,以便输入后面的全连接层。最后将融合后的高层表示送入全连接层和分类层进行分类识别。与此同时,针对MSRDailyActivity3D数据集中大部分行为仅仅在手部有细微差别,如读书、写字、用笔记本电脑、玩游戏等行为,本发明提出了通过融合粗粒度的全局行为信息和细粒度的手部动作等多尺度信息的思想。本发明的目的是这样实现的:一种基于深度学习和多尺度信息的行为识别方法,包括如下步骤:(1)建立训练数据集;所述训练数据集中的粗粒度全局行为视频选自MSRDailyActivity3D数据集。(2)构建具有若干并行深度卷积神经网络的深度神经网络模型;(3)选取训练数据集中的粗粒度全局行为视频以设定的步长LStride进行分段,其中,每段长度设定为LSeg,分段后形成了NSeg个粗粒度视频段矩阵,分段数为NSeg=1+(NF-LSeg)/LStride,NF为粗粒度全局行为视频的帧数;(4)从步骤(3)中的粗粒度全局行为视频中获取细粒度局部行为视频,对细粒度局部行为视频采取步骤(3)同样的方法进行分段得到NSeg个细粒度视频段矩阵;细粒度视频段矩阵的每一帧的大小与粗粒度视频段矩阵的每一帧的大小相同。截取粗粒度全局行为视频每一帧中的细粒度局部行为序列组成细粒度局部行为视频。细粒度的局部行为可以为手部动作,也可以为其他部位的细节动作。获取细粒度视频方法:以粗粒度全局行为视频每一帧的左手关节为中心,截取W/4×H/4大小的帧组成NF×W/4×H/4的新视频,该视频为细粒度手部动作视频,其中W,H,NF分别为原始深度视频帧的宽度、高度和视频中包含的帧数。该大小与粗粒度视频下采样后的大小一致。(5)将步骤(3)得到的NSeg个粗粒度视频段矩阵和步骤(4)得到的NSeg个细粒度视频段矩阵并行送入步骤(1)中构建的具有2NSeg个并行深度卷积神经网络的深度神经网络模型中进行训练;(6)选取待识别的粗粒度全局行为视频进行步骤(3)、(4)分别得到NSeg个粗粒度视频段矩阵和NSeg个细粒度视频段矩阵,将得到的NSeg个粗粒度视频段矩阵和NSeg个细粒度视频段矩阵并行送入步骤(5)得到的已经训练好的深度神经网络模型中进行行为识别。待识别的粗粒度全局行为视频为经过预处理的视频。步骤(2)中的深度神经网络以卷积神经网络为构建块,具有一个分类层、至少一个卷积层、至少一个池化层以及至少一个全连接层。并行深度卷积神经网络包括依次连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第一全连接层、第二全连接层和分类层。将步骤(3)中的粗粒度全局行为视频的每一帧进行下采样后再进行分段,作用为:1、减少计算量;2、使粗粒度视频段矩阵的每一帧的大小与细粒度视频段矩阵的每一帧的大小相同,便于输入网络。粗粒度全局行为视频为深度视频。训练数据集中的粗粒度全局行为视频为经过预处理的视频,待识别的粗粒度全局行为视频为经过预处理的视频。所述预处理为:首先,使用插值技术将数据集中的所有视频规范化到统一的长度。该长度即为所有视频长度的中间值。其次,去除背景,仅保留以人为中心的视频部分,并将视频大小规范到一定尺寸。再次,使用min-max方法分别将所有视频的x,y,z坐标值规范化到[0,1]范围。最后,将所有样本进行水平翻转形成新的样本从而成倍扩大数据集中的训练样本。一种基于深度学习和多尺度信息的行为识别方法,包括如下步骤:(1)建立训练数据集;所述训练数据集中的深度视频选自MSRDailyActivity3D数据集;(2)构建具有若干并行深度卷积神经网络的深度神经网络模型;(3)选取训练数据集中的行为视频以设定的步长LStride进行分段,其中每段长度设定为LSeg,分段后形成了NSeg个视频段矩阵,分段数为NSeg=1+(NF-LSeg)/LStride,NF为深度视频的帧数;(4)将步骤(3)得到的NSeg个视频段矩阵并行送入步骤(2)中构建的具有NSeg个并行深度卷积神经网络的深度神经网络模型中进行训练;(5)选取待识别的行为视频进行步骤(3)得到NSeg个视频段矩阵,将得到的NSeg个视频段矩阵并行送入已经训练好的深度神经网络模型中进行行为识别。待识别的行为视频为经过预处理的视频。步骤(2)中的深度神经网络以卷积神经网络为构建块,具有一个分类层、至少一个卷积层、至少一个池化层以及至少一个全连接层。行为视频为深度视频。训练数据集中的行为视频为经过预处理的视频,待识别的行为视频为经过预处理的视频。所述预处理为:首先,使用插值技术将数据集中的所有视频规范化到统一的长度。该长度即为所有视频长度的中间值。其次,去除背景,仅保留以人为中心的视频部分,并将视频大小规范到一定尺寸。再次,使用min-max方法分别将所有视频的x,y,z坐标值规范化到[0,1]范围。最后,将所有样本进行水平翻转形成新的样本从而成倍扩大数据集中的训练样本。本发明的有益效果为:本发明获取粗粒度和细粒度视频矩阵,对所设计的并行深度卷积神经网络进行训练,将训练后的深度神经网络用于行为的识别分类,使得本发明的泛化性能好,可以在一个大数据集上进行训练,然后用于缺少训练数据的行为识别领域。本发明设计了一个并行深度卷积神经网络,通过行为视频的并行输入,可大大减少行为识别的时间开销,实时性效果好。本发明使用深度视频为研究对象,深度视频具有描述物体几何结构及光线、颜色的不敏感的特点。实验及结果表明,本发明提出的基于CNN的深度学习方法能够对以深度视频表示的人体行为进行有效识别,在MSRDailyActivity3D数据集中行为差异较为明显的躺下沙发、行走、弹吉他、站起和坐下五个行为的平均识别率为98%,对整个数据集上所有行为的识别率为60.625%。下面结合附图和具体实施方式对本发明作进一步说明。附图说明图1为本发明的基于深度学习和多尺度信息的行为识别方法的原理框图;图2为MSRDailyActivity3D中的行为视频(预处理前,上:喝水,下:写字);图3为MSRDailyActivity3D中的行为视频(预处理后,上:喝水,下:写字)。具体实施方式实施例一参见图1,一种基于深度学习和多尺度信息的行为识别方法,包括如下步骤:(1)建立训练数据集;所述训练数据集中的粗粒度全局行为视频选自MSRDailyActivity3D数据集。训练数据集中的粗粒度全局行为视频为经过预处理的视频。待识别的粗粒度全局行为视频为经过预处理的视频。所述预处理为:首先,使用插值技术将数据集中的所有视频规范化到统一的长度。该长度即为所有视频长度的中间值。其次,去除背景,仅保留以人为中心的视频部分,并将视频大小规范到一定尺寸。再次,使用min-max方法分别将所有视频的x,y,z坐标值规范化到[0,1]范围。最后,将所有样本进行水平翻转形成新的样本从而成倍扩大数据集中的训练样本。(2)构建具有若干并行深度卷积神经网络的深度神经网络模型。步骤(2)中的深度神经网络以卷积神经网络为构建块,具有一个分类层、至少一个卷积层、至少一个池化层以及至少一个全连接层。本发明分类层使用的是softmax分类器。本实施例的并行深度卷积神经网络包括依次连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第一全连接层、第二全连接层和分类层。(3)选取训练数据集中的粗粒度全局行为视频以设定的步长LStride进行分段,其中,每段长度设定为LSeg,分段后形成了NSeg个粗粒度视频段矩阵,分段数为NSeg=1+(NF-LSeg)/LStride,NF为粗粒度全局行为视频的帧数。将步骤(3)中的粗粒度全局行为视频的每一帧进行下采样后再进行分段,作用为:1、减少计算量;2、使粗粒度视频段矩阵的每一帧的大小与细粒度视频段矩阵的每一帧的大小相同,便于输入网络。研究对象即粗粒度全局行为视频采用深度视频。(4)从步骤(3)中的粗粒度全局行为视频中获取细粒度局部行为视频,对细粒度局部行为视频采取步骤(3)同样的方法进行分段得到NSeg个细粒度视频段矩阵。细粒度视频段矩阵的每一帧的大小与粗粒度视频段矩阵的每一帧的大小相同。截取粗粒度全局行为视频每一帧中的细粒度局部行为序列组成细粒度局部行为视频。细粒度的局部行为可以为手部动作,也可以为其他细节动作。细粒度的局部行为根据具体的应用确定,本数据集的细节动作主要集中在手部,如果细节动作在其他部位,则可能选取其他部分的细节动作。本实施例以粗粒度全局行为视频每一帧的手部关节为中心,截取设定大小的帧组成帧数为NF的细粒度局部行为视频。(5)将步骤(3)得到的NSeg个粗粒度视频段矩阵和步骤(4)得到的NSeg个细粒度视频段矩阵并行送入步骤(1)中构建的具有2NSeg个并行深度卷积神经网络的深度神经网络模型中进行训练;(6)选取待识别的粗粒度全局行为视频进行步骤(3)、(4)分别得到NSeg个粗粒度视频段矩阵和NSeg个细粒度视频段矩阵,将得到的NSeg个粗粒度视频段矩阵和NSeg个细粒度视频段矩阵并行送入已经训练好的深度神经网络模型中进行行为识别。本实施例前NSeg个网络处理粗粒度视频,后NSeg个网络处理细粒度视频。实施例二本实施例公开了一种基于深度学习和多尺度信息的行为识别方法,本实施例仅使用粗粒度的全局行为信息进行行为识别。包括如下步骤:(1)建立训练数据集;所述训练数据集中的深度视频选自MSRDailyActivity3D数据集;训练数据集中的行为视频为经过预处理的视频。待识别的行为视频为经过预处理的视频。所述预处理为:首先,使用插值技术将数据集中的所有视频规范化到统一的长度。该长度即为所有视频长度的中间值。其次,去除背景,仅保留以人为中心的视频部分,并将视频大小规范到一定尺寸。再次,使用min-max方法分别将所有视频的x,y,z坐标值规范化到[0,1]范围。最后,将所有样本进行水平翻转形成新的样本从而成倍扩大数据集中的训练样本。(2)参见图1,构建具有若干并行深度卷积神经网络的深度神经网络模型。步骤(2)中的深度神经网络以卷积神经网络为构建块,具有一个分类层、至少一个卷积层、至少一个池化层以及至少一个全连接层。本发明分类层使用的是softmax分类器。(3)选取训练数据集中的深度视频以设定的步长LStride进行分段,其中每段长度设定为LSeg,分段后形成了NSeg个视频段矩阵,分段数为NSeg=1+(NF-LSeg)/LStride,NF为深度视频的帧数;(4)将步骤(3)得到的NSeg个视频段矩阵并行送入步骤(2)中构建的具有NSeg个并行深度卷积神经网络的深度神经网络模型中进行训练;(5)选取待识别的深度视频进行步骤(3)得到NSeg个视频段矩阵,将得到的NSeg个视频段矩阵并行送入已经训练好的深度神经网络模型中进行行为识别。本发明实验步骤描述如下:假设规范化后的表示一个行为的视频大小为NF×W×H(本发明中为192×128×128),其中W,H分别为视频帧的宽和高。(1)将帧数为NF的行为视频以LStride为步长进行分段,其中每段长度为LSeg,则分段数为NSeg=1+(NF-LSeg/LStride,然后将视频帧1/4下采样,则分段后形成了NSeg×LSeg×W/4×H/4的视频段矩阵;(2)以深度视频每一帧的左手关节为中心,截取W/4×H/4大小的帧组成NF×W/4×H/4的新视频,对新视频采取步骤(1)同样的方法得到NSeg×LSeg×W/4×H/4的视频段矩阵;(3)将步骤(1)和步骤(2)的视频段矩阵进行融合得到2NSeg×LSeg×W/4×H/4的视频段矩阵;该视频段矩阵即为深度网络的输入,即该网络具有2NSeg个并行深度卷积神经网络,每个深度神经网络的输入为LSeg×W/4×H/4的视频。(4)使用训练数据集对并行深度卷积神经网络进行训练,然后使用测试数据集进行人体行为识别的测试,训练数据集和被试数据集完全不相交。本发明中被试{1,3,5,7,9
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1