基于深度学习的监控场景下人物姿态识别方法与流程

文档序号:14156209阅读:1747来源:国知局

本发明属于图像处理技术领域,更进一步涉及计算机视觉技术领域中的一种基于深度学习的监控场景下人物姿态识别方法。本发明可用于智能监控系统中人物异常姿态的识别。



背景技术:

目前,人物姿态识别方法都是基于一些对应用场景苛刻的假设上的,例如目标小的尺度变化和小的视觉改变等。但这在现实世界中是很难满足的。目前,在这方面,大部分当前的方法都是遵循两个步骤:(1)在原始的输入中提取复杂的人工特征;(2)在获取的特征上学习分类器。现实世界的场景中,几乎很难知道对于一个具体的任务什么样的特征才是重要的,因为特征的选择与具体的问题高度依赖。特别是行为识别上,不同的运动类型在外观和运动模型上都呈现出非常大的不同。而卷积神经网络是人工神经网络的一种已成为当前语音分析和图像识别领域的研究热点,它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显,使图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程。

东南大学在其申请的专利文献“人体动作识别中的基于空时能量分解的关键点检测方法”(专利申请号201410364346.x,公开号cn104143089a)中公开了一种基于空时能量分解的关键点检测方法。该方法包括对人体动作视频进行空时能量分解和筛选关键点候选集合的过程。首先对人体动作视频进行空时能量分解,计算得到空时能量分解矩阵和矩阵中每一点邻域内的能量和值,并设置阈值因子α,然后将邻域内的能量和值大于该阈值因子α的点选入关键点候选集合,将所述关键点候选集合中的点按能量和值从大到小排列,最后设置关键点数目k,选取确定的新的关键点候选集合中前k个点作为最终的关键点。该专利申请公开的方法存在的不足之处是:采用支持向量机(supportingvectormachine,svm)提取人工特征的过程过于复杂,计算分析数据慢。

davisjw,bobickaf在其发表的论文“therecognitionofhumanmovementusingtemporaltemplates.”(patternanalysisandmachineintelligence,ieeetransactionson23(3):257-267)中提出了一种基于模板匹配的人物姿态识别方法。该方法首先使用能量图和运动历史图来表示一个包含已知姿态类别的图像序列,然后利用马氏距离来计算模板之间的距离,最后通过计算观测序列的图像描述符与训练序列的图像描述符之间的距离,分类结果为其k个近邻训练序列中常见的姿态类型。该方法存在的不足之处是:对于快速运动的人体或者行人形变较大的情况,检测效果不够理想。



技术实现要素:

本发明的目的是克服上述现有技术中存在的不足,提出一种基于深度学习的监控场景下人物姿态识别方法。本发明通过采用基于区域的卷积神经网络和全卷积神经网络技术解决人物姿态的识别问题。首先使用基于区域的卷积神经网络提取包含特征的行人目标框,然后使用全卷积网络去除行人目标框的干扰背景,准确识别图像中的行人姿态。

为实现上述目的,本发明具体实现步骤包括如下:

(1)输入图像:

选取任意分辨率的监控场景下包含行人的彩色图像,作为输入图像;

(2)利用快速区域卷积神经网络获取行人目标框:

(2a)将输入图像调整到1000×600像素的大小,得到调整后的图像;

(2b)使用快速区域卷积神经网络中的深度特征提取网络vgg,对调整后图像的三个通道信息中的每个通道,分别进行卷积和下采样特征提取处理,得到512张大小为63×37像素的特征图conv5-3maps;

(2c)将所有的特征图conv5-3maps,输入到区域建议网络rpn中两个并行的全连接神经网络中,分别进行分类和回归操作,获得63×37×9个锚点anchor的分类结果和位置结果,从中挑选出分类结果中得分最高的前300个anchor和与之对应的位置结果;

(2d)对300个anchor的位置结果进行conv5-3maps映射操作,得到300个对应的位置映射图;

(2e)将300个位置映射图输入到快速区域卷积神经网络中的感兴趣区域池化层roipooling,得到300个大小为7×7像素的特征图;

(2f)将300个大小为7×7像素的特征图输入到快速区域卷积神经网络最后两个并行的全连接神经网络中,分别进行分类和回归操作,获得300个分类结果和对应的位置结果,从中挑选出行人的位置;

(2g)对行人的位置进行非极大值抑制处理nms,将抑制后的行人位置,作为行人目标框;

(3)利用全卷积神经网络对行人目标框进行掩码处理:

(3a)将行人目标框输入到全卷积网络中,得到与目标框大小相等的二值掩码矩阵,二值掩码中的0表示背景区域,二值掩码中的1表示行人区域;

(3b)建立一个与目标框大小相等的零矩阵;

(3c)填充零矩阵,得到经掩码处理的行人目标框;

(4)训练活动基activebasis模型:

(4a)将经掩码处理的行人目标框,按照用户选取的姿态类别标签和数量,进行分类标注;

(4b)从每一类标注后的图像中随机取出百分之八十作为训练图像,剩余百分之二十作为测试图像;

(4c)随机选取50个不同方向的gabor滤波器作为特征基;

(4d)根据每张训练图像与50个特征基中每个特征基的卷积值和50个特征基中每个特征基的位置偏移量,计算50个特征基的权值和50个特征基的更新值;

(4e)将50个特征基的权值和50个特征基的更新值组成训练模型,保存为训练文件;

(5)计算测试图像的预测值:

加载训练文件,根据特征基的权值和特征基的更新值,计算测试图像的预测值;

(6)输出预测值:

输出所有测试图像的预测值。

本发明与现有技术相比,具有以下优点:

第一,本发明利用快速区域卷积神经网络自动获取含有人工特征的行人目标框,克服了现有技术中需要采用支持向量机来提取人工特征的过程过于复杂,计算分析数据慢的不足,使得本发明具有提取特征代表性性高和提取速度快的优点。

第二,本发明利用全卷积神经网络对行人目标框进行掩码处理,克服了对于快速运动的人体或者行人形变比较大的情况下检测效果不够理想的不足,使得本发明具有抗干扰性强的优点。

附图说明

图1是本发明的流程图;

图2是本发明全卷积神经网络对行人目标框进行掩码处理的效果图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步详细的描述。

结合附图1对本发明的具体步骤描述如下:

步骤1,输入图像。

选取任意分辨率的监控场景下包含行人的彩色图像作为输入图像。

步骤2,利用快速区域卷积神经网络获取行人目标框。

将输入图像调整到1000×600像素的大小,得到调整后的图像。

使用快速区域卷积神经网络中的深度特征提取网络vgg,对调整后图像的三个通道信息中的每个通道,分别进行卷积和下采样特征提取处理,得到512张大小为63×37像素的特征图conv5-3maps,具体步骤描述如下:

第1步,在深度特征提取网络vgg的第一层卷积层中,调整后的图像先后经过两个大小为3×3×64像素、补齐为1像素的滤波器,得到滤波后的64张1000×600像素的特征图maps。

第2步,在深度特征提取网络vgg的第一层采样层中,对64张1000×600像素的特征图maps,分别用2×2像素窗口进行区域最大值采样操作,得到64张500×300像素大小的特征图maps。

第3步,在深度特征提取网络vgg的第二层卷积层中,对第一层采样层得到的64张500×300像素大小的特征图maps,先后经过两个大小为3×3×128像素、补齐为1像素的滤波器滤波得到128张大小为500×300像素的特征图maps。

第4步,在深度特征提取网络vgg的第二层采样层中,对第二层卷积层得到的128张500×300像素大小的特征图maps用2×2像素窗口进行区域最大值采样操作,得到128张大小为250×150像素的特征图maps。

第5步,在深度特征提取网络vgg的第三层卷积层中,对第二层采样层得到的128张大小为250×150像素的特征图maps,先后经过四个大小为3×3×256像素、补齐为1像素的滤波器滤波得到256张大小为250×150像素的特征图maps。

第6步,在深度特征提取网络vgg的第三层采样层中,对第三层卷积层得到的256张250×150像素大小的特征图maps,用2×2像素窗口进行区域最大值采样操作,得到256张大小为125×75像素的特征图maps。

第7步,在深度特征提取网络vgg的第四层卷积层中,对第三层采样层得到的256张大小为125×75像素的特征图maps,先后经过四个大小为3×3×512像素、补齐为1像素的滤波器滤波,得到512张大小为125×75像素的特征图maps。

第8步,在深度特征提取网络vgg的第四层采样层中,对第四层卷积层得到的512张大小为125×75像素的特征图maps,用2×2像素窗口进行区域最大值采样操作,得到512张大小为63×37像素的特征图maps。

将512张大小为63×37像素的特征图conv5-3maps,输入到区域建议网络rpn中两阿个并行的全连接神经网络中,分别进行分类和回归操作,获得63×37×9个锚点anchor的分类结果和位置结果,从中挑选出分类结果中得分最高的前300个anchor和与之对应的位置结果。

对300个anchor的位置结果进行conv5-3maps映射操作,得到300个对应的位置映射图。

将300个位置映射图输入到快速区域卷积神经网络的感兴趣区域池化层roipooling中,得到300个大小为7×7像素的特征图。

将300个大小为7×7像素的特征图输入到快速区域卷积神经网络最后两个并行的全连接神经网络中,分别进行分类和回归操作,获得300个分类结果和对应的位置结果,从中挑选出行人的位置。

对行人的位置进行非极大值抑制处理nms,将抑制后的行人位置,作为行人目标框,具体步骤如下:

第1步,计算所有行人位置的区域面积。

第2步,根据期望抑制的程度,设置抑制阈值。

第3步,计算分类得分最高的位置与其他位置的重叠面积比例,将超过抑制阈值的位置进行抑制。

步骤3,利用全卷积神经网络对行人目标框进行掩码处理。

将行人目标框输入到全卷积网络中,得到与目标框大小相等的二值掩码矩阵,二值掩码中的0表示背景区域,二值掩码中的1表示行人区域。

建立一个与目标框大小相等的零矩阵。

参照附图2,对填充零矩阵,得到经掩码处理的图像文件的步骤做进一步的描述。图2中的奇数列表示经掩码处理的背景图像文件,偶数列表示经掩码处理的行人目标框图像文件,具体步骤如下:

第1步,在零矩阵中与二值掩码矩阵值为0的相应位置中,填充白色像素值255。

第2步,在零矩阵中与二值掩码矩阵值为1的相应位置中,填充行人目标框的值。

第3步,将填充矩阵转换为图像,得到掩码处理后的行人目标框。

步骤4,训练活动基activebasis模型。

将经掩码处理的行人目标框,按照用户选取的姿态类别标签和数量,进行分类标注。

从每一类标注后的图像中随机取出百分之八十作为训练图像,剩余百分之二十作为测试图像。

随机选取50个不同方向的gabor滤波器作为特征基。

按照下式,计算每张训练图像与50个特征基中每个特征基的卷积值:

cm,i=|<im,bi>|2

其中,cm,i表示第m张训练图像im与第i个特征基bi的卷积结果,<>表示卷积操作,|·|2表示取绝对值平方操作。

按照下式,计算50个特征基中每个特征基的位置偏移量:

其中,δbi表示第i个特征基的位置偏移量,m表示训练图像总数,∑表示求和操作。

按照下式,计算50个特征基中每个特征基的权值:

其中,λi表示第i个特征基的权值。

按照下式,计算50个特征基中每个特征基的更新值:

wi=bi+δbi

其中,wi表示第i个特征基的更新值。

将50个特征基的权值和50个特征基的更新值组成训练模型,保存为训练文件。

步骤5,计算测试图像的预测值。

加载训练文件,根据特征基的权值和特征基的更新值,按照下式,计算测试图像的预测值:

其中,um表示第m张测试图像的测试结果。

步骤6,输出预测值。

输出所有测试图像的预测值。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1