一种非配合手部检测方法与流程

文档序号:17865058发布日期:2019-06-11 23:08阅读:357来源:国知局
一种非配合手部检测方法与流程

本发明涉及人机交互技术领域中的手部检测,具体涉及一种增强检测性能的非配合手部检测方法。



背景技术:

手部检测是计算机视觉领域的一个重要问题,在生活中有着广泛的应用,例如手语识别、人机交互、虚拟现实以及安全驾驶监控等等。早期的手部检测的方法建立在约束场景或者约束位置的条件下,不适合推广到非配合非约束场景的情况中。随着深度学习技术的迅速发展,基于目标检测框架例如faster-rcnn或者yolo的方法逐步减少这个前提限制,效果越来越鲁棒。但目前的检测方法仍存在不少问题,手是一种非刚体结构,具有姿态多变的特点,而且手局部信息少,尺度多变,还存在目标小的问题,使得检测起来存在不少挑战。目前已有的方法例如基于区域的多尺度全卷积网络(ms-rfcn)融合不同尺度的特征层信息,减少对小目标的漏检,取得较好的效果,但是只关注全局信息忽略了对上下文信息利用。



技术实现要素:

本发明的目的在于提出一种手部检测方法,弥补其他方法的不足。在提升检测精度的同时保持速度,促进手部检测的应用。

本发明提供的技术方案如下:一种非配合手部检测方法,其特征在于包含以下步骤:s1.输入图像经过主干网络提取特征,从高层向底层传递语义信息,得到不同尺度的特征层的特征图谱;s2、接着在其中一层经过上下文信息注意模块进行特征增强;s3、再输入区域建议网络提取建议框;s4、最后进行建议框的分类与回归。

在一些实施例中,还包括如下特征:

进行特征提取的主干网络为resnet101或者vggnet19等,其采用特征金字塔网络或者如下框架之一进行手部检测:fasterr-cnn、r-fcn、ssd等。

在特征输入区域建议网络之前或者主干网络中采用上下文信息模块进行上下文信息的选择性获取,以增强有效特征,减弱无关特征,提取上下文信息后达到特征增强的效果,输送到下一个卷积层或者区域建议网络中。

所述特征金字塔网络采用自底向上、自顶向下线路传递特征,自底向上是网络的前向过程,而自顶向下则把高层的语义信息传递到底层。

其中上下文信息的选择性获取方法采用空洞卷积扩大感受野,从而获得上下文信息,然后对不同感受野的特征图谱上的特征点进行相似性计算。

采用遍历的方式,原始特征图谱上一个特征点与空洞卷积特征图谱的所有特征点进行相似性计算,获取空间上的所有联系,然后通过权重进行加权和,最后使用批标准化进行归一化。

上下文信息注意模块采用拼接的方法对原始特征图谱与归一化后的结果进行拼接,然后采用卷积层降维恢复为原始维度。

在不同尺度的特征层进行预测分类,在特征层上生成一定数目区域建议框,然后把建议框映射到网络的最后一层卷积特征层上,通过感兴趣区域池化层使每个建议框生成固定尺寸的特征,利用探测分类概率和探测边框回归对分类概率和边框回归联合训练。

上下文信息注意模块对原始特征图谱与新特征图谱进行相似性计算获取到相似性权重,由该权重来决定该上下文信息是否属于手的一部分。

本发明的有益效果是:提出一种上下文信息注意的非配合手部检测方法,引入一个上下文信息注意模块,带来额外少量的参数,可以有效地提升检测的精度,并且保持速度。这种方法对于手的检测或者与手相关的任务有着重要的价值。本发明基于上下文信息注意机制的手部检测方法,兼收了目前多种方法的优点,并在局部上下文信息上进行选择性利用,得到较好的效果,形成一种非配合且性能鲁棒的手部检测方法,将对与手相关的任务奠定良好的基础,辅助其他任务。而且检测速度能够达到实时的效果,提升其应用价值。

附图说明

图1是本发明实施例上下文信息注意模块的示意图。

图2是本发明实施例上下文信息模块接入网络结构的示意图。

图3是本发明实施例的主要流程图。

具体实现方式

本发明下述实施例提出一种基于上下文信息注意机制的非配合手部检测方法,包括四个过程,如图3所示:输入图像经过主干网络——深度神经网络提取特征,从高层向底层传递语义信息,得到不同尺寸层的特征图谱,接着在某一层经过上下文信息注意模块进行特征增强,再输入区域建议网络提取建议框(区域建议网络是目标检测常用的一种生成建议框的方法,本申请不再详述),最后进行建议框的分类与回归。最终训练出一个手部检测的端到端深度神经网络,该网络就具备检测手的功能,只要对网络输入图像就可以得到检测结果。

其中,训练样本通过操作图像像素来镜像翻转,扩增样本后分批次多次输入到网络(指上述整个框架),训练中学习率随批次增加逐渐降低(经过若干次迭代后学习率降低10倍。学习率是深度学习里边一个通用的技巧,用来更新损失用,在此不再详细描述),以提升训练速度。

上下文信息注意模块的示意图如图1所示,上下文信息模块接入网络结构的示意图如图2所示,即图2表示了如何在fpn框架中接入上下文信息注意模块。

先经过主干网络即resnet101或者vggnet19等进行特征提取,特征提取网络对输入图像提取特征时优先采用特征金字塔网络,但不局限于该框架,还可以是其他类似的框架,例如fasterrcnn(towardsreal-timeobjectdetectionwithregionproposalnetworks),r-fcn(objectdetectionviaregion-basedfullyconvolutionalnetworks),yolo(real-timeobjectdetection),ssd(singleshotmultiboxdetector)等。

主干网络采用resnet101、vgg19、darknet53等,resnet101有较强的特征提取能力,使得对手的特征提取更为有效。

特征金字塔网络采用自底向上、自顶向下线路传递特征,自底向上是网络的前向过程,而自顶向下则把高层的语义信息传递到底层。在图2中,c1、2、3、4、5为一个卷积层,根据特征金字塔网络中resnet101的网络结构划分,输入图像经过c1向c5传递,不断提取特征,这是从低层向高层传递过程,而p5是对应于c5特征层,从p5向p2不断传递特征的过程称为从高到低传递。因为高层特征层具备较强的语义信息,因此从p5向p2底层逐层传递语义信息。有助于底层分辨率高的特征图谱获取到高层的语义信息。

同时,在不同尺度的特征层进行预测分类,可以兼顾不同尺度手的检测。预测与分类都是由区域建议网络来实现,在p2、p3、p4、p5特征层上生成一定数目区域建议框。然后把建议框映射到网络的最后一层卷积特征层上,通过感兴趣区域池化层使每个建议框生成固定尺寸的特征,利用softmaxloss(探测分类概率)和smoothl1loss(探测边框回归)对分类概率和边框回归联合训练。训练完测试过程则是去掉损失函数,直接由区域建议网络生成的带有分类得分的建议框,进行非极大值抑制得到检测结果。

本实施例为了提高检测性能,在特征金字塔网络的区域建议网络前采用上下文信息注意模块进行特征增强。利用上下文信息注意模块进行特征增强可以是在p2,p3,p4,p5任意一个层或者多个层,即特征输入区域建议网络之前,或者主干网络中采用上下文信息模块进行上下文信息的获取,以增强有效特征,减弱无关特征,提取上下文信息后达到特征增强的效果,然后输送到下一个卷积层或者区域建议网络中。

为了简单示例,图2中展示如何在p4接入上下文信息注意模块。上下文信息注意模块的输入是不同感受野但同等大小的特征图谱。

原始特征图谱经过空洞卷积得到新的特征图谱,空洞卷积是上下文信息注意模块的一部分,空洞卷积的作用可以扩大感受野面积,获取上下文信息。相比原始特征图谱上的一个特征点,同样位置的特征点由于扩大了感受野,可以获取到更大范围的信息,因此可以更好地捕获到上下文信息。但是获取到的上下文信息不是都是有效的,而此时上下文信息注意模块的其他部分起到对信息的筛选,增强有效的,减弱无关的上下文信息。筛选信息时根据特征点之间的相似性权重来衡量,采用遍历的方式,对原始特征图谱上一个特征点与空洞卷积特征图谱的所有特征点进行相似性计算,获取空间上的所有联系,然后通过权重进行加权和,最后使用批标准化进行归一化,得到特征图谱pn”。

由于上下文信息并不是都能起到有效的作用,因此需要对其进行选择性利用。上下文信息注意模块对原始特征图谱与经过空洞卷积后的特征图谱进行相似性计算获取到相似性权重,由该权重来决定该上下文信息是否属于手的一部分,通过加权和可以特征获取到周围或者远距离的相似特征,这样手不仅获取到近距离的依赖,而且可以获取到远距离依赖,凸显目标特征。

在图2中,c1、c2、c3、c4、c5各为一个卷积层,根据特征金字塔网络中resnet101的网络结构划分,输入图像经过c1向c5传递,不断提取特征,这是从低层向高层传递过程,而p5是对应于c5特征层,从p5向p2不断传递特征的过程称为从高到低传递。因为高层特征层具备较强的语义信息,因此从p5向p2底层逐层传递语义信息。在p3,4,5某一层使用上下文信息注意模块,根据图1,上下文信息注意模块的实现为:

p'n=relu[d(pn)](1)

式中relu[·]为relu激活函数,目的是为了保持非线性。

d(pn)为空洞卷积扩大感受野,可以获取到上下文信息,然后经过激活函数保持非线性。

其中,yi是位置i的输出响应,f(·)是相似性计算函数,可以采用矩阵乘法来计算。pn(xi)是特征图谱pn在位置i的特征值,p'n(xj)是特征图谱p'n在位置j的特征值。归一化因子c(pn)=n,n是特征图谱pn上的总特征值个数。θ(·),φ(·)和g(·)为卷积核尺寸为1x1的卷积层,输出的通道数与输入的通道数保持一致,没有进行降维或者升维,这样可以保持信息的一致性,避免过多的变化。

式(2)表示对pn(xi),p'n(xj)计算相似性,得到相似性权重,c(pn)为归一化因子,衡量pn(xi),p'n(xj)是否同种性质的特征点,例如是不是都是手的。其中,

f(pn(xj),p'n(xj))=θ(pn(xi))tφ(p'n(xj))(3)

f为相似性计算函数,采用矩阵乘法。

p”n=wzyi+pn(4)

式(4)表示对残差结构进行加权和,使得相似性一样的特征点能够互相增强。

输入图像经过特征金字塔网络提取特征,得到特征图谱集合(p2,p3,p4,p5),然后特征图谱pn(n=2,3,4,5)先经过一个空洞卷积层,得到同等尺寸的特征图谱pn',参数dilation根据实验及特征图谱的大小设置。图中n为一个批次图片数量,h为特征图谱高,w为特征图谱宽,c为通道数。空洞卷积层能够扩大局部感受野而不引入过多的参数,因此相比原来的卷积层,可以捕获到上下文的信息。

然而,并不是所有的上下文信息都是有利于手部检测的,所以需要进行选择性利用。接着对pn与p'n进行相似性计算(如图1中f(pn(xi),p'n(xj))表示相似性计算,oc表示通道数),如公式(2)(3)所示,pn”是对pn进行加权和的结果(如公式(4)所示)。在公式(4)中,使用1x1的卷积层wz来进行加权和,yi是公式(2)中的输出,“+pn”是一种残差结构。公式(4)中的wz是一个卷积核为1*1,stride为1的卷积层,用来增加网络的表达能力,这样上下文信息结构能够方便地接入到网络中。

上下文信息模块不改变输入特征图谱的尺寸与通道数,而且使用残差结构,当p”n=wzyi+pn中wzyi没有学习到东西,接近0时,p”n=pn,相当于没有额外的操作,输入输出不变。

然后使用一个batchnormalization(批标准化)对公式(4)的输出结果进行归一化:为了保持特征图谱的均值跟方差在一个确定的范围内,同时避免梯度消失的问题。

批标准化的步骤如下:

一个小批次的特征图谱值b={x1…m},x是每个特征值,γ,β是需要学习的参数。公式(5)先对m个特征值x求均值,接着由公式(6)求出方差,然后由公式(7)进行归一化,最后由公式(8)进行缩放与平移,保持非线性。

最后上下文信息注意模块的输出是对pn和pn”进行拼接(图1中拼接模块处表示了这个拼接,拼接模块把pn与pn”拼接在一起,拼接完维度变为2c),这是为了保留原始的信息,避免相似性计算时因为上下文信息模块对信息进行太大的改变而破坏原来的信息结构,起到当信息突变时进行纠正的作用。为了与后面的结构层相对接,恢复维度,采用一个1x1的卷积层wr进行降维,得到最后的特征图谱pn”’。如图1,wr卷积层进行降维恢复为原始维度,该层输入通道数为2c,输出为c。这样上下文信息模块可以接入到网络任何位置(上下文信息模块不改变输入特征图谱的大小与通道数,因此可以在网络中的卷积层、池化层、激活层后使用,或者在区域建议网络之前使用)

图2展示了如何把上下文信息模块接入到特征金字塔网络,即如何在fpn框架中接入上下文信息注意模块(cam,contextattentionmodel)。按照特征金字塔的介绍,最后的特征图谱集称为(p2,p3,p4,p5),由(conv2,conv3,conv4,conv5)即图2中(c2,c3,c4,c5)变换得到(注:c1层也是一个卷积层,同样用来提取特征,只是其不参与到自顶向下的结构中)。

上下文信息注意模块不仅可以接在p4层后面,也可以接在其他层,例如p2层,p3层,p5层,由实验得出最好的位置及参数。图2中作为一个简单示例,只增加了p4这一路。虽然该方法不只可以增加p4这一路,p2,p3,p5也可以单独增加或者组合增加,但在实验数据集上增加p4这一路速度与精度达到较好的平衡。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1