基于多分支级联Transformer的手势分割网络装置和方法

文档序号:32345417发布日期:2022-11-26 11:11阅读:109来源:国知局
基于多分支级联Transformer的手势分割网络装置和方法
基于多分支级联transformer的手势分割网络装置和方法
技术领域
1.本发明涉及人机交互领域,涉及计算机视觉领域,具体说是一种基于多分支级联 transformer的手势分割方法。


背景技术:

2.随着机器人的快速发展,人机交互(hri)已经变得越来越重要。手势可以为hri提供简单、直观、简洁的方式,因此基于视觉的手势识别引起了很多学者的关注。此外,基于视觉的手势识别主要包括两个步骤:手部检测/分割和分类。手部检测是在图像中存在手部区域的情况下,利用图像中的边界框来检测和标记手部区域。手部分割是将检测到的手部区域作为感兴趣的区域从图像中分割出来,以减少后续操作的计算量。此外,手部检测/分割步骤是分类的初始和必要步骤,手部分割的准确性极大地影响了手势识别的准确性。
3.学者们利用传统方法来检测/分割手部区域。一些研究人员采用皮肤颜色[1]、形状和纹理 (如定向梯度直方图[2]、haar-like[3]、尺度不变特征变换[4]特征),结合皮肤颜色、形状和纹理[5],融合运动和皮肤颜色[6]信息来使用单眼相机分割手部区域。
[0004]
随着深度学习方法的发展,基于cnn的方法取得了良好的性能。一些研究人员应用基于卷积神经网络(cnn)的方法来检测/分割手部区域。tang等人[7]使用单镜头多箱检测器来检测手部区域。al-hammadi等人[8]利用多个深度学习架构来分割手部区域。dadashzadeh等人[9]利用卷积残差网络和strous空间金字塔集合来分割手部区域。wei等人[10]则将目标检测模型ssd(single shot multi-box detector,ssd)纳入手势分割,但这种模型在进行阈值处理时导致手部细节信息的遗漏。cui等人[11]提出了iaspp-resnet模型,该模型旨在使网络能够提取手势的多尺度信息,丰富手势的特征表示,并获得更准确的手势分割结果。许多手势分割的方法都是基于全卷积神经网络,它们应用一系列的卷积层和下采样层来扩展网络的感受野,获得手势的特征,然后利用上采样层来恢复中间的特征图,从而分割手势。中国专利 201910130815.4提出了改进胶囊网络与算法的手势图像分割与识别方法,其采用深度学习中的改进胶囊网络检测手部并生成二值化图像用于手势识别,包括以下步骤:拍摄和收集复杂背景下的手势图像;构建及训练u型残差胶囊网络获得二值化手势图像;定位手势矩形包围框;构建及训练改进矩阵胶囊网络实现手势图像的识别。但是目前基于视觉的手势识别方法在复杂背景、非均匀光照条件下,现有的网络收敛速度较慢,手势识别率并不高。由于手势形状多变,背景干扰信息复杂等因素,手势分割仍存在一定的挑战性问题,其结果会直接影响对手势的识别过程,进而降低人机交互性能。


技术实现要素:

[0005]
本发明的目的之一是提供一种基于多分支级联transformer的手势分割网络装置,以解决现有网络装置中手势识别率低的问题。
[0006]
本发明的目的之一是这样实现的:一种基于多分支级联transformer的手势分割网络装置,包括有:
[0007]
深度卷积神经网络dcnn,对原始手势图像进行特征提取后得到中间特征图;
[0008]
多分支级联transformer模块mbct,包括有多个级联在一起的transformer分支,每个 transformer分支均包括有串接在一起的patch partition层、linear embedding层和多窗口自注意力块mwsa;以及
[0009]
解码器,用于恢复为与原始手势图像相同大小的尺寸;
[0010]
所述深度卷积神经网络dcnn接收原始手势图像进行运算后,将运算结果一路输入到多分支级联transformer模块mbct内,另一路和多分支级联transformer模块mbct的运算结果进行叠加后,得到叠加后的手势图像,输入到解码器中;
[0011]
所述多分支级联transformer模块mbct接收深度卷积神经网络dcnn输送的手势图像并进行运算,并将运算结果与深度卷积神经网络dcnn的运算结果进行叠加,得到叠加后的手势图像,输入到解码器中;
[0012]
所述解码器接收原始手势图像和叠加后的手势图像,进行解码,得到对应的手势分割图像。
[0013]
进一步地,本发明可以按如下技术方案实现:
[0014]
每个所述transformer分支首先将中间特征图送入patch partition层,patch partition层利用卷积操作对特征图进行下采样,将中间特征图划分为非重叠的patch,得到划分好patch之后的特征图;
[0015]
linear embedding层将patch partition层输出的特征图的维度变为特定的维度,表示为c;
[0016]
多窗口自注意力块mwsa接收linear embedding层输出的特定图,对其提取手势的多尺度特征;
[0017]
transformer分支将经过多窗口自注意力块mwsa后的输出结果,经过patch merging层后传送到下一transformer分支中,与下一transformer分支的linear embedding层输出融合后,进行进入到多窗口自注意力块mwsa进行特征提取;最后一个transformer分支的输入包含了前几个transformer分支提取到的手势特征;
[0018]
每个所述transformer分支的输出结果自底向上逐层进行上采样操作,并将结果逐级进行串联,得到总的特征图。
[0019]
所述patch mergging层在特征图行方向和列方向上,间隔2选取像素值,拼接在一起作为一整个张量,拉伸展开后通道维度会变成原来的4倍,再通过一个全连接层将通道维度设为特定的维度。
[0020]
所述多窗口自注意力块mwsa包括有三个级联在一起的多头自注意力子模块mhsa,每个多头自注意力子模块mhsa包括有串接layernorm(ln)层、多头自注意力模块msa、残差连接(ln)和具有gelu非线性的2层mlp;
[0021]
多窗口自注意力mwsa模块可以被表述为:
[0022][0023][0024]
[0025][0026][0027][0028]
其中代表第l
th
个w
l-msa模块的输出,z
l
代表第l
th
个mlp模块的输出;
[0029]
三个所述多头自注意力子模块mhsa的窗口大小分别为3、5、7。
[0030]
所述深度卷积神经网络dcnn是由1个7
×
7的卷积、1个3
×
3的卷积和4个残差组构成的特征提取网络,在第4个所述残差组中添加了1
×
1的卷积;输入图像在经过深度卷积神经网络dcnn特征提取后得到中间特征图,其尺寸大小为原始图像的1/8。
[0031]
所述解码器包括有串接的上采样模块、3
×
3卷积模块、上采样模块、3
×
3卷积模块、上采样模块、1
×
1卷积模块。
[0032]
本发明的目的之二是提供一种基于多分支级联transformer的手势分割方法,以解决现有技术中人机交互性能低的问题。
[0033]
本发明的目的之二是这样实现的:一种基于多分支级联transformer的手势分割方法,包括如下步骤:
[0034]
a、所述基于多分支级联transformer的手势分割方法应用于权利要求1所述的基于多分支级联transformer的手势分割网络装置;
[0035]
b、对手势图像进行预处理,使手势图像大小尺寸固定;
[0036]
c、构建权利要求1中的手势分割网络,将预处理后的图片输入到手势分割网络中,用损失函数以及优化器对手势分割网络进行训练,得到具有最优参数的手势分割网络;
[0037]
e、将手势图像输入到训练好的手势分割网络中就可以输出对应的手势分割图像。
[0038]
进一步地,本发明可以按如下技术方案实现:
[0039]
所述手势分割网络包括有:
[0040]
深度卷积神经网络dcnn,对手势图像进行特征提取后得到中间特征图;
[0041]
多分支级联transformer模块mbct,包括有多个级联在一起的transformer分支,每个 transformer分支均包括有串接在一起的patch partition层、linear embedding层和多窗口自注意力块mwsa;以及
[0042]
解码器,用于恢复为与原始输入图像相同大小的尺寸;
[0043]
所述深度卷积神经网络dcnn接收原始手势图像进行运算后,将运算结果一路输入到多分支级联transformer模块mbct内,另一路和多分支级联transformer模块mbct的运算结果进行叠加后,得到叠加后的手势图像,输入到解码器中;
[0044]
所述多分支级联transformer模块mbct接收深度卷积神经网络dcnn输送的手势图像并进行运算,并将运算结果与深度卷积神经网络dcnn的运算结果进行叠加,得到叠加后的手势图像,输入到解码器中;
[0045]
所述解码器接收原始手势图像和叠加后的手势图像,进行解码,得到对应的手势分割图像。
[0046]
在所述步骤b中,包括有手势图像获取操作和预处理操作,手势图像获取操作用于获取彩色的原始手势图像,预处理操作用于对彩色原始手势图像进行旋转、翻转和裁剪操
作,并将结果输入到手势分割网络中。
[0047]
本发明所提供的一种基于多分支级联transformer的手势分割方法的优点在于:
[0048]
对于复杂背景中的手势存在尺度多样的问题,本发明在多分支级联transformer模块 mbct中利用多分支结构,在对手势局部细节特征提取的同时对全局语义信息建模,有效获取到手势的多尺度特征,同时各个分支之间的级联方式使模型感受野得到增加,在获取局部细节特征的同时也对全局语义信息进行了建模。多窗口自注意力mwsa利用窗口之间的差异实现对手势特征的精细以及粗略表示,在降低计算量的同时增强了不同窗口之间的语义信息交互,最终通过整体编解码结构得到手势分割图像。
[0049]
本发明经过实验证明,其性能比其他主流算法更好,分割结果手部边缘部分更加平滑,对复杂背景的去除能力更强,具有较强的鲁棒性和有效性。本发明在光照不均匀、背景噪音复杂以及手势形状多变等情况下,具有较高的准确性以及较强的鲁棒性。
附图说明
[0050]
图1是本发明的结构示意图。
[0051]
图2是分支级联transformer模块mbct的框架图。
[0052]
图3是多窗口自注意力块mwsa的框架图。
[0053]
图4是本发明的流程图。
[0054]
图5是本发明与其他方法的测试结果柱状图。
[0055]
图6是本发明的手势分割效果图。
具体实施方式
[0056]
实施例1
[0057]
如图1所示,本发明的基于多分支级联transformer的手势分割网络装置,包括有:深度卷积神经网络dcnn(deep convolutional neural network)、多分支级联transformer模块mbct (multi-branch cascade transformer)和解码器。编码部分由深度卷积神经网络dcnn和多分支级联transformer mbct组成。
[0058]
深度卷积神经网络dcnn对原始手势图像进行特征提取后得到中间特征图。深度卷积神经网络dcnn是由1个7
×
7的卷积、1个3
×
3的卷积和4个残差组构成的特征提取网络。为了降低深度卷积神经网络dcnn的特征通道数,减少计算量,同时融合更多的局部细节信息,在第4个所述残差组中添加了1
×
1的卷积;输入图像在经过深度卷积神经网络dcnn特征提取后得到中间特征图,其尺寸大小为原始图像的1/8。
[0059]
如图2所示,多分支级联transformer模块mbct,包括有多个级联在一起的transformer 分支,每个transformer分支均包括有串接在一起的patch partition层、linear embedding层和多窗口自注意力块mwsa(multi-window self-attention block)。在手势分割网络中,多分支级联transformer模块mbct被设计用来提取手势的局部细节和全局语义信息。本发明的采用5个级联在一起的transformer分支。
[0060]
每个transformer分支首先将中间特征图送入patch partition层,patch partition层利用卷积操作对特征图进行下采样,将中间特征图划分为非重叠的patch,得到划分好patch之后的特征图。patch mergging层在特征图行方向和列方向上,间隔2选取
像素值,拼接在一起作为一整个张量,拉伸展开后通道维度会变成原来的4倍,再通过一个全连接层将通道维度设为特定的维度。每个transformer分支对特征图划分的patch大小不同,在本发明中,各个 transformer分支从上到下patch大小分别为1、2、4、8、16。patch越大,经过patch partition 层得到的特征图尺寸就越小,多窗口自注意力块mwsa对该特征图的全局建模能力就越强,例如,当patch大小为16时,得到的特征图尺寸大小为4
×
4,多窗口自注意力块对小尺寸的特征图的全局特征提取能力更强。
[0061]
linear embedding层将patch partition层输出的特征图的维度变为特定的维度,表示为c,从而方便多窗口自注意力块mwsa的计算。
[0062]
多窗口自注意力块mwsa接收linear embedding层输出的特定图,对其提取手势的多尺度特征。
[0063]
为了扩大模型的感受野,获得更多的手势局部细节,transformer分支将经过多窗口自注意力块mwsa后的输出结果,经过patch merging层后传送到下一transformer分支中,与下一transformer分支的linear embedding层输出融合后,进行进入到多窗口自注意力块mwsa 进行特征提取;最后一个transformer分支的输入包含了前4个transformer分支提取到的手势特征。具体地说,每个transformer分支除最后一个transformer分支外都将输出结果经过 patch merging层后传送到下一transformer分支,与下一transformer分支的输入融合后进行特征提取。
[0064]
每个transformer分支的输出结果自底向上逐层进行上采样操作,并将结果逐级进行串联,得到总的特征图。
[0065]
如图3所示,多窗口自注意力块mwsa包括有三个级联在一起的多头自注意力子模块 mhsa,每个多头自注意力子模块mhsa包括有串接layernorm(ln)层、多头自注意力模块msa、残差连接(ln)和具有gelu非线性的2层mlp;
[0066]
多窗口自注意力mwsa模块可以被表述为:
[0067][0068][0069][0070][0071][0072][0073]
其中代表第l
th
个w
l-msa模块的输出,z
l
代表第l
th
个mlp模块的输出。
[0074]
为了在同一特征层实现精细和粗略的特征提取,本发明设计了多窗口自注意力块mwsa,三个多头自注意力子模块mhsa的窗口大小分别为3、5、7。利用固定窗口的自注意力机制可以减少多分支级联transformer模块mbct的计算量,而不同窗口之间的大小差异增强了不同窗口之间的语义互动,增加了网络的感受野。多窗口自注意力mwsa内嵌于 mbct的各个transformer分支中以提取手势特征。在多窗口自注意力mwsa中,利用窗口大小的不同来
在同一特征水平上提取手势的精细和粗略特征,在减少模型计算量的同时增强了不同窗口之间的语义信息交互。
[0075]
如图1所示,深度卷积神经网络dcnn接收原始手势图像进行运算后,将运算结果一路输入到多分支级联transformer模块mbct内,另一路和多分支级联transformer模块mbct 的运算结果进行叠加后,得到叠加后的手势图像,输入到解码器中。
[0076]
多分支级联transformer模块mbct接收深度卷积神经网络dcnn输送的手势图像并进行运算,并将运算结果与深度卷积神经网络dcnn的运算结果进行叠加,得到叠加后的手势图像,输入到解码器中。
[0077]
解码器接收原始手势图像和叠加后的手势图像,进行解码,得到对应的手势分割图像。
[0078]
解码器,用于恢复为与原始手势图像相同大小的尺寸。解码器包括有串接的上采样模块、 3
×
3卷积模块、上采样模块、3
×
3卷积模块、上采样模块、1
×
1卷积模块。
[0079]
在解码过程中,将多分支级联transformer模块mbct的输出与多分支级联transformer 模块mbct的输出叠加后为解码器的输入特征图,该输入特征图经过一系列卷积与反卷积操作后,恢复为与原始手势图像相同大小的尺寸。为了获得更多的手势细节,将得到的特征图与原始图像进行串联,并对其进行1
×
1卷积计算,最终得到手势分割结果图。
[0080]
本发明还包括有手势图像获取模块和预处理模块,手势图像获取模块与预处理模块相接,用于获取彩色手势图像。预处理模块分别与所述手势图像获取模块和手势分割网络相接,用于对彩色手势图像进行旋转、翻转和裁剪操作,并将结果输入到手势分割网络中。
[0081]
实施例2
[0082]
本发明的基于多分支级联transformer的手势分割方法,包括如下步骤:
[0083]
a、基于多分支级联transformer的手势分割方法应用于实施例1中的基于多分支级联 transformer的手势分割网络装置。
[0084]
b、对手势图像进行预处理,使手势图像大小尺寸固定,以适应手势分割网络的输入图像尺寸要求。
[0085]
具体地说,包括有手势图像获取操作和预处理操作,手势图像获取操作用于获取彩色的原始手势图像,预处理操作用于对彩色原始手势图像进行旋转、翻转和裁剪操作,并将结果输入到手势分割网络中。
[0086]
c、构建实施例1中的手势分割网络,将预处理后的图片输入到手势分割网络中,用损失函数以及优化器对手势分割网络进行训练,得到具有最优参数的手势分割网络。如图4所示。
[0087]
所述手势分割网络包括有:
[0088]
深度卷积神经网络dcnn,对手势图像进行特征提取后得到中间特征图。
[0089]
多分支级联transformer模块mbct,包括有多个级联在一起的transformer分支,每个 transformer分支均包括有串接在一起的patch partition层、linear embedding层和多窗口自注意力块mwsa。
[0090]
解码器,用于恢复为与原始输入图像相同大小的尺寸。
[0091]
深度卷积神经网络dcnn接收原始手势图像进行运算后,将运算结果一路输入到多
分支级联transformer模块mbct内,另一路和多分支级联transformer模块mbct的运算结果进行叠加后,得到叠加后的手势图像,输入到解码器中。
[0092]
多分支级联transformer模块mbct接收深度卷积神经网络dcnn输送的手势图像并进行运算,并将运算结果与深度卷积神经网络dcnn的运算结果进行叠加,得到叠加后的手势图像,输入到解码器中。
[0093]
解码器接收原始手势图像和叠加后的手势图像,进行解码,得到对应的手势分割图像。
[0094]
d、将手势图像输入到训练好的手势分割网络中就可以输出对应的手势分割图像。
[0095]
为了进一步证明提出的本发明的有效性,我们在outhands公共数据集上进行手势分割实验。
[0096]
表1.不同方法实验结果对比
[0097][0098]
本方法与其他方法进行了比较,其结果如图5和表1所示。结果显示,所提出的手势分割算法在miou、pa、re和f-score四个评价指标上分别达到了97.71%、98.12%、98.95%和98.85%。此外,图6示出了本发明与其他分割方法结果对比图,从可视化结果可以看出所提出的手势分割网络模型比其他方法表现得更好,由此可见,本文提出的手势分割算法在面对复杂背景、光照不均匀以及手势变化较大等情况时表现出较强的鲁棒性和有效性。
[0099]
本发明说明书中所涉及到的参考文献如下:
[0100]
[1]zheng,y.andp.zheng.handsegmentationbasedonimprovedgaussianmixturemodel.in2015internationalconferenceoncomputerscienceandapplications(csa).2015.ieee.
[0101]
[2]zhao,y.,z.song,andx.wu.handdetectionusingmulti-resolutionhogfeatures.inieeeinternationalconferenceonroboticsandbiomimetics(robio).2012.ieee.
[0102]
[3]chen,q.,n.d.georganas,ande.m.petriu,handgesturerecognitionusinghaar-likefeaturesandastochasticcontext-freegrammar.ieeetransactionsoninstrumentationandmeasurement,2008.57(8):p.1562-1571.
[0103]
[4]dardas,n.h.andn.d.georganas,real-timehandgesturedetectionandrecognitionusingbag-of-featuresandsupportvectormachinetechniques.ieeetransactionsoninstrumentationandmeasurement,2011.60(11):p.3592-3607.
[0104]
[5]chuang,y.l.,l.chen,andg.c.chen,saliency-guidedimprovementforhandposturedetectionandrecognition.neurocomputing,2014.133:p.404-415.
[0105]
[6]mocanu,c.,g.suciu,andieee.automaticrecognitionofhand
gestures.in11thinternationalconferenceonelectronics,computersandartificialintelligence(ecai).2019.pitesti,romania.
[0106]
[7]tang,j.w.,etal.position-freehandgesturerecognitionusingsingleshotmultiboxdetectorbasedneuralnetwork.in16thieeeinternationalconferenceonmechatronicsandautomation(ieeeicma).2019.tianjin,peoplesrchina.
[0107]
[8]al-hammadi,m.,etal.,deeplearning-basedapproachforsignlanguagegesturerecognitionwithefficienthandgesturerepresentation.ieeeaccess,2020.8:p.192527-192542.
[0108]
[9]dadashzadeh,a.,etal.,hgr-net:afusionnetworkforhandgesturesegmentationandrecognition.ietcomput.vis.,2019.13(8):p.700-707.
[0109]
[10]long,j.,e.shelhamer,andt.darrell.fullyconvolutionalnetworksforsemanticsegmentation.inproceedingsoftheieeeconferenceoncomputervisionandpatternrecognition.2015.
[0110]
[11]cui,z.,etal.,handgesturesegmentationagainstcomplexbackgroundbasedonimprovedatrousspatialpyramidpooling.journalofambientintelligenceandhumanizedcomputing,2022。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1