基于DC-Res2Net和特征融合注意力模块的手势图像分类方法

文档序号:31996293发布日期:2022-11-02 07:57阅读:210来源:国知局
基于DC-Res2Net和特征融合注意力模块的手势图像分类方法
基于dc-res2net和特征融合注意力模块的手势图像分类方法
技术领域
1.本发明涉及了图像分类领域的一种手势图像分类方法,尤其涉及基于特征融合注意力模块和特征选择的手势图像分类方法。


背景技术:

2.手势是一种自然形态的人类交流,具有方便、快捷、富含意义和快速理解的优势。手势识别在人机自然交互中可以为用户提供更加真实的交互体验。近年来,手势识别在机器控制,虚拟现实和辅助驾驶等领域中发挥着重要的作用。根据手势图像的识别方法区分,主要分为基于计算机视觉的传统方法和基于卷积神经网络为主的深度学习方法。
3.基于计算机视觉的传统手势识别方法是针对特定数据集人工设计有效的手势特征,从而进行手势分类。简单地说,手工特征提取方法被设计用来处理特定的任务,这使得它不足以处理横跨多个数据集的各种任务,泛化性能较差。并且,手工特征提取方法的有效性及其处理多个数据集各种任务的能力很大程度上依赖所用的手工特征提取方法。因此,基于机器视觉的手势识别方法适应各种任务的能力本身就受到限制,因为在复杂环境中捕捉到的手势图像可能具有各种各样的条件。
4.基于机器视觉的手势特征提取繁琐、费时,可能会因为提取特征产生的误差而导致识别准确率低,且有容易受复杂背景下光照和背景的影响。目前主流的手势识别方法基于深度学习居多,但其准确率不够高,且通过单一卷积神经网络提取的特征尺度单一,无法全面描述手势图像等缺点。


技术实现要素:

5.为了提取更有判决力的手势图像特征,并解决现有手势识别方法提取特征的信息冗余问题,本发明提出了一种更加有效的手势图像特征提取与分类方法。
6.本发明采用的技术方案是:
7.一、一种基于特征融合注意力模块和特征选择的手势图像分类方法,方法包括如下步骤:
8.步骤1)使用已知数据集中的手势图像作为手势图像,并获取手势图像的类别标签,对手势图像进行尺寸归一化处理,将经过尺寸归一化处理后的手势图像作为训练集;
9.步骤2)构建卷积神经网络,卷积神经网络包括特征提取模块、特征融合注意力模块和softmax分类器;
10.步骤3)将步骤1)的训练集输入卷积神经网络进行训练;
11.步骤4)将待分类的手势图像输入到步骤3)训练好的卷积神经网络中进行手势图像分类,得到分类结果。
12.所述步骤2)具体为:所述卷积神经网络主要由特征提取模块、特征融合注意力模块和softmax分类器依次连接构成,手势图像先输入到特征提取模块分别获得高阶特征张量和低阶特征张量,再将高阶特征张量与低阶特征张量同时输入特征融合注意力模块中处
理后获得特征向量融合后的特征张量,进而然后将特征向量融合后的特征张量输入到softmax分类器中进行分类,得到手势图像的分类结果。
13.所述的特征提取模块主要由dc-res2net29网络和三个sk-net模块构成,所述的dc-res2net29网络包括第一卷积层、第一最大池化层和三个残差模块,第一卷积层经第一最大池化层连接到第一个残差模块的输入端;三个残差模块和三个sk-net模块依次交替连接构成,每个残差模块主要由三个dc-res2net 模块依次连接构成;将手势图像输入到第一个残差模块中输出获得低阶特征张量,经最后一个sk-net模块输出获得高阶特征张量。
14.所述的dc-res2net模块是在res2net模块的基础上,使得res2net模块中的每一组卷积滤波器的输出均输入到下一组卷积滤波器,且将res2net模块中的单个卷积层替换为分组卷积。
15.所述的sk-net模块包括依次相连的特征分离模块、多通道融合模块和特征选择模块;特征分离模块包括并联连接的一个第二卷积层和一个空洞卷积层,残差模块输出的特征向量分别输入第二卷积层和空洞卷积层中得到第一分离特征张量和第二分离特征张量多通道融合模块包括依次连接的一个全局平均池化层和一个第一全连接层;将特征分离模块得到的两个分离特征张量相加后输入到全局平均池化层中,第一全连接层输出融合特征作为多通道融合模块的输出结果;特征选择模块包括一个第二全连接层和一个第一激活层;将多通道融合模块得到的融合特征输入到第二全连接层得到紧凑特征z,再将紧凑特征z 输入第一激活层;通过激活函数得到第一权重矩阵ac和第一权重矩阵bc,再将得到的第一权重矩阵ac和第二权重矩阵bc分别与特征分离模块得到的第一分离特征张量和第二分离特征张量相乘后相加得到特征向量选择后的特征张量v,作为sk-net模块的最终输出。
16.所述的特征融合注意力模块包括边界信息增强模块、特征加权增强模块和特征融合模块;边界信息增强模块包括两个卷积分支以及一层第三卷积层和一层第二最大池化层;每个卷积分支是由两个卷积层依次连接构成,两个卷积分支并联设置,两个卷积分支的输出端经相加层后再输入到第三卷积层中,第三卷积层的输出端连接输入到第二最大池化层中;特征提取模块输出的低阶特征向量分别输入两路卷积分支,将两路卷积分支输出的特征张量通过相加层相加后并输入到第三卷积层中,再将第三卷积层输出的特征张量输入第二最大池化层中,第二最大池化层输出的特征张量作为边界信息增强后的低阶特征张量;特征加权增强模块包括依次连接的一层卷积层和一层平均池化层,将特征提取模块输出的高阶特征向量输入到平均池化层,再将平均池化层输出的特征张量输入第四卷积层中,再将边界信息增强模块输出的边界信息增强后的低阶特征张量和第四卷积层输出的特征张量采用相乘的方式进行组合得到经过特征加权的特征张量;特征融合模块直接将高阶特征向量和特征加权增强模块输出的特征加权的特征张量以相加的方式进行特征融合获得特征向量融合后的特征张量。
17.本发明的有益效果是:
18.(1)本发明在改进了res2net模块提出了dc-res2net模块;该模块通过密集连接的方式得到更多的感受野尺寸组合,可以用于对图像进行多级特征提取,加强网络的多尺度特征提取能力,提高了分类的准确率。
19.(2)本发明构建了dc-res2net29网络,并结合sk-net模块从手势图像中提取出有效的低阶特征和高阶特征。
20.(3)本发明提出了特征融合注意力模块,对手势图像的低阶特征进行边界信息增强和特征加权增强,并将高阶特征和增强后的低阶特征进行融合。该模块能够有效的融合手势图像的高低阶特征,使其能够更加精确的描述手势图像。
附图说明
21.图1为本发明方法的技术方案流程图;
22.图2为本发明方法所用到的部分数据集示意图;
23.图3为本发明提取出的部分手势低阶特征示意图;
24.图4为本发明提取出的部分手势高阶特征示意图;
25.图5为本发明中resnet,res2net和dc-res2net的结构示意图;
26.图6为本发明所使用的sk-net模块的结构示意图;
27.图7为本发明所使用的特征提取模块结构示意图;
28.图8为本发明所使用的特征融合注意力模块的结构示意图。
具体实施方式
29.下面结合附图及具体实施例对本发明作进一步详细说明。
30.如图1所示,本实施例的手势图像分类方法包括如下步骤:
31.步骤1)如图2所示,使用已知数据集中的手势图像作为手势图像,并获取手势图像的类别标签,对手势图像进行尺寸归一化处理,将经过尺寸归一化处理后的手势图像作为训练集,具体的,尺寸归一化处理处理后的手势图像均为 224
×
224
×
3的三通道rgb图像,224
×
224
×
3作为神经网络的输入尺寸,再对三通道rgb图像进行标准化,将三通道rgb图像从0~255之间的整数映射到0~1 之间的浮点数;
32.步骤2)构建卷积神经网络,卷积神经网络包括特征提取模块、特征融合注意力模块和softmax分类器;如图5和图6所示。
33.步骤3)将步骤1)的训练集输入卷积神经网络进行训练;
34.步骤4)将待分类的手势图像输入到步骤3)训练好的卷积神经网络中进行手势图像分类,得到分类结果。具体为,将特征选择后的特征张量输入到softmax 分类器中进行分类,映射为10个类别的概率值,取概率值最大的作为手势图像的分类类别,得到手势图像的分类结果。
35.其中,已知数据集为ouhands开源手语数据集。
36.其中,步骤2)具体为:卷积神经网络主要由特征提取模块、特征融合注意力模块和softmax分类器依次连接构成,手势图像先输入到特征提取模块分别获得高阶特征张量和低阶特征张量,如图3和图4所示。再将高阶特征张量与低阶特征张量同时输入特征融合注意力模块中处理后获得特征向量融合后的特征张量,进而然后将特征向量融合后的特征张量输入到softmax分类器中进行分类,得到手势图像的分类结果。
37.如图7所示,特征提取模块主要由dc-res2net29网络和三个sk-net模块构成,dc-res2net29网络包括第一卷积层、第一最大池化层和三个残差模块,第一卷积层经第一最大池化层连接到第一个残差模块的输入端;三个残差模块和三个sk-net模块依次交替连接构成,每个残差模块主要由三个dc-res2net 模块依次连接构成;将手势图像输入到第一个残
差模块中输出获得低阶特征张量,经最后一个sk-net模块输出获得高阶特征张量。
38.dc-res2net模块是在res2net模块的基础上使得res2net模块中的每一组卷积滤波器的输出均输入到下一组卷积滤波器,且将res2net模块中的单个卷积层替换为分组卷积。
39.本实施例在res2net模块的基础上提出dc-res2net模块(densely connected res2net),构建出dc-res2net29网络,进而将dc-res2net29网络与sk-net 模块相结合,构建出用于提取输入图像的高阶特征和低阶特征的特征提取模块,获得高阶特征张量和低阶特征张量。再使用dc-res2net模块为基础,将每三个dc-res2net模块构建成一个残差模块,将第一卷积层、第一最大池化层和三个残差模块组成dc-res2net29网络。
40.dc-res2net模块中的每一组卷积滤波器会对前面每一组卷积滤波器的输出进行接收,同时为了减少网络参数和计算量,使用分组卷积替换掉原本的普通卷积。
41.具体为:
42.resnet模块是一种经典的卷积网络结构,通过构建恒等映射解决网络层数过深导致的梯度爆炸和梯度消失问题,而res2net模块是在保持resnet模块中的卷积核大小和总数不变的情况下,对卷积核进行分组,形成多个小卷积核的分支,并以一种分层的类残差方式将不同的卷积核分支连接。
43.dc-res2net的结构中,首先将输入特征输入卷积核大小为1
×
1的卷积层,假设该卷积层的输出特征张量为x∈rw×h×b×c,其中w
×
h为特征图的空间维度大小,b为特征图光谱维度尺寸,c为特征通道数。为了实现分层操作,引入一个新的维度:s(scale),一共c个通道的3
×
3滤波器被切分为s个滤波器,每组有 s个通道,即c=s
×
w,输入特征图x也被切分为xi(i∈{1,2,...,s})。输出特征yi可以表示为
[0044][0045]
其中,g(*)为小的3
×
3分组卷积,分组数设定为4。
[0046]
将输出特征张量y再输入一层卷积核大小为1
×
1的卷积层,最终将该卷积层输出特征与dc-res2net模块初始输出特征进行相加,得到最终的输出特征张量。
[0047]
dc-res2net29网络由一层第一卷积层,一层第一最大池化层和三个残差模块组成,输入特征经过卷积核为7
×
7的卷积层之后形状变为112
×
112
×
64,之后输入步长为2的最大池化层形状变为56
×
56
×
64。
[0048]
第一个残差模块由dc-res2net_1模块、dc-res2net_2模块和 dc-res2net_3模块依次连接组成,输出特征形状都为56
×
56
×
64。
[0049]
第二个残差模块由dc-res2net_4模块、dc-res2net_5模块和 dc-res2net_6模块依次连接组成,输入特征经过dc-res2net_4模块后特征形状变为28
×
28
×
128,之后输入dc-res2net_5模块,其输出再输入dc-res2net_6 模块、dc-res2net_5模块和dc-res2net_6模块的输出特征形状皆为28
×
28
×ꢀ
128。
[0050]
第三个残差模块由dc-res2net_7模块、dc-res2net_8模块和 dc-res2net_9模块依次连接组成,输入特征经过dc-res2net_7模块后特征形状变为14
×
14
×
256,之后输入dc-res2net_8块,其输出再输入dc-res2net_9 模块、dc-res2net_8模块和dc-res2net_9模块的输出特征形状皆为14
×
14
×ꢀ
256。
[0051]
本实施例还在dc-res2net29网络中每个残差模块之后添加一个sk-net模块,形成完整的特征提取网络,将第一个残差模块输出的特征作为低阶特征张量,特征提取网络中最后输出的特征作为高阶特征张量。
[0052]
具体为:
[0053]
在dc-res2net29网络中第一个残差模块输出端接上sk-net_1模块,输出特征形状为56
×
56
×
64,在第二个残差模块输出端接上sk-net_2模块,输出特征形状为28
×
28
×
128,在第三个残差模块输出端连接上sk-net_3模块,输出特征形状为14
×
14
×
256。将第一个残差模块中dc-res2net_3的输出特征作为低阶特征张量,sk-net_3的输出特征作为高阶特征张量。
[0054]
sk-net模块包括依次相连的特征分离模块、多通道融合模块和特征选择模块;特征分离模块包括并联连接的一个第二卷积层和一个空洞卷积层,残差模块输出的高低阶特征融合后的特征向量分别输入第二卷积层和空洞卷积层中得到第一分离特征张量和第二分离特征张量第二卷积层使用3
×
3的卷积核,空洞卷积层使用3
×
3的卷积核,膨胀系数为2。则第一分离特征张量和第二分离特征张量具体通过以下公式进行设置:
[0055][0056][0057]
其中,c为高低阶特征融合后的特征向量,为卷积核尺寸为3
×
3,输出通道为d的卷积函数,为卷积核尺寸为3
×
3,经过膨胀系数为2的膨胀之后感受野变成5
×
5,输出通道为d的空洞卷积;为经卷积层输出的分离特征张量,为经空洞卷积层输出的分离特征张量;
[0058]
多通道融合模块包括依次连接的一个全局平均池化层和一个第一全连接层;将特征分离模块得到的两个分离特征张量相加后输入到全局平均池化层中,第一全连接层输出融合特征作为多通道融合模块的输出结果;
[0059]
具体为,拼接特征分离模块得到的两个分离特征张量通过以下公式进行设置:
[0060][0061]
将得到的特征张量u输入全局平均池化层,使用全局平均池化来嵌入全局信息,为了在信息中实现精确和自适应选择的指导,再将全局平均池化层的输出输入到第一全连接层,降低了维数,能够在一定程度上提高效率。具体通过以下公式进行设置:
[0062]
fuse(u)=f
fc
(globavgpoolc(u))
[0063]
其中,u为两个分离特征张量相加后得到的特征张量,fuse(*)为多通道融合函数;globavgpoolc(*)为通道维度上的全局平均池化函数,f
fc
(*)为全连接函数;
[0064]
特征选择模块包括一个第二全连接层和一个第一激活层;将多通道融合模块得到的融合特征输入到第二全连接层得到紧凑特征z,再将紧凑特征z输入第一激活层;通过激活函数得到第一权重矩阵ac和第一权重矩阵bc,再将得到的第一权重矩阵ac和第二权重矩阵bc分别与特征分离模块得到的第一分离特征张量和第二分离特征张量相乘后相加得到特征向量选择后的特征张量v,作为 sk-net模块的最终输出。
[0065]
其中,第一激活层为softmax激活函数。
[0066]
特征选择模块中的上述过程即表示为以下公式:
[0067]
z=f
fc
(f)
[0068][0069]ac
=softmax(z)
[0070]bc
=softmax(z)
[0071]ac
+bc=1
[0072]
其中,f
fc
(*)为全连接函数,f是多通道特征融合模块的结果,softmax(x)是激活函数,x为激活函数的输入变量,z为紧凑特征,a和b是形状和紧凑特征z相同的随机实数矩阵,ac和bc分别对应a和b的第c行,a和b是随机的,ac和bc是通过同一个激活函数得到的不同权重矩阵。
[0073]
如图8所示,特征融合注意力模块包括边界信息增强模块、特征加权增强模块和特征融合模块;边界信息增强模块包括两个卷积分支以及一层第三卷积层和一层第二最大池化层;每个卷积分支是由两个卷积层依次连接构成,两个卷积分支并联设置,两个卷积分支的输出端经相加层后再输入到第三卷积层中,第三卷积层的输出端连接输入到第二最大池化层中;
[0074]
边界信息增强模块中,为了增强低阶特征中表示图像的边界信息,使用1
×
5 和5
×
1两个卷积核提取图像中的手势边缘信息和关注点。由于单独1
×
5卷积层充分提取手势图像中的局部特征,但会造成维度上的信息丢失。为了弥补手势信息的丢失,设计5
×
1和1
×
5两个卷积层作为信息填充,实现两个特征向量融合。融合特征可全面显示手势边缘信息和关注点,同时消除低阶特征中的冗余信息。具体通过以下公式进行设置:
[0075][0076]
其中,s(*)为边界特征增强函数,为包含一个卷积核尺寸为1
×ꢀ
5,输出通道为d的卷积函数,v为输入的特征张量。
[0077]
为了之后的特征加权进行维度匹配,使用3
×
3卷积层以增加特征映射通道,再利用步长为8的最大池化层进行特征降维。具体通过以下公式进行设置:
[0078][0079]
其中,e(*)为维度匹配函数;为卷积核尺寸为3
×
3、输出通道为d的卷积函数;q为原始的高阶特征张量,maxpooling
s=8
(*)是步长为8的最大池化函数。
[0080]
特征提取模块输出的低阶特征向量分别输入两路卷积分支,第一路分支的两个卷积核为1
×
5和5
×
1,第二路分支的两个卷积核为5
×
1和1
×
5,将两路卷积分支输出的特征张量通过相加层相加后并输入到第三卷积层中,再将第三卷积层输出的特征张量输入步长为8的第二最大池化层中,第二最大池化层输出的特征张量作为边界信息增强后的低阶特征张量;
[0081]
特征加权增强模块包括依次连接的一层卷积层和一层平均池化层,将特征提取模块输出的高阶特征向量输入到平均池化层,再将平均池化层输出的特征张量输入第四卷积层中,再将边界信息增强模块输出的边界信息增强后的低阶特征张量和第四卷积层输出的特征张量采用相乘的方式进行组合得到经过特征加权的特征张量;
[0082]
特征加权增强模块中,为了凸显出手势特征,使用包含较多关键语义信息的高阶
特征对低阶特征进行引导,并将两者精确地结合起来。利用平均池化层对高阶特征进行特征降维,简化特征,并使用1
×
1卷积层对降维后的特征再次提取,强化特征信息,得到增强后的高阶特征。再将该特征乘以低阶特征进行加权,与特征相加的方式相比,特征相乘可以抑制冗余信息和增强一致性的重要特征。具体通过以下公式进行设置:
[0083][0084]
其中,t(*)为特征加权函数,为卷积核尺寸为1
×
1、输出通道为d的卷积函数,avgpooing(*)为平均池化函数,h为高阶特征张量,l为边界信息增强模块的输出特征张量。
[0085]
特征融合模块直接将高阶特征向量和特征加权增强模块输出的特征加权的特征张量以相加的方式进行特征融合获得特征向量融合后的特征张量。
[0086]
虽然高阶特征含有关键语义信息,但经过深层网络的提取之后容易丢失较多的手势细节信息,且受到背景和光照等因素影响,目标位置信息可能会出现信息混淆或者丢失的情况,因此在原始高阶特征上添加改进后的低阶特征,可以扩大特征的感受野。
[0087]
综上,本实施例在特征融合注意力模块中,通过边界信息增强模块增强低阶特征向量的图像边界特征,通过特征加权增强模块利用高阶特征向量对低阶特征向量进行增强,通过特征融合模块处理后得到高低阶特征向量融合后的特征张量。
[0088]
本实施例所使用的设备详情如下:操作系统为ubuntu16.04,python版本3.7.2,深度学习框架为tensorflow2.3.1,显卡为nvidia geforce gtx 2070ti。使用 resnet50、res2net29、以及本文提出的图像分类方法对ouhands开源手语数据集进行对比实验,得到如下表所示的结果。
[0089]
表1:本实施例与其他模型的结果对比表
[0090]
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1