一种基于时空图卷积交替变换器的手势识别方法及系统

文档序号:36127906发布日期:2023-11-22 19:13阅读:36来源:国知局
一种基于时空图卷积交替变换器的手势识别方法及系统

本发明涉及计算机视觉中的识别领域,具体为一种基于深度神经网络的手势识别方法及系统。


背景技术:

1、在计算机视觉和人工智能领域,动态手势识别在虚拟现实、人机交互、手语翻译等应用中起着重要作用。目前,基于骨骼的手势识别方法主要分为手工设计特征和基于深度学习特征两种类型。然而,现有方法存在一些局限性,如手工设计特征的泛化能力有限,基于深度学习特征的方法未能充分利用骨骼序列中关节间的空间和时间关系。

2、为了解决上述问题,研究者们提出了基于图卷积网络的方法,该方法能够有效提取非欧几里得数据中的信息。然而,现有的基于图卷积网络的方法存在一些限制,如固定预定义图表示忽略了非相邻关节之间的隐含关系,而且当前的时序建模方法限制了局部邻域内的时序卷积操作,无法捕捉远程时序依赖性。

3、近年来,随着视觉变换器(visual transformer,vit)在计算机视觉领域的流行,人们开始探索将其应用于手势序列的空间和时间建模。目前有两种将变换器应用于手势序列的方法,但实际应用中均存在一些问题,如忽略关节的帧内空间关系、令标记数量迅速增加以及缺乏局部建模难以捕捉输入序列的微妙时间结构。


技术实现思路

1、为了解决这些问题,本发明提出了一种新的骨骼识别网络框架,称为时空图卷积交替变换器(st-gcn-altformer)。st-gcn-altformer框架利用时空图卷积(st-gcn)模块局部建模手势序列,并充分利用手部骨骼图的拓扑结构。空间-时间变换器(st)模块首先提取关节的帧内空间特征,然后提取帧间的时序特征,但代价是丢失了原始的时序信息。为了克服这一局限性,本发明引入了一种并行的空间-时间交替变换器(st-ts)架构,包括时间-空间变换器(ts)模块,用于恢复完整的空间和时序信息。st模块和ts模块具有相同的结构,分别用于空间变换器和时序变换器。

2、本发明采用的技术方案具体如下:

3、一种基于时空图卷积交替变换器的手势识别方法,具体为:

4、获取动态手势的坐标并构建手势特征序列和时空关节图;

5、将手势特征序列和时空关节图输入至训练好的时空图卷积交替变换器中,输出手势识别结果;

6、其中,所述时空图卷积交替变换器包括依次连接的时空图卷积网络和时空交替变换器;其中时空交替变换器包含并行的空间-时间变换器分支和时间-空间变换器分支以及输出层,所述空间-时间变换器分支由依次连接的矩阵转置层、空间变换器、时间变换器和多层感知器组成;所述时间-空间变换器分支由依次连接的矩阵转置层、时间变换器、空间变换器和多层感知器组成;输出层用于将空间-时间变换器分支和时间-空间变换器分支的输出加和并依据加和结果输出最终预测的手势识别结果。

7、进一步地,所述时空图卷积网络由l个空间图卷积层和l个时间卷积层交替叠加组成。

8、进一步地,所述空间变换器、时间变换器均由映射层,变换器编码器和池化层组成;其中,空间变换器的映射层用于将输入特征向量通过线性投影矩阵映射到高维并与对应的空间位置嵌入相加得到空间标记嵌入序列;时间变换器的映射层用于将输入特征向量通过线性投影矩阵映射到高维并与对应的时间位置嵌入相加得到时间标记嵌入序列。

9、进一步地,变换器编码器由多个多头自注意层msa和多层感知器mlp组成的区块堆叠组成;每个区块中,多头自注意层msa和多层感知器mlp之前均应用层归一化,并在块中应用残差连接。

10、进一步地,所述训练好的时空图卷积交替变换器是基于训练数据集,通过最小化时空图卷积交替变换器输出的手势识别结果与真值的误差为目标进行训练获得的。

11、一种基于时空图卷积交替变换器的手势识别系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的基于时空图卷积交替变换器的手势识别方法。

12、本发明的有益效果主要体现在:

13、提高准确性:通过充分利用空间和时序特征,并结合图卷积网络和变换器的优势,能够更准确地识别手势动作。相较于传统方法,本发明的方法能够更好地捕捉关节之间的空间和时间关系,提高了识别准确性。

14、改善效率:采用局部建模和并行交替结构的方法,既保留了手势序列的细节特征,又降低了计算复杂度。这使得本发明的方法能够在实时交互和移动设备上实现手势识别,并提高了计算效率。

15、强化骨骼拓扑结构:通过引入空间-时间关节图和st-gcn模块,能够更好地利用手部骨骼图的拓扑结构,捕捉手势的空间关系和动态变化。这有助于提高骨骼识别的鲁棒性和可靠性。

16、提供灵活性和泛化能力:本发明的方法不仅适用于特定应用,还具有较好的泛化能力,可以应用于虚拟现实、人机交互、手语翻译等多个领域。同时,它可以适应不同的手势数据集和手势动作,具有较高的灵活性。



技术特征:

1.一种基于时空图卷积交替变换器的手势识别方法,其特征在于,具体为:

2.根据权利要求1所述的方法,其特征在于,所述时空图卷积网络由l个空间图卷积层和l个时间卷积层交替叠加组成。

3.根据权利要求1所述的方法,其特征在于,所述空间变换器、时间变换器均由映射层,变换器编码器和池化层组成;其中,空间变换器的映射层用于将输入特征向量通过线性投影矩阵映射到高维并与对应的空间位置嵌入相加得到空间标记嵌入序列;时间变换器的映射层用于将输入特征向量通过线性投影矩阵映射到高维并与对应的时间位置嵌入相加得到时间标记嵌入序列。

4.根据权利要求3所述的方法,其特征在于,变换器编码器由多个多头自注意层msa和多层感知器mlp组成的区块堆叠组成;每个区块中,多头自注意层msa和多层感知器mlp之前均应用层归一化,并在块中应用残差连接。

5.根据权利要求1所述的方法,其特征在于,所述训练好的时空图卷积交替变换器是基于训练数据集,通过最小化时空图卷积交替变换器输出的手势识别结果与真值的误差为目标进行训练获得的。

6.一种基于时空图卷积交替变换器的手势识别系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-5任一项所述的基于时空图卷积交替变换器的手势识别方法。


技术总结
本发明提供了一种基于时空图卷积交替变换器的手势识别方法及系统,通过利用时空图卷积(ST‑GCN)模块局部建模手势序列,并充分利用手部骨骼图的拓扑结构。空间‑时间变换器(ST)模块首先提取关节的帧内空间特征,然后提取帧间的时序特征,再利用一种并行的空间‑时间交替变换器(ST‑TS)架构,包括时间‑空间变换器(TS)模块,用于恢复完整的空间和时序信息;本发明通过充分利用空间和时序特征,并结合图卷积网络和变换器的优势,能够更准确地识别手势动作。相较于传统方法,本发明的方法能够更好地捕捉关节之间的空间和时间关系,提高了识别准确性和效率。

技术研发人员:朱锦涛,黄钟丽,方路平,潘清,陆飞
受保护的技术使用者:浙江工业大学
技术研发日:
技术公布日:2024/1/16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1