一种基于自适应时空解耦网络的骨架手势识别方法

文档序号:43303317发布日期:2025-10-10 18:36阅读:17来源:国知局
技术简介:
本发明针对骨架手势识别中时空特征解耦困难及多模态融合不足的问题,提出自适应时空解耦网络。通过多子图卷积动态建模空间结构,结合多尺度时序融合模块增强长时依赖建模,并引入自监督模态适配机制实现异构特征自适应融合,显著提升识别精度与鲁棒性。
关键词:自适应时空解耦网络,多模态融合特征

本发明涉及骨架手势识别方法,尤其是一种基于自适应时空解耦网络的骨架手势识别方法。


背景技术:

1、骨架手势识别作为人机交互中的一项关键技术,在虚拟现实、增强现实及无障碍交流等领域展现出显著的应用潜力,其核心在于设计计算模型,以处理传感器捕获的手部关节点三维坐标时序序列,并精确推断其所表达的手势意图。

2、为实现精确的骨架手势识别,研究路径已从早期的手工特征工程演进至深度学习方法,特别是卷积神经网络(cnn)、循环神经网络(rnn)及其变体(gru/lstm),以及近年备受关注的图卷积网络(gcn)。深度学习通过自动特征表示学习显著提升了性能,并部分克服了传统方法的泛化局限。然而,主流深度方法在有效处理骨架数据的非欧几里得结构、建模长时序依赖关系以及自适应捕捉关节点间动态关联方面仍面临挑战。例如,标准cnn难以直接应用于图结构数据,rnn及其变体存在梯度传播和并行计算的瓶颈,而多数gcn模型采用固定的图拓扑,限制了其捕捉手势执行过程中精细空间关系变化的能力,且常倾向于分离处理时空信息,未能充分挖掘深层次的时空耦合特性。

3、当前骨架手势识别领域面临两大核心挑战,制约着性能的进一步突破。一方面,时空特征的有效表征与深度耦合建模是一大难题。手势动作本质上是关节空间结构在时间维度上的复杂、非线性演化过程,而现有方法往往难以摆脱固定图拓扑或简化时序模型的束缚,无法同时自适应地捕捉细粒度的时变空间关系并精准把握跨越长时程的复杂动态模式,这种对时空信息解耦处理或浅层组合的倾向,限制了模型对深层时空耦合特性的挖掘,成为制约识别精度提升的关键技术瓶颈。另一方面,多源异构特征的自适应融合机制尚显不足。骨架数据不仅包含基础的三维坐标,还可衍生出关节相对向量、骨骼长度与朝向、运动速度与加速度等多种补充特征流,共同描绘手势的完整信息。然而,这些不同来源或类型的特征在不同手势类别或同一手势的不同执行阶段,其蕴含的信息量和相对重要性是动态变化的。当前研究普遍缺乏能够根据实时上下文,动态地调整各特征通道贡献权重的有效融合机制。这种非自适应的融合策略限制了模型充分利用多源信息互补性的潜力,难以有效抑制噪声干扰,并阻碍了形成最优化的、信息高度浓缩的综合特征表示。


技术实现思路

1、本发明所要解决的技术问题是提供一种基于自适应时空解耦网络的骨架手势识别方法,通过自适应解耦的时空建模机制与多模态时空特征的动态融合,精确识别骨架手势序列所表达的手势类别。

2、本发明解决上述技术间题所采用的技术方案为:一种基于自适应时空解耦网络的骨架手势识别方法,包括以下步骤:

3、步骤①,获取骨架手势序列并进行预处理,得到多模态融合特征;

4、步骤②,构建自适应时空解耦网络;

5、步骤③,将步骤①得到的多模态融合特征输入到步骤②构建的自适应时空解耦网络中进行训练;

6、步骤④,采用步骤③训练得到的自适应时空解耦网络进行骨架手势的识别,最终输出骨架手势的类别预测得分;

7、所述的自适应时空解耦网络包括依次连接的n个级联的自适应时空解耦单元、自监督时间-通道适配模块、全局平均池化层、随机失活层和全连接层;其中,n表示自适应时空解耦单元的总数;

8、所述的自适应时空解耦单元包括自适应多子图卷积模块和多尺度空洞时序融合模块;

9、所述的自适应多子图卷积模块对输入的特征进行多子图空间结构建模和时序关系提取处理,得到空间增强特征;

10、所述的多尺度空洞时序融合模块对自适应多子图卷积模块输出的空间增强特征进行多尺度时间特征解耦和通道注意力加权处理,得到时间解耦特征;

11、将自适应多子图卷积模块的输入特征与多尺度空洞时序融合模块输出的时间解耦特征残差连接,得到多模态特征并作为自适应时空解耦单元的输出,前一个自适应时空解耦单元的输出作为后一个自适应时空解耦单元的输入;

12、所述的自监督时间-通道适配模块对第n个自适应时空解耦单元输出的多模态特征进行模态注意力加权融合和跨模态对齐处理,得到融合特征;

13、所述的全局平均池化层对自监督时间-通道适配模块输出的融合特征进行时空维度压缩处理,得到通道统计向量;

14、所述的随机失活层对全局平均池化层输出的通道统计向量进行神经元随机丢弃处理,得到正则化特征;

15、所述的全连接层对随机失活层输出的正则化特征进行类别空间映射处理,得到骨架手势的类别预测得分。

16、与现有技术相比,本发明的优点在于通过自适应时空解耦单元中的自适应多子图卷积模块,能够自适应地捕捉骨架手势执行过程中关节点的细粒度空间关系变化,克服了固定图拓扑的限制,实现更灵活的空间结构建模;同时,多尺度空洞时序融合模块利用多尺度时间特征解耦和通道注意力加权机制,有效建模长时序依赖关系,缓解了梯度传播和并行计算瓶颈,提升了时间维度的特征表达能力。此外,自监督时间-通道适配模块通过模态注意力加权融合和跨模态对齐处理,实现了多模态特征的自适应融合,能够根据实时上下文动态调整各特征通道的贡献权重,从而充分挖掘多源信息的互补性,抑制噪声干扰,并生成信息高度浓缩的综合特征表示。这些技术特征协同作用,显著提升了骨架手势特征的表示能力与判别性,最终在复杂手势识别任务中实现了更高的精度与鲁棒性。在dhg-14/28数据集上进行手势分类实验中可知,本发明所提方法在14类手势分类任务的识别准确率为93.57%,较td-gcn方法提高了3.57%,本发明所提方法在28类手势分类任务的识别准确率为92.86%,较td-gcn方法提高了4.29%,验证了本发明所提方法在复杂手势识别任务中显著提升识别精度方面的有效性与优越性。

17、进一步的,步骤①的具体操作为:获取骨架手势序列,对骨架手势序列进行特征提取与转化,得到多模态融合特征,包括关节、骨骼和关节运动三种异构模态,将多模态融合特征输入至自适应时空解耦网络进行骨架手势识别。

18、进一步的,得到空间增强特征的具体操作过程如下:

19、将第l个自适应时空解耦单元中的自适应多子图卷积模块的输入特征记为nb表示批次大小,c1表示输入特征的通道数,t表示骨架手势序列的时间维度长度;对hl进行线性变换,得到每个子图用于聚合的节点特征其中,fz,k(·)表示1×1卷积操作,表示可学习权重,k∈{1,2,3}表示子图的序号,c′1表示变换后的特征通道数;

20、计算在时间维度上的平均值差异,并将经过tanh激活函数后的平均值差异与自适应权重系数相乘得到每个子图用于捕捉关节点在时间维度上的相对运动信息的时序关系特征表示

21、获取每个子图的节点邻域聚合特征其中,表示加权聚合函数,表示可学习的邻接张量;

22、将每个子图对应的与rl,k进行元素相加,得到每个子图的输出

23、将所有子图的输出进行逐元素求和,并在逐元素求和后通过非线性激活函数与hl相加,得到空间增强特征并作为第l个自适应时空解耦单元中自适应多子图卷积模块的输出,其中,σ(·)表示relu激活函数,c″1表示自适应多子图卷积模块的输出通道数。通过联合优化图结构与聚合多视图特征,强化空间表征并解耦干扰,突破了现有方法在捕捉时变空间结构与挖掘深层时空耦合特性上的局限。

24、进一步的,得到时间解耦特征的具体操作过程如下:

25、多尺度空洞时序融合模块包括四个分支,对于第1个分支:使用多个固定核尺寸但不同空洞率的一维时间卷积捕捉长距离的时间依赖关系,得到空洞时序特征其中,d∈{1,2,3,4};对于第2个分支:使用ks个不同核尺寸的一维时间卷积捕捉不同长度的局部时间模式,得到多尺度时序特征其中,ks∈{3,5,7};对于第3个分支:将依次通过一个卷积核大小为1×1、填充为0、步幅为1的卷积层和批归一化层,该分支的输出为对于第4个分支:将依次通过一个卷积核大小为1×1的卷积层、批归一化层、relu激活层、最大池化层和批归一化层,该分支的输出为

26、将所有分支的输出在通道维度上进行拼接,形成一个包含所有尺度和类型时间信息的融合特征张量其中,表示concat函数,c′2表示时间融合输出通道数;

27、获取中间特征z1,z1=σ[φ1(hcat;w1)],其中,φ1(·)表示1×1卷积操作,w1表示1×1卷积层的可学习权重;

28、利用中间特征z1生成旨在捕获通道间依赖关系的激发分数s,s=φ2(z;w2),其中,φ2(·)表示1×1卷积,w2表示第2个1×1卷积层的可学习权重;

29、对激发分数s通过sigmoid激活函数进行归一化处理,得到值域为(0,1)的最终的通道注意力权重ach,ach=δ(s),其中,δ(·)代表sigmoid激活函数;

30、将融合特征张量hcat和最终的通道注意力权重ach逐元素相乘,得到注意力加权特征hatt,hatt=hcat⊙ach,其中,⊙表示逐元素乘法;

31、将hatt与残差连接,得到时间解耦特征并作为第1个自适应时空解耦单元中多尺度空洞时序融合模块的输出,其中,δ(·)代表sigmoid激活函数,res(·)表示残差连接,c2表示时间融合输入通道数。采用并行多核与多空洞卷积策略,从局部到全局捕捉骨架手势序列的多粒度演化规律以精细分离时间特征,提升了多粒度长短时序依赖的建模效能,解决了传统时序模型难以捕捉多尺度动态模式及精细分离时间特征的问题;

32、进一步的,得到融合特征的具体操作过程如下:

33、将自监督时间-通道适配模块的输入特征记为hn,其中,n表示自适应时空解耦单元的总数,表示关节的最终特征,表示骨骼的最终特征,表示关节运动的最终特征,c3=256表示模态统一特征维度;

34、通过全局平均池化聚合hn的时空信息,得到通道统计信息其中,gap(·)表示全局平均池化,t′表示采样后的帧数,t′<t;

35、使用小型门控网络处理z2,生成三种异构模态对应的模态注意力权重(wj,wb,wjm)=s{fc[σ(fc(z2))],其中,s(·)表示softmax函数,σ(·)表示relu激活函数,fc(·)表示全连接层;

36、将模态注意力权重与其对应的特征进行融合,得到加权融合特征hfw,

37、将hfw与hn进行残差连接,得到融合特征hfused。利用时序差异损失动态优化跨节点依赖关系,增强异构模态特征的对齐能力,缓解模态融合的信息混叠问题,解决了异构特征融合中缺乏上下文感知权重调整与信息对齐不佳的难点。

38、进一步的,步骤③训练过程中的损失函数为其中,表示用于手势识别的主任务交叉熵损失,λssl表示加权系数,表示自监督损失,其中,2≤t≤t′,t′表示骨架手势序列长度,d1,d2∈{j,b,jm}分别表示模态,表示模态对的集合,表示均方误差mse,分别表示d1,d2的特征与相邻时间步之差,

39、进一步的,步骤③训练过程中采用随机梯度下降优化器并结合学习率预热策略对网络的参数进行优化。

当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!