基于注意力增强时空混合的毫米波雷达人类活动识别方法

文档序号:37311443发布日期:2024-03-13 21:01阅读:23来源:国知局
基于注意力增强时空混合的毫米波雷达人类活动识别方法

本发明涉及卷积神经网络领域,特别涉及一种基于注意力增强时空混合的毫米波雷达人类活动识别方法。


背景技术:

1、基于毫米波雷达传感器在人类活动识别的开创性方法是利用具有手工特征的机器学习(machine learning,ml),如支持向量机(support vector machines,svm)、决策树(decision tree,dt)等,深度学习(deep learning,dl)算法可以通过多个神经网络层将低级数据隐式转换为高级数据。此外,dl算法已被证明可以通过学习非常复杂的特征来解决人类活动识别的分类问题。akash deep singh等人提出了radhar,该方法用于对的体素化点云进行空间-时间模式提取特征以实现远程场景中的人类活动识别,人类的5种活动的平均识别准确率为90.47%。福州大学的余承喜等人使用德州仪器的iwr6843-boost收集2名参与者的6种不同的人类活动,即站着坐着,坐着站着,坐着躺着,躺着坐着,倒下然后起来的人类活动。首先,因为每帧的点数不同,将每帧点云转换为固定的体素。其次,因为一个动作通常会持续一段时间,使用一个滑动窗口来划分数据。最后使用time-distributed cnn+bi-lstm提取特征人类的6种活动的识别准确率为94%。youngwook kim等人通过识别点云变化对人体活动进行分类。采用smart antenna system公司研制的毫米波fmcw雷达系统收集了19名参与者的7种活动,即鞠躬、踢腿、拳击、行进、坐着、站着、行走的人类活动。毫米波雷达系统由四个awr1243芯片(来自ti公司)组成,4个芯片级联可以通过12个txs和16个rxs提供192个通道。首先,因为大多数测量到的人体运动是沿y轴对称的,所以通过消除y(range)分量将所有点散射点投影到x-z域,降低数据维度并没有丢弃重要信息。其次,使用非重叠滑动窗口,在不同的持续时间内产生不同数量的训练数据集,最后,将深度循环神经网络(deep recurrent neural network,drnn)与二维卷积网络相结合。卷积滤波器在时间实例上捕获点云特征并顺序输入drnn,drnn识别时变特征,在3秒的时间内获得了97%的分类精度。北京邮电大学的王宇恒等人在健身活动场景中使用德州仪器的iwr1443-boost收集9名参与者的5种不同的人类活动,即拳击、跳跃、跳跃蹲下和走路的人类活动。首先,用体素化方法处理点云,然后,提取噪声环境中人向运动的点云,最后,自定义设计了一种新型的神经网络harnet,该网络将活动执行的过程(时间维度)作为cnn层的输入通道,将快速计算cnn与低参数rnn相结合。在3m探测范围内的离线识别准确率为93.25%。

2、在该领域的背景技术研究表明,以前的方法主要依赖于传统的ml算法,如svm和dt,来处理毫米波雷达数据并进行人类活动识别。统机器学习模型需要领域专业知识和复杂的特征工程方法,这些方法在提取特征时受限于先验知识的有限性和分类问题的复杂性。这导致了识别准确率相对较低,因为这些方法不能充分捕获数据中的复杂特征。

3、随着dl的兴起,研究人员开始探索使用深度神经网络来处理毫米波雷达数据以提高人类活动识别的准确率。一些研究cnn能够捕获数据帧内的空间特征,研究人员使用cnn从数据中提取高级特征表示来识别不同的活动。然而,人体活动由复杂的运动组成,具有时间依赖性,这导致在人类活动识别领域使用cnn时识别精度不高的问题。为了提取人类活动的时间特征,提出了使用rnn和其变体,如bi-lstm,来处理时间序列数据。尽管这些方法在识别准确率上取得了一定的进展,但是,仅关注时间特征提取时,仍然表现出较低的识别准确率。人体活动不仅仅具有时间特征,还包含空间特征,因此,采用结合cnn和rnn的模型以同时捕获数据帧内的空间特征和帧间的时间依赖性来生成有效的特征。研究人员采用体素化方法将点云数据转换为体素表示,然后使用深度学习模型,如time-distributed cnn+bi-lstm,来提取特征,以实现远程场景中的无约束人类活动识别,但其在mmactivity公开数据集上的识别准确率仅为90.47%。

4、综上所述,传统方法和早期深度学习方法在人类活动识别中的识别准确率较低,而近年来的研究通过引入新的技术和模型,如体素化方法和空间-时间特征提取,已取得了更显著的进展。但是,人类活动信息属于长实例,由复杂的运动组成且动态变化,不同时间点的活动信息重要性是不一样,基线模型没有关注到关键帧的特征,导致识别准确率仍较低。因此,该领域仍然需要更多的研究来进一步提高准确率,并解决复杂的现实生活场景中的挑战。


技术实现思路

1、本发明的目的在于克服现有技术的不足,提供基于注意力增强时空混合的毫米波雷达人类活动识别方法,提高人体活动识别的准确性。

2、为了实现上述目的,本发明采用的技术方案为:基于注意力增强时空混合的毫米波雷达人类活动识别方法,包括空间特征提取、时间特征提取、和多分类处理,基于空间特征提取和时间特征提取获取得到一组包含时间和动作序列相关性的向量,多分类处理基于包含时间和动作序列相关性的向量进行多分类操作输出分类识别结果。

3、所述识别方法包括空间特征提取模块,该模块可以自动提取空间特征并映射为特征向量。

4、所述识别方法包括时间特征提取模块,该模块提取时间窗口的时间序列特征。

5、所述多分类操作采用softmax层进行分类。

6、空间特征提取模块的结构由时间分布的2d-cnn层和二维最大池化层组成,使用基于时间分布的2d-cnn对输入数据的每个时间切片,并提取每个时间切片的空间特征。

7、时间特征提取模块包括bi-gru层和注意力层,使用bi-gru提取时间序列特征,bi-gru的输入输出关系表示为

8、

9、其中代表第t时刻通过上gru层的输出,代表第t时刻通过下gru层的输出。

10、使用注意力机制给关键帧分配较大的权重,从而解决序列模型的缺陷和提高模型的理解能力,注意力模型的目标是学习一个时间系数序列,该序列根据bi-gru的输出内容显示当前观测时间点与之前时间点的时序关系,注意力模型由注意力值生成模块组成;首先,将输入张量进行转置并且对每一个输入特征应用一个全连接层,得到oinput_dim*time_steps,其每一行是一个注意力向量,表示对应的输入特征在不同时间步上的重要程度;然后,对oinput_dim*time_steps进行降维,得到otime_steps,接着将其复制input_dim次,得到oinput_dim*time_steps;然后,将其进行转置,得到注意力权重,其中每一列是一个注意力向量,表示对应的时间步在不同输入特征上的重要程度;最后,将注意力权重和输入张量按元素相乘,得到输出张量,其中每个元素都被相应的注意力权重调节了大小。

11、经过bi-gru层和注意力层的处理,最终输出的是一组包含时间和动作序列相关性的向量,每一层的输入随着前一层的参数而变化导致神经网络模型的训练过程变得复杂,为了防止输出数据的分布变化太大,以及注意力机制带来的过拟合问题,在bi-gru与全连接层之间增加bn层来标准化bi-gru中各层的数值,从而使得和的均值和方差不会随基础参数分布的变化而变化,有效地将每一层的参数与其他层分离。

12、计算不同活动的后验概率实现分类,采用softmax函数,其表示为:

13、

14、其中,n是最后全连接层的下标,b(o,i)和是第i输出单元的参数,它将神经元的输出值映射在(0,1)之间,最大值是分类的结果。

15、本发明的优点在于:基于毫米波雷达的无约束人类活动识别准确率仍有提升空间。虽然,基线模型是以空间-时间模式提取人类活动的潜在特征,但是,人类活动信息属于长实例,由复杂的运动组成且动态变化,不同时间点的活动信息重要性是不一样,基线模型没有关注到关键帧的特征,导致识别准确率仍较低。因此,针对基于毫米波雷达的体素化点云特征提取不充分,导致无约束的人类活动识别准确率低的问题。设计了asth模型,旨在捕获关键帧的时空特征以提高识别性能。首先,根据cnn在提取空间特征方面的有效性,利用td-2d-cnn提取点云数据的空间特征。其次,本文使用bi-gru和注意力机制不仅能够捕获td-2d-cnn生成的特征图中的长期时间依赖性,而且解决了关键帧的特征选择问题,有效的提高了模型的特征提取能力和识别准确率。asth模型还采用了bn层,解决了过拟合问题,增强了模型的泛化性。在多个数据集上进行了实验,结果表明,asth模型相较于其他基线模型,在无约束的人类活动识别中表现出更高的准确性和泛化性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1