一种应用于干扰环境下的毫米波雷达动态手势识别方法

文档序号：35555995发布日期：2023-09-24 00:58阅读：23来源：国知局

本发明属于手势识别及毫米波雷达领域，涉及雷达信号处理及手势识别技术，具体涉及一种应用于干扰环境下的毫米波雷达动态手势识别方法。

背景技术：

1、动态手势控制作为一种非接触式的人机交互方式，在工业物联网，智能家居、汽车驾驶、远程外科手术、vr游戏、手语翻译等多个领域具有广泛的应用前景。动态手势控制的前提是准确识别预定的各种手势。目前，常见的可用于手势识别的传感器包括光学摄像头和肌电传感器。然而，这些传感器存在许多局限性。光学传感器需要工作在光线良好的条件下，且容易暴露个人隐私。肌电传感器则需要使用者佩戴在手臂上，用户体验不佳，且不同使用者的肌电信号各不相同，不具有普适性。

2、近年来，随着毫米波雷达集成射频前端的发展，其在手势识别方面的应用潜力引起了许多研究者的关注。毫米波雷达不受光照条件的影响，体积小，能耗低，具有较高的距离和角度分辨率，可以获取更细微的手势信息。最典型的案例就是谷歌公司的soli项目。谷歌公司在2016年i/o大会上初步展示了利用60ghz毫米波雷达实现近距离手势识别。随后，相继有很多企业和高校都对毫米波雷达手势识别方法进行了研究。

3、由于深度学习的盛行，人工神经网络被用作毫米波雷达手势识别的分类器。根据神经网络的输入数据的表征，可以将用于毫米波雷达手势识别的人工神经网络分类器分为以下几类：

4、(1)一维神经网络：该方法直接将雷达原始回波作为网络的输入进行分类识别。例如，文献“j.zhu,h.chen and w.ye,"a hybrid cnn–lstm network for theclassification ofhuman activities based on micro-doppler radar,"ieee access,vol.8,pp.24713-24720,2020,doi:10.1109/access.2020.2971064.”提出一种由一维卷积神经网络和长短期记忆(long short-term memory,lstm)组成的深度学习网络。将频谱图视为具有多个通道的一维时间序列，并馈送到该网络。利用一维卷积在时间维度上，提取相邻帧的时间特征，并保存频谱的时间信息。然后，使用lstm来处理全局的时间信息。文献“w.ye,h.chen and b.li,"using an end-to-end convolutional network on radarsignal for human activity classification,"ieee sensors journal,vol.19,no.24,pp.12244-12252,15dec.15,2019,doi:10.1109/jsen.2019.2938997.”提出了一种端到端的深度学习网络，该网络以一维雷达信号作为输入，并使用两个一维卷积层代替短时傅里叶变换获取雷达信号表示。该类方法最大的优势就是参数量较小，且能够达到一定的分类效果，但是一维的数据表征无法通过雷达信号处理算法滤除干扰，应用场景受到一定限制。

5、(2)二维神经网络：二维神经网络的输入是二维图像数据，需要通过雷达信号处理算法将回波数据处理成单通道的灰度图或三通道图像数据。常用的雷达信号处理算法包括快速傅里叶变换(fast fourier transformer,fft)及多重信号分类(multiple signalclassification,music)等。文献“s.skaria,a.al-hourani,m.lech and r.j.evans,"hand-gesture recognition using two-antenna doppler radar with deepconvolutional neural networks,"ieee sensors journal,vol.19,no.8,pp.3041-3048,15april15,2019,doi:10.1109/jsen.2019.2892073.”利用短时离散傅里叶变换将原始时域信号转换为频谱图。通过结合时域和频域信息得到手势表示。然后，搭建三层深度卷积神经网络对不同手势特征进行提取和分类。文献“t.sakamoto,x.gao,e.yavari,a.rahman,o.boric-lubecke and v.m.lubecke,"hand gesture recognition using a radar echoi–q plot and aconvolutional neural network,"ieee sensors letters,vol.2,no.3,pp.1-4,sept.2018,artno.7000904,doi:10.1109/lsens.2018.2866371.”提出了一种使用卷积神经网络的手势识别技术。该方法将雷达回波转换为低分辨率的二维图像，然后将该图像输入二维卷积神经网络进行分类识别。该类方法具有很好的识别效果，但是多应用于实验室环境，在干扰环境中的泛化性有待考验。

6、(3)三维神经网络：三维神经网络的输入是类似于视频的三维数据，在毫米波雷达动态手势识别领域也有所应用。在利用三维神经网络进行分类训练时，常常将雷达回波处理成含有空间和时间信息的三维数据，如距离-多普勒、距离-方位角、距离-俯仰角等。文献“l.gan,y.liu,y.li,r.zhang,l.huang and c.shi,"gesture recognition system using24ghz fmcw radar sensor realized on real-time edge computing platform,"ieeesensors journal,2022,vol.22,8904-8914.doi:10.1109/jsen.2022.3163449.”提出一种基于实时边缘计算平台的雷达手势识别系统，利用24ghz雷达获取手势的回波数据，然后提取手势的距离-多普勒信息，并输入3dcnn-lstm中进行手势分类，最终获得了95.9％的识别准确率。文献“x.shen,h.zheng,x.feng and j.hu,"ml-hgr-net:ameta-learning networkfor fmcw radar based hand gesture recognition,"ieee sensors journal,vol.22,no.11,pp.10808-10817,1june1,2022,doi:10.1109/jsen.2022.3169231.”针对少样本的手势识别问题，提出了一种基于距离-多普勒特征的元学习网络，以三维卷积神经网络为框架，在较少的训练数据下执行分类任务。该类方法使用三维卷积可以提取更多的手势特征，但是三维卷积网络的参数量很大，难以应用于物联网场景。

7、在上述几种深度学习分类网络中，一维神经网络比二维和三维神经网络的参数量都小。但是，一维数据丢失了相位信息，特征提取不完整。三维卷积相较于其他两种卷积，能够提取的特征种类最多，特征提取比较好，但是参数量最大，可移植性较差。二维输入数据既能通过雷达信号处理算法滤除干扰，又能尽可能多地提取特征，且参数量居中，适合应用于物联网场景。

8、然而，在实际应用中往往存在随机的动态干扰，如雷达与手势之间可能存在人员走动、挥手、抛物等。这些干扰的回波与有效手势的回波耦合在一起，利用常规的雷达信号处理算法很难将其滤除，这会使得手势识别的准确率大幅度降低。

9、申请号为“2021106380061”的专利文献提供了“应用于随机干扰场景下的毫米波雷达动态手势识别方法”的技术方案，该方案首先通过毫米波雷达捕获手势信息，解析雷达原始回波序列，按雷达原始回波的时域结构构建输入数据块。其次，通过基于时间分布层的包装器、一维卷积与全局池化层和inception v3网络结构搭建卷积神经网络模块。利用卷积神经网络模块的一维时序卷积神经网络对雷达回波进行特征信息提取。通过帧间自注意机制为提取的特征分配权重值，获得序列的帧间相关性并抑制随机干扰；最后，通过全局平均池化层和全连接层将前面提取的特征经过非线性变换映射到标签集，并输出识别结果。该方案所采用的数据和网络分别为毫米波雷达原始回波数据和一维卷积神经网络，虽然网络的参数量有所减小，但是一维数据中不存在相位信息，导致特征提取不完整。此外，由于雷达原始回波数据的数据量较大，导致模型在嵌入式设备上的可移植性不友好。

技术实现思路

1、发明目的：为了克服现有技术中存在的不足，提供一种应用于干扰环境下的毫米波雷达动态手势识别方法，实现了干扰环境下的手势识别，提高了手势识别精度。

2、技术方案：为实现上述目的，本发明提供一种应用于干扰环境下的毫米波雷达动态手势识别方法，包括如下步骤：

3、s1：将毫米波雷达的原始回波数据重组为三维数据块，并采用均值相消法滤除静态干扰；

4、s2：采用二维快速傅里叶变换提取动态手势的距离和多普勒信息，得到动态手势的距离-时间图(range-time map,rtm)与多普勒-时间图(dopple-time map,dtm)，并通过相干积累提升回波信噪比；

5、s3：将动态手势的距离-时间图和多普勒-时间图输入到构建好的cnn_block模块，利用cnn_block模块中的二维卷积提取动态手势的局部特征；

6、s4：利用层归一化、多头注意力机制和mlp构建transformer模块；

7、s5：通过堆叠多个transformer模块，以充分提取动态手势的更深层次的手势特征；

8、s6：利用transformer模块增强对手势特征的全局性关注；

9、s7：利用transformer模块中的多头注意力机制抑制环境中的随机动态干扰；

10、s8：采用全局平均池化层和全连接层构建fc_block，通过fc_block输出手势标签。

11、进一步地，所述步骤s1中，由于毫米波雷达采集设备采集到的雷达原始回波数据的格式仅展示为一维的数据序列，不便进行雷达信号处理操作，因此将一维数据重组为三维数据块，该三维数据块采用chirps×samples×frames格式。

12、进一步地，所述步骤s1中均值相消法滤除静态干扰的方法为对1d-fft结果进行两脉冲对消，具体表达式为：

13、y(n)＝x(n)-x(n-1)，n＝2,3,4,...

14、其中，x(n)表示第n个脉冲。

15、进一步地，所述步骤s2中距离-时间图rtm与多普勒-时间图dtm的获取方法为：在三维数据块的每一帧数据的距离维和多普勒维分别进行一维fft，得到距离-多普勒谱，分别在多普勒维和距离维求和，以提高回波信噪比，得到一帧数据的距离信息和多普勒信息，将距离信息和多普勒信息分别在时间维上堆积，得到rtm和dtm。

16、进一步地，所述步骤s3中采用二维卷积层和池化层构建cnn_block模块，具体的构建过程为：采用卷积层和池化层构建具有两个分支的卷积神经网络，每个卷积层之后为批归一化层和非线性层，每个分支包括3个卷积层、2个池化层，其中卷积核大小均为3×3，卷积核的个数以64、128、256递增，池化核大小为2×2。

17、进一步地，所述步骤s3中动态手势的局部特征的获取方法为：将rtm和dtm输入到cnn_block模块，其中，rtm、dtm∈rc×h×w，分别得到两个分支的特征图，当特征提取结束之后，将两个分支的特征图按通道维进行拼接，得到融合特征作为动态手势的局部特征。

18、进一步地，所述步骤s4中利用层归一化ln、多头注意力机制mha和多层感知机mlp构建transformer模块，且mha与mlp之前均为ln，transformer模块的构建过程为：

19、a1：利用层归一化函数计算二维输入数据的均值和方差，计算公式为：

20、

21、其中，x是输入样本，ln(x)是层归一化值，e(x)是样本均值，σ[x]是样本的标准差，α，β是可学习变量，ε是一个极小量，用于防止标准差为0导致溢出；

22、a2：利用多头注意力机制为每个特征序列分配不同的权重，使模型关注重要特征，抑制干扰特征；计算表达式如下：

23、

24、其中，q，k，v分别是查询(query)向量、键(key)向量和值(value)向量，wq，wk和wv分别是q、k和v在训练过程中获得的权重矩阵，wo为计算注意力得到的输出矩阵，dk为注意力得分缩放比例因子，headi表示注意力头的个数，i∈(1,2,...,n)；

25、a3：利用两个全连接层和一个激活函数构成mlp层，用于整合多头注意力输出的信息，增强模型对数据的拟合能力。

26、进一步地，步骤s5是由多个步骤s4中的transformer模块构成的，每个transformer模块均能提取全局特征，使用多个transformer模块的目的是为了更深层次的提取手势特征，具体体现在步骤a1,a2,a3。

27、多头注意力机制为有效(手势)特征和干扰特征分配不同的权重，进而对不同特征进行不同程度的关注，从而抑制了干扰特征，步骤s5～s7均可在步骤a2中体现。

28、进一步地，所述步骤s8中fc_block的构建方法为：使用一层全局平局池化，两层全连接层。利用一层全局平局池化对数据进行降维，减少模型参数量，并使用两层全连接层将特征向量映射到标签空间。

29、本发明提供了一种应用于干扰环境下的毫米波雷达动态手势识别方法，将毫米波雷达原始回波重组为三维数据块，并采用均值相消法滤除静态干扰；然后，采用二维快速傅里叶变换提取动态手势的距离和多普勒信息，得到动态手势的距离-时间图与多普勒-时间图，并通过相干积累提升回波信噪比；最后，搭建cnn-transformer网络模型进行动态手势识别，利用cnn提取手势的局部特征，通过堆叠多个transformer模块，以充分提取更深层次的有效特征。使用transformer网络一方面可以增强对手势特征的全局性关注，另一方面transformer网络中的多头注意力机制能够有效抑制环境中的随机动态干扰。

30、上述方案可以归纳为如下三个步骤：

31、(1)雷达信号处理：首先将雷达回波信号按照chirps×samples×frames的格式，重组为三维数据块，并采用均值相消法滤除环境中的静态干扰；然后，采用二维fft算法提取动态手势的距离和多普勒信息，得到的rtm与dtm，并进行相干积累以提升回波信噪比。

32、(2)cnn_block：使用两个相同的卷积模块，分别提取距离-时间和多普勒-时间特征，并将其进行拼接得到融合特征。

33、(3)transformer网络：通过堆叠多个transformer模块，以充分提取更深层次的有效特征。transformer网络一方面可以增强对手势特征的全局性关注，另一方面transformer网络中的多头注意力机制能够有效抑制环境中的随机动态干扰。

34、有益效果：本发明与现有技术相比，通过cnn-transformer网络模型进行动态手势识别，利用cnn提取手势的局部特征，通过堆叠多个transformer模块，以充分提取更深层次的有效特征，使用transformer网络一方面可以增强对手势特征的全局性关注，另一方面transformer网络中的多头注意力机制能够有效抑制环境中的随机动态干扰，实现了干扰环境下的手势识别，提高了手势识别精度，解决了在干扰环境下有效地区分手势信号与干扰信号。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马宵靳标吴昊刘超张贞凯练柱先魏雪云尚尚
技术所有人：江苏科技大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、邢老师：1.机械设计及理论 2.生物医学材料及器械 3.声发射检测技术。
2、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
3、王老师：1.机器人 2.嵌入式控制系统开发
4、张老师：1.机械设计的应力分析、强度校核的计算机仿真 2.生物反应器研制 3.生物力学
5、赵老师：检测与控制技术、机器人技术、机电一体化技术
如您是高校老师，可以点此联系我们加入专家库。