手势识别模型训练方法、手势识别方法及装置

文档序号:32439811发布日期:2022-12-06 21:02阅读:227来源:国知局
手势识别模型训练方法、手势识别方法及装置

1.本技术涉及被动式感知领域,具体地,涉及一种手势识别模型训练方法、手势识别方法及装置。


背景技术:

2.近年来,随着笔记本电脑,移动电话和智能扬声器之类的无线设备在我们日常生活中迅速增长,我们被这些设备发出的射频(rf)信号所包围。当人们在这些环境中四处走动时,rf信号会受到干扰,从而隐式捕获有关人们的信息。为此,研究人员近年来在广泛地探索由rf感应产生的各种可能性,包括人员识别,姿势识别和跌倒检测。姿势识别作为一种新型的人机交互方式,仅需要一些动作识别,就能够实现用户与机器的交互,使操作变得更加灵活和便捷,带给用户更好的交互体验。
3.目前已有的姿势识别方法主要分为两类:主动式识别方法和被动式识别方法,其中,主动式的人体手势识别方法主要通过用户佩戴各种传感器设备实现,例如,使用移动设备上的内置惯性传感器(包括加速度计,陀螺仪)来识别各种活动。智能手表和腕带也被用于活动识别。尽管该方法跨域获得细粒度的活动识别,但是用户必须长时间携带额外的传感设备,友好性较差且具有侵入性,不适用于大范围使用;被动式识别方法不需要额外携带传感设备,比主动式识别方法更加灵活,主要包括基于视觉图像与无线信号两种方式。其中,基于视觉图像的手势识别系统以摄像机作为传感器,通过采集用户的活动数据,通过一些图像处理技术来实现手势识别。但基于视觉图像的手势识别系统的基本挑战是恶劣的光照和遮挡。除此之外,由于需要调用摄像头实现,基于视觉图像的手势识别系统还存在用户隐私泄露等安全隐患。利用无线信号进行姿势识别不会受到光照的影响,同时也不存在隐私泄露等问题。其中,利用wi-fi进行手势识别具有廉价、易于部署等优点。但基于wi-fi的手势识别方法仍具有很多限制因素,首先,wi-fi信号通常携带与人类活动和手势无关的域信息,在一个域内用原始信号训练的分类器在另一个域内的准确率通常会急剧下降。其次,要获得一个鲁棒高精度的wi-fi手势识别系统,需要一个劳动密集型和耗时的过程来集中收集大量数据,虽然从每个家庭住户收集这些数据可能是可行的,但要求每个雇员或访客在一个大组织中收集数据是不切实际的,因此,现有的被动式手势识别技术在代价、鲁棒性和泛化能力上存在不足。


技术实现要素:

4.有鉴于此,本技术提出了一种手势识别模型训练方法,能够得到泛化的跨域通用手势识别模型和多个个性化的局部模型,进而提高跨域高精度的目标手势识别率,并减少集中收集数据的代价。
5.在下文中将给出关于本技术的简要概述,以便提供关于本技术的某些方面的基本理解。应当理解,此概述并不是关于本技术的穷举性概述。它并不是意图确定本技术的关键或重要部分,也不是意图限定本技术的范围。其目的仅仅是以简化的形式给出某些概念,以
此作为稍后论述的更详细描述的前序。
6.根据本技术的第一方面,提供了一种手势识别模型训练方法,包括:
7.构建特征提取网络框架;
8.基于特征提取网络框架构建全局模型、至少一个局部模型和至少一个新域模型;
9.基于全局模型的参数和局部手势训练数据训练局部模型,以更新局部模型的参数;
10.基于全局模型的参数和个性化手势训练数据训练新域模型,以更新新域模型的参数;
11.基于更新后的局部模型的参数和更新后的新域模型的参数更新全局模型的参数;
12.重复训练局部模型、训练新域模型以及更新全局模型的参数的过程,当全局模型趋于收敛时,得到更新后的全局模型、至少一个训练后的局部模型和至少一个训练后的新域模型。
13.在一个实施例中,特征提取网络包括依次连接的卷积神经网络、循环神经网络和全连接神经网络。
14.在一个实施例中,基于全局模型的参数和局部手势训练数据训练局部模型,以更新局部模型的参数,包括:
15.下载全局模型的参数,更新局部模型的参数;
16.基于局部手势训练数据训练局部模型,更新局部模型的参数。
17.在一个实施例中,基于全局模型的参数和个性化手势训练数据训练新域模型,以更新新域模型的参数,包括:
18.下载全局模型的参数,更新新域模型的参数;
19.基于个性化手势训练数据训练新域模型,更新新域模型的参数。
20.在一个实施例中,方法还包括初始化全局模型,包括:
21.基于初始化训练数据训练全局模型,得到全局模型的初始参数。
22.根据本技术的第二方面,提供一种手势识别方法,包括:
23.应用上述方法得到更新后的全局模型、训练后的新域模型;
24.下载更新后的全局模型的参数;
25.根据更新后的全局模型的参数更新训练后的新域模型的参数;
26.基于个性化手势训练数据再次训练训练后的新域模型,得到二次训练后的新域模型;
27.将待识别手势数据输入到二次训练后的新域模型,得到手势识别结果。
28.根据本技术的第三方面,提供一种手势识别方法,包括:
29.应用上述方法得到更新后的全局模型;
30.下载更新后的全局模型的参数;
31.根据更新后的全局模型的参数更新重构新域模型的参数;
32.基于重构新域模型对应的个性化手势训练数据训练重构新域模型,得到训练后的重构新域模型;
33.将待识别手势数据输入到训练后的重构新域模型,得到手势识别结果。
34.根据本技术的第四方面,提供一种手势识别模型训练装置,包括:
35.网络框架构建模块,被配置为用于构建特征提取网络框架;
36.模型构建模块,被配置为用于基于特征提取网络框架构建全局模型、至少一个局部模型和至少一个新域模型;
37.模型训练模块,被配置为用于基于特征提取网络框架构建全局模型、至少一个局部模型和至少一个新域模型;基于全局模型的参数和局部手势训练数据训练局部模型,以更新局部模型的参数;基于全局模型的参数和个性化手势训练数据训练新域模型,以更新新域模型的参数;基于更新后的局部模型的参数和更新后的新域模型的参数更新全局模型的参数;重复训练局部模型、训练新域模型以及更新全局模型的参数的过程,当全局模型趋于收敛时,得到更新后的全局模型、至少一个训练后的局部模型和至少一个训练后的新域模型。
38.在一个实施例中,模型训练模块,还被配置为:
39.下载全局模型的参数,更新局部模型的参数;基于局部手势训练数据训练局部模型,更新局部模型的参数。
40.在一个实施例中,模型训练模块,还被配置为:
41.下载全局模型的参数,更新新域模型的参数;基于个性化手势训练数据训练新域模型,更新新域模型的参数。
42.本技术的技术方案至少具有以下技术效果之一:本技术实施例的手势识别模型训练方法,利用少量预处理后的wi-fi信道状态信息数据初始化全局模型参数后,各局部模型从全局模型下载模型参数并将参数应用到自身,然后利用各自数据集微调模型之后再将模型参数传到全局模型,如此循环,得到一个高度泛化的全局模型和多个个性化局部模型。
附图说明
43.本技术可以通过参考下文中结合附图所给出的描述而得到更好的理解,附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分。在附图中:
44.图1示出了根据本技术实施例的手势识别方法的流程示意图;
45.图2示出了根据本技术实施例的手势识别模型训练方法的流程示意图;
46.图3示出了根据本技术实施例的特征提取网络框架的结构框图;
47.图4示出了根据本技术实施例的全局模型、局部模型和新域模型之间参数下载及参数上传的关系示意图;
48.图5示出了根据本技术实施例的手势识别模型训练装置的结构框图;
49.图6示出了不同训练用户数量识别性能的结果对比图;
50.图7示出了不同环境和不同用户识别性能的结果对比图;
51.图8示出了不同分类手势数量识别性能的结果对比图;
52.图9示出了不同模型对比评估结果图。
具体实施方式
53.在下文中将结合附图对本技术的示例性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施例的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中可以做出很多特定于实施例的决定,以便实现开发人员的具体目标,并且这些决
定可能会随着实施例的不同而有所改变。
54.在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本技术,在附图中仅仅示出了与根据本技术的方案密切相关的装置结构,而省略了与本技术关系不大的其他细节。
55.应理解的是,本技术并不会由于如下参照附图的描述而只限于所描述的实施形式。在本文中,在可行的情况下,实施例可以相互组合、不同实施例之间的特征替换或借用、在一个实施例中省略一个或多个特征。
56.本技术实施例基于联邦学习的框架,在不需要交换原始wi-fi信号的情况下进行协同机器学习,实现低成本和高精度的跨域wi-fi手势识别,得到一个泛化能力较高的全局模型,同时在新域识别中,仅通过一到两个样本就可以得到一个新域的高精度个性化模型。
57.图1示出了根据本技术实施例的手势识别方法的流程示意图100。本技术实施例的手势识别方法包括:步骤110,收集基于wi-fi的公开手势数据集。这里,基于wi-fi的公开手势数据集可以为widar3.0数据集和wiar数据集,基于wi-fi的公开手势数据集中包括wi-fi信道状态信息数据,wi-fi信道状态信息数据可以用于表征用户的手势动作信息。其中,widar3.0数据集,包括日常22项活动的数千次csi(信道状态信息)测量值,即wi-fi信道状态信息数据,涉及17个用户、3个环境和6个设备,22项活动包括两大类,第一类是常见的手部活动,如推拉、拍手、画o、画之字形等,第二类是复杂和语义活动(即,绘制数字0-9);wi-fi数据包以每秒1000数据包的速度收集使用配备英特尔5300无线网卡的现成小型桌面。wiar数据集,可以包括10名志愿者在会议室中的16项活动的csi测量值,会议室大小为6米10米,配有少量办公桌椅的家具,16项活动包括三大类:上半身活动、下半身活动和全身活动;上半身活动包括水平手臂挥舞、双手挥舞、抛纸、划勾、打电话、划x、拍手、手臂高处挥舞、喝水、高抛;下半身活动包括前踢和侧踢;全身活动包括深蹲、坐下、弯腰和行走;使用20兆赫带宽,30个子载波在5兆赫采集数据。
58.步骤120,对公开手势数据集中的wi-fi信道状态信息数据进行预处理,消除环境噪声、离群点的影响,同时实现数据时间维度上的统一。具体来说,公开手势数据集中的wi-fi信道状态信息数据存在特殊离群值,例如可以采用hampel滤波器进行离群值去除;针对手势动作大多集中在低频部分,而环境噪声主要集中在高频部分,采用低通滤波器去掉高频环境噪声带来的影响;此外,针对不同用户或同一用户手势动作的速度不同,采用插值的方法处理wi-fi信道状态信息数据,使得数据达到时间维度上的统一。
59.步骤130,基于预处理后的wi-fi信道状态信息数据训练手势识别模型,得到一个全局模型、至少一个局部模型和至少一个新域模型。这里,上述widar3.0数据集中涉及的每个环境或者每个用户对应的wi-fi信道状态信息数据均可以作为该环境或者该用户对应的局部数据集,其中,针对某个环境或者某个用户,若在之前从未获取过wi-fi信道状态信息数据,则该环境或者用户对应的wi-fi信道状态信息数据可以为新域数据,否则该环境或者用户对应的wi-fi信道状态信息数据为局部手势训练数据;所有局部手势训练数据形成训练数据,在训练数据中随机选取部分数据形成初始化训练数据,这里局部手势训练数据用于训练多个局部模型,初始化训练数据用于初始化全局模型。在新域数据中随机选取少量样本数据(一般不超过2个样本),形成个性化手势训练数据,作为训练新域模型的数据。
60.步骤140,基于全局模型参数,将待识别手势数据输入到新域模型中,得到识别结
果。这里,待识别手势数据可以为新域数据中的数据。这里的新域模型可以为训练得到的新域模型,也可以是重新构建的新域模型。
61.图2示出了根据本技术实施例的手势识别模型训练方法200的流程示意图。方法200开始于步骤210,构建特征提取网络框架。该步骤中的特征提取网络框架可以用于提取wi-fi信道状态信息数据的时域和频域特征,可以包括依次连接的卷积神经网络、循环神经网络和全连接神经网络。图3示出了根据本技术实施例的特征提取网络框架的结构框图300。其中,卷积神经网络用于学习wi-fi信道状态信息数据各个子载波间的频域内部关系,循环神经网络用于提取wi-fi信道状态信息数据子载波内的时域内部特征,全连接神经网络采用逻辑回归对手势进行分类。
62.卷积神经网络可以由2个卷积层模块卷积层模块(cnn)构成,每个卷积层模块包括一个卷积层、一个批处理归一化层和一个dropout层。卷积层中的2d滤波器用于学习子载波之间的相互作用;在卷积层后应用批处理归一化层来减少内部变量移位;然后采用dropout层减少过拟合,使网络在实际应用中具有较好的泛化能力;该网络可以记为fc:fc=cnn(do;θc)。式中do是预处理后的wi-fi信道状态信息数据,θc是cnn输出的所有参数的集合。
63.循环神经网络由两个双向长短期记忆人工神经网络模块(bilstm)构成,这是一种特殊类型的循环神经网络,能够学习具有长距离时间依赖的问题。传统的lstm能够提取时间序列中的前向特征。另一方面,活动信息不仅依赖于未来(前进),也依赖于过去(后退)的时刻。因此,只使用lstm算法不可避免地会丢失一些关键特征,导致系统性能下降。为了解决这个问题,本技术实施例使用bilstm,它包含从起点到终点和从终点到起点两个时间流,通过子载波的前向状态提取未来特征,通过后向状态提取过去特征,具体而言,该网络可以记为fr:fr=bilstm(fc;θr)。式中fc是cnn的输出参数,θr是bilstm输出的所有参数的集合。
64.全连接神经网络是每一个结点都与上一层的所有结点相连,本技术书实施例由两个全连接层(fully connected layer)构成,它可以将前面通过卷积神经网络和循环神经网络学到的特征表示综合起来,第一个全连接层可以使用relu作为激活函数,第二个全连接层可以使用softmax作为激活函数实现分类。
65.然后,在步骤220,基于特征提取网络框架构建全局模型、至少一个局部模型和至少有一个新域模型。这里,全局模型、局部模型和新域模型的网络框架相同,采用步骤1中构建的特征提取网络架构。具体可以建立1个全局模型、n个局部模型和m个新域模型。这里,在构建全局模型、局部模型和新域模型时,各个模型会形成自身的初始模型参数。
66.然后,在步骤230,基于全局模型的参数和本地手势训练数据训练局部模型以更新局部模型的参数,得到更新后的局部模型参数;这里,各局部模型使用本地手势训练数据进行训练以更新局部模型的参数,其中,表示第i个局部模型对应的本地手势训练数据,得到更新后的局部模型参数。
67.然后,在步骤240,基于全局模型的参数和个性化手势训练数据训练新域模型,以更新新域模型的参数;这里,个性化手势训练数据集采用新领域的少量带标签的数据(一般选取不超过2个样本),其中,表示第i个新域模型对应的个性化手势训练数据。
68.然后,在步骤250,基于更新后的局部模型参数和更新后的新域模型参数更新全局模型的参数。该步骤中,局部模型和新域模型将各自更新后的局部模型参数推送给全局模型,全局模型基于公式对全局模型的参数进行更新,其中θi表示全局模型接收到的第i个模型参数,这里的模型参数可以为更新后的局部模型参数或者更新后的新域模型参数。
69.然后,在步骤260,重复训练局部模型、训练新域模型以及更新全局模型的参数的过程,当全局模型趋于收敛时,得到更新后的全局模型、至少一个训练后的局部模型和至少一个训练后的新域模型。这里,重复以上训练步骤,通过迭代次数的增加,全局模型的趋于收敛,例如收敛可以为训练过程中采用的损失函数趋近于0,同时各个局部模型也实现个性化,最终得到一个高度泛化通用的全局模型、多个局部模型和多个个性化的新域模型。
70.本技术实施例的手势识别模型训练方法,利用少量预处理后的wi-fi信道状态信息数据初始化全局模型参数后,各局部模型从全局模型下载模型参数并将参数应用到自身,然后利用各自数据集微调模型之后再将模型参数传到全局模型,如此循环,得到一个高度泛化的全局模型和多个个性化局部模型。
71.图4示出了根据本技术实施例的全局模型、局部模型和新域模型之间参数下载与参数上传的关系示意图400。为了保证全局模型具有初始分类能力,可以对全局模型进行初始化,具体可以包括:在新域数据中随机选取少量样本数据(一般不超过2个样本),形成个性化手势训练数据,对全局模型进行训练,训练过程中利用分类交叉熵损失对模型进行优化,得到全局模型的初始参数其中v表示分类的输出维数,y表示真实分布,yc表示预测分布。
72.在本技术的实施例中,基于全局模型的参数和本地手势训练数据训练局部模型,以更新局部模型的参数,可以包括:
73.下载全局模型的参数θg,更新局部模型的参数,这里在首次训练过程中,下载的是全局模型的初始参数后续多次训练过程中,下载的是更新后的全局模型的参数;基于本地手势训练数据训练局部模型,更新局部模型的参数。相同的,局部模型在训练过程中,也利用分类交叉熵损失进行优化实现。
74.在本技术的实施例中,基于全局模型的参数和个性化手势训练数据训练新域模型,以更新新域模型的参数,可以包括:
75.下载全局模型的参数θg,更新新域模型的参数,这里在首次训练过程中,下载的是全局模型的初始参数后续多次训练过程中,下载的是更新后的全局模型的参数;基于个性化手势训练数据训练新域模型,更新新域模型的参数。相同的,新域模型在训练过程中,也利用分类交叉熵损失进行优化实现。
76.本技术的另一实施例提供一种手势识别方法,可以用于识别训练后的新域模型对应的新域手势数据,包括:
77.在应用上述实施例得到更新后的全局模型、训练后的全局模型以及训练后的新域模型;对于新域手势数据的识别,只需要下载更新后的全局模型的参数,利用下载的训练后的全局模型的参数替换训练后的新域模型的参数;然后,基于个性化手势训练数据对训练后的新域模型再次训练,得到二次训练后的新域模型,达到对训练后的新域模型进行微调的目的;最后,将待识别手势数据输入到二次训练后的新域模型,即可得到手势识别结果。
78.在其他实施例中,手势识别方法还可以用于识别重新构建的新域中手势数据,包括:
79.应用上述实施例中的方法得到更新后的全局模型;下载更新后的全局模型的参数;根据更新后的全局模型的参数更新重构新域模型的参数,这里,重构新域模型可以根据特征提取网络框架进行构建;基于重构新域模型对应的个性化手势训练数据训练重构新域模型,得到训练后的重构新域模型;将待识别手势数据输入到训练后的重构新域模型,得到手势识别结果,这里,待识别手势数据为重新构建的新域中的手势数据。
80.本技术实施例中的手势识别方法,基于训练得到泛化的跨域通用模型和多个个性化的局部模型,既能提供跨域高精度的目标手势识别率,又能大大减少集中收集数据所需的代价。
81.图5示出了根据本技术另一实施例的手势识别模型训练装置500的结构框图。
82.装置500包括网络框架构建模块510,被配置为用于构建特征提取网络框架;
83.模型构建模块520,被配置为用于基于特征提取网络框架构建全局模型、至少一个局部模型和至少一个新域模型;
84.模型训练模块530,被配置为用于基于全局模型的参数和局部手势训练数据训练局部模型,以更新局部模型的参数;基于全局模型的参数和个性化手势训练数据训练新域模型,以更新新域模型的参数;基于更新后的局部模型参数和更新后的新域模型参数更新全局模型的参数;重复训练局部模型、训练新域模型以及更新全局模型的参数的过程,当全局模型趋于收敛时,得到更新后的全局模型、至少一个训练后的局部模型和至少一个训练后的新域模型。
85.本技术实施例的手势识别模型训练装置,利用少量预处理后的wi-fi信道状态信息数据初始化全局模型参数后,各局部模型从全局模型下载模型参数并将参数应用到自身,然后利用各自数据集微调模型之后再将模型参数传到全局模型,如此循环,得到一个高度泛化的全局模型和多个个性化局部模型。
86.在其他实施例中,模型训练模块,还被配置为:下载全局模型的参数,更新局部模型的参数;基于局部手势训练数据训练局部模型,更新局部模型的参数。
87.在其他实施例中,模型训练模块,还被配置为:下载全局模型的参数,更新新域模型的参数;基于个性化手势训练数据训练新域模型,更新新域模型的参数。
88.在其他实施例中,装置还包括:初始化模块,被配置为基于初始化训练数据训练全局模型,得到全局模型的初始参数。
89.实验结果对比:
90.从以下四个方面去评估本技术实施例给出的wi-fi跨域手势识别方法的技术效
果:(1)不同训练用户数量识别性能;(2)不同环境和不同用户识别性能;(3)不同分类手势数量识别性能;(4)不同模型对比评估。
91.(1)不同训练用户数量识别性能
92.图6为widar3.0和wiar两个数据集分别进行系统有效性的验证,两个数据集分别有9个和16个手势,测试用户为2个。我们将每个数据集的用户数量从3个增加到6个作为训练数据集。从图中可以看出,widar3.0数据集在训练用户数量增加的情况下始终保持良好的性能。这表明,widar3.0数据集中少量的训练领域也能对新领域获得高精度的预测。wiar的实验结果表明,准确率随着训练数据集的增加而提高,当用户数从3个增加到6个时,准确率提高了近10%。
93.(2)不同环境和不同用户识别性能:
94.使用widar3.0数据集不同环境中系统的鲁棒性。使用从教室中收集的9个用户的数据进行训练,大厅收集的2个用户和办公室收集的4个用户的数据进行测试。这15个用户都有不同的体型。选择3种环境的相同活动,如推拉,扫,拍,画圆,和画之字形。具体来说,将大厅的测试用户数量从1个增加到2个,办公室的测试用户数量从1个增加到4个。在图7中,即使测试用户从1个增加到4个,平均准确率仍然是100%。此外,使用来自大厅和办公室(6个测试用户)的数据对系统进行了评估,结果表明平均准确率仅下降1.2%。总的来说,随着测试用户数量的增长,系统可以有效地跨多个领域工作。
95.(3)不同分类手势数量识别性能:
96.图8为在4、8、12、16种手势下,对6个不同用户数量的训练集进行训练,并使用相同测试集对识别性能评估结果。可以看到,随分类手势数量增加,识别精度有所下降,但仍能够保持较高精度识别。
97.(4)不同模型对比评估:
98.图9将本技术实施例的方法与widar3.0进行比较,在实验中,针对widar3.0提供的7个用户的每一种组合训练,用其余的人的数据进行测试。如图9所示。与widar3.0相比,本技术的方法将准确率提高了20%。此外,本技术的方法提供了更加稳健的性能,在7个用户中准确率超过89%。
99.总体而言,本技术的手势识别技能大大减少成本,又能达到令人满意的高精度跨域手势识别精度。
100.以上所述,仅为本技术的各种实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应所述以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1