基于改进LSTM-CNN的多尺寸输入HAR算法的制作方法

文档序号:17491316发布日期:2019-04-23 20:34阅读:1192来源:国知局
基于改进LSTM-CNN的多尺寸输入HAR算法的制作方法

本发明属于模式识别与人工智能领域,具体涉及一种基于改进lstm-cnn的多尺寸输入har算法。



背景技术:

基于传感器的人体行为识别是人体行为识别领域中一个新兴的研究方向,通过分析获取到的人体行为信息来判断人体行为状态,具有很高的研究价值和广阔的应用领域。人体行为识别有两个方向,基于传感器方向和基于视觉方向。基于视觉的人体动作识别通过对摄像机采集的原始图像进行处理和分析,学习并理解其中的动作和行为,并建立视频内容和动作类型描述之间的映射关系,而基于视觉的har(humanactivityrecognition)受特定场景、时间等限制,这将直接影响har动作的识别的正确性和鲁棒性。

随着智能手机和智能手表的发展和普及,智能终端设备中内置的传感器给人们带来了新的发展契机和发展方向,基于智能终端设备的内置传感器的行为识别在保健、运动健康识别、能耗评估等方面有了新的发展和研究意义。相对于基于视觉的人体行为识别,基于传感器的har识别方法具有抗外界干扰能力强、携带方便、数据获取方式自由等优点。

传统的分类识别算法都采用人工提取有效特征值进行分类识别,针对于相似性极大的动作,特征提取变得尤为困难。深度学习能够自动提取特征,由此科研人员逐渐将深度学习的方法利用到人体行为识别中。lstm(longshort-termmemory)能够提取数据的时间序列特征,cnn随着深度的增加也能学习到数据空间各种抽象特征,将时间和空间特征进行融合将有效的进行分类识别,精确度相对于机器学习会有很大提升。



技术实现要素:

本发明目的在于如何自动提取更为有效的特征值拟对人体行为识别中易混淆的动作进行精确识别,提出了一种基于改进lstm-cnn(longshort-termmemory-convolutionalneuralnetworks)的多尺寸输入har算法。该方案机制主要将进行多维度输入到多层双向动态长短时记忆网络和优化的卷积神经网络融合模型中训练,主要包括以下特征:

1.多尺寸输入。将数据集进行预处理加工,分别送入低通滤波器和移动均值滤波器进行数据降噪,再将数据进行归一化、零填充处理,生成两个维度的数据。以unimib数据集为例,将151*3维度的数据送入多层双向动态长短时记忆网络,21*22*1维度的数据送入优化的cnn网络。

2.多层双向动态长短时记忆网络和优化的卷积神经网络融合。多层双向动态长短时记忆网络能够提取数据的时间特征,优化的卷积神经网络能够提取数据的空间特征,将两种特征进行融合时生成的featuremap特征更加多样性,自动学习出更具有区分度的特征。

3.har分类。通过多层双向动态长短时记忆网络和优化的卷积神经网络融合模型提取出的特征送入多层全连接层和dropout防过拟合层进行分类识别。

附图说明

图1是本发明中系统整体流程的示意图

图2是本发明中神经网络整体架构图

图3是本发明中har加速度数据预处理对比图

图4是本发明中多尺寸输入生成图

图5是本发明中算法生成的混淆矩阵

具体实施方式

下面将对本发明的技术方案进行详细说明。一种基于改进lstm-cnn的多尺寸输入har算法,所述识别方法包括预处理模块、模型搭建模块、har分类识别模块。系统整体流程如附图1,神经网络架构如附图2,下面将对其分别进行详细描述。

1.预处理模块

在使用智能手机采集到的原始数据中存在着很多噪声,这将对我们分类造成很大的困扰,由此要将数据进行预处理,去除原始数据中的无用信息。预处理中包括了数据去噪归一化、零填充及多尺寸输入的生成。

1)数据去噪归一化

原始数据中存在着大量重力加速度分量和噪声,重力加速度分量属于低通信号,故将原始数据送入低通滤波器剔除原始数据中的重力分力,提取出传感器真实的加速度数据。为了消除数据中的毛躁和尖锐信号,将数据送入移动均值滤波器进行降噪,如附图3所示,原始加速度数据通过低通滤波器和移动均值滤波器很好的去除了数据中掺杂的噪声。

数据的归一化有利于后期训练时找到全局最优解,在某些比较和评价的指标处理中用途广泛,mean-var归一化使经过处理的数据符合标准正态分布。将归一化后的数据送入模型中能够更好的进行优化器调优处理。

2)零填充及多尺寸输入的生成

0填充过程如附图4所示。本发明利用智能手机内嵌的加速度传感器采集人类活动数据,数据集中每个动作包含3n个数据样本,每n个数据为一个加速度轴数据,共包含x,y,z三个轴数据,卷积神经网络输入的维度设置为(batch_size,weight,height,channel),本发明预设的cnn输入为一个长宽近似的矩形,根据研究表明,随意的裁剪数据可能会裁剪掉重要信息,故采用0填充方式对数据进行填充,在每个轴后面添加若干个0,使数据维度能够转换成m*m*1的数据,将该数据送入单通道优化cnn网络进行训练。多层动态长短时记忆网络的维度设置为(batch_size,input_dim,time_step),每个time_step都是可以输出当前时序特征,将数据集三轴分离,维度转换成n*3,作为3层双向动态lstm的输入,以此避免了数据的混杂对分类的影响并有效地提取了时间序列的特征。

2.模型搭建模块

深度学习能够有效的自动提取活动的特征,相对于传统的机器学习方法能够取得更高的精确度。lstm是循环神经网络的变体,通过增加输入门限、遗忘门限和输出门限,使得其在时间序列上具有更好的性能。从而避免了梯度消失和梯度爆炸的问题。能够很有效的训练得到时间序列的特征集。

在现实生活中,人的活动是连续的,普通的lstm只能根据以前的信息预测当前状态,很明显,如果数据只在一个方向上运行,一些重要的信息可能不会被捕获到。双向动态lstm由两个lstm单元组成,输出由前后传播的单元层共同决定,由此可以避免重要特征的丢失。

对于双向动态长短时记忆神经网络的隐含层,除了输入序列对于两个隐含层是相反方向的,向前推算跟单向的长短时记忆神经网络一致,其内部计算入下所示:

ft=σ(wf·[ht-1,xt]+bf)(2)

it=σ(wi·[ht-1,xt]+bi)(3)

ot=σ(wo[ht-1,xt]+bo)(6)

ht=ot*tanh(ct)(7)

其中ft表示遗忘门限,it表示输入门限,表示前一刻cell状态,ct表示cell状态,ot表示输出门限,ht表示当前单元的输出,ht-1表示前一时刻单元的输出。

优化的cnn卷积神经网络采用单通道卷积神经网络作为输入(维度为m*m*1),在每一层后面添加标准归一化层,标准化归一层即通过对每一层的输出规范为均值为0和方差为1的正态分布,消除了权重w带来的放大缩小的影响,将每个隐层神经元输出从饱和区拉回到非饱和区,使得非线性变换函数的输入值落入对输入比较敏感的区域,有效解决了梯度消失和梯度爆炸的问题,同时能加快网络的优化速度,解决网络层数太多而导致的无法有效向前传递的现象,并且有效的防止过拟合现象的发生,提高网络的泛化能力。bn层的内部计算如下所示:

其中μβ为每个batch_size的均值,m为batch_size的大小,为batch_size的方差,为标准化后的样本值,γ、β为bn层的可学习重构参数。

优化的cnn网络架构的最后一层卷积层中采用了多尺寸卷积对神经网络的特征进行多尺寸的提取,随着卷积层数的增加,模型提取的特征将越来越抽象,层数的增加很可能会导致精确度的降低,对于最后一层卷积,我们利用三个尺寸维度的卷积核进行卷积提取空间特征,从不同角度提取上一层的特征并通过池化层降维,最后将所有提取的特征进行聚合,此改进能够提高了算法的鲁棒性,同时可以增加识别的精确度。

3.har分类识别模块

将多层双向动态长短时记忆网络训练的时间序列特征与优化cnn网络训练的空间特征融合之后送入全连接层。全连接层的每一个结点与上一层的所有结点相连接,用于将前面提取的特征综合以减少特征信息的丢失。全连接层中采用了dropout函数,dropout函数是以概率p舍弃部分神经元,保留其他神经元进行训练,可以有效的减轻过拟合的发生,并一定程度上达到正则化的效果。经过三层的全连接层对特征的提取分析并对人体行为活动进行分类。将公开数据集unimib送入该算法模型,如附图5所示,该算法取得了很好的效果,精确度达到了92.5%。

以上实施例仅本发明的技术思想,不能依此限定本发明的保护范围,一切利用本发明构思的发明创造,在技术方案基础上所做的任何改动,均属于本发明保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1