基于深度卷积对抗神经网络的人体动作雷达图像分类方法与流程

文档序号:15688902发布日期:2018-10-16 21:37阅读:330来源:国知局
本发明属于人体动作行为识别、雷达目标检测、数据增强、深度卷积对抗神经网络(dcgan,deepconvolutionalgenerativeadversarialnetworks)与机器学习领域,涉及对雷达图像的特征提取并利用dcgan进行数据增强并进行人体动作分类的问题。
背景技术
:人体动作行为识别[1]是近年来计算机视觉领域一个研究热点,其广泛应用于人机交互、虚拟现实、和视频监控等领域,尽管近几年来国内外人体动作行为识别的研究取得了诸多进展,但人体运动的高复杂性和多变化性使得识别高效性与准确度不能完全满足各个行业的相关要求。人体动作行为识别的难点主要在于空间的复杂性与时间的差异性。空间复杂性包括不同的视角、背景、光照的动作场景问题,人体动作在不同方向、角度上的不同幅度问题,人与人、人与物之间的相互遮挡问题;时间差异性包括无法确定人体动作发生的时间点问题,判断动作作用的有效时间和间隔问题,动作中出现的空白间隙问题。这两个问题使得人体动作行为识别研究领域没有统一有效的框架、相关技术和统一有效的分析分类方法。因此本发明使用多普勒雷达作为传感器来检测人体动作行为。随着多普勒雷达[2]精度的上升和使用成本的下降,利用其检测人体目标成为了新的研究热点。雷达发射的信号照射在运动目标产生的回波包含了丰富的多普勒频率信息,同时身体各部位的相对运动会产生复杂的微多普勒频移(micro-doppler),微多普勒频移包含丰富的运动信息。因此利用多普勒雷达检测人体动作行为有很大的发展空间。利用多普勒雷达检测人体目标可以广泛的应用到灾害援助、安全防护、国防建设等多个方面。接收器接收到的回波信号可以通过短时傅里叶变换(shorttimefouriertransform,stft)得到的雷达谱图,再选用合适的分类工具进行分类。支持向量机[3](supportvectormachine,svm)是在1995年正式发表的一种经典的二分类模型,支持向量机的分类标准起源于logistic回归,其基本模型定义为特征空间上的间隔最大的线性分类器。因其在文本任务分类中的显示出的卓越性能很快成为机器学习的主流技术。统计学习带来的核函数(kernelfunction)使得支持向量机具备强大的生命力,核函数直接决定了支持向量机的最终性能,但核函数的选择一直是一个未决问题,比较通用的核函数包括:线性核、多项式核、高斯核等等。生成式对抗网络[4](generativeadversarialnets,gan)自2014年提出就得到了广泛的关注,其模型主要由一个生成器和一个判别器组成。生成式对抗网络中生成器和判别器之间的相互对抗,使得输出的数据分布无限接近真实数据分布,gan给众多研究者提供了新的训练思路,极大的推动了人工智能的发展。[1]李瑞峰,王亮亮,&王珂.(2014).人体动作行为识别研究综述.模式识别与人工智能,27(1),35-48.[2]chen,v.c.(2000).analysisofradarmicro-dopplerwithtime-frequencytransform.statisticalsignalandarrayprocessing,2000.proceedingsofthetenthieeeworkshopon(pp.463-466).ieee.[3]ukil,a.(2002).supportvectormachine.computerscience,1(4),1-28.[4]goodfellow,i.j.,pouget-abadie,j.,mirza,m.,xu,b.,warde-farley,d.,&ozair,s.,etal.(2014).generativeadversarialnets.internationalconferenceonneuralinformationprocessingsystems(vol.3,pp.2672-2680).mitpress.本发明将生成式对抗网络与雷达人体动作分类达相结合,对于安全防护,军事监控,消防救援等实际工作具有极大帮助。技术实现要素:本发明的目的是提供一种针对雷达数据量不足的实际问题,提出一种切实可靠的数据增强方法并将此方法应用于人体动作雷达图像分类方法。本发明以支持向量机作为分类器,对七种人体动作行为雷达数据进行分类,考虑到雷达图像数据量不足的情况,本发明采用生成式对抗式网络进行数据增强。技术方案如下:一种基于深度卷积对抗神经网络的人体动作雷达图像分类方法,包括下列步骤:(1)构建数据集;利用光学运动捕捉器采集人体行为动作的数据构建数据集,该数据集的雷达回波在椭球形人体模型下计算得到。雷达回波经过短时傅里叶变换得到雷达谱图;(2)通过dcgan实现雷达图像数据增强:建立dcgan网络,利用网络单独学习每一个雷达谱图,根据网络学到的特征生成新的雷达谱图,在数据量一定的情况下,扩充训练集样本,通过网络调节参数,使得生成失败图像最少,最大限度的扩充数据集,实现数据增强;(3)提取雷达图像的上、中、下三个包络,作为特征向量,上下包络代表人体四肢回波径向速度,中间包络代表人体躯干的回波径向速度,将三个特征向量作为支持向量机分类器的输入,利用支持向量机对雷达图像数据分类;(4)将dcgan生成的雷达图像作为增强数据加入训练集中,通过支持向量机训练得到分类模型。本发明依据生成式对抗网络可以自主实现无监督学习的特点,提出一种适用于提高雷达图像识别效果的数据增强方式来提高人体行为识别的准确率。本发明以基于mocap数据集生成的雷达多普勒图像和经过数据增强后的图像为研究对象,包括数据集的构建与增强、生成式对抗网络的建立、模型训练和测试。本发明根据雷达系统的优点,针对雷达数据量不足的客观条件,提出了一种新颖的数据增强方法,进而使基于雷达图像的人体动作分类准确率得到提高。附图说明图1为dcgan结构模型。图2为生成器结构模型。图3为人体椭球模型。图4为七种动作的雷达频谱图像。具体实施方式为使本发明的技术方案更加清楚,下面对本发明具体实施方式做进一步地描述。本发明按以下步骤具体实现:1.雷达时频图像数据集构建本发明采用由卡内基梅隆大学图形实验室建立的mocap数据集。该数据集依据人体椭球体动作模型采集数据,该模型源自boulic人体步态模型,boulic在1990年提出的一个全球人体步态模型,该模型对人体目标回波建模,可以将人体分为十个散射部位,分别是头部、胸腔、左大臂、右大臂、左小臂、右小臂、左大腿、右大腿、左小腿和右小腿。不同的肢体运动有不同的运动曲线方程,人体的回波形式即所有不同肢体运动情况的加和。这十个散射部位建模所用到的形状以及各自的相关参数取值具体如表1所示。表1:人体散射部位列表散射部位形状长度符号值/m半径符号值/m头部球体----rhe0.20躯干椭球体hto0.80rto0.25上臂椭球体hua0.45rua0.05前臂椭球体hla0.45rla0.04大腿椭球体hul0.50rul0.10小腿椭球体hll0.50rll0.07圆和椭球体的rcs计算公式如下:σ=πr2(1)人体十个散射部位的形状及半径由表1给出,分别结合椭圆体和球体的rcs计算公式,可以计算人体不同部位的雷达散射面积。对于单频连续波雷达体制下的发射信号,形式为sin(2πf0t),人体步态雷达回波信号经i/q正交解调之后的形式为:其中i=1,…,10表示人体十点散射部位模型中对应的不同散射部位,k表示与回波强度相关的系数,σi表示身体各个散射部位的rcs,τi(t)表示身体各个散射部位的回波延迟,e(t)表示人体十个散射部位雷达回波之和。人体椭球模型如图3所示,整个人体模型由多个椭圆体组成,每个椭球体雷达反射波振幅可以由近似为椭圆形的rcs得到。数据采集装置是由viconindustries开发的运动捕捉系统,该运动捕捉系统由12个红外线mx40摄像机组成,每个摄像机能够以120hz帧速记录图像,同时该系统用41个标记点代表人体各个部分,在收集数据时就可以将人体各部分的运动简化为点的运动。该数据集包含了六种运动情景在内的共计2605项测试运动。这六种运动情景分别是人与人之间的互动、人与自然之间的互动、体育运动、自发运动、运动中的场景变换和测试活动。共计采集2605组实验数据,本发明过程中选择其中七种常见的动作用来生成雷达图像,这七种动作分别为:拳击、匍匐、爬行、跳跃、跑步、行走、站立。然后利用短时傅里叶变换(stft,short-timefouriertransform)处理从人体各个部分反射回来的雷达回波来得到雷达谱图。短时傅里叶变换的出现是为了要解决信号的时域和频域局部化矛盾,其基本思想是:为了得到局部的时域信息,将傅里叶变换进行一定的改变,在信号进行傅里叶变换前乘以一个有限时间长度的窗函数,可以默认平稳信号在窗函数有限时长内也是平稳的,窗函数在时间轴上移动,逐段对信号进行变换,最后得到信号不同时刻的“局部”频谱。给定一个时间长度非常短的窗函数η(t),待分析信号为s(t),那么信号s(t)的短时傅里叶变换stft定义为:窗函数η(t)的选择对短时傅里叶变换的性能有较大影响,窗函数η(t)越短,短时傅里叶变换时间分辨率越高;相反,窗函数η(t)时间宽度越长,短时傅里叶变换频率分辨率越高。本发明根据雷达谱图的特点,通过“滑窗法”获取数据集,对于分类任务中每个动作均可获得大小为500张图片的数据集,本发明将每个动作的数据集分为两个部分,分别为400张训练集和100张测试集。2.基于dcgan的雷达图像数据增强对抗网络是由一个判别模型和生成模型组成。网络结构大致如图1所示。相较于编码器(autoencoder),或者反卷积神经网络,dcgan可以更好更快的生成图像。dcgan对卷积神经网络的结构进行了一些改变,比如去掉所有的池化层,用反卷积层进行采样,去掉全连接层,使网络变为全卷积层结构。dcgan生成器的网络结构如图2所示,首先进行图像预处理,输入图像与标签一一对应,因此输入数据可视为均匀分布,服从均匀分布的输入样本与输入的标签级联,作为一个整体输入网络,数据维度是100,第一个卷积层先进行线性变换将维度变为1024的数据,归一化后利用线性整流函数(rectifiedlinearunit,relu)进行非线性变换获得第一个非线性层的输出,再与输入的标签级联作为下一层的输入。第二个卷积通过线性变换将输入数据变为512维数据,对其块归一化之后进行非线性relu变换,然后需要reshape得到第二个非线性层的输出。最后将数据与标签级联作为下一层的输入。经过四个卷积层最终得到一个64*64*3的图像,最后经过一个反卷积层,该层网络的作用是对数据进行卷积的逆向操作,也就是将经过卷积的输出信号,通过反卷积可以还原卷积的输入信号。反卷积层不做块归一化操作,直接进行非线性sigmoid变换,生成图像。得到的图像在判别器中与真实图像作对比,判别器根据损失函数返回损失值,不断校正生成图像,使得生成图像越来越接近真实图像。dcgan的判别器网络结构和生成器类似,由五层卷积层组成。dcgan的参数设置对于最终图像的生成至关重要,首先是迭代次数epoch,随着epoch从1开始逐渐增加,生成图像越来越接近真实图像,但是当epoch过大时,输出图像与真实图像的相似度会降低,实验显示,epoch值在350到600之间的时候生成图像和输入图像大致相同,但依旧有部分图像生成失败,失败图像从目测上已经和输入的训练集样本相差太多,加入这些图像分类效果也会下降,因此需要将这些图像去掉,最后将选好的生成图像按照七种动作分类加入训练集,扩充训练集样本本发明在epoch值为350、400、450、500、550和600分别生成图像,其中epoch值为500时,生成失败图像最少,因此依据实验情况本发明将epoch的值设置为500,学习速率为0.0002,每次迭代的图像数量为1,输入图像的高和宽均为120。输出图像大小设置为128。由于原数据集的图像大小为120,因此在作为训练集输入支持向量机之前需要先统一进行调整尺度的操作。具体参数如表2所示。表2:dcgan参数设置3.基于支持向量机的雷达图像分类(1)支持向量机本发明的分类器采用支持向量机(svm)。在机器学习中,支持向量机是90年代中期发展起来的基于统计学习理论的一种机器学习方法,通过寻求结构化风险最小来提高学习机泛化能力,实现经验风险和置信范围的最小化,从而达到在统计样本量较少的情况下,亦能获得良好统计规律的目的。给定一组训练样本,每个标记为属于两类,支持向量机训练算法建立了一个模型,分配新的实例为一类或其他类,使其成为非概率二元线性分类。支持向量机会将图像中的特征向量映射到二维平面上的点,通过算法找到一个最鲁棒,泛化能力最强的分界线将两类数据分割开来。当二维平面不能满足线性分类的要求时,支持向量机可以借助核函数将数据向高维空间进行映射,在高维空间中找到一个合适的超平面来实现对数据的线性分类。为了使二元分类器的支持向量机来实现多分类问题,本发明采用了决策树结构,决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。这样一来,多分类问题便转化为多次二分类问题,本发明的人体行为动作需要分成七类,也就是需要应用决策树结构,进行五次二分类问题。支持向量机的核函数选取需要通过实验来寻求,因为训练样本一般是不会独立出现的,它们总是以成对样例的内积形式出现,通过使用恰当的核函数来替代内积,可以隐式的将非线性的训练数据映射到高维空间,而不增加可调参数的个数。目前核函数的选取主要是几个常用的核函数,如多项式核函数、高斯核函数、线性核函数和径向基核函数等等。通过实验发现线性核函数、径向基核函数的分类准确率低于多项式核函数,而高斯核函数等其他核函数无法分类,因此本发明选取了分类效果最好的多项式核函数。多项式核函数的数学表达式为:k(x,xi)=(x·xi+1)dd=1,2,…,n(5)多项式核函数应用较为灵活,本发明中x·xi为两个变量代表两个向量的内积。d代表向量维度,本发明的维度为360。(2)特征提取人体的行为动作是一个时变的、非稳定的随机过程,而且由身体各个不同部位的运动组成。身体不同部位的运动模型、运动规律有所不同,因此人体步态信号的雷达回波是时变的、复杂的,频谱成分是丰富的,所以本发明需要用短时傅里叶变换来得到人体行为动作回波的谱图。本发明所使用的雷达图像如图4所示,人体行为动作信号做短时傅里叶变换后得到的结果,横坐标为时间,纵坐标为径向速度,红色部分是回波能量最大的部分,即人体躯干部分相对雷达径向行走带来的多普勒频率,除开人体躯干移动造成的多普勒频率变化,那些能量稍弱、有周期性起伏的曲线是人体步态运动中手臂、腿干等肢体摆动造成的微多普勒信息。图中频谱成分复杂,但基本可看出人体步态运动的周期及人体步态运动中由于主干躯体移动造成的多普勒频率,从而可得到人体步态频率、步行速度等运动参数。本发明根据雷达图像特点,提取雷达图像的包络线作为特征,图4分别列出了七种动作的雷达频谱图像。其横轴表示时间,纵轴表示径向速度,颜色表示回波强度。每张图表达在1秒钟人体不同的行为动作。中间颜色偏红的直线表示人体躯干的雷达回波,两侧则是四肢的雷达回波。当雷达探测人体行为动作时,忽略因移动距离以及环境因素产生的雷达回波损失,可以近似认为每个时间点人体反射回的总的雷达回波强度是一定的,因此可以通过参数设定将人体四肢的回波和躯干回波的径向速度表示出来,根据实验本发明将参数设定为0.28、0.5和0.77,,通过该参数设定可以提取雷达频谱图像的上中下三个包络,上下包络代表人体四肢回波径向速度,中间包络代表人体躯干的回波径向速度。将这三个特征向量作为支持向量机分类器的输入。4.训练模型并测试分类准确率本发明的数据集的人体行为动作一共包含7类,分别为拳击、匍匐、爬行、跳跃、跑步、行走、站立七类。本发明首先将7类动作,每类动作包含400张图像作为训练集,每类动作100张图像作为测试集。使用多项式核作为核函数,利用支持向量机进行训练得到模型,最后在测试集上检测模型。该模型的分类准确率达到了80.5714%。以上述实验作为基准,每类动作的训练集增加400张dcgan生成图像,测试集保持不变,核函数是多项式核函数,通过支持向量机训练得到模型,最后在相同测试集测试分类结果。其分类准确率为82.4286%。相较于基准提高了2个百分点。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1