基于多任务生成对抗网络的跨视角步态识别方法与流程

文档序号:11476108阅读:495来源:国知局
基于多任务生成对抗网络的跨视角步态识别方法与流程
本发明属于计算机视觉、机器学习
技术领域
,具体涉及基于视频的跨视角步态识别方法。
背景技术
:基于视频的跨视角步态识别问题是计算机视觉和机器学习领域研究的问题之一。当给定不同视角下的步态视频帧序列,要求根据计算机视觉或机器学习算法判断步态帧序列的主体是否为同一个对象。目前该领域已经有不少前人工作,其主要方法可以分为三大类:基于重构的方法,基于子空间的方法和基于深度学习的方法。以下是这三类方法的一些参考文献:[1]w.kusakunniran,q.wu,j.zhang,andh.li,“supportvectorregressionformulti-viewgaitrecognitionbasedonlocalmotionfeatureselection,”inconferenceoncomputervisionandpatternrecognition,pp.974–981,2010.[2]m.hu,y.wang,z.zhang,j.j.little,andd.huang,“view-invariantdiscriminativeprojectionformulti-viewgait-basedhumanidentification,”ieeetransactionsoninformationforensicsandsecurity,vol.8,no.12,pp.2034–2045,2013.[3]w.kusakunniran,q.wu,j.zhang,h.li,andl.wang,“recognizinggaitsacrossviewsthroughcorrelatedmotionco-clustering,”ieeetransactionsonimageprocessing,vol.23,no.2,pp.696–709,2014.[4]s.yu,h.chen,q.wang,l.shen,andy.huang,“invariantfeatureextractionforgaitrecognitionusingonlyoneuniformmodel,”neurocomputing,vol.239,pp.81–93,2017.[5]z.wu,y.huang,l.wang,x.wang,andt.tan,“acomprehensivestudyoncross-viewgaitbasedhumanidentificationwithdeepcnns,”ieeetransactionsonpatternanalysisandmachineintelligence,vol.39,no.2,pp.209–226,2017.[6]y.feng,y.li,andj.luo,“learningeffectivegaitfeaturesusinglstm,”ininternationalconferenceonpatternrecognition,pp.320–325,2016.[7]h.iwama,m.okumura,y.makihara,andy.yagi,“theou-isirgaitdatabasecomprisingthelargepopulationdatasetandperformanceevaluationofgaitrecognition,”ieeetransactionsoninformationforensicsandsecurity,vol.7,no.5,pp.1511–1521,2012.[8]y.makihara,r.sagawa,y.mukaigawa,t.echigo,andy.yagi,“gaitrecognitionusingaviewtransformationmodelinthefrequencydomain,”ineuropeanconferenceoncomputervision,pp.151–163,springer,2006.[9]w.kusakunniran,q.wu,h.li,andj.zhang,“multipleviewsgaitrecognitionusingviewtransformationmodelbasedonoptimizedgaitenergyimage,”ininternationalconferenceoncomputervision,pp.1058–1064,2009.[10]x.xing,k.wang,t.yan,andz.lv,“completecanonicalcorrelationanalysiswithapplicationtomulti-viewgaitrecognition,”patternrecognition,vol.50,pp.107–117,2016.。第一种基于重构的方法主要以重构步态模版为基础,例如[1,3,8,9]中的vtm模型,该方法通过训练多个模型,分别预测目标视角下模版特征中每一个像素点的值,该方法具有计算开销大,识别准确率低等问题。为了减少计算开销,基于自编码器的方法[4]来同时重构模版特征的每个像素,并提取视角不变的特征表达。基于子空间的方法[2,10]将不同视角的步态特征投影到一个公共子空间,并在公共子空间中计算相似度。然而子空间方法通常只能对特征间的线性相关性建模,忽略了非线性相关性,识别率较低。近来,基于深度神经网络的模型在计算机视觉领域得到了较大的应用。[5,6]将深度网络用于步态识别,自动抽取了视角不变的特征表达。尽管在识别准确率上较以往方法得到了较大的提升,但是深度模型缺乏可解释性。技术实现要素:本发明的目的在于提供一种识别率高、计算开销省的基于视频的跨视角步态识别方法。首先介绍本发明有关的基本内容。一、周期能量图(a)为了建立更有效的步态模版特征,需要对原始的行人视频序列进行预处理。对于视频序列中的每一帧,首先进行前背景的分离,提取出步态轮廓图,之后将步态轮廓图居中并对齐至图片中央,得到标准化的步态轮廓图;(b)基于标准化的步态轮廓图序列,首先使用步态识别中的周期检测技术得到每一帧的标准化的周期位置。定义一个步态周期为两个相邻的局部最小标准化周期位置间的时间域。之后,将轮廓图序列划分为一个或多个步态周期,并丢弃无法组成一个完整步态周期的帧。根据中心化的步态轮廓图序列bt和对应的标准化的周期位置rt,构造具有nc个通道的周期能量图(pei)模版特征。周期能量图pei中第k个通道的(x,y)坐标处的值按下式计算:其中:m代表每个通道所覆盖的时间域窗口大小,t(k)决定了每个通道覆盖的时间域的范围。通过这种方法,可根据每一帧的周期位置,将轮廓图序列的空间信息划分至nc个时间域上,以此来同时编码步态的时间和空间信息。二、多任务生成对抗网络本发明的用于步态识别的多任务生成对抗网络如图1所示,主要由编码器、视角变换层、生成器和判别器四部分组成。其中:(a)编码器e:为了获得特定视角的隐表示,使用卷积神经网络作为模型中的编码器。编码器的输入xu是本发明提出的视角为u的pei模版。输入的尺度大小为64×64×nc。pei模版的每个通道被独立的送入编码器中,之后使用时间池化并经过全连接层后提取出有效的特征隐表示zu作为编码器的输出。对于时间池化,采用的方式为平均池化;(b)视角变换层v:假定步态数据随着视角的变化分布在一个高维的流形上。流形中的样本朝着特定的方向移动可以在保持身份信息的条件下实现视角的变化。给定隐空间的隐表示zu,视角变换可以描述为:其中,hi表示由视角i-1到视角i的变换向量。zv是视角v下的隐表示;(c)生成器g:通过把隐表示zv作为输入,可以生成在视角v下的步态模版。生成器由五个反卷积层组成,并使用relu作为激励函数。由于直接重构pei模版具有一定的难度,因此,随机选择pei模版的一个通道进行重构,以此来保证隐表示能够保存所有通道的信息。定义生成器的输入为[zv,c],c为通道的独热编码表示;(d)判别器d:判别器的架构除了不采用时间池化操作以及输出层的维度和编码器不同外,其余结构和编码器相同。定义判别器的输出维度为nv+nc+nd,其中nv是视角的数量,nc是pei通道的数量,nd是训练集中不同身份的数量。判别器的输出对应nv+nc+nd个子判别器,子判别器之间共享除了最后一层以外的参数。并且,每个判别器负责不同的判别任务来判断是否生成的样本属于特定的分布。例如,在模型中,前nv+nc个子判别器使得生成器能够生成满足特定视角和通道的分布,而后nd个子判别器能够使生成器生成属于特定身份的分布所对应的样本。三、损失函数本发明使用两种损失函数来训练多任务生成对抗网络。(a)逐像素损失:为了增强隐表示保持身份信息的能力,首先最小化生成模板与真实模版间的逐像素损失。根据模版特征xv与伪模版特征计算逐像素损失为:(b)多任务对抗损失:根据模版特征xv与伪模版特征计算多任务对抗损失:其中,e表示对于对应样本集合的期望,||·||1表示l1范数,向量s为身份、通道与角度信息的独热编码。d(·)表示判别器的输出,判别器输出的维度与向量s的维度相同,向量s中的非零元素决定了伪模版特征应属于的分布;定义最终的损失函数为:l=lp+αla(6)α作为超参数用来权衡逐像素损失与多任务对抗损失,定义了最终的损失函数后,使用后向传播算法交替更新编码器、视角变换层、生成器与判别器的参数。本发明提出的基于多任务生成对抗网络的跨视角步态识别方法,具体步骤为:(1)输入不同视角下的行人视频帧序列,构造步态模版特征:向量xi是视角i下的步态模版特征,nv是所有视角的数量;(2)对于任意不同的视角u,v,使用卷积神经网络编码对应的步态模版特征xu至隐空间,并得到在隐空间中的隐表示为zu;(3)在隐空间中对隐表示zu进行视角变换,变换至角度v,得到隐表示zv;(4)将隐表示zv以及通道的独热编码作为输入,经过多任务生成对抗网络中的生成网络后输出角度v下的伪模版特征(5)根据模版特征xu与伪模版特征计算逐像素损失lp;(6)使用多任务生成对抗网络中的判别网络,根据模版特征xu与伪模版特征计算多任务对抗损失la;(7)加权逐像素损失与多任务对抗损失,根据总损失l=lp+αla训练多任务生成对抗网络,α作为超参数用来权衡逐像素损失与多任务对抗损失。本发明中,所述的步态模版的构建步骤为:(1)对原始视频帧序列的每一帧进行前背景分离,提取出步态轮廓图;并将步态轮廓图平移缩放至图像中心,得到中心化的步态轮廓图序列{b1,b2,b3,…,bn};(2)对中心化的步态轮廓图序列中每一帧,计算标准化的周期位置rt,表示中心化的步态轮廓图的第t帧的标准化的周期位置;(3)根据中心化的步态轮廓图序列bt和对应的标准化的周期位置rt,构造具有nc个通道的周期能量图模版特征;周期能量图pei中第k个通道的(x,y)坐标处的值按下式计算:其中:m代表每个通道所覆盖的时间域窗口大小,t(k)决定了每个通道覆盖的时间域的范围。本发明中,所述的视角变换步骤为:给定视角u下的隐表示zu,变换到视角v的计算过程可以描述为:其中,hi表示由视角i-1到视角i的变换向量。本发明中,所述的损失lp与la的计算步骤为:(1)根据模版特征xv与伪模版特征计算逐像素损失:(2)根据模版特征xv与伪模版特征计算多任务对抗损失:其中,e表示对于对应样本集合的期望,||·||1表示l1范数,向量s为身份、通道与角度信息的独热编码。d(·)表示判别器的输出。本发明方法使用卷积神经网络的非线性建模能力,提取了视角特定的隐表示。通过在隐空间中进行视角变换,减少了计算开销;并基于生成对抗网络对分布建模的能力,提取出了更具有表达力的特征,可大大提高识别效率。附图说明图1:本发明的详细模型流程图。图2:ou-isir,casia-b,usf数据集样例展示。图3:不同行走状态下在casia-b数据集上的平均准确率。具体实施方式介绍了本发明的具体步骤和模型之后,下面展示该发明在几个步态数据集的测试效果。实验采用了三个数据集,包括ou-isir数据集、casia-b数据集以及usf数据集。图2展示了这三个数据集的一些样例。ou-isir数据集一共有4007个不同的人,其中男性2135个,女性1872个,年龄分布范围从1岁至94。该数据共有4个不同的角度。分别为55°,65°,75°,85°。使用发明的方法提取出pei模版,并设置通道数为3,将pei插值至64×64像素大小的图片后,放入多任务生成对抗网络中进行训练。casia-b数据集一共有124个不同的人,11个不同的视角。其中,每个人在每个视角上有6组正常行走的步态序列,2组背着包行走的步态序列,2组穿的外套的步态序列。casia-b相比ou-isir有更大的视角范围,但是人数相对较少。我们设置pei的通道数为10,分别测试在不同行走状态下的步态识别准确率。usf是另一个常用的步态数据集,一共有122个不同的人,每个人有5种不同形式的步态序列,接近于真实的场景。在实验中,我们只使用不同视角下的步态序列进行测试。我们设置pei的通道数为10。实验使用rank-1识别准确率作为性能指标。通过在视角变换层的隐空间中使用最近邻分类器来进行识别。实验例1:多任务生成对抗网络的识别性能这部分实验展示了不同的模型,在跨视角下识别准确率。作为对比方法,我们选择了自编码器、典型相关分析、线性判别分析、卷积神经网络和局部张量判别模型。表1展示了在三个数据集上本发明的方法和其他方法比较。可以看到,本发明相比其他方法有很大的提升。实验例2:不同损失函数对模型性能的影响表2展示了使用不同损失函数时,模型在casia-b数据集上的性能变化。可以看到,结合多任务对抗损失和逐像素损失可以提升模型的识别性能;而单独使用不同损失函数时,会降低模型的性能。实验例3:不同行走状态对模型性能的影响图3展示不同行走状态下在casia-b上的跨视角识别准确率,一共有三种不同的行走状态:正常行走,背着包行走,穿着外套行走。从图中可以看到,正常行走时的准确率最高,穿着外套的步态序列相比背着包的步态序列对模型性能的降低更显著。实验例4:不同模版和pei通道数对识别准确率的影响表3展示了使用不同模版以及pei通道数对识别准确率的影响。我们使用步态能量图(gei)和时间步态模版(cgi),并分析了pei通道数分别3,5,10时的平均识别准确率。可以看到,我们发明的pei模版相比6ei和c6i,有更高的识别准确度,并且随着pei模版数的增加,识别准确度可以进一步提升。表1:不同方法下的识别准确率(%)表2:不同损失函数下的模型识别准确率(%)54°90°126°逐像素损失+多任务对抗损失82.473.181.3逐像素损失81.571.783.5多任务对抗损失74.668.675.4表3不同模版以及pei通道数对识别准确率的影响当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1