一种基于稀疏低秩结构多任务学习的行为识别方法与流程

文档序号:13215964阅读:179来源:国知局
技术领域本发明涉及视频图像处理,尤其是涉及一种基于稀疏低秩结构多任务学习的行为识别方法。

背景技术:
由于行为识别广泛和显著的应用,从视频中识别人的行为是计算机视觉和模式识别的重要问题。在安全敏感的环境下,如医院、银行、机场和停车场等场所,为了公共安全和个人隐私,智能视频监控非常重要。早期行为识别方法主要集中在跟踪中的动作捕捉和分析[1]。最近,在行为表示方面,有大量的研究工作[2][3]已经被提出使得行为表示更具有判别力,如空间-时间模式的模板[4]、2-D形状匹配[5]、光流模式[6]、基于轨迹的表示[7]和时空兴趣点[8]。其中,基于时空兴趣点结合词袋模型的方法已经表现很好的性能。由于这些方法不依赖于一些预处理技术,如背景建模或身体部分跟踪,它们不仅对视角,噪声,背景变化具有鲁棒性,而且对于图像的大小和光照的变化也具有鲁棒性。然而,这些方法的一个限制是它不能捕捉时空兴趣点之间的空间和时间关系。一些其它的方法,从该框架衍生,利用空间和时间的上下文作为另一种类型的信息用于描述兴趣点,实现更好的性能。例如,Ryoo等人[9]提出一个所谓的“特征×特征×关系”直方图来捕捉成对兴趣点之间的外观和关系的信息。以上的行为识别方法是直接的从低层图像特征映射到对象标签,从而对行为进行识别。然而,丰富的视觉特征几乎很难被一个对象标签描述,因此这些方法的识别效果往往是不尽人意的。一些方法已被提出来通过使用中间语义特征来表示目标类别[10][11],但是这种中间特征没有明确的语义信息,因此需要更好定义额外的概念来描述目标类别的相关性质。为了克服上述的缺点,近几年,属性学习[12][13]的快速发展一定程度上解决了上述行为识别率低的问题。视觉属性是被人们定义在图像中可观察到的性质(例如相信手臂摆动的标签对于识别行为是有用的)。在许多问题中,它们可以被看作是一种有价值的高层语义信息,并且引入到预测模型中。视觉属性在一些应用中是有价值的,例如,通过属性描述一般图像或不熟悉目标[14],作为中间特征辅助场景识别[15]等。现有的基于属性识别方法假设属性的主要作用集中在学习其属性语义信息,并且使用该语义信息融入到目标判别模型中。简单的说,把原来从低层图像特征映射到对象标签分为两步骤:低层图像特征映射到属性标签和属性标签映射到对象标签。因此属性的预测结果被看作为“中层”特性,用于搭建低层图像特征和高层对象类之间的关系。由上面分析,发现属性学习和目标分类是分开的。尽管属性影响对象的预测,但是当学习目标分类器时,属性标签的训练数据没有直接引入新的信息。探索怎么样才能同时进行视觉属性学习和行为对象学习来提高泛化能力。由于这些视觉属性被行为类别所共享,很多行为类别之间的区别主要是通过这些属性区分的。因此属性学习与行为学习存在内在的关系。然而多任务学习是一种有效的方式利用其内在的关系。把属性学习作为行为学习的额外任务,并且把复杂的单任务行为识别问题转化为多任务行为识别问题。采用基于多任务行为识别方法能够很好的解决这些问题。上述的多任务学习方法通过属性任务来提高行为任务的准确率,表现出了良好的效果。多任务学习在许多领域受到广泛关注,如机器学习、数据挖掘、计算机视觉、生物信息学[16][17]。多任务学习的目的是通过学习多个相关任务来提高分类器的泛化性能。这可以通过学习任务的同时,利用它们的内在相关性达到此目标。当每个任务只有有限的训练数据时,这种方法特别有效。近年来,把矩阵的秩作为特定约束条件的优化问题在很多领域上出现,包括机器学习,自动控制和图像压缩。例如,协同过滤中给定一个部分填充的评分矩阵,其目标是预测缺少的矩阵元素。因为通常认为只有几个因素对个人评分造成影响,因此通过低秩矩阵近似评分矩阵是自然的。然而,由于秩函数的性质,矩阵秩最小化问题是NP难问题。秩函数的常用凸松弛是迹范数[18],该迹范数定义为矩阵奇异值的总和。一些最近的研究表明低秩解可以通过在某些条件下最小化迹范数来求解[19]。在实践中,迹规范已经表明能够获取低秩的解,并且它已被广泛应用在许多场景中。矩阵的完成问题[20]被转化为迹范数最小化问题。对于二维数据如图像,矩阵分类的构想[21]是采用权重矩阵,在数据上通过迹规范对其进行正则化。它表明这样的构想相比于传统的方法能够提高性能。根据低秩矩阵能够很好的挖掘子空间结构信息来获取任务之间的相关性,G.Obozinski等人[22]提出迹规范正则化用于多任务学习。虽然基于低秩的多任务学习方法得到广泛的应用,但是使用迹范数正则化的一个限制是求出来的模型参数一般是稠密的。然而,在许多实际的行为识别问题中,预测函数的潜在结构可能是稀疏低秩的。当每一个任务的训练数据有限,并且样本的特征维度是高维时,发现许多特征不具有较高的判别能力。然而稠密的模型参数使得不具有较高判别能力的特征具有较高的判别能力,这些特征可能会影响多任务学习的泛化能力。最近,已经有大量的文献表明,基于稀疏约束对于高判别能力的特征选取是有效的,并且对噪声样本具有鲁棒性。具有高判别能力的特征对应的稀疏系数比较大,低判别能力的特征对应的稀疏系数比较小,可能接近0。因此把l1范数约束贴加到多任务学习中来解决具有噪声和高维特征的任务学习问题。综上所述,稀疏项对数据噪声有很好的鲁棒性,并且在特征维度远大于训练样本数的情况下,能够挑选具有良好判别力的特征。低秩能够挖掘子空间结构的信息获取任务之间的相关性。这个动机促使把迹范数和l1范数结合起来作为一个复合正规化项,用于得到稀疏低秩的结构。因此提出了基于稀疏低秩结构的多任务行为识别方法。由于迹范数和l1范数非光滑的,该多任务行为识别方法是不光滑凸优化问题。半定规划问题求解涉及到迹范数和l1范数优化问题时,其计算量上是非常费时的,不适用于大数据集上。因此,采用先进的优化技术自适应惩罚线性交替方向法[23]求解该优化问题。该方法没有必要引入辅助变量和逆矩阵。矩阵之间的乘积通过使用SVD表示技术来减少其计算量。针对上述优化问题,首先引进一个辅助变量使得目标函数可分离,并且把该优化问题转化为增强拉格朗日函数。不断通过最小化目标函数来计算参数的最优解,直到收敛。综上所述,提出采用基于稀疏低秩结构的多任务行为识别方法学习底层特征的相关性,在行为识别数据集上,实验结果表明的方法要优于其它基准方法。参考文献[1]J.K.AggarwalandQ.Cai,Humanmotionanalysis:Areview[C].in:Proc.IEEEWorkshoponNonrigidandArticulatedMotion,1997,pp:90–102.[2]L.Liu,L.Shao,andP.Rockett,BoostedKey-FrameSelectionandCorrelatedPyramidalMotion-FeatureRepresentationforHumanActionRecognition[J].PatternRecognition,2013,46(7),pp:1810–1818.[3]L.Shao,L.Ji,Y.Liu,andJ.Zhang,HumanActionSegmentationandRecognitionviaMotionandShapeAnalysis[J].PatternRecognition.Lett,2012,33(4),pp:438–445.[4]A.YilmazandM.Shah,Actionssketch:Anovelactionrepresentation[C].in:Proc.IEEEInt.Conf.Comput.VisionandPatternRecognit.,2005,pp:984–989.[5]Z.Lin,Z.Jiang,andL.S.Davis,Recognizingactionsbyshape-motionprototypetrees[C].in:Proc.IEEEInt.Conf.Comput.Vision,2009,pp:444–451.[6]A.Efros,A.Berg,G.Mori,andJ.Malik,Recognizingactionatadistance[C].in:Proc.IEEEInt.Conf.Comput.Vision,2003,pp:726–733.[7]M.RaptisandS.Soatto,Trackletdescriptorsforactionmodelingandvideoanalysis[C].in:Proc.Eur.Conf.Comput.Vision,2010,pp:577–590.[8]J.Liu,Y.Yang,andM.Shah,Learningsemanticvisualvocabulariesusingdiffusiondistance[C].in:Proc.IEEEInt.Conf.Comput.VisionandPatternRecognit.,2009,pp:461–468.[9]M.S.RyooandJ.K.Aggarwal,Spatio-temporalrelationshipmatch:Videostructurecomparisonforrecognitionofcomplexhumanactivities[C].in:Proc.IEEEInt.Conf.Comput.Vision,2009,pp:1593–1600.[10]J.Fowler,Compressive-ProjectionPrincipalComponentAnalysis[J].IEEETrans.ImageProcess,2009,18(10),pp:223–2242.[11]A.FathiandG.Mori,Actionrecognitionbylearningmid-levelmotionfeatures[C].in:Proc.IEEEInt.Conf.Comput.VisionandPatternRecognit.,2008,pp:1–8.[12]S.J.Hwang,F.Sha,andK.Grauman,SharingFeaturesbetweenObjectsandTheirAttributes[C].inProc.IEEEInt.Conf.Comput.VisionandPatternRecognit,2011,pp:1761–1768.[13]D.ParikhandK.Grauman,Relativeattributes[C].in:Proc.IEEEInt.Conf.Comput.Vision,2011,pp:503–510.[14]D.A.Vaquero,R.S.Feris,D.Tran,L.Brown,A.Hampapur,andM.Turk,Attribute-basedpeopolesearchinsurveillanceenvironments[C].in:Proc.IEEEWorkshopApplicat.ofComput.Vision,2009,pp:1–8.[15]Y.WangandG.Mori,ADiscriminativeLatentModelofObjectClassesandAttributes[C].inProc.Eur.Conf.onComput.Vision,2010,pp:155–168.[16]A.Argyriou,T.Evgeniou,andM.Pontil,ConvexMulti-TaskFeatureLearning[J].MachineLearning,2008,73(3),pp:243-272.[17]B.Heisele,T.Serre,M.Pontil,T.Vetter,andT.Poggio,Categorizationbylearningandcombiningobjectparts[C].in:NIPS,2001,pp:1239-1245.[18]Fazel,M,Hindi,H.,&Boyd,S.P,Arankminimizationheuristicwithapplicationtominimumordersystemapproximation[C].in:ProceedingsoftheAmericanControlConference,2001,pp:4734-4739.[19]Recht,B.,Xu,W.,&Hassibi,B,Necessaryandsufficientcondtionsforsuccessofthenuclearnormheuristicforrankminimization[C].in:Proceedingsofthe47thIEEEConferenceonDecisionandControl,2008,pp:3065-3070.[20]Weimer,M.,Karatzoglou,A.,&Smola,A,Improvingmaximummarginmatrixfactorization[J].MachineLearning,2008,72(3),pp:263-276.[21]Tomioka,R.,&Aihara,K,Classifyingmatriceswithaspectralregularization[C].in:ProceedingsoftheInternationalConferenceonMachineLearning,2007,pp:895-902.[22]G.Obozinski,B.Taskar,andM.I.Jordan,Jointcovariateselectionandjointsubspaceselectionformultipleclassificationproblems[J].StatisticsandComputing,2010,20(2),pp:231-252.[23]RenX,LinZ,Linearizedalternatingdirectionmethodwithadaptivepenaltyandwarmstartsforfastsolvingtransforminvariantlow-ranktextures[J].Internationaljournalofcomputervision,2013,104(1),pp:1-14.

技术实现要素:
本发明的目的是提供在行为识别中既能获取学习任务之间的相关性,同时也能选取具有较强判别力的特征子空间,并且对噪声样本具有鲁棒性的一种基于稀疏低秩结构多任务学习的行为识别方法。本发明包括如下步骤:1)构建基于稀疏低秩结构的多任务行为识别优化问题;2)用交替方向法处理步骤1)构建的稀疏低秩不光滑凸优化问题;3)用线性交替方向法减少辅助变量的引用并简化步骤2)产生的子问题的运算;4)利用自适应惩罚进一步加快算法的收敛。在步骤1)中,所述构建基于稀疏低秩结构的多任务行为识别优化问题的具体方法可为:(1)在行为识别方法中,把通过摄像机捕捉记录下的目标对象分类问题作为主任务,并把属性分类问题作为辅助任务;为了学习主任务,把n定义为目标类别的数量,xi∈Rd定义为训练数据集中的第i个底层特征向量和{yij|j=1,2,…,n
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1