一种基于深度神经网络的动态纹理识别方法

文档序号:9249492阅读:456来源:国知局
一种基于深度神经网络的动态纹理识别方法
【技术领域】
[0001] 本发明设及的是一种计算机模式识别技术领域的分类方法,具体地说,设及的是 一种基于深度神经网络的动态纹理识别方法。
【背景技术】
[0002] 传统模式识别中,解决动态纹理识别的问题主要是集中在提取底层特征上,通过 提取底层特征来刻画某一类动态纹理。底层特征主要是得到动态纹理的运动流特征。文 献(R.Peteri,andD.Chetverikov,DynamicTextureRecognitionUsingNormalFlow andTextureRegularity,InProc.IberianConferenceonPatternRecognitionand ImageAnalysisQbPRIA2005),Estoril,化;rtugal,2005,卵.223-230.)提出的方法是 根据正则流和纹理的规律来提取特征。文献化化zekas,andD.化etverikov,Normal VersusCompleteFlowinDynamicTextureRecognition;AComparativeStudy, Texture2005 ;4thInternationalWorkshoponTextureAnalysisandSynthesis, Beijing, 2005,pp. 37-42.)里面给出了 8种特征来描述动态纹理识别里面的光流特征的运 动性貪良。文献(A.FournierandW.Reeves,Asimplemodelofoceanwaves,inProc. ofACMSIGGRAPH,1986,pp. 75-84.)里面提出了合成海洋表面和波浪的形状的动态纹理的 模型。文献(M.SzummerandR.W.Picard,Temporaltexturemodeling,inProc.ofthe 比ternationalConferenceonImageProcessing,vol. 3,1996.)里面给出了一个基于时 空模型的线性组合来描述每个像素和它的临近像素。该些方法的缺点在于该种模型只能描 述某种具体的动态纹理的物理过程,而不能描述大量的动态纹理。
[0003] 基于底层特征的该种缺陷,为了能够描述大量的动态纹理,最近提出了中层特征。 和底层特征不同,中层特征用的是词袋模型该种基于统计学习的框架。该种模型是将底层 特征映射到中层特征。因此,该种方法可W克服一定的底层特征带来的缺点,如动态纹理的 视角和尺度变化。
[0004] 最近,通过引入中层特征来表示动态纹理取得了显著进展。文本分析里面的主 题模型,女曰probabilisticlatentsemanticanalysis(pLSA)和LatentDirichlet Allocation(LDA)模型,通过隐含主题的混合分布来表示一个文本,具有一定的语义特征。 逐点互信息(pointwiseMu化alIn化rmation(PMI))是互信息的扩展,并且成功用于信息 索引里面来抓取中层信息之间的联系。类似的特征具有很高的同时出现的联系,该是中层 特征可W建模的依据。在文献(A.Ravichan化an,R.Qiau化;ry,andR.Vidal.Categorizing DynamicTexturesusingaBagofDynamicalSystems,IEEETransactionsonPattern AnalysisandMachineIntelligence(PAMI),2012.)中,词袋模型用来对动态纹理识别。 中层特征基于统计学习在大数据上面取得了很好的实验效果。
[0005] 然而,该些视频词特征是因为外表或者形状相似性而产生的,忽略了同时出现的 统计特性和视频的联系。改进该种缺点的一个很重要的方向是探索该些特征的语义相似性 并且得到高层特征表示。该个可W通过层次聚类方法来实现,视频词特征之间的距离和他 们在视频中同时出现有联系。
[0006] 数十年前,人工神经网络发展起来,并且可W通过学习得到很多特征模型。然而, 单隐含层神经网络不能适应训练大数据。最近,深度神经网络引起了很多研究,如数字识 另IJ,物体识别,语音识别等等。深度神经网络的优点在于它能同时优化特征的判别性和生成 性性质,使得特征能够具有很好的判别性能力。从另一个角度来理解该种高层特征产生的 过程就是层次聚类步骤。也就是嵌入特征空间,即不同层次的特征,需要用不同的距离来比 较特征。深度神经网络比主成分分析(principalcomponentanalysis(PCA))和局部线性 嵌入(LocallyLinearEmbedding(LLE))具有更好的降维特性。
[0007]深度神经网络主要集中在数字识别,人脸识别和语音识别。在文献化inton,G.E., Osindero,S.andTeh,Y.,Afastlearningalgorithmfordeepbeliefnets.Neural Computation18 ;1527-1554,2006.)里提出了一种有效地训练深度神经网络的算法。将每 层用一个受限波尔茨曼机来训练,将前一层的输出作为输入。该种算法很好的用在了数字 识另ij中。在文献(Mohamed,A.,Dahl,G.E.andHinton,G.E.AcousticModelingusingDeep BeliefNetworks.IEEETrans,onAudio,Speech,andLanguageProcessing.)里深度神 经网络通过一种产生式模型来取代传统的混合高斯模型来对电话语音识别,并且比传统方 法更女子。在文献(Ranzato,M.,Susskind,J.,Mnih,V.andHinton,G.Ondeepgenerative modelswithapplicationstorecognition.IEEEConferenceonComputerVisionand PatternRecognition.)里像素值看做一个口限随机马尔科夫场来得到一个图像的产生式 模型。该种模型比W往的通过产生高分辨率图像得到的人脸表情识别率更高。
[000引有鉴于上述的缺陷,本设计人,积极加W研究创新,W期创设一种基于深度神经网 络的动态纹理识别方法,使其更具有产业上的利用价值。

【发明内容】

[0009] 为解决上述技术问题,本发明的目的是提供一种基于深度神经网络的动态纹理识 别方法,能够有效识别外表或者形状相似的视频词特征,防止忽略同时出现的统计特性与 视频的联系。
[0010] 一种基于深度神经网络的动态纹理识别方法,其特征在于:包括W下步骤:
[0011] 步骤1;对训练视频中的每个像素时间序列计算混浊特征及相关特征,并将所有 特征组成混浊特征向量,所述视频的每个像素点位置由所述特征向量来表示,所有特征向 量组成所述训练视频的特征向量矩阵;
[0012] 步骤2 ;用k均值来产生最初的代码本;将所有训练的特征向量矩阵中的特征向 量,用欧式距离来得到k个聚类中屯、,形成代码本;
[0013] 步骤3;给定若干个训练视频,产生一个视频代码词频率矩阵H,其中每行向量h代 表一个视频,每列代表一个代码词,通过所述代码词之间的相似性估计出每列向量之间的 距离W及每列向量表示代码词在视频中的分布,然后将每个代码词频率通过逐点互信息转 换,通过视频和代码词之间的逐点互信息表示代码词和训练数据的分布;
[0014] 步骤4 ;通过深度神经网络进行动态纹理识别,具体包括W下步骤;
[0015] 步骤4. 1 ;深度神经网络首先通过多层的模型训练得到一组具有表示性能的特 征,然后通过后向传播来对参数进行调整,得到预测类别的模型;
[0016] 步骤4. 2 ;在训练阶段,通过训练原始特征得到一种语义特征,所有的训练和测试 视频通过语义特征直方图来表示,动态纹理识别模型通过支持向量机(SuppcxrtVector M
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1