人体动作识别的训练方法和识别方法

文档序号:6603918阅读:928来源:国知局
专利名称:人体动作识别的训练方法和识别方法
技术领域
本发明涉及视频分析领域,特别涉及人体动作识别的训练方法和识别方法。
背景技术
近年来,随着影视、网络等媒体的迅速普及和发展,视频已经成为承载信息的主要 工具,且视频数据的数目呈爆炸式增长,每时每刻都会有大量新的内容产生。面对海量涌现 的视频数据,如何去自动获取、分析其中包含的信息,理解其中发生的动作、行为或是事件 成了一个亟待解决的问题。大多数视频记录的是作为社会活动主体的人的活动,如何使计算机能够“看”视频 或“理解”视频中人的动作,成为了计算机视觉、图像处理、模式识别、机器学习、人工智能等 多个学科共同关注的问题,具有深远的理论研究意义和很强的实用价值,对人机交互、虚拟 现实和基于内容的视频检索、压缩编码等方面都有重要意义。另一方面,一个标准的视频监 控系统通常有几十路甚至上千路视频及相应的数字录像数据,如果仅通过人工方式,由操 作人员通过观测每一路视频从而发现报警事件很不现实,且这种事后分析的方法,需要消 耗操作人员大量的时间来找出相应片段。解决以上问题的一个有效方法是对视频中人的动 作和行为进行自动识别,提取和记录用户感兴趣的动作事件,从而达到及时报警和有效检 索视频数据的目的。基于视频的人体动作识别就是通过计算机来对视频数据进行处理和分析,学习理 解其中人的动作和行为,在运动检测、特征提取的基础之上,通过分析获得人体运动模式, 在视频内容和动作类型描述之间建立映射关系。在现有技术中,对视频中人体动作识别的 相关方法依据人体动作建模方法的不同,大体上可以分为三类非参数方法、参数化时间序 列方法以及立方体(Volumetric)分析方法。非参数方法通常以单帧图像为单位从视频中 提取特征,然后将这些特征与存储的动作模板(template)进行匹配;参数化时间序列的方 法对运动的动态过程用一个特定模型来拟合,如隐马尔可夫模型(HMMS,hidden Markov Models),线性动态系统(LDSs,Linear DynamicalSystems)等,通过对训练样本数据的学习 来获得每类动作特定的模型参数;而立方体分析方法不再将视频视为一帧一帧图像组成的 时序序列,而是作为一个三维的时空立方体来处理。现有的立方体分析方法中,研究者开始把视频时空体看作是一些局部部分的 集合,而其中的每个局部部分可以包含不同的动作类型,因而对动作的描述更加灵活 而有效。目前较有影响力也被广泛采用的是由Neibels在2006年BMVC上发表的论 文"J. C. Niebles, H. Wang, and L. Fei-Fei,"UnsupervisedLearning of Human Action Categories Using Spatial-Temporal Words", In Proc. British Machine Vision Conference (BMVC),2006” (参考文献1)中所提出的Bag-of-Words (Boffs)模型,该模型将 人的动作表示成通过训练数据预先生成的码本中独立码字的集合,然后通过对这些码字的 识别来实现对人体动作的识别。此方法的缺点在于,视频中包含的时间信息在图像处理的 过程中丢失,因此无法利用时间信息辅助实现对人体动作的识别。
很多研究表明,在图像表示技术的基础之上,时间信息可以集成到兴趣点的检测 器和描述子中,进而扩展到对视频中的兴趣点进行定位和描述。Laptev和Lindeberg在 参考文献 2 "I. Laptev, "On space-time interest points", International Journal of Computer Vision (IJCV),vol. 64,no. 2 or 3,pp. 107-123,2005” 中提出一种三维 兴趣点检测器,通过对Harris角点检测器增加一些时间约束从而达到在时空维度中检 测局部结构的目的,用这种方法检测到的兴趣点在时间维度和空间维度上都有很大的变 化。在这项研究的基础上,Scovanner在参考文献3 "P. Scovanner, S. Ali, and Μ. Shah, ‘‘A3_dimensional sift descriptor and its application to action recognition,,, ACMMultimedia, pp. 357-360,2007” 中做了进一步扩展,他通过利用 sub-histogram 来对 局部的时间和空间信息进行编码,构造出三维的SIFT描述子。这种检测兴趣点的方法存 在的问题是,有时候检测到的点很少,而不足以捕获人体动作的全部特征,进而导致识别性 能的下降。Dollar 则在参考文献 4 "P. Dollar, V. Rabaud, G. Cottrell, and S. Belongie, "Behavior recognitionvia sparse spatio-temporal featuresInternational Workshop on VisualSurveillance and Performance Evaluation of Tracking and Surveillance(VS-PETS),pp. 65-72,2005”中采用可分离的线性滤波的方法来取代这种时 空域兴趣点检测的方法,在空域采用二维的高斯滤波,在时域上采用两个正交的一维Gabor 滤波器来检测运动特征。由于这些特征是基于线性操作产生的,如滤波及时空梯度等,因 此这些描述子对外观的改变,噪声以及遮挡等很敏感,而由于它们的局部特性,对非平稳背 景比较鲁棒。上述描述子可以和机器学习算法(如SVM及图模型等)相结合,用于人体动作的 检测和识别。Schuldt 在参考文献 5 "C. Schuldt, I. Laptev, and B. Caputo,"Recognizing human actions -.a local svm approach", In InternationalConference on Pattern Recognition (CVPR),2004”中采用前述参考文献2中的局部描述子,结合SVM对拳击、拍手、 挥手、走、跑和慢跑等六类动作进行识别并取得了较好的结果。但这些早期的研究还只是局 限于受限场景下的人体动作识别,比如特定的视角、动作人、背景和光照,在自然场景下,取 消上述种种限制的情况下,该方法的性能急剧下降甚至不再适用。

发明内容
本发明的目的是克服现有的人体动作识别方法受到自然环境限制的缺陷,从而提 供一种人体动作识别的训练方法和识别方法。为了实现上述目的,本发明提供了 一种人体动作识别的训练方法,包括步骤1)、从视频文件中提取时空兴趣点;步骤2)、将步骤1)得到的所有时空兴趣点根据其所包含的特征描述子量化到相 应的视频单词上,并为所述视频单词生成统计直方图;所述视频单词为所有时空兴趣点的 特征描述子所构成的集合中,子集聚类后的结果;步骤3)、根据视频单词所在时空邻域内的时空上下文信息得到该视频单词所在时 空邻域内的其它视频单词,由该视频单词与某一满足时空约束的其它视频单词形成时空视 频词组;步骤4)、对视频单词所在时空邻域内的时空上下文做聚类,得到语境单词,由所述视频单词与所述语境单词形成时空视频单词团体;步骤5)、从所述时空视频词组中选择代表性时空视频词组,从所述时空视频单词 团体中选择代表性时空视频单词团体;步骤6)、利用所述视频单词、代表性时空视频词组、代表性时空视频单词团体中的 一种特征或将多种特征融合后的结果训练分类器。上述技术方案中,所述的步骤2)包括步骤2-1)、从所有时空兴趣点的特征描述子构成的集合中通过随机抽样得到子 集;步骤2-2)、将所述子集聚类到K个视频单词,所述K个视频单词形成一视频单词词 典,所述视频单词词典中的各个视频单词分别用相应的标号表示;步骤2-3)、所述时空兴趣点通过距离度量找到所述视频单词词典中与该时空兴趣 点距离最近的视频单词,并将该视频单词的标号赋给相应的时空兴趣点;步骤2-4)、为所述时空兴趣点生成统计直方图,所述统计直方图的横坐标表示视 频单词的类型,纵坐标表示视频单词出现的次数。上述技术方案中,所述的步骤3)包括步骤3-1)、由时空兴趣点提取过程中的局部时空立方体找到相应的时空邻域;步骤3-2)、由所述时空邻域内的视频单词的分布直方图得到时空上下文信息;步骤3-3)、将所述视频单词与其时空上下文内的任一其它视频单词形成时空视频 词组。上述技术方案中,所述的步骤4)包括步骤4-1)、将视频单词周围的邻域立方体内计算的视频单词的分布直方图视为该 视频单词的时空上下文;步骤4-2)、将所述的代表时空上下文的分布直方图做进一步的聚类,得到语境单 词;步骤4-3)、将所述的视频单词与其周围的语境单词构成时空视频单词团体。上述技术方案中,所述的步骤5)包括步骤5-1)、计算所述时空视频词组中两个视频单词的共生频率,或所述时空视频 单词团体中视频单词和语境单词的共生频率;步骤5-2)、将步骤5-1)中所得到的共生频率做归一化操作;步骤5-3)、将包含某一动作类型的所有视频文件的归一化后的共生频率求平均 值,得到时空视频词组或时空视频单词团体的类内的共生频率;步骤5-4)、由每个时空视频词组或时空视频单词团体的类内的共生频率计算所有 类之间的共生频率;步骤5-5)、由步骤5-3)所得到的类内的共生频率与步骤5_4)所得到的所有类之 间的共生频率按照TF-IDF准则计算每个时空视频词组或时空视频单词团体的分值,按照 所述分值的高低排序得到所述的代表性时空视频词组或代表性时空视频单词团体。上述技术方案中,所述的步骤6)包括步骤6-1-1)、从所述视频单词、代表性时空视频词组、代表性时空视频单词团体所 形成的特征集合中选择一种特征或多种特征,若所选择的特征有多种,将多种特征组合形成特征向量;步骤6-1-2)、利用所选择的一种特征或多种特征组合得到的特征向量训练分类器。 上述技术方案中,所述的步骤6)包括步骤6-2-1)、从所述视频单词、代表性时空视频词组、代表性时空视频单词团体 所形成的特征集合中选择一种特征或多种特征,将所选择特征中简化为相应的语义概念得 分;步骤6-2-2)、集成所述语义概念得分,利用集成后的语义概念得分训练分类器。本发明还提供了一种人体动作识别方法,包括步骤1)、从视频文件中提取时空兴趣点;步骤2)、将步骤1)得到的所有时空兴趣点根据其所包含的特征描述子量化到相 应的视频单词上,并为所述视频单词生成统计直方图;所述视频单词为所有时空兴趣点的 特征描述子所构成的集合中,子集聚类后的结果;步骤3)、根据视频单词所在时空邻域内的时空上下文信息得到该视频单词所在时 空邻域内的其它视频单词,由该视频单词与某一满足时空约束的其它视频单词形成时空视 频词组;步骤4)、对视频单词所在时空邻域内的时空上下文做聚类,得到语境单词,由所述 视频单词与所述语境单词形成时空视频单词团体;步骤5)、从所述时空视频词组中选择代表性时空视频词组,从所述时空视频单词 团体中选择代表性时空视频单词团体;步骤6)、将所述视频单词、代表性时空视频词组、代表性时空视频单词团体所组成 集合中的一种特征或将多种特征融合后的结果送入所述的人体动作识别的训练方法所得 到的分类器中,实现对视频文件中人体动作的识别。本发明的优点在于本发明通过对时空兴趣点之间的时空关系进行建模,有效地融入了时空上下文信 息,得到更具描述能力的特征;通过引入TF-IDF权重机制逐类选取出最具代表性的特征 点,能够得到对摄像机运动,光照变化,人体外观形状变化等相对鲁棒的特征。这些特征能 够很好地捕获各种动作的本质属性,对真实复杂场景下拍摄的复杂动作视频数据取得了较 好的识别结果。


图1为本发明方法的流程图;图2为时空视频词组和时空视频单词团体的构造方法的示意图。
具体实施例方式在对本发明做详细说明之前,首先对本发明中的一些相关概念做统一的说明。时空兴趣点(STIPs)通过一些时空兴趣点检测器算法(如前述参考文献2和 4中所提出的算法)对给定视频序列进行处理,在一定阈值范围内,通过非最大值抑制 (non-maximal supression)处理后,响应函数的局部极大值定义为时空兴趣点。时空兴趣点表现为在时间维度上和空间维度上都有较大的变化,一般用光流直方图或是梯度直方图 进行描述,由于其局部性,具有较好的旋转、平移和缩放不变性,但没有对全局运动的描述。视频单词在所有训练视频中提取到的时空兴趣点描述子构成的集合中,随机选 择一个子集,采用K-均值算法聚类,形成一个视频单词码书(video-word vocabulary),每 个时空兴趣点描述子都对应着一个与其距离最近的码字,称为视频单词(video-word)。时空视频词组时空视频词组是指一定的时空尺度范围内同时出现的视频单词 对。时空视频词组是本发明中新引入的概念,为了便于理解,在此一并对时空视频词组的生 成过程加以说明。参考图2,对于一个标号为视频单词ρ的时空兴趣点(关于如何为时空兴趣点生成 视频单词标号为现有技术,在下文中对步骤S2的描述中也有相应的说明),在时空兴趣点 提取的过程中会得到一个与该时空兴趣点相关的小的局部时空立方体,该局部时空立方体 的具体尺度按照下列公式由时空滤波器的空间尺度和时间尺度得到Sizes = szfX 2 Xsqrt ( σ s) (1)sizet = szfX 2 Xsqrt ( σ t) (2)在上述公式中,szf表示计算时空兴趣点的特征描述子时所取块大小的系数;σ s, σ t分布表示时空滤波器在空域和时域的方差,sqrt表示求取平方根。以ρ为中心,其周围与计算其特征描述子所用到的局部时空立方体大小成比例的 更大的立方体被视为P的时空邻域。在此邻域内,不同的视频单词的分布直方图即为时空 上下文信息,可用下列公式表示H(p, s) = [t1 t2, . . . , tn] (3)在上述公式中,ρ表示时空邻域中心视频单词的标号,s表示确定时空邻域大小的 尺度系数,、表示在该邻域中标号为i的视频单词出现的次数,而η表示视频单词词典中视 频单词的总数。时空邻域立方体的尺度的计算公式为size = sX Sizep (4)在上述公式中,Sizep表示通过前述公式(1)和公式(2)计算得到的时空兴趣点的 尺度,s为确定时空邻域大小的尺度系数,s的取值越大,计算复杂度越高,可能引入的噪声 也越多。P和出现在其邻域局部直方图中的另一个视频单词可构成一个视频单词对,形成所 述的时空视频词组。从对时空视频词组的生成过程可见,一个时空兴趣点周围可能形成多 个时空视频词组。时空视频单词团体一个视频单词和它周围的语境单词构成一个时空视频单词团 体。在前面对时空视频词组的说明过程中已经提到,视频单词ρ周围的邻域立方体内 计算的视频单词的分布直方图被视为视频单词P的时空上下文,如图2所示,将这些代表时 空上下文的分布直方图做进一步的聚类,可得到语境单词。视频单词与其周围的语境单词 即构成时空视频单词团体。从时空视频单词团体的生成过程可见,一个时空兴趣点周围只 能形成唯一的时空视频单词团体。代表性时空视频词组代表性时空视频词组是指对某一特定动作类型更具描述能 力的时空视频词组。
代表性时空视频单词团体代表性时空视频单词团体是指对某一特定动作类型更 具描述能力的时空视频单词团体。本领域普通技术人员很容易理解,每一类人体动作都有它特有的表示基元,如特 定的视频单词、时空视频词组以及时空视频单词团体等,以区分于其他不同的动作类别。因 此,在人体动作识别的过程中,找到这些对各种人体动作来说最具描述性的模式对于人体 动作识别极具意义。选取的模式应当具有下列属性1)、选取的模式在其所要表示的动作类别中出现得应更加频繁;2)、为了保持选取出来的模式对特定的动作类别的独特性,其在其他所有动作类 别中出现得应相对较少。上述两条属性与信息检索理论中常用的TF-IDF权重机制正好吻合,因此本发明 引入TF-IDF的方法从大量的时空视频词组和时空视频单词团体中逐类选取代表性时空视 频词组和代表性时空视频单词团体。首先,计算时空视频词组中两个视频单词或是时空视频单词团体中视频单词和语 境单词的共生频率。对于时空视频词组,两个视频单词之间的共生关系被存储在对其中的视频单词计 算的局部直方图中。对视频文件v,其中被标为i和j的两个视频单词的共生频率按照下面 的公式(5)进行计算 在上述公式中,{pj是视频文件ν中所有标号为i的视频单词的集合,tj是以Pi 为中心计算的局部直方图H(Pi,s)中的第j个元素。对于时空视频单词团体,视频单词i和语境单词j之间的共生频率可按照下面的 公式(6)进行计算 上述公式表示当视频单词VW的标号为i且其周围的语境单词CW的标号为j时, 便将视频单词i和语境单词j的共生频率f(VWi,CWj)加一。将上述公式(5)和公式(6)中所涉及的Tvdvp(i,j)和Tvdv。(i,j)统一记为T/(i, j),并将该值除以视频文件ν中所提取到的时空兴趣点的总数,以抵消视频文件长度不等 的影响,归一化之后的频率记为NT/(i,j)。对某一动作类型C中所有视频文件取平均值, 即得到时空视频词组或是时空视频单词团体的类内的共生频率 在上述公式中,符号ItvI表示所有属于动作类型c的视频文件的总数。据此, 是一个大小为VWnufflXVWnuffl的矩阵,是一个大小为VWnufflxCWmm的矩阵,这里VWnum表示视频 单词的总数,Cffnim表示语境单词的总数。通过上述公式(5)、(6)、(7)计算得到每个时空视频词组或是时空视频单词团体 类内的共生频率之后,所有类之间的共生频率按照下面的公式(8)进行计算[cose] 在上述公式中,|C|表示动作类别的种数,T*是Tdvp和Tdve的统一记号。通过上述计算过程,时空视频词组或时空视频单词团体可以按照下列的公式(9) 得到一个得分值
(9)在生成得分值以后,对每一类动作,可将时空视频词组和时空视频单词团体按照 得分高低分别排序,即可以选出得分最高的前N个代表性时空视频词组和得分最高的前M 个代表性时空视频单词团体。在对本发明中的相关概念进行说明后,下面结合附图和具体实施步骤对本发明的 方法加以说明。参考图1,在步骤Sl中,从包含人体动作的视频文件中提取时空兴趣点。从视频文 件中提取时空兴趣点为本领域技术人员的公知技术,通过三维Harris角点检测器或是线 性可分的时空滤波器都可实现时空兴趣点的提取。由于所提取的时空兴趣点通常都包含有 噪声,会对后续操作产生影响,因此作为一种优选实现方式,可对所述的时空兴趣点做过滤 操作,以去除相应的噪声。在步骤S2中,将步骤Sl中得到的所有时空兴趣点根据其所包含的特征描述子量 化到特定的视频单词上。具体地,对所有时空兴趣点的特征描述子构成的集合,用随机抽 样的方法得到一个子集,采用K-均值聚类算法或是现有技术中的其他聚类算法将其聚类 到K个视频单词,这K个视频单词可形成一视频单词词典,视频单词词典中的各个视频单词 分别用相应的标号表示。在得到视频单词词典后,每一时空兴趣点可通过距离度量找到视 频单词词典中与其距离最近的视频单词,并将该视频单词的标号赋给相应的时空兴趣点。 经过本步骤的相关操作后,视频文件即可被视为一系列带视频单词标号的时空兴趣点的集
I=I O在步骤S2中,除了要生成所述的视频单词外,还要为所述的视频单词生成统计直 方图BoWs。为视频单词生成统计直方图的实现方法为本领域技术人员所公知的现有技术, 图2中给出了统计直方图的一个范例,该统计直方图中的横坐标表示视频单词的类型,纵 坐标表示视频单词出现的次数。在步骤S3中,需要在步骤S2所得到的视频单词的基础上形成时空视频词组,然后 在所形成的时空视频词组中选取代表性时空视频词组。时空视频词组的形成以及代表性时 空视频词组的选择可参考前文中的说明。在步骤S4中,对视频单词所在时空邻域内的时空上下文做聚类,得到语境单词, 由所述视频单词与所述语境单词形成时空视频单词团体,然后从所有所形成的时空视频单 词团体中选择代表性时空视频单词团体。详细过程见前文说明,在此不再赘述。虽然在上述说明中,在步骤S3中完成时空视频词组的形成以及代表性时空视频 词组的选择,而在步骤S4中完成时空视频单词团体的形成以及代表性时空视频单词团体 的选择,但这两个步骤可以同步执行。在步骤S5中,前述步骤S2得到的视频单词、步骤S3得到的代表性时空视频词组 以及步骤S4得到的代表性时空视频单词团体构成了对视频特征不同粒度的描述,基于这些特征以及它们之间的融合可以训练分类器,并进一步实现融合多特征的人体动作识别。对于单独使用各种特征(如视频单词,代表性时空视频词组或是代表性时空视 频单词团体)进行人体动作识别时,相关方法与传统的BoWs方法相同,在此不再赘述。对于融合前述两种或是三种特征进行动作识别时,可以进行早期融合(early fusion)也可以进行晚期融合(late fusion)。早期融合,是指在语义概念学习之前进行的融合,也即特征级的融合,在这一融合 过程中将多种特征描述子组合形成一个单一的特征描述子。比如,可以采用特征的顺序级 联形式,将各种特征描述子单独表示的分布直方图进行加权级联得到的特征向量如下面的 公式(10)所示H = [a Hvffs β HST_DVPs (1_ α - β ) HST_DVCs] (10)在上述公式中,HVWs,HST_DVPs和HST_DTCs分别表示视频单词、代表性时空视频词组和代 表性时空视频单词团体的分布直方图,而α,β和(l-α-β)分别表示三种描述子各自的 权重系数,各权重系数的取值区间为W,1],该权重可通过交叉验证的方法得到,最后得到 的直方图的长度为使用到的不同描述子各自直方图的长度之和。经由早期融合将多种特征描述子组合形成一个单一的特征描述子后,融合后的特 征可用于分类器的训练和分类。分类器在完成所述的训练和分类后,即可实现对待检测视 频中人体动作的识别。晚期融合是先将单一特征简化为一种语义概念的得分,然后将这些得分集成到一 起进行语义概念的学习。比如,可以通过基于X 2距离的泛化的多通道的高斯核函数训练 SVM分类器并进行分类 其中C = IVWs,ST-DVPs,ST-DVCs}在上述公式中,X2(HyHj)表示以一种特征的分布直方图Hi和Hj之间的X2距离, 其中的b是对直方图中bin的索引,k表示该种特征的分布直方图中bin的总数。C表示需 要融合的特征集,在这里指视频单词、代表时空性视频词组以及代表性时空视频单词团体 的集合。if表示动作视频i和j以特征c表示的分布直方图。A。表示核函数中的尺 度参数,等于在特征c表示下训练样本之间的平均距离。ω。表示不同特征融合时特征c的 权重系数。以上是对利用视频文件训练分类器的相关过程的说明,在得到分类器以后,利用 分类器实现视频文件中人体动作的识别与上述过程相类似,也需要从待检测视频文件中提 取时空兴趣点,将时空兴趣点根据其所包含的特征描述子量化到相应的视频单词上,并为 所述视频单词生成统计直方图,也需要由视频单词生成时空视频词组与时空视频单词团 体,并从中选出代表性时空视频词组与代表性时空视频单词团体,在得到待检测视频文件的上述特征后,对这些特征加以融合,最后由分类器根据融合后的特征实现对视频文件中 人体动作的识别。由于上述过程的具体实现在前面的描述中已经有详细的说明,因此不再 对相应的细节做重复说明。 最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参 照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方 案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明 的权利要求范围当中。
1权利要求
一种人体动作识别的训练方法,包括步骤1)、从视频文件中提取时空兴趣点;步骤2)、将步骤1)得到的所有时空兴趣点根据其所包含的特征描述子量化到相应的视频单词上,并为所述视频单词生成统计直方图;所述视频单词为所有时空兴趣点的特征描述子所构成的集合中,子集聚类后的结果;步骤3)、根据视频单词所在时空邻域内的时空上下文信息得到该视频单词所在时空邻域内的其它视频单词,由该视频单词与某一满足时空约束的其它视频单词形成时空视频词组;步骤4)、对视频单词所在时空邻域内的时空上下文做聚类,得到语境单词,由所述视频单词与所述语境单词形成时空视频单词团体;步骤5)、从所述时空视频词组中选择代表性时空视频词组,从所述时空视频单词团体中选择代表性时空视频单词团体;步骤6)、利用所述视频单词、代表性时空视频词组、代表性时空视频单词团体中的一种特征或将多种特征融合后的结果训练分类器。
2.根据权利要求1所述的人体动作识别的训练方法,其特征在于,所述的步骤2)包括步骤2-1)、从所有时空兴趣点的特征描述子构成的集合中通过随机抽样得到子集; 步骤2-2)、将所述子集聚类到K个视频单词,所述K个视频单词形成一视频单词词典, 所述视频单词词典中的各个视频单词分别用相应的标号表示;步骤2-3)、所述时空兴趣点通过距离度量找到所述视频单词词典中与该时空兴趣点距 离最近的视频单词,并将该视频单词的标号赋给相应的时空兴趣点;步骤2-4)、为所述时空兴趣点生成统计直方图,所述统计直方图的横坐标表示视频单 词的类型,纵坐标表示视频单词出现的次数。
3.根据权利要求1所述的人体动作识别的训练方法,其特征在于,所述的步骤3)包括步骤3-1)、由时空兴趣点提取过程中的局部时空立方体找到相应的时空邻域; 步骤3-2)、由所述时空邻域内的视频单词的分布直方图得到时空上下文信息; 步骤3-3)、将所述视频单词与其时空上下文内的任一其它视频单词形成时空视频词组。
4.根据权利要求1所述的人体动作识别的训练方法,其特征在于,所述的步骤4)包括步骤4-1)、将视频单词周围的邻域立方体内计算的视频单词的分布直方图视为该视频 单词的时空上下文;步骤4-2)、将所述的代表时空上下文的分布直方图做进一步的聚类,得到语境单词; 步骤4-3)、将所述的视频单词与其周围的语境单词构成时空视频单词团体。
5.根据权利要求1所述的人体动作识别的训练方法,其特征在于,所述的步骤5)包括步骤5-1)、计算所述时空视频词组中两个视频单词的共生频率,或所述时空视频单词 团体中视频单词和语境单词的共生频率;步骤5-2)、将步骤5-1)中所得到的共生频率做归一化操作;步骤5-3)、将包含某一动作类型的所有视频文件的归一化后的共生频率求平均值,得 到时空视频词组或时空视频单词团体的类内的共生频率;步骤5-4)、由每个时空视频词组或时空视频单词团体的类内的共生频率计算所有类之 间的共生频率;步骤5-5)、由步骤5-3)所得到的类内的共生频率与步骤5-4)所得到的所有类之间的 共生频率按照TF-IDF准则计算每个时空视频词组或时空视频单词团体的分值,按照所述 分值的高低排序得到所述的代表性时空视频词组或代表性时空视频单词团体。
6.根据权利要求1所述的人体动作识别的训练方法,其特征在于,所述的步骤6)包括步骤6-1-1)、从所述视频单词、代表性时空视频词组、代表性时空视频单词团体所形成 的特征集合中选择一种特征或多种特征,若所选择的特征有多种,将多种特征组合形成特 征向量;步骤6-1-2)、利用所选择的一种特征或多种特征组合得到的特征向量训练分类器。
7.根据权利要求1所述的人体动作识别的训练方法,其特征在于,所述的步骤6)包括步骤6-2-1)、从所述视频单词、代表性时空视频词组、代表性时空视频单词团体所形成 的特征集合中选择一种特征或多种特征,将所选择特征中简化为相应的语义概念得分; 步骤6-2-2)、集成所述语义概念得分,利用集成后的语义概念得分训练分类器。
8.一种人体动作识别方法,包括步骤1)、从视频文件中提取时空兴趣点;步骤2)、将步骤1)得到的所有时空兴趣点根据其所包含的特征描述子量化到相应的 视频单词上,并为所述视频单词生成统计直方图;所述视频单词为所有时空兴趣点的特征 描述子所构成的集合中,子集聚类后的结果;步骤3)、根据视频单词所在时空邻域内的时空上下文信息得到该视频单词所在时空邻 域内的其它视频单词,由该视频单词与某一满足时空约束的其它视频单词形成时空视频词 组;步骤4)、对视频单词所在时空邻域内的时空上下文做聚类,得到语境单词,由所述视频 单词与所述语境单词形成时空视频单词团体;步骤5)、从所述时空视频词组中选择代表性时空视频词组,从所述时空视频单词团体 中选择代表性时空视频单词团体;步骤6)、将所述视频单词、代表性时空视频词组、代表性时空视频单词团体所组成集合 中的一种特征或将多种特征融合后的结果送入权利要求1-7之一的人体动作识别的训练 方法所得到的分类器中,实现对视频文件中人体动作的识别。
全文摘要
本发明提供一种人体动作识别的训练方法,包括从视频文件中提取时空兴趣点;将所有时空兴趣点根据其所包含的特征描述子量化到相应的视频单词上,并为视频单词生成统计直方图;根据视频单词所在时空邻域内的时空上下文信息得到该视频单词所在时空邻域内的其它视频单词,由该视频单词与某一满足时空约束的其它视频单词形成时空视频词组;对视频单词所在时空邻域内的时空上下文做聚类,得到语境单词,由视频单词与语境单词形成时空视频单词团体;从时空视频词组中选择代表性时空视频词组,从时空视频单词团体中选择代表性时空视频单词团体;利用视频单词、代表性时空视频词组、代表性时空视频单词团体中的一种特征或将多种特征融合后的结果训练分类器。
文档编号G06K9/66GK101894276SQ20101019580
公开日2010年11月24日 申请日期2010年6月1日 优先权日2010年6月1日
发明者秦磊, 胡琼, 蒋树强, 黄庆明 申请人:中国科学院计算技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1