一种基于排序方法的人体动作识别方法

文档序号:6520935阅读:160来源:国知局
一种基于排序方法的人体动作识别方法
【专利摘要】本发明公开了一种基于排序方法的人体动作识别方法,所述方法包括以下步骤:从视频图像序列中提取时空兴趣点以及相应的位置信息;构建词典;通过词袋模型分别对训练集和测试集进行处理,分别构建训练集和测试集的BoW特征;通过训练集的BoW特征训练分类器;将测试数据输入到分类器中,输出测试数据的判别标号,通过对比判别标号和测试数据的动作标号别计算出6个动作判别正确的准确率。本方法将排序方法运用到动作识别方法中,开辟了动作识别的新方向,同时降低了迭代计算的复杂度,提高了动作识别的准确度。
【专利说明】一种基于排序方法的人体动作识别方法【技术领域】
[0001]本发明涉及计算机视觉领域,特别涉及一种基于排序方法的人体动作识别方法。【背景技术】
[0002]人体动作识别是计算机视觉研究中的重要领域,在计算机视觉中是一个极具有吸引力及挑战性的问题。人体运动的视觉分析是一个新兴前沿的研究领域,涉及模式识别、图像处理、计算机视觉、人工智能等多门学科。并且在智能视频监控、视频注解、虚拟现实、人机交互等领域中具有广阔的应用前景,已经成为计算机视觉和模式识别领域的研究热点。
[0003]人体动作识别是对包含人体运动的图像序列进行运动目标的检测和跟踪,并在此基础上利用人体动作过程视觉模式的动态变化特征对特定动作进行建模和识别。人体动作识别已有的方法主要为:基于模板匹配的方法和基于状态空间的方法。
[0004]模板匹配是一种较早用在人体运动识别上的方法,将运动图像序列转化为一个或一组静态的模板,通过将待识别样本的模板与已知的模板进行匹配获得识别结果[1]。在动作识别中,基于模板匹配的算法可以分为帧对帧匹配方法和融合匹配方法。主要方法有:运动能量图像(MEI)和运动历史图像(MHI ),基于轮廓的平均运动形状(MMS)和基于运动前景的平均运动能量(AME)等。但是这类算法缺乏考虑相邻时序之间的动态特性,对于噪声和运动时间间隔的变化相当敏感,识别率较差。
[0005]状态空间的方法进行动作识别是把运动动作的每一种静态姿势定义为一个状态或者一个状态的集合,通过网络的方式将这些状态连接起来,状态和状态之间的切换采用概率来描述,这样每种运动状态可以看成在图中的不同状态或节点的一次遍历过程,其主要的算法隐马尔科夫模型气动态贝叶斯网络气人工神经网络[4]、有限状态机M和置信网络[6]等。状态空间方法虽然能克服模板匹配的缺点,但通常涉及到复杂的迭代运算,算法的步骤较为复杂,难以应用到实际工作中。

【发明内容】

[0006]本发明提供了一种基于排序方法的人体动作识别方法,本发明降低了迭代计算的复杂度,提高了识别的准确度,详见下文描述:
[0007]—种基于排序方法的人体动作识别方法,所述方法包括以下步骤:
[0008]( I)从视频图像序列中提取时空兴趣点以及相应的位置信息;
[0009](2)构建词典;
[0010](3)通过词袋模型分别对训练集和测试集进行处理,分别构建训练集和测试集的Boff特征;
[0011](4)通过训练集的BoW特征训练分类器;
[0012](5)将测试数据输入到分类器中,输出测试数据的判别标号,通过对比判别标号和测试数据的动作标号别计算出6个动作判别正确的准确率。
[0013]所述通过训练集的BoW特征训练分类器的操作具体为:[0014]I)对训练集中视频序列的BoW特征,利用欧氏距离建立η维的相似度矩阵;
[0015]2)通过相似度矩阵的行归一化得到转移概率矩阵P ;
[0016]3)根据转移概率矩阵计算平稳分布π i,选出概率最大的状态i,并记下此类的最大概率;
[0017]4)将状态i变为部分吸收状态,得到新的转移概率矩阵并计算此时的平稳分布^ 2,然后计算π i和Ji 2中各状态的对应差值;
[0018]5)如果存在状态的差值大于阈值T的值,就认为此状态与状态i同类,选出与状态i同类的所有状态,将这些状态均变为部分吸收状态,并记下剩余状态的状态数m ;
[0019]6)然后重复计算平稳分布,差值均小于阈值T的值,就直接判断m是否为0,m不等于O说明没有状态与此状态同类,并将此状态变为部分吸收状态,且将剩余状态的状态数m-Ι,然后重复计算平稳分布;m等于O说明所有状态均已分好类,分类器训练结束。
[0020]本发明提供的技术方案的有益效果是:本方法通过词袋模型分别对训练集和测试集进行处理,分别构建训练集和测试集的BoW特征;通过训练集的BoW特征训练分类器;将测试数据输入到分类器中,输出测试数据的判别标号,通过对比判别标号和测试数据的动作标号别计算出6个动作判别正确的准确率。本方法将排序方法运用到动作识别方法中,开辟了动作识别的新方向,同时降低了迭代计算的复杂度,提高了动作识别的准确度。
【专利附图】

【附图说明】
[0021]图1为本方法所用数据库的示意图;
[0022]图2为时空兴趣点提取、描述流程图;
[0023]图3为训练分类器的流程图;
[0024]图4为分类识别的流程图。
【具体实施方式】
[0025]为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
[0026]为了降低迭代计算的复杂度,提高识别的准确度,本发明实施例提供了一种基于排序方法的人体动作识别方法,详见下文描述:
[0027]传统的动作表示方法,其准确性往往受到跟踪和姿态估计精度的影响,在运动物体较多或背景比较复杂的场景下,该类特征的鲁棒性面临挑战[7]。最近,出现了一种新的动作表示方法——基于时空兴趣点的方法,通过计算兴趣点构成的点集的方向梯度直方图和光流直方图来表示动作,这类方法比较灵活,动作识别准确率比较高.。本发明基于该思想,将动作识别和排序方法结合在一起从而实现人体动作的准确识别。
[0028]将图像内容表示为特定“视觉词”出现次数直方图的词袋(Bag-of-Words,Boff)模型,在人体动作分类方面展现了强大的优势。然而,在这种统计“视觉词”出现次数直方图的模型中,“视觉词”的空间位置信息以及“视觉词”之间的关系几乎被完全的丢弃。方法在Laptev识别方法[8]的基础上,通过计算两个“词袋”之间的欧氏距离,加入“视觉词”空间位置信息进行人体动作识别,可以很好的提升人体动作识别准确率。
[0029]排序方法是计算机视觉研究的又一重要领域,在计算机视觉中是非常重要的一个环节。它可以应用于信息检索等领域,在减少计算机硬件的运行速度问题上起着重要的作用。因此,对人体动作的视觉分析和排序方法结合的研究具有极大的商业价值与现实意义。
[0030]101:从视频图像序列中提取时空兴趣点(space-time interest point,stip)以及相应的位置信息;
[0031]参见图1,本方法所用数据库为TJU (天津大学)数据库,其中包含20个人(10男10 女)、22 个动作(walking (行走)、jogging (慢跑)、running (跑)、boxing (向前打拳)、two—hand—waving (双手挥)、handclapping (拍手)、P—bend (侧弯腰)、jacks (开合跳)、jump(跳远)、P—jump (原地跳)、side—walking (螃蟹步)、single—hand—waving (单手挥)、draw—X (幽叉)、draw—tick (幽对勾)、draw—circle (幽圆)、forward—tick (向前踢)、side—tick(侧踢)、tennis—swing (接网球)、tennis—serve (发网球)、side—boxing (侧打拳)、bend (向前弯腰)、sit—down (坐下))、两个场景(亮、暗)、每人每个动作做四次,共3520段视频。所有的视频均是在均匀的背景下釆集的,釆集帧速率是20fps,空间分辨率是640x480。参照参考文献提出的划分方法mJETJU数据库划分成3个数据集:训练集(train,共1056段视频)、交叉验证集(validation,共1056段视频)、测试集(test,共1408段视频)。其中,每个动作都对应一个动作标号,可将动作标号设置为数字I到22 (本发明实施例对具体的设置不做限制,只需满足训练集和测试集中同一动作的动作标号相同即可)。
[0032]兴趣点,顾名思义,就是具有一定的特征,并且带有某些令人比较感兴趣的属性点,而在计算机视觉中,兴趣点所表示的是图像上或者时间维度上有亮度剧烈变化的点。
[0033]时空兴趣点[1°]是通过将空间兴趣点的方法扩展到时空领域上来找到时间维或者空间维上有较大变化的点。其检测的目的是找到视频序列中发生的时空事件,通常来说,其方法是给出一种强度函数,计算视频序列中的每个位置强度值并通过极大值滤波的方法找出兴趣点。时空兴趣点的提取准确与否对后续的的动作识别有着很大的影响。参考文献
[10]将Harris角点检测思想扩展到时空域,得到一种时空兴趣点的检测方法并用兴趣点构成的点集来表示动作。
[0034]本方法使用Laptev提出的时空兴趣点提取方法。参见图2,该方法中,Laptev将二维图像中的Harris (哈里斯)角点检测技术扩展到三维时空领域中,用检测子Harris3D从KTH数据库的视频中检测出在时空方向变化最大的像素点(兴趣点),建立以兴趣点为中心的时空立方体并抽取光流直方图和梯度直方图的联合特征HoG/HoF描述子,用于对运动进行表征。最后,可以得到该视频中提取到的所有STIP点以及它们的位置信息,每个STIP点的位置信息包括所在帧号Ff以及在该帧图像中的坐标(xf,yf)。本发明实施例以STIP点的维数为162 (HoG描述前72维,HoF描述后90维)为例进行说明,具体实现时,本发明实施例对此不做限制。
[0035]102:构建词典;
[0036]对训练集中所有样本的STIP点用K-means算法[11]聚类,获得聚类中心,即词典dictionary ο K为聚类中心的个数,K-means算法可以从输入的所有STIP点中选出K个作为聚类中心。因此,对于训练集的STIP经K-means计算都可得到一个K*162的矩阵,每一行表示一个聚类中心,共K个。该Κ*162的矩阵即为词典。
[0037]103:通过词袋模型[9]分别对训练集和测试集进行处理,分别构建训练集和测试集的BoW特征。[0038]对于训练集共1056段视频,构建BoW特征,将训练集的视频中所包含的所有STIP点以及词典输入到BoW模型,输出即为训练集的BoW特征。此BoW特征为1056*K的矩阵,其中每一行表示一个视频的特征直方图即该视频的BoW特征。将每个视频对应的动作标号加在矩阵的第一列,得到一个1056* (Κ+1)的矩阵,即为训练集的带标号的BoW特征。
[0039]测试集共1408段视频,提取BoW特征的方法同训练集(所用到的词典为步骤102所构建的词典),输出的BoW特征为1408* (Κ+1)的矩阵,其中第一列是测试集的动作标号。
[0040]104:通过训练集的BoW特征训练分类器;
[0041]本方法采取的人体动作识别方法是将基于GrassHopper的排序方法[l2]和人体行为的视觉分析结合的算法:首先,训练分类器,得到分类模型;然后,根据分类模型对测试集的数据进行判断,通过对比判别标号和测试数据的动作标号计算得出准确率。
[0042]1)对训练集中视频序列的BoW特征(即将每个视频的BoW特征看做一个点,求取任意两个BoW特征之间的距离),利用欧氏距离建立η维的相似度矩阵;
[0043]其中欧氏距离表示在n维空间中两个点之间的真实距离,计算公式为:
[0044]d(A, B) =sqrt[ Σ ((a[i]-b[i]) ^2)] (i=l,2,..., n),其中 A=(a[l], a[2],...,a [n])和B=(b[l], b[2],..., b[n])表示n维空间中的任意两点。
[0045]相似度矩阵:每一行表示这个视频序列与其他视频序列之间的欧氏距离,该矩阵的对角线元素全为0,且矩阵是以对角线对称的。
[0046]2)通过相似度矩阵的行归一化得到转移概率矩阵P ;
[0047]即转移概率矩阵的每一行元素值之和为1,转移概率矩阵中的每个元素代表BoW特征之间的转移概率。
[0048]3)根据转移概率矩阵计算平稳分布π i,选出概率最大的状态i,并记下此类的最大概率;
[0049]平稳分布= Ji1是一列向量,由公式π1=Pπ1算得出,且π1中各元素分别表示不同状态(即不同视频)的概率,元素和是1。
[0050]4)将状态i变为部分吸收状态,得到新的转移概率矩阵并计算此时的平稳分布π2,然后计算π i和π 2中各状态的对应差值;
[0051]其中,部分吸收状态为:当前状态下存在一定的概率被吸收,本方法定义吸收概率为0.75 (即转移概率矩阵该行对角线上的元素Pii=0.75,Pij≠j)则分别变为当前转移概率矩阵中对应元素乘以0.25)。
[0052]5)如果存在状态的差值大于阈值T的值,就认为此状态与状态i同类,选出与状态i同类的所有状态,将这些状态均变为部分吸收状态(即转移概率矩阵中部分吸收状态所对应的行中,对角线上的元素为0.75,其他元素分别变为当前转移概率矩阵中对应元素乘以0.25),并记下剩余状态的状态数m ;
[0053]6)然后重复计算平稳分布(从第三步开始),差值均小于阈值T的值,就直接判断m是否为0,m不等于O说明没有状态与此状态同类,并将此状态变为部分吸收状态,且将剩余状态的状态数m-1,然后重复计算平稳分布;m等于O说明所有状态均已分好类,分类器训练结束。
[0054]下面以一个实例详细的说明步骤104的过程,详见下文描述:
[0055]假如:相似度矩阵为
【权利要求】
1.一种基于排序方法的人体动作识别方法,其特征在于,所述方法包括以下步骤:(1)从视频图像序列中提取时空兴趣点以及相应的位置信息; (2)构建词典; (3)通过词袋模型分别对训练集和测试集进行处理,分别构建训练集和测试集的BoW特征; (4)通过训练集的BoW特征训练分类器; (5)将测试数据输入到分类器中,输出测试数据的判别标号,通过对比判别标号和测试数据的动作标号别计算出6个动作判别正确的准确率。
2.根据权利要求1所述的一种基于排序方法的人体动作识别方法,其特征在于,所述通过训练集的BoW特征训练分类器的操作具体为: 1)对训练集中视频序列的BoW特征,利用欧氏距离建立η维的相似度矩阵; 2)通过相似度矩阵的行归一化得到转移概率矩阵P; 3)根据转移概率矩阵计算平稳分布ηi,选出概率最大的状态i,并记下此类的最大概率; 4)将状态i变为部分吸收状态,得到新的转移概率矩阵并计算此时的平稳分布^12,然后计算π工和π 2中各状态的对应差值; 5)如果存在状态的差值大于阈值T的值,就认为此状态与状态i同类,选出与状态i同类的所有状态,将这些状态均变为部分吸收状态,并记下剩余状态的状态数m ; 6)然后重复计算平稳分布,差值均小于阈值T的值,就直接判断m是否为0,m不等于O说明没有状态与此状态同类,并将此状态变为部分吸收状态,且将剩余状态的状态数m-1,然后重复计算平稳分布等于O说明所有状态均已分好类,分类器训练结束。
【文档编号】G06K9/00GK103593661SQ201310614110
【公开日】2014年2月19日 申请日期:2013年11月27日 优先权日:2013年11月27日
【发明者】苏育挺, 刘安安, 董瑞亭 申请人:天津大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1