一种基于视频数据的人体动作分析方法与流程

文档序号:12272233阅读:448来源:国知局
一种基于视频数据的人体动作分析方法与流程

本发明涉及人体动作分析领域,尤其是涉及了一种基于视频数据的人体动作分析方法。



背景技术:

视频动作分析是了解人类活动的一个重要研究课题,近年来得到了广泛的关注。视频动作分析的一个共同的任务是动作识别,它的目的是确定哪一种类型的动作发生在视频中。和动作识别相比,动作检测是一个非常困难的任务,它不仅要求确定动作类型,而且还分析语意信息。

视频行动分析如今仍然是一个具有挑战性的问题。由于任务中涉及的复杂的时空关系建模,这个问题可以视为有两个基本步骤,即空间(例如:帧级)动作评价和时间的(例如:视频级)动作路径生成。一方面,由于动作种类的多样性和人类行为的变化,很难产生有意义的帧级动作建议和判别。其他方面,事实上,通常在每一帧的潜在动作区域总数,视频的持续时间呈指数增长,这对动作分析造成了一定难度。

本发明提出了一种基于空间动作评价和时间动作路径提取的新框架。使用UCF-Sports数据进行训练,使用Olympic sports dataset数据进行测试,将输入的数据进行包括人体评价和运动评价的空间动作评价,获得动作分数,再通过时间动作路径生成和联系完成动作路径,最后获得行动建议结果。本发明可以处理不同姿态的人体动作和生成动作建议,提供一个贪婪搜索算法来解决行动路径生成,同时提高了建议产生的精度和建议的效率。



技术实现要素:

针对解决在无约束视频剪辑中搜索行动建议的问题,本发明的目的在于提供一种基于视频数据的人体动作分析方法,提出了一种基于空间动作评价和时间动作路径提取的新框架。

为解决上述问题,本发明提供一种基于视频数据的人体动作分析方法,其主要内容包括:

(一)数据输入;

(二)空间动作评价;

(三)时间动作路径提取;

(四)行动建议生成。

其中,所述的数据输入,包括训练和测试两部分,其中使用UCF-Sports数据进行训练,使用Olympic sports dataset数据进行测试;

(1)UCF-Sports数据集有10种动作,150段短视频,已被广泛用于动作定位;

(2)Olympic sports dataset:该数据库有16种行为,783段视频,。

其中,所述的空间动作评价,包括人体评价、运动评价和动作分数计算。

进一步地,所述的评价,包括具有评价指标,评价是基于行动建议与地面实况G之间的平均IoU值,它被定义为:

其中Gt和分别是在第t帧检测的包围盒和地面实况,o(…)是IoU值,|C|是一组帧,其中的检测结果或地面实况不为空;当时,则行动建议为阳性组;η是指定的阈值,η设置为0.5。

进一步地,所述的人体评价,包括执行训练数据,旋转每个训练样本,分别为从到的七个不同的角度,间隔为表示在第t框的第i个动作的包围盒,包围盒表示为[x,y,w,h],其中w和h分别代表宽度和高度,(x,y)是中心;培训结束后,每个包围盒在测试视频中的概率可以通过CNN网络评价;通过设置一个概率阈值,具有更高概率的人类建议,保持用于后续处理。

进一步地,所述的动作评价,包括利用运动线索排除阴性行动建议;光流直方图(HOF)描述符是用来描述每个人的运动建议;基于HOFs构建了两个高斯混合模型(GMMs),Gp(.)和Gn(.),分别代表了阳性和阴性建议,预测属于动作或地面实况的运动模式的概率;HOFs计算相交单元(IoU)包围盒,重叠与地面实况超过0.5作为阳性样品,而那些重叠小于0.1为阴性样品;给定一个测试方案和它的HOFhi,定义的可能性作为一个运动评分,使用两个高斯模型的混合物的预测:

σ=1/(1+e-x)映射可能性的范围为[0,1]。

进一步地,所述的动作分数计算,包括一个包围盒动作评分由人体检测评分和运动评分两部分组成,定义如下:

λp是平衡人类评价和运动评价评分的参数。

其中,所述的时间动作路径提取,包括动作路径生成和联系、动作路径完成,步骤如下:

(1)动作路径生成

在每一个框架上的行动建议,找到一组行动路径P={p1,p2,…,pi},其中pi=对应一个路径,从s-th帧开始到e-th帧结束;制定寻找行动路径集P为最大集覆盖问题(MSCP),制定一个改进的优化目的MSCP,同时使动作评分和路径集合P中的成员之间的相似性最大;形式上,优化目标如下:

s.t|P|≤N (4)

O(pi,pj)≤ηP,i≠j

W(pi,pj)表示动作路径pi和pj之间的相似性,它的定义将在行动路径关联中解释;S(bt)是包围盒bt的动作评分;Φ是动作路径候选集;ηP是一个阈值;

方程(4)中的第一个约束设置包含路径P的最大数目;第二个约束有利于P避免产生重叠的冗余动作路径;两种路径的重叠通过O(pi,pj)评价,定义如下:

在方程(5)中,定义为代表两个包围盒和的IoU;

为了解决方程(4)中的MSCP,需要先获得行动路径候选集φ;φ由时空光滑路径pi组成,其连续元应满足以下两个要求:

代表IoU,和代表的颜色直方图(HOC)和直方图的梯度(HOG);λa是平衡这两个权重的权衡;ηo和ηf是阈值;方程(6)中的第一个要求保证连续的包围盒和在空间上连续;第二个要求确保和有相似的外观;因此,路径pi可能会跟随相同动作者;

获得φ的算法包括两个阶段:前向搜索和后向跟踪;前者的目的是定位路径的结束,后者的目的是要恢复整个路径;其中心思想是要维持一个更新的最佳Top-N路径候选人,表示为φ=(τk,bk),k=1,2,…,N,其中,τk路径K得分,通过积累的获得,bk是k路径末端的包围盒;在正向搜索中,它也记录每个的累计动作分数

和满足公式(6)的两个要求,在t帧的根据以下两个步骤更新路径候选池:针对每个候选,(τk,bk),k=1,2,…,N,如果存在任何的连接到bk,然后bk将被有最大的的取代;如果的累计分数比N-th建议的分数更大,例如,(τN,bN),则更新为向前搜索后,向后跟踪恢复候选路径(τk,bk)的每个更具体地说,对于路径pk,获得通过求解方程

(2)动作路径联系

获得φ之后,可以解决公式(4)中的MSCP;最大的集合覆盖问题用贪婪搜索算法可以实现1-1/e近似比;在开始的时候,在φ使用最大动作分数τk寻找的候选池pi,然后将它添加到路径集P;假设P具有包含k动作路径,列举φ中的其余路径,找到一个最大的流动方程为:

在公式(6)中,W(pi,pj)动作路径pi和pj的相似性,定义为

W(pi,pj)=1/(‖C(pi)-C(pj)‖+λa‖H(pi)-H(pj)‖) (10)

C(p*)和H(p*)分别代表路径p*包围盒HOC和HOG的聚类中心,W(pi,pj)的较大值,pi和pj可能是相同的动作者;为了减少在集合P中的冗余路径,新添加的路径pi应满足方程(5)中的约束;

(3)动作路径完成

训练的线性支持向量机作为框式水平仪探测器;初始组的阳性包括数据集P的包围盒,而阴性包围盒组成排除数据集p,包围盒在阳性组随机选择,IoU小于0.3;在t帧给定检测区域bt,在t+1帧错过的检测位置,为了找到最有可能的位置;第一,随着区域bt内的光流中的转变,bt映射到b′t+1;第二,通过扩展b′t+1的高度和宽度,过去一半的原始长度,构建搜索区域b′t+1;第三,通过一套窗口扫描b′t+1,宽度和长度的比值在[0.8,1.2]范围内变化适应一个演员可能大小变化;bt+1最好的区域选择作为一个地以下方程最大限度:

N(b′t+1)表示扫描b′t+1产生的窗口集,Sf(·)是SVM分类器,输入特征被选择作为HOC和HOG的组合;在获得了bt+1之后,更新的支持向量机检测器,通过添加作为一个阳性样本,bt+1IoU小于0.3的包围盒为阴性。

其中,所述的行动建议生成,包括时空连续轨道可以被视为一个动作,专注于一个动作者从出现直到消失;对于每一个动作,如果它的持续时间大于一个指定的阈值,这个行动建议,表示为T。

附图说明

图1是本发明一种基于视频数据的人体动作分析方法的系统流程图。

图2是本发明一种基于视频数据的人体动作分析方法的人体检测结果的比较图。

图3是本发明一种基于视频数据的人体动作分析方法的动作路径生成的例子。

图4是本发明一种基于视频数据的人体动作分析方法的在UCF-Sports中行动建议生成的结果。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于视频数据的人体动作分析方法的系统流程图。主要包括数据输入;空间动作评价;时间动作路径提取;行动建议生成。

其中,数据输入包括了训练和测试两部分,其中使用UCF-Sports数据进行训练,使用Olympic sports dataset数据进行测试;

(1)UCF-Sports数据集有10种动作,150段短视频,已被广泛用于动作定位;

(2)Olympic sports dataset:该数据库有16种行为,783段视频。

其中,空间动作评价包括了人体评价、运动评价和动作分数计算。

评价包括具有评价指标,评价是基于行动建议与地面实况G之间的平均IoU值,它被定义为:

其中Gt和分别是在第t帧检测的包围盒和地面实况,o(…)是IoU值,|C|是一组帧,其中的检测结果或地面实况不为空;当时,则行动建议为阳性组;η是指定的阈值,η设置为0.5。

人体评价,包括执行训练数据,旋转每个训练样本,分别为从到的七个不同的角度,间隔为表示在第t框的第i个动作的包围盒,包围盒表示为[x,y,w,h],其中w和h分别代表宽度和高度,(x,y)是中心;培训结束后,每个包围盒在测试视频中的概率可以通过CNN网络评价;通过设置一个概率阈值,具有更高概率的人类建议,保持用于后续处理。

动作评价,包括利用运动线索排除阴性行动建议;光流直方图(HOF)描述符是用来描述每个人的运动建议;基于HOFs构建了两个高斯混合模型(GMMs),Gp(.)和Gn(.),分别代表了阳性和阴性建议,预测属于动作或地面实况的运动模式的概率;HOFs计算相交单元(IoU)包围盒,重叠与地面实况超过0.5作为阳性样品,而那些重叠小于0.1为阴性样品;给定一个测试方案和它的HOFhi,定义的可能性作为一个运动评分,使用两个高斯模型的混合物的预测:

σ=1/(1+e-x)映射可能性的范围为[0,1]。

动作分数计算,包括一个包围盒动作评分由人体检测评分和运动评分两部分组成,定义如下:

λp是平衡人类评价和运动评价评分的参数。

其中,时间动作路径提取包括了动作路径生成和联系、动作路径完成。步骤如下:

(1)动作路径生成

在每一个框架上的行动建议,找到一组行动路径P={p1,p2,…,pi},其中pi=对应一个路径,从s-th帧开始到e-th帧结束;制定寻找行动路径集P为最大集覆盖问题(MSCP),制定一个改进的优化目的MSCP,同时使动作评分和路径集合P中的成员之间的相似性最大;形式上,优化目标如下:

s.t|P|≤N (4)

O(pi,pj)≤ηP,i≠j

W(pi,pj)表示动作路径pi和pj之间的相似性,它的定义将在行动路径关联中解释;S(bt)是包围盒bt的动作评分;Φ是动作路径候选集;ηP是一个阈值;方程(4)中的第一个约束设置包含路径P的最大数目;第二个约束有利于P避免产生重叠的冗余动作路径;两种路径的重叠通过O(pi,pj)评价,定义如下:

在方程(5)中,定义为代表两个包围盒和的IoU;

为了解决方程(4)中的MSCP,需要先获得行动路径候选集φ;φ由时空光滑路径pi组成,其连续元应满足以下两个要求:

代表IoU,和H代表的颜色直方图(HOC)和直方图的梯度(HOG);λa是平衡这两个权重的权衡;ηo和ηf是阈值;方程(6)中的第一个要求保证连续的包围盒和在空间上连续;第二个要求确保和有相似的外观;因此,路径pi可能会跟随相同动作者;

获得φ的算法包括两个阶段:前向搜索和后向跟踪;前者的目的是定位路径的结束,后者的目的是要恢复整个路径;其中心思想是要维持一个更新的最佳Top-N路径候选人,表示为φ=(τk,bk),k=1,2,…,N,其中,τk路径K得分,通过积累的获得,bk是k路径末端的包围盒;在正向搜索中,它也记录每个的累计动作分数

和满足公式(6)的两个要求,在t帧的根据以下两个步骤更新路径候选池:针对每个候选,(τk,bk),k=1,2,…,N,如果存在任何的连接到bk,然后bk将被有最大的的取代;如果的累计分数比N-th建议的分数更大,例如,(τN,bN),则更新为向前搜索后,向后跟踪恢复候选路径(τk,bk)的每个更具体地说,对于路径pk,获得通过求解方程

(2)动作路径联系

获得φ之后,可以解决公式(4)中的MSCP;最大的集合覆盖问题用贪婪搜索算法可以实现1-1/e近似比;在开始的时候,在φ使用最大动作分数τk寻找的候选池pi,然后将它添加到路径集P;假设P具有包含k动作路径,列举φ中的其余路径,找到一个最大的流动方程为:

在公式(6)中,W(pi,pj)动作路径pi和pj的相似性,定义为

W(pi,pj)=1/(‖C(pi)-C(pj)‖+λa‖H(pi)-H(pj)‖) (10)

C(p*)和H(p*)分别代表路径p*包围盒HOC和HOG的聚类中心,W(pi,pj)的较大值,pi和pj可能是相同的动作者;为了减少在集合P中的冗余路径,新添加的路径pi应满足方程(5)中的约束;

(3)动作路径完成

训练的线性支持向量机作为框式水平仪探测器;初始组的阳性包括数据集P的包围盒,而阴性包围盒组成排除数据集p,包围盒在阳性组随机选择,IoU小于0.3;在t帧给定检测区域bt,在t+1帧错过的检测位置,为了找到最有可能的位置;第一,随着区域bt内的光流中的转变,bt映射到b′t+1;第二,通过扩展b′t+1的高度和宽度,过去一半的原始长度,构建搜索区域b′t+1;第三,通过一套窗口扫描b′t+1,宽度和长度的比值在[0.8,1.2]范围内变化适应一个演员可能大小变化;bt+1最好的区域选择作为一个地以下方程最大限度:

N(b′t+1)表示扫描b′t+1产生的窗口集,Sf(·)是SVM分类器,输入特征被选择作为HOC和HOG的组合;在获得了bt+1之后,更新的支持向量机检测器,通过添加作为一个阳性样本,bt+1IoU小于0.3的包围盒为阴性。

其中,行动建议生成包括时空连续轨道可以被视为一个动作,专注于一个动作者从出现直到消失;对于每一个动作,如果它的持续时间大于一个指定的阈值,这个行动建议,表示为。

图2是本发明一种基于视频数据的人体动作分析方法的人体检测结果的比较图。如图所示,可以观察到模型检测结果更加精确和复杂。方框1和2的包围盒分别是地面实况和检测结果。第一幅图和第三幅图是通过快速r-cnn获得的(在第三个中存在一个丢失的检测);而第二幅图和第四幅图是采用本发明所用方法的结果,对人体动作检测不存在丢失的情况。

图3是本发明一种基于视频数据的人体动作分析方法的动作路径生成的例子。如图所示,可以观察到,第一行中,前几个方框包含了不相关的动作者,而第二行中,采用了本发明所用方法,动作者的动作路径都被准确记录,说明了该方法有所改进。

图4是本发明一种基于视频数据的人体动作分析方法的在UCF-Sports中行动建议生成的结果。方框1和2的包围盒分别是地面实况和行动建议。

对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1