一种基于协方差描述符的人类行为识别方法与流程

文档序号:17589205发布日期:2019-05-03 21:37阅读:295来源:国知局
一种基于协方差描述符的人类行为识别方法与流程

本发明涉及人类行为识别领域,尤其涉及一种基于协方差描述符的人类行为识别方法。



背景技术:

人类行为识别是机器视觉研究领域的众多挑战性问题之一,它在不同领域都有许多重要的应用,目前最活跃的这类领域之一是互动娱乐。最近,几款采用无触摸界面的游戏机大受欢迎,刺激了这个领域的研究。人体可以表示为由关节连接的刚性节段的铰接系统,人类运动可以被认为是这些刚性节段的空间构型的连续演变。因此,如果能够可靠地提取和跟踪人类骨骼,则可以通过对人类骨骼的时间演化进行分类来执行动作识别。对于真正无触摸的界面体验,游戏控制台(如微软的xbox)部署了一款低成本的深度传感器——kinect传感器。可以通过分析kinect传感器捕获的深度数据以实时估计玩家的身体骨骼[1],其可以进一步分析以识别人的动作或手势。据推测,单独使用骨骼数据进行动作识别可以比使用其他低级图像的数据表现更好[2]。已经知道该方法在识别游戏控制台中的简单用户手势方面非常有效。然而,能够用它获得多大的成功,及其在非娱乐应用中的实用性还都尚未得到充分探索。

在人类行为识别领域中,主要面临三个挑战:

(1)捕获数据的可用性和质量

使用运动捕捉系统捕获的骨骼数据(如hdm05数据库[3])虽然精确但是获取成本很高,而使用kinect和其他低成本深度传感器采集数据相对来说成本低廉,但精度会低一些,不过某些应用仍然可以接受精度上的损失。

(2)找到行动序列的可靠和有区别的特征描述

有三种常见类型的动作描述符:整个序列,单个帧和兴趣点描述符。后两个描述符需要描述符聚合和时间建模的附加步骤以实现识别目标。

(3)对动作的动态进行建模

通常使用通过生成模型[4]或辨别模型[5]的序列进行分析,但是由于要估计的参数数量众多,这些模型需要大量的数据样本和训练时间来准确估计其模型参数。



技术实现要素:

本发明提供了一种基于协方差描述符的人类行为识别方法,本发明利用人体关节信息构建了传统协方差矩阵,然后在其中加入时间信息,最后通过时间积分,得到了最终的描述符,详见下文描述:

一种基于协方差描述符的人类行为识别方法,所述方法包括以下步骤:

利用关节序列构建样本协方差矩阵,将矩阵上三角形作为协方差描述符;

通过使用分层结构将时间信息添加到该协方差描述符中;

利用动态编程方法,在时间维度上进行积分计算,加快协方差描述符的构造,得到最终协方差描述符。

其中,所述协方差描述符具体为:

其中,s是所有关节位置的向量,即s=[x1,…,xk,y1,…,yk,z1,…,zk]',其具有n=3k个元素,(xk,yk,zk)为第k个关节的三维坐标,xk为x轴坐标,yk为y轴坐标,zk为z轴坐标,t为总的帧数,是s的样本均值,′是转置运算符。

进一步地,所述最终协方差描述符具体为:

其中m=t2-t1,

本发明提供的技术方案的有益效果是:

1、本发明提出的协方差描述符具有固定长度,与序列长度无关;

2、尽管描述符计算简单,但在其基础上训练得到的线性svm分类器优于多个数据库中的现有技术方法。

附图说明

图1为一种基于协方差描述符的人类行为识别方法的流程图;

图2为协方差描述符的构造过程;

图3为协方差描述符的时间构造;

图4为kinect传感器捕获的关节位置和名称;

表1为各方法在msr-action3d数据库上的比较结果;

表2为在msr-action3d上使用不同级别时间层次中的结果,l表示层级,ol表示允许重叠;

表3为msrc-12数据库中的手势类和每个类的注释实例数;

表4为使用不同实验设置和描述符配置在msrc-12数据库上的分类准确度;

表5为与基准方法相比,采用三个层次的新描述符在hdm05数据库上的分类准确度。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。

为了解决背景技术中存在的问题,本发明实施例提出了一种基于协方差描述符的人类行为识别方法,对于人类行为识别任务来说,本方法提高了当前最高的水平,且提高的幅度是相当大的。

现有技术中已经知道使用骨骼数据在识别简单用户手势方面非常有效,并且协方差描述符已经成功应用于物体检测,纹理分类和行人检测[6],然而其对于人类行为识别方面的作用还尚未得到充分探索。本发明实施例提出了一种基于协方差描述符的人类行为识别方法,参见图1,该方法包括以下步骤:

101:利用关节序列构建样本协方差矩阵,将矩阵上三角形作为协方差描述符;

假设身体由k个关节表示,并且动作在t帧上执行。令是帧t处的第i个关节的x,y和z坐标。

设s是所有关节位置的向量,即s=[x1,…,xk,y1,…,yk,z1,…,zk',]其具有n=3k个元素。然后,序列的协方差描述符是cov(s)。通常,s的概率分布是未知的,样本协方差由下面的方程给出:

其中,是s的样本均值,′是转置运算符。

在样本协方差矩阵中,c(s)是对称的n×n矩阵。对于描述符,本发明实施例只使用其上三角形。例如,对于具有20个关节的骨骼(如图2所示),n=3×20=60。在这种情况下,协方差矩阵的上三角形是n(n+1)/2=1830,这是描述符的长度。

102:通过使用分层结构将时间信息添加到该协方差描述符中;

该协方差描述符捕获了在执行动作期间不同位置关节对彼此的依赖性。但是,它没有及时捕捉到运动的顺序。因此,如果给定序列的帧被打乱顺序,则协方差矩阵不会改变。这会导致出现问题,例如,当两个活动是彼此相反的时间顺序时,比如“推和拉”这两个动作。

为了将时间信息添加到该描述符,本发明实施例使用了层次结构,其受到2d图像中空间金字塔匹配[7]的思想的启发,分层结构如图3所示。

顶层描述符是在整个视频序列上计算的。较低级别是在整个序列的较小窗口(重叠或不重叠)上计算的。图3仅显示了层次结构中的两个级别。每个协方差矩阵由两个索引标识:第一个是层次级别索引,第二个是级别内的索引。顶级矩阵覆盖整个序列,用c00表示。在级别l上的协方差矩阵在序列的t/2l帧上计算。从一个窗口到下一个窗口的步长是窗口长度的一半。如果步长是窗口长度的一半,则窗口彼此重叠。在图3中,第二级中的协方差矩阵重叠。

添加更多级别并允许重叠增强了分类器使用描述符区分动作的能力。但是,添加的层越多并允许重叠会增加描述符的长度。对于图3中的描述符配置,用20个关节表示的骨架会导致产生长度为4×1830=7320的描述符。

103:利用动态编程方法,在时间维度上进行积分计算,加快协方差描述符的构造,得到最终的协方差描述符。

创建多层的时间层次并允许重叠,这就要求为相同序列的子序列计算多个协方差矩阵。在这里可以部署动态编程方法,以便在执行一些预计算之后,在恒定时间内使矩阵每个元素的计算成为可能。其中对图像使用协方差叫积分图像[7],以及用于时空视频的协方差叫的积分视频[8]。在此可以应用相同的概念,区别在于仅在时间维度上需要积分,可以将其称为积分信号。

按照积分图像中的类似符号,本发明实施例将两个积分信号p(t)和q(t)定义为:

在一些代数操作之后,可以得到以下公式来计算从t1+1到t2帧内的协方差矩阵,包括:

其中,m=t2-t1,

推导的细节是积分图像中相应2d版本的直接简化。在计算了信号积分p和q后,本发明实施例可以使用公式(4)计算任何时间范围内的协方差矩阵,且该矩阵与范围的长度无关。

值得注意的是,与分别在积分图像和积分视频中的二维和三维上的积分相比,仅在积分信号中的一维上进行积分不仅仅是数学和计算需求的简化。它还可以显着减少计算积分时的误差累积[9]

实验报告

下面结合具体的附图对上文提出的方案进行可行性验证,详见下文描述:

本发明实施例评估了该描述符对行为识别的辨别能力。在三个公开可用的数据库上进行了此评估。在其中一个数据库中,使用了自己的注释。使用kinect传感器获取两个数据库,使用运动捕捉系统获取一个数据库。

在所有实验中,本发明实施例使用线性svm分类器、libsvm软件[10]和描述符。在训练或测试之前,描述符被标准化为具有单元l2规范。协方差矩阵本质上是移位不变的。为了使其总体不变,本发明实施例在计算描述符之前在所有维度中将序列上的关节坐标标准化为0到1的范围。

本实验使用的第一个数据库来自msr-action3d数据库[11],该数据库由10个测试者执行20类动作构成。每个测试者每次动作进行2次或3次。共有567个序列,本发明实施例使用其中544个序列,每个序列记录为一系列深度图和一系列骨骼关节位置。使用kinect传感器获取这两种类型的序列。在骨骼关节序列中标记了20个关节,如图4所示。

本实验使用的第二个数据库来自msrc-12数据库[12]。msrc-12是一个相对较大的数据库,通过使用kinect传感器记录的3d骨架数据进行动作/手势识别。该数据库具有594个序列,包含30个测试者的12个手势,总共有6,244个带注释的手势实例。手势类分为两组:隐喻手势和标志性手势。

本实验使用的第三个数据库来自前文提到的hdm05数据库。此数据库与前两个数据库之间存在三个主要差异:首先,它使用动作捕捉传感器捕获,与kinect传感器采集的数据相比,干扰更小。其次,记录的关节数是31而不是20,这会产生更长的描述符,因为在这种情况下协方差矩阵的大小是93×93。第三,帧速率高得多,达到了120fps,明显高于前两个数据库的15/30fps。

对于人类行为识别,此基于协方差描述符的方法将与以下五种方法进行对比:

(1)rnn:基于递归神经网络(recurrentneuralnetwork)的动作识别方法[13]

(2)hmm:基于隐马尔科夫模型(hiddenmarkovmodel)的动作识别方法;

(3)3pg:基于3d点包(3dpointsbag)的动作识别方法;

(4)rop:基于随机占用模式(randomoccupancypatterns)的三维动作识别方法[14]

(5)dc:基于深度相机(depthcameras)的动作识别方法[15]

(6)lal:基于延迟感知学习(latencyawarelearning)的动作识别方法[16]

(7)smij:基于最多信息关节序列(sequenceofthemostinformativejoints)的动作识别方法[17]

实验结果

一、msr-action3d数据库:

本发明实施例在此数据库上使用了典型的实验设置,它将动作类划分为三个动作集,每个动作集包含8个动作类,动作集之间有一些重叠。训练分类器以用来区分同一组中的动作。报告的准确度是三组的平均值。

已经对msr-action3d数据库进行了一些研究。表1显示了本方法与最先进的方法相比的分类率。本方法在该表中的结果对应于使用描述符的三个级别,同时允许在第二和第三级别中重叠。本方法达到了90.53%的分类率,比第二好的方法高2%。值得注意的是,本方法只依靠了关节位置,而其他算法,如3pg、rop,使用了深度图。

此外,本方法的描述符构造和分类算法比dc中使用的actionlet集合简单得多;并且,本方法对时间信息的编码也比hmm中使用的方法简单得多。因此,与其他最先进的方法相比,本方法的有效性得到了提高,这显示了它的实际优势。

接下来,本方法使用相同的数据库来评估更改描述符构造参数的效果。表2中的结果显示了在启用或禁用重叠时,时间层次中不同级别的分类准确性。通常认为,添加更多级别可以提高描述符的识别能力,从而提高分类准确性,重叠也可以提高分类准确性。另一个观察结果是,即使只有一个级别,本方法提出的描述符也优于表1中除了dc之外的所有算法。若有两个级别和重叠,则其优于表中的所有其他方法。

表1

表2

二、msrc-12数据库:

表3显示了该数据库中的12个手势类以及每个手势类的注释实例数。该数据库中的每个序列是一个主体连续多次执行一个手势的记录。每个序列的基本真实注释标记了手势的动作点,在[18]中定义为“单个时间实例,在该时间实例中,动作的存在是明确的,并且可以针对所有实例唯一确定行动“。对于诸如游戏的实时应用,这是需要识别模块来检测手势的关键。

数据库的基本事实注释被设计用于对动作检测任务进行实验,其中需要在给定视频序列中定位不同动作的实例。本方法希望从大量的数据库中获得想要的结果,而不必放弃动作识别的任务。因此,需要知道每个手势实例的开始和结束,而不仅仅是动作点。

为了执行此动作识别实验,本方法手动注释数据库的序列以标记每个手势实例的开始和偏移。为了使这个任务变得容易,还使用了动作点注释。并且开发了一个简单的工具,以便定位每个动作实例的边界,始终从标记的动作点开始搜索。

手势实例的长度即手势开始和偏移之间的帧数,由本方法的注释产生,范围从13帧到492帧。该范围的下端对应于手势“缠绕”的合法实例,其有时连续多次由主体执行,并且地面实况将每个标记为单独的实例。然而,该范围的较高端通常对应于手势的异常表现,例如,在执行具有不必要的重复手势或者手势的额外缓慢表现时来回跳舞和来回移动。这种奇数长的实例构成了数据库的很小一部分。整个数据库中只有40个实例超过200帧。在实验中包含了所有实例。实例的中值长度为80帧。如果将手势实例的结尾视为动作点而不是偏移点,则中值长度变为40帧,最大变为440帧。给定手势长度的范围,选择以动作点结束的固定长度序列,例如,msrc-12数据库中原方法采用35帧来表示动作,这并不十分令人信服。虽然35帧比一半以上的实例短,但它可能包括两个以上的连续短手势实例,例如“缠绕”。

在此实验中,本方法采用了三类四种不同的实验设置:留一法,50%主题分割,1:2实例分割(1/3用于训练、2/3用于训练)。下面将对这三类实验设置进行描述。

(1)留一法

在本实验中,本方法使用了来自29个测试者的所有动作实例进行训练,并利用剩余测试者的动作实例进行测试。本方法共进行了30次实验,每次运行实验都只会使用29位测试者的数据,留下一位测试者数据作为测试数据。这种设置的好处有两个方面:首先,它允许测试方法的主体间泛化,同时尽可能多地使用数据进行训练。其次,它允许检测有问题的主题并分析一些分类错误的来源。

实验结果显示在表4的第一行中。表中的值是30次运行中的平均分类准确率。该平均值的范围为92.7%至93.6%,随着描述符长度的增加而略有增加(通过向层次结构添加额外的级别并允许重叠)。实验表明的高分类率验证了此描述符的主体间鉴别能力。

检查30次运行中每一次的个别错误,发现最有问题的手势实例属于主题编号2。通过检查该主题的高错误率的手势类,本方法发现在大多数情况下,主体执行了与手势不相关的动作,例如,跳舞或行走,而手势应该只用手进行。

(2)50%主体分割

在此实验中,测试了分类器对减少训练样本数量的灵敏度。首先训练了20个不同的分类器,每个分类器随机选择一半人进行训练,另一半进行测试。如表4第二行所示,平均正确分类率的范围为90.3%至91.7%。尽管仅使用了一半的实例进行培训,但分类准确度相较于留一法的结果降低了不到3%。

从上面的实验可以清楚地看出,本方法提出的描述符在msrc-12数据库上的识别能力更强。尽管手势的数量较多,并且测试者对同一手势的表现也存在较大差异。这可归因于可用于训练分类器的实例更多。

(3)1:2实例分割

在最后的实验中,本方法测试了在训练和测试中使用来自所有测试者的样本,是否可以提高分类器的性能。每个手势类的实例在训练和测试之间随机分配。通过随机取样完成拆分而无需更换,即,训练和测试集之间不能共享任何实例。使用两种不同的分流比:1/3的实例用于训练,其余用于测试,或2/3用于训练,其余用于测试。在每种比率中又采用了20种不同的随机分割。

该实验的结果显示在表4的第三行和第四行中。当三分之一的数据用于训练时,准确度约为98%。当三分之二用于训练时,准确率上升到99%左右。

从这个实验中,可以看到在之前的实验中看到的错误,很大一部分是由于执行手势的个体差异引起的。这可能是由于在收集数据库时向不同用户提供了不同类型的指令。

现在将与lal的结果进行对比试验,其中对msrc-12数据库进行了4次交叉验证实验。在相同的设置之后,使用两个连续动作点之间的中点将视频划分为手势实例,同时使用视频的第一帧和最后一帧作为第一个和最后一个手势实例的边界。该实验的结果显示在表4的最后一行中。lal中获得的分类率为88.7%,略低于本方法的基本配置89.6%的准确率,而本方法的最佳配置在此实验中能达到91.2%的准确度。

表3

表4

三、hdm05数据库:

在此数据库上使用与smij中相同的实验设置,并且有相同的涉及5个主题的11个动作,总共有249个动作序列。使用3个主题(140个动作实例)进行训练,并使用2个主题(109个动作实例)进行测试。在这个实验中使用的一系列动作是:摸地板,手肘碰膝盖,抓住高位,跳跃双腿,慢跑,向前踢,躺在地板上,向后旋转双臂,潜行,蹲下,然后扔篮球。

表5中的结果表明,本发明提出的描述符的最基本配置优于smij方法的最佳配置。结果还表明,添加到时间层次的级别越多,就可以实现更好的分类准确性。

表5

本方法可以观察到尽管hdm05数据库和msr-action3d数据库使用的训练样本数量差不多,但前者的分类准确度明显优于后者。这可归因于hdm05数据中低得多的干扰水平,以及更高帧率和更多可用的关节信息。

本发明提出的新描述符在msr-action3d数据库上实现了90.5%的分类率,在hdm05数据库上实现了95.4%的分类率。此外,本方法还使用自己的注释对新引入的msrc-12数据库进行了实验,实现了高达93.6%的跨主题分类率。

参考文献:

[1]shottonj,fitzgibbona,cookm,etal.real-timehumanposerecognitioninpartsfromsingledepthimages[c]//computervisionandpatternrecognition(cvpr),2011ieeeconferenceon.ieee,2011:1297-1304.

[2]yaoa,gallj,fanellig,etal.doeshumanactionrecognitionbenefitfromposeestimation?”[c]//proceedingsofthe22ndbritishmachinevisionconference-bmvc2011.2011.

[3]müllerm,clausenm,etal.documentationmocapdatabasehdm05[j].2007.

[4]xial,chencc,aggarwaljk.viewinvarianthumanactionrecognitionusinghistogramsof3djoints[c]//computervisionandpatternrecognitionworkshops(cvprw),2012ieeecomputersocietyconferenceon.ieee,2012:20-27.

[5]hanl,wux,liangw,etal.discriminativehumanactionrecognitioninthelearnedhierarchicalmanifoldspace[j].imageandvisioncomputing,2010,28(5):836-849.

[6]tuzelo,poriklif,meerp.regioncovariance:afastdescriptorfordetectionandclassification[c]//europeanconferenceoncomputervision.springer,berlin,heidelberg,2006:589-600.

[7]tuzelo,poriklif,meerp.pedestriandetectionviaclassificationonriemannianmanifolds[j].ieeetransactionsonpatternanalysis&machineintelligence,2008(10):1713-1727.

[8]sanina,sandersonc,harandimt,etal.spatio-temporalcovariancedescriptorsforactionandgesturerecognition[c]//applicationsofcomputervision(wacv),2013ieeeworkshopon.ieee,2013:103-110.

[9]husseinm,poriklif,davisl.kernelintegralimages:aframeworkforfastnon-uniformfiltering[j].2008.

[10]changcc,lincj.libsvm:alibraryforsupportvectormachines[j].acmtransactionsonintelligentsystemsandtechnology(tist),2011,2(3):27.

[11]liw,zhangz,liuz.actionrecognitionbasedonabagof3dpoints[c]//computervisionandpatternrecognitionworkshops(cvprw),2010ieeecomputersocietyconferenceon.ieee,2010:9-14.

[12]fothergills,mentish,kohlip,etal.instructingpeoplefortraininggesturalinteractivesystems[c]//proceedingsofthesigchiconferenceonhumanfactorsincomputingsystems.acm,2012:1737-1746.

[13]martensj,sutskeveri.learningrecurrentneuralnetworkswithhessian-freeoptimization[c]//proceedingsofthe28thinternationalconferenceonmachinelearning(icml-11).2011:1033-1040.

[14]wangj,liuz,chorowskij,etal.robust3dactionrecognitionwithrandomoccupancypatterns[m]//computervision–eccv2012.springer,berlin,heidelberg,2012:872-885.

[15]wangj,liuz,wuy,etal.miningactionletensembleforactionrecognitionwithdepthcameras[c]//computervisionandpatternrecognition(cvpr),2012ieeeconferenceon.ieee,2012:1290-1297.

[16]ellisc,masoodsz,tappenmf,etal.exploringthetrade-offbetweenaccuracyandobservationallatencyinactionrecognition[j].internationaljournalofcomputervision,2013,101(3):420-436.

[17]oflif,chaudhryr,kurillog,etal.sequenceofthemostinformativejoints(smij):anewrepresentationforhumanskeletalactionrecognition[j].journalofvisualcommunicationandimagerepresentation,2014,25(1):24-38.

[18]nowozins,shottonj.actionpoints:arepresentationforlow-latencyonlinehumanactionrecognition[j].microsoftresearchcambridge,tech.rep.msr-tr-2012-68,2012.

本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1