基于多特征融合的群体行为识别方法与流程

文档序号:12123846阅读:281来源:国知局
本发明属于图像处理技术及模式识别领域,特别涉及基于多特征融合的群体行为识别方法。
背景技术
:行为识别是计算机视觉领域中备受关注的前沿方向,在单个人以及双人之间的行为识别研究方法中,已经取得了显著的成就。而近年来,由于视频监控、人机交互、基于视频的内容检索的需求越来越大,群体行为识别渐渐成为了计算视觉和模式识别的研究热点之一。但是群体行为所涉及的人数多且不固定、人与人之间交互关系的多变性、以及场景的复杂性,对群体行为的研究具有极大的挑战。近年来,许多的群体行为识别研究中工作致力于研究语义信息对群体行为识别的影响,并取得了一定的成果。对于分析视频监控下的群体行为,更需要考虑的是语义信息,即人与人之间的交互以及每个人在特定群体中所扮演的角色。Choi提出一种语义描述符Spatio-TemporalLocal(STL),主要是利用人与人之间的姿态的相对关系来描述他们之间的交互行为。这种捕捉语义关系的描述符的提出是一图形分类领域的ShapeContext算法为基础的,该特征捕捉了其他人相对于焦点人物的空间位置关系以及人脸方向关系。以场景中的某个人为中心,计算周围人的位置和人脸方向关系,最后用直方图来表示。STL特征可以有效的捕捉人与人之间的空间位置关系和一定的交互关系,但是它的缺点在于没有描述人与人之间的动作关系,所以识别效果不是很理想。Lan提出一种基于外观的动作语义描述符(ActionContext),利用每个人与周围邻近人的外在动作关系来更好的描述当前人的行为。这种描述符对于动作差异比较大的群体行为识别效果比较好,但是对于视角的变化比较敏感,导致识别率不高。Takuhiro综合了Lan和Choi方法的优点,在考虑人与人之间的动作关系的基础上,还考虑了人与人之间的相对朝向关系,对视角变化不敏感,对识别结果有一定的提升,但仍不够理想。从上面的方法可以看出,他们考虑的特征信息比较单一,对于人数多变且交互复杂的群体行为,我们应从多个方面提取特征信息,进行综合,这样可以更全面并有效地描述群体行为。技术实现要素:对于群体行为而言,由于存在的人数比较多,且每个人所表现的行为有差异,如果将他们看成一个群体行为,仅仅提取交互特征进行分析,显然存在不足,应该考虑更多的能够有效地描述群体行为的特征信息,并综合考虑这些特征,才能更显著地进行群体行为识别。本发明的目的在于提出一种基于多特征融合的群体行为识别方法。其特征是,该方法包括如下步骤:步骤1、分为三个部分进行不同层次的特征提取,分别针对单个人提取单人特征信息,对人与人之间的交互关系提取交互特征,其中的交互关系主要是人与人之间的动作关系和相对朝向关系,并对群体行为中的人所处的环境进行场景信息提取;步骤2、特征融合:将人与人之间的交互特征与场景信息合并,采用含有径向基函数的支持向量机(SupportVectorMachine,SVM)分类算法得到行为得分,作为全链接条件随机场模型的一元势,对单个人所提取的特征信息作为全链接条件随机场模型的二元势,将提取的所有特征融合于一个模型中,进行群体行为识别。作为本发明的进一步改进,所述步骤1具体包括:步骤1-1、提取单人的特征信息,主要是考虑每个人的位置信息、大小信息(高度信息)、运动信息(其中位置信息和大小信息是数据库中提供的),这三种特征主要是反映每个人的表征特征,采用卷积神经网络(ConvolutionNeuralNetwork,CNN)对单个人提特征,也是对前面三种表征特征信息的补充;步骤1-2、针对人与人之间的交互关系进行特征提取,分别以每个人为中心,将他周围的与他邻近的人视为他的上下文,根据自身行为以及周围邻近人所表现的行为,提取行为上下文特征,记作AC描述符,而这种描述符只捕捉了人与人之间的动作关系;在此基础上,并考虑每个人与他周围邻近人的相对朝向关系,提取相对上下文特征,记作RAC描述符;步骤1-3、人群体行为中的人所处的场景也为行为识别提供必要的线索,对人所处的环境提取场景信息,主要考虑了三种场景信息:室外、室内、汽车。场景信息的提取分成两步进行,首先采用空间金字塔分配方法对场景进行室外、室内分类,其次利用眼动仪观察场景图片,可以得到感兴趣区域,对感兴趣区域进行分析,看场景中是否有汽车存在。作为本发明的进一步改进,所述步骤2具体包括:步骤2-1、计算全链接条件随机场模型的一元势:将人与人之间的交互特征AC描述符和RAC描述符分别与场景信息合并得到新的特征向量,采用SVM分类模型进行分类得到行为得分,再分别经过softmax转换得到概率,并对这两种概率通过求max得到新的概率向量,将得到的结果作为全链接条件随机场模型的一元势;步骤2-2、特征融合:针对单个人提取的所有特征信息作为全链接条件随机场模型的二元势,根据模型的一元势和二元势自动学习,进行群体行为识别;有益效果在目前现有的群体行为识别研究方法中,主要是针对人与人之间的交互提特征,他们将将场景中的所有人看成一个群体进行分析,但是在现实的视频监控场景中往往可能存在多个群体,而且每个群体进行不一样的活动,比如:场景中总共有5个人,其中有4个人围在一起谈话,但有一个人正好从旁边走路经过,这个人和其他的4个人就不是一个群体,因为他们表现的行为是不一样的。显然将所有人看成一个群体进行分析是不合理的。而且目前的群体行为研究方法都没有考虑人所处环境的场景信息,但是场景信息对于行为识别可以提供一些线索。比如:我们知道行为发生在室外、有汽车、斑马线或红绿灯,那么我们就可以判断这不可能是谈话或排队行为,反而是过马路行为的可能性更大一些;如果是发生在室内,那么就不可能是过马路、或在等待过马路。因此引入场景信息对群体行为分析具有一定的重要意义。当然,在我们的实验结果中能看出来,考虑场景信息是很有效的。因此我们的做法是:考虑单个人的特征、人与人之间的交互特征以及场景信息,并且利用全链接条件随机场模型将这些特征信息进行融合,并实现自动分群(分群的依据是:属于同一个群体的每个人具有相似的位置、大小、以及运动信息),从而达到更好的识别群体行为的效果。附图说明图1发明的主流程图。图2利用卷积神经网络(CNN)对单个人提特征。图3根据眼动实验得到的注释轨迹图、注释热点图。图4本文方法在CollectivityActivityDataset数据库上的所做实验的识别结果。具体实施方式下面结合附图和实例对本发明作进一步说明,应指出的是,所描述的实例仅旨在便于对本发明的理解,而对其不起任何限定作用。基于多特征融合的群体行为识别方法,包括如下步骤:步骤1、分三部分进行不同的特征提取,分别针对单个人提取单人特征信息,对人与人之间的交互提取交互特征,并对群体行为中的人所处的环境进行场景信息提取;步骤2、将人与人之间的交互特征与场景信息进行融合,采用含有径向基函数的SVM分类算法得到行为得分,作为全链接条件随机场模型的一元势,而针对单个人所提取的特征信息作为全链接条件随机场模型的二元势,将所提取的所有特征融合于一个模型中,进行群体行为识别。特征提取的过程包括:步骤1-1、针对单个人所提的特征信息,主要是考虑每个人的位置信息、大小信息(高度信息)、运动信息(其中位置信息和大小信息是数据库中提供的),并采用卷积神经网络(ConvolutionNeuralNetwork,CNN)对单个人提特征;步骤1-2、针对人与人之间的交互进行特征提取,分别以每个人为中心,将他周围的与他邻近的人视为他的上下文,根据自身行为以及周围邻近人所表现的行为,提取行为上下文特征,记作AC描述符,在此基础上,并考虑每个人与他周围邻近人的相对朝向关系,提取相对上下文特征,记作RAC描述符;步骤1-3、对人所处的环境提取场景信息,主要考虑三种场景信息:室外、室内、汽车。场景信息的提取分成两步进行,首先采用空间金字塔分配方法对场景进行室外、室内分类,其次利用眼动仪观察场景图片,可以得到感兴趣区域,对感兴趣区域进行分析,看场景中是否有汽车存在。步骤1-1、对每帧中的每个人进行特征提取。具体的操作过程有:(1)我们所用的群体行为数据库CollectivityActivitydataset提供了每个人的三维位置信息,所以可以得出每个人的位置信息、大小信息(高度信息)。采用光流法(HOF)提取每个人的运动信息,表示人的动、静状态。(2)利用卷积神经网络(CNN)对每个人提特征。卷积神经网络经过多次的卷积、降采样操作,在高层次进行语义整合,所以通过卷积神经网络提特征,可以包含整副图像的非常丰富的信息,相比一般的表征特征,可以更有效地描述每个人的整体信息。其中卷积操作是对图像的一个邻域进行卷积得到图像的邻域特征,它可以使原信号特征增强,并且降低噪声。接着在它后面进行降采样操作是将邻域内的特征点整合得到新的特征,其目的是降维,使得特征维数减少,并保持某种不变性(旋转、平移、伸缩等)。如图2所示,就是我们所采用的CNN的结构,Cx表示卷基层,Sx表示降采样层。数据库中给出了每个人的检测框,由于CNN进行特征提取时需要图片的大小是一致的,于是对每个人的检测框归一化成相同的大小,我们的实验中采用的是归一化成60×60,从图中可以看出,我们采用了三个卷积层、两个降采样层,最终对每个人提的特征维度为160维。步骤1-2、针对人与人之间的交互提特征。具体的操作过程有:(1)行为上下文特征(AC)的提取,这个特征考虑了每个人与他周围与之邻近人的行为表现。对每个人提HOG特征,然后由SVM进行分类,得到每类行为的得分:Ai=[S1i,S2i,…,SKi],其中Sni表示由SVM分类器所得的第i个人对应行为标签n的得分。以第i个人为中心,将他周围邻近(dis∈(0.5×h,2×h))的人所在区域视为上下文区域,对该区域提取上下文特征(其中h对应每个人的高度):M:上下文区域被划分成M个子区域,Nm(i):第m个子区域中第i个人。比如在第一个sub-context区域内,他周围有2个人与他相近,那么将这两个人的行为得分取出来,并取每个相应行为得分的最大值,得到第一个子上下文特征。可得行为上下文特征为:ACi=[Ai,Ci]。(2)相对行为上下文特征(RAC)的提取,RAC考虑了不仅考虑了行为特征,还捕捉了中心人与周围人的相对关系,比如:中心人朝右,他周围的另一个人朝左,则他们的相对关系被定义为朝相反方向。AC描述符由于没有考虑相对朝向关系,所以对视角变化比较敏感,RAC描述符克服了这个缺陷,是对AC描述符的改进。RAC描述符的提取方法与AC的类似,因为同时考虑了行为和方向,所以它的行为特征为K维:K=U×V,U:行为类别数,V:方向类别数。根据HOG特征并进行SVM分类所得的第i个人的朝向,得到每个人的相对行为得分:根据HOG特征并进行SVM分类所得的第i个人的朝向。根据可得第i个人的相对行为描述符和第m个子上下文区域的相对上下文描述符:整个上下文区域的相对描述符为:所以第i个人的相对行为描述符为:步骤1-3.、对群体行为中人所处的环境提取场景信息。具体的操作过程有:(1)利用空间金字塔匹配算法实现将场景分为室外、室内。空间金字塔方法,是在不同分辨率(对应金字塔的不同层次)上统计图像特征点分布,从而获取图像的空间信息。首先,对所有的视频序列的每帧图片提取尺度不变特征转换(SIFT)描述符,将所有图片的描述符进行Kmeans聚类生成视觉字典,字典的大小设置为M=200。计算每帧图像的所有视觉单词在不同层次所出现的频率,根据公式其中L:空间金字塔的层次,设置为L=2,所以每帧图片最终可以用一个4200维的特征向量来表示。最后根据空间金字塔匹配实现对场景的分类。(2)检测场景中是否存在汽车。人类视觉系统处理比较复杂的场景时,会将其视觉注意力集中在该场景中的少数几个对象中,力求在最短的时间内获取场景中的主要信息,这些对象在场景中构成的区域称为感兴趣区域(ROI)。提取图像的感兴趣区域,并对ROI进行分析,可以提高信息处理的效率。眼动仪记录用户眼动数据,还可以绘制眼动轨迹图、注视热点图等,直观地反映出用户对这幅图像真正感兴趣的区域或物体的位置。利用眼动仪(TobiiStudio3.3.1software)观察图片,得到感兴趣区域,并对这些区域进行分析,看是否有汽车存在,具体做法:观察者与屏幕的距离约65cm,每一幅图片呈现的时间为8s,并且每幅图片后面呈现一幅灰度图片,时长为2s,设置灰度图片的目的是缓解观察者的视觉疲劳,在眼动实验开始前要进行眼动校正。眼动实验完成后,我们可以得到注视轨迹图和注视热点图,如图3所示。注视轨迹图:记录观察者在整个体验过程中的注视轨迹。蓝色圆圈表示注视点,圆圈的大小表示注视时间的长短,圆圈越大则注视时间越长,圆圈内的数字表示注视次序,蓝色的线条表示眼跳。注视热点图:用不同颜色表示观察者对图片各处的关注度不同,从而可以直观地看到被试者最关注的区域和忽略的区域。颜色越深表示注释时间越长,红色表示最关注的区域,黄色和绿色表示注视水平相对较低,没有颜色的区域则表示没有注视。以excel表格的形式导出眼动数据,眼动数据会记录感兴趣区域的个数、每个感兴趣区域中心的横、纵坐标值,以及对每个感兴趣区域所注释的时间。对眼动数据进行预处理,不考虑注视时间少于100ms的数据,也就是说要是观察者对于一个区域注视时间太短,他可能并非对这个区域感兴趣。根据眼动数据,可以得到每个ROI区域的中心表,并结合注视热点图,以每个ROI的中心坐标为中心,提取它周围的180×120的矩形区域,接下来是对这些矩形区域进行分析,看是否有汽车存在,具体算法步骤:1)对每帧图片所提取的每个180×120的矩形区域提SIFT特征;2)选取多个目标对象(汽车)图片,提取SIFT特征,并计算特征之间的欧式距离,求平均得到阈值;3)计算所提取区域的特征与目标对象特征之间的欧氏距离,跟阈值比较,所计算的欧氏距离小于阈值,则可认为该矩形区域与汽车相似,进而可以判断场景中有该类目标(汽车)对象存在。得出所需的场景信息,用一个3维的二进制特征向量S=[室外室内汽车]来表示场景信息,如:S=[101],对应的场景信息为:在室外、有汽车。步骤2.利用全链接条件随机场模型进行特征融合,完成群体行为识别:步骤2-1、计算一元势:将所提取的AC描述符和RAC描述符分别与场景信息特征向量S融合,分别得到新的特征向量Scene_AC、Scene_RAC。利用SVM分类器对这两种特征向量训练得到行为得分,经过softmax转换将得分向量转换成矩阵,并对两者求Max:Pi(yi):第i个人的行为标签是yi的概率,Pi(yi|d1):由特征向量Scene_AC计算所得的概率,Pi(yi|d2):由特征向量Scene_RAC计算所得的概率。则每个人的一元势可表示为:ψu(yi)=-log(Pi(yi))(4)步骤2-2、计算模型的二元势,通过全链接条件随机场模型进行行为识别。二元势表示群体中人与人之间的远近关系,因为处于同一个群体的每个人具有相似的位置信息、大小信息、运动信息(要么都是静止的,要么都是运动的),以及某些更高层次的信息(用CNN特征来表示),则所有人的二元势可表示为:ψp(yi,yj)=u(yi,yj)k(fi,fj)(5)k(fi,fj)是高斯卷积和,用CNN对每个人所提的特征:cnni,位置信息:pi,大小信息:si,运动信息:mi,权重:w。高斯卷积和可以通过以下公式计算所得:对于模型的推断和学习可以采用最大后验概率方法。本发明的有效性可通过以下仿真实验进一步说明:目前的群体行为识别研究方法使用较多的数据库就是CollectivityActivitydataset,因为它实在不同场景下拍摄的,每个群体动作的人也是不同的,并且这些视频基本上都是在日常生活中由手持摄像机拍摄的分辨率比较低的监控视频序列,基本上展现了一个相对真实的视频监控场景,所以本文采用了这个数据库作为实验。这个群体行为数据库包含了44个视频序列,其中存在5种比较普遍的群体行为:排队,谈话,走路,过马路,等待,以及8种姿态:向前、向后、向左、向右、朝向左前、朝向左后、朝向右前、朝向右后。这个数据库还提供了人在场景中的位置信息,以及人的高度信息,为我们的研究提供了便利之处。本文采用了留一法做实验:由于数据库中共有44个视频序列,我们每次采用其中的一个视频序列作为测试样本,剩下的43个视频序列作为训练样本,使用这种方式将44个视频序列全部作为测试样本被测试一次,最后取平均值作为我们的识别结果。表1MethodMean(%)Crossing(%)Waiting(%)Queuing(%)Walking(%)Talking(%)Choietal.[4]65.955.464.663.357.983.6Choietal.[5]70.976.476.478.736.885.7Lanetal.[7]79.76869768099Takuhiroetal.[8]73.26387894978Ourmethod79.967.585.299.574.871.2我们在群体行为数据库上所做的实验结果可以通过表1及图4观察到。在表1中,我们给出了每类行为的识别率,以及总的平均识别率,可以看出我们的方法相对于大部分的现有的研究方法来说是有效的,尽管我们的方法仅仅比Lan所提出的方法高出了0.2%。这些方法都没有考虑场景信息,从我们日常生活积累的先验知识可以知道,在室内是不可能出现过马路行为、或在马路边等待过马路的行为,同样如果我们知道行为发生在室外,且有汽车出现,那么我们可以认为这个是过马路的行为更大一些。由此可见,场景信息为群体行为的识别提供一定的重要线索,当然从我们的实验结果可以看出,确实是可行且有效的。上面描述仅是本发明的一个具体实施例,显然在本发明的技术方案指导下本领域的任何人所作的修改或局部替换,均属于本发明权利要求书限定的范围。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1