基于判别性超体素的人体动作识别方法

文档序号:9826415阅读:358来源:国知局
基于判别性超体素的人体动作识别方法
【技术领域】
[0001] 本发明涉及视频处理中的特征提取以及机器学习方法,特别涉及一种基于判别性 超体素的人体动作识别方法。
【背景技术】
[0002] 近年来,在互联网、多媒体技术的快速发展下,视频已经成为人们获取信息的重要 渠道,成为大量数字信息的载体。虽然计算机技术近年来也得到了长足的发展,但利用计算 机自动进行视频内容的分析处理却始终是多媒体领域的一大难题。人脑接受视觉信息的同 时能根据人类多年来在生活中潜移默化学习到的知识或生活常识对视觉信息进行快速分 析,而计算机只能通过接受数字信息并进行数字计算来进行视频分析,缺少一个智能化的 过程,速度慢且准确度低。
[0003] 视频处理中的视频人体动作识别由于其在人机交互、智能监控、视频内容分析等 方面的广泛的应用范围,成为近年来研究的热门方向,取得了许多成果。但动作识别任务还 存在很多挑战。首先,由于人体动作的自由度,无论是在同一种人体动作中或各种不同的人 体动作,动作的表现形式总是有差别的。即使是显示同一种动作的视频,由于不同人的身体 姿态,人体动作速度,步速等的不同,也会有很大差异。一种理想的人体运动识别算法应该 能够适应同一种动作的变化,并能区分不同的动作类别。其次,视频的拍摄环境或设置是不 同的。例如,在复杂和移动背景下的人的动作镜头可能更难以识别。在录制设置时,色调的 变化也是一个常见的变量。当使用视频摄像机捕捉到的视频,不同的视觉角度,使动作识别 更具挑战性。为了克服模糊的动作区分的问题,本方法寻求一种能在现实世界中应用的方 法,使其在复杂的拍摄环境中识别准确。
[0004] 在本文中,介绍一种通过能够表征中层特征的方法。通过提取判别性超体素,有效 区分不同的动作,并自动判断视频背景的哪一部分能够帮助进行动作的识别。先对视频进 行过分割,并通过一个训练的过程提取视频帧的判别性块,与过分割的结果取重叠部分,得 到判别性的超体素。然后对超体素进行轨迹特征提取和描述。最后通过B0W框架构造视频特 征。

【发明内容】

[0005] 针对现有技术存在的上述问题,本发明提出了一种基于判别性超体素的人体动作 识别方法,利用非监督的方法自动提取同类动作视频中不同于其他类别的,能够表征本类 特点的视频超体素特征集合。然后再对这些超体素的进行特征描述,最终完成进行动作的 识别,能够更准确地识别视频中人体动作的类别。
[0006] -种基于判别性超体素的人体动作识别方法,包括以下步骤:
[0007] 对于进行训练的视频进行以下步骤:
[0008] 步骤1,将输入的视频进行过分割,得到视频的超体素。
[0009] 步骤2,对输入的视频进行关键帧提取。
[0010] 步骤3,对步骤2得到的图像进行判别性图块的提取。
[0011] 步骤4,将步骤3得到的判别性图块与步骤一得到的超体素在视频中的位置进行取 重叠的操作。
[0012] 步骤5,通过像素的运动轨迹特征及词袋模型(bow)对视频超体素进行描述。
[0013] 步骤6,使用判别性的超体素作为字典,用bow的方法得到视频特征。
[0014] 步骤7,用svm分类器得到分类模型。
[0015] 对于待识别的视频,进行以下步骤:
[0016] 步骤8,输入进行识别的视频,分别进行步骤1、2、5、6,得到待识别视频的特征表 不。
[0017] 步骤9,将待识别视频的特征送入svm分类器,得到识别结果。
[0018]本发明的方法具有以下优点:
[0019] 1.本发明同时参考视频的超体素特征(超体素特征是通过计算像素运动轨迹和颜 色的差异而得到的)与图像的hog特征这两种维度的特征,通过一个训练,学习的迭代过程, 提取视频中具有判别性的超体素,能够更准确地对一个动作进行识别。
[0020] 2.本发明与传统方法相比,能够自动地提取视频中有效的部分,不仅包括人体中 的较有判别性的部分,还能提取到背景中的对本类动作有表征作用的部分(比如打篮球动 作中的篮球框等)。
【附图说明】
[0021] 图1为本发明所涉及方法的流程图一;
[0022] 图2为本发明所涉及方法的流程图二。
【具体实施方式】
[0023]下面结合【具体实施方式】对本发明做进一步的说明。
[0024]本发明所述方法的流程图如图1所示,包括以下步骤:
[0025]步骤1,将输入的视频进行过分割。
[0026] 1.1输入一段视频,假设输入的视频帧是一幅3通道彩色图像I,其宽和高分别为W、 H〇
[0027] 对该视频进行过分割,得到视频的超体素。
[0028] 步骤2,对输入的视频进行关键帧提取。
[0029] 对视频通过每隔10帧取一帧的方法提取关键帧。
[0030] 步骤3,对步骤2得到的图像进行判别性图块的提取。
[0031] 3.1将训练图像分为两组:D,N。其中D是一类动作的训练图像,N是视频集中其他动 作的训练图像。D,N又分别平均分为两部分:D1,D1及N1,N2。
[0032] 3.2对D1和N1的所有图像进行如下操作:
[0033] 3.2.1先对图像进行图块采样。把N*M的图像进行两次降采样,这样一幅图就出现 三个层级。在这三个层级上都根据有重叠地采样的原则,取k*k的小方块(本方法定为60* 60),对这些小方块提取传统的H0G特征。
[0034] 3.2.2将D1提取的图块进行以下操作:
[0035] 对图块进行随机采样,并对采样后的图块进行去重(即两块的差如果低于某一阈 值,则去掉该块)。根据剩余图块的个数,除以10后,得到后面要聚类的类别个数。利用k-means方法对图块进行聚类,并去掉只包含3个以下元素的类别,每类的元素记做P(i),给剩 余每一个类别分配一个svm分类器。
[0036] 3.2.3以该类的元素?(丨)作为正例,附的图块作为负例,在8¥111上进行训练。再将02 提取的图块作为测试样本放入每个分类器进行测试,得分最高的t个样本加入到原来的该 类元素 P(i)中。接下来,把D1与D2交换,N1与N2交换,在进行3.2.3的操作,直到迭代多次得 到最终的svm模型。本方法的迭代次数是6次。
[0037] 3 · 2 · 4将3 · 2 · 1得到的方块在本类的svm上进行测试,如果在某一个svm上方块的得 分高于某一阈值,则判定该块为判别性的图块。
[0038]步骤4,将步骤3得到的判别性图块与步骤1得到的超体素在视频中的位置进行取 重叠的操作。公式如下:
[0040]其中,Fi是视频V的第i个关键帧,Pij是Fi里的第j个判别性图块。DSk是视频中第k 个超体素。S(.)函数表示一片区域中的像素个数。T是本方法设置的重叠的阈值。
[0041 ]至此,得到了判别性的超体素。
[0042] 步骤5,通过像素的运动轨迹特征及bow对视频超体素进行描述。
[0043] 5.1使用追踪工具对像素点进行追踪,追踪长度为15帧,得到一些长为15帧的运动 轨迹。
[0044] 5.2对轨迹进行描述
[0045] 对轨迹的描述分为四个部分,一共426维:
[0046] 第1-30维,共30维,前30维表示一个像素的运动方向。公式如下:
[0048] 其中 Λ Pt= (P(t+1)-Pt) = (x(t+1)-xt,y(t+1)-yt),
[0049] t表示第t帧,L为15,xt,yt表示在第t帧时该像素的x,y轴坐标.
[0050] 下面的特征是通过先构造一个立体块来得到的,立体块的构造方法如下:
[0051] 首先对于该条轨迹的每帧的像素,取以该像素位置为中心,以N为边长的正方形(N = 32),得到一个以N*N的正方形为截面,L为长度的立体块。将该立体快分成a*a*b的小的立 体块,其中a = 2,b = 3。这样就得到了 12个小的立体块。分别对这12个小块提取常规的H0G, HOF,MHBx,MBHy特征,将这些特征拼接,得到第31-425维的特征,如下:
[0052] 第31 -126维,共96维(8*2*2*3),表示H0G特征。
[0053] 第 127-234维,共 108 维(9*2*2*3),表示 H0F 特征。
[0054] 第235-330维,共96维(8*2*2*3),表
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1