一种自然场景视频识别方法

文档序号:10625042阅读:375来源:国知局
一种自然场景视频识别方法
【专利摘要】本发明属于计算机视觉领域,尤其是涉及一种自然场景视频识别方法,该方法具体包括以下步骤:1)生成特征点轨迹描述符;2)生成局部时空描述符;3)词袋模型表示视频序列;4)预测摄像头的状态;5)选择适应特征融合;本发明采用基于轨迹相异度度量和ROI检测的方法,有效地移除来自背景的特征点轨迹;还提出了自适应的特征融合方法,根据摄像头的动静情况,选择性地对这两类描述符加以组合,显著地提高算法的识别效果。
【专利说明】
-种自然场景视频识别方法
技术领域
[0001] 本发明属于计算机视觉领域,尤其是设及一种自然场景视频识别方法。
【背景技术】
[0002] 人体行为识别是人体运动分析的重要研究方向,属于计算机视觉的高层应用,广 泛应用于智能监控系统、高级人机交互、基于内容的视频检索与运动分析等方面。当前人体 行为识别的研究兴趣已经从拍摄环境良好控制下的简单行为识别转移到故事性电影、体育 广播录像和家庭录像等无约束环境(也称为"自然环境")下更为现实的行为识别。运种环境 下的行为识别是具有挑战性的,原因在于由摄像头移动、背景杂斑、W及光照条件、尺度、视 角的改变而引起的巨大变化,而主要难点在于如何从运种不受约束的视频中提取可靠的、 富含信息量的特征。
[0003] Liu等人针对无约束视频的特点,首先从视频中同时提取局部动作和静态特征,再 采用统计学方法获得稳定的动作特征和不含噪声的静态特征,然后采用化geRank从特征空 间中选择最具信息量的静态特征,接着采用信息论算法对语义相关的特征进行分组,最后, 选择AdaBoost方法综合所有类型不同却包含互补信息的特征;Laptev等人研究的是故事性 电影中的现实人体行为识别。从电影剧本中收集包含待识别动作的录像片段,构成一个复 杂的行为数据集,并提出了基于局部时空特征、时空金字塔模型和多通道非线性SVM的运动 表示和行为分类算法;Sun等人提出W分级的方式对时空上下文信息进行建模。将时空上下 文抽象为Ξ个级别:图像特征点上下文(SIFT描述符)、轨迹内上下文(轨迹状态转移描述 符)、轨迹间上下文(轨迹邻近度描述符);Kovashka等人针对现有BOW模型在表达特征时空 关系上的缺陷,提出一种基于时空特征邻域形状的运动表示方法。
[0004] 目前的人体动作行为识别方法中,基于轨迹的技术是最新的研究热点之一,因此 特征提取成为其中的重中之重。但是由于自然环境下的行为视频通常面临更大程度的多物 体遮挡、阴影、背景杂斑,W及光照、尺度、视角上的剧烈变化等现象,运导致特征提取成为 一个严重的难题,此外,由于拍摄过程不加任何限制条件,因此摄像头可能静止的,也可能 是动态的,运两种状态W难W预料的方式混合出现,特别的,在摄像头相对背景移动的情况 下,动作特征将由待识别运动和杂乱背景两者共同产生,运样会明显降低所提取特征的有 效性,从而对识别效果产生不良影响。

【发明内容】

[0005] 本发明的目的是提供一种自然场景视频识别方法,针对自然环境下的行为视频通 常面临更大程度的多物体遮挡、阴影、背景杂斑,W及光照、尺度、视角上的剧烈变化等现象 的问题,采用基于轨迹相异度度量和R0I检测的方法,有效地移除来自背景的特征点轨迹; 针对拍摄过程不加任何限制条件,摄像头可能静止的,也可能是动态的,运两种状态W难W 预料的方式混合出现的问题,提出了自适应的特征融合方法,根据摄像头的动静情况,选择 性地对运两类描述符加 W组合,显著地提高算法的识别效果。
[0006] 为了实现上述目的,本发明采用了 W下的技术方案:
[0007] -种自然场景视频识别方法,包括W下步骤:
[0008] A:生成特征点轨迹描述符:通过特征点跟踪产生候选的特征点轨迹,然后采用基 于轨迹相异度度量和R0I检测的轨迹剪除方法,去除由特征点误匹配或者背景变化而产生 的轨迹,最后针对剪除后的可靠轨迹计算和提取一系列对尺度、平移、旋转等具有不变性的 轨迹描述符;
[0009] B:生成局部时空描述符:采用基于帖间差分法结合多方向Gabor滤波的方法,对视 频序列进行时空兴趣点检测,再通过视频立方块提取和主成分分析特征降维方法,对兴趣 点提取局部时空描述符;
[0010] C:词袋模型表示视频序列:采用传统的词袋模型表示方法,将视频序列表示为视 觉词语直方图;
[0011] D:预测摄像头的状态:采用简化的光流法对视频片段中的所有帖计算整体光流, 从而预测摄像头的状态;
[0012] E:选择适应特征融合:根据预测的结果,对基于轨迹的描述符和基于时空兴趣点 的描述符运两者进行选择性地融合。
[0013] 进一步地,在步骤A中,轨迹相异度度量的轨迹剪除方法步骤如下:
[0014] A1:假设存在N条W帖f为起点的轨迹:Τ = {ti},i = 1,…,N,对每条轨迹,定义一个 时间窗为5帖的轨迹段t三;(.、·;,/, ),(4…的"),,嫁"),(Υ'/^,的W),(x'M4,方*4)似及相邻 帖位移向量出=?取d;,《,斬,其中4 = (4+* -,乂+* -乂+:巧-,)),k=l,…,4;
[001引 A2巧个轨迹位移向量d巧Pdj的相异度计算为一个NXN的矩阵C,公式如下:
[0016]
[0017] A3:轨迹的相异度计算3
<;,运个值度量了长度为5帖的时间窗内,该轨迹 与所有其他W帖f为起点的轨迹之间的相异度;
[0018] A4:对帖f,计算一个自适应阔值
其中丫为常量,取值为1.3;然后移 除所有相异度小于Μ基的轨迹。
[0019] 进一步地,在步骤A中,R0I检测的轨迹剪除方法步骤如下:在轨迹相异度度量的条 件约束下,假设帖f中剩下化条可靠的轨迹,则可W通过对可靠轨迹上所有特征点的空间坐 标求均值,获得R0I的中屯、:
,该尺寸则由W下式子给出:
其中Cxx和Cyy分别是特征点空间坐标在X方向和y方向上的二阶中 屯、距,所有位于R0I之外的轨迹都将被移除掉,另外,位移量极小甚至不动的轨迹也将被移 除。
[0020] 进一步地,在步骤C中,词袋模型表示视频序列包括轨迹特征视频序列和时空兴趣 点特征视频序列。
[0021 ]进一步地,所述轨迹特征视频序列的表示方法步骤如下:
[0022] C1:通过K-means算法对训练集中所有轨迹的整体描述子G进行聚类,构造一个规 模为500的视觉词典;
[0023] C2:采用时空网格的方法来描述轨迹特征的分布,将整段视频序列的R0I时空体划 分为4个非重合的空间块和2个部分重合的时间块,重合量为视频长度的1/3,即4X2 = 8个 块;
[0024] C3:采用直方图量化技术,对落在每个时空块中的轨迹集形成一个500-bin的直方 图,用于统计该块中各视觉词语出现的频率,由于有8个时空块,所W最终生成一个500X8 = 4000维的特征向量,记为FVi来描述整段视频序列中的所有轨迹。
[0025] 进一步地,所述时空兴趣点特征视频序列的表示方法步骤如下:
[0026] C11:通过K-means算法对训练集特征空间的随机子集进行K-means聚类,构造一个 规模为300的视觉词典;
[0027] C12:将兴趣点集映射到视觉词典,给每个兴趣点赋予视觉词语,再通过量化将视 频片段中的所有兴趣点描述符综合表示成300-bin的直方图,即维度为300的特征向量,记 为 FV2。
[0028] 进一步地,在步骤E中,选择适应特征融合的具体步骤如下:对于镜头静止的视频 片段,基于轨迹的描述符和基于兴趣点的描述符均用于行为识别,构成4300维的特征向量 为FV=[FV1,FV2],相反,如果检测到摄像头移动,只选择轨迹描述符,即4000维的特征向 量FV = FVi,进入行为识别阶段。
[0029] 与现有技术相比,本发明具有W下优势:
[0030] (1)本发明采用基于轨迹相异度度量和R0I检测的方法,有效地移除来自背景的特 征点轨迹,保留与待识别运动密切相关的轨迹。其中,R0I检测方法是基于特征点轨迹分布 的统计学分析,不需要显式的目标检测和跟踪过程,并对摄像机静止和移动情况下的视频 片段都具有一定的鲁棒性。
[0031] (2)本发明提出了选择适应特征融合方法,根据摄像头的动静情况,选择性地对运 两类描述符加 W组合。实验证明,该方法可W显著地提高算法的识别效果
【附图说明】
[0032] 图1为本发明一种自然场景视频识别方法流程示意图;
[0033] 图2为本发明特征点轨迹示意图;
[0034] 图3为本发明轨迹剪除和R0I检测结果示意图;
[0035] 图4为本发明基于词袋模型的轨迹整体示意图;
[0036] 图5本发明人体行为识别方法的混淆矩阵示意图。
【具体实施方式】
[0037] 本领域技术人员应理解,W下实施例中所公开的技术代表本发明人发现的在本发 明的实践中发挥良好作用的技术。然而,在所公开的具体实施方案中可W做出许多改变,并 仍然获得相同或相似的结果,而不脱离本发明的精神和范围。
[0038] 实施例1:本发明一种自然场景视频识别方法的具体步骤
[0039 ]如图1、2、3所示,本发明一种自然场景视频识别方法实现的具体步骤为:
[0040] 1)通过特征点跟踪产生候选的特征点轨迹,然后采用基于轨迹相异度度量和R0I 检测的轨迹剪除方法,去除由特征点误匹配或者背景变化而产生的轨迹,最后针对剪除后 的可靠轨迹计算和提取一系列对尺度、平移、旋转等具有不变性的轨迹描述符;
[0041 ]其中,轨迹相异度度量的轨迹剪除方法步骤如下:
[0042] Al:假设存在N条W帖f为起点的轨迹:T={ti},i = l,…,N,对每条轨迹,定义一个 时间窗为5帖的轨迹段似·;',/,)佔川,乂-,1),托^,乂"),(式+3,乂+3)瓜^^^ 帖位移向重di -轴,如朵.,也},其中<^4. = "(4_。,_),灿->'y-+"_i>),k= 1,…,4;
[0043] A2:两个轨迹位移向量di和dj的相异度计算为一个NXN的矩阵C,公式如下:
[0044]
[0045] A3:轨迹的相异度计算女
,运个值度量了长度为5帖的时间窗内,该轨迹 与所有其他W帖f为起点的轨迹之间的相异度;
[0046] A4:对帖f,计算一个自适应阔
其中丫为常量,取值为1.3;然后移 除所有相异度小于的轨迹。
[0047] R0I检测的轨迹剪除方法步骤如下:在轨迹相异度度量的条件约束下,假设帖f中 剩下化条可靠的轨迹,则可W通过对可靠轨迹上所有特征点的空间坐标求均值,获得R0I的 中
,.该尺寸则由W下式子给出:化=IsJlcZ, Dr = lyjlCn·, 其中Cxx和Cyy分别是特征点空间坐标在X方向和y方向上的二阶中屯、距,所有位于ROI之外的 轨迹都将被移除掉,另外,位移量极小甚至不动的轨迹也将被移除。
[004引2)采用基于帖间差分法结合多方向Gabor滤波的方法,对视频序列进行时空兴趣 点检测,再通过视频立方块提取和主成分分析特征降维方法,对兴趣点提取局部时空描述 符;
[0049] 3)采用传统的词袋模型表示方法,将视频序列表示为视觉词语直方图,包括轨迹 特征视频序列和时空兴趣点特征视频序列;
[0050] 其中,如图4所示,轨迹特征视频序列的表示方法步骤如下:
[0051] C1:通过K-means算法对训练集中所有轨迹的整体描述子G进行聚类,构造一个规 模为500的视觉词典;
[0052] C2:采用时空网格的方法来描述轨迹特征的分布,将整段视频序列的R0I时空体划 分为4个非重合的空间块和2个部分重合的时间块,重合量为视频长度的1/3,即4X2 = 8个 块;
[0053] C3:采用直方图量化技术,对落在每个时空块中的轨迹集形成一个500-bin的直方 图,用于统计该块中各视觉词语出现的频率,由于有8个时空块,所W最终生成一个500X8 =4000维的特征向量,记为FVi来描述整段视频序列中的所有轨迹。
[0054] 时空兴趣点特征视频序列的表示方法步骤如下:
[005引 Cl 1:通过K-means算法对训练集特征空间的随机子集进行K-means聚类,构造一个 规模为300的视觉词典;
[0056] C12:将兴趣点集映射到视觉词典,给每个兴趣点赋予视觉词语,再通过量化将视 频片段中的所有兴趣点描述符综合表示成300-bin的直方图,即维度为300的特征向量,记 为 FV2。
[0057] 4)采用简化的光流法对视频片段中的所有帖计算整体光流,从而预测摄像头的状 态;
[0058] 5)根据预测的结果,对基于轨迹的描述符和基于时空兴趣点的描述符运两者进行 选择性地融合,具体步骤为:对于镜头静止的视频片段,基于轨迹的描述符和基于兴趣点的 描述符均用于行为识别,构成4300维的特征向量为FV=[FV1,FV2],相反,如果检测到摄像 头移动,只选择轨迹描述符,即4000维的特征向量FV = FVi,进入行为识别阶段。
[0059] 实施例2:本发明一种自然场景视频识别方法的识别效果实验
[0060] 1、实验数据集:包括UCF体育运动数据集和化uTube数据集;
[0061 ] 2、实验环境:Matlab 2008a平台;
[0062] 3、实验工具箱:Kanade-Lucas-Tomasi特征跟踪器、VLFeat开源库和Dollar行为识 别工具箱;
[0063] 4、实验方法:每次实验时,首先从样本集中挑出一组同一行为者执行的运动视频 序列作为测试数据,其余的序列作为训练数据,重复运个过程,使得数据集中每组运动序列 都有一次被作为测试数据,具体的,对于化uTube数据集,将其划分为25个子集,其中24个子 集用作训练,剩下1个子集用于测试;对于UCF体育运动数据集,其中1个视频片段用于测试, 其余用于训练。
[0064] 5、评价标准:
[0065] (1)混淆矩阵:其公式为
,其中1,^'£{1,。',知},齡为运 动类别的数量,Ci为属于类别i的视频序列集,h(Vk)为序列Vk的预测类别。混淆矩阵里对角 线上的值越大,分类效果越好;
[0066] (2)平均识别率:其公式为;
,其中|ν|是视频序列的总 数
为正确分类的视频序列数。
[0067] 6、实验结果:
[0068] (1)如图5所示,图中表示使用本发明识别方法在UCF体育运动数据集和化uTube数 据集的混淆矩阵,从图5可知,UCF体育运动数据集和化uTube数据集的混淆矩阵对角线上的 值都比较大,其中,在UCF体育运动数据集的分类效果更好。
[0069] (2)本发明识别方法在UCF体育运动数据集和化uTube数据集的平均识别率分别达 到85.90%和61.24%,取得了较好的识别效果,与现有的识别方法比较,具有显著性的进 步。
[0070] 上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的 限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化, 均应为等效的置换方式,都包含在本发明的保护范围之内。
【主权项】
1. 一种自然场景视频识别方法,其特征在于,包括W下步骤: A:生成特征点轨迹描述符:通过特征点跟踪产生候选的特征点轨迹,然后采用基于轨 迹相异度度量和ROI检测的轨迹剪除方法,去除由特征点误匹配或者背景变化而产生的轨 迹,最后针对剪除后的可靠轨迹计算和提取一系列对尺度、平移、旋转等具有不变性的轨迹 描述符; B:生成局部时空描述符:采用基于帖间差分法结合多方向Gabor滤波的方法,对视频序 列进行时空兴趣点检测,再通过视频立方块提取和主成分分析特征降维方法,对兴趣点提 取局部时空描述符; C:词袋模型表示视频序列:采用传统的词袋模型表示方法,将视频序列表示为视觉词 语直方图; D:预测摄像头的状态:采用简化的光流法对视频片段中的所有帖计算整体光流,从而 预测摄像头的状态; E:选择适应特征融合:根据预测的结果,对基于轨迹的描述符和基于时空兴趣点的描 述符运两者进行选择性地融合。2. 根据权利要求1所述的自然场景视频识别方法,其特征在于,在步骤A中,轨迹相异度 度量的轨迹剪除方法步骤如下:Al:假设存在N条W帖f为起点的轨迹:T = {ti},i = 1,…,N,对每条轨迹,定义一个时间 窗为引 m及相邻帖位 移向量 A2:两个轨迹位移向量di和dj的相异度计算为一个NXN的矩阵C,公式如下:A3:轨迹的相异度计算3,运个值度量了长度为5帖的时间窗内,该轨迹与所 有其他W帖f为起点的轨迹之间的相异度; A4:对帖f,计算一个自适应阔值其中丫为常量,取值为1.3;然后移除所 有相异度小于M占的轨迹。3. 根据权利要求1所述的自然场景视频识别方法,其特征在于,在步骤A中,ROI检测的 轨迹剪除方法步骤如下:在轨迹相异度度量的条件约束下,假设帖f中剩下化条可靠的轨 迹,则可W通过对可靠轨迹上所有特征点的空间坐标求均值,获得ROI的中屯、:,该尺寸则由W下式子给出:其中 Cxx和Cyy分别是特征点空间坐标在X方向和y方向上的二阶中屯、距,所有位于ROI之外的轨迹 都将被移除掉,另外,位移量极小甚至不动的轨迹也将被移除。4. 根据权利要求1所述的自然场景视频识别方法,其特征在于,在步骤C中,词袋模型表 示视频序列包括轨迹特征视频序列和时空兴趣点特征视频序列。5. 根据权利要求4所述的自然场景视频识别方法,其特征在于,所述轨迹特征视频序列 的表示方法步骤如下: Cl:通过K-means算法对训练集中所有轨迹的整体描述子G进行聚类,构造一个规模为 500的视觉词典; C2:采用时空网格的方法来描述轨迹特征的分布,将整段视频序列的ROI时空体划分为 4个非重合的空间块和2个部分重合的时间块,重合量为视频长度的1/3,即4 X 2 = 8个块; C3:采用直方图量化技术,对落在每个时空块中的轨迹集形成一个500-bin的直方图, 用于统计该块中各视觉词语出现的频率,由于有8个时空块,所W最终生成一个500X8 = 4000维的特征向量,记为FVi来描述整段视频序列中的所有轨迹。6. 根据权利要求4所述的自然场景视频识别方法,其特征在于,所述时空兴趣点特征视 频序列的表示方法步骤如下: Cl 1:通过K-means算法对训练集特征空间的随机子集进行K-means聚类,构造一个规模 为300的视觉词典; C12:将兴趣点集映射到视觉词典,给每个兴趣点赋予视觉词语,再通过量化将视频片 段中的所有兴趣点描述符综合表示成300-bin的直方图,即维度为300的特征向量,记为 FV2。7. 根据权利要求1所述的自然场景视频识别方法,其特征在于,在步骤E中,选择适应特 征融合的具体步骤如下:对于镜头静止的视频片段,基于轨迹的描述符和基于兴趣点的描 述符均用于行为识别,构成4300维的特征向量为FV=[FV1,FV2],相反,如果检测到摄像头 移动,只选择轨迹描述符,即4000维的特征向量FV = FVi,进入行为识别阶段。
【文档编号】G06K9/62GK105989358SQ201610040416
【公开日】2016年10月5日
【申请日】2016年1月21日
【发明人】衣杨, 关山, 周晓聪, 龙东阳, 陈弟虎
【申请人】中山大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1