基于ar模型功率谱的动态场景分类方法及装置的制造方法_2

文档序号:9751260阅读:来源:国知局
式实现:首先提取动态场景视频中的任 意一帧作为数据源,本发明使用的是视频的第一帧,然后对单帧数据进行稠密采样,即以 16*16像素为一个网格单元,8像素为采样间隔进行采样。接下来对每个网格单元进行SIFT 特征提取,统计每个网格中心点周围16*16个像素点的梯度方向信息,得到梯度场,然后将 16*16个像素点分为4*4的窗口,并在各窗口内生成梯度方向直方图,其中梯度方位按45度 量化,使得每个直方图包含8个方向,在得到4*4个直方图后,将这些直方图合并,形成最终 的128维SIFT特征向量,作为该网格的空域特征,所有网格的空域特征作为整个动态场景视 频的空域特征。应注意的是,上述实施例中的窗口划分方法,角度量化方法等方法中的数字 均为示例性说明,并非对本发明实施例的限定。
[0035] 在图1所述实施例的基础上,为详细说明步骤101中的获取动态场景视频的时域特 征,图2为本发明实施例获取动态场景视频的时域特征的流程示意图。如图2所示,该流程包 括:
[0036]步骤201、获取动态场景视频的光流方程,通过对光流方程进行一阶泰勒级数展 开,获取动态场景视频的光流场;
[0037]步骤202、根据光流场的方向和大小,获取动态场景视频的时域特征。
[0038] 其中,时间域特征主要是对动态场景中存在的运动进行描述,本发明实施例中采 用光流特征,对动态场景中运动的方向和大小进行描述。光流是空间运动物体在观测成像 平面上的像素运动的"瞬时速度",通过对光流的研究可以近似得到动态场景中的运动场。 进一步,通过对动态场景中的运动场进行统计分析,就能生成描述动态场景运动的特征,这 种特征可用来对动态场景进行分类。可选的,动态场景视频的时域特征也可为其他特征,本 实施例仅以光流特征为例,并非对本发明的限定。
[0039] 对于动态场景视频,需首先提取其中的两帧作为数据源,在具体计算过程中,可以 采用两相邻帧。本发明中采用的是视频中的第10帧和第20帧作为数据源,然后根据这两帧 图像获取动态场景视频的光流方程。在步骤202中,根据光流特征的假设前提:(1)动态场景 的临近帧之间亮度恒定,(2)相邻帧的取帧时间连续,或相邻帧之间运动"微小";得到任一 像素(x,y)的光流方程:1&,7,1:) = 1(1+(11,7+(17 3+(11:)。其中,1(1,7,1:)表示像素(1,7)在七 时刻的灰度值,I (x+dx,y+dy,t+dt)表示在dt时间后像素(x+dx,y+dy)的灰度值。将该光流 方程进行一阶泰勒级数展开,可得到I xdx+Iydy = -It,对该方程求解即可得到动态场景视频 的光流场。在得到动态场景视频的光流场后,具体的,可采用与SIFT特征提取相同的方法, 通过将SIFT特征中的梯度场替换为光流场,同样采用划分网格的方法对动态场景视频内各 像素的光流场大小和方向进行统计,形成各网格的时域特征,从而获得动态场景视频的时 域特征。
[0040] 在图1所述实施例的基础上,为详细说明步骤101中的获取动态场景视频的AR模型 功率谱频域特征,图3为本发明实施例获取动态场景视频的AR模型功率谱频域特征的流程 示意图。如图3所示,该流程包括:
[0041] 步骤301、针对任一段动态场景视频,去除动态场景视频中的背景,并进行降采样, 得到时间序列;
[0042]步骤302、通过AR模型对时间序列进行建模,得到AR模型的参数和方差;
[0043]步骤303、将AR模型的参数和方差转换为AR模型功率谱特征向量,并对AR模型功率 谱特征向量进行归一化,得到AR模型功率谱频域特征。
[0044] 频域特征主要针对动态场景中存在的周期或准周期运动进行描述。通过对场景的 周期性进行分析,可以有效对周期运动、准周期运动、不规则运动进行区辨。在本发明实施 例中,使用的是基于高阶自回归模型(Autoregressive Model,简称AR模型)功率谱的频域 特征来描述场景周期性,该特征对噪声有较好的适应性,可得到有效的特征,进而得到较高 的分类准确率。
[0045] 其中,步骤301可以为,采用帧差法去除动态场景视频中的背景,对于动态场景中 第d帧Id中的任一像素点(X,y),帧差法所用的公式可以为1^(1,7) = 1<](1,7)-1()(1,7),其 中,d表示帧数,d为大于1小于动态场景视频总帧数的正整数,1〇为背景,在本发明中,可以 取Ιο为在该像素点(x,y)的100帧内的灰度值的众数,{Rd}为去除背景后的动态场景视频;将 去除背景后的{Rd}分割成多个块,每个块包括N*N*T个像素,其中N和T为正整数,示例性的N 可取16,T取100,表示分割的视频块的总帧数为100;对每个视频块进行降采样,即对视频块 中每一帧的像素进行平均,得到1*Τ维的时间序列{R t},其中,t表示帧数,t为大于1小于视 频块总帧数的正整数。根据每个动态场景视频可得到多个时间序列。
[0046]在步骤302中,可以采用高阶AR模型原理公式对每个视频块对应的时间序列{Rt} 进行建模,其中,AR模型原理公式为
实中,q为AR模型的 阶数,i的取值范围为从1至q的正整数,V(t)为符合均值为0,方差为〇2的误差噪声。然后采 用正则计算公式得到每个视频块对应的AR模型参数{仏}和方差〇2。
[0047] 其中,正则计算公式可以采用Yule-Walker算法,公式为
[0048] ^ ?广
w ? ν*? {ν·
[0049] 其中,Φ为Rt的自相关函数。
[0050] 可选的,在步骤303中,采用特征向量获取公式:
;将每个 视频块对应的AR模型参数{Ai}和方差〇2转换为每个视频块对应的AR模型功率谱特征向量Pz (ω ),其中ω表示频率,ω的取值范围为从1至128的正整数,并采用归一化公式
AR模型功率谱特征向量进行归一化,得到每个视频块对应的AR模型 功率谱频域特征Ρ( ω )。
[0051] 由于动态场景视频在各域的特征都是通过划分得到,包含的数量巨大,而且无法 直接用这些特征描述整个动态场景视频,因此需对这些特征进行统计分析。图4为本发明基 于AR模型功率谱的动态场景分类方法另一实施例的流程图。本实施例在上述图3所示实施 例的基础上,如图4所示,该流程包括:
[0052]步骤401、对任一段动态场景视频的各网格对应的空域特征、各网格对应的时域特 征和各视频块对应的AR模型功率谱频域特征分别进行聚类,生成动态场景视频的空域特征 的视觉词典、时域特征的视觉词典和AR模型功率谱频域特征的视觉词典;
[0053]步骤402、将各网格对应的空域特征、各网格对应的时域特征和各视频块对应的AR 模型功率谱频域特征分别映射到对应的视觉词典中距离各网格对应的空域特征、各网格对 应的时域特征和各视频块对应的AR模型功率谱频域特征最近的视觉单词上;
[0054]步骤403、根据映射结果,对映射后的视觉单词的进行词频统计,得到空域的词频 直方统计图特征、时域的词频直方统计图特征和AR模型功率谱频域的词频直方统计图特 征。
[0055] 在具体实施例过程中,在步骤401中,可采用K-means聚类算法,生成三种视觉词 典。具体的,对于每段动态场景视频,在空域、时域和频域内都包含有大量网格或视频块的 空域特征、时域特征和AR模型功率谱频域特征,因而,可先对每段动态场景视频按域进行聚 类,生成空域特征、时域特征和频域特征三种视觉词典。
[0056]在步骤402中,各网格对应的空域特征、各网格对应的时域特征和各视频块对应的 AR模型功率谱频域特征通常数据量过大,因而可采用将其映射到数据量较小的视觉词典 中,以减少数据量。例如将100个网格的对应的时域特征映射到包含20个视觉单词的视觉词 典中。在映射时,在空域、时域和频域视觉词典中分别查找距离各网格对应的空域特征、各 网格对应的时域特征和各视频块对应的AR模型功率谱频域特征最近的视觉单词,并将单词 和各特征组成对应关系。
[0057]在步骤403中,针对空域、时域、频域的映射结果,按域对映射后的视觉单词的进行 词频统计,可以得到每段动态场景视频的空域的词频直方统计图特征、
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1