一种视频中语义事件检测方法及系统的制作方法

文档序号:7686716阅读:179来源:国知局
专利名称:一种视频中语义事件检测方法及系统的制作方法
技术领域
本发明涉及视频内容分析技术领域,特别是涉及一种视频中语义事件检测 方法及系统。
背景技术
伴随着数字视频技术的发展,视频内容分析技术变得越来越重要。视频中 的语义概念包括物体、场景、事件等各种类型。检测需要利用不同模态的信息, 例如关键帧图像、音频等可以用于检测出现在视频中包含的语义概念。利用运 动信息的最基本工作就是在视频中提取运动特征,包括摄像机运动估计和视频 中运动对象分割。这对于视频中的事件语义概念,例如行走、暴力和游行等都 有很好的检测效果。多数现有的关于语义事件检测的工作都是基于对视频关键 帧的图像特征分析。这意味着提取此类特征需要消耗大量的计算资源在特征计 算上。对于大规模的视频数据集,我们需要更加有效的方法,例如我们可以直 接使用压縮域的信息用于运动分析和语义事件检测。
近几年已经有直接使用压縮域信息的工作,包括直接利用运动矢量和离散
余弦变换(DCT)系数,这些工作主要是为了节省反余弦变换(IDCT)的计算 以及节省运动补偿的计算。然而,这些方法仍然存在很多问题首先,对于帧 间编码的宏块,其DCT系数不是根据真实的象素值计算得出,而是根据当前宏 块与其参考帧宏块的差值得到的;其次,在视频码流中有很多帧内编码的宏块,
这些宏块无法提供运动信息,特别是码流中的I帧,其整个帧内的宏块都为帧 内编码;最后也是最重要的,很多宏块包含有大量的噪声,MPEG视频码流中 的运动矢量是根据编码过程中的快速宏块匹配算法计算出来的,其计算误差较 大,并且其计算结果有可能不能真正反映宏块的运动信息,特别是对于纹理不 是很明显的区域。解决好以上问题对直接使用压縮域的运动信息是非常重要 的。
多数运动分析方法中采用6参数的仿射模型或者8参数的射影模型来估计摄像机运动方式,这些方法运算复杂度较大。

发明内容
本发明的目的在于提供一种视频中语义事件检测方法及系统,其能更准 确、高效地检测视频中的语义事件概念。
为实现本发明的目的而提供的一种视频中语义事件检测方法,包括下列步

A. 运动矢量归一化及噪声运动矢量过滤;
B. 摄像机运动估计;
C. 运动对象分割;
D. 语义事件检测。 所述步骤A还进一步包括步骤 Al.根据帧类型归一化运动矢量;
A2.利用经验规则过滤噪声运动矢量。
所述归一化运动矢量,是指将运动矢量除以该运动矢量所在帧与参考帧之 间的帧距离。
所述步骤Al还进一步包括步骤
All.对于后向预测的宏块,将其取反向作为该宏块的运动矢量;
A12.对于双向预测的宏块,先将后向预测宏块取反向之后,再与前向预 测宏块取平均,该平均值作为该双向预测的宏块的运动矢量;
A13.对于I帧的宏块,从以该I帧为参考的相邻B帧中获取运动信息, 估计I帧宏块的运动。
所述步骤A13,将在所在I帧最相邻的B帧中寻找将I帧中宏块作为参考 宏块的B帧宏块,并将该B帧宏块运动矢量取反方向作为I帧宏块的运动矢量。
所述步骤A13,多个B帧宏块将I帧宏块作为参考宏块,则取其中参考区 域与I帧宏块重叠最多的B帧宏块的运动信息取反方向作为I帧宏块的运动矢
所述步骤A13,对于没有作为任何B帧参考宏块的I帧宏块,将其作为帧 内编码宏块处理。
所述经验规则是指某些方法的参数是通过人工试验得到的。
8所述噪声是指有些宏块的运动矢量不能反映实际画面中的运动情况。
所述步骤A2中,利用MPEG码流中的直流分量和运动矢量信息过滤噪声运
动矢量。
所述步骤A2中,对于满足以下情况的宏块将被标记为包含噪声运动矢量
的宏块
A21.当前宏块的运动矢量明显区别于相邻宏块的运动矢量; A22.当前宏块内的4个8*8块的直流分量几乎相同;
A23.与当前宏块相邻的8个宏块中有一半以上宏块内的直流分量与当前 宏块内的直流分量相近。
所述步骤B还进一步包括步骤 Bl.判断是否为摄像机静止的帧; B2.判断是否为摄像机平移的帧; B3.判断是否为摄像机变焦的帧; B4.判断是否为摄像机旋转的帧;
B5.如果上述B1 B4判断的结果都为否,则该帧标识为不规则运动的帧。 所述步骤B1中,将当前帧的所有宏块数目定义为^,噪声宏块数目定义
为~,,,£,帧内编码宏块数目定义为n,一,如果极半径等于零的宏块数目大于
0.4*"a ,则该帧将被判断为摄像机静止的帧。
所述步骤B2中,对于不是摄像机静止的帧,将帧中正常宏块的运动矢量 转换到极坐标系,将其中宏块的运动矢量的极半径取整,将极夹角归一化到[O, 360)中的整数,以极半径和极夹角构建二维直方图;确定一定大小的滑动窗口, 计算该窗口内直方图之和,选取窗口内直方图之和最大的窗口中心点的(A& , 代表了该帧的主要运动矢量方向,如果该窗口内直方图之和
"平> 一2",,该帧为摄像机平移的帧。
所述步骤B3中,对于不是摄像机平移的帧,构建一个与当前帧大小相同 的二维数组,除去包含噪声运动矢量的宏块和帧内编码宏块,按照像素点所在 宏块的运动矢量方向在每个象素点上画一条直线,按照线的方向,每经过一个象素点,该点对应的数组累计值加1。利用滑动窗口进行求和计算,其中具有 最大累计值之和的滑动窗口在焦点附近,如果该窗口的累计值之和大于所有的 滑动窗口的累计值之和的平均值的10倍,则将该窗口判断为摄像机变焦窗口, 该帧为摄像机变焦的帧。
所述步骤B3中,设"皿为每个象素点到焦点的距离,寻找所有运动矢量
方向指向焦点的象素点,其运动矢量p"皿的平均值设为幅度参数r, rX)表示 放大,K0表示縮小。
所述步骤B4中,判断摄像机旋转的方法与步骤B3判断摄像机变焦的方法 基本一致,区别是每个象素点上线的方向需要与运动矢量方向垂直,如果最后 计算得到的r〉0表示顺时针方向的旋转,如果r〈0表示逆时针方向的旋转。
所述步骤C还进一步包括步骤
Cl.确定由摄像机运动产生的全局运动矢量;
C2.进行摄像机运动补偿;
C3.运动对象分割。
所述步骤Cl还进一步包括步骤
Cll.对于摄像机静止的帧,其全局运动矢量是O;
C12.对于摄像机平移的帧,其全局运动矢量即为^力);
C13.对于摄像机变焦的帧,某象素点的摄像机运动方向延该点到焦点的 连线,方向由r的符号决定,运动矢量大小为一|*^。£;
C14.对于摄像机旋转的帧,摄像机运动矢量的判别方法与摄像机变焦的 帧相类似,但其运动方向是宏块到焦点连线的法线方向。
所述步骤C2中,对每个宏块,选其中心点作为代表点计算全局运动,将 每个宏块的运动矢量减去该宏块的全局运动矢量,得到相对运动矢量;当相对 运动矢量大于既定阈值时,该宏块被认为是前景,即运动区域;否则为背景。
所述既定阈值是指根据经验规则设定的数值。
所述步骤C3中,对于包含噪声运动矢量的宏块和帧内编码宏块,如果其 相邻8个宏块中有一半以上属于正常宏块,则将这些相邻正常宏块的前/背景 类型标记中占多数者设为为该宏块的类型;否则将该宏块标记为背景宏块。再 利用空间中值滤波算法进行滤波,获取最后的运动目标区域。步骤B2或C3中,所述正常宏块是指既不属于包含噪声运动矢量的宏块,
也不属于帧内编码宏块的宏块。
所述步骤D还进一步包括步骤
Dl.构造特征向量;
D2.训练得到支持向量机分类模型;
D3.利用训练得到的支持向量机分类模型,判断视频中存在的事件语义概念。
所述步骤Dl中,根据分割得到的运动区域,构造用来描述当前帧的17
维的特征向量,分别是
Dll.前景区域的重心的坐标,2维; D12.前景区域的面积,l维; D13.图像中心矩;
图像中心矩的计算方式 =Z2>-^(",)V"力,其中(t刃为前景 重心坐标,对于背景区域,/(x,力J/'对于前景区域/(x,力^,取二阶、三阶 图像中心矩,即取^ +《=2和;7 + 9 = 3两种情况的中心矩,二阶中心矩3维,三 阶中心矩4维,共7维;
D14.将二阶和三阶中心矩进行组合可得到7个对平移、旋转和尺度变化不
变的矩,即有
仍="2。 +》02
%=(<930 -3&)2+(3^U
^二093。+《2)2+092,+化3)2
% =093。 -3《2)093。 +<912)[( 93。 +>912)2 -3092| +t9。3)2] +(3>921 -+1903)[30930 +》12)2 -0921 +1903)2]
% = (A。 _%)[(<93。 + 912)2 -( 921 + <903)2] + 4^( + 912)0921 + 903) A =(3 921 -<903)G93O + 912肌+ 1912)2 一3( 92, +>903)2] -093。 Ju)^ + 1903)[30930 + 912)2 _(1921 +<903)2]。
所述步骤Dl中,对于待检测视频帧序列,定义其17维向量的序列为 ,其均值为-, 取相邻帧的绝对差 {AI^A^,.--^—J-(l^-6l,l《-gl,…Ul》,计算绝对差均值A- ,再计算序列中无前景的帧的比率、静止帧的比率、不规则运动帧的比率和运动幅度r 的平均值4个参数,加上17维的序列均值-和17维的绝对差均值A^构成了 38维的帧序列特征。
所述步骤D2还进一步包括步骤
D21.选取一部分训练数据进行交叉验证,选取合适的支持向量机训练参
数;
D22.利用交叉验证得到的最佳训练参数训练支持向量机分类器模型。 为实现本发明的目的,还提供一种视频中语义事件检测系统,包括 运动矢量预处理模块,用于将运动矢量归一化并利用经验规则过滤噪声运 动矢量;
摄像机运动估计模块,用于判断摄像机的运动方式和运动参数; 运动对象分割模块,用于利用摄像机运动补偿后的运动矢量,进行运动对 象分割;
语义事件检测模块,用于利用分割结果检测视频镜头中的语义事件。 本发明的有益效果是
1、 良好的去除了运动矢量与视频帧类型的相关性,对于帧内编码的宏块 也得到了较为准确的运动矢量信息;
2、 良好的去除了噪声运动矢量;
3、 摄像机运动方式判断准确且时间复杂度低;
4、 利用支持向量机作为分类器。适应性好,能在各种情况下工作良好。


图1是本发明的一种视频中语义事件检测方法的流程图。
具体实施例方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本发明的一种视频中语义事件检测方法及系统进行进一步详细说明。 应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发 明。
12本发明的一种视频中语义事件检测方法及系统,是利用压縮域信息对摄像 机运动进行估计,并且得到视频中准确的运动物体信息。 本发明要解决的技术问题包括
1. 去除噪声运动矢量;
2. 解决帧内编码的宏块运动信息获取问题;
3. 采用时间复杂度较低的方式判断摄像机运动方式;
4. 用于语义检测的视频片断运动特征表示。
下面结合上述目标详细介绍本发明一种视频中语义事件检测方法,如图1
所示,包括下列步骤
步骤S100,运动矢量归一化及噪声运动矢量过滤; 步骤S110,根据帧类型归一化运动矢量;
视频编码分为I帧、P帧和B帧。所有的帧都是把一副图像分成许多宏块 进行编码。I帧的每个宏块都是帧内编码,也就是不参考别的帧;P帧的宏块 通过参考其前一个的I帧或P帧进行前向预测编码;B帧的宏块则可以同时参 考其前一个和后一个I帧或P帧进行前向或后向的预测,即双向预测,当然也 可以选择只参考一个。对于P帧和B帧的宏块,也不是全部都去参考别的帧, 如果找不到匹配的,某些宏块也可以帧内编码。
将运动矢量除以该运动矢量所在帧与参考帧之间的帧距离,得到归一化后 的运动矢量。其中
步骤Slll,对于后向预测的宏块,将其取反向作为该宏块的运动矢量;
步骤S112,对于双向预测的宏块,先将后向预测宏块取反向之后,再与 前向预测宏块取平均,该平均值作为该双向预测的宏块的运动矢量;
步骤S113,对于I帧的宏块,从以该I帧为参考的相邻B帧中获取运动 信息,估计I帧宏块的运动。
对于I帧的运动信息,由于其采用帧内编码,没有前、后向参考帧,所以 我们取与其最相邻的B帧。通常一个I帧要作为其最相邻B帧的参考帧,作为 I帧中的宏块,我们将在其所在I帧最相邻的B帧中寻找将I帧中宏块作为参 考宏块的B帧宏块。并将该B帧宏块运动矢量取反方向作为I帧宏块的运动矢 量。如果有多个B帧宏块将I帧宏块作为参考宏块,则取其中参考区域与I 帧宏块重叠最多的B帧宏块的运动信息取反方向作为I帧宏块的运动矢量。对于没有作为任何B帧参考宏块的I帧宏块,将其作为帧内编码宏块处理。 作为一种可实施方式,假设运动矢量大小为「运动矢量所在帧号为i,
参考帧帧号为j,则归一化后的运动矢量 _^,此时v—。是相对于相邻帧的 当前帧的运动矢量。
步骤S120,利用经验规则过滤噪声运动矢量;
利用MPEG码流中的直流分量和运动矢量信息过滤噪声运动矢量。MPEG标 准对视频进行编码时,对每个宏块记录其运动矢量和DCT变换(离散余弦变换) 的数据,直流分量指的是DCT变换中的直流分量。
所述"经验规则" 一般是指某些方法的参数是通过人工试验得到的。 所述噪声是指有些宏块的运动矢量不能反映实际画面中的运动情况。 对于满足以下情况的宏块将被标记为包含噪声运动矢量的宏块
A. 当前宏块的运动矢量明显区别于相邻宏块的运动矢量;
B. 当前宏块内的4个8*8块的直流分量几乎相同;
C. 与当前宏块相邻的8个宏块中有一半以上宏块内的直流分量与当前宏 块内的直流分量相近。
步骤S200,摄像机运动估计;
利用以下规则判断摄像机运动方式。
步骤S210,判断是否为摄像机静止的帧;
将当前帧的所有宏块数目定义为^,,噪声宏块数目定义为 ,£,帧内编码 宏块数目定义为",一。如果极半径等于零的宏块数目大于0.4*~,,则该帧将被
判断为摄像机静止的帧。
步骤S220,判断是否为摄像机平移的帧;
在步骤S210的基础上,对于不是摄像机静止的帧,将该帧中正常宏块(除 去包含噪声运动矢量的宏块和帧内编码宏块)的运动矢量转换到极坐标系,将 其中宏块的运动矢量的极半径取整,将极夹角归一化到[O, 360)中的整数,以 极半径和极夹角构建二维直方图。确定一定大小的滑动窗口,计算该窗口内直 方图之和,选取窗口内直方图之和最大的窗口中心点的03^),(》力)代表了该 帧的主要运动矢量方向,如果该窗口内直方图之和 。一 > ,该帧为摄
14像机平移的帧。作为一种可实施方式,本发明的窗口大小是由经验规则设定的, 这里用的是9*15的窗口。
步骤S230,判断是否为摄像机变焦的帧;
在步骤S220的基础上,对于不是摄像机平移的帧,构建一个与当前帧大 小相同的二维数组,除去包含噪声运动矢量的宏块和帧内编码宏块,按照宏块 的运动矢量方向在每个象素点上画一条直线。按照线的方向,每经过一个象素 点,该点对应的数组累计值加1。对于理想的变焦状况,所有的直线将汇聚到 焦点上。实际情况下,焦点周围的累计值将很大。利用5*5的滑动窗口进行求 和计算,其中具有最大累计值之和的滑动窗口应该在焦点附近,如果该窗口的 累计值之和大于所有的滑动窗口的累计值之和的平均值的10倍,则将该窗口 判断为摄像机变焦窗口,该帧为摄像机变焦的帧。设",为每个象素点到焦点 的距离。寻找所有运动矢量方向指向焦点的象素点,其运动矢量WA,的平均 值设为幅度参数r, r〉0表示放大,r〈0表示縮小。
步骤S240,判断是否为摄像机旋转的帧;
判断摄像机旋转与判断摄像机变焦的方法基本一致,区别是每个象素点上 线的方向需要与运动矢量方向垂直。如果最后计算得到的r>0表示顺时针方向 的旋转,如果r〈0表示逆时针方向的旋转。
步骤S250,如果上述四种判断的结果都为否,则该帧标识为不规则运动
步骤S300,运动对象分割;
利用摄像机运动补偿后的运动矢量,进行运动对象分割,即判断运动对象 区域。
步骤S310,确定由摄像机运动产生的全局运动矢量;
步骤S311,对于摄像机静止的帧,其全局运动矢量是O;;
步骤S312,对于摄像机平移的帧,其全局运动矢量即为(》,A;
步骤S313,对于摄像机变焦的帧,某象素点的摄像机运动方向延该点到 焦点的连线,方向由r的符号决定,运动矢量大小为一|*《。£;
步骤S314,对于摄像机旋转的帧,摄像机运动矢量的判别方法与摄像机 变焦的帧相类似,但其运动方向是宏块到焦点连线的法线方向;
步骤S320,进行摄像机运动补偿;对每个宏块,选其中心点作为代表点计算全局运动,将每个宏块的运动矢 量减去该宏块的全局运动矢量,得到相对运动矢量。当相对运动矢量极径大于 既定阈值时,该宏块被认为是前景,即运动区域;否则为背景。
作为一种可实施方式,此阈值根据经验规则设定,设定为2.0。 步骤S330,运动对象分割;
对于包含噪声运动矢量的宏块和帧内编码宏块,如果其相邻8个宏块中有 一半以上属于正常宏块(即既不属于包含噪声运动矢量的宏块,也不属于帧内 编码宏块),则将相邻正常宏块中的前/背景类型标记中占多数者设为该宏块 的类型;否则将该宏块标记为背景宏块。最后利用空间中值滤波算法进行滤波, 获取最后的运动目标区域。
步骤S400,语义事件检测;
步骤S410,构造特征向量;
根据分割得到的运动区域,即前景区域,构造用来描述当前帧的17维的
特征向量。分别为
A. 前景区域的重心的坐标,2维;
B. 前景区域的面积,l维;
C. 图像中心矩;
图像中心矩的计算方式J7f/(x,力,其中&刃为前景 重心坐标。对于背景区域,/(1,力=6/对于前景区域/(^,力=1。取二阶、三阶 图像中心矩,即取p + g-2和p + 9-3两种情况的中心矩,二阶中心矩3维,三 阶中心矩4维,共7维。
D. 将二阶和三阶中心矩进行组合可得到7个对平移、旋转和尺度变化不
变的矩,即有
A = "20 +》02
3&)2+(3^- 903)2
化=0930 - 3《2)093。 + <912)
+(3<921 +t9。3)[3(l93。 + 912)2 -( 921 + 903)2]
化=( 92。 - D[(<93。 + 912)2 —0921 +19。3)2] + 4 911(193。 + 1912)0921 + 903)巧=(3 921 — <9。3)093。 + ^跳+《2)2 -3(>921 + ;)勺 一(《93。 - 3 912)0921 + >9。3)[30930 + ^)2 — (>921 + ^)2〗
对于待检测视频帧序列,定义其17维向量的序列为g,4…,J,其均值 为#。取相邻帧的绝对差(A巧,A&,…,AljMI巧-^l,lg-广&|},计算 绝对差均值A-。再计算序列中无前景的帧的比率、静止帧的比率、不规则运 动帧的比率和运动幅度r的平均值4个参数,加上17维的序列均值^和17维 的绝对差均值A^构成了 38维的帧序列特征。
步骤S420,训练得到支持向量机(Support Vector Machine,简称SVM)分 类模型;
步骤S421,选取一部分训练数据进行交叉验证,选取合适的SVM训练参
数;
步骤S422,利用交叉验证得到的最佳训练参数训练SVM分类器模型; 步骤S430,利用训练得到的SVM分类模型,判断视频中存在的事件语义 概念。
本方法中,交叉验证,选取合适的SVM训练参数;利用交叉验证得到的最 佳训练参数训练SVM分类器模型以及利用训练得到的SVM分类模型,判断视频 中存在的事件语义概念,均属于模式识别里的基本技术,因此,在此不再一一 详细说明。
相应于本发明的一种视频中语义事件检测方法,本发明还提供一种视频中 语义事件检测系统,其包括
运动矢量预处理模块21,用于将运动矢量归一化并利用经验规则过滤噪 声运动矢量;
摄像机运动估计模块22,用于判断摄像机的运动方式和运动参数; 运动对象分割模块23,用于利用摄像机运动补偿后的运动矢量,进行运 动对象分割,即判断运动对象区域;
语义事件检测模块24,用于利用分割结果检测视频镜头中的语义事件。 本发明的有益效果在于
1、 良好的去除了运动矢量与视频帧类型的相关性,对于帧内编码的宏块 也得到了较为准确的运动矢量信息;
2、 良好的去除了噪声运动矢量;
173、 摄像机运动方式判断准确且时间复杂度低;
4、 利用支持向量机作为分类器适应性好,能在各种情况下工作良好。通过结合附图对本发明具体实施例的描述,本发明的其它方面及特征对本
领域的技术人员而言是显而易见的。
以上对本发明的具体实施例进行了描述和说明,这些实施例应被认为其只是示例性的,并不用于对本发明进行限制,本发明应根据所附的权利要求进行解释。
权利要求
1. 一种视频中语义事件检测方法,其特征在于,包括下列步骤A. 运动矢量归一化及噪声运动矢量过滤;B. 摄像机运动估计;C. 运动对象分割;D. 语义事件检测。
2. 根据权利要求1所述的方法,其特征在于,所述步骤A还进一步包括步骤Al.根据帧类型归一化运动矢量;A2.利用经验规则过滤噪声运动矢量。
3. 根据权利要求2所述的方法,其特征在于,所述归一化运动矢量,是指将运动矢量除以该运动矢量所在帧与参考帧之间的帧距离。
4. 根据权利要求2所述的方法,其特征在于,所述步骤A1还进一步包括步骤All.对于后向预测的宏块,将其取反向作为该宏块的运动矢量;A12.对于双向预测的宏块,先将后向预测宏块取反向之后,再与前向预测宏块取平均,该平均值作为该双向预测的宏块的运动矢量;A13.对于I帧的宏块,从以该I帧为参考的相邻B帧中获取运动信息,估计I帧宏块的运动。
5. 根据权利要求4所述的方法,其特征在于,所述步骤A13,在所在I 帧最相邻的B帧中寻找将I帧中宏块作为参考宏块的B帧宏块,并将该B帧宏 块运动矢量取反方向作为I帧宏块的运动矢量。
6. 根据权利要求4所述的方法,其特征在于,所述步骤A13,多个B帧 宏块将I帧宏块作为参考宏块,则取其中参考区域与I帧宏块重叠最多的B 帧宏块的运动信息取反方向作为I帧宏块的运动矢量。
7. 根据权利要求4所述的方法,其特征在于,所述步骤A13,对于没有作 为B帧参考宏块的I帧宏块,将其作为帧内编码宏块处理。
8. 根据权利要求2所述的方法,其特征在于,步骤A2中,所述经验规则 是指某些方法的参数是通过人工试验得到的。
9. 根据权利要求2所述的方法,其特征在于,步骤A2中,所述噪声是指 有些宏块的运动矢量不能反映实际画面中的运动情况。
10. 根据权利要求2所述的方法,其特征在于,所述步骤A2中,利用MPEG 码流中的直流分量和运动矢量信息过滤噪声运动矢量。
11. 根据权利要求10所述的方法,其特征在于,所述步骤A2中,对于满 足以下情况的宏块将被标记为包含噪声运动矢量的宏块A21.当前宏块的运动矢量明显区别于相邻宏块的运动矢量; A22.当前宏块内的4个8*8块的直流分量几乎相同; A23.与当前宏块相邻的8个宏块中有一半以上宏块内的直流分量与当前 宏块内的直流分量相近。
12. 根据权利要求1所述的方法,其特征在于,所述步骤B还进一步包括步骤Bl.判断是否为摄像机静止的帧; B2.判断是否为摄像机平移的帧; B3.判断是否为摄像机变焦的帧; B4.判断是否为摄像机旋转的帧;B5.如果上述B1 B4判断的结果都为否,则该帧标识为不规则运动的帧。
13. 根据权利要求12所述的方法,其特征在于,所述步骤B1中,将当前 帧的所有宏块数目定义为"。,;,噪声宏块数目定义为" _,帧内编码宏块数目定 义为~ ,如果极半径等于零的宏块数目大于0.4^。,,,则该帧将被判断为摄像 机静止的帧。
14. 根据权利要求12所述的方法,其特征在于,所述步骤B2中,对于不 是摄像机静止的帧,将帧中正常宏块的运动矢量转换到极坐标系,将其中宏块 的运动矢量的极半径取整,将极夹角归一化到[O, 360)中的整数,以极半径和 极夹角构建二维直方图;确定一定大小的滑动窗口,计算该窗口内直方图之和, 选取窗口内直方图之和最大的窗口中心点的G3^),(》力)代表了该帧的主要运动矢量方向,如果该窗口内直方图之和> "°",该帧为摄像机平移的
15. 根据权利要求12所述的方法,其特征在于,所述步骤B3中,对于不 是摄像机平移的帧,构建一个与当前帧大小相同的二维数组,除去包含噪声运 动矢量的宏块和帧内编码宏块,按照宏块的运动矢量方向在每个象素点上画一 条直线,按照线的方向,每经过一个象素点,该点对应的数组累计值加1,利 用滑动窗口进行求和计算,其中具有最大累计值之和的滑动窗口在焦点附近, 如果该窗口的累计值之和大于所有的滑动窗口的累计值之和的平均值的10 倍,则将该窗口判断为摄像机变焦窗口,该帧为摄像机变焦的帧。
16. 根据权利要求15所述的方法,其特征在于,所述步骤B3中,设^促为每个象素点到焦点的距离,寻找所有运动矢量方向指向焦点的象素点,其运 动矢量p/"皿的平均值设为幅度参数r, rX)表示放大,rO表示縮小。
17. 根据权利要求12所述的方法,其特征在于,所述步骤B4中,判断摄 像机旋转的方法与步骤B3判断摄像机变焦的方法基本一致,区别是每个象素 点上线的方向需要与运动矢量方向垂直,如果最后计算得到的r〉0表示顺时针 方向的旋转,如果r〈0表示逆时针方向的旋转。
18. 根据权利要求1所述的方法,其特征在于,所述步骤C还进一步包括 步骤Cl.确定由摄像机运动产生的全局运动矢量; C2.进行摄像机运动补偿; C3.运动对象分割。
19. 根据权利要求18所述的方法,其特征在于,所述步骤C1还进一步包 括步骤Cll.对于摄像机静止的帧,其全局运动矢量是0;C12.对于摄像机平移的帧,其全局运动矢量即为(》力);C13.对于摄像机变焦的帧,某象素点的摄像机运动方向延该点到焦点的 连线,方向由r的符号决定,运动矢量大小为|叫*^"£;C14.对于摄像机旋转的帧,摄像机运动矢量的判别方法与摄像机变焦的 帧相类似,但其运动方向是宏块到焦点连线的法线方向。
20. 根据权利要求18所述的方法,其特征在于,所述步骤C2中,对每个 宏块,选其中心点作为代表点计算全局运动,将每个宏块的运动矢量减去该宏块的全局运动矢量,得到相对运动矢量;当相对运动矢量大于既定阈值时,该 宏块被认为是前景,即运动区域;否则为背景。
21. 根据权利要求20所述的方法,其特征在于,所述既定阈值是指根据 经验规则设定的数值。
22. 根据权利要求18所述的方法,其特征在于,所述步骤C3中,对于包 含噪声运动矢量的宏块和帧内编码宏块,如果其相邻8个宏块中有一半以上属 于正常宏块,则将相邻正常宏块的前/背景类型标记中占多数者设为该宏块的 类型;否则将该宏块标记为背景宏块,再利用空间中值滤波算法进行滤波,获 取最后的运动目标区域。
23. 根据权利要求14或22所述的方法,其特征在于,所述正常宏块是指 既不属于包含噪声运动矢量的宏块,也不属于帧内编码宏块的宏块。
24. 根据权利要求1所述的方法,其特征在于,所述步骤D还进一步包括 步骤Dl.构造特征向量;D2.训练得到支持向量机分类模型;D3.利用训练得到的支持向量机分类模型,判断视频中存在的事件语义概
25.根据权利要求24所述的方法,其特征在于,所述步骤D1中,根据分 割得到的运动区域,构造用来描述当前帧的17维的特征向量,分别是 Dll.前景区域的重心的坐标,2维; D12.前景区域的面积,l维; D13.图像中心矩;图像中心矩的计算方式 =Z2>-W(y-刃V(x,力,其中(i,刃为前景 重心坐标,对于背景区域,/(x,力-0、Y对于前景区域/(x,力^,取二阶、三阶 图像中心矩,即取/7 +《=2和^ +《=3两种情况的中心矩,二阶中心矩3维,三 阶中心矩4维,共7维;D14.将二阶和三阶中心矩进行组合可得到7个对平移、旋转和尺度变化不变的矩,即有% =( -3《2)093。 +<912)2 -30921 +1903)2]+(3>921 -^3)0^ +^)[30930 +1912)2 -(>921 + 1903)2]% = 0920 — <902)
+ 4^0930 + <912)( 921 + 903) & ,广化3)0930 + 912)[(>930 + >912)2 -3( 921 +1903)2] -093。 -3 912)0921 + 9。3)[3(<93。 + >912)2 - 0921 +19。3)2]。
26. 根据权利要求25所述的方法,其特征在于,所述步骤D1中,对于待 检测视频帧序列,定义其17维向量的序列为其均值为户,取相邻帧的绝对差{厶巧^4一,厶6_1} = {1巧-^1,^2-^1,...,|11-&1},计算绝对差均值 A^,再计算序列中无前景的帧的比率、静止帧的比率、不规则运动帧的比率 和运动幅度r的平均值4个参数,加上17维的序列均值^和17维的绝对差均 值A^构成了 38维的帧序列特征。
27. 根据权利要求24所述的方法,其特征在于,所述步骤D2还进一步包 括步骤D21.选取一部分训练数据进行交叉验证,选取合适的支持向量机训练参数;D22.利用交叉验证得到的最佳训练参数训练支持向量机分类器模型。
28. —种视频中语义事件检测系统,其特征在于,包括 运动矢量预处理模块,用于将运动矢量归一化并利用经验规则过滤噪声运摄像机运动估计模块,用于判断摄像机的运动方式和运动参数; 运动对象分割模块,用于利用摄像机运动补偿后的运动矢量,进行运动对 象分割;语义事件检测模块,用于利用分割结果检测视频镜头中的语义事件。
全文摘要
本发明公开了一种视频中语义事件检测方法及系统。该方法包括下列步骤运动矢量归一化及噪声运动矢量过滤;摄像机运动估计;运动对象分割;语义事件检测。该系统包括运动矢量预处理模块,用于将运动矢量归一化并利用经验规则过滤噪声运动矢量;摄像机运动估计模块,用于判断摄像机的运动方式和运动参数;运动对象分割模块,用于利用摄像机运动补偿后的运动矢量,进行运动对象分割;语义事件检测模块,用于利用分割结果检测视频镜头中的语义事件。其能够更准确、高效地检测视频中的语义事件概念。
文档编号H04N7/26GK101478675SQ20081005599
公开日2009年7月8日 申请日期2008年1月3日 优先权日2008年1月3日
发明者张勇东, 明 李, 林守勋, 焜 陶 申请人:中国科学院计算技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1