基于对象分割和特征加权融合的视频语义提取方法

文档序号:6334950阅读:1158来源:国知局
专利名称:基于对象分割和特征加权融合的视频语义提取方法
技术领域
本发明涉及的是一种视频搜索技术领域的方法,具体是一种基于对象分割和特征 加权融合的视频语义提取方法。
背景技术
随着互联网和多媒体技术的迅速发展,网络视频的数量日趋庞大,已经成为最为 主要的互联网信息传递媒介之一。对这些海量视频数据进行预览、分析、分类和搜索成为了 一个重要的研究课题。通常把视频图像表示为具有特征一致性的区域,该区域称为视频对 象,对其进行压缩和搜索,可以提高压缩比和搜索效率。在基于内容的视频搜索中,语义是 一个非常重要的概念。一般而言,视频中具有语言学意义的物体称为语义,以区分于普通的 视频对象。如飞机、教室、行人等都是语义。用户能够通过具有语义信息的关键词对视频进 行搜索以得到期望的结果,这相对于传统的文本关键词搜索方法,在速度和准确度上有相 当大的提升。因此,在视频搜索领域中,视频语义提取技术具有极大的研究价值。经对现有技术检索发现,中国专利文献号CN101650728,公开了一种“视频高层 特征检索系统及其实现”,该技术提取视频关键帧图像的底层特征(诸如颜色、形状、纹理 等),并利用支持向量机(Support Vector Machine, SVM)对所提取的特征进行分类,进而 提取相应的视频语义;进一步检索发现,北京邮电大学学报(2006年4月,第29卷,第2期),题为基于 支持向量机的视频关键帧语义提取,提出了一种提取视频关键帧的彩色直方图和边缘直方 图特征,使用多类支持向量机对特征进行分类,从而获得关键帧的语义的方法。上述文献在视频语义提取技术上提出了 一些较好的方法,但仍存有一些缺陷,其 主要问题是这些方法是对关键帧的整幅图像提取全局特征和局部特征。然而,由于关键帧 一般是由背景和视频对象所组成,所以对于语义而言,提取的整幅图像的特征是含有背景 噪声的特征,影响了视频语义提取的准确性。

发明内容
本发明的目的在于克服现有技术的不足并针对视频语义提取的精度要求,提供一 种基于对象分割和特征加权融合的视频语义提取方法,通过分别提取镜头关键帧和视频对 象的图像特征,然后使用支持向量机对特征进行分类和加权融合,最后确定视频语义的方法。本发明是通过以下技术方案实现的,本发明通过将基于背景帧构造的视频对象语 义分类和基于关键帧特征的视频语义分类进行加权计算,即对于每一种语义所对应的视频 对象的快速鲁棒特征(Speeded Up Robust Features, SURF)、关键帧的SURF特征、颜色直 方图、边缘直方图和局部二进制特征对应的分类结果分别设置为A,ri; r2, r3和r4,其中巧 的值为0或1,其权重分别为Wtl,W1, w2, W3和W4,其中0≤Wi≤1,Wi是预先对每一种语义的每种特征进行的小样本训练和测试所得的结果;然后根据 ^ντ与阈值Τ。进行比较确定
i=0
44
镜头中是否具有测试的语义,当Σ1^^〉ι则该镜头中包含所测试的语义,反之Σμα-ι
Z=Oζ=09
则镜头中不包含该语义。所述的基于背景帧构造的视频对象语义分类,通过以下方式获得第一步,通过检测镜头内相邻帧对应的像素点间的变化来构造背景帧,具体为1. 1)读取待检测的镜头,将其第一帧作为初始化背景帧,设视频帧的长为m,宽为 η ;1.2)设置两个的mXη矩阵,一个为计数矩阵Α,一个为标志矩阵B,初始阶段两个 矩阵都是零矩阵,其中计数矩阵记录帧间变化检测中像素点连续不变的次数;标志矩阵 记录像素点是否已被初始化;1.3)将第k帧和第k+Ι帧转换成灰度图像并相减当在位置(i,j)上的像素点灰 度值的差为0,那么计数矩阵A的元素的值加1,反之= 0 ;1. 4)搜索计数矩阵A的所有元素,当> Τ,则标志矩阵B相应位置的元素= 1,同时把位置(i,j)上的像素点的值赋给背景帧的相应位置的像素点;1.5)当标志矩阵B所有的元素都为1或者该镜头结束时,背景帧构造完毕。第二步,提取被检测镜头中的关键帧,查找关键帧中与背景帧不同的区域,以此作 为视频对象候选区域。第三步,采用静态图像阴影检测方法消除视频对象候选区域中的阴影区域。第四步,提取视频对象的快速鲁棒特征(Speeded Up Robust Features,SURF),然 后利用支持向量机对SURF特征分类,具体为4. 1)使用快速Hessian方法对视频对象的图像进行特征点检测。4. 2)通过计算特征点邻接圆域内χ、y方向上的Haar小波响应来获得主方向,在 特征点选择一块大小与尺度相应的方形区域,分成64块,统计每一块的dx,dy, I dx I,I dy 的累积和,获得64维特征向量。4. 3)预先完成对大量的样本提取SURF特征,并应用K-means算法进行聚类以获得 聚类中心,形成词汇数量为η的视觉词汇(Bag of Visual Words, BOVff)库。对于视频对象的图像,计算它的每一个特征点与BOVW中词汇的距离,由此判断 这个特征点属于哪一个词汇,然后统计这个视频中每个词汇出现的频率,在此过程中,通 过soft-weighting的策略,计算与某个特征点距离最近的4个词汇,分别给予权重1、0. 5、 0. 25,0. 125,统计到最后的直方图中,以此提高识别的准确率。该直方图矢量化后即为该视 频的BOVW特征向量,向量的长度等于视频词汇的数量。4. 4)使用支持向量机分类器,把提取的视觉词汇特征和预先训练好的视频语义特 征文件进行匹配分类,得到视频对象分类结果。预先完成训练的视频语义为飞机、轮船、公 共汽车、城市景观、教室、游行人群、手、夜景、唱歌和电话。所述的基于关键帧特征的视频语义分类,通过以下方式获得步骤一,提取镜头关键帧图像的全局特征和局部特征。
所述的全局特征包括颜色直方图、边缘直方图、局部二进制特征和SURF特征。步骤二,采用支持向量机对已知语义的图像的特征进行预先训练,生成训练文件。所述的预先训练的视频关键帧中可能包括飞机、轮船、公共汽车、城市景观、教室、 游行人群、手、夜景、唱歌和电话等视频语义。步骤三,使用支持向量机测试,把提取的每一种特征和预先训练好的语义的对应 的特征文件进行匹配,以得到分类结果。与现有技术相比,本发明的有益效果是本发明利用基于背景帧构造的视频对象 提取方法提取视频对象区域,然后分别利用支持向量机对视频关键帧的整幅图像和关键帧 内的视频对象区域所提取的特征进行分类,把两者的结果加权计算以得出最终的分类结 果。相比传统的对整幅图像提取特征进行建模并分类的方法,一方面由于分离背景,去除背 景噪声,提高了语义分类的精确性;另一方面,考虑到视频对象的提取可能出现的误差以及 静止的视频语义,同时使用传统的方法进行分类。最后根据小样本测试结果分别给予两种 方法得出的分类结果一定的权重计算出最终结果。两种方法的结合使得语义提取的正确性 得以提高。


图1是本发明的总体流程示意图。图2是本发明的基于背景帧构造的视频对象语义分类提取的流程图。图3是本发明的支持向量机训练及分类流程图。图4是本发明的视频关键帧的整幅图像的语义提取流程图。
具体实施例方式以下结合附图对本发明的方法进一步描述本实施例在以本发明技术方案为前提 下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述 的实施例。如图1所示,本实施例通过将基于背景帧构造的视频对象语义分类和基于关键帧 特征的视频语义分类进行加权计算,然后根据加权结果与与阈值进行比较确定镜头中是否 具有测试的语义。基于背景帧构造的视频对象语义分类提取的流程如图2所示,其具体步骤为第一步,构造待检测镜头的背景帧,具体为a)设B(i,j,k)为第k帧构造的背景图像,其中(i,j)为像素点位置;f(i, j,k) 表示序列中第k帧图像。读取待检测的镜头,将其第一帧作为初始化背景帧,即B(i,j,l) = f(i,j,l)。设视频帧的长为m,宽为η。b)设置两个的mXn矩阵,一个为计数矩阵A,一个为标志矩阵B,初始阶段两个矩 阵都是零矩阵。其中,计数矩阵记录帧间变化检测中像素点连续不变的次数;标志矩阵记录 像素点是否已被初始化。c)将第k帧和第k+Ι帧转换成灰度图像并相减。当在位置(i,j)上的像素点的 差值为0,那么计数矩阵A的元素的值加1,反之= 0。 d)搜索计数矩阵A的所有元素,当> T (本实施例中阈值T设为12),那么令标志矩阵B相应位置的元素bij= 1,同时把位置(i,j)上的像素点的值赋给背景帧的相应位 置的像素点,即 B(i,j,k) = f (i,j,k)。e)当标志矩阵B所有的元素都为1或者该镜头结束时,背景帧构造完毕。第二步,从上述的镜头中提取关键帧,查找关键帧中与背景帧不同的区域,以此作 为视频对象候选区域。第三步,视频对象候选区域一般是由视频对象和其阴影组成,阴影对后续的支 持向量机建模分类会产生误差,因此必须消除阴影区域。E.Salvador,A. Caval Iaro, Τ.Ebrahimi 于 2001 ^ JC Shadow identification and classification using invariant color models中提出的基于C1C2C3模型的静态图像阴影检测方法效果优良,因 此本实施例采用此方法对视频对象候选区域进行阴影区域检测和消除。第四步,提取视频对象的SURF特征,SURF特征具有良好的尺度不变性、旋转不 变性、亮度不变性和仿射不变性,而且计算效率高;然后利用支持向量机对特征分类,具体 为a)把视频对象的图像转换成积分图,选取不同大小的箱式滤波器建立图像的尺度 空间,使用快速Hessian方法检测每一层图像上的极值点,这些极值点就是图像的特征点。b)以特征点为中心,计算它的邻接圆域内X、y方向上的Haar小波响应来获得主 方向。选定特征点主方向后,以特征点为中心,将坐标轴旋转到主方向,选择一块大小与尺 度相应的方形区域,分成64块,统计每一块的dx,dy,I dx I,I dy |的累积和,获得64维特征 向量。c)预先完成对大量的样本提取SURF特征,并应用K-means算法进行聚类以获得聚 类中心,形成词汇数量为η的视觉词汇库,本实施例中η的值设为500。对于视频对象的图像,计算它的每一个特征点与BOVW中词汇的距离,由此判断 这个特征点属于哪一个词汇,然后统计这个视频中每个词汇出现的频率,在此过程中,通 过soft-weighting的策略,计算与某个特征点距离最近的4个词汇,分别给予权重1、0. 5、 0. 25,0. 125,统计到最后的直方图中,以此提高识别的准确率。该直方图矢量化后即为该视 频的BOVW特征向量,向量的长度等于视频词汇的数量,即500维。d)预先已完成SVM分类器对已知语义的视频对象的BOVW特征的训练。本实施例 中的测试语义为TRECVID 2010中语义索引轻量级比赛项目所指定的的10种语义,其分别 为飞机、轮船、公共汽车、城市景观、教室、游行人群、手、夜景、唱歌和电话,每一类都已生成 训练文件。已知语义的训练样本是由人工选择的合适的正负样本,在本实施例中正负样本 集的比例为1 3,其正样本中包含所要测试的10种语义种的一种,而负样本则不包括该语 义。使用SVM分类器对测试的特征和预先训练好的语义特征文件进行匹配,以确定该 对象属于哪一类语义。其分类流程如图3所示,若该视频对象属于某一语义,则在这语义下 标记为1,否则标记为0。基于关键帧特征的视频语义分类提取方法如图4所示,具体步骤为第一步,提取镜头关键帧图像的全局特征和局部特征。全局特征包括颜色、边缘和 纹理特征;局部特征选用具有良好的尺度不变性的SURF特征。选取这些特征的原因是颜色是图像重要的视觉特征,它和图像中所包含的物体或场景十分相关。颜色特征对图像本身的尺寸、方向、视角及背景复杂度等的依赖性较小, 因此较为可靠。本实施例中,颜色特征选用了颜色直方图(Color Histogram),它是最常用 的表达颜色特征的方法,其优点是不受图像旋转和平移变化的影响,进一步借助归一化还 可不受图像尺度变化的影响。边缘特征反映了图像中物体形状的轮廓,本实施例中边缘特 征选用边缘直方图(EdgeHistogram)。纹理特征是不依赖于颜色或灰度的反映图像中同质 现象的视觉特征,它是所有物体表面共有的内在特性。本实施例中纹理特征选用局部二进 制特征(LBP)。第二步,使用支持向量机预先完成对已知语义的图像四种特征的训练。语义分为 飞机、轮船、公共汽车、城市景观、教室、游行人群、手、夜景、唱歌和电话10种,对每一类都 有已生成的训练文件。已知语义的训练样本是由人工选择的合适的正负样本,在本实施例 中正负样本集的比例为1 3,其正样本中包含所要测试的10种语义种的一种,而负样本则 不包括该语义。使用支持向量机测试,把提取的每一种特征和预先训练好的语义的相对应 的特征文件进行匹配,以得到分类结果。每一种特征的分类流程如图3所示,具体为a)输入待检测关键帧的特征向量(颜色、边缘、纹理、BOW)。b)与生成的训练文件进行匹配。c)当属于测试的语义标记为1,否则标记为0。上述分类是并行的流程,提高了特征分类、语义提取的效率。如图1所示,对上述两部分所得的结果进行加权计算以得到最终的结果。对于每 一种语义,令其视频对象SURF特征、关键帧SURF特征、颜色直方图、边缘直方图和局部二进 制特征对应的分类结果分别为4,ri; r2, 1~3和r4,其中ri的值为0或1,其权重分别为Wtl, Wl,w2,W3和W4,其中OSwiS 1。预先已完成每一种语义的每种特征的小样本测试,其具体
44
权重分配如表ι所示。根据ΣΜ々与阈值τ。比较确定镜头的语义类别若Σ则该镜
i=0 i=0
4
头中包含测试的语义,反之ΣwZ ^tC,则不包含。在该实施例中Τ。= 3。
Z=O表1中数据的说明在本实施例中,对50个包含飞机语义的镜头进行特征提取,然 后对每一种特征进行测试,获得它的预测准确率作为权重值,其余几种语义的权重值获取 方式与飞机一致。表 权利要求
一种基于对象分割和特征加权融合的视频语义提取方法,其特征在于,通过将基于背景帧构造的视频对象语义分类和基于关键帧特征的视频语义分类进行加权计算,即对于每一种语义所对应的视频对象的快速鲁棒特征、关键帧的SURF特征、颜色直方图、边缘直方图和局部二进制特征对应的分类结果分别设置为r0,r1,r2,r3和r4,其中ri的值为0或1,其权重分别为w0,w1,w2,w3和w4,其中0≤wi≤1,wi是预先对每一种语义的每种特征进行的小样本训练和测试所得的结果;然后根据与阈值Tc进行比较确定镜头中是否具有测试的语义,当则该镜头中包含所测试的语义,反之则镜头中不包含该语义。FDA0000030578260000011.tif,FDA0000030578260000012.tif,FDA0000030578260000013.tif
2.根据权利要求1所述的基于对象分割和特征加权融合的视频语义提取方法,其特征 是,所述的基于背景帧构造的视频对象语义分类,通过以下方式获得第一步,通过检测镜头内相邻帧对应的像素点间的变化来构造背景帧; 第二步,提取被检测镜头中的关键帧,查找关键帧中与背景帧不同的区域,以此作为视 频对象候选区域;第三步,采用静态图像阴影检测方法消除视频对象候选区域中的阴影区域; 第四步,提取视频对象的快速鲁棒特征,然后利用支持向量机对SURF特征分类。
3.根据权利要求2所述的基于对象分割和特征加权融合的视频语义提取方法,其特征 是,所述的构造背景帧包括以下步骤·1. 1)读取待检测的镜头,将其第一帧作为初始化背景帧,设视频帧的长为m,宽为η ; 1. 2)设置两个的mXn矩阵,一个为计数矩阵A,一个为标志矩阵B,初始阶段两个矩阵 都是零矩阵,其中计数矩阵记录帧间变化检测中像素点连续不变的次数;标志矩阵记录 像素点是否已被初始化;·1.3)将第k帧和第k+Ι帧转换成灰度图像并相减当在位置(i,j)上的像素点灰度值 的差为0,那么计数矩阵A的元素的值加1,反之= 0 ;·1. 4)搜索计数矩阵A的所有元素,当> Τ,则标志矩阵B相应位置的元素= 1, 同时把位置(i,j)上的像素点的值赋给背景帧的相应位置的像素点;·1.5)当标志矩阵B所有的元素都为1或者该镜头结束时,背景帧构造完毕。
4.根据权利要求2所述的基于对象分割和特征加权融合的视频语义提取方法,其特征 是,所述的对SURF特征分类包括以下步骤·4. 1)使用快速Hessian方法对视频对象的图像进行特征点检测; 4. 2)通过计算特征点邻接圆域内χ、y方向上的Haar小波响应来获得主方向,在特征 点选择一块大小与尺度相应的方形区域,分成64块,统计每一块的dx,dy,dx|, |dy|的累 积和,获得64维特征向量;·4. 3)预先完成对大量的样本提取SURF特征,并应用K-means算法进行聚类以获得聚类 中心,形成词汇数量为η的视觉词汇库;·4. 4)使用支持向量机分类器,把提取的视觉词汇特征和预先训练好的视频语义特征文 件进行匹配分类,得到视频对象分类结果。
5.根据权利要求4所述的基于对象分割和特征加权融合的视频语义提取方法,其特征 是,所述的聚类是指对于视频对象的图像,计算它的每一个特征点与BOVW中词汇的距离, 由此判断这个特征点属于哪一个词汇,然后统计这个视频中每个词汇出现的频率,在此过 程中,通过soft-weighting的策略,计算与某个特征点距离最近的4个词汇,分别给予权重 1、0. 5,0. 25,0. 125,统计到最后的直方图中,以此提高识别的准确率,该直方图矢量化后即 为该视频的BOVW特征向量,向量的长度等于视频词汇的数量。
6.根据权利要求1所述的基于对象分割和特征加权融合的视频语义提取方法,其特征 是,所述的基于关键帧特征的视频语义分类,通过以下方式获得步骤一,提取镜头关键帧图像的全局特征和局部特征;步骤二,采用支持向量机对已知语义的图像的特征进行预先训练,生成训练文件;步骤三,使用支持向量机测试,把提取的每一种特征和预先训练好的语义的对应的特 征文件进行匹配,以得到分类结果。
7.根据权利要求6所述的基于对象分割和特征加权融合的视频语义提取方法,其特征 是,所述的全局特征包括颜色直方图、边缘直方图、局部二进制特征和SURF特征。
全文摘要
一种视频搜索技术领域的基于对象分割和特征加权融合的视频语义提取方法,通过将基于背景帧构造的视频对象语义分类和基于关键帧特征的视频语义分类进行加权计算,即对于每一种语义所对应的视频对象的快速鲁棒特征、关键帧的SURF特征、颜色直方图、边缘直方图和局部二进制特征对应的分类结果分别加权求和后与阈值比较确定镜头中是否具有测试的语义。本发明由于分离背景,去除背景噪声,提高了语义分类的精确性;同时考虑到视频对象的提取可能出现的误差以及静止的视频语义,使用传统的方法进行分类。两种方法的结合使得语义提取的正确性得以提高。
文档编号G06F17/30GK101976258SQ20101052973
公开日2011年2月16日 申请日期2010年11月3日 优先权日2010年11月3日
发明者唐峰, 孙锬锋, 於人则, 蒋兴浩, 蒋呈明 申请人:上海交通大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1