一种广告视频检测的方法

文档序号:7961161阅读:298来源:国知局
专利名称:一种广告视频检测的方法
技术领域
本发明属于视频分析及检索技术领域,具体涉及一种广告视频检测的方法。
背景技术
随着人类视频信息的常年累积,如电视台视频节目的积累、网上数字视频的增加、家庭视频的增多,以及数字图书馆、视频点播、远程教学等大量的应用,视频信息已经出现爆炸性增长。为了有效地利用这些信息,视频分析与检索技术也就成为近年来计算机研究和应用的热点问题。
在众多的视频类型中,广告视频作为一种重要形式,伴随着我们的日常生活,具有非常重要的使用价值和商业价值。其中,如何从视频中自动检测出广告,则是广告视频研究和应用的关键问题。现有的广告视频检测方法,一般是从广告具有的图像特征出发来进行识别,这种方法因为仅仅利用了图像特征,因此存在检测错误或检测不全的问题。如1999年在ICMCS国际会议上发表的文献“AudiComa Video Analysis System for Auditing CommercialBroadcasts”(作者是J.M.Sanchez和X.Binefa),利用图像特征检测知道的或者注册过的广告,而音频特征没有被使用。

发明内容
针对现有技术的不足,本发明提出了同时利用广告视频具有的图像和音频特征,综合进行检测。本发明首先检测视频中的镜头,然后以镜头为单位,通过镜头中音频帧类型和数目的分析,识别广告镜头和非广告镜头,并通过平滑处理,最终检测出广告视频。试验结果证明了本发明的有效性,从而实现了从视频中自动检测广告的应用。
本发明的目的是这样实现的(1)检测视频中的镜头;(2)以每个镜头为单位进行分析,如满足以下任何一个条件,则判断该镜头为广告镜头(A)镜头中包含的音频帧数目小于n,并且该镜头中包含的音乐帧比例大于m,其中n是350-450之间的正整数,m是15%-25%之间的百分比;或者,(B)镜头中音乐帧所占比例大于其它任何一个音频种类所占的比例;(3)按照以下原则进行平滑处理操作(a)如果连续的广告镜头中有k个孤立的非广告镜头,则将这k个镜头修改为广告镜头;(b)如果连续的非广告镜头中有k个孤立的广告镜头,则将这k个镜头修改为非广告镜头,其中k为2-5之间的正整数;(4)集合上述检测出的广告镜头,得到广告视频。
进一步,n为400,m为20%。
进一步,运用声音分类器判断音频帧是否是音乐帧,采用基于支持向量机的分类模型进行音频分类。
所述分类模型分为两部分分类器模型训练和分类预测。
进一步,音频特征采用的是对数能量和梅尔倒频谱系数组成的13维特征向量。
进一步,分类器模型训练的过程是1)选择训练样本;2)提取每一个样本的对数能量和梅尔倒频谱系数组成的音频特征,并将所有这些特征写入一个特征文件中;3)利用支持向量机生成分类器模型,分类以帧为单位,给每个音频帧赋值一个相应的类别,训练样本的类别标注也是以帧为单位,利用标注好的类别进行支持向量机模型训练,最终训练生成一个4类的分类器模型。
进一步,所述训练样本包含下列4类(1)音乐声;(2)说话声;(3)背景声;(4)无声。
进一步,所述分类预测具体做法为对于要进行分类的视频,先提取该视频对应音频的对数能量和梅尔倒频谱系数组成的音频特征,并利用支持向量机训练出来的分类器模型进行自动分类标注。
进一步,k的值为3。
本发明的效果在于本发明能够有效实现从视频中检测出广告视频。
本发明之所以具有如此显著的技术效果,其原因在于现有的广告视频检测方法,一般是从广告具有的图像特征出发,来进行识别。这种方法因为仅仅利用了图像特征,因此存在检测错误或检测不全的问题。针对现有技术的不足,本发明提出了同时利用广告视频具有的图像和音频特征,综合进行检测。本发明首先检测视频中的镜头边界,然后以镜头为单位,通过镜头中音频帧类型和数目的分析,识别广告镜头和非广告镜头,并通过平滑处理,最终检测出广告视频。试验结果证明了本发明的有效性,从而实现了从视频中有效检测广告视频的应用。


图1是本发明的流程示意图。
具体实施例方式
下面结合具体实施例,对本发明作进一步详细的描述。
本发明广告视频检测的方法的流程图,如图1所示,包括以下步骤(1)检测视频中的镜头;首先使用时空切片算法(spatio-temporal slice),检测视频中的镜头,关于时空切片算法的详细描述可以参考文献“Video Partitioning byTemporal Slice Coherency”[C.W.Ngo,T.C.Pong,and R.T.Chin,IEEE Transactions on Circuits and Systems for Video Technology,Vol.11,No.8,pp.941-953,August,2001]。
(2)以每个镜头为单位进行分析,如满足以下任何一个条件,则判断该镜头为广告镜头;(A)镜头中包含的音频帧数目小于n,并且该镜头中包含的音乐帧比例大于m,其中n是350-450之间的正整数,m是15%-25%之间的百分比;或者(B)镜头中音乐帧所占比例大于其它任何一个音频种类所占的比例。
在本实施例中,n=400,m=20%。运用声音分类器判断音频帧是否是音乐帧,音频分类采用了基于支持向量机的分类模型,分为两部分分类器模型训练和分类预测。音频特征采用的是对数能量和梅尔倒频谱系数组成的13维特征向量。分类器模型训练的过程是首先选择训练样本,然后提取每一个样本的对数能量和梅尔倒频谱系数组成的音频特征,并将所有这些特征写入一个特征文件中,然后利用支持向量机生成分类器模型,训练样本包含下列4类(1)音乐声;(2)说话声;(3)背景声;(4)无声。分类以帧为单位,给每个音频帧赋值一个相应的类别,训练样本的类别标注也是以帧为单位,利用标注好的类别进行模型训练,最终训练生成一个4类的分类器模型。分类预测时,对于要进行分类的视频,提取该视频对应音频的对数能量和梅尔倒频谱系数组成的音频特征,然后利用支持向量机训练出来的分类器模型进行自动分类标注。
(3)按照以下原则进行平滑处理操作(a)如果连续的广告镜头中有k个孤立的非广告镜头,则将这k个镜头修改为广告镜头;(b)如果连续的非广告镜头中有k个孤立的广告镜头,则将这k个镜头修改为非广告镜头。在本实施例中,k=3。
(4)集合上述检测出的广告镜头,从而得到广告视频。
下面的实验结果表明,本发明能够实现从视频中检测出广告视频,证明了本发明的有效性。
试验使用了一个1小时的视频,人工观看共有9个广告。应用本发明的方法,如上述实施方式所示,即首先自动检测该视频的镜头;然后以每个镜头为单位进行分析,判断该镜头是否为广告镜头;基于上述结果,进行平滑处理;最后,集合所有检测出的广告镜头,从而得到广告视频。该检测到的广告视频,和原视频中的9个广告对比,结果是本发明检测出了所有这9个广告,因此取得了100%的正确率。
另外,因为本发明是以镜头为单位检测广告视频,因此,在试验结果中,需要进一步评价广告视频的边界是否检测准确,因此,本发明使用了下列2个标准进行评价查准率=本发明检测的正确广告镜头/本发明检测的所有广告镜头;查全率=本发明检测的正确广告镜头/视频中包括的所有广告镜头。
试验结果采用下列方法进行评价用本发明自动检测到的广告镜头,和人工观看的广告视频镜头进行对照,最后结果如下应用本发明的方法,查全率=100%,查准率=86%。这样,本发明检测出了视频中所有的广告镜头,并且达到了86%的准确率,取得了很好的效果。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
注本发明的工作,由国家自然科学基金支持(项目批准号60503062)。
权利要求
1.一种广告视频检测的方法,包括以下步骤(1)检测视频中的镜头;(2)以每个镜头为单位进行分析,如满足以下任何一个条件,则判断该镜头为广告镜头(A)镜头中包含的音频帧数目小于n,并且该镜头中包含的音乐帧比例大于m,其中n是350-450之间的正整数,m是15%-25%之间的百分比;或者,(B)镜头中音乐帧所占比例大于其它任何一个音频种类所占的比例;(3)按照以下原则进行平滑处理操作(a)如果连续的广告镜头中有小于k个孤立的非广告镜头,则将这k个镜头修改为广告镜头;(b)如果连续的非广告镜头中有小于k个孤立的广告镜头,则将这k个镜头修改为非广告镜头,其中k为2-5之间的正整数;(4)集合上述检测出的广告镜头,得到广告视频。
2.如权利要求1所述的一种广告视频检测的方法,其特征在于步骤(2)中,n为400,m为20%。
3.如权利要求1所述的一种广告视频检测的方法,其特征在于步骤(2)中,运用声音分类器判断音频帧是否是音乐帧,采用基于支持向量机的分类模型进行音频分类。
4.如权利要求3所述的一种广告视频检测的方法,其特征在于所述分类模型分为两部分分类器模型训练和分类预测。
5.如权利要求1、2、3或4所述的一种广告视频检测的方法,其特征在于音频特征采用的是对数能量和梅尔倒频谱系数组成的13维特征向量。
6.如权利要求4所述的一种广告视频检测的方法,其特征在于分类器模型训练的过程是1)选择训练样本;2)提取每一个样本的对数能量和梅尔倒频谱系数组成的音频特征,并将所有这些特征写入一个特征文件中;3)利用支持向量机生成分类器模型,分类以帧为单位,给每个音频帧赋值一个相应的类别,训练样本的类别标注也是以帧为单位,利用标注好的类别进行支持向量机模型训练,最终训练生成一个4类的分类器模型。
7.如权利要求6所述的一种广告视频检测的方法,其特征在于所述训练样本包含下列4类(1)音乐声;(2)说话声;(3)背景声;(4)无声。
8.如权利要求4、6或7所述的一种广告视频检测的方法,其特征在于分类预测具体做法为对于要进行分类的视频,先提取该视频对应音频的对数能量和梅尔倒频谱系数组成的音频特征,并利用支持向量机训练出来的分类器模型进行自动分类标注。
9.如权利要求1所述的一种广告视频检测的方法,其特征在于步骤(3)中,k的值为3。
全文摘要
本发明属于视频分析及检索技术领域,具体涉及一种广告视频检测的方法。现有的广告视频检测方法,一般是从广告具有的图像特征出发来进行识别。这种方法因为仅仅利用了图像特征,因此存在检测错误或检测不全的问题。针对现有技术的不足,本发明提出了同时利用广告视频具有的图像和音频特征综合进行检测。本发明首先检测视频中的镜头边界,然后以镜头为单位,通过镜头中音频帧类型和数目的分析,识别广告镜头和非广告镜头,并通过平滑处理,最终检测出广告视频。试验结果证明了本发明的有效性,从而实现了从视频中自动检测广告的应用。
文档编号H04N17/02GK101080028SQ20061008066
公开日2007年11月28日 申请日期2006年5月25日 优先权日2006年5月25日
发明者彭宇新, 肖建国 申请人:北大方正集团有限公司, 北京大学, 北京北大方正技术研究院有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1