视频聚类方法及检测方法

文档序号:6503325阅读:141来源:国知局
视频聚类方法及检测方法
【专利摘要】本发明提供一种视频聚类方法及检测方法,其中,所述聚类方法包括:a.获取待聚类视频的集合,并进一步获取与每个所述待聚类视频相适应的文本信息;b.对每个所述待聚类视频,抽取视频特征c.根据所述待聚类视频的集合及其视频特征构造一N分图;d.对所述待聚类视频的集合进行初始化聚类以获得初始的视频聚类以及初始的视频特征聚类,将初始化聚类获得的聚类中心添加到所述N分图中,作为隐藏结点,计算所述视频聚类与所述视频特征聚类之间的权重矩阵并形成初始的关系簇网络;e.迭代更新所述文本特征、所述视频聚类、所述视频特征聚类以及所述关系簇网络以获得最优关系簇网络;以及f.根据获得的最优关系簇网络进行聚类跟踪或视频检测。
【专利说明】视频聚类方法及检测方法

【技术领域】
[0001]涉及多媒体处理领域及信息处理领域,具体地说是话题检测与跟踪技术中的视频话题检测与跟踪技术。

【背景技术】
[0002]话题检测与跟踪是一项面向多媒体信息流进行未知话题探测和已知话题跟踪的信息处理技术。视频话题检测与跟踪希望将大量视频中同一话题的视频自动聚类,实现按话题查找、组织和利用来自多种媒体的信息,提高用户的检索效率。由于话题检测与跟踪相对于信息检索、信息挖掘和信息抽取等自然语言处理技术具备很多共性,并面向大规模视频语料,是当前多媒体处理领域的研究热点之一。网络视频主要包括文本特征和视觉特征两方面。然而由于网络视频内容主要由非专业人士进行拍摄整理,视频质量良莠不齐,网络视频的话题检测与跟踪还存在微博视频文本信息稀疏、存在噪声、视觉特征质量不高、话题漂移等问题。
[0003]现有的话题检测与跟踪方法主要应用于新闻领域,且针对文本特征的话题检测与跟踪较为成熟。在话题检测领域中,如向量空间模型、语言概率模型的应用较为广泛。其中向量空间模型较为直接常用,但是模型忽略视频对象各特征之间的关联关系。概率语言模型具有一定的理论基础,但是容易引入噪声。在多维度特征融合的模型中,向量空间模型亦可添加相应的视觉特征,通过抽取底层视觉近邻副本结合文本特征,构成多维度的视频话题模型。另外,亦有采取图模型对话题特征进行表示,但其应用尚属探索阶段,可以进行进一步的研究。话题跟踪领域主要有基于查询、分类、聚类等方法,另外在话题跟踪过程中又可分为话题模型可调节与话题模型不可调节两大类方法。


【发明内容】

[0004]本发明提供一种生成最优关系簇网路的视频聚类方法,其特征在于,包括:a.获取待聚类视频的集合,并进一步获取与每个所述待聚类视频相适应的文本信息;b.对每个所述待聚类视频,抽取视频特征,所述文本特征以及所述视觉特征组成所述待聚类视频的视频特征,其中,所述抽取视频特征包括:对所述待聚类视频的文本信息进行数据处理并抽取相应的文本特征;对所述待聚类视频的视频数据进行分割并抽取所述待聚类视频的视觉特征;c.根据所述待聚类视频的集合及其视频特征构造一 N分图;d.对所述待聚类视频的集合进行初始化聚类以获得初始的视频聚类以及初始的视频特征聚类,将初始化聚类获得的聚类中心添加到所述N分图中,作为隐藏结点,计算所述视频聚类与所述视频特征聚类之间的权重矩阵并形成初始的关系簇网络;e.迭代更新所述文本特征、所述视频聚类、所述视频特征聚类以及所述关系簇网络,当此次迭代更新的关系簇网络与所述N分图的距离小于第一阈值时,则停止迭代以获得最优关系簇网络;以及f.根据获得的最优关系簇网络进行聚类跟踪或视频检测,其中,所述聚类跟踪包括:输入一视频特征,并与所述最优关系簇网络的视频特征聚类进行匹配,以获取属于与所述视频特征相适应的视频特征聚类的视频的集合;所述视频检测包括:输入一视频,根据所述视频的文本特征与视觉特征与所述最优关系簇网络进行匹配和聚类以获得所述视频所属的视频特征聚类。
[0005]优选地,所述抽取所述文本信息的文本特征包括:对所述文本信息进行分词;利用词频-逆向文件频率加权法计算所述文本信息分词后每个词的文本权重;以及将文本权重不小于第二阈值的词作为所述文本信息的关键词,其中,所述文本信息的文本特征包括所述关键词以及相应的文本权重。
[0006]优选地,所述文本权重根据如下公式计算并更新:
[0007]TFIDFt=TFt*log(N/DFt),
[0008]其中,TFIDFt为词t的文本权重,N表示全部视频聚类的个数,DFt表示包含词t的视频聚类的个数,TFt是词t在与所述文本信息相适应的待聚类视频所属的视频聚类中出现的频数,
[0009]其中,利用K-means聚类方法对所述待聚类视频进行初始聚类以初始化所述文本权重。
[0010]优选地,所述抽取所述待聚类视频的视觉特征包括:分割所述待聚类视频的镜头,获取所述镜头变换的视频帧;通过κ-means聚类方法对所述视频帧根据颜色灰度值进行迭代聚类以获取第一个数个关键帧,所述视觉特征包括所述关键帧以及相适应的16维灰度值表示,其中,所述第一个数根据贝叶斯信息准则确定。
[0011]优选地,所述N分图根据如下模型构造:

【权利要求】
1.一种生成最优关系簇网路的视频聚类方法,其特征在于,包括: a.获取待聚类视频的集合,并进一步获取与每个所述待聚类视频相适应的文本信息; b.对每个所述待聚类视频,抽取视频特征,所述文本特征以及所述视觉特征组成所述待聚类视频的视频特征,其中, 所述抽取视频特征包括: 对所述待聚类视频的文本信息进行数据处理并抽取相应的文本特征; 对所述待聚类视频的视频数据进行分割并抽取所述待聚类视频的视觉特征; c.根据所述待聚类视频的集合及其视频特征构造一N分图; d.对所述待聚类视频的集合进行初始化聚类以获得初始的视频聚类以及初始的视频特征聚类,将初始化聚类获得的聚类中心添加到所述N分图中,作为隐藏结点,计算所述视频聚类与所述视频特征聚类之间的权重矩阵并形成初始的关系簇网络; e.迭代更新所述文本特征、所述视频聚类、所述视频特征聚类以及所述关系簇网络,当此次迭代更新的关系簇网络与所述N分图的距离小于第一阈值时,则停止迭代以获得最优关系簇网络;以及 f.根据获得的最优关系簇网络进行聚类跟踪或视频检测,其中, 所述聚类跟踪包括:输入一视频特征,并与所述最优关系簇网络的视频特征聚类进行匹配,以获取属于与所述视频特征相适应的视频特征聚类的视频的集合; 所述视频检测包括:输入一视频,根据所述视频的文本特征与视觉特征与所述最优关系簇网络进行匹配和聚类以获得所述视频所属的视频特征聚类。
2.根据权利要求1所述的聚类方法,其特征在于,所述抽取所述文本信息的文本特征包括: 对所述文本信息进行分词; 利用词频-逆向文件频率加权法计算所述文本信息分词后每个词的文本权重;以及 将文本权重不小于第二阈值的词作为所述文本信息的关键词,其中,所述文本信息的文本特征包括所述关键词以及相应的文本权重。
3.根据权利要求2所述的聚类方法,其特征在于,所述文本权重根据如下公式计算并更新:
TFIDFt=TFt*log(N/DFt), 其中,TFIDFt为词t的文本权重,N表示全部视频聚类的个数,DFt表示包含词t的视频聚类的个数,TFt是词t在与所述文本信息相适应的待聚类视频所属的视频聚类中出现的频数, 其中,利用K-means聚类方法对所述待聚类视频进行初始聚类以初始化所述文本权重。
4.根据权利要求1所述的聚类方法,其特征在于,所述抽取所述待聚类视频的视觉特征包括: 分割所述待聚类视频的镜头,获取所述镜头变换的视频帧; 通过K-means聚类方法对所述视频帧根据颜色灰度值进行迭代聚类以获取第一个数个关键帧,所述视觉特征包括所述关键帧以及相适应的16维灰度值表示,其中,所述第一个数根据贝叶斯信息准则确定。
5.根据权利要求1所述的聚类方法,其特征在于, 所述N分图根据如下模型构造:
其中,V表示所述待聚类视频的集合,PnI^i表示所述视频特征的集合,,E表示N分图中的边的集合,也就是所述待聚类视频与所述视频特征之间的边的集合,矩阵Mn表示每条边上的权重, 所述关系簇网络根据如下模型构造:
其中,V表示所述待聚类视频的集合,Cv表示所述视频聚类的集合,(Sn)^i表示所述视频特征的集合,,ICn^t11表示N-1个视频特征聚类的集合,Εκ?表示关系簇网络中的边,也就是所述待聚类视频与所述视频聚类之间的边、所述视频聚类与所述视频特征聚类之间的边、所述视频特征聚类与所述视频特征之间的边, 其中,边上的权重由权重矩阵进行表示: Wv表示所述待聚类视频与所述视频聚类之间的边的权重,若一待聚类视频能聚类到一视频聚类,则所述待聚类视频与所述视频聚类之间的边上的权重为I ;若一待聚类视频不能聚类到一视频聚类,则所述待聚类视频与所述视频聚类之间的边上的权重为O ; 表示所述视频特征与所述视频特征聚类之间的边的权重,若一视频特征能聚类到一视频特征聚类,则所述视频特征与所述视频特征聚类之间的边上的权重为I;若一视频特征不能聚类到一视频特征聚类,则所述视频特征与所述视频特征聚类之间的边上的权重为O; Wvn表示所述视频聚类与所述视频特征聚类之间的权重。
6.根据权利要求5所述的聚类方法,其特征在于, 所述更新所述视频特征聚类包括: 对于每个所述视频特征,将所述视频特征归入一视频特征聚类中,当所述N分图与当前关系簇网络之间的距离最小时,将所述视频特征归入相应的视频特征聚类之中, 更新所述视频聚类与所述视频特征聚类之间的权重矩阵; 所述更新所述待聚类视频聚类包括: 对于每个所述待聚类视频,将所述待聚类视频归入一视频聚类中,当所述N分图与当前关系簇网络之间的距离最小时,将所述待聚类视频归入相应的视频聚类之中, 更新所述视频聚类与所述视频特征聚类之间的权重矩阵。
7.根据权利要求6所述的聚类方法,其特征在于,所述视频聚类与所述视频特征聚类之间的权重矩阵根据如下公式计算和更新:
其中,WpvJ是一视频聚类c;与视频特征聚类(:?之间的边的权重,|c||是聚类到视频聚类C〗中所述待聚类视频的个数,|c||是聚类到视频特征聚类中所述视频特征的个数,其中,矩阵中的元素表示视频聚类Cg中的待聚类视频与视频特征聚类中的视频特征之间的边的权重。
8.根据权利要求7所述的聚类方法,其特征在于,所述N分图与所述关系簇网络之间的距离根据如下公式计算:
D(G, Gecn)是所述N分图与所述关系簇网络之间的距离,Mn是所述N分图中各边的权重,WMvn以及Wn是所述关系簇网络中各边的权重,α η表示第η个视频特征在视频聚类过程中所占的权重比。
9.根据权利要求1所述的聚类方法,其特征在于,步骤e之后还包括: 对所述最优关系簇网络中的所述视频聚类进行排序,其中,所述视频聚类基于热度进行排序, 对所述最优关系簇网络中每一视频聚类中的所述待聚类视频进行排序,其中,通过以下三种方式中的一种或多种进行排序: 基于时间的排序; 基于所述待聚类视频与其所述的视频聚类的相关度的排序;或者 基于热度的排序。
10.一种视频检测方法,其特征在于,包括: A.获待检测视频,并进一步获取所述待检测视频相适应的文本信息; B.对所述待检测视频,抽取所述文本信息的文本特征,抽取所述待检测视频的视觉特征,其中,所述文本特征以及所述视觉特征组成所述待检测视频的视频特征; C.根据所述待检测视频及其视频特征更新根据权利要求1-9任一种所述的聚类方法生成的N分图以及相应的最优关系族网络; D.根据所述待检测视频初始化至与所述待检测视频距离最小的视频聚类,更新所述视频聚类与所述视频特征聚类之间的权重矩阵;以及 E.迭代更新所述文本特征、所述视频聚类、所述视频特征聚类以及所述关系簇网络,当此次迭代更新的关系簇网络与所述N分图的距离小于第三阈值时,则停止迭代以获得更新的最优关系簇网络并输出所述待检测视频所属的视频聚类。
11.根据权利要求10所述的检测方法,其特征在于, 所述N分图与关系簇网络的距离公式为:
其中,D(G, Gecn)是所述N分图与所述关系簇网络之间的距离,Mn是所述N分图中各边的权重,WMvn以及Wn是所述关系簇网络中各边的权重,α η表示第η个视频特征在视频聚类过程中所占的权重比,Cl,是其他视频特征的种类数,DT(Vp,cp是第τ种视频特征之间的距离函数,β τ表示第τ个视频特征在视频聚类过程中所占的权重比, 所述待检测视频与所述视频聚类的距离公式为:
其中,D(VpCg)是所述待检测视频与所述视频聚类的距离,Dn(vp, 表示第η个视频特征中所述待检测视频与所述视频聚类的距离,α η表示第η个视频特征在视频聚类过程中所占的权重比,CU是其他视频特征的种类数,DT(Vp, C;)是第τ种视频特征之间的距离函数,β τ表示第τ个视频特征在视频聚类过程中所占的权重比, 其中,第τ种视频特征包括如下视频特征中的一种或多种: 基于用户反馈时间的视频特征;或者 基于用户反馈次数的视频特征。
【文档编号】G06F17/30GK104182421SQ201310202454
【公开日】2014年12月3日 申请日期:2013年5月27日 优先权日:2013年5月27日
【发明者】吕钊, 杨东强 申请人:华东师范大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1