一种对镜头进行基于内容的视频检索的方法

文档序号:6340596阅读:166来源:国知局
专利名称:一种对镜头进行基于内容的视频检索的方法
技术领域
本发明属于视频检索技术领域,具体涉及一种对镜头进行基于内容的视频检索的方法。
现有技术中,如文献“A New Approach to Retrieval Video by ExampleVideo Clip”[X.M.Liu,Y.T.Zhuang,and Y.H.Pan,ACM Multimedia,pp.41-44,1999]所述,视频检索的一般方法是首先进行镜头边界检测,以镜头作为视频序列的基本结构单元和检索单元;然后在每个镜头内部提取关键帧来代表该镜头的内容,从关键帧提取出颜色和纹理等低级特征,用于镜头的索引和检索。这样,就把基于内容的镜头检索转化为基于内容的图像检索来解决。这类方法存在的问题是,镜头是图像在时间上的连续序列,没有对存在于视频中的时间信息和运动信息充分进行利用。另外在2002年在IEEE Trans.Circuits and Systems for Video Technology发表的文献“An efficient algorithm forvideo sequence matching using the modified Hausdorff distance and the directeddivergence”(该文献作者是s.H.Kim and R.-H.Park,vol.CSVT-12,no.7,页码592-595)用积累的定向发散(Cumulative Directed Divergence)方法抽取关键帧,用改进的豪斯多夫距离(Modified Hausdorff Distance)方法得到两个镜头之间的相似程度,抽取关键帧和定义镜头相似性时使用了YUV颜色空间直方图。由于抽取关键帧时设定了两个阈值前后帧相似值的阈值和当前帧与前一个关键帧之间相似值的阈值,必须同时满足这两个条件才能出现一个关键帧,这样将会影响关键帧提取的准确性,最终势必会影响查询的正确性;另外,使用了视频中常用的YUV颜色空间作为视觉特征,它与HSV颜色空间相比,和人们的视觉感知并不大一致。
本发明的目的是这样实现的一种对镜头进行基于内容的视频检索的方法,包括以下步骤(1)首先对视频数据库进行镜头分割,以镜头作为视频的基本结构单元和检索单元;(2)计算两个帧图像之间的相似度,按下面的方法建立模糊相似矩阵R当i=j时,令rij为1;当i≠j时,令rij为xi与yj之间的相似度;(3)利用传递闭包方法计算模糊相似矩阵R的等价矩阵 (4)设置阈值λ确定截集,对R矩阵的传递闭包矩阵 进行模糊聚类,计算[x]={y|R^(x,y)≥λ},]]>集合[x]即为模糊聚类的等价类,每个等价类集合中各帧是相似的,所以我们可以取每个集合中任一帧作为关键帧;(5)用关键帧{ri1,ri2,...,rik}表示镜头si,用关键帧集合来度量两个镜头之间的相似性。
进一步来说,步骤(1)中对视频数据库进行镜头分割的方法最好为时空切片算法。步骤(2)中计算xi与yj之间的相似度可以用两个图像直方图的交来计算Intersect(xi,yj)=1A(xi,yj)ΣhΣsΣvmin{Hi(h,s,v),Hj(h,s,v)}]]>A(xi,xj)=min{ΣhΣsΣvHi(h,s,v),ΣhΣsΣvHj(h,s,v)}]]>Hi(h,s,v)是HSV颜色空间的直方图,我们用H,S,V分量在18×3×3的三维空间中统计直方图,以归一化后的162个数值作为颜色特征值,Intersect(xi,yj)表示两个直方图的交,用它来判断两个关键帧的相似性,使用A(xi,yj)归一化到0,1之间。
再进一步,步骤(3)中,计算模糊相似矩阵R的等价矩阵 的传递闭包方法可采用平方法R→R2→(R2)2→···→R2k=R^,]]>它的时间复杂度为O(n3log2n),如果n值特别大,势必会影响总的计算时间,所以采用基于图连通分支计算的模糊聚类最佳算法计算矩阵的合成运算,递推如下rij(0)=rij---0≤i,j≤n]]>rij(k)=max{rij(k-1),min[rik(k-1),rkj(k-1)]}----0≤i,j≤n;0≤k≤n]]>这种算法的时间复杂度T(n)满足O(n)≤T(n)≤O(n2)。
为了更好地实现本发明的目的,在进行镜头检索时,对 进行模糊聚类的方法如下(1)确定n个样本X=(X1,...,Xn)上的模糊相似关系R和一个截集阈值α;(2)将R按下面计算改造为一个等价矩阵;RoR=R2R2oR2=R4...R2koR2k=R2(K+1)]]>直到存在一个k满足R2k=R2(k+1)]]>上述式子中,RoR为模糊关系的合成运算,在R是相似矩阵的假设下,已证明必有这样的k存在,满足k≤log n;(3)计算集合[x]={y|R^(x,y)≥α},]]>[x]即为模糊聚类,算法结束;对n个样本空间进行模糊聚类分析后,得到若干个等价类,在每个等价类中选取一个样本作为关键帧。这样两个镜头之间的相似度度量就变为关键帧集合之间的相似性度量。
在本方法的步骤(5)中,可以把镜头si和sj的相似度定义为Sim(si,sj)=12{M(si,sj)+M^(si,sj)},]]>M表示关键帧相似的最大值, 表示关键帧相似的第二大值,其中,M(si,sj)=maxp={1,2,...}maxq={1,2,...}{Intersect(rip,rjq)}]]>M^(si,sj)=maxp={1,2,...}^maxq={1,2,...}{Intersect(rip,rjq)}]]>Intersect(ri,rj)=1A(ri,rj)ΣhΣsΣvmin{Hi(h,s,v),Hj(h,s,v)}]]>A(ri,rj)=min{ΣhΣsΣvHi(h,s,v),ΣhΣsΣvHj(h,s,v)}.]]>本发明的效果在于采用本发明所述的对镜头进行基于内容的视频检索的方法,可以取得更高的准确率,同时保持很快的检索速度。
本发明之所以具有如此显著的技术效果,其原因在于运用模糊聚类分析的方法,把镜头内容划分为多个等价类,这些等价类很好的描述了镜头内容的变化,而镜头之间的相似性则表现为关键帧结合之间的相似性。镜头之间相似性度量考虑了使用HSV颜色直方图表示关键帧的缺点如果两个关键帧有相似的颜色分布,即使它们的内容不一样,也会认为这两个关键帧相似。因此使用最大相似值和第二大相似值的平均值来加强算法的鲁棒性。对比实验结果证实了本发明提出方法的有效性。
2、建立模糊相似矩阵R建立镜头内部图像之间的建立模糊相似矩阵R方法如下当i=j时,令rij为1,当i≠j时,令rij为xi与yj之间的相似度,相似度则采用如下方法来计算Intersect(xi,yj)=1A(xi,yj)ΣhΣsΣvmin{Hi(h,s,v),Hj(h,s,v)}]]>A(xi,xj)=min{ΣhΣsΣvHi(h,s,v),ΣhΣsΣvHj(h,s,v)}]]>
Hi(h,s,v)是HSV颜色空间的直方图,我们用H,S,V分量在18×3×3的三维空间中统计直方图,以归一化后的162个数值作为颜色特征值。Intersect(xi,yj)表示两个直方图的交,用它来判断两个关键帧的相似性,使用A(xi,yj)归一化到0,1之间。
3、求相似矩阵R的传递闭包,得到等价矩阵本实施例中,求相似矩阵的传递闭包采用平方法R→R2→(R2)2→···→R2k=R^]]>它的时间复杂度为O(n3log2n),如果n值特别大,势必会影响总的计算时间。所以采用基于图连通分支计算的模糊聚类最佳算法计算矩阵的合成运算,递推如下rij(0)=rij---0≤i,j≤n]]>rij(k)=max{rij(k-1),min[rik(k-1),rkj(k-1)]}----0≤i,j≤n;0≤k≤n.]]>这种算法的时间复杂度T(n)满足O(n)≤T(n)≤O(n2)。
4、设置阈值λ确定截集,对R矩阵的传递闭包矩阵 进行模糊聚类。
本实施例中,具体方法如下(1)确定n个样本X=(x1,...,xn)上的模糊相似关系R和一个截集阈值α;(2)将R按下面计算改造为一个等价矩阵;RoR=R2R2oR2=R4...R2koR2k=R2(K+1)]]>直到存在一个k满足R2k=R2(k+1)]]>上述式子中,RoR为模糊关系的合成运算,在R是相似矩阵的假设下,已证明必有这样的k存在,满足k≤log n;(3)计算集合[x]={y|R^(x,y)≥α},]]>[x]即为模糊聚类,算法结束5、用模糊聚类分析方法得到镜头关键帧后,然后基于这些关键帧进行镜头检索。在此基础上,用关键帧{ri1,ri2,...,rik)表示镜头,si把镜头si和sj的相似度定义为Sim(si,sj)=12{M(si,sj)+M^(si,sj)},]]>其中,M(si,sj)=maxp={1,2,...}maxq={1,2,...}{Intersect(rip,rjq)}]]>M^(si,sj)=maxp={1,2,...}^maxq={1,2,...}{Intersect(rip,rjq)}]]>Intersect(ri,rj)=1A(ri,rj)ΣhΣsΣvmin{Hi(h,s,v),Hj(h,s,v)}]]>A(ri,rj)=min{ΣhΣsΣvHi(h,s,v),ΣhΣsΣvHj(h,s,v)}.]]> 表示第二大的值,使用 是因为本文使用HSV颜色直方图来表示关键帧,它的缺点是如果两个关键帧有相似的颜色分布,即使它们的内容不一样,也会认为这两个关键帧相似,为了克服这种缺陷,使用M和 的平均值来加强算法的鲁棒性。Hi(h,s,v)是HSV颜色空间的直方图,本文用H,S,V分量在18×3×3的三维空间中统计直方图,以归一化后的162个数值作为颜色特征值。Intersect(ri,rj)表示两个直方图的交,本文用它来判断两个关键帧的相似性。
下面的实验结果表明,本发明取得了比现有方法更好的效果,同时检索速度很快,证实了模糊聚类分析算法在镜头检索中的有效性。
镜头检索的实验数据是从电视录制的2002年亚运会节目,总共有41分钟,777个镜头,62132帧图像。它包含多种体育项目,如各种球类运动、举重、游泳以及插播的广告节目等。我们选了7个语义类作为查询镜头,它们是举重、排球、游泳、柔道、划船、体操、足球,如图2所示。
为了验证本发明的有效性,我们测试了以下3种方法做实验对比(1)常用的使用每个镜头的首帧做关键帧的镜头检索算法;(2)2002年在IEEE Trans.Circuits and Systems for Video Technology发表的文献“An efficient algorithm for video sequence matching using the modifiedHausdorffdistance and the directed divergence”(该文献作者是s.H.Kim and R.-H.Park,vo1.CSVT-12,no.7,页码592-595)中描述的算法;(3)使用模糊聚类分析算法得到关键帧进行镜头检索(只用颜色特征);上述前3种方法,都仅仅使用了颜色特征,因此最后的实验结果能够从镜头相似度的度量方法上证明本发明所公开方法的优越性。图3给出了实验程序的用户界面,右边上面一行是查询视频的浏览区域,显示视频中每个镜头的第1个关键帧,用来表示每个镜头,用户可以从中选择想要进行查询的镜头进行检索,右边下面是查询结果区域。图3是选择上面一行的第1个镜头,它是一个游泳镜头,由该镜头第一帧图像022430.bmp来表示,按照本发明的方法计算出的相似度最大权,从大到小排列查询结果(从左到右,从上到下排列)。左边下方为一个简易播放期,双击检索结果图像可以播放相应镜头对应的那段视频。
实验采用了两种在MPEG-7标准化活动中的评价指标平均归一化调整后的检索秩ANMRR(average normalized modified retrieval rank)和平均查全率AR(average recall)。AR类似于传统的查全率(recall),而ANMRR与传统的查准率(precision)相比,不仅能够反映出正确的检索结果比例,而且能够反映出正确结果的排列序号。ANMRR值越小,意味着检索得到的正确镜头的排名越靠前;AR值越大,意味着在前K(K是检索结果的截断值)个查询结果中相似镜头占所有相似镜头的比例越大。表1是上述3种方法对7个语义镜头类的AR和ANMRR比较。
表1 本发明与现有两种方法的对比实验结果

从表1可以看出,采用本发明的方法,无论是AR,还是ANMRR,都取得了比现有的两种算法更好的效果,证实了本发明把模糊聚类分析方法方法用于镜头检索的有效性。本发明的方法运用模糊聚类分析的方法,把镜头内容划分为多个等价类,这些等价类很好的描述了镜头内容的变化,而镜头之间的相似性则表现为关键帧结合之间的相似性。镜头之间相似性度量考虑了使用HSV颜色直方图表示关键帧的缺点如果两个关键帧有相似的颜色分布,即使它们的内容不一样,也会认为这两个关键帧相似。因此使用最大相似值和第二大相似值的平均值来加强算法的鲁棒性。对比实验结果证实了本发明提出方法的有效性。另外,在CPU 500M PIII,256M内存的PC机上,本发明的算法平均检索时间为22.557秒,对于777个镜头的视频库来说,本发明两种算法的检索速度都是很快的。
权利要求
1.一种对镜头进行基于内容的视频检索的方法,其特征在于该方法包括以下步骤(1)首先对视频数据库进行镜头分割,以镜头作为视频的基本结构单元和检索单元;(2)计算两个帧图像之间的相似度,按下面的方法建立模糊相似矩阵R当i=j时,令rij为1;当i≠j时,令rij为xi与yj,之间的相似度;(3)利用传递闭包方法计算模糊相似矩阵R的等价矩阵 (4)设置阈值λ确定截集,对R矩阵的传递闭包矩阵 进行模糊聚类,计算[x]={y|R^(x,y)≥λ},]]>集合[x]即为模糊聚类的等价类,每个等价类集合中各帧是相似的,所以我们可以取每个集合中任一帧图像作为关键帧;(5)用关键帧{ri1,ri2,...,rik}表示镜头si,关键帧集合来度量两个镜头之间的相似性。
2.如权利要求1所述的一种对镜头进行基于内容的视频检索的方法,其特征在于步骤(1)中,对视频数据库进行镜头分割的方法为时空切片算法。
3.如权利要求1所述的一种对镜头进行基于内容的视频检索的方法,其特征在于步骤(2)中,计算xi与yj之间的相似度可以用两个图像直方图的交来计算Intersect(xi,yj)=1A(xi,yj)ΣhΣsΣvmin{Hi(h,s,v),Hj(h,s,v)}]]>A(xi,xj)=min{ΣhΣsΣvHi(h,s,v),ΣhΣsΣvHj(h,s,v)}]]>Hi(h,s,v)是HSV颜色空间的直方图,我们用H,S,V分量在18×3×3的三维空间中统计直方图,以归一化后的162个数值作为顔色特征值,Intersect(xi,yj)表示两个直方图的交,用它来判断两个关键帧的相似性,使用A(xi,yj)归一化到0,1之间。
4.如权利要求1所述的一种对镜头进行基于内容的视频检索的方法,其特征在于步骤(3)中,计算模糊相似矩阵R的等价矩阵 的传递闭包方法采用平方法R→R2→(R2)2→···→R2k=R^,]]>它的时间复杂度为O(n3log2n),如果n值特别大,势必会影响总的计算时间,所以采用基于图连通分支计算的模糊聚类最佳算法计算矩阵的合成运算,递推如下rij(0)=rij---0≤i,j≤n]]>rij(k)=max{rij(k-1),min[rik(k-1),rkj(k-1)]}----0≤i,j≤n;0≤k≤n]]>这种算法的时间复杂度T(n)满足O(n)≤T(n)≤O(n2)。
5.如权利要求1所述的一种对镜头进行基于内容的视频检索的方法,其特征在于对 进行模糊聚类的方法如下(1)确定n个样本x=(x1,...,xn)上的模糊相似关系R和一个截集阈值α;(2)将R按下面计算改造为一个等价矩阵RoR=R2R2oR2=R4...R2koR2k=R2(k+1)]]>直到存在一个k满足R2k=R2(k+1)]]>上述式子中,RoR为模糊关系的合成运算,在R是相似矩阵的假设下,已证明必有这样的k存在,满足k≤log n;(3)计算集合[x]={y|R^(x,y)≥α},]]>[x]即为模糊聚类,算法结束;对n个样本空间进行模糊聚类分析后,得到若干个等价类,在每个等价类中选取一个样本作为关键帧,这样两个镜头之间的相似度度量就变为关键帧集合之间的相似性度量。
6.如权利要求1或5所述的一种对镜头进行基于内容的视频检索的方法,其特征在于可以把镜头si和sj的相似度定义为Sim(si,sj)=12{M(si,sj)+M^(si,sj)},]]>M表示关键帧相似的最大值, 表示关键帧相似的第二大值,其中,M(si,sj)=maxp={1,2,...}maxq={1,2,...}{Intersect(rip,rjq)}]]>M^(si,sj)=maxp={1,2,...}^maxq={1,2,...}{Intersect(rip,rjq)}]]>Intersect(ri,rj)=1A(ri,rj)ΣhΣsΣvmin{Hi(h,s,v),Hj(h,s,v)}]]>A(ri,rj)=min{ΣhΣsΣvHi(h,s,v),ΣhΣsΣvHj(h,s,v)}.]]>
全文摘要
本发明属于视频检索技术领域,具体涉及一种对镜头进行基于内容的视频检索的方法。现有的基于内容的镜头检索方法往往存在着由于镜头内容描述不准确,检索准确率不高的问题。针对现有技术中存在的不足,本发明首次将模糊聚类分析的方法用于镜头检索。与现有方法相比,本发明提出的方法使用模糊聚类的方法,把镜头分为多个等价类,等价类内部内容是一致的,这些等价类客观全面的描述了镜头内部内容的变化。然后把这些等价类用于镜头检索,获得了良好的检索结果。本发明的效果在于进行基于内容的视频检索时可以取得更高的准确率,同时保持很快的检索速度。
文档编号G06T5/40GK1477566SQ0315012
公开日2004年2月25日 申请日期2003年7月18日 优先权日2003年7月18日
发明者董庆杰, 彭宇新, 郭宗明 申请人:北京大学计算机科学技术研究所, 北京北大方正技术研究院有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1