专利名称:用于相同内容视频检索的视频指纹方法
技术领域:
本发明涉及一种用于相同内容视频检索的视频指纹方法,属于视频、多媒体信号处理技术领域。
背景技术:
随着多媒体技术的发展,特别是互联网已成为日常生活不可缺少的一部分,视频内容变得越来越丰富,同时盗版视频也成倍出现。在多媒体版权保护中,版权鉴别者需要从大量的多媒体数据中,快速有效地检测到可能存在的拷贝并判断内容的所有权,这就需要对相同内容的视频进行检索,也就是视频拷贝检测。在对多媒体对象检索中,需要对视频中场景、片段进行分析和特征提取,并基于这些特征进行相似性匹配,进而帮助人们快速准确地找到所需要的多媒体信息。近年来视频拷贝检测技术取得了很大发展,目前已有多种拷贝检测方法。其中最主要的是基于内容(Content-Based Copy Detection,CBCD)的视频拷贝检测方法。视频拷贝检测的技术核心是视频指纹的生成。视频指纹就是从视频内容中提取出具有鲁棒性和区分性的视频特征。一种比较典型的方法是基于亮度序列的方法,该方法首先把视频每帧分成8X8的块,然后计算每块像素亮度分量的均值并对所有块的均值排序,由这个排序后的特征构成视频指纹,顺序特征的引入比直接使用像素值计算指纹的鲁棒性强。但这种方法的缺点是对于几何变换的攻击诸如旋转、放缩和剪切的鲁棒性较差。另一种比较经典的方法是基于时域的视频指纹方法,即一般利用不同镜头之间持续的时间,或者根据相邻帧在时域上的关系来构造视频指纹。这种方法与空域里亮度顺序方法不同的是,时域算法不是对每一帧进行块排序,而是定义了一个时域窗口,对时域窗口内每一帧相同位置的块进行排序,但由于局部变化会打乱图像块间的有序关系,从而使得这类算法性能下降。考虑到视频的视觉内容可以看作是时间上连续的一系列图像帧的集合,仅利用时域或空域信息不能完全表征视频内容,因此将时空信息结合起来是特征提取的研究方向。但目前已有的时空联合方法没有将人的视觉感知加入,同样在申请专利号为201110184477. 6的基于鲁棒哈希的视频拷贝检测方法专利中没有将人的视觉关注加入。但是由于人是多媒体信息的最终受用者,因此忽略了人的认知对视频内容的影响,而在本发明中通过分别计算出代表图像的二值序列特征和视觉显著图的二值序列特征,最后对二者取同或得到视频指纹。这样得到的视频指纹由于视觉关注的加入,使得人眼对不同区域的关注程度也不同,匹配时赋予每一哈希位相应的权重,这样全面的视频分析更符合人的认知。
发明内容
本发明针对目前视频指纹生成方法中存在的不足,结合时空联合特征在表征视频内容上的全面性以及顺序特征在鲁棒性上的贡献,以及视觉关注区域即图像中最能引起用户兴趣,最能表现图像内容的区域,这些区域特征的提出将会大大提高图像处理和分析的效率和准确度,由此提出了一种用于相同内容视频检索的视频指纹方法,此方法所提取视频指纹的鲁棒性及区分性都得到了极大提高与改善。为实现上述目的,本发明采用如下技术方案一种用于相同内容视频检索的视频指纹方法,包括以下步骤1)对视频进行分段首先对视频进行预处理,将视频预处理为宽度和高度固定尺寸大小的视频序列;然后对预处理后的各视频序列进行分段;2)生成视频代表图每一视频序列分段分别生成相对应的时域信息代表图和视觉显著代表图;3)生成顺序特征首先对时域信息代表图和视觉显著代表图进行分块,然后根据特定的顺序关系将图像块进行排序,并通过计算块与块的特征差异来分别得到代表时域信息代表图和视觉显著代表图的顺序特征;4)生成二值特征序列根据上述得到的时域信息代表图和视觉显著代表图的顺序特征,分别生成对应的时域信息代表图和视觉显著代表图的二值特征序列;5)视频指纹生成将得到的时域信息代表图和视觉显著代表图的二值特征序列结合起来,根据需要进行相应的运算,最终得到的二值序列为最终的视频指纹;将视频处理为固定大小的视频序列过程中,根据需要通过插值或者下采样来获得指定大小的视频。对视频进行分段时,相邻视频段根据需要有一定部分的重叠或者不重叠。时域信息代表图根据需要由每段视频中部分或者全部视频帧叠加得到。视觉显著代表图根据需要由每段视频中部分或者全部视频帧所对应的视觉显著图叠加得到。进行图像块排序时的特定关系根据需要进行指定,按照从左到右从上到下或从下到上从右到左或希尔伯特曲线方式进行。所述块与块的特征差异根据需要进行指定,这些特征为颜色或亮度或能量中的至少一种。二值特征序列的生成时,根据需要对顺序特征中相邻块之间的关系进行比较,该关系为亮度大小关系比或颜色深浅关系或能量强弱关系,根据比较结果,生成二值特征序列。视频指纹生成时进行的运算根据需要选定为任何逻辑运算。所述逻辑运算为同或、异或、或、与运算中的一种。本发明的有益效果是考虑到视觉关注区域即图像中最能引起用户兴趣,最能表现图像内容的区域,同时所提取的特征体现了视频内容对视觉的刺激性,对于视频拷贝检测及视频检索来说主要是基于视频内容的,有研究表明分析引入人的感觉认知能够取得一定意义的成功。在此基础上本发明充分考虑到了人的视觉关注对所提取特征的影响,以及时空联合的顺序特征在对鲁棒性的贡献上,通过提取时空联合的顺序特征来构成视频指纹,在保证了本发明中方法鲁棒性的前提下,又有较高的区分性。
图1是本发明方法的框架图。图2是生成的时域代表图像及其希尔伯特曲线填充。
图3代表性显著图及其希尔伯特曲线填充。图4是原始视频帧及经过10种视频处理后的视频帧。图fe是误码率以及对应的查全率。图恥是误码率以及对应查准率。图6是本发明方法与其他方法平均比特错误率的对比。图7是不同视频之间的比特错误率。
具体实施例方式下面结合附图与实施例对本发明做进一步说明。图1给出了本发明方法的框架图,按所示流程,包括如下具体步骤1.视频进行分段首先将视频固定为任意W*H尺寸大小的视频序列,其中W指视频帧的宽度大小,H 指视频帧的高度大小,为了进行实验分析,这里我们选择W= 144,H= 176,其中W指视频帧的宽度大小,H指视频帧的高度大小;其次对视频帧进行分段,分段时可以重叠也可以不重叠,根据实验中对鲁棒性的要求以及考虑到帧率为30帧/秒,这里分段时我们选每部分 30帧,各相邻部分有50%的重叠。2.生成视频代表图时域信息代表图和视觉显著代表图的具体生成过程如下=其中F(m,n, k)为视频分段后每一部分里第k帧中第(m,η)
k=\
像素的亮度值,(m,η)为视频帧中像素位置,k为视频分段后每一部分里第k帧,wk为权值系数,选Wk = rk,取指数形式的权值系数,r为通过实验选取的固定值,J是每一部分里包含的视频帧数,F(m,η)是所生成的时域信息代表图的像素亮度值。如下图2为得到的时域信息代表图。=幻其中SM(m,n,k)为视频分段后每一部分里各帧对应的显
k=\
著图的第(m,n)像素的亮度值,(m,n)为显著图中像素位置,k为视频分段后每一部分里第 k帧对应的显著图,Wk为权值系数,选Wk = rk,取指数形式的权值系数,r为通过实验选取的固定值,J是每一部分里包含的视频帧数,RSM(m,η)是所生成的视觉显著代表图的像素亮度值。如下图3为得到的视觉显著代表图。3.生成顺序特征对时域信息代表图和视觉显著代表图进行分块,然后根据特定的顺序关系比如按照从左到右从上到下或从下到上从右到左或希尔伯特曲线方式将图像块进行排序,这里我们选取希尔伯特曲线顺序来得到顺序特征。首先计算P分位数Mp:
Γ xI^I ,npgz+ ,叩eZ其中0 < P < 1,[np]表示即的整数部分,x[np]为η个
按从小到大排列的灰度值中的第[np]个值,Mp即为由这η个元素所确定的ρ分位数。然后按如下公式计算三均值M
M = \M0 25 +\M0 5 +^0.75 ^ M0.25, M0.5,Ma 75 分别为 0. 25,0. 5,0. 75 分位数;4.生成二值特征序列二值特征序列的生成时,根据需要对顺序特征中相邻块之间的关系进行比较,该关系为亮度大小关系比或颜色深浅关系或能量强弱关系按如下公式生成时域信息代表图的二值特征序列,即图1中的二值序列1
权利要求
1.一种用于相同内容视频检索的视频指纹方法,其特征在于,包括以下步骤1)对视频进行分段首先对视频进行预处理,将视频预处理为固定大小的视频序列; 然后对预处理后的各视频序列进行分段;2)生成视频代表图每一视频序列分段分别生成相对应的时域信息代表图和视觉显著代表图;3)生成顺序特征首先对时域信息代表图和视觉显著代表图进行分块,然后根据特定的顺序关系将图像块进行排序,并通过计算块与块的特征差异来分别得到代表时域信息代表图和视觉显著代表图的顺序特征;4)生成二值特征序列根据上述得到的时域信息代表图和视觉显著代表图的顺序特征,分别生成对应的时域信息代表图和视觉显著代表图的二值特征序列;5)视频指纹生成将得到的时域信息代表图和视觉显著代表图的二值特征序列结合起来,根据需要进行相应的运算,最终得到的二值序列为最终的视频指纹。
2.根据权利要求1所述的用于相同内容视频检索的视频指纹方法,其特征在于将视频处理为固定大小的视频序列过程中,根据需要通过插值或者下采样来获得指定大小的视频。
3.根据权利要求1所述的用于相同内容视频检索的视频指纹方法,其特征在于对视频进行分段时,为保证其鲁棒性,相邻视频段根据需要有一定部分的重叠。
4.根据权利要求1所述的用于相同内容视频检索的视频指纹方法,其特征在于时域信息代表图根据需要由每段视频中部分或者全部视频帧叠加得到。
5.根据权利要求1所述的用于相同内容视频检索的视频指纹方法,其特征在于视觉显著代表图根据需要由每段视频中部分或者全部视频帧所对应的视觉显著图叠加得到。
6.根据权利要求1所述的用于相同内容视频检索的视频指纹方法,其特征在于进行图像块排序时的特定关系根据需要进行指定,按照从左到右从上到下或从下到上从右到左或希尔伯特曲线方式进行。
7.根据权利要求1所述的用于相同内容视频检索的视频指纹方法,其特征在于所述块与块的特征差异根据需要进行指定,这些特征为颜色或亮度或能量中的至少一种。
8.根据权利要求1所述的用于相同内容视频检索的视频指纹方法,其特征在于二值特征序列的生成时,根据需要对顺序特征中相邻块之间的关系进行比较,该关系为亮度大小关系比或颜色深浅关系或能量强弱关系,根据比较结果,生成二值特征序列。
9.根据权利要求1所述的用于相同内容视频检索的视频指纹方法,其特征在于视频指纹生成时进行的运算根据需要选定为任何逻辑运算。
10.如权利要求9所述的用于相同内容视频检索的视频指纹方法,其特征在于所述逻辑运算为同或、异或、或、与中的一种。
全文摘要
本发明公开了一种用于相同内容视频检索的视频指纹方法,此方法所提取视频指纹的鲁棒性及区分性都得到了极大提高与改善。包括以下步骤1)对视频进行分段将视频预处理为固定大小的视频序列;然后对预处理后的各视频序列进行分段;2)生成视频代表图每一视频序列分段分别生成相对应的时域信息代表图和视觉显著代表图;3)生成顺序特征分别得到代表时域信息代表图和视觉显著代表图的顺序特征;4)生成二值特征序列分别生成对应的时域信息代表图和视觉显著代表图的二值特征序列;5)视频指纹生成将得到的时域信息代表图和视觉显著代表图的二值特征序列结合起来,根据需要进行相应的运算,最终得到的二值序列为最终的视频指纹。
文档编号G06K9/00GK102419816SQ20111036887
公开日2012年4月18日 申请日期2011年11月18日 优先权日2011年11月18日
发明者孙建德, 王静 申请人:山东大学