一种确定视频哈希有效长度的方法

文档序号:9217323阅读:663来源:国知局
一种确定视频哈希有效长度的方法
【技术领域】
[0001] 本发明涉及一种确定视频哈希有效长度的方法,属于多媒体信号处理技术和计算 机科学技术领域。
【背景技术】
[0002] 近年来,随着多媒体和计算机技术的飞速发展,视频由于包含丰富的内容,已逐渐 成为当下信息表达和传播的主流。据统计,互联网上每天上传约2500PB数据,其中约90% 是视频和图像,并且这个数量还在持续增加。在如此大规模的视频数据中,在有限带宽的约 束下,通过视频检索技术快速准确地获取所需要的信息,对信息社会各个领域具有不可估 量的影响。视频哈希技术作为实现视频检索的核心技术之一,目前逐渐成为学术领域的研 宄热点。
[0003] 视频哈希技术的关键,首先是将视频内容用有效的高维特征表示,然后基于距离 相似性原则,将高维特征映射成能够表征视频内容的低维二进制码。视频哈希不仅减少了 视频检索的数据量和视频匹配的计算量,同时降低了视频处理对内容表征的影响。然而,在 哈希映射中,码长一般是人为指定的,并没有考虑不同码长对数据集表征的有效性和合理 性;并且在大数据集的环境下,为了哈希长度能够满足要求,往往无依据地增加哈希长度, 无谓地增加了视频哈希作为视频索引的数据量;特别是在移动计算环境中,这种无依据的 增加无疑给网络增加了不必要的负担,因此需要对码长优化方法进行深入研宄。

【发明内容】

[0004] 本发明针对目前视频哈希方法中存在的不足,提出了一种确定视频哈希有效长度 的方法,此方法能够在数据集的环境中,仅通过部分数据的训练就确定全部数据集中近似 最佳的哈希长度,为哈希长度的确定提供了一种更快捷且有参考依据的方式。
[0005] 为实现上述目的,本发明采用如下技术方案:
[0006] -种确定视频哈希有效长度的方法,包括以下步骤:
[0007] 1)从视频库的每类中随机选取数量相同的部分视频作为训练样本,然后将训 练样本的特征映射为一定长度的哈希比特:假设训练集中包含a类视频,每类视频包括 一种原始视频和另外b种经过不同处理的视频,对所有视频做相同的特征提取得到F, F= [f1Ci,fn,…,flb,? ?,fa。,fai,…,fab] ',表示第i类视频中经过第j种处理的 视频对应的特征,fi(1表示第i类视频的原始视频的特征,然后将特征映射成r长度的 哈希H(rt,丑("=各个不同长度的哈希组成H,H=
[H(1),H⑵,? ? ?,H(u],,其中表示第i类视频中经过第j种处理的视频对应r长度的哈 希;
[0008] 2)对于一定长度r= 的哈希,进行如下操作:
[0009] 2-1)对于训练样本,将每一类中原始视频得到的哈希与其余所有类的所有视频对 应的哈希进行匹配,通过设定阈值T来判断其余视频是否为原视频的拷贝视频;如果原视 频哈希与其余视频哈希之间不同位数的比例小于这个阈值T,即误码率小于阈值T,则认为 该视频为拷贝视频,反之,不是拷贝视频;
[0010] 2-2)分别计算拷贝视频的误码率和非拷贝视频的误码率,然后分别估计出拷贝视 频的误码率概率分布和非拷贝视频的误码率概率分布;
[0011] 2-3)采用函数AGO和f2(x)分别对两个概率分布进行拟合,x表示误码率;
[0012] 2-4)根据上述两个拟合函数,利用f\(x) =f2(x),求出二者的交点坐标xm同时, 将拷贝视频误码率曲线和非拷贝视频误码率曲线的交叉区域的面积,称作碰撞概率,计算 出一定哈希长度:^对应的碰撞概率p(rm);
[0013] 3)对于不同长度r对应的哈希11?都进行上述步骤2)的操作,得到不同哈希长 度r对应的碰撞概率p(r),通过统计分析得到训练集中的碰撞概率p(r)与哈希长度r的关 系,选取碰撞概率收敛时所对应的哈希长度rtrain作为哈希的最佳长度;最后,根据总数据 集与训练数据集在数量级上的差别,Nall表示总数据集的数量,NtMin表示训练集的数量,根 据差别的二进制表示,可以通过增加一定长度的比特位来确定总数据集上的最佳哈希长度 rall,
,其中符号表示向上取整函数。
[0014] 具体地,在步骤2-3)中,用指数函数AGO去拟合拷贝视频的误码率概率分布曲 线,用高斯函数f2(x)去拟合非拷贝视频的误码率概率分布曲线,其中,指数函数和高斯函 数中的参数都与哈希长度有关。
[0015] 具体地,在步骤2-4)中,计算出一定哈希长度!^对应的碰撞概率p(rm)的公式为:
[0016] 本发明的有益效果是:它提供了一种确定视频哈希有效长度的方法,该方法能够 在大数据集的环境中,仅通过部分数据的训练就能确定全部数据集中近似最佳的哈希长 度,为哈希长度的确定提供了一种更快捷且参考依据的方式。
【附图说明】
[0017] 图1是本发明方法的框架图。
[0018] 图2是一定哈希长度对应的拷贝视频的误码率和非拷贝视频的误码率分布。
[0019] 图3是训练集和总数据集分别对应的碰撞概率与哈希码长的关系图。
【具体实施方式】
[0020] 图1给出了本发明方法的框架图,按所示流程,包括如下具体步骤:
[0021] 1.获取视频哈希
[0022] 采集视频数据库,该数据库包含78类视频,每类包含1种已有视频和10种该视频 经过信号处理后的视频,然后用有效的特征来表征每个视频,组成特征库;然后,从特征库 的每类中随机选取5种作为训练样本,通过已有的KSH哈希方法将上述训练样本对应的特 征,映射为不同长度的哈希比特。
[0023]假设训练集中包含a类视频,每类视频包括一种原始视频和另外b种经过不同 处理的视频,对所有视频做相同的特征提取得到F,F= [f1Q,fn,? ? ?,flb,? ?,faQ,fal,? ? ?,f ab]',t表示第i类视频中经过第j种处理的视频对应的特征,fi(l表示第i类视频的原始视 频的特征,然后将特征映射成r长度的哈希H(rt,丑(0=|;嗌,#,,#,…,h^,h^,…,^'], 各个不同长度的哈希组成H,H= [H(1),H(2),...,H(U],,其中兮 > 表示第i类视频中经过第j种处理的视频对应r长度的哈希;
[0024] 哈希映射的原则就是要保证特征空间F中两两相近的点在哈希空间的距离最小, 特征空间中两两不同的点在哈希空间的距离最大化。KSH恰好利用了汉明空间中的距离度 量与哈希码内积之间的等价性这一规律。r比特长度的哈希可表示为codejf) =[h(f), ...,hjf)]G{1,-1}1X%哈希码之间的内积可表示为:
[0025] coder(fi) 〇coder(fj) =r-2Dh(fi,fj)
[0026] 其中,Dh(fi,fj)表示两个样本的汉明距离。
[0027] 从上式可以看出,汉明距离和码字内积之间是一
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1