一种确定视频哈希有效长度的方法_2

文档序号:9217323阅读:来源:国知局
一对应的关系,因此,用汉明距离 来代替码字内积是可行的。因此,带有标签的样本特征F的哈希码可以通过下式来学习得 到:
[0029] 其中,
表示F的码字矩阵,m表示训练集中的视频样本个数,对于 相近的两个样本,S等于1;不同的两个样本,S为-1。||.||F表示F范数。实验证明,KSH方法的性能很好。
[0030] 哈希映射的过程中,得到不同长度的哈希H(rt。
[0031]2.对于一定长度r= :^的哈希丑,进行如下操作:
[0032] 2-1)计算拷贝视频的误码率和非拷贝视频的误码率BER(biterrorrate),计算 公式如下:
[0034] 其中,?表示异或运算,Qi表示原视频哈希对应的第i个比特,Hi表示用来与1比 较的其余视频哈希对应的第i个比特。
[0035] 然后分别估计出拷贝视频的误码率概率分布和非拷贝视频的误码率概率分布。
[0036] 2-2)用函数拟合误码率概率分布曲线
[0037] 从概率分布来看,拷贝视频的误码率X,概率分布大概服从指数分布,因此用指数 函数fjx)去拟合拷贝视频的误码率概率分布曲线;非拷贝视频的误码率X,概率分布服从 高斯分布X~N(y,〇2),因此用高斯函数4〇〇去拟合非拷贝视频的误码率概率分布曲线, 其中,指数函数和高斯函数中的参数都与哈希长度有关。
[0040] 2-3)根据拟合函数计算碰撞概率
[0041] 根据上述两个拟合函数,利用fjx) =f2(x),求出二者的交点坐标X(1;同时,将拷 贝视频误码率曲线和非拷贝视频误码率曲线的交叉区域的面积,称作碰撞概率,计算出一 定哈希长度&对应的碰撞概率p(rm),碰撞概率表示视频搜索结果的误检率和误判率。
[0043] 图2表示一定哈希长度对应的拷贝视频的误码率和非拷贝视频的误码率分布。
[0044] 3.计算碰撞概率与哈希长度的关系
[0045] 对于不同长度r对应的哈希11?都进行上述步骤2的操作,得到不同哈希长度r 对应的碰撞概率P(r),通过统计分析得到训练集中的碰撞概率p(r)与哈希长度r的关系, 选取碰撞概率收敛时所对应的哈希长度rtrain作为哈希的最佳长度;最后,根据总数据集与 训练数据集在数量级上的差别,Nall表示总数据集的数量,NtMin表示训练集的数量,根据差 别的二进制表示,可以通过增加一定长度的比特位来确定总数据集上的最佳哈希长度rall,
[0046] 采用的视频数据库包含78类视频,每类包含1种已有视频和10种该视频经过信 号处理后的视频,用160维的有效特征来表征每个视频,组成特征库;然后,从特征库的每 类中随机选取5种作为训练样本,通过已有的KSH哈希方法将上述训练样本,分别映射为长 度r= 10:1:50的哈希。然后,经过误码率分布估计与拟合,最后得到碰撞概率与哈希长度 的关系。实验结果表明,当训练样本的哈希长度rtMin= 35时,其碰撞概率已经低于0. 001, 且趋于收敛。根据总数据集与训练数据集在数量级上的差别,可以估计总数据集上的近似 最佳哈希长度rall
。而通常情况下对该视频 库的总数据集进行哈希映射时,常常人为选取的哈希长度为50, 60, 80等。这就表明了该方 法提供的最佳哈希长度的估计远小于人为惯用的哈希长度。因此,本发明从理论说明和实 验验证两方面都表明了该方法对哈希长度的确定提供了一种快捷有效的参考方式。
【主权项】
1. 一种确定视频哈希有效长度的方法,包括w下步骤: 1) 从视频库的每类中随机选取数量相同的部分视频作为训练样本,然后将训练 样本的特征映射为一定长度的哈希比特;假设训练集中包含a类视频,每类视频包括 一种原始视频和另外b种经过不同处理的视频,对所有视频做相同的特征提取得到F, F=[f1。,f11,. . .,flb, . .,fa。,fal,. . .,fab] ',fij表示第i类视频中经过第j种处理的 视频对应的特征,fi。表示第i类视频的原始视频的特征,然后将特征映射成r长度的 哈希HW,巧W=[诚1,々1(;'1,...,C,...,々^巧|,...,皆],各个不同长度的哈希组成H,H= 出山,H(2),. . .,H江)]',其中皆'表示第i类视频中经过第j种处理的视频对应r长度的哈 希; 2) 对于一定长度r=r。的哈希巧心),进行如下操作; 2-1)对于训练样本,将每一类中原始视频得到的哈希与其余所有类的所有视频对应的 哈希进行匹配,通过设定阔值T来判断其余视频是否为原视频的拷贝视频;如果原视频哈 希与其余视频哈希之间不同位数的比例小于该个阔值T,即误码率小于阔值T,则认为该视 频为拷贝视频,反之,不是拷贝视频; 2-2)分别计算拷贝视频的误码率和非拷贝视频的误码率,然后分别估计出拷贝视频的 误码率概率分布和非拷贝视频的误码率概率分布; 2-3)采用函数fi(x)和f2(x)分别对两个概率分布进行拟合,X表示误码率; 2-4)根据上述两个拟合函数,利用fi(x) =f2(x),求出二者的交点坐标X。;同时,将拷 贝视频误码率曲线和非拷贝视频误码率曲线的交叉区域的面积,称作碰撞概率,计算出一 定哈希长度r。对应的碰撞概率p(r。); 3) 对于不同长度r对应的哈希hW都进行上述步骤2)的操作,得到不同哈希长度r 对应的碰撞概率P(r),通过统计分析得到训练集中的碰撞概率p(r)与哈希长度r的关系, 选取碰撞概率收敛时所对应的哈希长度rtf。,。作为哈希的最佳长度;最后,根据总数据集与 训练数据集在数量级上的差别,Nall表示总数据集的数量,Nt"i。表示训练集的数量,根据差 别的二进制表示,可W通过增加一定长度的比特位来确定总数据集上的最佳哈希长度rail,其中符号-「1隶示向上取整函数。2. 根据权利要求1所述的确定视频哈希有效长度的方法,其特征在于;在步骤2-3) 中,用指数函数fi(x)去拟合拷贝视频的误码率概率分布曲线,用高斯函数f2(x)去拟合非 拷贝视频的误码率概率分布曲线,其中,指数函数和高斯函数中的参数都与哈希长度有关。3. 根据权利要求1所述的确定视频哈希有效长度的方法,其特征在于;在步骤2-4) 中,计算出一定哈希长度I'm对应的碰撞概率P(rm)的公式为:Ph") =广7扣快+r/2(.X快'。
【专利摘要】本发明公开了一种确定视频哈希有效长度的方法。该方法能够在大数据集的环境中,仅通过部分数据的训练就能确定全部数据集中近似最佳的哈希长度,为哈希长度的确定提供了一种更快捷且参考依据的方式。实验结果表明本发明所确定的哈希码长是可信的。
【IPC分类】G06F17/30
【公开号】CN104933182
【申请号】CN201510385250
【发明人】孙建德, 王戊林, 李静
【申请人】孙建德
【公开日】2015年9月23日
【申请日】2015年6月30日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1