一种对基于鲁棒哈希函数的内容识别进行建模的方法

文档序号:9866158阅读:360来源:国知局
一种对基于鲁棒哈希函数的内容识别进行建模的方法
【技术领域】
[0001] 本发明设及信号与信息处理技术领域,尤其设及一种对基于鲁棒哈希函数的内容 识别进行建模的方法。
【背景技术】
[0002] 随着媒体(如图像、音频和视频等)分享网站(如化uTube、优酷等)的普及和快速发 展,媒体信息的获取越来越便捷。但是媒体分享网站开放性的特点也带来了版权控制的困 难。W视频分享网站为例,任何已注册用户都可W向网站上传视频。然而,有些用户上传的 视频可能是受版权保护的内容(如新近发行的影视作品)。如果缺乏有效的版权控制措施, 媒体分享网站可能会成为盗版内容传播的平台。为规避运一风险,媒体分享网站需要随时 对用户上传内容进行自动检测,判断用户上传内容是否为受版权保护作品的拷贝版本,运 一过程被称之为拷贝检测。
[0003] 多数媒体分享网站采用鲁棒哈希函数作为拷贝检测的主要手段。鲁棒哈希函数是 一种将媒体信息(如图像、音频和视频等)转化为内容摘要的映射,所生成的内容摘要(称之 为哈希序列)通常为一个简短的二值序列(取值0或1)。运种哈希函数对不影响媒体视听内 容的失真(如高质量有损压缩、滤波等)具有鲁棒性,故被称为鲁棒哈希函数。由于鲁棒哈希 函数能够简洁且稳定的描述媒体视听内容,在版权控制、媒体捜索和索引等内容识别应用 中被广泛采用。图1示例了基于鲁棒哈希函数的内容识别系统。内容识别系统包含一个参考 媒体库和哈希数据库。W媒体分享网站中的内容识别系统为例,参考媒体库中存储受版权 保护的媒体文件。每个参考媒体在入库的同时由鲁棒哈希函数计算其哈希序列并存储至哈 希数据库中,运一过程在离线状态下完成。内容识别为在线环节:当有用户上传媒体时,系 统首先计算该媒体(称之为待识别媒体)的哈希序列,并与哈希数据库中所有参考媒体的哈 希序列进行比对。对于二值哈希序列,一般采用归一化汉明距作为距离度量准则。若待识别 媒体和某一参考媒体之间的哈希序列归一化汉明距小于判决阔值,则判断待识别媒体为该 参考媒体的拷贝,系统会终止用户上传或将其内容设置为付费浏览。
[0004] 文献中已报道的鲁棒哈希函数方面的工作大部分集中在鲁棒哈希函数设计方面, 在建模和性能分析方面的工作较少。文献[1]提出一种对旋转和平移等几何失真的图像鲁 棒哈希函数,该算法利用傅里叶-梅林变换提取不变特征,之后利用自适应量化器将特征量 化至二进制序列。Monga在文献[2]中提出一种基于特征点的鲁棒哈希函数,取特征点响应 的量化索引作为二进制哈希。文献[3]中提出的图像鲁棒哈希函数用随机Gabor滤波器提 取图像特征,之后对特征矢量进行随机抖动格型矢量量化W生成哈希。文献[4]提出一种基 于Ξ维离散余弦变换的视频鲁棒哈希函数,该算法首先对视频做低通滤波、缩放和时域采 样等预处理,之后对相邻帖做Ξ维离散余弦变换,在每个变换单元中选取Ξ个低频系数,哈 希序列为对所选系数做二值化处理之后的结果。在鲁棒哈希函数性能分析方面:Varna等人 W博弈论为基础的研究表明鲁棒哈希函数应保证哈希位W近似相同的概率在〇、1间取值, 由此可获得尽可能低的误识别率[5]。文献中的工作等WMarkov模型为工具对鲁棒哈希函 数的碰撞问题进行研究,推导了哈希碰撞概率的解析形式[6]。
[0005] 发明人在实现本发明的过程中,发现现有技术中至少存在W下缺点和不足:
[0006] 实际应用中所设及的参考媒体数据库通常规模较大,且对内容识别准确率要求较 高。W视频分享网站中的拷贝检测应用为例,若漏检用户上传的受版权保护的视频会直接 导致视频分享网站面临发布盗版内容的风险。因此,需要事先对鲁棒哈希函数的内容识别 性能做出准确估计。在大规模数据库上进行性能实测不仅成本高、耗时长,而且所测得的结 果只能片面反映鲁棒哈希函数针对该测试数据库的性能,不具有普遍性。为了对鲁棒哈希 函数的内容识别性能做出全面、客观的评价,需要为基于鲁棒哈希函数的内容识别方法建 立分析模型,并对其识别性能进行理论估计。当前文献中关于鲁棒哈希函数建模和性能估 计方面的工作较少。为了克服运一不足,本发明提出一种对基于鲁棒哈希函数的内容识别 方法进行建模的技术。

【发明内容】

[0007] 本发明提供了一种对基于鲁棒哈希函数的内容识别进行建模的方法,本发明首先 为基于鲁棒哈希函数的内容识别方法建立分析模型,将运一过程等效为在有噪声的二元对 称信道上传输信息;之后,分别计算分析模型的信道转移概率和信道容量。利用计算结果, 根据信道编码定理和化no不等式得到鲁棒哈希函数的误识别率、与参考媒体数目和哈希序 列长度之间的关系,详见下文描述。
[0008] -种对基于鲁棒哈希函数的内容识别进行建模的方法,所述建模的方法包括W下 步骤:
[0009] 将基于鲁棒哈希函数的内容识别等效成在噪声信道上的传输信息,为鲁棒哈希函 数建立基于二元对称信道的分析模型;
[0010] 计算所述基于二元对称信道的分析模型中的信道转移概率;
[0011] 计算所述基于二元对称信道的分析模型的容量,利用信息论中的信道编码定理和 化no不等式,获取鲁棒哈希函数在内容识别中的误识别率与参考媒体数目和哈希序列长度 之间的关系。
[0012] 所述基于二元对称信道的分析模型具体为:
[0013] 将内容识别中所有参考媒体的序号构成的集合Κ={1,2,···,Μ}等效为模型中的消 息集,将第i个参考媒体的哈希序列等效为消息i的码字,将所有参考媒体的哈希序列集合 等效为信道编码中的码本;
[0014] 将内容识别中待识别媒体的哈希序列等效为码字经过有噪声信道传输之后的结 果,将由媒体内容失真所导致的哈希序列改变等效为信道噪声对传输码字造成的失真;
[0015] 将通过哈希比对在参考媒体数据库中查找待识别媒体拷贝的过程等效为信道译 码,将鲁棒哈希函数在内容识别中的误识别率等效为信道译码错误率。
[0016] 所述获取鲁棒哈希函数在内容识别中的误识别率与参考媒体数目和哈希序列长 度之间的关系具体为:
[0017]
[0018] 其中,Pen为鲁棒哈希函数的误识别率;Μ为参考媒体数目;N为哈希序列长度;P为 在媒体失真条件下哈希位发生改变的概率。
[0019] 本发明提供的技术方案的有益效果是:根据本发明所提供的建模和分析方法可W 对鲁棒哈希函数在大规模媒体数据库上的内容识别性能做出预估,可明确鲁棒哈希函数是 否可满足实际应用中设定的技术指标,对媒体捜索、索引和拷贝检测等应用具有指导作用。
【附图说明】
[0020] 图1为现有技术提供的基于鲁棒哈希函数的内容识别系统的示意图;
[0021] 图2为本发明提供的基于鲁棒哈希函数的内容识别建立的信道模型的示意图。
【具体实施方式】
[0022] 为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步 地详细描述。
[0023] 本发明实施例提出了一种对基于鲁棒哈希函数的内容识别进行建模的技术,该技 术具有通用性,适用于任何输出二进制哈希序列的鲁棒哈希函数。下面对本发明的实施过 程加 W说明:
[0024] 101:将基于鲁棒哈希函数的内容识别等效成在噪声信道上的传输信息,为鲁棒哈 希函数建立基于二元对称信道的分析模型;
[0025] 信道模型和基于鲁棒哈希函数的内容识别方法之间的对应关系如下文(1)-(3)中 的描述:
[0026] (1)将内容识别中所有参考媒体的序号构成的集合Κ={1,2,···,Μ}等效为信道模 型中的消息集;将第i个参考媒体的哈希序列等效为消息i的码字,将所有参考媒体的哈希 序列集合等效为信道编码中的码本;
[0027] 在基于鲁棒哈希函数的内容识别中,第i(l含i含M)个参考媒体由长度为N的二值 哈希序列hiE{0,l}W表示。在所建的二元对称信道模型中,从媒体序号到哈希序列的映射被 等效为信道编码过程:参考媒体序号i相当于消息,哈希序列hi相当于消息i的码字,参考媒 体数据库中所有参考媒体的哈希序列集合相当于信道编码码本,如图2所示。本发明实施例 对鲁棒哈希函数的具体实现和哈希序列长度N不做限制。
[0028] (2)将内容识别中待识别媒体的哈希序列等效为码字经过有噪声信道传输之后的 结果,将由媒体内容失真所导致的哈希序列改变等效为信道噪声对传输码字造成的失真;
[0029] 由于拷贝媒体文件的过程中可能会引入内容失真(如有损压缩、噪声污染等),令q E{0,1}W表示待识别媒体的哈希序列,若待识别媒体为参考媒体数据库中第i个参考媒体 的拷贝,由内容失真所造成的哈希序列改变可由条件概率Pr(q I hi)描述。在图2所示的信道 模型中,待识别媒体的哈希序列q相当于hi(即码字)经过有噪声信道传输后的结果,条件概 率Pr(q| hi)被等效为信道转移概率。由于哈希序列中各哈希位之间通常相互相独立,若令q 化)e {0,1}和hi化)e {0,1}分别表示媒体哈希序列q和hi中的第k位化=1,…,N),则有:
[0030]
, (1)
[0031] 本发明实施例据此用二元对称信道为鲁棒哈希函数建立信道模型,如图2所示,相 应的信道转移概率可表示为:
[0032] Pr(l|〇)=Pr(〇|l)=p,Pr(〇|〇)=Pr(l|l) = l-p,
[0033] 其中0含p含1为在失真情况下哈希位发生改变的概率。
[0034] (3)将通过哈希比对在参考媒体数据库中查找待识别媒体拷贝的过程等效为信道 译码,将鲁棒哈希函数在内容识别中的误识别率等效为信道译码错误率。
[0035] 内容识别系统通过哈希比对判断参考媒体数据库中是否包含待识别媒体的拷贝, 如存在则返回对应参考媒体的序号,如图2所示。运一过程可用映射。(·): f 一!Ι,2,···,Μ,0} 表示,其中0;对应于参考媒体数据库中不包含待识别媒体的拷贝。本发明实施例将该过 程等效为信道译码,将内容识别的误识别率等效为信道译码错误率:
[0036]
(菊
[0037] 其中,条件概率Pr(D(q)辛i|hi)表示在待识别媒体为第i个参考媒体的拷贝的情 况下,内容识别系统给出错误识别结果的概率。
[0038] 102:计算基于二元对称信道的分析模型中的信道转移概率;
[0039] 对于任意给定的鲁棒哈希函数,其信道模型所对应的信道转移概率(如式(2
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1