位置敏感哈希随机性减弱方法

文档序号:6369476阅读:572来源:国知局
专利名称:位置敏感哈希随机性减弱方法
技术领域
本发明涉及一种检索方法,特别是涉及一种位置敏感哈希随机性减弱方法。背景技术
相似性搜索在许多方面有着非常重要的作用,如数据压缩、数据挖掘、信息检索、图像和视频检索、机器学习、模式识别、统计和数据分析等等。这些研究中的对象一般能用相关特征的集合或高维空间中的点表示。这些点的维数范围很大,会从几十到几千。当维数较低的时候,这类问题比较容易,但当维数比较高时,解决起来会比较困难,也就是所谓的“维数灾难”。尽管经过了几十年的努力,现在的解决方案仍然不能让人十分满意。因为对于高维向量搜索,这些方法和线性穷尽搜索相比几乎没有什么优势甚至会退化到线性搜索。这种情况严重影响了相似性搜索的效果。位置敏感哈希(LSH, Locality Sensitive Hashing)是当前解决高维空间近似最近邻(ANN, Approximate Nearest Neighbor)搜索问题的速度最快的方法。其中,LSH在汉 明空间进行搜索,E2LSH(Exact Euclidean Locality Sensitive Hashing)是对 LSH 的改进之一,在欧氏空间进行搜索。与基于树的索引方法相比,它们不但复杂度低、支持维数高,而且检索时间大大缩短,在图像检索、复制检测等方向都有应用。LSH和E2LSH作为ANN解决方案的基础在于相似性搜索并不一定要得出精确的最近邻,在许多情况下,近似最近邻提供的结果已经比较让人满意了,关键在于它能以更小的代价完成目标。但这是这个基础使得LSH不可避免的存在一定的随机性。这样的随机性如果得不到好的控制,就会影响算法的性能。如在基于视觉词典的图像和视频搜索工作中,可以用它来产生视觉词典,而视觉词典本身就存在着不确定性,如果对LSH聚类产生词典过程中不加以控制,它的随机性会加剧这种不确定性传播,严重影响最终结果。LSH的基本思想是如果两个点相距很近,那么在进行映射操作后,这两个点仍然相距很近。为了对这些点进行映射,要先建立哈希表。好的哈希表可以使一个点的查询在0(1)时间内和O(N)内存空间上完成查询,N是数据点的数目。在实现时,LSH用一系列哈希函数对数据点进行哈希,使那些比较接近的点对于每个哈希函数发生冲突的概率比距离远的点要大,也就是把比较相近的点哈希到同一个桶。这样,通过对查询点进行哈希并获取它所在桶中的标志就可以进一步得到比较近的邻居。哈希运算需要定义位置敏感哈希(LSH)函数。对于点域S,LSH函数族定义如下函数族W =〖A: 5'4 f/丨是位置敏感(locality sensitive)的,如果对于任何q,函数/;(/) = P,[h(q) = h[v) , , q-v , , =t]与t呈严格递减关系。也就是说,点q和V冲突概率随着它们之间的距离的增加而减少。这样,对于点V e B (q, R)和点"t /%, R),就有 p (I I q_v I I) >p (I I q_u | |)。LSH 函数族把点集S中的点哈希到某个域U,然后计算点q的哈希值,据此找到与它冲突的点。为减少运行时间,需增大
和[R,-]之间冲突概率的差距,可将多个函数AeW连接起来。例如,定义一个函数族! = {gS^Ul},g (V) = Qi1 (V),…hk (V)),其中A(/:) e W,并从0中选择独立且分不一致的L个函数gl,…组成哈希函数族。在预处理过程中,算法把每个点,eP存储在桶gj(v)中。给出查询点q后,算法搜索所有的桶gl,…&,并对某个桶中发现的每个点V计算q到V的距离,如果I |q-v| I ( R,则认为V就是算法要得到的点。LSH的欧式空间实现方案一E2LSH :初期的LSH的哈希函数是针对二进制汉明空间{0,l}d中的点的。虽然通过把I2空间嵌入到I1空间并把I1空间嵌入到汉明空间也能把算法扩展到I2范数,但这在很大程度上增加了算法的查询时间和错误率,也增加了算法的复杂度。E2LSH不需要嵌入就可以直接工作在欧式空间中的点上,它还可以工作在任何P e (O, 2]的Ip范数上。该方案继承了原始LSH的两个特点。其一是它很适合于维数很高但稀疏的数据点。尤其是当d是向量中非零元素的最大数目时,算法的运行时间限会保持不变。该特点是其它空间数据结构所不具有的。和线性扫描相比,该方案在速度上能够达到一个或几个数量级的巨大提高。其二是如果数据满足一定的有界增长特性(boundedgrowth property),它可以很快的找到精确的近邻。对于点q,c>l, N(q, c)代表S中q的c-近似近邻的数目。如果N(q,c)以c的函数按次指数(sub-exponential Iy)增长,并且给定常量因子去近似q到它的最近邻居的距离,那么,算法能够以固定概率在时间0(d logn)内找到最近的邻居V。特别地,如果N(q,c) =0(cb),运行时间是0(logn+2°(b))。E2LSH的哈希函数族是基于P-稳定函数的,并且对于P e (O, 2]的所有值都适用。稳定分布被定义为归一化独立同分布变量和的极限,稳定分布比较常用的例子是高斯分布。它的定义如下在m上的分布P被称为P-稳定分布,如果存在P > O对于η个实数
V1, νη和分布的独立同分布变量X1,…χη,随机变
权利要求
1.一种位置敏感哈希随机性减弱方法,其特征是首先,对数据点进行随机映射,然后,进行相似计算得出L个检索向量,再将L个哈希表对应的L个检索向量构造成矩阵,最后对该矩阵列元素进行频次投票得出最终索引山为大于等于I的自然数。
2.根据权利要求I所述的位置敏感哈希随机性减弱方法,其特征是每个哈希函数对数据点在一个方向上进行映射,通过增加哈希函数的数量来提高发现真实近邻的概率,哈希函数的数量为L个;每个哈希函数都对应于一个数据集映射的结果,L个哈希函数对应L个哈希表,使用L个哈希表进行检索需要对检索结果进行融合;采用频繁项投票的方法对检索结果进行融合,选取L个哈希表对应的检索结果出现次数最多的图像;对L个哈希表进行检索的结果记为Ip, q(xn),其中p=l,···, L, q=l,…,k, Xn表示图像在图像集的初始序号,Xn e [1,N],η = 1,…,k,N表示图像集的图像数目,k表示每个哈希表的检索结果数;对L个哈希表进行检索的结果用矩阵表示为 矩阵I的每一行对应于一个哈希表的检索结果,最终索引结果可通过对矩阵I每一列进行投票的方式得出,也就是统计矩阵I每列各元素频次,将出现次数最多的元素作为最终结果,最终索引结果记为R=G1,…Itl,…Ik),其中,Iq=OiiaxFreq(I1, q,…,I1^)),maxFreq(*)表示取频次最高元素,q=l, ···, kD
3.根据权利要求I所述的位置敏感哈希随机性减弱方法,其特征是所述L个检索向量为在多个检索向量的基础上确定的最终索引基准向量。
全文摘要
本发明涉及一种位置敏感哈希随机性减弱方法;具体为首先对数据点进行随机映射,然后进行相似计算得出L个检索向量,再将L个哈希表对应的L个检索向量构造成矩阵,最后对该矩阵列元素进行频次投票得出最终索引;每个哈希函数对数据点在一个方向上进行映射,通过增加哈希函数的数量来提高发现真实近邻的概率,哈希函数的数量为L个;L个哈希函数对应L个哈希表,使用L个哈希表进行检索需要对检索结果进行融合;采用频繁项投票的方法对检索结果进行融合,选取L个哈希表对应的检索结果出现次数最多的图像;本发明能综合利用多个哈希表的信息并得出与真实近似程度相当的结果,利用多表投票的方法能够达到降低检索结果随机性的目的。
文档编号G06F17/30GK102722554SQ20121017001
公开日2012年10月10日 申请日期2012年5月28日 优先权日2012年5月28日
发明者李弼程, 蔺博宇, 郭志刚, 高毫林 申请人:中国人民解放军信息工程大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1