一种基于高维数据过滤器的近似成员查询方法

文档序号:6631581阅读:544来源:国知局
一种基于高维数据过滤器的近似成员查询方法
【专利摘要】本发明公开了一种基于过滤器的高维数据近似成员查询方法,通过定义新的距离敏感哈希函数支持的新结构分别来表征目标数据集合中的多维数据和待查询的多维数据,不需要重新构造过滤器,能够支持更多的过滤距离参数的近似成员查询,大幅度减少了空间代价,本发明使用了多个函数组数,且每个函数组数包含多个函数,在最终确认是否目标数据集合Ω的近似成员时使用“与-或”结合的方式进行判断,能够降低过滤器的假阴性率。
【专利说明】一种基于高维数据过滤器的近似成员查询方法

【技术领域】
[0001] 本发明涉及一种近似成员查询方法,尤其是涉及一种基于高维数据过滤器的近似 成员查询方法。

【背景技术】
[0002] 在很多应用领域中,如果查询数据与目标数据的距离越近,数据的价值就越高。例 如,安全官员想要检查某未知的物质(具有某些可检测的高维特征)是否属于清单所列的 危险化学品;网络管理员想要知道某用户的行为特征是否有害;摄影比赛裁判想检查提交 的照片是否与某一张大型数据库中的照片类似。这些查询都需要判断查询数据与(目标数 据)集合中数据的距离。如果是低维的小数据集,可通过线性查找解决,但是对一个海量的 高维数据集采用线性查找匹配的话,会非常耗时,很多情况下无法满足实时的需要。为提高 处理的速度,可以设置一个高维数据过滤器代表目标数据集合,根据距离过滤掉大部分查 询数据,少量剩下的数据可以再通过常规方法进一步处理,可显著提高系统的整体性能。
[0003] 这个过滤器完成的就是近似成员查询(Approximate Membership Query, AMQ),即 回答"查询数据是否接近于数据集合中的某个数据"。现有AMQ过滤器主要是结合LSH (距 离敏感哈希,Locality-Sensitive Hashing)和Bloom filter(布鲁姆过滤器)技术的,其主 要代表有 DSBF(Distance-sensitive Bloom filters)和 LSBF(Locality-sensitive Bloom filters) 〇
[0004] DSBF首次综合LSH和Bloom filter的方法来过滤AMQ查询,其返回组成员的近似 查询结果,近似度可采用不同的衡量标准,它可以改善网络和数据库应用程序的速度和空 间,从而避免对完整的最近邻查询等代价昂贵的比较操作。LSBF是DSBF的改进,使用LSH 函数来构造Bloom filter过滤AMQ查询,LSBF还采用了额外的位向量来降低假阳性率。 [0005] 但是,使用DSBF和LSBF这两个技术来过滤AMQ查询都有一个限制,即他们仅能过 滤给定距离的AMQ查询。然而,给定一个合适的距离并不容易,过大或过小的距离值,可能 会导致不可接受的查询结果。而一旦过滤器的过滤距离参数固定后就不能改变,如需要同 时过滤多个不同的距离值,则需要根据原始数据重新构造过滤器,也即改变过滤距离参数。 然而,为节省空间,原始数据一般并不保存。其次,DSBF和LSBF的假阴性率较高。


【发明内容】

[0006] 本发明所要解决的技术问题是提供一种基于过滤器的高维数据近似成员查询方 法,在原有的固定过滤距离参数的过滤器的基础上,不需要重新构造过滤器,即能够实现更 多的过滤距离参数的近似成员查询。
[0007] 本发明解决上述技术问题所采用的技术方案为:一种基于过滤器的高维数 据近似成员查询方法,将目标数据集合定义为Q,并将距离敏感哈希函数H定义为

【权利要求】
1. 一种基于过滤器的高维数据近似成员查询方法,其特征在于将目标数据集合定义 为Ω,并将距离敏感哈希函数H定义为
,其中t = 1,2,…,k,j = 1,2,…,L,L为函数组数,k为每一函数组中的函数个数,ο是多维数据,at,j是与ο维数相 同的随机向量,其每一维的数据符合标准正态分布,?是点积运算,2ew是距离过滤参数,Θ =0, 1,2,…,S-l,S为过滤距离的种类数,w是正实数定义的最小距离过滤参数,L」是下取 整运算,然后进行以下步骤的操作: (1) 构建一个容量为111,地址为0到111-1的位向量,定义为810^?,并设定810^?[1]= 0, i = 0, 1,2,…,m_l ; (2) 对目标数据集合Ω中的任意一个多维的数据0y,用Θ =〇时的距离敏感哈希函 数进行表征,即
,其中y = 1,2, ···,!!,并在BMLBF中kXL个位置置1, 即
(3) 将待查询的多维数据定义为q,然后用上述的距离敏感哈希函数进行表征,即
(4) 将第j组的k个哈希值,S卩
分别转换成2进制数据, 并在其后接上Θ个0成为k个地址,定义为Au, A2,p…,Ak j ; (5) 如8厘1^卩[六1,」],8厘1^卩%,」+1],...,8厘1^卩[六1,」+2 0-1]中有一个为1,则定义六1」地 址通过;如A1^Au,…,A lu都通过,则定义第j组通过;如果L组中任意一组通过,则确认 q是目标数据集合Ω的近似成员。
【文档编号】G06F17/30GK104391866SQ201410578880
【公开日】2015年3月4日 申请日期:2014年10月24日 优先权日:2014年10月24日
【发明者】陈叶芳, 钱江波, 陈华辉 申请人:宁波大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1