基于经验拟合的局部敏感哈希图像检索参数优化方法与流程

文档序号:16208984发布日期:2018-12-08 07:29阅读:269来源:国知局
基于经验拟合的局部敏感哈希图像检索参数优化方法与流程

本发明涉及一种参数优化方法,尤其涉及一种基于经验拟合的局部敏感哈希图像检索参数优化方法,属于图像处理领域。

背景技术

随着数据时代的到来,互联网上的图像、视频、音频等多媒体数据的处理量急剧增长。图像、视频等数据需提取的特征维度达到几百维甚至上千维,而这些高维数据往往呈现出非结构化特性,在处理高维数据时传统的数据处理方法不能满足要求,给相似性数据检索和语义分析等算法带来了巨大的困难。基于内容的图像检索方法,并不依赖于关键字来搜索,而通过提取图像的内容特征来进行图像匹配。其中基于图像特征的局部敏感哈希算法在处理高维数据时表现出了良好的性能,使其成为了近年来的研究热点。

局部敏感哈希(localitysensitivehash)算法作为最具代表性的哈希索引技术之一,是由indyk和motwani在1998年提出来的。其基本思想是对数据点集利用一组哈希函数建立多张哈希表,使得经过哈希映射后相似的点冲突的概率大,而不相似的点冲突的概率很小。自从算法提出以来,与其有关的各种哈希索引方法相继被提出。p稳定局部敏感哈希将空间距离计算由汉明空间转移到欧式空间;基于熵的局部敏感哈希在查询项的周围随机产生扰动对象作为查询项集合,这种算法是以时间为代价来减少空间的消耗;多探针局部敏感哈希通过大量实验结果指出几乎所有候选查询结果与查询对象在相同或者相邻的映射桶内,并据此提出有效的索引方案。

局部敏感哈希的性能对几个参数非常敏感,而这些参数必须由算法实现时选择。算法中需要确定的参数有:区间大小w,哈希函数个数k,哈希表个数l,查询范围r。局部敏感哈希算法通过固定其中一个参数部分解决了这个问题。然而,算法的实现过程仍然留下了为其它参数寻找最优值的问题。算法中参数的调整过程既单调乏味又严重阻碍算法的应用,并且在目前的行业内,对于这些参数值的选取问题,缺乏系统性、规范性的指导。再加上局部敏感哈希函数参数选择的随机性,在单个局部敏感哈希函数的情况下,可能将不相近的数据点都映射成同一个哈希值,从而导致误差。

综上所述,如何提出一种局部敏感哈希图像检索参数优化方法,保证算法的精确率及召回率,就成为了当下推荐算法的研究难点。



技术实现要素:

鉴于现有技术存在上述缺陷,本发明的目的是提出一种基于经验拟合的局部敏感哈希图像检索参数优化方法。

具体而言,一种基于经验拟合的局部敏感哈希图像检索参数优化方法,包括如下步骤:

s1、定义局部敏感哈希函数族h;

s2、设k为局部敏感哈希函数的个数,l为哈希索引表的个数,当l,r,w的值确定时,计算出k值;

s3、从h中取k个函数,定义k维局部敏感哈希函数族g;

s4、从g中取l个哈希函数,建立l张哈希索引表。

优选地,s1所述定义局部敏感哈希函数族h,包括如下步骤:

设任一图像都能表示为d维特征向量空间rd中的一个点,所有图像构成d维特征向量数据集d,定义局部敏感哈希函数族h={h|d→u}为从数据集d到整数域u的映射,

其中,v∈d是任一图像的特征向量,a是d维正态分布随机向量,b为[0,w]上均匀分布的随机实数,w为表示映射区间大小的整数。

优选地,s2中所述k值的计算公式为:

优选地,s3中所述局部敏感哈希函数族g={g|d→uk}为从数据集d到k维整数域u的映射,

g(v)=(h1(v),...,hk(v)),

其中,hi(v)∈h,i∈[1,k]。

优选地,s4所述从g中取l个哈希函数,建立l张哈希索引表,包括如下步骤:从g中取l个哈希函数,gl(v)∈g,l∈[1,l],对于所有v∈d,利用gl(v)建立l张哈希索引表。

优选地,所述l的取值范围为[1,1000]。

优选地,所述w>r。

优选地,所述v为高维向量,所述d>100。

优选地,当l>100且k>13时,精确率和召回率的加权调和平均值f1>0.9。

与现有技术相比,本发明的优点主要体现在以下几个方面:

本发明通过回归分析的方法得到了一个局部敏感哈希图像检索参数优化的经验公式,使用该经验公式能够有效地减少计算步骤,降低算法参数优化的复杂度,提高算法运行效率。

同时,本发明基于该经验公式的局部敏感哈希图像检索算法接近理论最优,能使算法获得较高的f1,从而获得优良的算法性能。

此外,本发明的方法也为同领域内的其他相关问题提供了参考,可以以此为依据进行拓展延伸,运用于领域内的其他算法、分析项目中,具有十分广阔的应用前景。

综上所述,本发明提出了一种基于经验拟合的局部敏感哈希图像检索参数优化方法,具有很高的使用及推广价值。

以下便结合实施例附图,对本发明的具体实施方式作进一步的详述,以使本发明技术方案更易于理解、掌握。

附图说明

图1是本发明方法对于局部敏感哈希图像检索的流程图。

具体实施方式

如图1所示,本发明揭示了一种基于经验拟合的局部敏感哈希图像检索参数优化方法。

具体而言,一种基于经验拟合的局部敏感哈希图像检索参数优化方法,包括如下步骤:

s1、定义局部敏感哈希函数族h。

s2、设k为局部敏感哈希函数的个数,l为哈希索引表的个数,当l,r,w的值确定时,计算出k值。在本实施例中,所述l的取值范围为[1,1000],且l取值越大,本发明的使用效果越好。所述w>r。

s3、从h中取k个函数,定义k维局部敏感哈希函数族g。

s4、从g中取l个哈希函数,建立l张哈希索引表。

s1所述定义局部敏感哈希函数族h,包括如下步骤:

设任一图像都能表示为d维特征向量空间rd中的一个点,所有图像构成d维特征向量数据集d,定义局部敏感哈希函数族h={h|d→u}为从数据集d到整数域u的映射,

其中,v∈d是任一图像的特征向量,a是d维正态分布随机向量,b为[0,w]上均匀分布的随机实数,w为表示映射区间大小的整数。所述特征向量v为高维向量,所述维度d>100。

s2中所述k值的计算公式为:

s3中所述局部敏感哈希函数族g={g|d→uk}为从数据集d到k维整数域u的映射,

g(v)=(h1(v),...,hk(v)),

其中,hi(v)∈h,i∈[1,k]。

s4所述从g中取l个哈希函数,建立l张哈希索引表,包括如下步骤:从g中取l个哈希函数,gl(v)∈g,l∈[1,l],对于所有v∈d,利用gl(v)建立l张哈希索引表。

需要说明的是,在本实施例中,当w=5,r=2,l>100且k>13时,使用本发明算法的精确率和召回率的加权调和平均值f1>0.9。

为了验证本发明的消息转发方法能够有效实现减少副本开销,特列举一验证例进行说明。

本验证例中,假设哈希索引表个数l=100,映射区间大小w=5,查询范围r=2,为了使该查询的精确率和召回率的调和平均f1取得最大值,局部敏感哈希函数个数k的值由以下经验公式计算:

然后利用k,l按照s3和s4中的方法选取哈希函数,建立图像的哈希索引。理论分析和实验验证表明,当k=13,l=100,w=5,r=2时可得f1=0.918。

上述结论可以证明,本发明的基于经验拟合的局部敏感哈希图像检索参数优化方法,通过加入经验公式快速的计算出算法里涉及的参数,使得算法参数优化的复杂度降低很多,提高了实验的运行效率。该方法算出的参数运用在局部敏感哈希图像检索里,与理论最优非常接近,不仅减少了确定参数的时间,还可以获得较高的f1。从而获得优良的算法性能。

此外,本发明的方法也为同领域内的其他相关问题提供了参考,可以以此为依据进行拓展延伸,运用于领域内的其他算法、分析项目中,具有十分广阔的应用前景。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神和基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1