多特征联合哈希信息检索方法

文档序号:6632410阅读:1092来源:国知局
多特征联合哈希信息检索方法
【专利摘要】本发明涉及一种多特征联合哈希信息检索方法,其特征在于包括如下基本步骤:一是建立目标函数:保护目标空间的数据分布,同时得到NMF中的紧凑矩阵基并且减少冗余;二是交替优化:通过一个迭代的过程,优化U和V,得到基算子U和低维数据V的更新规则;三是整体收敛:通过原始的目标函数,然后进行交替迭代;四是哈希函数的生成:通过计算训练数据和测试样本之间的汉明距即XOR运算,得出最终的结果;五是复杂度分析:对上述步骤1-4的方法进行复杂度分析。本发明能够有效地保护数据的概率分布,减少低维数据的冗余,使得学习到一个可融合从多个源中得到的多种表示,同时通过RKNMF来保护高维联合分布和获得正交基的哈希嵌入函数。
【专利说明】多特征联合哈希信息检索方法

【技术领域】
[0001] 本发明属于计算机信息数据处理【技术领域】,特别是涉及一种用于计算机视觉、数 据挖掘、机器学习或相似搜索的多特征联合哈希信息检索方法。

【背景技术】
[0002] 哈希码的学习在信息处理及分析等领域中起着关键的作用,如物体识别、图像检 索和文档理解等。随着计算机技术的进步和万维网的发展,大量的数字数据需要相似信息 的可拓展检索。相似性搜索的最基本也即最本质的方法是最近邻搜索:给一个查询图像, 在一个巨大的数据库中寻找出和其最相似的一张图片并且对这个查询图像贴上与最近邻 域相同的标签。由于实际应用中数据库较大,最近邻域搜索是不可扩展的线性搜索方法 (O(N))。为了克服计算的复杂度问题,近来一些基于树的搜索方法被提出去分割数据空间, 其中,KD-树和R-树被成功地应用在了快速响应检索数据中。然而,这些方法并不适合于 高维数据并且相对于线性而言不能保证快速搜索。实际上,由于视觉算子经常会有成百甚 至上千的维度,大部分的基于视觉的任务都会遭受维度灾难。于是,又有一些哈希方法提出 了有效地从高维特征空间到保形的低维汉明空间的数据嵌入,其中在低维空间的中,可以 找到给出的测试样本的最近邻的估计和次线性的时间复杂度。
[0003] 最著名的哈希方法之一是基于保形的局部敏感哈希(LSH)。LSH简单的使用随机 线性投影(随机门限值)使欧几里德空间中的数据点靠近。谱哈希是典型的非监督哈希方 法,用多样本的拉普拉斯-贝尔特拉米特征函数去确定二进制码。此外,PCA哈希(PCAH) 这样的原则线形投影比随机投影哈希有着更好的量化。另外一种比较出名的哈希方法,锚 图哈希(AGH)可以通过易处理的低阶邻接矩阵学习紧凑的二进制码。AGH可以把图拉普拉 斯特征向量推到特征函数上。
[0004] 然而,以前的哈希方法都是主要集中于单个特征。在它们的构架中,只有一种特征 算子被用作学习哈希函数。事实上,为了获得一个更综合的描述,图片或者物体经常通过不 同种类的特征表示,同时每一个特征有它自己的特点。只有融合这些不同的特征算子到哈 希函数中,才会得到多特征的哈希方法。最近,为了有效的相似性搜索,一些多特征的哈希 方法被提出,如多特征的锚图哈希(MVAGH),连续更新的多特征谱哈希(SU-MVSH),多特征 哈希(MVHCS),多信息源的复合哈希(CHMIS)和深度多特征哈希(DMVH)。这些方法主要依 靠谱,图和深度学习的方法去完成数据结构的保形。然而,单纯的只结合以上方法的哈希对 噪声敏感,并且有着很高的计算复杂度。
[0005] 在数据挖掘中,NMF方法不同于其它的含有正负值的嵌入方法,适合子空间的学 习,它提供了包含物体局部部分的基,可用于聚类,协同过滤,孤立点监测等。如NMF可以 学习物体的非负部分,给出一个非负数据的矩阵:X=[^,···,X的每一列都是一 个样本数据,NMF的目标是找到可以近似的表达原始矩阵的两个满秩的非负矩阵lie 和 Ve 如X ^ UV ;实际上总是有d < min(D,N),于是得到以下最小化的目标函数:
[0006]

【权利要求】
1. 一种多特征联合哈希信息检索方法,其特征在于包括如下基本步骤: 步骤1建立目标函数:保护目标空间的数据分布,用热核公式构建相关的NXN的核矩 阵,同时得到NMF中的紧凑矩阵基并且减少冗余; 步骤2交替优化:通过一个迭代的过程,优化U和V,得到基算子U和低维数据V的更 新规则; 步骤3整体收敛:通过原始的目标函数,然后进行交替迭代; 步骤4哈希函数的生成:将得出的低维实数根据门限值的划分转换为二进制码,使用 多变量的回归方法来准确地找到相关的哈希函数,计算训练数据和测试样本之间的汉明距 即XOR运算,得出最终的结果; 步骤5复杂度分析:对上述步骤1-4的多特征联合哈希信息检索方法进行复杂度分析。
2. 根据权利要求1所述的一种多特征联合哈希信息检索方法,其特征在于所述步骤1 建立目标函数包括如下具体步骤: 步骤I. 1 :给出第i个特征训练数据用热核公式构建相关的 NXN的核矩阵:Ifr (xf, ) =cxpCHUjfx|-:l2/2r:),vp,q,其中τ是相关的可变参 数,从每一个特征数据IK1,…,KJ可以计算出多核矩阵,If:e?g:y,V:-; 步骤I. 2 :定义融合矩阵为具*其中= 1,β·: 2〇, 为得到一个更加有 意义的低维矩阵分解,为二进制码V= [V1,…,vN]设定一个约束作为相似概率正则化,可 利用它保护目标空间的数据分布,其优化可表示如下:
其中,= 是在第i个特征空间中之间的对称联合概率; 采用高斯函数去衡量它:
其中,σ是高斯平滑参数,可以估量欧几里德距离; 步骤1. 3 :第i个特征的相似概率正则化可以被降低成:
其中,Li =D⑴-w(i),『) €rvc是对称相似矩阵,D⑴是输入为 的对角矩阵;为同时得到NMF中的紧凑矩阵基和减少冗余,希望NMF的基矩 阵尽可能的正交,如UtU-I= 0,同时最小化I|UTU-I|I2并且让U近似正交; 步骤1. 4 :结合以上的两个约束条件进行优化如下:
其中,Y和η是两个可以平衡NMF的近似误差和附加约束的正系数。
3.根据权利要求1所述的一种多特征联合哈希信息检索方法,其特征在于所述步骤2 交替优化包括如下具体步骤: 步骤2. 1 :首先把公式(6)中不连续的Ve{〇,l}dXN放到域VeRdXN上,为保持NMF去 获得一个更优化的解,通过一个迭代的过程,优化(U,V)分为两步,其α在区间U1,…, αη)之间,每一步的U、V和α都被不停的优化,并且下一步再次迭代,直到收敛迭代过程才 停止; 步骤2. 2 :优化U和V首先确定α,替换和Ι.=Σ?Ι?;运用拉格朗日乘数函 数:
公式(7)中的Φ和Ψ是两个矩阵,为使U和V都大于等于0,其中所有的元素均为拉 格朗日乘数,然后让A的偏导数相对于U和V为0,如t.rA=〇,即可得:
步骤2. 3 :运用KKT条件,有互补松弛性条件Φ= 0和在公式⑶ 和(9)的相关元素乘上Uij和Vij,对Uij和Vij有以下的公式: (-kvt+uvvt+2nuuTu-2nu)JjUij =ο(?ο), (-UTK+UTUV+yVL)JjVij =O(11), 于是,和标准的NMF过程类似,可得到更新规则如下:
其中?+:i:和胃=SiUff旧:::,为确保U和V中的所有元素均为正值,U需要进 行归一化,U和V都具有收敛性,已经证明了U和V的每一次更新,目标函数都单调不增加; 步骤2. 4 :为确定U和V,忽略不相干的范数,定义拉格朗日函数如下:
其中,λ和β= (P1,…,βη)是拉格朗日乘数,相对于α,λ和β的£:的偏导数, 如^^4=〇和%4 2〇,需要:
同时有互补松弛条件: βjα』=0,j= 1,…,η (18), 步骤2. 5 :对一些j而言,α」=〇,尤其J={jIα」=〇},优化的结果会包含一些〇 ;在 这种情况下,与最小化+〗-UYF的优化过程不同;不失一般性,设,> 0,巧;然后, β= 0 ;从公式(15),可得:
如果将以上的公式转化到矩阵中并且定义Tj =tr(UVKj)-Ytr(VL」VT)/2,可得:
可用AaT =B表示公式(20),矩阵A实际上是Ki基于F内积的格拉姆矩阵〈ΚρK,=tr^K/) =tr(KiKj); 步骤 2· 6 :让M=(vec(K1),…,vec(Kn)),其中vec(Ki)是Ki 的向量化,然后A=MTM, 从η个不同的特征得出的核矩阵K1,…,Kn是线性不相关的;结合公式(17)且消除λ,可 得到以下线性公式:
可用表示公式(21);根据不同特征的变化,I= (1,…,1)和A中所有行都是线 性不相关的;然后有r(i)=rL4) -1 +?=0;于是,I的逆存在并且,=H,,
4. 根据权利要求1所述的一种多特征联合哈希信息检索方法,其特征在于所述步骤3 整体收敛为如下具体步骤: 步骤3. 1:通过L(U,V,α)在公式(6)定义原始的目标函数,然后交替迭代过程可以表 示为:
干县,有下而的不等式:
即:m-c?时,L(u?,ν?,α ?)是单调不增加的,有L(u,V,α)彡〇,然后交替迭代收 敛。
5. 根据权利要求1所述的一种多特征联合哈希信息检索方法,其特征在于所述步骤4 哈希函数的生成包括如下具体步骤: 步骤4.1:计算出权向量a= (Ci1,…,αη),融合核矩阵K和联合概率拉普拉斯矩阵L。于是,从公式(12)和公式(13)得到多特征RKNMF基UeRNXd和低维表示VeRdXN,其中 d <<Di,i=丨,…,n,将以上的低维实数V= [Vi,…,Vn]表示且根据门限值的划分转换 为二进制码,如果Vp中的第1个元素比门限值大,那么iVS: =1;否则为〇,其中P= 1,…,N和 1 = 1,…,d; 步骤4. 2:为确保语义哈希的效率,一个好的语义哈希算法应该是熵最大化的;同时, 从信息量的原则可知,通过一个均匀的概率分布,信源可以到达一个最大的熵;如果在数 据上的码的熵很小,整个文件会被映射到一小部分的码上;为满足熵最大化原则,Vp中元素 的门限值采用Vp的中值;因此,一半数值会被设为1,另外一半设为0,以将实数码计算成二 进制码; 步骤4. 3:使用多变量的回归方法来准确地找到相关的哈希函数;在分布中YiIXi?Bernoulli(Pi),i=l,···,]!,对参数为Θ的函数Pr(Yi =IlXi=X)=Ii0(X),似然函数为 KUHrΧ=λ+;)=區AClPCi- 根据最大对数似然函数准则,定义逻辑回 归函数为:
其中,= (1/(1,是Vp中的每一个部分的回归函数; 公式; log(x) = (Iog(X1), .",I(Dg(Xn))1^X= (X1, .",xn)TeRn ;<,,> 表示了 内积;Θ是 大小为dXd的相关的回归矩阵;1表示了NX1矩阵,采用δI IΘI I2作为逻辑回归中避免 过拟合的正则化项; 步骤4. 4:为了最小化J(?),提供一个标准的梯度下降算法;学习率为Y的更新公式 为:
更新公式会当?付和之间的差异,11 ?付-?」I2,到达收敛,然后可得到回归矩阵Θ,再通过公式(24)的嵌入,如最近整数函数; 步骤4. 5:上述方法给出一个样本,可通过热核函数,先计算出每一个特征的相关 核矩阵…其中#w是NX1矩阵,Vi,然后通过优化权重α融合这些核: 和通过线性映射矩阵P= (UtUK1Ut获得低维实数表示,由于he 函数,最终新的样本的哈希码被计算得出:
其中,函数Ll是对he每一个值取最近整数。事实上,门限值为0.5,它有属性hee(〇,1)去二进制化如果he(P*Kn?)的输出比特比0.5大,标这个比特为1,否则 为0,这种情况下,可得到对任意数据点的最终多特征联合哈希码; 步骤4. 6 :上述是一种嵌入方法,所有的训练样本和测试样本都是经过多特征RKNMF优 化和逻辑回归去确保它们在同一个子空间,不需要再训练,相关的MH在下面的过程中描 述: 多特征联合哈希检索方法(MH),输入: 通过热核计算从η个不同的特征得到的一组训练核矩阵:IK1,…,KJ; 哈希码的目标维度d; 逻辑回归的学习率r和正则化参数{γ,η,ξ}; 输出:核权重α= (Q1,…,αη)基矩阵U和回归矩阵θ;具体表达如下: 一是通过公式(4)对每一个特征计算相似矩阵W(i); 二是初始化ct= (1/n, 1/n,…,1/n); 二是重复; 四是通过公式(12)和公式(13)计算基矩阵U和低维矩阵表示V; 五是通过公式(21)获取核权重,=,4夂鳥 六是直到收敛; 七是通过公式(23)计算回归矩阵Θ,最终的对一个样本的MH编码在公式(24)中定 义。
6.根据权利要求1所述的一种多特征联合哈希信息检索方法,其特征在于所述步骤5 复杂度分析为如下具体步骤: MH学习的复杂度主要包含两个部分:第一部分是热核的构建和对不同特征的相似概 率的正则化,如KJPLi ;从3. 1可得,该部分的时间复杂度为〇(2 Λ=);第二部分是 交替优化,在更新(U,V)的步骤,矩阵分解的时间复杂度为0(N2d),α的更新在MH中的复 杂度为〇(n2N2);所以,MAH的时间复杂度为ο(2(ΣΓ=5Λ)妒+Tx(炉rl+fiT)),其中T为 交替优化的迭代次数;从经验分析得出,T会比10小,也就是MH会在10个循环内收敛。
【文档编号】G06F17/30GK104462196SQ201410598595
【公开日】2015年3月25日 申请日期:2014年10月30日 优先权日:2014年10月30日
【发明者】邵岭, 蔡子贇, 刘力, 余孟洋 申请人:南京信息工程大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1