一种基于耦合鉴别性字典的跨媒体哈希索引方法

文档序号:6629778阅读:547来源:国知局
一种基于耦合鉴别性字典的跨媒体哈希索引方法
【专利摘要】本发明公开了一种基于耦合鉴别性字典的跨媒体哈希索引方法。包括如下步骤:1)基于图结构对多个模态数据之间的关联关系进行建模;通过数据底层特征之间的欧氏距离确定同一模态内部的相似性,利用不同模态数据已知关联关系确定模态间的关联,利用数据所具有类别标签信息增强图结构上数据的鉴别性;2)在步骤1)中得到的图结构上数据的关联关系学习鉴别性的耦合字典;3)利用步骤2)中学习得到的耦合字典对不同模态的数据进行稀疏编码,并映射到统一的字典空间内;4)学习从字典空间到二值海明空间的哈希映射函数。本发明可以实现基于内容的海量数据的高效跨媒体检索,用户可以通过提交一种模态的检索例子去检索另外一种模态的媒体对象。
【专利说明】一种基于耦合鉴别性字典的跨媒体哈希索引方法

【技术领域】
[0001 ] 本发明涉及跨媒体检索,尤其涉及一种基于海量数据的跨媒体高效索引方法。

【背景技术】
[0002] 随着互联网技术的高速发展和社交网络的风靡,互联网上的多媒体数据的数量正 在以惊人的速度增长。多媒体数据具有如下几个特性1)由于多媒体数据具有复杂的语义, 因此难以直接进行度量。为了实现多媒体数据的度量,一般是先对其媒体数据所具有的特 征进行提取,然后将特征之间的相似度作为媒体数据之间的相似度。一般的,这些所提取的 特征往往是高维的,因此,多媒体数据的检索问题就转变为了高维数据的检索问题。2)多媒 体数据量十分庞大,传统的暴力线性搜索策略在处理大规模数据时候会产生极高时间复杂 度,无法满足用户在线搜索需求。为了克服这一困难,现在主流海量高维数据检索方法一般 采用哈希索引策略,也就是说,其用近似最近邻检索来代替传统精确最近邻检索。在哈希索 引中,给定海量高维媒体数据,可通过哈希函数将每个媒体数据映射为简短哈希编码,于是 可在哈希编码空间实现高维数据近似搜索。由于哈希编码的相似性计算非常高效,因此哈 希索引在实现海量数据近似查询时能取得很高查询性能。3)多媒体数据中广泛存在多种 媒体数据共生关系。举例来说,一张网络图像除了有图片本身外,还有一些描述信息(如标 题、用户的标注信息、评论信息等);一则新闻报道除了有文字的描述,通常还有与之相关 的新闻图片。如何合理地利用同一模态内数据的相似性以及不同模态间数据的已知关联关 系,在不同类型媒体数据之间建立"桥梁",使得不同模态的数据可以在统一的度量空间进 行相似性比较是一个非常重要的问题。
[0003] 结合以上几个特性,为了达到海量多模态的多媒体数据高效跨媒体检索这一目 的,一些跨媒体哈希索引算法被相继提出。已有的跨媒体哈希算法大多基于流形学习框架。 这些方法在学习哈希函数中会保留每个模态数据流形结构,同时将不同模态数据映射到同 一个子空间内,并将不同模态数据进行流形对齐。近年来,人们发现字典学习的方法可以很 好地用学习得到的字典对数据进行有效地表达,并在这种有效表达基础上来实现跨媒体哈 希索引。本发明提出的方法在其基础上更进一步,提出了鉴别性耦合字典这一概念,其将不 同模态数据映射到一个语义明确的字典空间内,并在耦合字典的基础上学习哈希函数,建 立跨媒体数据的哈希索引。


【发明内容】

[0004] 本发明的目的是克服现有技术的不足,提供一种跨媒体稀疏哈希索引的方法。
[0005] 基于耦合鉴别性字典的跨媒体哈希索引方法包括如下步骤:
[0006] 1)基于图结构对多个模态数据之间的关联关系进行建模;通过数据底层特征之 间的欧氏距离确定同一模态内部的相似性,利用不同模态数据已知关联关系确定模态间的 关联,利用数据所具有类别标签信息增强图结构上数据的鉴别性;
[0007] 2)在步骤1)中得到的图结构上数据的关联关系学习鉴别性的耦合字典;
[0008] 3)利用步骤2)中学习得到的耦合字典对不同模态的数据进行稀疏编码,并映射 到统一的字典空间内;
[0009] 4)学习从字典空间到二值海明空间的哈希映射函数。
[0010] 步骤2)包括:
[0011] 将步骤1)得到的图结构形式化表达为G(V,E,w,C);其中V为图结构中的顶点集 合,代表不同模态所对应的数据对象,E是图结构中边的集合,代表了每个顶点之间的关联 关系,w为边的权重集合,C为每个顶点对应的标签信息的集合;
[0012] 得到图结构G(V,E,W,C)后,基于图分割方法,给出了鉴别性耦合字典学习问题的 解决方法:从边的集合E中选择合适的子集A,4 S f,将图G分割成K个子图,将每个子图 中所包含数据对象的质心选择出来,形成一组耦合字典,假设总共有M个模态数据,就得到 了 M个耦合字典D1,D2, . . .,DM,每个字典中所包含的字典项个数都为K ;
[0013] 为了得到合适的子集A,设计了具有亚模性质的三个函数,这三个亚模函数分别具 有如下压缩性、鉴别性和平衡性;
[0014] 压缩函数:基于随机游走模型中的"熵率",设计了压缩函数,该函数使得每个子图 中的媒体对象之间距离尽可能近,从而使得每个子图都具有"紧凑"特性,即
[0015]H(A) = -SiUiSjPijj(A)IogPijj(A) (7)其中iii为顶点 i 稳态分布的概率, Pi, j (A)为顶点i到j的传递概率函数,定义如下:

【权利要求】
1. 一种基于耦合鉴别性字典的跨媒体哈希索引方法,其特征在于包括如下步骤: 1) 基于图结构对多个模态数据之间的关联关系进行建模;通过数据底层特征之间的 欧氏距离确定同一模态内部的相似性,利用不同模态数据已知关联关系确定模态间的关 联,利用数据所具有类别标签信息增强图结构上数据的鉴别性; 2) 在步骤1)中得到的图结构上数据的关联关系学习鉴别性的耦合字典; 3) 利用步骤2)中学习得到的耦合字典对不同模态的数据进行稀疏编码,并映射到统 一的字典空间内; 4) 学习从字典空间到二值海明空间的哈希映射函数。
2. 根据权利要求1所述的一种基于耦合鉴别性字典的跨媒体哈希索引方法,其特征在 于所述的步骤2)包括: 将步骤1)得到的图结构形式化表达为G(V,E,w,C);其中V为图结构中的顶点集合,代 表不同模态所对应的数据对象,E是图结构中边的集合,代表了每个顶点之间的关联关系,w 为边的权重集合,C为每个顶点对应的标签信息的集合; 得到图结构G(V,E,w,C)后,基于图分割方法,给出了鉴别性耦合字典学习问题的解决 方法:从边的集合E中选择合适的子集A,JSf,将图G分割成K个子图,将每个子图中所 包含数据对象的质心选择出来,形成一组耦合字典,假设总共有M个模态数据,就得到了M 个耦合字典D1,D2, . . .,DM,每个字典中所包含的字典项个数都为K; 为了得到合适的子集A,设计了具有亚模性质的三个函数,这三个亚模函数分别具有如 下压缩性、鉴别性和平衡性; 压缩函数:基于随机游走模型中的"熵率",设计了压缩函数,该函数使得每个子图中的 媒体对象之间距离尽可能近,从而使得每个子图都具有"紧凑"特性,即 H(A) = -ΣΣJPijj(A)IogPijj(A) (1)其中μi为顶点i稳态分布的概率,Pi, #)为顶点i到j的传递概率函数,定义如下:
鉴别函数:为了使每个字典项具有鉴别性,每个子图中的媒体对象应该尽可能具有相 同的标签,鉴别函数定义如下:
其中Na为当选出的边的子集A时所对应图G被分割出子图的个数;|V|表示顶点集合 中顶点的个数,表示第i个子图中标签为y的媒体对象个数; 平衡函数:为了防止出现子图所包含媒体对象个数不均衡的过拟合现象,即某些子图 可能包含很多媒体对象而一些子图仅包含有限媒体对象,从最大信息熵角度来如下定义平 衡函数: B(A)=-ΣiPA(i)log(pA(i))-Na (4) 其中'RiW= =t'H…可表示每个子图的分布情况。 将如下三个函数结合起来,使用如下目标函数来学习得到合适的子集A,即产生合适的 子图: maxAH(A) +AD(A) +YB(A) (5) s.t.. A^Ea:idNa 2:K λ和γ为调节它们所对应函数权重的超参数,这些参数可通过参数优化调节过程来 获得。
3.根据权利要求1所述的一种基于耦合鉴别性字典的跨媒体哈希索引方法,其特征在 于所述的步骤4)包括: 为了将K维稀疏编码转化为L维二值海明编码,从而高效进行媒体对象检索,需要学习 将媒体对象从字典空间映射到海明空间的哈希函数;假设Z= [Ζ1,Ζ2, ...,Zm]为具有M种 模态类型的训练数据在字典空间中的稀疏编码集合,构建近似近邻矩阵#= ,其 中Λ=diag(Zl)为对角矩阵,由于近邻矩阵f▼具有非负、稀疏以及低秩特性,对进行特 征值分解后,选取前L个最大特征值以及它们各自所对应特征向量·[(!+、,,则学习 得到的哈希函数定义如下:h (z) = sign (P1Z) (6) 其中p=Λ-ι/2νΣΓι/2e 为将媒体对象从K维字典空间映射到到L维海明空间的 投影矩阵,V= [VA,…,vJerKXL,Σ=diag( 〇pσ2,…,σL)eRLXL,sign( ·)为阈 值为〇的二值化函数。
【文档编号】G06F17/30GK104317838SQ201410532084
【公开日】2015年1月28日 申请日期:2014年10月10日 优先权日:2014年10月10日
【发明者】汤斯亮, 邵健, 余宙, 吴飞, 庄越挺 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1