一种基于数据感知的图像哈希方法_2

文档序号:9261733阅读:来源:国知局
化趋势图;
[0043] 图7(C)为本发明实施例中虚警率和漏警率随汉明距离在CALTECH测试集下的变 化趋势图;
[0044] 图7 (d)为本发明实施例中虚警率和漏警率随汉明距离在C0旭L测试集下的变化 趋势图;
[004引图8 (a)为本发明实施例与LSH方法在100W测试集下的PR曲线比较示意图;
[0046] 图8 (b)为本发明实施例与L甜方法在CALTEC肥56测试集下的PR曲线比较示意 图;
[0047] 图8(C巧本发明实施例与LSH方法在CALTECH测试集下的PR曲线比较示意图; [004引图8 (d)为本发明实施例与L甜方法在C0R化测试集下的PR曲线比较示意图。
【具体实施方式】
[0049]为了使本发明的目的、技术方案及优点更加清楚明白,W下结合附图及实施例,对 本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用W解释本发明,并 不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要 彼此之间未构成冲突就可W相互组合。
[0050] 本发明中,将主成份分析、顺序测度和局部保持投影应用于特征序列的处理方法 中。本发明的流程图如图1所示,下面具体说明本发明中的特征矢量处理方法的具体实施 步骤。
[0051] 第1步提取输入图像的特征矢量。对一幅输入图像,利用常用的图像特征提取算 法提取图像的特征作为图像的描述符进行后续的处理。
[0052] 第2步对特征矢量进行主成份分析,得到按特征值由大到小排列的特征矢量矩 阵。
[0053] 主成分分析是数学上对数据降维的一种方法。其基本原理是寻找一组互不相关的 向量组成低维空间,将原始数据映射到低维空间中,从而降低原始数据之间的相关性,达到 降维的目的。设有M个向量,每个向量具有P维数据,则原始的数据矩阵为:
[0054]
[00巧]其中,Xj= (X。',X2j. . .Xiy),j=1,2.. .P。
[0056] 如图2所示,为主成份分析几何示意图。下面介绍主成分分析的具体计算过程。
[0057] 第2. 1步计算每一列向量的均值,然后原始数据矩阵X的每一列减去其对应的均 值,使得得到的新的数据矩阵每列的均值为零。
[0058]
(2)
[005引 X; =Xi-meanil《i《p (3)
[0060] 第2. 2步计算新的数据矩阵的协方差矩阵covariance
[006U
(4)
[0062] 第2. 3步计算协方差矩阵covariance所对应的特征值和特征向量
[0063] 求出协方差矩阵covariance的特征值并按照从大到小的顺序排序,即
[0064] 入 1 >A2 > ...入P> 0 妨
[0065] 并求得特征值所对应的相互正交的特征向量:
[0066]

[0067] 第2. 4步将原始数据投影到新的坐标系中
[0068] newData=POX (7)
[0069] 其中PC=(a^a2. ..ap)。
[0070] 其中主成分分析(PCA)具有w下优点:
[ocm] (1)经过PCA处理之后,各维向量之间具有线性无关的性质,即经过处理之后的各 维向量彼此独立;
[0072] (2)由于主成分分析将数据从高维空间转换为低维空间,减少了数据的维数,所W 可W适用于快速的索引结构,从而提高查询效率;
[0073] (3)主成分分析变换后得到的数据是按照方差大小依次排列的,也就是相关性小 的成分排在前面,相关性大的成分排在后面。所W在实际的处理中,可W只选取前面的几个 成分而不会失去数据原有的信息。
[0074] 第3步对经过主成份分析之后的特征序列进行顺序测度,得到向量中的值在整个 向量中的位置序列。
[0075] 可用于顺序测度的方法有多种,例如:基于图像方向信息的测度、基于图像纹理的 复杂度与粗趟度的测度W及块的平坦测度等,在本发明实施例中,如图3所示,采用了基于 亮度的顺序测度方法。
[0076] 其中选用顺序测度的优势在于;顺序测度是基于排列而不是真正的值本身并且局 部保持投影能够保持原始数据的局部结构信息,所W经过处理之后的特征序列具有极低的 维度并且具有一定的抵抗几何攻击的能力。
[0077] 第4步对向量的位置序列进行局部保持投影,得到降维后的特征序列。
[0078] 在信息处理中,很多的问题都涉及到数据的降维。其中,局部保持投影(LP巧是一 种保持数据集中局部内在结构的线性投影算法。当将高维数据映射到低维空间中时,LPP通 过寻找Laplace特征函数的线性估计得到线性投影方向。LPP通过构造包含局部内在信息 的邻接图,利用图像拉普拉斯的概念,计算出将原始数据映射到子空间中的变换矩阵。该种 线性变换在一定程度上保持了数据集内在的结构信息。其算法过程如下:
[007引第4. 1步构造邻接图。假设G是具有Q个节点的图,如果X'i和X'j.是相邻的,贝U 在点X'i和点X'j.之间存在一条边;其中,X'i是位置序列矩阵X'中的第i列,X'j.是位置序 列矩阵X'中的第j列。判断x'i和x'j.是否相邻,可根据下述原则之一处理:
[0080] 1)e-近邻准则;当点X'i和X'J之间的欧几里得距离MXVX'JII《e时,Xi和 Xj之间存在一条边;
[0081]2)k-近邻准则:当X'i是X'J的k近邻中的一个,或者X'J是X'i的k近邻中的一 个时,则X'i和X'J之间存在一条边;
[0082]3)顺序度量准则:当X'i和X'J之间的顺序测度距离K(I。12)《d时,X'i和X'J 之间存在一条边,其中,K(1。12)为点X'i和X'j.之间的顺序测度距离。
[008引第4. 2步选择各边的权重。矩阵W是Q*Q的实数矩阵,W。代表点X'i和点X'J之 间的权重;当Wy为0时,表示点X'i和点X'j.之间没有边。权重的确定可按下列方法之一 处理:
[0084] 1)当点X'i和X'J之间是相连的,则W。=K(I。y,K(1。y为点X'i和X'J之 间的顺序测度距离;
[00财 2)当点X'i和X'J之间是相连的,则= 1;否则,= 0。
[0086] 第4. 3步计算特征映射。按照下式计算X'LX'T特征值和特征向量:
[0087] X'LX'Ta=AX'DX'Ta (8)
[0088] 其中,D是对角矩阵Du= 2j.Wy,L=D-W是拉普拉斯矩阵。
[0089] 第4. 4步投影变换。对'第4. 3步'中计算得到的特征值按从小到大的顺序排列, 并取前1个:《Ay,各特征值对应的特征向量分别为;au,ai...ai_i。其中 1为预设的比特序列的长度。则可按照如下公式将原数据集映射到新的坐标系中:
[0090] X'i一Yi=ATX'。A= (a〇,ai. . .ai_i) 巧)
[0091] 其中,Yi是1维的向量,A是n*l维的矩阵。
[0092] 第4. 5步投影优化。在实际的拷贝检测系统中,首先通过一个训练数据集得到LPP 特征映射矩阵。在其后的处理中,利用此特征映射矩阵将原始特征序列映射到一个低维的 空间中。但是由于此特征映射矩阵与训练数据集可能会产生过度拟合的现象,使得此矩阵 不能很好的描述新的数据集。因此在原有LPP算法的基础上,加入正则化处理,即在原有算 法的基础上,引入参数aI,其中I为对角矩阵。通过确定a的值,可W得到一个很好描述 新数据集的特征映射矩阵。
[0093] 上面提到,LPP是计算X'LX't的特征值与特征向量;当引入参数a之后,需要按照 式10示,计算X'LX'T+aI的特征值和特征向量,而后仍将得到的特征值按从小到大排序, 取前1个特征值对应的特征向量,则可按照公式(9)将原数据集映射到新的坐标系中。
[0094]
(;1〇)
[009引如图4所示,为不同参数a下的PR曲线图,从图中可W看出,当a取-1000时, 系统具有较好的查询性能,即得到的特征矩阵能够更好的表示新的数据集。
[0096] 第5步对降维后的特征序列进行二值化处理,得到01比特序列。
[0097] 二值化处理主要是将得到的低维特征转换为01比特序列,该些01比特序列方便 计算和存储,并且对于相邻的特征能够映射到相似的比特序列,即两个比特序列的距离小 于一定的阔值。下面介绍如何将上一节得到的低维空间特征转换为01比特序列。
[0098] 假设得到的N维的特征向量X' ' =(x' '1,X''2. . .X''W),首先计算特征向量的整体 均值
然后将特征向量的每一维与均值进行比较,如果大于均值mean,则对 应的比特位选择为1 ;否则为0。
[009引
(11)
[0100] 经由W上步骤产生的比特序列(哈希码)具有区分性强、紧凑高效且语义保持性好 的特点。即便在没有索引结构支持的条件下,仍能通过直接装入到内存,利用简单的X0R和 bit-count运算计算图像间汉明距离度量其相似性,完成大规模数据下的快速查询。
[0101] 通过本发明方法所得到的图像的比特序列可W应用于基于内容的图像相似性检 索。例如,将本方法应用于拷贝检测中,则可通过完成对两幅图像的比特序列进行相似性比 较,判断两
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1