一种基于最优编码的监督离散哈希的图像检索方法

文档序号：10724940阅读：337来源：国知局

一种基于最优编码的监督离散哈希的图像检索方法
【专利摘要】本发明公开了一种基于最优编码的监督离散哈希的图像检索方法，该方法首先将所有训练样本和测试样本通过高斯核映射到核空间，求解最优编码；将每个训练样本的哈希码映射到其对应的最优编码，然后求解对应的投影矩阵；求解平移向量；求解针对核化样本的投影矩阵；通过离散循环坐标下降法求解哈希码，反复迭代进行直至算法收敛。本发明提高了在图像检索应用中的精度，使得检索的结果更加精确，更加适应于精准检索，很好地改善了用户体验。本发明更具有通用性，可用于公共安全、信息安全、金融安全的防护和监督。
【专利说明】
一种基于最优编码的监督离散哈希的图像检索方法
技术领域
[0001] 本发明涉及模式识别、机器学习、数字图像处理和计算机视觉技术领域，具体涉及一种基于最优编码的监督离散哈希的图像检索方法。
【背景技术】
[0002] 图像检索，是计算机视觉、模式识别和数字图像处理领域一个很热门的研究问题，备受研究者们的广泛关注。图像检索技术的目的是输入计算机一个图像，让计算机输出与其相似的众多图像。图像检索作为一个科学问题，是一个典型的图像分析与理解、模式分类的计算机问题。它涉及模式识别、运筹学、机器学习、数字图像处理和计算机视觉等众多学科。图像检索技术在公共安全、信息安全、互联网安全和经济等领域具有广阔的应用前景和市场前景、巨大的研究价值。
[0003] 哈希方法是一种实现图像检索的有效的机器学习方法，因为将图像转化成二值哈希码，通过汉明距离就能快速比较两个图像的相似度，相对欧氏距离，计算效率很高，而且极大降低了特征存储空间。对哈希码添加整数约束，是一个混合的整数优化问题，是NP难问题。为了简化在哈希码学习过程中的优化问题，大多数哈希方法首先不考虑离散约束，解决一个放松的问题，然后再通过量化将实数值转化成二值哈希码。这个放松的策略极大地简化了原始的离散优化问题。然而，这样一个放松的策略显然是次优的，通常质量低。在学习比较长的哈希码时，可能是因为聚集的量化错误，得到的哈希码不是很有效。大多数哈希方法没有考虑在哈希学习中离散优化的重要性。为此，Fumin Shen等在2015年提出一个名为 "监督离散哈希"（supervised discrete hashing，简称SDH)[F.Shen，et al./'Supervised discrete hashing,^in Conference on Computer Vision and Pattern Recognition, 2015，pp.37-45]的图像检索方法，该方法没有采用放松的策略，直接优化学习二值哈希码。 [0004]如今，随着大数据时代的来临，我们需处理的图像数据规模往往非常大，算法的精准性愈发重要，如果检索返回的结果大多数是不相关的，不是用户想要的结果，则会导致用户体验很差。而"监督离散哈希"的精准性还有待进一步提高。因此针对实际环境下处理大规模图像数据的需求，如何利用哈希学习精准地实现图像检索，是本领域技术人员需要解决的问题。

【发明内容】

[0005] 本发明的目的在于克服上述已有技术的不足而提供一种基于最优编码的监督离散哈希（optimal code for supervised discrete hashing，简称0SDH)的图像检索方法，其可以提尚图像检索方法的精准性。
[0006] 为了实现上述目的，本发明采用以下技术方案：
[0007] -种基于最优编码的监督离散哈希的图像检索方法，包括步骤：
[0008] 步骤S1，训练样本用I = /Γ "表示，其中n和d分别是训练样本的个数和维数，Xl表示第i个训练样本，R是实数集合；
[0009] 测试样本用Γ=匕丨二表示，其中m表示测试样本的个数山表示第j个测试样本；
[0010] 将训练样本和测试样本进行归一化，然后通过高斯非线性核映射至核空间得到训练样本和测试样本的核化表达矩阵Φ (X)和Φ (T);
[0011] 随机生成针对训练样本的初始哈希码忍=e Ι-Ι,ΙΓ"，其中1代表哈希码的长度表示第i个哈希码；
[0012] 训练样本的标号矩阵用F = !)',丨二表示，c代表类别数，yi表示第i个标号；如果Xi属于第k类，则yik= 1，否则为零，其中yik是yi的第k个元素；
[0013]最优编码R初始化为标号矩阵Y;
[0014]初始化哈希码的投影矩阵
f，其中en是一个η维列向量，所有元素都等于一，I是η X η单位矩阵，Β%Β的转置，<是~的转置，λ是一个正则化因子；
[0016] 初始化核化的训练样本的映射矩阵Ρ=( Φ (Χ)ΤΦ (ΧΝ^Φ (Χ)ΤΒ;
[0017] 初始化变量正则化因子λ、ν及系数tol，λ=1，v = le-5，tol = le-5;
[0018] 步骤S2,利用步骤S1中的哈希码的投影矩阵，通过离散循环坐标下降法计算哈希
，其中Q= ((R_entT)WT+vF(X) )τ，I |代表矩阵二范数的平方，tr()代表矩阵的迹，即矩阵的对角线所有元素之和，F(X)= Φ 转置；
[0019] 步骤S3,利用平移向量t，哈希码的投影矩阵W及步骤S2得到的哈希码，通过求解方程组求解最优编码R;
[0020] 步骤S4,根据步骤S3得到最优编码R，计算哈希码的投影矩阵
[0021]步骤S5,根据步骤S3得到最优编码R以及步骤S4计算出的哈希码的投影矩阵，计算
[0022]步骤S6,根据步骤S2获得的哈希码，计算核化的训练样本的映射矩阵Ρ=( Φ (Χ)τ Φ(Χ))^Φ(Χ)ΤΒ；
[0023] 步骤S2-S6是反复迭代直至最大迭代次数或者算法收敛；
[0024] 步骤S7,根据步骤S6得到的映射矩阵输出训练样本的哈希码：
[0025] B = sgn(F(X))，其中F(X)= Φ (Χ)Ρ;
[0026] 根据步骤S6得到的映射矩阵输出测试样本的哈希码：
[0027] sgn(F(T)) =sgn( Φ (T)P)；
[0028]步骤S8、根据所有训练样本和测试样本的哈希码进行图像检索。
[0029]步骤S1中，令训练样本和测试样本进行归一化，分别都除以其二范数，得到的单位向量作为新的样本，步骤为：
[0030]将训练样本X归一化的输出为x/l |x| |2,将测试样本t归一化的输出为t/| |t| |2。 [0031 ]将所有训练样本和测试样本通过高斯非线性核映射至核空间，将任意一个训练样本X映射至核空间的步骤为：Φ (X) = [exp( | |x_ai| |2/0)，…，exp( I |x-am| |2/0)]，
[0032] 其中是从训练样本中随机挑选的m个数据，。是高斯核参数；
[0033] 对所有训练样本，都采取本操作得到训练样本的核化表达矩阵Φ (X);
[0034] 对所有测试样本，都采取同样的操作得到测试样本的核化表达矩阵Φ(Τ)。
[0035] 所述算法收敛的判据是：
[0036] η〇Γηι(Β-φ (X)P)<tol Xnorm(B, 'fro')；
[0037] 如果该条件得到满足，则步骤S2-S6不再迭代进行，执行步骤S7。
[0038] 通过求解方程组求解最优编码R，是依次每行地求R的所有元素的，每行通用求解步骤为：
[0040] 2(rk~ak)+^k = 0 ,k^ j
[0041] Ak( 1+rk-rj) =0 ,k^ j
[0042] ak,k辛j和aj都已知，上述有（2c_l)个等式，（2c_l)个变量，可以用matlab的solve 函数求解，r和a是最优编码R和(BW+entT)的任意一行，两者均是一个行向量，^和…分别是r 和a的第j个元素，Ak是拉格朗日乘子，k是下标，k取值范围是1到c，k辛j。
[0043] 与现有方法相比，本发明由于采用将训练样本的哈希码回归到其对应最优编码而不是直接回归到其标号矩阵，最优编码是经过学习获得的，因此相对标号矩阵，计算精准性都得到大大的提升，本发明不仅可以用于一般图像检索问题，也能应用到其他特定的图像检索问题，比如人脸检索和服装检索等。本发明也可用于公共安全、信息安全和金融安全的防护和监督，大众娱乐等。
【附图说明】
[0044] 图1是基于最优编码的监督离散哈希的图像检索方法的系统流程图；
[0045] 图2所示为CIFAR-10图像数据库中的图像样本。
【具体实施方式】
[0046] 下面，结合实例对本发明的实质性特点和优势作进一步的说明，但本发明并不局限于所列的实施例。
[0047] 参见图1所示，一种基于最优编码的监督离散哈希的图像检索方法，包括以下步骤：
[0048] 步骤S1，训练样本用;Γ =彳xJL e 表示，其中η和d分别是训练样本的个数和维数，Xl表示第i个训练样本，R是实数集合；
[0049] 测试样本用表示，其中m表示测试样本的个数山表示第j个测试样本；
[0050] 将训练样本和测试样本进行归一化，然后通过高斯非线性核映射至核空间得到训练样本和测试样本的核化表达矩阵Φ (X)和Φ (T);
[0051] 随机生成针对训练样本的初始哈希码方=6 {-，其中1代表哈希码的长度;bi表示第i个哈希码；
[0052] 训练样本的标号矩阵用= e 表示，c代表类别数，yi表示第i个训练样本的标号;如果Xl属于第k类，则ylk= 1，否则为零，其中7115是71的第k个元素；
[0053]最优编码R初始化为标号矩阵Y;
[0054]初始化哈希码的投影矩阵
，其中en是一个η维列向量，所有元素都等于一，I是ηΧη单位矩阵，Β%Β的转置，<是~的转置，λ是一个正则化因子；
[0056]初始化核化的训练样本的映射矩阵Ρ=( Φ (Χ)ΤΦ (ΧΝ^Φ (Χ)ΤΒ;
[0057] 初始化变量正则化因子λ、ν及系数tol，λ=1，v = le-5，tol = le-5;
[0058] 步骤S2,利用步骤SI中的哈希码的投影矩阵，通过离散循环坐标下降法计算哈希
，其中Q = ((R_entT)WT+vF(X) )τ，| |g代表矩阵二范数的平方，tr()代表矩阵的迹，即矩阵的对角线所有元素之和，F(X)=ci>(X)P，转置；
[0059] 步骤S3,利用平移向量t，哈希码的投影矩阵W及步骤S2得到的哈希码，通过求解方程组求解最优编码R;
[0060] 步骤S4,根据步骤S3得到最优编码R，计算哈希码的投影矩阵
[0061] 步骤S5,根据步骤S3得到最优编码R以及步骤S4计算出的哈希码的投影矩阵，计算
[0062]步骤S6,根据步骤S2获得的哈希码，计算核化的训练样本的映射矩阵Ρ=( Φ (Χ)τ Φ(Χ))^Φ(Χ)ΤΒ；
[0063] 步骤S2-S6是反复迭代直至最大迭代次数或者算法收敛；
[0064] 步骤S7,根据步骤S6得到的映射矩阵输出训练样本的哈希码：
[0065] B = sgn(F(X))，其中F(X)= Φ (Χ)Ρ;
[0066] 根据步骤S6得到的映射矩阵输出测试样本的哈希码：
[0067] sgn(F(T)) =sgn( Φ (T)P)；
[0068] 步骤S8、根据所有训练样本和测试样本的哈希码进行图像检索。
[0069] 其中，在步骤S1中，令训练样本和测试样本进行归一化，分别都除以其二范数，得到的单位向量作为新的样本，步骤为：
[0070] 将训练样本X归一化的输出为X/| |x| |2,将测试样本t归一化的输出为t/| |t| |2。 [0071 ]将所有训练样本和测试样本通过高斯非线性核映射至核空间，将任意一个训练样本X映射至核空间的步骤为：Φ (X) = [exp( | |x_ai| |2/0)，…，exp( I |x-am| |2/0)]，
[0072] 其中丨Γ,%是从训练样本中随机挑选的m个数据，〇是高斯核参数；
[0073] 对所有训练样本，都采取本操作得到训练样本的核化表达矩阵Φ (X);
[0074] 对所有测试样本，都采取同样的操作得到测试样本的核化表达矩阵Φ (T)。
[0075]所述算法收敛的判据是：
[0076] η〇Γηι(Β-φ (X)P)<tol Xnorm(B, 'fro')；
[0077] 如果该条件得到满足，则步骤S2-S6不再迭代进行，执行步骤S7。
[0078] 通过求解方程组求解最优编码R，是依次每行地求R的所有元素的，每行通用求解步骤为：
[0080] 2(rk~ak)+^k = 0 ,k^ j
[0081] Ak( 1+rk-rj) =0 ,k^ j
[0082] ak,k辛j和aj都已知，上述有（2c_l)个等式，（2c_l)个变量，可以用matlab的solve 函数求解，r和a是最优编码R和(BW+entT)的任意一行，两者均是一个行向量，^和a」分别是r 和a的第j个元素，Ak是拉格朗日乘子，k是下标，k取值范围是1到c，k辛j。
[0083] 其中，进行图像检索的方法是，根据得到的哈希码以采用最近邻分类器为例，计算测试样本和所有训练样本的哈希码的汉明距离，将距离按照从小到大排序，这就是针对当前的图像检索得到的结果。
[0084] 本发明不但可以用于图像检索，也可以用于比如图像分类、检索和识别等。
[0085] 为了详细说明本发明及验证本发明的有效性，下面将本发明提出的方法应用到一个公开的图像数据库一一CIFAR-10图像数据库，并参照附图，对本发明进行详细说明。但所描述的实施例子仅旨在便于对本发明的理解，而不限于下述的实例。
[0086] 步骤S1、输入的样本是CIFAR-10图像数据库中的图像样本，如图2所示。该数据库由60000张图像组成，总共有10个类别，其中每一张图片的尺寸均为32X32,并将每个图像拉成一个维度为1032的列向量作为输入特征。随机选择59000个样本作为训练，其余的1000 个作为测试。
[0087] 训练样本用X =丨Λ·;.丨丨，6 表示，其中η和d分别是训练样本的个数和维数，本例中η = 59000，d = 1024，行向量Xi表示第i个训练样本。测试样本用Γ =丨Γ,% e表示，其中m表示测试样本的个数，本例中m= 1000,行向量tj表示第j个测试样本。令所有训练样本和测试样本进行归一化，是分别都除以其模长，得到的单位向量作为新的特征点以利于后续步骤。其步骤为：
[0088] 将训练样本X归一化的输出为X/| |x| |2,将测试样本t归一化的输出为t/| |t| |2。
[0089] 将归一化以后的训练样本和测试样本通过高斯非线性核映射至核空间，将任意一个训练样本X映射至核空间的步骤为：Φ (x) = [exp( | |x_ai| |2/σ)，···，θχρ( | |x_am| |2/0)]， Φ (x)是一个m维行向量，是对样本x核映射的结果，是从训练样本中随机挑选的m个样本，σ是高斯核参数，在本例中，固定其为〇. 4。将归一化以后的所有训练样本和测试样本通过高斯非线性核映射至核空间，分别得到Φ (X)和Φ (Τ)。
[0090] 随机生成针对训练样本的初始哈希码i? = e {-1，1厂w中1代表哈希码的长度，本例中1 = 16。训练样本的标号矩阵用f :=_ 表示， c代表类别数，本例中c = l〇。如果Xl属于第k类，则ylk=l，否则为零，其中ylk是行向量 71的第 k个元素。最优编码R初始化为标号矩阵Y。初始化针对哈希码的投影矩阵
，其中en是一个η维列向量，所有元素都等于一， I是ηΧη单位矩阵
3初始化针对核化的训练样本的映射矩阵Ρ=( Φ (Χ)ΤΦ (X))-Μ (Χ)ΤΒ。初始化其他变量X=l，v=le-5，t〇l = le-5。
[0091 ] 步骤S2、通过离散循环坐标下降法(discrete cyclic coordinate descent)计算
，其中 Q= ((R_entT)WT+vF(X) )τ。
[0092] 步骤S3、通过求解方程组求解最优编码R。
[0093] 依次每行地求R的所有元素。每行的通用的求解步骤为：
[0094] ￡ 0
[0095] 2(rk~ak)+^k = 0 ,k^ j
[0096] Ak( 1+rk-rj) =0 ,k^ j
[0097] ak,k辛j和aj都已知。上述有（2c_l)个等式，（2c_l)个变量，可以用matlab的solve 函数求解。
[0098] 步骤S4、计算针对哈希码的投影矩阵

[0100]步骤S6、计算针对核化的训练样本的映射矩阵Ρ=( Φ (Χ)ΤΦ (Χ))4φ (X)TB。
[01 01 ]步骤S2至S6是反复迭代进行的，最大迭代次数是5，反复迭代直至最大迭代次数或者算法收敛。算法收敛的判断依据是：
[0102] η〇Γηι(Β-φ (X)P)<tol Xnorm(B, 'fro')
[0103] 如果该条件得到满足，则算法收敛。
[0104] 步骤S7、输出训练样本的哈希码：
[0105] B = sgn(F(X))
[0106] 输出测试样本的哈希码：
[0107] sgn(F(T)) =sgn( Φ (Τ)Ρ)
[0108] 步骤S8、根据所有训练样本和测试样本的哈希码，进行图像检索。
[0109] 其中进行图像检索的方法是，根据得到的哈希码，以采用最近邻分类器为例，计算测试样本和所有训练样本的哈希码的汉明距离，将距离按照从小到大排序，这就是针对当前的图像检索得到的结果。
[0110] 本发明不但可以用于图像检索，也可以用于比如图像分类、检索和识别等。
[0111] 实验结果如表1所示，表1是本发明在CIFAR-10图像数据库上，在检索准确率等指标上与其他方法的对比（当前的哈希码长度是16)。
[0112]
[0113] 从表1可以看出，本发明方法在实验中，在除测试时间外的所有指标（精确率 prec i s ion、召回率recal 1、f-度量f-measure、准确率accuracy)都比现有方法要好。由此看出，本发明提出的方法整体要优于现有方法。
[0114] 以上所述的具体实施例，对本发明的技术方案、有效效果和目的进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同改进、替换等，均应包含在本发明的保护范围之内。
【主权项】
1. 一种基于最优编码的监督离散哈希的图像检索方法，其特征在于，包括W下步骤：步骤S1，训练样本用r = u,!:., e ir 表示，其中η和d分别是训练样本的个数和维数，XI 表示第i个训练样本，R是实数集合；测试样本用r = EiT'w表示，其中m表示测试样本的个数，tJ表示第j个测试样本；将训练样本和测试样本进行归一化，然后通过高斯非线性核映射至核空间得到训练样本和测试样本的核化表达矩阵Φ (X)和Φ (T); 随机生成针对训练样本的初始哈希码S ，其中1代表哈希码的长度;bi表示第i个哈希码；训练样本的标号矩阵用y = € iT'f表示，C代表类别数，yi表示第i个标号;如果 XI属于第k类，则yik= 1，否则为零，其中yik是yi的第k个元素；最优编码R初始化为标号矩阵Y; 初始化哈希码的投影矩构I其中en是一个η维列向量，所有元素都等于一，I是ηΧη单位矩阵，βΤ是Β的转置，《是en的转置，λ是一个正则化因子；初始化核化的训练样本的映射矩阵ρ=( Φ (χ)Τφ (χ)Γ?φ (χ)Τβ; 初始化变量正则化因子λ、ν及系数tol，λ = 1, ν = le-5，tol = le-5; 步骤S2,利用步骤SI中的哈希码的投影矩阵，通过离散循环坐标下降法计算哈希码以'及￡{--1.1;"'，其中9=((尺-6口。胖了+乂尸(乂））了，[|代表矩阵二范数的平方，tr()代表矩阵的迹，即矩阵的对角线所有元素之和，F(X)= Φ (X)P，tT是t转置；步骤S3,利用平移向量t，哈希码的投影矩阵W及步骤S2得到的哈希码，通过求解方程组求解最优编码R; 步骤S4,根据步骤S3得到最优编码R，计算哈希码的投影矩阵步骤S5,根据步骤S3得到最优编码RW及步骤S4计算出的哈希码的投影矩阵，计算平移步骤S6,根据步骤S2获得的哈希码，计算核化的训练样本的映射矩阵Ρ=(Φ(Χ)Τφ (Χ))-?φ(Χ)ΤΒ; 步骤S2-S6是反复迭代直至最大迭代次数或者算法收敛；步骤S7,根据步骤S6得到的映射矩阵输出训练样本的哈希码： B = s 即(F(X))，其中 Ρ(Χ)=Φ(Χ)Ρ; 根据步骤S6得到的映射矩阵输出测试样本的哈希码： sgn(F(T)) = sgn( Φ (Τ)Ρ)；步骤S8、根据所有训练样本和测试样本的哈希码进行图像检索。2. 根据权利要求1所述图像检索方法，其特征在于，步骤S1中，令训练样本和测试样本进行归一化，分别都除W其二范数，得到的单位向量作为新的样本，步骤为：将训练样本X归一化的输出为X/Μ XII2，将测试样本t归一化的输出为VII t II2。3. 根据权利要求1所述图像检索方法，其特征在于，将所有训练样本和测试样本通过高斯非线性核映射至核空间，将任意一个训练样本X映射至核空间的步骤为：Φ (X) = [exp( I x-ai| |2/。），…，exp( I |x-am|P/。）]，其中批Γ;'=ι是从训练样本中随机挑选的m个数据，〇是高斯核参数；对所有训练样本，都采取本操作得到训练样本的核化表达矩阵Φ (X); 对所有测试样本，都采取同样的操作得到测试样本的核化表达矩阵Φ(Τ)。4. 根据权利要求1所述图像检索方法，其特征在于，所述算法收敛的判据是： ηο;τηι(Β-φ (X)P)<tol Xno;rm(B, '打0'）；如果该条件得到满足，则步骤S2-S6不再迭代进行，执行步骤S7。5. 根据权利要求1所述图像检索方法，其特征在于，通过求解方程组求解最优编码R，是依次每行地求R的所有元素的，每行通用求解步骤为：ak，k声j和aj都已知，上述有（2c-l)个等式，（2c-l)个变量，可W用matlab的solve函数求解，r和a是最优编码R和(BW+entT)的任意一行，两者均是一个行向量，r神日aj分别是r和a 的第j个元素，Ak是拉格朗日乘子，k是Ak的下标，k取值范围是巧ljc，k声j。
【文档编号】G06F17/30GK106095811SQ201610377635
【公开日】2016年11月9日
【申请日】2016年5月31日
【发明人】孙哲南, 桂杰, 孙运莲
【申请人】天津中科智能识别产业技术研究院有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙哲南;桂杰;孙运莲;
技术所有人：天津中科智能识别产业技术研究院有限公司;
我是此专利的发明人

上一篇：一种基于相似性度量的智能试卷生成方法
上一篇：基于数据仓库切削参数挖掘方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。