基于点对关系学习和重构的图像特征二值编码表示方法与流程

文档序号:15445761发布日期:2018-09-14 23:20阅读:98来源:国知局
本发明属于图像特征编码领域,尤其涉及基于点对关系学习和重构的图像特征二值编码表示方法。
背景技术
:当今时代随着互联网信息时代高速发展,图像数据总量也在高速增加。在图像检索的应用中,用户给定一个查询图像,需要从大规模数据库中检索出与其相似的图像,并根据相似度排名返回结果。针对这个应用场景,一种最基本的做法是:首先对查询图像和数据库图像分别提取特征。然后,根据一定的度量方式(例如欧氏距离)计算查询图像和每个数据库图像之间的距离。最后,根据距离大小对数据库图像进行排序,返回靠前的数据库图像作为检索结果。此方法在实际应用中,需要选取对图像内容具有较强表达能力的特征,而这类特征往往是高维的。但使用高维特征会给数据库存储提出很大的需求,而且高维的实数型特征在距离计算时效率不高,随着数据库量级的增加,普通的距离计算方式将成为性能瓶颈。因此基于二值编码的图像特征能够很好地解决上述两个问题,提高大规模图像检索的效率。在实际应用中,数据往往是无标签的,无监督的二值编码特征表示和学习算法通常适用于没有语义标签的情况。而在无监督情况下,用传统的基于欧式距离的特征相似度表示方法又过于简单,不能取得令人满意的效果。当数据规模和数据复杂度增加时,如何学习紧凑且表示能力强的二值编码特征,是针对大规模数据进行检索中一个重要的问题。技术实现要素:发明目的:本发明针对现有无监督算法编码学习过程中,哈希函数和优化目标的损失函数紧耦合的问题,提出一种松耦合的基于点对关系学习和重构的图像特征二值编码表示方法,从而提高图像检索的性能和准确率,有效解决基于哈希二值编码的数据下,图像的快速准确检索问题。通过本发明构建的基于点对关系学习和重构的图像特征二值编码表示方法,旨在利用机器学习与机器视觉的手段,将传统的图像检索技术中出现的特征维度高、检索效率低等问题,以及针对现有无监督算法编码学习过程中哈希函数和优化目标的损失函数紧耦合的问题,通过基于点对关系学习和重构的图像特征二值编码表示方法来达到提升图像检索性能和准确率的目的。技术方案:本发明公开了基于点对关系学习和重构的图像特征二值编码表示方法,提出了一种在图像缺乏标注的情况下有效地对图像进行二值编码的自动化解决方案,具体包括以下步骤:步骤1,求解系数矩阵:将数据表示成字典与系数矩阵的线性组合,通过求解对系数矩阵的约束模型从而求得系数矩阵;步骤2,字典分割:对步骤1中获得的系数矩阵构造表示一个图的权值矩阵,在这个图上通过谱聚类将字典项分割成k2个组;步骤3,特征表示:当给定新样本时,计算它在所有字典项组上的重构残差,然后从中选取最小的重构残差对应的最优字典项组来进行线性表示,完成点对关系的学习;步骤4,点对关系重构:求解最优模型,从而学习到保持点对关系的最优的二值编码,实现点对关系的重构。步骤1包括:步骤1-1,给定一个包含n个图像数据的矩阵d=[x1,x2,...,xn]∈rd×n,其中d的每一列表示一个图像数据,xn表示第n个图像数据,每个图像数据的维度为d,矩阵d能够自表示为d=dc,矩阵的每一个元素的值属于实数集r,其中c∈rn×n是系数矩阵,每一列表示每个原始数据在字典上对应的重构系数,所述字典即数据矩阵d本身,对系数矩阵施加能够描述原始数据的全局结构性的低秩性约束和能够描述原始数据的局部结构性的稀疏性约束,得到如下模型对字典进行分组:其中||·||*和||·||1分别表示矩阵核范数和l1范数,它们分别被作为对系数矩阵进行低秩性约束的近似和稀疏性约束的近似,s.t.表示约束,λ是一个用于平衡稀疏性和低秩性之间的重要度的平衡参数;步骤1-2,求解步骤1-1中的模型,引入一个辅助变量j得到如下模型:该模型的增广拉格朗日函数l(c,j,y1,y2,μ)为:其中,y1,y2,μ表示为了求解模型所引入的辅助变量,通过对各变量即c,j,y1,y2,μ的迭代更新,对该模型进行求解,迭代更新各变量的规则如下:jk+1=max(|ck+1+y2,k/μk|-λ/μk,0)y1,k+1=y1,k+μk(d-dck+1)y2,k+1=y2,k+μk(ck+1-jk+1)μk+1=min(μmax,ρμk)其中,ck+1表示变量c第k+1次迭代更新后的值,jk表示变量j第k次迭代更新后的值,μk表示变量μ第k次迭代更新后的值,y1,k表示变量y1第k次迭代更新后的值,y2,k表示变量y2第k次迭代更新后的值,μmax表示变量μ设定的最大值,ρ表示变量μ的增长系数,θ表示奇异值收缩操作符且通过迭代求得学习到的系数矩阵c。步骤2包括:步骤2-1,将步骤1中获得的系数矩阵c表示一个图的权值矩阵w,计算如下:w=(c+ct)/2;步骤2-2,构建n×n对角度矩阵dw,dw定义如下:其中di定义为:di=∑wij,wij是指矩阵w的第i行第j列的数的值;步骤2-3,定义拉普拉斯矩阵l=dw-w,并根据l,dw计算dw-1/2ldw-1/2;步骤2-4,计算dw-1/2ldw-1/2最小的k1个特征值所各自对应的特征向量f,将特征向量f标准化(引用文献为:《线性代数(第六版)》同济大学数学系高等教育出版社),最终组成n×k1维的特征矩阵f;步骤2-5,对特征矩阵f中的每一行作为一个k1维的样本,共n个样本,用聚类方法进行聚类(引用文献为:《机器学习》周志华清华大学出版社),聚类维数为k2,第i行所属的类就是原来xi(即步骤1-1中的矩阵d的第i个数据)所属的类,最后得到簇划分c,从而将字典项分割成k2个组。步骤3包括:步骤3-1,当给定一个新样本x′,对于整个字典d,计算x′的重构系数zi:zi=(dtd+αi)-1dtx′,其中,α为平衡参数,i为单位矩阵;步骤3-2,针对每个字典项组,计算各自对于x′的归一化残差:通过如下公式计算第k个字典项组对于x′的归一化残差rk(x′):其中,φk_d(zi)是zi的一部分系数,其对应的字典项是第k_d个字典组,dk表示第k个字典项组的数据所组成的字典;步骤3-3,计算完x′的重构系数zi在所有字典项组上的归一化残差后,挑选计算得到的重构残差最小的字典项组作为最优字典项组,对最优字典项组进行线性表示,通过稀疏编码对x′进行重构表示(通过lae(localanchorembedding)算法来实现,算法参考文献:《largegraphconstructionforscalablesemisupervisedlearning》weiliu,junfenghe,shih-fuchang),从而完成点对关系的学习。步骤4包括:求解如下模型,来学习最优的二值编码从而保持点对关系:s.t.wrecwrect=i其中wrec是线性投影矩阵,zrec是数据矩阵(即步骤3-3得到的通过稀疏编码对数据进行重构表示后的重构数据),b∈{-1,1}c×n是一个二值矩阵,每列表示矩阵zrec中数据对应的二值编码,μrec是一个偏移参数,s是一个缩放参数,||·||f表示矩阵的f范数,⊙表示对应元素的相乘,模型是凸的,通过迭代更新各个未知参数μrec、b、wrec、s来进行优化,直到目标函数值收敛。所述通过迭代更新各个未知参数来进行优化,直到目标函数值收敛,具体包括:步骤4-1,随机初始化b和wrec:wr是为了初始化wrec而从标准正态分布随机采样的矩阵,wr=u∑vt表示对wr矩阵进行奇异值分解,假设wr是一个m×n阶矩阵,则分解后u是一个m×m阶矩阵,σ是一个m×n阶对角矩阵,而v*是一个n×n阶矩阵。参考文献为:《线性代数(第六版)》同济大学数学系高等教育出版社;c是指二值编码的长度,即多少位,如16位,32位;初始化μrec=0,s=1;步骤4-2,开始新一轮迭代,迭代次数加一,如果迭代次数小于等于t次,进行步骤4-3,否则执行步骤4-4;步骤4-3,更新b:令计算更新wrec:令计算此处的svd()指的是对括号内的对象进行奇异值分解,奇异值分解(singularvaluedecomposition)是线性代数中一种重要的矩阵分解,属于现有技术,引用文献为:《数学之美》吴军人民邮电出版社;公式中的sign()指的是对括号内的对象进行sign函数操作。sign这个函数的含义是:当x>0,sign(x)=1;当x=0,sign(x)=0;当x<0,sign(x)=-1;更新μrec:μrec=column_mean(zrec-s⊙wrectb),更新s:令计算公式中的column_mean()指的是对括号内矩阵沿着列的方向求平均值而得到新的矩阵,trace()是计算括号内矩阵的迹。在线性代数中,一个n×n矩阵a的主对角线(从左上方至右下方的对角线)上各个元素的总和被称为矩阵a的迹(或迹数),一般记作tr(a)。参考文献为:《线性代数(第六版)》同济大学数学系高等教育出版社;结束本轮迭代,返回步骤4-2;步骤4-4,经过迭代计算,最后学习到的最优二值编码矩阵b,完成点对关系的重构。本发明针对于传统的图像检索技术中出现的特征维度高、检索效率低等问题,基于机器学习和机器视觉的模型,将没有语义标签的图像数据转换为低维的二值编码特征,从而可在图像的检索等应用中提高检索准确率,降低存储量和编码时间。该方法主要包括求解系数矩阵、字典分割、特征表示、点对关系重构四个步骤。求解系数矩阵步骤是将数据转换为字典表示形式,求解约束问题得到表示形式中的系数矩阵;字典分割步骤是获得的系数矩阵构造表示图的权值矩阵,然后通过谱聚类实现字典分割;特征表示步骤是选取最小的重构残差对应的最优字典项组来进行线性表示新数据;点对关系重构步骤是通过求解最优模型,学习得到保持点对关系的最优的二值编码,从而实现点对关系的重构。得到的二值编码可用于图像检索等应用中。本发明基于机器学习以及机器视觉,设计了一种基于点对关系学习和重构的图像特征二值编码表示方法,具有较低的优化复杂度,降低了编码时间,可用于图像检索提升图像检索的性能和准确率。本发明采用上述技术方案,具有以下有益效果:本发明提供的基于点对关系学习和重构的图像特征二值编码表示方法,相较于一般的图像检索出现的特征维度高导致的高存储、查询效率低等特点,可以降低存储要求,提高计算效率,并且本方法针对现有的无监督算法编码学习过程中哈希函数和优化目标的损失函数紧耦合的问题,是一种松耦合的图像二值编码特征学习框架,它的优化模型是凸的,具有较低的优化复杂度,最后达到提升图像检索性能和准确率的目的。附图说明下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述或其他方面的优点将会变得更加清楚。图1为本发明实施例的基于点对关系学习和重构的图像特征二值编码表示工作流程图;图2为本发明实施例的字典分割步骤流程图;图3为本发明实施例的点对关系重构步骤流程图;图4为本发明在cifar-10数据库上使用八位二值编码检索最高匹配度的例子。其中最左边的图片为检索图片,右边的图片是检索结果,红色的框代表检索错误的结果。图5为导入10个数据的显示。具体实施方式下面结合附图及实施例对本发明做进一步说明。如图1、图2和图3所示,本发明所构建的基于点对关系学习和重构的图像特征二值编码表示方法的工作流程大致分为以下几个阶段:第一阶段,点对关系学习阶段,包括求解系数矩阵,字典分割和特征表示工作;第二阶段,点对关系重构阶段,主要是迭代计算得到最优二值编码的工作。本发明实施例中基于点对关系学习和重构的图像特征二值编码表示方法的具体构建步骤如下:步骤1,求解系数矩阵:将数据表示成字典与系数矩阵的线性组合,通过求解对系数矩阵的约束模型从而求得系数矩阵;步骤2,字典分割:对步骤1中获得的系数矩阵构造表示一个图的权值矩阵,在这个图上通过谱聚类将字典项分割成k2个组;步骤3,特征表示:当给定新样本时,计算它在所有字典项组上的重构残差,然后从中选取最小的重构残差对应的最优字典项组来进行线性表示,从而完成点对关系的学习;步骤4,点对关系重构:求解最优模型,从而学习到保持点对关系的最优的二值编码,实现点对关系的重构。步骤1包括:步骤1-1,给定一个包含n个图像数据的矩阵d=[x1,x2,...,xn]∈rd×n,其中d的每一列表示一个图像数据,xn表示第n个图像数据,每个图像数据的维度为d,矩阵d能够自表示为d=dc,矩阵的每一个元素的值属于实数集r,其中c∈rn×n是系数矩阵,每一列表示每个原始数据在字典上对应的重构系数,所述字典即数据矩阵d本身,对系数矩阵施加能够描述原始数据的全局结构性的低秩性约束和能够描述原始数据的局部结构性的稀疏性约束,得到如下模型对字典进行分组:其中||·||*和||·||1分别表示矩阵核范数和l1范数,它们分别被作为对系数矩阵进行低秩性约束的近似和稀疏性约束的近似,s.t.表示约束,λ是一个用于平衡稀疏性和低秩性之间的重要度的平衡参数;步骤1-2,求解步骤1-1中的模型,引入一个辅助变量j得到如下模型:该模型的增广拉格朗日函数l(c,j,y1,y2,μ)为:其中,y1,y2,μ表示为了求解模型所引入的辅助变量,通过对各变量即c,j,y1,y2,μ的迭代更新,对该模型进行求解,迭代更新各变量的规则如下:jk+1=max(|ck+1+y2,k/μk|-λ/μk,0)y1,k+1=y1,k+μk(d-dck+1)y2,k+1=y2,k+μk(ck+1-jk+1)μk+1=min(μmax,ρμk)其中,ck+1表示变量c第k+1次迭代更新后的值,jk表示变量j第k次迭代更新后的值,μk表示变量μ第k次迭代更新后的值,y1,k表示变量y1第k次迭代更新后的值,y2,k表示变量y2第k次迭代更新后的值,μmax表示变量μ设定的最大值,ρ表示变量μ的增长系数,θ表示奇异值收缩操作符且通过迭代求得学习到的系数矩阵c。步骤2包括:步骤2-1,将步骤1中获得的系数矩阵c表示一个图的权值矩阵w,计算如下:w=(c+ct)/2;步骤2-2,构建n×n对角度矩阵dw,dw定义如下:其中di定义为:di=∑wij,wij是指矩阵w的第i行第j列的数的值;步骤2-3,定义拉普拉斯矩阵l=dw-w,并根据l,dw计算dw-1/2ldw-1/2;步骤2-4,计算dw-1/2ldw-1/2最小的k1个特征值所各自对应的特征向量f,将特征向量f标准化(引用文献为:《线性代数(第六版)》同济大学数学系高等教育出版社),最终组成n×k1维的特征矩阵f;步骤2-5,对特征矩阵f中的每一行作为一个k1维的样本,共n个样本,用聚类方法进行聚类(引用文献为:《机器学习》周志华清华大学出版社),聚类维数为k2,第i行所属的类就是原来xi(即步骤1-1中的矩阵d的第i个数据)所属的类,最后得到簇划分c,从而将字典项分割成k2个组。步骤3包括:步骤3-1,当给定一个新样本x′,对于整个字典d,计算x′的重构系数zi:zi=(dtd+αi)-1dtx′,其中,α为平衡参数,i为单位矩阵;步骤3-2,针对每个字典项组,计算各自对于x′的归一化残差:通过如下公式计算第k个字典项组对于x′的归一化残差rk(x′):其中,φk_d(zi)是zi的一部分系数,其对应的字典项是第k_d个字典组,dk表示第k个字典项组的数据所组成的字典;步骤3-3,计算完x′的重构系数zi在所有字典项组上的归一化残差后,挑选计算得到的重构残差最小的字典项组作为最优字典项组,对最优字典项组进行线性表示,通过稀疏编码对x′进行重构表示(通过lae(localanchorembedding)算法来实现,算法参考文献:《largegraphconstructionforscalablesemisupervisedlearning》weiliu,junfenghe,shih-fuchang),从而完成点对关系的学习。步骤4包括:求解如下模型,来学习最优的二值编码从而保持点对关系:s.t.wrecwrect=i其中wrec是线性投影矩阵,zrec是数据矩阵(即步骤3-3得到的通过稀疏编码对数据进行重构表示后的重构数据),b∈{-1,1}c×n是一个二值矩阵,每列表示矩阵zrec中数据对应的二值编码,μrec是一个偏移参数,s是一个缩放参数,||·||f表示矩阵的f范数,⊙表示对应元素的相乘,模型是凸的,通过迭代更新各个未知参数μrec、b、wrec、s来进行优化,直到目标函数值收敛。所述通过迭代更新各个未知参数来进行优化,直到目标函数值收敛,具体包括:步骤4-1,随机初始化b和wrec:w=(c+ct)/2;初始化μrec=0,s=1;步骤4-2,开始新一轮迭代,迭代次数加一,如果迭代次数小于等于t次,进行步骤4-3,否则执行步骤4-4;步骤4-3,更新b:令计算更新wrec:令计算更新μrec:μrec=column_mean(zrec-s⊙wrectb),更新s:令计算结束本轮迭代,返回步骤4-2;步骤4-4,经过迭代计算,最后学习到的最优二值编码矩阵b,完成点对关系的重构。实施例本实施例包括以下部分:导入10个数据,每个数据为784维的图像数据。图5为10个数据的图片显示。经过点对关系学习步骤(即包括求解系数矩阵、字典分割、特征表示)后能够得到原始导入数据的重构表示,即完成点对关系的学习。这10个数据的重构表示如下,也就是下一步骤点对关系重构步骤的输入数据:000001000000001001000000000000010.03970000.96030000.844500000.15550000100000000100000.8739000000.1261000.0534000.9466000下一步骤为点对关系重构,会对μ,b,w,s变量进行迭代更新。对于这10个数据,可以使用计算每一次迭代更新后的误差。最后得到每次迭代的误差:9.9504,6.6467,6.2349,6.1016,1.8460,1.7460,1.4298,1.1086,1.0954,1.0954,1.0763,1.0600,1.0597,1.0498,1.0427,1.0427,1.0427,1.0378,1.0343,1.0343;可以发现迭代的误差越来越小,说明迭代更新是有效的。最后可以得到迭代后的参数值,包括μ,b,w,s,其中b就是最后要得到的二值编码:μ:00000000s:1w:0.526380491743404,-0.703854357886537,-0.124134278972108,0.202417906030414,-0.325885663271724,0.149605265605609,-0.0364373516095352-0.203025641935073,-0.320148832680204,-0.296889358189778,0.187789441006430,0.0556224552702578,0.0543180195432500,-0.700932457499529,-0.337914469723198,-0.403186999011160,-0.614824643836743,-0.150284503746103,-0.384163762219469,0.589286622028627,-0.218319098164965,0.134054680569501,0.0609955279354016,0.187644253112132,-0.299070612273578,-0.225930941875870,-0.488501528062168,-0.609111515373163,0.137953228767313,0.325901566927202,-0.263695188929306,-0.234698359561226,0.000636095155782121,0.0187859733491997,0.295608689874399,0.0392233814298232,-0.178144690543473,0.227581141177460,-0.818998382462197,0.395520738197212,-0.246529543586242,-0.169769446463417,0.251859151075042,-0.469358402701577,-0.673284555188396,-0.130367042685072,0.299342831948313,0.258374510947432,0.255611415159194,-0.0684087178891663,-0.533049300100546,-0.119796699797562,0.0948826691189857,-0.526146514585480,-0.0854341580367617,0.581685804423631,-0.163894212872911,-0.555842782524204,0.357982096845213,-0.0383476153902449,0.574546274335455,0.128493460417319,0.208727206163476,0.379966747912398;二值编码b的数据如表1所示:表1一二三四五六七八九十01101110100110110000000111001011100001010111001101001000010011111110001000010100表1中第一列至第十列依次对应十个原始数据,可以看到第二个和第三个原始数据的图案都是数字1,它们生成的二值编码也是相似的,而它们与其他数据生成的二值编码就差很多。图4是本发明在cifar-10数据库上使用八位二值编码检索最高匹配度的例子。其中最左边的图片为检索图片,右边的图片是检索结果,其中“ours”表示本发明的检索结果,加粗边框代表检索错误的结果。从图4可看出本发明方法较其他方法准确率更高,较其他方法能够检索到更加正确的结果。本发明提供了基于点对关系学习和重构的图像特征二值编码表示方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本
技术领域
的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1