一种基于多特征融合和扩散过程重排序的图像检索方法与流程

文档序号:15445846发布日期:2018-09-14 23:21阅读:303来源:国知局

本发明涉及一种基于多特征融合和扩散过程重排序的图像检索方法,属于计算机视觉、图像处理、图像理解等相关领域。



背景技术:

随着计算机技术的发展,计算机视觉相关领域的得到了越来越多的研究者关注。近年来图像处理技术在各行各业都取得了成功地应用,基于内容的图像检索(contentbasedimageretrieval,cbir)即为主要的典型应用之一。cbir即“以图搜图”,不同于传统的基于文本关键字的搜索,cbir关注的是图像本身的视觉内容。cbir的两个关键环节就是图像特征的提取和图像的相似度匹配。

图像特征可以从颜色、纹理及形状等不同的视觉角度去描述,基于此大量的基于人工设计的底层视觉特征提取方法被提出。然后由于图像视觉内容的复杂性,单特征往往因不能全面表达图像特性而无法满足用户对高检索准确率的需求,因此多特征融合方法引起了更多的关注和研究。在设计多特征时,不仅需要考虑单个特征所能表征的图像特点,而且要从多个维度综合地考虑特征之间的优势互补以及特征提取的效率问题,同时避免因特征之间的信息冗余在没有提高检索准确率的同时反而使得计算复杂度变高的负面作用。所以,提出一种高效的图像多特征描述仍然存在挑战。

图像特征的匹配即根据图像特征进行相似度比较。目前,大多数图像检索方法都是采用传统的基于距离的相似度度量方式。该方法仅考虑了当前查询图像和数据库中的其他图像之间的点对关系,而忽略了所有图像之间潜在的数据流形结构。为了解决这一问题,扩散过程(diffusionprocess,dp)被提出,以挖掘数据库中图像之间的上下文相关的相似度关系,该方法在图像检索的应用中能够有效的提高检索准确率。然而,在dp相关的图像检索中大多数是以形状为主的图像数据库中的应用,同是在仅有的少量自然图像应用中,仍然采用的是基于底层的单视觉特征来表述图像特征,在大规模的自然图像数据集上的检索准确率并未得到大幅度的提高。



技术实现要素:

本发明提供了一种基于多特征融合和扩散过程重排序的图像检索方法,以用于解决cbir中基于传统的图像检索方法准确率不高的问题,实现在大规模自然图像检索中高效检索的目标。

本发明的技术方案是:一种基于多特征融合和扩散过程重排序的图像检索方法,所述方法的具体步骤如下:

step1、图像特征提取;

step2、对步骤step1提取的图像特征特征进行归一化及融合;

step3、对通过步骤step2提取的图像的融合特征进行基于扩散过程的特征距离优化;

step4、对步骤step3优化后的特征进行重排序及根据重排的结果进行检索。

所述步骤step1具体为:

step1.1、提取图像库中每一幅图像的颜色特征fcolor;

step1.2、提取图像库中每一幅图像的ldp特征fldp;

step1.3、提取图像库中每一幅图像的sift视觉词包特征fbof。

所述步骤step1.1具体为:

将图像的r、g、b颜色通道分别量化为qr、qg、qb级,产生qr×qg×qb个新的颜色bin,通过公式(1)对图像的所有像素进行遍历,统计每个取值c出现的次数并得到qr×qg×qb维的颜色特征

式中,h(i,j)表示每个像素的单通道值映射到[0~qr×qg×qb-1]区间的一个取值,图像大小为m×n,c=0,1,...,qr×qg×qb-1。

所述步骤step1.2具体为:

以图像每个像素为中心,对其8邻域采用3×3的kirsch算子进行卷积操作生成8个方向反映值,选择前k个最大方向反映值的对应位置设置为1,否则为0,由此生成一个8位的二进制编码,将其转化为十进制作为当前中心元素的ldp值,对于某个特定的k,ldp值有种不同的取值h,由此每个像素都会生成一个ldp值,然后遍历图像的所有像素ldp值,通过公式(2)统计每个取值出现的次数并得到维的ldp特征

式中,ldpk(i,j)表示最大方向反映值取k时图像像素(i,j)的ldp值,图像大小为m×n。

所述步骤step1.3具体为:

将图像均匀分块,提取每一块的中心像素的sift特征,然后利用k-means聚类方法对所有的图像块中心元素聚类,生成k个聚类中心,每个聚类中心对应一个视觉单词,计算图像的每个分块到各聚类中心的距离,对其分配一个离它最近的聚类中心的视觉单词索引编码,遍历每幅图像上所有的分块,通过公式(3)统计每个视觉单词出现的次数,可形成k维的sift视觉词包特征fbof=[fbof(v)]:

式中,i(g)表示第g图像块被分配的索引编码,npatch表示图像分块总个数,v=1,2,…,k,图像大小为m×n。

所述步骤step2具体为:采用公式(4)对step1提取的图像特征进行归一化及融合:

其中,f表示最终的融合特征,fcolor(ii)表示颜色特征fcolor的ii个分量,fldp(jj)表示ldp特征fldp的jj个分量,fbof(kk)表示sift视觉词包特征fbof的kk个分量,qr×qg×qb表示颜色特征的维数,表示ldp特征的维数,k表示sift视觉词包特征的维数,图像的r、g、b颜色通道分别量化为qr、qg、qb级。

所述步骤step3具体为:

step3.1、通过步骤step2,每一幅图像均可提取一个维的图像特征,利用计算图像ii和图像ij的特征距离dii,ij;其中分别表示第ii幅和第ij幅图像的第q维特征,1≤ii≤n,1≤ij≤n,n表示图像库中的图像总个数,记d=[dii,ij]为生成的特征距离矩阵,在d中dii,ij越小表示越相似,d为对称矩阵,d的主对角元素为0;qr×qg×qb表示颜色特征的维数,表示ldp特征的维数,k表示sift视觉词包特征的维数,图像的r、g、b颜色通道分别量化为qr、qg、qb级;

step3.2、将距离矩阵d采用公式(5)归一化为亲密关系矩阵a,使得亲密关系矩阵a中的取值为0到1,值越大表示越相似;

其中,表示d中第ii行的第kn个最大值;

step3.3、初始化扩散过程w0=pknn,这里的pknn是一个n×n的矩阵,可通过公式(6)计算得到;然后通过对矩阵pknn进行归一化,使得pknn的每一行值总和在0-1之间;

其中aii,ij是亲密关系矩阵a的第ii行ij列的元素,表示a中第ii行的第kn个最大值;

step3.4、定义转移矩阵t=pknn;

step3.5、并通过wt+1=twttt来更新扩散过程矩阵w;

step3.6、比较更新前后wt和wt+1矩阵每一行的元素排序顺序,计算出每一行顺序的变化个数ri,并求出平均值

step3.7、设定阈值ε,当时停止step3.5的更新过程,得到最终的扩散过程w,并用矩阵a*来表示。

所述步骤step4具体为:

step4.1、对a*的每一行进行降序排序,并记录对应的列下标;

step4.2、将前np个位置上的值替换为矩阵d中对应的值;

step4.3、重新对前np个位置上的值进行降序排序,得到一个新的排序;

step4.4、在step4.3的排序中即可得到每一个查询图像与数据库其他图像的相似度排序,最终完成图像的检索;

其中,np值设置为大于用户检索需要返回的图像数量l且不超不过2l。

本发明的有益效果是:本发明方法有效融合了颜色直方图(colorhistogram,ch)特征、局部方向模式(localdirectionalpattern,ldp)特征和sift视觉词包(bagofvisualwords,bovw)特征,充分发挥了三种特征各自在描述颜色、纹理和形状方面的优势,该描述子具有较强的可辨别性,同时巧妙地将基于底层的视觉特征和基于高层图像信息的特征融合起来减少图像视觉特征到图像高层语义之间的“语义鸿沟”,从而更准确地反映图像的内在特征。同时,在此融合特征的基础上,引入dp对图像特征距离矩阵进行优化,并针对dp方法因小邻域内对最为相近的图像对相似关系的不准确描述而导致在检索返回图像幅数较少时表现较差的问题,提出一种重排序的思想。本发明提出的方法融合特征易于提取、复杂度较低,整个检索过程不需要图像分割以及图像分类的训练过程,能有效解决当前基于底层视觉特征的传统检索方法检索准确率低的问题,更好的满足用户对基于内容的图像检索的实际需求。

附图说明

图1为本发明提出的图像检索方法流程图;

图2为kirsch算子模版。

图3为针对步骤step1.2中8个方向反映值位置的举例;

图4为针对步骤step1.2中ldp二进制编码的位置图;

图5为针对步骤step1.2中ldp值(k=3)计算示例。

具体实施方式

实施例1:如图1所示,一种基于多特征融合和扩散过程重排序的图像检索方法,本实施例以n(1000)个大小为m×n(192×168)的图像构成的图像数据库为例,每一幅图像都分别作为查询图像,通过求得每一幅查询图像与数据库中其他图像的相似度来完成检索。具体过程包括:提取所有图像的特征(step1)并进行归一化和融合(step2),计算图像特征之间的距离矩阵(即可得到每幅查询图像与数据库中其他图像的相似度,距离越小,图像越相似),再引入扩散过程对该距离矩阵进行优化(step3),最后对其进行重排序并完成检索(step4)。

本发明即在该检索过程中,提出一种多特征融合的图像特征提取方法,以及在计算图像特征之间的距离时提出的基于距离优化的重排序方法。本实施例中,最终形成的1000*1000矩阵,其中第ii行第ij列即代表第ii个查询图像与图像库中第ij幅图像的相似度,即可通过第ii行由大到小排序完成对第ii个查询图像的检索。

所述图像检索方法的具体步骤如下:

step1、图像特征提取;

进一步地,可以设置图像特征提取的具体步骤如下:

step1.1、提取图像库中每一幅图像的颜色直方图特征;

设量化级别qr=qg=qb=4,通过公式(7)分别对图像的rgb颜色通道区间进行均匀量化。

其中r、g、b分别表示量化后的rgb颜色通道值,然后通过公式(8)将每个像素的单通道值映射到[0~63]区间的一个取值h(i,j),即量化到64个颜色bin级。

h(i,j)=16ri,j+4gi,j+bi,j(8)

其中,i=1,2,…,m;j=1,2,…,n;ri,j、gi,j、bi,j分别表示图像像素(i,j)的三个颜色通道量化值。最后通过公式(9)对图像的所有像素进行遍历,统计每个取值c出现的次数并得到64维的颜色特征

step1.2、提取图像库中每一幅图像的ldp特征;

以图像每个像素为中心,对其8邻域分别采用3×3的kirsch算子(图2所示)的模板mp进行卷积操作,并生成8个方向反映值mp(p=1,2,…,8),选择前k个最大方向反映值的对应位置设置为1,否则为0,由此生成一个8位的二进制编码,将其转化为十进制作为当前中心元素的ldp值。该过程可通过公式(10)来计算,其中mp为当前第p个位置的方向反映值,mk为第k个最大方向反映值,bp为第p个位置对应的二进制值,具体计算过程如图3-图5所示,通过图可知,ldp值(k=3):ldp二进制编码:00010011,形成的ldp值为19。

对于某个特定的k,ldp值有种不同的取值,设k=3,即可生成56个不同的ldp取值h。由此每个像素都会生成一个ldp值,然后遍历图像的所有像素ldp值,通过公式(11)统计每个取值出现的次数并得到56维的ldp特征其中,ldp3(i,j)表示k=3时当前像素(i,j)的ldp值。

step1.3、提取图像库中每一幅的sift视觉词包特征;

step1.3.1:将rgb图像转化为灰度图像;

step1.3.2:以8个像素为步长,将图像分成16×16的均匀的网格分块。并提取每个分块中心元素的sift特征(128维)。

step1.3.3:然后利用k-means聚类方法对所有的图像块进行聚类,并生成k=100个聚类中心v(v=1,2,…,100),每个聚类中心即对应一个视觉单词(128维)。

step1.3.4:计算图像的每个分块到各聚类中心的距离,对其分配一个离它最近的聚类中心的视觉单词索引编码。

step1.3.5:遍历每幅图像上所有的分块,通过公式(12)统计每个视觉单词出现的次数形成100维的sift视觉词包特征

其中,npatch表示图像分块总个数,i(g)表示第g图像块被分配的索引编码。

step2、对步骤step1提取的图像特征特征进行归一化及融合;

进一步地,可以设置所述step2具体为:通过上述步骤step1,每一幅图像均提取了64维的颜色特征、56维的ldp特征,以及100维的bof特征。采用公式(13)对提取的三种特征进行归一化及融合,即可形成一个220维的融合特征f。

其中,fcolor(ii)表示颜色特征的ii个分量,fldp(jj)表示ldp特征的jj个分量,fbof(kk)表示bof特征的kk个分量。

step3、对通过步骤step2提取的图像的融合特征进行基于扩散过程的特征距离优化;

进一步地,可以设置所述step3具体为:

step3.1:通过步骤2,每一幅图像均可提取一个220维的图像特征,利用计算图像ii和图像ij的特征距离dii,ij,其中分别表示第ii幅和第ij幅图像的第q维特征,1≤ii≤n,1≤ij≤n。记d=[dii,ij]为生成的特征距离矩阵,在d中dii,ij越小表示越相似,d为对称矩阵,d的主对角元素为0。

step3.2:将距离矩阵d采用公式(14)归一化为亲密关系矩阵a,使得a中的取值为0到1,值越大表示越相似。

其中表示d中第ii行的第kn个最大值,本实施例中kn=5。

step3.3:初始化扩散过程w0=pknn,这里的pknn是一个n×n的矩阵,可通过公式(15)计算得到。然后通过对矩阵pknn进行归一化,使得pknn的每一行值总和在0-1之间。

其中aii,ij是矩阵a的第ii行ij列的元素,表示a中第ii行的第kn个最大值。

step3.4:定义转移矩阵t=pknn;

step3.5:并通过wt+1=twttt来更新扩散过程矩阵w。

step3.6:比较更新前后wt和wt+1矩阵每一行的元素排序顺序,计算出每一行顺序的变化个数ri,并求出平均值

step3.7:设定阈值ε=0.3,当时停止step3.5的更新过程,得到最终的扩散过程w,并用矩阵a*来表示。

step4、对步骤step3优化后的特征进行重排序及根据重排的结果进行检索。

进一步地,可以设置所述step4具体为:

step4.1:对a*的每一行进行降序排序,并记录对应的列下标;

step4.2:将前np个位置上的值替换为矩阵d中对应的值;

step4.3:重新对前np个位置上的值进行降序排序,得到一个新的排序;

step4.4:在上面排序中即可得到每一个查询图像与数据库其他图像的相似度排序,最终完成图像的检索。

其中np值可设置大于用户检索需要返回的图像数量l。具体地,当用户进行检索时,如果通常需要返回l=100幅相似的图像,那么np需要设置为一个大于100的数,通常不超过2l。

上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1