一种图像检索的方法和装置与流程

文档序号:15934238发布日期:2018-11-14 02:07阅读:188来源:国知局

本发明涉及图像处理技术领域,具体涉及一种图像检索的方法和装置。

背景技术

在计算机视觉领域,大规模的图像检索技术因图像资源的广泛应用而备受关注。在大规模的图像检索中,哈希技术已成为一种有效的技术手段。基于哈希算法的图像检索方法是将图片的高维内容特征映射到汉明空间(二值空间)中,生成一个低维的哈希序列来表示一幅图片,降低了图像检索系统对计算机内存空间的要求,提高了检索速度,能更好的适应海量图片检索的要求。

现有技术中基于哈希算法的图像检索方法中,大多数是先提取图像底层特征,然后利用特征去构造哈希函数,最后利用哈希函数生成哈希码,利用哈希码进行大规模数据图像的检索。例如基于稀疏表达和拉普拉斯图的哈希索引方法,该方法首先提取图像底层特征,进一步通过聚类得到视觉单词,然后利用有权重的拉普拉斯-贝尔特拉米算子的特征方程和特征根,求得欧式空间到汉明空间的映射函数,得到低维空间汉明向量,但该方法哈希函数的构造假设训练数据服从均匀分布,使其应用受限;例如基于潜在语义最小哈希的图像检索方法,该方法利用深度卷积网络提取语义特征,再通过哈希函数学习生成哈希码,然而该方法的特征提取过程和哈希函数学习的过程是分开的,因此对于哈希函数的学习过程来说,提取的特征可能不是并最优的,精度有待提高。

因此,由于现有技术中的基于哈希的图像检索技术是将特征提取过程和哈希算法学习过程分为两个过程,在同时学习特征和哈希函数深度学习的算法中,只是将语义特征经过浅层映射,从而不能构造较好的哈希码,图像检索的精度较低。



技术实现要素:

针对现有技术中的上述缺陷,本发明提供一种图像检索的方法和装置。

本发明的一方面提供一种图像检索的方法,包括:将待检索图像输入基于权重参数和偏置参数的目标网络结构,获取图像排序集合。

其中,所述方法还包括:s1,根据图像数据获取训练样本集,所述训练样本集包括训练图像集和与所述训练图像集对应的标签;构建包括卷积神经网络、循环神经网络和损失层的初始网络结构;s2,使用所述训练样本集对所述初始网络结构进行训练,获取所述权重参数和所述偏置参数;s3,所述初始网络结构加载所述权重参数和所述偏置参数,获取训练完成的所述目标网络结构。

其中,所述将待检索图像输入基于权重参数和偏置参数的目标网络结构,获取图像排序集合包括:将所述待检索图像和所述训练图像集输入所述目标网络结构中,获取所述待检索图像与所述训练图像集的哈希码之间的汉明距离;对所述汉明距离进行从小到大地排序,根据所述排序获取与所述汉明距离对应的所述图像排序集合。

其中,所述步骤s2包括:s21,将所述训练图像集输入所述卷积神经网络,获取高层语义特征;s22,将所述高层语义特征输入所述循环神经网络,获取所述训练图像集的连续哈希码;s23,根据所述训练图像集、所述标签和所述连续哈希码,通过目标函数获取所述权重参数和所述偏置参数。

其中,所述高层语义特征通过以下方式获取:

i=g*f(xtrain)

其中,i为所述高层语义特征,f为所述卷积神经网络,g为变形运算。

其中,所述连续哈希码通过以下方式获取:

q=simplernn(i,wr,br)

其中,q为所述连续哈希码,simplernn为所述循环神经网络,wr为所述循环神经网络的权重,br为所述循环神经网络的偏置。

其中,所述步骤s23包括:将所述训练图像集输入所述初始网络结构,获取预测标签y′train;根据所述目标函数,通过随机梯度下降法获取所述权重参数w和所述偏置参数b,所述目标函数具体为:

其中,α1和α2为所述目标函数的权重,l(.)为交叉熵损失,mean(.)为平均运算,ytrain为所述标签。

其中,所述步骤s22还包括:根据所述连续哈希码获取二进制哈希码。

其中,所述方法还包括:s4,根据所述图像排序集合获取精度向量,并根据所述精度向量获取平均精度指标。

本发明的另一方面提供一种图像检索的装置,包括:检索模块,用于将待检索图像输入基于权重参数和偏置参数的目标网络结构,获取图像排序集合。

本发明提供的图像检索的方法和装置,通过权重参数和偏置参数将图像高层语义特征提取过程和构造深度哈希函数过程结合在了一起,能够对高层语义特征进行深度映射,从而生成紧凑且离散的哈希码,具有良好的鲁棒性,提高了图像检索精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的获取目标网络结构的流程示意图;

图2为本发明实施例提供的网络结构的示意图;

图3为本发明实施例提供的mnist数据库下汉明距离小于等于2的精度曲线图;

图4为本发明实施例提供的mnist数据库下前500张返回图片的精度曲线图;

图5为本发明实施例提供的mnist数据库下前1000张返回图片的精度曲线图;

图6为本发明实施例提供的cifar-10数据库下汉明距离小于等于2的精度曲线图;

图7为本发明实施例提供的cifar-10数据库下前500张返回图片的精度曲线图;

图8为本发明实施例提供的cifar-10数据库下前1000张返回图片的精度曲线图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例提供的图像检索方法,包括:将待检索图像输入基于权重参数和偏置参数的目标网络结构,获取图像排序集合。其中,目标网络结构是用于检索图像的网络结构,将待检索图像输入其中后,可以根据其中之前输入的图像,按照相似性从大到小的排序,输出检索结果图像。目标网络结构在进行图像检索中主要包括以下步骤:提取图像的高层语义特征以及将高层语义特征映射为哈希码,并根据图像哈希码之间的汉明距离输出检索结果图像。权重参数是对目标网络结构中提取图像高层语义和哈希码的深度映射两个步骤进行加权,使其具有不同的重要性;而偏置参数相当于非线性系统在线性坐标的补丁值,能够对上述步骤进行不同的偏置处理,以获得精确的检索结果。

本发明实施例提供的图像检索的方法,通过权重参数和偏置参数将图像高层语义特征提取过程和构造深度哈希函数过程结合在了一起,能够对高层语义特征进行深度映射,从而生成紧凑且离散的哈希码,具有良好的鲁棒性,提高了图像检索精度。

图1为本发明实施例提供的获取目标网络结构的流程示意图,如图1所示,包括:s1,根据图像数据获取训练样本集,所述训练样本集包括训练图像集和与所述训练图像集对应的标签;构建包括卷积神经网络、循环神经网络和损失层的初始网络结构;s2,使用所述训练样本集对所述初始网络结构进行训练,获取所述权重参数和所述偏置参数;s3,所述初始网络结构加载所述权重参数和所述偏置参数,获取训练完成的所述目标网络结构。

其中,在步骤s1中,可以从图像数据中选取训练样本集,每个样本包括一张图像和与该图像对应的类别标签。例如,可以从图像数据库mnist选取60000张图片作为训练样本集。另外,还可以将数据库mnist剩下的10000张图片作为查询样本集,在得到目标网络结构后,可以将查询样本集中的样本输入目标网络结构,能够对目标网络结构进行精度检测。

图2为本发明实施例提供的网络结构的示意图,如图2所示,步骤s1中构建的初始网络结构包括卷积神经网络、循环神经网络和损失层。

卷积神经网络用于提取图像的高层语义特征。例如,卷积神经网络可以采用4个卷积层和2个池化层;第一个卷积层和第二个卷积层是由32个大小3×3滤波器组成,步长为1;第三个和第四个卷积层是由64个大小3×3滤波器组成,步长为1;池化层大小是2×2,步长为1,激活函数为修正线性函数(relu)。

循环神经网络用于将卷积神经网络提取的高层语义特征进行深度映射,获取哈希码。例如,循环神经网络可以采用simplernn,隐层单元数目是100;simplernn输出哈希层,哈希层可以具有k个节点,即哈希码的长度;隐层的激活函数可以采用修正线性函数,哈希层激活函数可以采用双曲正切函数(tanh)。

损失层包括交叉熵损失和哈希码的平衡约束,损失层可以采用softmax层,其采用全连接方式连接上述哈希层。

在步骤s2中,将训练样本输入初始网络结构,对初始网络结构进行训练。通过训练能够获得初始网络结构的权重参数和偏置参数,通过权重参数和偏置参数能够对卷积神经网络和循环神经网络进行相应的加权和偏置处理,进一步将特征提取过程和哈希算法学习过程结合在一起。

在步骤s3中,将步骤s2中获取的权重参数和偏置参数加载至初始网络结构。在初始网络结构中,卷积神经网络和循环神经网络之间没有加权和偏置的约束;而初始网络结构将加权参数和偏置参数加载后,明确了卷积神经网络和循环神经网络之间的关系,得到了期望的目标网络结构。

基于上述实施例,所述将待检索图像输入基于权重参数和偏置参数的目标网络结构,获取图像排序集合包括:将所述待检索图像和所述训练图像集输入所述目标网络结构中,获取所述待检索图像与所述训练图像集的哈希码之间的汉明距离;对所述汉明距离进行从小到大地排序,根据所述排序获取与所述汉明距离对应的所述图像排序集合。

具体地,将待检索图像和训练图像集输入至目标网络结构,能够获取待检索图像的哈希码和训练样本集的哈希码;分别获取待检索图像的哈希码与训练图像集中的各图像哈希码之间的汉明距离;对多个汉明距离进行从小到大地排序,各汉明距离分别对应不同的训练图像;由于具有较小汉明距离的训练图像与待检索图像更为相似,因此可以根据汉明距离的大小对图像样本进行排序,获取图像排序集合,该图像排序集合即为输出的检索结果。

基于上述实施例,所述步骤s2包括:s21,将所述训练图像集输入所述卷积神经网络,获取高层语义特征;s22,将所述高层语义特征输入所述循环神经网络,获取所述训练图像集的连续哈希码;s23,根据所述训练图像集、所述标签和所述连续哈希码,通过目标函数获取所述权重参数和所述偏置参数。

基于上述实施例,所述高层语义特征通过以下方式获取:

i=g*f(xtrain)

其中,i为所述高层语义特征,f为所述卷积神经网络,g为变形运算。利用卷积神经网络前项传播,能够获取高层语义特征。

基于上述实施例,所述连续哈希码通过以下方式获取:

q=simplernn(i,wr,br)

其中,q为所述连续哈希码,simplernn为所述循环神经网络,wr为所述循环神经网络的权重,br为所述循环神经网络的偏置。经过循环神经网络将高层语义特征进行深度映射,可以得到训练图像的哈希码。

基于上述实施例,所述步骤s23包括:将所述训练图像集输入所述初始网络结构,获取预测标签y′train;根据所述目标函数,通过随机梯度下降法获取所述权重参数w和所述偏置参数b,所述目标函数具体为:

其中,α1和α2为所述目标函数的权重,l(.)为交叉熵损失,mean(.)为平均运算,ytrain为所述标签。

基于上述实施例,所述步骤s22还包括:根据所述连续哈希码获取二进制哈希码。具体地,由于连续哈希码是被映射在-1到1之间的连续值,可以对连续哈希码采用阈值函数得到二进制哈希码,阈值函数具体如下:

h=sgn(q)

其中,h为训练样本集的二进制哈希码;sgn(.)为符号函数,若输入的参数大于0,则符号函数返回1;若输入的参数小于0,则返回-1。

由此可得到训练样本集的二进制哈希码h,通过对h的汉明距离相互比较,即可以得到样本之间的相似程度,实现图像检索功能。

基于上述实施例,所述方法还包括:s4,根据所述图像排序集合获取精度向量,并根据所述精度向量获取平均精度指标。具体地,在步骤s3中获取到图像排序集合后,可以对目标网络结构的检索精度进行检测。计算图像排序集合中各个排序向量对应的排序精度并生成排序集合对应的精度向量ap,得出整个训练样本集的平均精度指标map,具体为:

map=(∑ap)/n

为了说明本发明实施例提供的图像检索的方法,以下对上述方法进行仿真。

1.仿真条件

中央处理器为geforcegtxtitanxgpu、intercorei7-5930k、3.50ghzcpu、64gram、linux操作系统上,运用python和开源库theano进行的仿真。

仿真使用的数据库为文献“r.zhang,l.lin,r.zhang,w.zuo,andl.zhang.bit-scalabledeephashingwithregularizedsimilaritylearningforimageretrievalandpersonre-identification.ieeetransactionsonimageprocessing,2015,24(12):4766-4779.”中公开的数据库。

2.仿真内容

将本发明实施例提供的图像检索方法与现有的且性能优越的9个比较算法,分别是3种无监督方法lsh、sh和itq,以及6种监督的方法ksh、mlh、bre、dsrh、dsch和drsch,其中后三种是利用深度学习的方法,采用是原图作为输入,ksh-cnn、mlh-cnn、bre-cnn采用是深度卷积神经网络的全连接层的高层语义特征,lsh、sh、itq、ksh、mlh和bre采用是手工特征。

通过仿真试验,计算出在不同比特情况下的平均精度指标map,并且分别获取在不同的比特下情况下前500张返回图片的精度曲线,在不同比特情况下汉明距离小于等于2的精度曲线,在64比特下前1000张返回图片的精度曲线。

仿真一:在数据库mnist下分别将本发明的方法和9种哈希算法对比,计算map对比结果如表1所示:

表1mnist数据库下系统检索精度

在mnist数据库下获取的精度比较通过下图示出:图3为本发明实施例提供的mnist数据库下汉明距离小于等于2的精度曲线图,如图3所示,其横轴为哈希码的编码长度,纵轴为检索精度,其反映在不同的哈希编码长度下汉明距离小于等于2的精度;图4为本发明实施例提供的mnist数据库下前500张返回图片的精度曲线图,如图4所示,其横轴为哈希码的编码长度,纵轴为检索精度,其反映在不同的哈希编码长度下前500张返回图片的精度;图5为本发明实施例提供的mnist数据库下前1000张返回图片的精度曲线图,如图5所示,其横轴为返回图片的张数,纵轴为检索精度,其反映哈希编码长度取64位的前1000张返回图片的精度。

仿真二:在数据库cifar-10下分别将本发明的方法和9种哈希算法对比,计算map对比结果如表2所示:

表2cifar-10数据库下系统检索精度

在cifar-10数据库下获取的精度比较通过下图示出:图6为本发明实施例提供的cifar-10数据库下汉明距离小于等于2的精度曲线图,如图6所示,其横轴为哈希码的编码长度,纵轴为检索精度,其反映在不同的哈希编码长度下汉明距离小于等于2的精度;图7为本发明实施例提供的cifar-10数据库下前500张返回图片的精度曲线图,如图7所示,其横轴为哈希码的编码长度,纵轴为检索精度,其反映在不同的哈希编码长度下前500张返回图片的精度;图8为本发明实施例提供的cifar-10数据库下前1000张返回图片的精度曲线图,如图8所示,其横轴为返回图片的张数,纵轴为检索精度,其反映哈希编码长度取64位的前1000张返回图片的精度。

从表1和表2可见,本发明实施例提供的图像检索方法与现有技术中的哈希方法相比,本发明实施例的平均检索精度(map)在不同的哈希编码长度的精度都有所提高。这是也因为本发明实施例提供的方法通过深度卷积神经网络提取数据库高层语义特征,然后利用循环神经网络去对高层语义特征进一步深度映射,通过将提取高层语义特征和构造深度哈希函数的过程结合在一起,构造了有效的哈希码,因此提高图像检索的精度。

而为了进一步验证了本发明的有效性,如图4至图8所示,从不同的哈希编码长度下前500张返回图片的精度、在不同的哈希编码长度下汉明距离小于等于2的精度和在64比特下前1000张返回图片的精度三个方面进一步对比。可以看出,本发明实施例提供的图像检索方法较其它的方法在这三个方面都有所提高,进一步说明了利用目标网络结构去映射高层语义特征可以得到更好的哈希码,从而提高检索精度。

本发明实施例还提供一种图像检索的装置,包括:检索模块,用于将待检索图像输入基于权重参数和偏置参数的目标网络结构,获取图像排序集合。其中,目标网络结构是用于检索图像的网络结构,将待检索图像输入其中后,可以根据其中之前输入的图像,按照相似性从大到小的排序,输出检索结果图像。目标网络结构在进行图像检索中主要包括以下步骤:提取图像的高层语义特征以及将高层语义特征映射为哈希码,并根据图像哈希码之间的汉明距离输出检索结果图像。权重参数是对目标网络结构中提取图像高层语义和哈希码的深度映射两个步骤进行加权,使其具有不同的重要性;而偏置参数相当于非线性系统在线性坐标的补丁值,能够对上述步骤进行不同的偏置处理,以获得精确的检索结果。

本发明实施例提供的图像检索的装置,通过权重参数和偏置参数将图像高层语义特征提取过程和构造深度哈希函数过程结合在了一起,能够对高层语义特征进行深度映射,从而生成紧凑且离散的哈希码,具有良好的鲁棒性,提高了图像检索精度。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1