一种基于层次注意力模型的图像检索方法与流程

文档序号:15272039发布日期:2018-08-28 22:33阅读:138来源:国知局

本发明涉及一种基于层次注意力模型的图像检索方法,尤其涉及一种能实现按检索目标的重要程度进行区分的图像检索。



背景技术:

随着微信、微博等数据共享平台的流行,图像、视频、音频、文本等异构数据每天都在以惊人的速度增长。针对这些包含丰富视觉信息的海量图片,如何在这些浩瀚的图像库中方便、快速、准确地查询并检索到用户所需的或感兴趣的图像,成为多媒体信息检索领域研究的热点。

然而,现有的图像检索基本都是针对整体图像来提取图像的底层特征,再对数据库中的图像进行检索,搜索出来的图像没有针对性且容易搜索到与背景相关的图像。而注意力模型能够快速而有效地把注意力集中在最感兴趣的区域上的同时抑制冗余的信息。且实际场景中,人眼通常可以同时关注好几个显著性对象,而且对不同显著性对象的重要程度有不同的认知,因此引入注意力模型来进行图像检索。



技术实现要素:

本发明的目的在于针对现有图像检索没有针对性的问题,提供一种基于层次注意力模型的图像检索方法,可以对待搜索图像的显著性目标的重要程度进行区分,以检索更重要的信息,具有针对性强、有主次性等优点。

为实现上述目的,本发明的技术方案是:一种基于层次注意力模型的图像检索方法,所述方法包括;

步骤s1:建立层次注意力模型以得出图像的显著性目标及其对应的显著值,并按其显著性值排序;

步骤s2:利用层次注意力模型将数据库图像分成背景与显著性目标区域,并对每个显著性目标区域提取sift特征、hsv颜色直方图及语义特征;

步骤s3:对待搜寻图像的各个显著性目标提取sift特征、hsv颜色直方图及语义特征,将待搜寻图像的特征与数据库图像进行特征相似度匹配,对各个显著性目标的相似度进行加权排序得到基于显著性目标的检索结果。

在本发明一实施例中,步骤s1中层次注意力模型由显著性对象检测模型、显著性区域检测模型与全连接条件随机场构成,具体包括以下步骤:

步骤s11:由显著性区域检测模型得到低层的显著性图;

步骤s12:通过全连接条件随机场将低层的显著性图与显著性对象检测模型得到显著性对象检测框进行结合得到中间层的显著性对象实例图;

步骤s13:用显著性对象检测模型得到的置信度值对显著性对象实例图进行显著性分配得到最终的层次注意力图。

在本发明一实施例中,步骤s11包括以下具体步骤:

步骤s111:根据显著性区域检测模型得到的显著性图将像素分为显著性像素v={vt}和背景像素b={bt},将显著性对象检测模型得到的显著性对象包含的像素记为n表示显著性对象个数。

步骤s112:将背景视为n+1类,根据以下六种假设将显著性图和检测的显著性对象信息融合扩展为显著性对象概率图:

假设1:如果显著性像素vt只被标签为k的显著性对象检测框覆盖,那么显著性像素vt属于第n个显著性对象的概率为1;

假设2:如果显著性像素vt未被任何显著性对象检测框覆盖,那么vt属于n+1个类的概率都为1/n;

假设3:如果显著性像素vt同时被q个显著性对象检测框覆盖,q个显著性对象检测框对应的标签分别为l1,…,lq,…,lq,那么显著性像素vt属于第q个显著性对象的概率为即若

假设4:如果背景像素bt未被任何显著性对象检测框覆盖,那么么背景像素bt属于背景的概率为1;

假设5:如果背景像素bt被标签为k的显著性对象检测框覆盖,且标签为k的显著性对象检测框有覆盖显著性像素,那么背景像素bt为背景的概率为1;

假设6:如果背景像素bt同时被q个显著性对象检测框覆盖,q个显著性对象检测框对应的标签为l1,…,lq,…,lq,若对于标签为lq的显著性对象检测框有覆盖显著性像素,那么背景像素bt属于第lq个显著性对象的概率为0,反之则背景bt属于lq的概率都为1/q+1,背景像素bi属于背景的概率为1/q+1;

步骤s113:用全连接条件随机场对显著性对象概率图进行修正,其能量函数如下所示:

其中为一元势函数;为二元势函数。

进一步的,显著性区域检测模型的网络结构具体如下:

第一层为输入层,输入图像;

第二层由两个卷积层构成,其中第一个卷积层使用64个卷积核,尺寸为(4,4,3),第二个卷积层使用64个卷积核,尺寸为(3,3,64),激活函数为relu函数;

第三层为池化层,尺寸为(2,2),激活函数为relu函数;

第四层由两个卷积层构成,其中第一个卷积层使用128个卷积核,尺寸为(3,3,64),第二个卷积层使用128个卷积核,尺寸为(3,3,128),激活函数为relu函数;

第五层为池化层,尺寸为(2,2),激活函数为relu函数;

第六层由三个卷积层构成,其中第一个卷积层使用256个卷积核,尺寸为(3,3,128),第二个卷积层使用256个卷积核,尺寸为(3,3,256),第三个卷积层使用256个卷积核,尺寸为(3,3,256),激活函数为relu函数;

第七层为池化层,尺寸为(2,2),激活函数为relu函数;

第八层由三个卷积层构成,其中第一个卷积层使用512个卷积核,尺寸为(3,3,256),第二个卷积层使用512个卷积核,尺寸为(3,3,512),第三个卷积层使用512个卷积核,尺寸为(3,3,512),激活函数为relu函数;

第九层为池化层,尺寸为(2,2),激活函数为relu函数;

第十层由三个卷积层构成,其中第一个卷积层使用512个卷积核,尺寸为(3,3,512),第二个卷积层使用512个卷积核,尺寸为(3,3,512),第三个卷积层使用512个卷积核,尺寸为(3,3,512),激活函数为relu函数;

第十一层为池化层,尺寸为(3,3),扩充边缘尺寸为1,激活函数为relu函数;

第十二层由两个卷积层构成,其中第一个卷积层使用1024个卷积核,尺寸为(3,3,512),第二个卷积层使用512个卷积核,尺寸为(3,3,1024),激活函数为relu函数;

第十三层由两个卷积层与一个归一化层构成,其中第一个卷积层使用256个卷积核,尺寸为(3,3,1024),第二个卷积层使用512个卷积核,尺寸为(3,3,256),激活函数为relu函数;

第十四层由一个去卷积层、一个剪切层、eltwise层与归一化层组成,其中去卷积层,使用512个卷积核,尺寸为(4,4,512),激活函数为relu函数,输入为第十三层输出;剪切层,根据第十二层输出的尺寸对去卷积层输出进行剪切;eltwise层,对第十二层输出与剪切层输出进行逐像素相乘,激活函数为relu函数;最后为归一化层,对eltwise层输出进行归一化操作;

第十五层由一个去卷积层、一个剪切层、eltwise层与归一化层组成,其中去卷积层,使用512个卷积核,尺寸为(4,4,512),激活函数为relu函数,输入为第十四层输出;剪切层,根据第八层输出的尺寸对去卷积层输出进行剪切;eltwise层,对第八层输出与剪切层输出进行逐像素相乘,激活函数为relu函数;最后为归一化层,对eltwise层输出进行归一化操作;

第十六层由一个去卷积层、一个剪切层、eltwise层与归一化层组成,其中去卷积层,使用256个卷积核,尺寸为(4,4,512),激活函数为relu函数,输入为第十五层输出;剪切层,根据第六层输出的尺寸对去卷积层输出进行剪切;eltwise层,对第六层输出与剪切层输出进行逐像素相乘,激活函数为relu函数;最后为归一化层,对eltwise层输出进行归一化操作;

第十七层由一个去卷积层、一个剪切层、eltwise层与归一化层组成,其中去卷积层,使用128个卷积核,尺寸为(4,4,256),激活函数为relu函数,输入为第十六层输出;剪切层,根据第四层输出的尺寸对去卷积层输出进行剪切;eltwise层,对第四层输出与剪切层输出进行逐像素相乘,激活函数为relu函数;最后为归一化层,对eltwise层输出进行归一化操作;

第十八层由一个去卷积层、一个剪切层、eltwise层与归一化层组成,其中去卷积层,使用64个卷积核,尺寸为(4,4,128),激活函数为relu函数,输入为第十七层输出;剪切层,根据第二层输出的尺寸对去卷积层输出进行剪切;eltwise层,对第二层输出与剪切层输出进行逐像素相乘,激活函数为relu函数;最后为归一化层,对eltwise层输出进行归一化操作;

第十九层由一个去卷积层、一个卷积层、一个级联层组成,去卷积层的输入为第十四层输出,使用1个卷积核,尺寸为(4,4,512),卷积层的输入为第十四层输出,使用1个卷积核,尺寸为(1,1,512),级联层将去卷积层与卷积层的输出进行通道连接,激活函数为relu函数;

第二十层由两个去卷积层与一个剪切层组成,其中第一个去卷积层使用1个卷积核,尺寸为(8,8,2),第二个去卷积层使用1个卷积核,尺寸为(8,8,1),使用剪切层将去卷积层结果剪切成与原图一样的尺寸,激活函数为sigmoid函数;

第二十一层由一个去卷积层、一个卷积层、一个级联层组成,,去卷积层的输入为第十九层输出,使用2个卷积核,尺寸为(4,4,2),卷积层的输入为第十五层输出,使用1个卷积核,尺寸为(1,1,512),级联层将去卷积层与卷积层的输出进行通道连接,激活函数为relu函数;

第二十二层由一个去卷积层与一个剪切层组成,其中去卷积层使用1个卷积核,尺寸为(16,16,1),使用剪切层将去卷积层结果剪切成与原图一样的尺寸,激活函数为sigmoid函数;

第二十三层由一个去卷积层、一个卷积层、一个级联层组成,去卷积层的输入为第二十一层输出,使用3个卷积核,尺寸为(4,4,3),卷积层的输入为第十六层输出,使用1个卷积核,尺寸为(1,1,256),级联层将去卷积层与卷积层的输出进行通道连接,激活函数为relu函数;

第二十四层由一个去卷积层与一个剪切层组成,其中去卷积层使用1个卷积核,尺寸为(8,8,2),使用剪切层将去卷积层结果剪切成与原图一样的尺寸,激活函数为sigmoid函数;

第二十五层由一个去卷积层、一个卷积层、一个级联层组成,,去卷积层的输入为第二十三层输出,使用4个卷积核,尺寸为(4,4,4),卷积层的输入为第十七层输出,使用1个卷积核,尺寸为(1,1,128),级联层将去卷积层与卷积层的输出进行通道连接,激活函数为relu函数;

第二十六层由一个去卷积层与一个剪切层组成,其中去卷积层使用1个卷积核,尺寸为(4,4,3),使用剪切层将去卷积层结果剪切成与原图一样的尺寸,激活函数为sigmoid函数;

第二十七层由一个去卷积层、一个卷积层、一个级联层组成,,去卷积层的输入为第二十五层输出,使用3个卷积核,尺寸为(4,4,3),卷积层的输入为第十七层输出,使用1个卷积核,尺寸为(1,1,256),级联层将去卷积层与卷积层的输出进行通道连接,激活函数为relu函数;

第二十八层由一个去卷积层与一个剪切层组成,其中去卷积层使用1个卷积核,尺寸为(2,2,4),使用剪切层将去卷积层结果剪切成与原图一样的尺寸,激活函数为sigmoid函数;

第二十九层由一个级联层与卷积层组成,级联层将第二十八层、第二十六层、第二十四层、第二十二层、第二十层输出进行通道连接,卷积层使用1个卷积核,尺寸为(1,1,5),激活函数为sigmoid函数,得到最终输出结果。

进一步的,显著性对象检测模型的网络结构具体如下:

第一层为输入层,输入图像;

第二层由两个卷积层构成,其中第一个卷积层使用64个卷积核,尺寸为(4,4,3),第二个卷积层使用64个卷积核,尺寸为(3,3,64),激活函数为relu函数;

第三层为池化层,尺寸为(2,2),激活函数为relu函数;

第四层由两个卷积层构成,其中第一个卷积层使用128个卷积核,尺寸为(3,3,64),第二个卷积层使用128个卷积核,尺寸为(3,3,128),激活函数为relu函数;

第五层为池化层,尺寸为(2,2),激活函数为relu函数;

第六层由三个卷积层构成,其中第一个卷积层使用256个卷积核,尺寸为(3,3,128),第二个卷积层使用256个卷积核,尺寸为(3,3,256),第三个卷积层使用256个卷积核,尺寸为(3,3,256),激活函数为relu函数;

第七层为池化层,尺寸为(2,2),激活函数为relu函数;

第八层由三个卷积层构成,其中第一个卷积层使用512个卷积核,尺寸为(3,3,256),第二个卷积层使用512个卷积核,尺寸为(3,3,512),第三个卷积层使用512个卷积核,尺寸为(3,3,512),激活函数为relu函数;

第九层为池化层,尺寸为(2,2),激活函数为relu函数;

第十层由三个卷积层构成,其中第一个卷积层使用512个卷积核,尺寸为(3,3,512),第二个卷积层使用512个卷积核,尺寸为(3,3,512),第三个卷积层使用512个卷积核,尺寸为(3,3,512),激活函数为relu函数;

第十一层为池化层,尺寸为(3,3),扩充边缘尺寸为1,激活函数为relu函数;

第十二层由两个卷积层构成,其中第一个卷积层使用1024个卷积核,尺寸为(3,3,512),第二个卷积层使用512个卷积核,尺寸为(3,3,1024),激活函数为relu函数;

第十三层由两个卷积层构成,其中第一个卷积层使用256个卷积核,尺寸为(3,3,512),第二个卷积层使用512个卷积核,尺寸为(3,3,256),激活函数为relu函数;

第十四层由两个卷积层构成,其中第一个卷积层使用128个卷积核,尺寸为(3,3,512),第二个卷积层使用256个卷积核,尺寸为(3,3,128),激活函数为relu函数;

第十五层由两个卷积层构成,其中第一个卷积层使用128个卷积核,尺寸为(3,3,256),第二个卷积层使用256个卷积核,尺寸为(3,3,128),激活函数为relu函数;

第十六层由一个去卷积层、一个卷积层、一个剪切层、两个eltwise层组成。其中去卷积层,使用256个卷积核,尺寸为(4,4,256),激活函数为relu函数,输入为第十五层输出;卷积层使用256个卷积核,尺寸为(1,1,256),激活函数为sigmoid函数,输入为去卷积层输出;第一个eltwise层对去卷积层输出与卷积层输出进行逐像素相加,激活函数为relu函数;剪切层,根据第十四层输出的尺寸对第一个eltwise层输出进行剪切;第二个eltwise层,对第十四层输出与剪切层输出进行逐像素相乘,激活函数为relu函数;

第十七层由一个去卷积层、一个卷积层、一个剪切层、两个eltwise层组成。其中去卷积层,使用512个卷积核,尺寸为(4,4,256),激活函数为relu函数,输入为第十六层输出;卷积层使用512个卷积核,尺寸为(1,1,512),激活函数为sigmoid函数,输入为去卷积层输出;第一个eltwise层对去卷积层输出与卷积层输出进行逐像素相加,激活函数为relu函数;剪切层,根据第十三层输出的尺寸对第一个eltwise层输出进行剪切;第二个eltwise层,对第十三层输出与剪切层输出进行逐像素相乘,激活函数为relu函数;

第十八层由一个去卷积层、一个卷积层、一个剪切层、两个eltwise层组成。其中去卷积层,使用512个卷积核,尺寸为(4,4,512),激活函数为relu函数,输入为第十七层输出;卷积层使用512个卷积核,尺寸为(1,1,512),激活函数为sigmoid函数,输入为去卷积层输出;第一个eltwise层对去卷积层输出与卷积层输出进行逐像素相加,激活函数为relu函数;剪切层,根据第十二层输出的尺寸对第一个eltwise层输出进行剪切;第二个eltwise层,对第十二层输出与剪切层输出进行逐像素相乘,激活函数为relu函数;

第十九层由一个去卷积层、一个卷积层、一个剪切层、两个eltwise层组成。其中去卷积层,使用512个卷积核,尺寸为(4,4,512),激活函数为relu函数,输入为第十八层输出;卷积层使用512个卷积核,尺寸为(1,1,512),激活函数为sigmoid函数,输入为去卷积层输出;第一个eltwise层对去卷积层输出与卷积层输出进行逐像素相加,激活函数为relu函数;剪切层,根据第八层输出的尺寸对第一个eltwise层输出进行剪切;第二个eltwise层,对第八层输出与剪切层输出进行逐像素相乘,激活函数为relu函数;

第二十层由一个卷积层、一个permute层、一个flatten层组成。其中卷积层使用16个卷积核,尺寸为(1,1,512),输入为第十九层输出;permute层,对特征进行重新排列,顺序为(0,2,3,1);flatten层,将特征平铺成一维;

第二十一层由一个卷积层、一个permute层、一个flatten层组成。其中卷积层使用8个卷积核,尺寸为(1,1,512),输入为第十九层输出;permute层,对特征进行重新排列,顺序为(0,2,3,1);flatten层,将特征平铺成一维;

第二十二层为priorbox层,使用第一层与第十九层输出作为输入,最大最小尺寸参数分别为44.8与22.4,长宽比率参数为2;

第二十三层由一个卷积层、一个permute层、一个flatten层组成。其中卷积层使用24个卷积核,尺寸为(1,1,512),输入为第十八层输出;permute层,对特征进行重新排列,顺序为(0,2,3,1);flatten层,将特征平铺成一维;

第二十四层由一个卷积层、一个permute层、一个flatten层组成。其中卷积层使用12个卷积核,尺寸为(1,1,512),输入为第十八层输出;permute层,对特征进行重新排列,顺序为(0,2,3,1);flatten层,将特征平铺成一维;

第二十五层为priorbox层,使用第一层与第十八层输出作为输入,最大最小尺寸参数分别为96.32与44.8,长宽比率参数为2和3;

第二十六层为由一个卷积层、一个permute层、一个flatten层组成。其中卷积层使用24个卷积核,尺寸为(1,1,512),输入为第十七层输出;permute层,对特征进行重新排列,顺序为(0,2,3,1);flatten层,将特征平铺成一维;

第二十七层由一个卷积层、一个permute层、一个flatten层组成。其中卷积层使用12个卷积核,尺寸为(1,1,512),输入为第十七层输出;permute层,对特征进行重新排列,顺序为(0,2,3,1);flatten层,将特征平铺成一维;

第二十八层为priorbox层,使用第一层与第十七层输出作为输入,最大最小尺寸参数分别为147.84与96.32,长宽比率参数为2和3;

第二十九层由一个卷积层、一个permute层、一个flatten层组成。其中卷积层使用24个卷积核,尺寸为(1,1,256),输入为第十六层输出;permute层,对特征进行重新排列,顺序为(0,2,3,1);flatten层,将特征平铺成一维;

第三十层由一个卷积层、一个permute层、一个flatten层组成。其中卷积层使用12个卷积核,尺寸为(1,1,256),输入为第十六层输出;permute层,对特征进行重新排列,顺序为(0,2,3,1);flatten层,将特征平铺成一维;

第三十一层为priorbox层,使用第一层与第十六层输出作为输入,最大最小尺寸参数分别为199.36与147.84,长宽比率参数为2和3;

第三十二层由一个卷积层、一个permute层、一个flatten层组成。其中卷积层使用24个卷积核,尺寸为(1,1,256),输入为第十四层输出;permute层,对特征进行重新排列,顺序为(0,2,3,1);flatten层,将特征平铺成一维;

第三十三层由一个卷积层、一个permute层、一个flatten层组成。其中卷积层使用12个卷积核,尺寸为(1,1,256),输入为第十四层输出;permute层,对特征进行重新排列,顺序为(0,2,3,1);flatten层,将特征平铺成一维;;

第三十四层为priorbox层,使用第一层与第十四层输出作为输入,最大最小尺寸参数分别为250.88与199.36,长宽比率参数为2和3;

第三十五层为concat层,对第二十层、第二十三层、第二十六层、第二十九层、第三十二层输出进行通道连接;

第三十六层为concat层,对第二十一层、第二十四层、第二十七层、第三十层、第三十三层输出进行通道连接;

第三十七层为concat层,对第二十二层、第二十五层、第二十八层、第三十一层、第三十四层输出进行通道连接;

第三十八层为reshape层,改变第三十六层输出维度,参数为(0,-1,2),激活函数为softmax函数;

第三十九层为flatten层,将第三十八层输出平铺成一维;

第四十层为detectionoutput层,输入为第三十六层、第三十九层、第三十七层,类别参数为2,得到最终结果;

进一步的,所述hsv特征的提取,通过提取显著性目标区域的像素,将rgb值转换为hsv值,量化成256维的颜色直方图。所述sift特征的提取,通过提取显著性目标区域的像素,用dog检测器检测关键点,然后用128维向量描述每个关键点的信息。所述cnn语义特征的提取,将显著性目标区域缩放成224*224大小,输入到显著性对象检测模型与显著性区域检测模型中,分别提取第八层与第八层输出作为cnn特征向量,并进行归一化。

在本发明一实施例中,还包括步骤s4中,使用加权的特征距离计算查询图像的显著性目标和数据库中每一幅图像的显著性目标之间的相似度,再通过显著性值加权计算查询图像和数据库中每一幅图像的相似度,按从大到小的顺序返回图像检索结果。

与现有技术相比,本发明将图像显著性加入到图像检索中,并按显著性目标的重要程度进行检索与加权,从而能够将检索结果按重要度分级,使得检索结果可以区分主次。

附图说明

图1是本发明的基于层次注意力模型的图像检索方法的结构示意图。

具体实施方式

下面结合附图,对本发明的技术方案进行具体说明。

本发明的一种基于层次注意力模型的图像检索方法其特征在于,如图1所示,所述方法包括:

步骤s1:建立层次注意力模型以得出图像的显著性目标及其对应的显著值,并按其显著性值排序;

步骤s2:利用层次注意力模型将数据库图像分成背景与显著性目标区域,并对每个显著性目标区域提取sift特征、hsv颜色直方图及语义特征;

步骤s3:对待搜寻图像的各个显著性目标提取sift特征、hsv颜色直方图及语义特征,将待搜寻图像的特征与数据库图像进行特征相似度匹配,对各个显著性目标的相似度进行加权排序得到基于显著性目标的检索结果。

在本发明一实施例中,所述层次注意力模型由显著性对象检测模型、显著性区域检测模型与全连接条件随机场构成,具体为:

先由显著性区域检测模型得到低层的显著性图,再通过全连接条件随机场将低层的显著性图与显著性对象检测模型得到显著性对象检测框进行结合得到中间层的显著性对象实例图,最后用显著性对象检测模型得到的置信度值对显著性对象实例图进行显著性分配得到最终的层次注意力图,即得到了显著性目标区域及其显著性值。具体步骤如下:

(1)根据显著性区域检测模型得到的显著性图将像素分为显著性像素v={vt}和背景像素b={bt},将显著性对象检测模型得到的显著性对象包含的像素记为n表示显著性对象个数。

(2)将背景视为n+1类,根据以下六种假设将显著性图和检测的显著性对象信息融合扩展为显著性对象概率图。

假设1如果显著性像素vt只被标签为k的显著性对象检测框覆盖,那么显著性像素vt属于第n个显著性对象的概率为1。

假设2如果显著性像素vt未被任何显著性对象检测框覆盖,那么vt属于n+1个类的概率都为1/n。

假设3如果显著性像素vt同时被q个显著性对象检测框覆盖,q个显著性对象检测框对应的标签分别为l1,…,lq,…,lq,那么显著性像素vt属于第q个显著性对象的概率为即若

假设4如果背景像素bt未被任何显著性对象检测框覆盖,那么么背景像素bt属于背景的概率为1。

假设5如果背景像素bt被标签为k的显著性对象检测框覆盖,且标签为k的显著性对象检测框有覆盖显著性像素,那么背景像素bt为背景的概率为1。

假设6如果背景像素bt同时被q个显著性对象检测框覆盖,q个显著性对象检测框对应的标签为l1,…,lq,…,lq,若对于标签为lq的显著性对象检测框有覆盖显著性像素,那么背景像素bt属于第lq个显著性对象的概率为0,反之则背景bt属于lq的概率都为1/q+1,背景像素bi属于背景的概率为1/q+1。

(3)用全连接条件随机场对显著性对象概率图进行修正。其能量函数如下所示:

其中一元势函数定义如下:

其中二元势函数定义如下:

其中x表示标签{1,…,n+1},p(xi)表示像素i分配为标签x的显著性值,μ(xi,xj)表示指示函数,当xi≠xj时μ(xi,xj)=1,反之,其值为0。ii和pi分别为像素值和像素xi的位置。在实验中参数ω1,ω2,θα,θβ,θγ分别取值为5、5、60、7、7。

其中显著性区域检测模型的网络结构具体如下:

第一层为输入层,输入图像;

第二层由两个卷积层构成,其中第一个卷积层使用64个卷积核,尺寸为(4,4,3),第二个卷积层使用64个卷积核,尺寸为(3,3,64),激活函数为relu函数;

第三层为池化层,尺寸为(2,2),激活函数为relu函数;

第四层由两个卷积层构成,其中第一个卷积层使用128个卷积核,尺寸为(3,3,64),第二个卷积层使用128个卷积核,尺寸为(3,3,128),激活函数为relu函数;

第五层为池化层,尺寸为(2,2),激活函数为relu函数;

第六层由三个卷积层构成,其中第一个卷积层使用256个卷积核,尺寸为(3,3,128),第二个卷积层使用256个卷积核,尺寸为(3,3,256),第三个卷积层使用256个卷积核,尺寸为(3,3,256),激活函数为relu函数;

第七层为池化层,尺寸为(2,2),激活函数为relu函数;

第八层由三个卷积层构成,其中第一个卷积层使用512个卷积核,尺寸为(3,3,256),第二个卷积层使用512个卷积核,尺寸为(3,3,512),第三个卷积层使用512个卷积核,尺寸为(3,3,512),激活函数为relu函数;

第九层为池化层,尺寸为(2,2),激活函数为relu函数;

第十层由三个卷积层构成,其中第一个卷积层使用512个卷积核,尺寸为(3,3,512),第二个卷积层使用512个卷积核,尺寸为(3,3,512),第三个卷积层使用512个卷积核,尺寸为(3,3,512),激活函数为relu函数;

第十一层为池化层,尺寸为(3,3),扩充边缘尺寸为1,激活函数为relu函数;

第十二层由两个卷积层构成,其中第一个卷积层使用1024个卷积核,尺寸为(3,3,512),第二个卷积层使用512个卷积核,尺寸为(3,3,1024),激活函数为relu函数;

第十三层由两个卷积层与一个归一化层构成,其中第一个卷积层使用256个卷积核,尺寸为(3,3,1024),第二个卷积层使用512个卷积核,尺寸为(3,3,256),激活函数为relu函数;

第十四层由一个去卷积层、一个剪切层、eltwise层与归一化层组成,其中去卷积层,使用512个卷积核,尺寸为(4,4,512),激活函数为relu函数,输入为第十三层输出;剪切层,根据第十二层输出的尺寸对去卷积层输出进行剪切;eltwise层,对第十二层输出与剪切层输出进行逐像素相乘,激活函数为relu函数;最后为归一化层,对eltwise层输出进行归一化操作;

第十五层由一个去卷积层、一个剪切层、eltwise层与归一化层组成,其中去卷积层,使用512个卷积核,尺寸为(4,4,512),激活函数为relu函数,输入为第十四层输出;剪切层,根据第八层输出的尺寸对去卷积层输出进行剪切;eltwise层,对第八层输出与剪切层输出进行逐像素相乘,激活函数为relu函数;最后为归一化层,对eltwise层输出进行归一化操作;

第十六层由一个去卷积层、一个剪切层、eltwise层与归一化层组成,其中去卷积层,使用256个卷积核,尺寸为(4,4,512),激活函数为relu函数,输入为第十五层输出;剪切层,根据第六层输出的尺寸对去卷积层输出进行剪切;eltwise层,对第六层输出与剪切层输出进行逐像素相乘,激活函数为relu函数;最后为归一化层,对eltwise层输出进行归一化操作;

第十七层由一个去卷积层、一个剪切层、eltwise层与归一化层组成,其中去卷积层,使用128个卷积核,尺寸为(4,4,256),激活函数为relu函数,输入为第十六层输出;剪切层,根据第四层输出的尺寸对去卷积层输出进行剪切;eltwise层,对第四层输出与剪切层输出进行逐像素相乘,激活函数为relu函数;最后为归一化层,对eltwise层输出进行归一化操作;

第十八层由一个去卷积层、一个剪切层、eltwise层与归一化层组成,其中去卷积层,使用64个卷积核,尺寸为(4,4,128),激活函数为relu函数,输入为第十七层输出;剪切层,根据第二层输出的尺寸对去卷积层输出进行剪切;eltwise层,对第二层输出与剪切层输出进行逐像素相乘,激活函数为relu函数;最后为归一化层,对eltwise层输出进行归一化操作;

第十九层由一个去卷积层、一个卷积层、一个级联层组成,去卷积层的输入为第十四层输出,使用1个卷积核,尺寸为(4,4,512),卷积层的输入为第十四层输出,使用1个卷积核,尺寸为(1,1,512),级联层将去卷积层与卷积层的输出进行通道连接,激活函数为relu函数;

第二十层由两个去卷积层与一个剪切层组成,其中第一个去卷积层使用1个卷积核,尺寸为(8,8,2),第二个去卷积层使用1个卷积核,尺寸为(8,8,1),使用剪切层将去卷积层结果剪切成与原图一样的尺寸,激活函数为sigmoid函数;

第二十一层由一个去卷积层、一个卷积层、一个级联层组成,,去卷积层的输入为第十九层输出,使用2个卷积核,尺寸为(4,4,2),卷积层的输入为第十五层输出,使用1个卷积核,尺寸为(1,1,512),级联层将去卷积层与卷积层的输出进行通道连接,激活函数为relu函数;

第二十二层由一个去卷积层与一个剪切层组成,其中去卷积层使用1个卷积核,尺寸为(16,16,1),使用剪切层将去卷积层结果剪切成与原图一样的尺寸,激活函数为sigmoid函数;

第二十三层由一个去卷积层、一个卷积层、一个级联层组成,去卷积层的输入为第二十一层输出,使用3个卷积核,尺寸为(4,4,3),卷积层的输入为第十六层输出,使用1个卷积核,尺寸为(1,1,256),级联层将去卷积层与卷积层的输出进行通道连接,激活函数为relu函数;

第二十四层由一个去卷积层与一个剪切层组成,其中去卷积层使用1个卷积核,尺寸为(8,8,2),使用剪切层将去卷积层结果剪切成与原图一样的尺寸,激活函数为sigmoid函数;

第二十五层由一个去卷积层、一个卷积层、一个级联层组成,,去卷积层的输入为第二十三层输出,使用4个卷积核,尺寸为(4,4,4),卷积层的输入为第十七层输出,使用1个卷积核,尺寸为(1,1,128),级联层将去卷积层与卷积层的输出进行通道连接,激活函数为relu函数;

第二十六层由一个去卷积层与一个剪切层组成,其中去卷积层使用1个卷积核,尺寸为(4,4,3),使用剪切层将去卷积层结果剪切成与原图一样的尺寸,激活函数为sigmoid函数;

第二十七层由一个去卷积层、一个卷积层、一个级联层组成,,去卷积层的输入为第二十五层输出,使用3个卷积核,尺寸为(4,4,3),卷积层的输入为第十七层输出,使用1个卷积核,尺寸为(1,1,256),级联层将去卷积层与卷积层的输出进行通道连接,激活函数为relu函数;

第二十八层由一个去卷积层与一个剪切层组成,其中去卷积层使用1个卷积核,尺寸为(2,2,4),使用剪切层将去卷积层结果剪切成与原图一样的尺寸,激活函数为sigmoid函数;

第二十九层由一个级联层与卷积层组成,级联层将第二十八层、第二十六层、第二十四层、第二十二层、第二十层输出进行通道连接,卷积层使用1个卷积核,尺寸为(1,1,5),激活函数为sigmoid函数,得到最终输出结果;

其中显著性对象检测模型的网络结构具体如下:

第一层为输入层,输入图像;

第二层由两个卷积层构成,其中第一个卷积层使用64个卷积核,尺寸为(4,4,3),第二个卷积层使用64个卷积核,尺寸为(3,3,64),激活函数为relu函数;

第三层为池化层,尺寸为(2,2),激活函数为relu函数;

第四层由两个卷积层构成,其中第一个卷积层使用128个卷积核,尺寸为(3,3,64),第二个卷积层使用128个卷积核,尺寸为(3,3,128),激活函数为relu函数;

第五层为池化层,尺寸为(2,2),激活函数为relu函数;

第六层由三个卷积层构成,其中第一个卷积层使用256个卷积核,尺寸为(3,3,128),第二个卷积层使用256个卷积核,尺寸为(3,3,256),第三个卷积层使用256个卷积核,尺寸为(3,3,256),激活函数为relu函数;

第七层为池化层,尺寸为(2,2),激活函数为relu函数;

第八层由三个卷积层构成,其中第一个卷积层使用512个卷积核,尺寸为(3,3,256),第二个卷积层使用512个卷积核,尺寸为(3,3,512),第三个卷积层使用512个卷积核,尺寸为(3,3,512),激活函数为relu函数;

第九层为池化层,尺寸为(2,2),激活函数为relu函数;

第十层由三个卷积层构成,其中第一个卷积层使用512个卷积核,尺寸为(3,3,512),第二个卷积层使用512个卷积核,尺寸为(3,3,512),第三个卷积层使用512个卷积核,尺寸为(3,3,512),激活函数为relu函数;

第十一层为池化层,尺寸为(3,3),扩充边缘尺寸为1,激活函数为relu函数;

第十二层由两个卷积层构成,其中第一个卷积层使用1024个卷积核,尺寸为(3,3,512),第二个卷积层使用512个卷积核,尺寸为(3,3,1024),激活函数为relu函数;

第十三层由两个卷积层构成,其中第一个卷积层使用256个卷积核,尺寸为(3,3,512),第二个卷积层使用512个卷积核,尺寸为(3,3,256),激活函数为relu函数;

第十四层由两个卷积层构成,其中第一个卷积层使用128个卷积核,尺寸为(3,3,512),第二个卷积层使用256个卷积核,尺寸为(3,3,128),激活函数为relu函数;

第十五层由两个卷积层构成,其中第一个卷积层使用128个卷积核,尺寸为(3,3,256),第二个卷积层使用256个卷积核,尺寸为(3,3,128),激活函数为relu函数;

第十六层由一个去卷积层、一个卷积层、一个剪切层、两个eltwise层组成。其中去卷积层,使用256个卷积核,尺寸为(4,4,256),激活函数为relu函数,输入为第十五层输出;卷积层使用256个卷积核,尺寸为(1,1,256),激活函数为sigmoid函数,输入为去卷积层输出;第一个eltwise层对去卷积层输出与卷积层输出进行逐像素相加,激活函数为relu函数;剪切层,根据第十四层输出的尺寸对第一个eltwise层输出进行剪切;第二个eltwise层,对第十四层输出与剪切层输出进行逐像素相乘,激活函数为relu函数;

第十七层由一个去卷积层、一个卷积层、一个剪切层、两个eltwise层组成。其中去卷积层,使用512个卷积核,尺寸为(4,4,256),激活函数为relu函数,输入为第十六层输出;卷积层使用512个卷积核,尺寸为(1,1,512),激活函数为sigmoid函数,输入为去卷积层输出;第一个eltwise层对去卷积层输出与卷积层输出进行逐像素相加,激活函数为relu函数;剪切层,根据第十三层输出的尺寸对第一个eltwise层输出进行剪切;第二个eltwise层,对第十三层输出与剪切层输出进行逐像素相乘,激活函数为relu函数;

第十八层由一个去卷积层、一个卷积层、一个剪切层、两个eltwise层组成。其中去卷积层,使用512个卷积核,尺寸为(4,4,512),激活函数为relu函数,输入为第十七层输出;卷积层使用512个卷积核,尺寸为(1,1,512),激活函数为sigmoid函数,输入为去卷积层输出;第一个eltwise层对去卷积层输出与卷积层输出进行逐像素相加,激活函数为relu函数;剪切层,根据第十二层输出的尺寸对第一个eltwise层输出进行剪切;第二个eltwise层,对第十二层输出与剪切层输出进行逐像素相乘,激活函数为relu函数;

第十九层由一个去卷积层、一个卷积层、一个剪切层、两个eltwise层组成。其中去卷积层,使用512个卷积核,尺寸为(4,4,512),激活函数为relu函数,输入为第十八层输出;卷积层使用512个卷积核,尺寸为(1,1,512),激活函数为sigmoid函数,输入为去卷积层输出;第一个eltwise层对去卷积层输出与卷积层输出进行逐像素相加,激活函数为relu函数;剪切层,根据第八层输出的尺寸对第一个eltwise层输出进行剪切;第二个eltwise层,对第八层输出与剪切层输出进行逐像素相乘,激活函数为relu函数;

第二十层由一个卷积层、一个permute层、一个flatten层组成。其中卷积层使用16个卷积核,尺寸为(1,1,512),输入为第十九层输出;permute层,对特征进行重新排列,顺序为(0,2,3,1);flatten层,将特征平铺成一维;

第二十一层由一个卷积层、一个permute层、一个flatten层组成。其中卷积层使用8个卷积核,尺寸为(1,1,512),输入为第十九层输出;permute层,对特征进行重新排列,顺序为(0,2,3,1);flatten层,将特征平铺成一维;

第二十二层为priorbox层,使用第一层与第十九层输出作为输入,最大最小尺寸参数分别为44.8与22.4,长宽比率参数为2;

第二十三层由一个卷积层、一个permute层、一个flatten层组成。其中卷积层使用24个卷积核,尺寸为(1,1,512),输入为第十八层输出;permute层,对特征进行重新排列,顺序为(0,2,3,1);flatten层,将特征平铺成一维;

第二十四层由一个卷积层、一个permute层、一个flatten层组成。其中卷积层使用12个卷积核,尺寸为(1,1,512),输入为第十八层输出;permute层,对特征进行重新排列,顺序为(0,2,3,1);flatten层,将特征平铺成一维;

第二十五层为priorbox层,使用第一层与第十八层输出作为输入,最大最小尺寸参数分别为96.32与44.8,长宽比率参数为2和3;

第二十六层为由一个卷积层、一个permute层、一个flatten层组成。其中卷积层使用24个卷积核,尺寸为(1,1,512),输入为第十七层输出;permute层,对特征进行重新排列,顺序为(0,2,3,1);flatten层,将特征平铺成一维;

第二十七层由一个卷积层、一个permute层、一个flatten层组成。其中卷积层使用12个卷积核,尺寸为(1,1,512),输入为第十七层输出;permute层,对特征进行重新排列,顺序为(0,2,3,1);flatten层,将特征平铺成一维;

第二十八层为priorbox层,使用第一层与第十七层输出作为输入,最大最小尺寸参数分别为147.84与96.32,长宽比率参数为2和3;

第二十九层由一个卷积层、一个permute层、一个flatten层组成。其中卷积层使用24个卷积核,尺寸为(1,1,256),输入为第十六层输出;permute层,对特征进行重新排列,顺序为(0,2,3,1);flatten层,将特征平铺成一维;

第三十层由一个卷积层、一个permute层、一个flatten层组成。其中卷积层使用12个卷积核,尺寸为(1,1,256),输入为第十六层输出;permute层,对特征进行重新排列,顺序为(0,2,3,1);flatten层,将特征平铺成一维;

第三十一层为priorbox层,使用第一层与第十六层输出作为输入,最大最小尺寸参数分别为199.36与147.84,长宽比率参数为2和3;

第三十二层由一个卷积层、一个permute层、一个flatten层组成。其中卷积层使用24个卷积核,尺寸为(1,1,256),输入为第十四层输出;permute层,对特征进行重新排列,顺序为(0,2,3,1);flatten层,将特征平铺成一维;

第三十三层由一个卷积层、一个permute层、一个flatten层组成。其中卷积层使用12个卷积核,尺寸为(1,1,256),输入为第十四层输出;permute层,对特征进行重新排列,顺序为(0,2,3,1);flatten层,将特征平铺成一维;;

第三十四层为priorbox层,使用第一层与第十四层输出作为输入,最大最小尺寸参数分别为250.88与199.36,长宽比率参数为2和3;

第三十五层为concat层,对第二十层、第二十三层、第二十六层、第二十九层、第三十二层输出进行通道连接;

第三十六层为concat层,对第二十一层、第二十四层、第二十七层、第三十层、第三十三层输出进行通道连接;

第三十七层为concat层,对第二十二层、第二十五层、第二十八层、第三十一层、第三十四层输出进行通道连接;

第三十八层为reshape层,改变第三十六层输出维度,参数为(0,-1,2),激活函数为softmax函数;

第三十九层为flatten层,将第三十八层输出平铺成一维;

第四十层为detectionoutput层,输入为第三十六层、第三十九层、第三十七层,类别参数为2,得到最终结果;

进一步的,所述hsv特征的提取,通过提取显著性目标区域的像素,将rgb值转换为hsv值,量化成256维的颜色直方图。所述sift特征的提取,通过提取显著性目标区域的像素,用dog检测器检测关键点,然后用128维向量描述每个关键点的信息。所述cnn语义特征的提取,将显著性目标区域缩放成224*224大小,输入到显著性对象检测模型与显著性区域检测模型中,分别提取第八层与第八层输出作为cnn特征向量,并进行归一化。

所述步骤s4中,本发明的相似度计算使用的相似度计算策略如下:

设有待搜寻图像q有n个显著性目标(s1,…,sn),其对应的显著性值为c1,…,cn;数据库图像i有m个显著性目标(s′1,…,s′m)。

(1)计算待搜寻显著性目标si与数据库图像i的显著性目标s′j的hsv颜色直方图相似度、sift匹配数得分及cnn特征相似度,将这三种相似度以乘法法则融合得到显著性目标si与显著性目标s′j的相似度。

其中,hsv颜色直方图相似度为

sift匹配数得分为分别表示显著性目标s′j与数据库图像i的显著性目标s′j中sift特征,表示两sift特征的匹配函数,匹配则为1,不匹配则为0,idf表示倒排文档频率,||si||2表示词频的欧式范数。

cnn特征相似度为

显著性目标si与显著性目标s′j的相似度为s(si,s′j)=sh(si,s′j)0.2×ss(si,s′j)0.1×sc(si,s′j)0.7

(2)根据(1)计算显著性目标si与图像i的m个显著性目标(s′1,…,s′m)的相似度,取最高的相似度作为显著性目标si与图像i的相似度。

(3)同理,计算得出待搜寻图像q的n个显著性目标(s1,…,sn)与图像i的相似度s1i,…,sni,使用显著性值对相似度分配权重得到待搜寻图像与图像i的相似度

(4)通过上述步骤计算出待搜寻图像q与图像数据库中所有图像的相似度值,之后按照相似度值从大到小的顺序返回图像检索结果。

以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1