基于深度卷积神经网络的服装属性检索方法与流程

文档序号:12887654阅读:378来源:国知局
基于深度卷积神经网络的服装属性检索方法与流程
本发明涉及一种基于卷积神经网络的服装检索方法,具体地涉及一种基于深度卷积神经网络的服装属性检索方法。
背景技术
:随着互联网和服装电子商务的迅速发展,网络购物市场逐年扩大,如何利用检索技术帮助用户快速找到心仪的服装是一个非常重要的任务。然而,服装检测的识别难度很高:其一,衣服形变大,服装本身是柔性很大的物体,人不同的姿势会导致服装的形状不同;其二,在不同的光照情况和复杂的场景下,区分不同服装类型的困难也会增加;此外,衣服的设计包含了大量细节属性,比如领型、版型、颜色、装饰等等,想要区分出它们的难度很大。目前广泛使用的服装检索方法是利用分类器来区分各种服装属性,其成功的关键是首先对于各种类型服装的属性进行特征描述,其次选择合适的分类器来学习训练样本,从而得到模型。一般来说,大部分的基于手工提取特征的方法主要使用边缘梯度直方图(histogramoforientedgradient,hog)和分层梯度方向直方图(pyramidhistogramoforientedgradients,phog)。但是这些方法的瓶颈是手工提取特征只对某一方面敏感。比如,边缘梯度直方图只对梯度敏感。因此,研究人员提出了新的方法,例如:将属性概念引入服装检索、采用细粒度的属性分类。另一方面,卷积神经网络已经进入到服装属性检测领域,相比于手工提取特征的方法,卷积神经网络大大提高了服装检测的性能。为了研究如何在网上商店匹配街头服装照片的实际问题,双重属性感知网络和局部共享卷积神经网络架构也被提出。例如中国专利文献cn106250423公开了一种基于部分参数共享的深度卷积神经网络跨域服装检索方法该方法利用了深度神经网络模型中越高层的网络层的特征越具有语义信息,与训练数据所在域的关系越密切,越低层的网络层的特征越具有一般性,越与训练数据所在域无关,依此让传统的深度卷积神经网络跨域服装检索模型中的低层的网络层参数共享,而高层的网络层参数由各个域保有。使用更少参数但却获得相同效果的方法,通过利用深度神经网络模型内在的特性,显著性减少模型参数数量。但是其并没有改善服装属性预测的准确率。本发明因此而来。技术实现要素:针对上述存在的缺陷,本发明的目的是提出了一种基于深度卷积神经网络的服装属性检索方法。利用多任务学习和卷积神经网络结合的服装属性检测模型,同时对于提取的各个服装属性特征构建适当的属性树,可以将服装属性的特征描述用于部分服装属性检测,可显著提高服装属性预测的准确率。本发明的技术方案是:一种基于深度卷积神经网络的服装属性检索方法,包括以下步骤:s01:采用快速的基于区域的卷积神经网络对输入图像进行人像检测;s02:使用预训练的深度卷积神经网络进行属性特征提取,并保留最后池化层的特征;s03:通过共享层连接最后池化层保留的特征,并融合所有属性的特征信息;s04:建立属性树,将服装属性进行分类,将共享层按照分类进行分支,每个属性分支用于一组相关属性预测;s05:将属性分支的输出串联叠加,进行归一化,通过局部敏感哈希法进行相似度衡量,得出结果。优选的,所述步骤s01具体包括:使用选择性搜索在输入图像中生成多个感兴趣区域候选框,输入到全卷积的卷积神经网络中,在最后一个卷积层上对每个感兴趣区域求映射关系,并用感兴趣区域池化层统一大小;通过全连接层得到特征向量,特征向量经由各自的全连接层,得到两个输出向量:一个是使用交叉熵损失函数得到的分类,另一个是每一类的边界位置回归。优选的,所述步骤s04中的属性分支包括类别、性别、颜色和图案。优选的,所述步骤s04中属性分支在进行属性预测的前馈过程中,共享层将副本分配给每个属性分支,而在后向传播过程中,共享层积累每个属性分支的梯度。优选的,所述步骤s05中进行归一化后,使用主成份分析法进行降维,具体步骤如下:s11:将原始特征数据按行排列组成矩阵x,并对x进行数据标准化,使其均值变为零;s12:求x的协方差矩阵c,将特征值按照从大到小的顺序排序,选择其中最大的k个,然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵p;s13:通过计算y=px,得到降维后数据y。优选的,所述步骤s05中通过局部敏感哈希法进行相似度衡量包括离线建立索引和在线查找两个步骤,具体步骤如下:s21:选取满足条件的局部敏感哈希的哈希函数,根据对查找结果的准确率确定哈希表的个数l,每个哈希表内的哈希函数的个数k,以及与哈希函数自身有关的参数;将所有数据经过哈希函数哈希到相应的桶内,构成了一个或多个哈希表;s22:将查找数据经过哈希函数哈希得到相应的桶号,将桶号中对应的前2l个数据取出,最后计算查询数据与这2l个数据之间的相似度或距离,返回最近邻的数据。与现有技术相比,本发明的优点是:将多任务学习和卷积神经网络结合作为服装属性检测模型,同时对于提取的各个服装属性特征构建适当的属性树。本发明可以将服装属性的特征描述用于部分服装属性检测。此方法可显著提高服装属性预测的准确率。附图说明下面结合附图及实施例对本发明作进一步描述:图1为本发明基于深度卷积神经网络的服装属性检索方法的流程图;图2为服装属性相关特征提取及构造属性树;图3为服装检索示例;图4是一个基于不同属性分支的服装检索的对比示例。具体实施方式为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。如图1所示,本发明基于深度卷积神经网络的服装属性检索方法,包括以下步骤:第一步:采用快速的基于区域的卷积神经网络(fastregion-basedconvolutionalnetwork,fastrcnn)作为目标检测器,从复杂的背景图片中检测人像。目标检测具体步骤如下:1、使用选择性搜索(selectivesearch)在一张图片中生成约2000个候选框(可能会包含人像的矩形区域),即感兴趣区域(regionofinterest,roi)。2、把它们整体输入到全卷积的网络中,在最后一个卷积层上对每个感兴趣区域求映射关系,并用一个感兴趣区域池化层来统一到相同的大小。3、继续经过两个全连接层(fullyconnectedlayers,fc)得到特征向量。特征向量经由各自的全连接层,得到两个输出向量:第一个是分类,使用交叉熵损失函数,第二个是每一类的精确边界位置回归。整个过程是一个实时的目标检测框架,使用多任务损失的端到端训练,大幅提升了目标检测的速度。第二步:基于第一步的目标检测结果,结合卷积神经网络(resnet50及resnet152,网络结构见表1)和多任务学习来预测服装属性,并提取属性相关的特征。为了更好的描述服装属性之间的关系,同时提高服装属性的分类效果,鉴于属性相关的先验知识,我们建立了属性树。在属性树中,服装属性被分为四类:类别,性别,颜色和图案。表1resnet50及resnet152网络结构如图2所示,具体过程如下:1、基于第一步中从复杂的背景图片中检测到的人像,使用预训练的卷积神经网络(resnet50及resnet152)进行特征提取,并保留第五个池化层的特征。2、通过共享层连接上一步保留的特征,并融合所有属性的特征信息。3、最后,共享层被分为四个服装属性分支,包括类别,性别,颜色和图案。在前馈过程中,共享层将副本分配给每个分支,而在后向传播过程中,共享层积累每个分支的梯度。inbi=outs(1)在等式(1)和等式(2)中,inbi是分支i前馈运算的输入,outs是共享层的输出。gs和gbi是共享层的梯度和反向传播中的分支i的梯度。第三步:使用主成分分析(principalcomponentanalysis,pca)和局部敏感哈希法(locality-sensitivehashing,lsh)进行相似度衡量。丰富的特征通常由高维向量表示。理想的相似度衡量通常需要满足以下四个条件:高精度、低空间复杂度、低时间复杂度和支持高维度。在本发明中,我们运用主成分分析法丢弃冗余特征,降低特征的维数,同时保证特征的最大协方差。在对特征进行主成分分析之后,后续的步骤会被加快。主成分分析的具体步骤如下:1、将原始特征数据按行排列组成矩阵x;2、对x进行数据标准化,使其均值变为零;3、求x的协方差矩阵c;4、将特征值按照从大到小的顺序排序,选择其中最大的k个,然后讲其对应的k个特征向量分别作为列向量组成特征向量矩阵p;5、通过计算y=px,得到降维后数据y;接下来为了检索出与查询服装图片属性相似的图片集合,我们对数据库中训练集图片建立局部敏感哈希索引,然后通过局部敏感哈希索引来查找与测试数据集图片相似的训练测试集图片,具体过程如下:一、离线建立索引首先选取满足条件的局部敏感哈希的哈希函数(locality-sensitivehashinghashfunction,lshhashfunction),根据对查找结果的准确率确定哈希表的个数l,每个哈希表内的哈希函数的个数k,以及与lshhashfunction自身有关的参数;接下来将所有数据经过lshhashfunction哈希到相应的桶内,构成了一个或多个哈希表;二、在线查找将查找数据经过lshhashfuction哈希得到相应的桶号,将桶号中对应的前2l个数据取出,最后计算查询数据与这2l个数据之间的相似度或距离,返回最近邻的数据。本发明应用于具体的实例如下:本发明应用于一个公开的服装属性数据集,该数据集包括26种服装属性。实验开展方式为:基于卷积神经网络的matlab工具箱(matcovnet),每16张样本图片进行一次随即梯度下降运算,学习率为0.00001。数据集被随机分为独立的三部分,训练集,验证集和测试集。其中训练集用来拟合模型,验证集用来估测模型收敛情况,而测试集用来评估模型性能。三部分分别占总样本的70%,10%和20%。我们分别将收敛的152层的残差网(resnet152)和50层的残差网(resnet50)作为多任务卷积神经网络的初始化状态,从共享层之后的多任务卷积神经网络层参数被随机初始化。表2为采用本发明技术方案的服装属性预测准确率,可以看到,在resnet152和多任务学习组合下,本发明的技术方案获得了较高的服装属性预测准确率。表3给出了在同多任务学习组合下,resnet152和resnet50的时间复杂度。表2本发明下的服装属性预测准确率表3多任务卷积神经网络的时间复杂度在本发明中,多任务卷积神经网络的每个分支用于一组相关属性预测,图3为服装检索示例。部分或者所有分支的输出被串联叠加起来,通过z得分法(z-score)归一化,主成份分析法降维。最后,将局部敏感哈希法用于搜索前30个最相似的服装。表4为检索具有某组属性的服装的准确率,表5为以不同分支为基础的服装属性检索准确率。表4基于属性的服装检索准确率种类性别颜色图案种类30.6772.3382.9486.74性别30.0477.1882.9086.72颜色27.8874.0884.1686.51图案27.9273.383.9387.11表5以不同分支为基础的服装属性检索准确率图4是一个基于不同属性分支的服装检索的对比示例。当使用类别分支特征进行检索时,第二十四张检索结果为女性。然而当我们将类别和性别分支同时用于服装检索时,检索结果发生变化,在前三十张检索结果中没有女性。表6列出了本发明整个系统的运行时间,主要包括三个不同的模块。当系统在中央处理器,intel(r)xeon(r)e5-1650v3,运行时,每张图片的处理时间为101.5毫秒。表6系统运行的时间复杂度应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1