一种服饰鞋包类商品图像多视觉特征融合方法

文档序号:6384396阅读:443来源:国知局
专利名称:一种服饰鞋包类商品图像多视觉特征融合方法
技术领域
本发明涉及信息检索和数据挖掘技术领域,特别是涉及ー种基于多种视觉特征融合的图片检索方法。
背景技术
图像检索研究兴起自上世纪90时代,早期的图像检索更多的是基于文本的图像检索,随着互联网和多媒体技术的快速发展,图像等多媒体信息呈爆炸性增长。传统基于文本的信息检索技术已经逐步不能满足人们的检索需求。市场调查显示,面对一件衣服,用户给出多个文本描述词汇,都很难从现有的海量网络商品图库中检索出自己所想找的那件商品。Toml等在《A Picture is Worth a Thousand Keywords:1mage-Based Object Searchona Mobile Platform》一文中明显提到在图像搜索中图像内容相对于文本的高效性。同时图像本身具有信息丰富、不受语言限制、便于交流等优点。在这种背景下,基于内容的图像检索技术得到了广泛的发展。利用图像视觉特征,如顔色、形状、纹理等信息,如何迅速而准确地从浩瀚的海量图像数据库中检索到所需的图像,成为近年来计算机视觉领域的研究热点问题,基于内容的图像检索技术因此应运而生。现有的图像检索方法中,基本的检索步骤包括以下几步提取图像视觉底层特征写入对应的图像库;将用户输入的待检索图像进行视觉底层特征提取;与图像库中的特征进行相似度匹配度量,按相似度度量排序返回给用户。其中,视觉底层特征的提取主要包括顔色特征、形状特征以及纹理特征。顔色特征提取中常用的算法有顔色直方图、颜色矩方法等;形状特征中的常用算法包括zernike矩、HU不变矩、GIST等方法;纹理特征算法主要有Tamura纹理特征(粗糙度、方向度、对比度)、共生矩阵、Gabor滤波算法等等。在针对商品图片的图像检索应用过程中,通过市场调研发现用户针对不同类目的商品会有不同的关注点,例如对于服饰,因为存在模特图和商品平铺图,图像中的商品难免存在形变,所以用户对服饰的关注度从主到次依次是纹理、顔色、形状;而对于鞋包类商品图,由于此类商品形变较小,则用户更关注商品的款式,所以关注度从主到次依次是形状、顔色、纹理。现有的图像检索方法在图像库内匹配时大多是通用型匹配模式,这很难满足用户在各类目上的检索需求。另外在没有人工交互框选的情况下,对于形状特征,在背景复杂的商品图像上效果均不佳,合理地针对商品图像的背景做些区分,对形状特征的检索效果也有较大提升。

发明内容
本发明的目的是克服现有技术的不足,提供一种能根据待检索商品图像背景复杂与否,并能结合不同商品类目能采取不同融合策略的多视觉特征融合的图像检索方法,从而能满足用户不同类目的检索需求。本发明的目的是通过以下技术方案来实现的(I)图像库特征的提取提取图像库中的每个图像的顔色、纹理、形状视觉特征,其中部分顔色和形状特征,采用主动分块策略,分为上、下、左、右、图像中心块5个子块和全图块,共6个块图像,提取出每个块的视觉特征。将多种特征合并成为表示该图像的特征向量加入图像库;(2)由于海量图像库中检索,对步骤I)得到的图像特征库进行KMeans聚类切分,保证查全率的前提下,提升检索性能;(3)对于用户输入的待检索商品图像,用背景检测算法检测该图像的背景复杂度,井根据复杂度对检索图像提取不同的视觉底层特征(形状,顔色,纹理等),并将多种特征合并成为表示该图像的特征向量;(4)计算步骤3得到的待检索的图像特征向量与聚类切分后的各个聚类中心的距离度量,寻找最近聚类簇;(5)计算步骤3得到的待检索的图像特征向量与步骤4)得到的最近聚类簇中的所有图像特征向量之间的相似度度量先对各种类型的特征(顔色、形状、纹理等)分别计算距离度量,然后对度量分别做聚类簇内的归ー化,在按不同类目配置的权重,线性组合得到最终的相似度度量;(6)将步骤5得到的相似度度量进行升序排序,将排序后的前若干个结果返回给用户,即为所检索的結果;本发明的有益效果是,本发明首先对用户输入的待检索商品图片,以图片背景单一或者复杂进行分类,井根据背景单一与复杂两种不同的情况,相应地抽取不同的多种底层视觉特征;在与图像库中匹配过程中引入了商品类目相关的底层视觉特征权重表,这样检索的结果能体现出不同商品类目的视觉特性相应的偏重,从而满足不同商品类目检索的客户需求,提高了用户体验效果。


图1是图片数据集入库的流程图;图2是检索用户输入商品图片的流程图。
具体实施例方式下面结合附图详细描述本发明,本发明的目的和效果将变得更加明显。如图1所示,本发明多视觉特征融合方法中图像库特征提取过程包括如下步骤步骤1:图像库的视觉特征提取。在本专利中具体采用以下几种视觉特征顔色特征采用了顔色直方图描述符、顔色结构描述符、顔色布局描述符。颜色直方图描述符(Color Histogram Descriptor, CHD),表达了图像颜色分布统计上的信息,在本专利中对64维的颜色直方图特征进行提取。MPEG-7 的颜色结构描述符(Color Structure Descriptor, CSD),反应了颜色聚合度,对于背景単一的商品图像,对商品主题进行了较好的描述,本专利采用了 64维的颜色结构特征。MPEG-7的颜色布局描述符(Color layout Descriptor, CLD),表达了颜色在空间的分布信息。本发明对该算子采用主动分块策略(即分为上、下、左、右、图像中心块5个子块和全图块,共6个块图像分别抽取特征),采用了 72维(12*6)顔色布局特征。纹理特征采用了 MPEG-7的边缘直方图描述符(Edge Histogram Descriptor,EHD),提取了描述来自16个子图像的内容的80维数据。形状特征米用了,AudeOliva, Antonio Torralba Modeling the Shape of theScene:A Holistic Representation of the Spatial Envelope.1nternational Journalof Computer Vision, Vol. 42 (3) : 145-175 (2001)的 GIST 特征方法,提取了 512 维度的特征向量维度,并对数据进行PCA降维为53维度,并采用了主动分块策略,6个子块图像特征数据长度共计为318维(53*6)。本专利采用了以上5种特征对商品库进行特征提取并入库,每幅图像共598维特征数据。步骤2:对商品库图像进行根据相似度进行聚类切分。如图2所示,对于输入的商品图像,背景是单ー还是复杂,两者所提取的图像特征不同,若背景単一,则采用CSD、GIST、CLD、EHD等特征,若复杂则采用CHD、CLD、EHD等特征,CLD特征和EHD特征是两者所公有的特征。在聚类切分吋,依据CLD特征和EHD特征上的距离度量来做聚类,保证了检索效果的稳定性。步骤3对用户输入的商品查询图像进行特征提取。首先对查询图像判断其背景是否复杂,通过图像分割的方法,自动提取前景(商品主体)。然后对背景部分(商品主体外部分)区域的顔色、边缘和纹理进行分析得到该查询图像背景是否复杂,若复杂则提取其CHD、CLD、EHD等特征,若背景単一,则提取CSD、GIST、CLD、EHD等特征数据。 步骤4 :对输入商品查询图像在商品库中寻找最近聚类簇。根据步骤3中提取得到的查询图像的视觉特征,根据CLD和EHD特征数据,同各个簇的中心数据进行比较,查找到与查询图像最相近的聚类簇;这些聚类簇构成了后续进行相似度度量的基础数据源。步骤5 :待检索的图像特征向量与图像库的特征向量的相似度计算。首先根据查询图像的背景复杂度,选择不同的特征数据进行距离度量。对背景単一的查询商品图像,采用步骤2中提取的采用CSD、GIST、CLD、EHD等特征进行度量,若背景复杂的查询图像,则采用CHD、CLD、EHD等特征进行度量。上述五种特征描述符所采用的距离度量,除EHD特征数据外,在本专利中统ー采用了 LI距离进行度量边缘直方图描述符(EHD),以MPEG-7中EHD专用的距离度量,具体可以參见《Textof IS0/IEC 15938-8 PDTR(Extraction and Use of MPEG_7Descriptions)》。另外,CLD特征和GIST特征均为分块特征,在实验中,各个块的在匹配度量时的权重系数分别为全图块和中心块的权重系数为0. 3,其他四个子块权重系数为0.1,待检索的图像Iq和图像库中图像Ini的度量距离D (Iq,Im)为D{IqJ J =D1,
1=1式中,Di为特征数据,然后对各个类型特征的特征距离进行归一化,特征在聚类簇内的归ー化公式「ハ…I n /r n—ハ(ん,,,た.H' Norm (IgJm) - ~JZ ~Z,
maxmin其中,Dmin=min{D(Iq,Im)I Im in the Cluster},Dmax=max{D(Iq, Im) | Im in the Cluster};最终相似度度量公式若输入图像是背景単一的图像DsJ111-Wcsd^Dcsd+Wcld5I=Dcld+Wehd5I=Dehd+Wgist5I=Dgist,若输入图像是背景复杂的图像Dsim — Dchd+Dcld+Dehd。其中,Dsim是相似度距离度量,Dchd, Dcsd, Dcld, Dehd, Dgist分别是对应的各种特征在簇内归ー化后的距离,WCSD, Wcld, W_,Wgist分别是对应的视觉特征相应的权重。在此特别说明ー下Wcsd, Wcld, Wehd, Wgist等权重值,具体数据是通过一定的类目样本集训练得到的,权重值体现了客户检索的需求。如服饰类非刚体商品,顔色特征CSD,CLD对应的权重所占的比例较大,而对于鞋包,GIST和EHD的权重比值较大。步骤6按照相似度大小,显示给用户。

最終按簇内所有的特征向量的相似度距离进行升序排序,度量值越小,对应的图像越和输入图相似。将排序后的序列前若干个图像作为检索结果返回用户。本专利通过对输入图像背景检测结果,采用不同的特征提取策略对图像视觉特征进行提取,然后在检索匹配时,针对商品的不同类目,采用不同的融合权重,通过调整类目权重表,来满足用户在不同类目上的检索需求,且可扩展性強。同时根据不同的特征抽取策略,采用公共部分的特征向量的距离度量对图像库特征向量进行聚类切分,使得本方法在保证检索效果的前提下,加速了检索性能,实现在海量图像数据中的实时检索。
权利要求
1.一种服饰鞋包类商品图像多视觉特征融合方法,其特征在于,包括如下步骤 (1)图像库特征的提取提取图像库中的每个图像的颜色、纹理、形状视觉特征,其中部分颜色和形状特征,采用主动分块策略,分为上、下、左、右、图像中心块5个子块和全图块,共6个块图像,提取出每个块的颜色和形状特征;将上述特征合并成为表示该图像的特征向量加入图像库; (2)对步骤(I)得到的图像特征向量库根据相似度进行KMeans聚类切分,在保证查全率的如提下,提升检索性能; (3)对用户输入的商品查询图像进行特征提取对于用户输入的待检索商品图像,用背景检测算法来检测该图像的背景是否单一,并以此来采用相应的策略提取所需的多种视觉底层特征(形状,颜色,纹理等),并将多种特征合并成为表示该输入图像的特征向量; (4)计算步骤3得到的待检索的图像特征向量与步骤2得到的聚类切分后的各个聚类中心的距离,寻找最近聚类簇; (5)计算步骤3得到的待检索的图像特征向量与步骤4得到的最近聚类簇中的所有图像特征向量之间的相似度距离度量先对各种类型的特征(颜色、形状、纹理等)分别计算距离度量,然后对距离度量分别做聚类簇内的归一化,再按不同类目的不同特征权重,线性组合得到最终的相似度度量; (6)将步骤5得到的相似度度量进行升序排序,将排序后的前若干个结果返回给用户,即为所检索的结果。
全文摘要
本发明公开了一种基于多种视觉特征融合的服饰鞋包类商品图像检索方法,该方法首先对输入商品图像做背景检测,根据输入图背景的复杂程度,采用不同策略抽取多种视觉特征,在图像库中匹配时,根据不同商品类目的不同特征权重进行融合,通过融合后的相似度度量作为检索图像的排序准则,从而能根据不同类目的不同检索标准得到合理的检索结果;提高了查全率和查准率。本发明有很强的扩展性,对新增类目的商品图像检索,通过类目权重表的设置能很好兼顾到新的类目需求。
文档编号G06F17/30GK103049513SQ20121054561
公开日2013年4月17日 申请日期2012年12月14日 优先权日2012年12月14日
发明者张继霞, 孙凯 申请人:杭州淘淘搜科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1