一种商品属性的识别方法及装置与流程

文档序号:11251343阅读:754来源:国知局
一种商品属性的识别方法及装置与流程

本公开涉及图像处理技术领域,特别涉及一种商品属性的识别方法及装置。



背景技术:

随着电子商务的蓬勃发展,网站上商品的数量和规模不断扩大,给网站管理和电商大数据分析带来挑战。除系统化的管理方法外,尚需结合信息技术进行规范化管理;此外,从事电商营销的组织和个人因地域、文化、语言、宗族的不同,对日常运营呈现出形态各异的商品维护,导致整个电商平台出现店铺管理松散,商品规格、型号等文字属性信息不规范的场景。

由于商品种类繁多且质量参差不齐,很多电商卖家对商品属性信息维护不全、更新不及或用词不规范,用户无法准确了解商品属性,导致电商平台的整体服务水平不高。现今纯粹通过人为管理的办法,定时查验商品图片、更新商品属性的文字描述,人力成本较高,很难完成对商品属性信息的规范管理。因此,对于种类繁多的商品,基于商家提供的商品图片,自动识别商品图片得到商品属性(如名称、型号规格),对于实现电商平台的规范化管理具有重要的意义。



技术实现要素:

为了解决相关技术中存在的无法准确识别出商品属性的问题,本公开提供了一种商品属性的识别方法。

一方面,本公开提供了一种商品属性的识别方法,包括:

获取未知商品图像;

对所述未知商品图像进行图像特征提取,得到未知商品图像特征;

查找预存储的与所述未知商品图像特征匹配的已知商品图像特征;

将所述已知商品图像特征对应的商品属性,作为所述未知商品图像的商品属性。

另一方面,本公开还提供了一种商品属性的识别装置,包括:

图像获取模块,用于获取未知商品图像;

特征提取模块,用于对所述未知商品图像进行图像特征提取,得到未知商品图像特征;

特征匹配模块,用于查找预存储的与所述未知商品图像特征匹配的已知商品图像特征;

属性确定模块,用于将所述已知商品图像特征对应的商品属性,作为所述未知商品图像的商品属性。

本公开的实施例提供的技术方案可以包括以下有益效果:

本公开通过提取未知商品图像的图像特征,查找与该图像特征匹配的已知商品图像特征,进而将已知商品图像特征对应的商品属性作为该未知商品图像的商品属性,从而无需人为定时查验未知商品图像更新对商品属性的描述,直接根据提供的未知商品图像就可以得到商品属性,降低了人力成本,也实现了商品属性文字描述的规范化,弥补了部分商品属性信息缺失给电商管理带来的困扰。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。

图1是根据本公开所涉及的实施环境的示意图;

图2是根据一示例性实施例示出的一种服务器的框图;

图3是根据一示例性实施例示出的一种商品属性的识别方法的流程图;

图4是根据另一示例性实施例示出的一种商品属性的识别方法的流程图;

图5是图3对应实施例的步骤s350的细节的流程图;

图6是根据一示例性实施例示出的一种商品属性的识别装置的框图;

图7是图6对应实施例的特征匹配模块的详细框图。

具体实施方式

这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据本公开所涉及的实施环境的示意图。该实施环境包括:服务器110和至少一个客户端120。

服务器110与客户端120之间的关联方式,包括硬件的网络关联方式和/或协议,以及二者之间往来的数据关联方式。其中,该服务器110可以是电商平台进行数据处理的后台服务器。客户端120可以是电商卖家的终端设备,客户端120向服务器110上传商品图像,服务器110对上传的商品图像进行处理,提取图像特征,并从数据库中查找与该图像特征匹配的已知商品图像特征,已知商品图像特征对应的商品属性作为客户端120上传的商品图像的商品属性。服务器110通过上述方式,可以快速确定每个客户端120上传的商品图像的商品属性,无需人为查验商品图像来得到商品属性,降低了人力成本,也实现了商品属性信息的规范化管理。

参见图2,图2是本公开实施例提供的一种服务器结构示意图。该服务器200可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessingunits,cpu)222(例如,一个或一个以上处理器)和存储器232,一个或一个以上存储应用程序242或数据244的存储介质230(例如一个或一个以上海量存储设备)。其中,存储器232和存储介质230可以是短暂存储或持久存储。存储在存储介质230的程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器222可以设置为与存储介质230通信,在服务器200上执行存储介质230中的一系列指令操作。服务器200还可以包括一个或一个以上电源226,一个或一个以上有线或无线网络接口250,一个或一个以上输入输出接口258,和/或,一个或一个以上操作系统241,例如windowsservertm,macosxtm,unixtm,linuxtm,freebsdtm等等。下述图3-5所示实施例中所述的由服务器所执行的商品属性的识别方法可以基于该图2所示的服务器结构。

图3是根据一示例性实施例示出的一种商品属性的识别方法的流程图。该商品属性的识别方法的适用范围和执行主体,例如,该方法用于图1所示实施环境的服务器110。如图3所示,该商品属性的识别方法,可以由服务器110执行,可以包括以下步骤。

在步骤310中,获取未知商品图像;

其中,未知商品图像可以是由电商卖家的客户端提供,存储在服务器数据库中,服务器利用图像处理工具进行图像读取操作,创建一个图像缓存对象读取像素数据并将获取的未知商品图像存储在缓存区,从而可以在缓存区中对获取的未知商品图像进行处理。具体的,在获取到未知商品图像后可以对该图像进行流处理,生成二进制信息,并以字节数组的方式存储缓存。

在步骤330中,对所述未知商品图像进行图像特征提取,得到未知商品图像特征;

其中,图像特征可以是颜色特征、纹理特征、形状特征、空间关系特征。可选的,本公开示例性实施例所述未知商品图像特征包括未知商品图像颜色特征和未知商品图像纹理特征。

具体的,未知商品图像颜色特征的提取方法包括:

(1)颜色直方图法,其优点在于:它能简单描述一幅图像中颜色的全局分布,即不同色彩在整幅图像中所占的比例,特别适用于描述那些难以自动分割的图像和不需要考虑物体空间位置的图像。最常用的颜色空间包括rgb颜色空间、hsv颜色空间。颜色直方图特征匹配方法:直方图相交法、距离法、中心距法、参考颜色表法、累加颜色直方图法。

(2)颜色集,颜色直方图法是一种全局颜色特征提取与匹配方法,无法区分局部颜色信息。颜色集是对颜色直方图的一种近似首先将图像从rgb颜色空间转化成视觉均衡的颜色空间(如hsv空间),并将颜色空间量化成若干个柄。然后,用色彩自动分割技术将图像分为若干区域,每个区域用量化颜色空间的某个颜色分量来索引,从而将图像表达为一个二进制的颜色索引集。在图像匹配中,比较不同图像颜色集之间的距离和色彩区域的空间关系。

(3)颜色矩,这种方法的数学基础在于:图像中任何的颜色分布均可以用它的矩来表示。此外,由于颜色分布信息主要集中在低阶矩中,因此,仅采用颜色的一阶矩(mean)、二阶矩(variance)和三阶矩(skewness)就足以表达图像的颜色分布。

(4)颜色聚合向量,其核心思想是:将属于直方图每一个柄的像素分成两部分,如果该柄内的某些像素所占据的连续区域的面积大于给定的阈值,则该区域内的像素作为聚合像素,否则作为非聚合像素。

具体的,未知商品图像纹理特征的提取方法包括:

(1)统计方法,统计方法的典型代表是一种称为灰度共生矩阵的纹理特征分析方法。gotlieb和kreyszig等人在研究共生矩阵中各种统计特征基础上,通过实验,得出灰度共生矩阵的四个关键特征:能量、惯量、熵和相关性。统计方法中另一种典型方法,则是从图像的自相关函数(即图像的能量谱函数)提取纹理特征,即通过对图像的能量谱函数的计算,提取纹理的粗细度及方向性等特征参数。

(2)几何法,所谓几何法,是建立在纹理基元(基本的纹理元素)理论基础上的一种纹理特征分析方法。纹理基元理论认为,复杂的纹理可以由若干简单的纹理基元以一定的有规律的形式重复排列构成。在几何法中,比较有影响的算法有两种:voronio棋盘格特征法和结构法。

(3)模型法,模型法以图像的构造模型为基础,采用模型的参数作为纹理特征。典型的方法是随机场模型法,如马尔可夫(markov)随机场(mrf)模型法和gibbs随机场模型法。

(4)信号处理法,纹理特征的提取与匹配主要有:灰度共生矩阵、tamura纹理特征、自回归纹理模型、小波变换等。

以灰度共生矩阵为例,特征提取与匹配主要依赖于能量、惯量、熵和相关性四个参数。tamura纹理特征基于人类对纹理的视觉感知心理学研究,提出6种属性,即:粗糙度、对比度、方向度、线像度、规整度和粗略度。自回归纹理模型(simultaneousauto-regressive,sar)是马尔可夫随机场(mrf)模型的一种应用实例。

在一种示例性实施例中,可以使用cedd(colorandedgedirectivitydescriptor颜色和边缘的方向性描述符)算法的纹理模块和颜色模块提取未知商品图像的颜色特征和纹理特征。具体的,grabcut(图像分割算法)将未知商品图像分割成若干预设号码的块,在hsv颜色空间应用一组模糊规则提取模糊颜色直方图。对纹理特征的提取与颜色类似,区别在于计算纹理时利用每个像素的rgb值的均值,将每个小块再分为2*2块,分别计算水平、垂直、45度、135度和无定向方向的描述子,对颜色需将图像转换到hsv空间计算,对hsv分别计算模糊属于哪个类别,最后根据模糊规则生成量化直方图。

cedd算法结合了图像的颜色和纹理信息,生成一个144维的直方图,cedd直方图信息由六个区域组成,也就是提取出纹理信息的6维向量直方图,然后在这些纹理信息的每一维中再加入颜色模块提取出的24维颜色信息,这样就可以将颜色和纹理有效结合起来,最终得出6*24=144维的直方图信息。

通过将rgb模型转换为hsv模型的方法提取其中的颜色特征和纹理特征,具体算法如下:

设(r,g,b)分别是一个颜色的红、绿和蓝坐标,它们的值是在0到1之间的实数。设max等价于r,g和b中的最大者;设min等于这些值中的最小者。要找到在hsl空间中的(h,s,l)值,这里的h∈[0,360)是角度的色相角,而s,l∈[0,1]是饱和度和亮度,转换公式如下:

l=1/2(max+min)

h的值通常规范化到位于0到360°之间。而h=0用于max=min的(灰色)时候。hsl和hsv有同样的色相定义,但是其他分量不同。hsv颜色的s和v的值定义如下:

v=max。

在步骤350中,查找预存储的与所述未知商品图像特征匹配的已知商品图像特征;

需要说明的是,已知商品图像特征及其对应的商品属性已事先关联并存储在分布式数据库中。商品属性是指商品的名称、规格型号、适应人群、品牌等信息。

具体的,对于未知商品图像特征,可以通过特征匹配的方式,从分布式数据库中查找与该位置商品图像特征匹配的已知商品图像特征。举例来说,对于颜色特征的匹配,可以通过颜色直方图特征匹配方法,如直方图相交法、距离法、中心距法、参考颜色表法、累加颜色直方图法。而对于纹理特征的匹配可以依赖于能量、惯量、熵和相关性四个参数进行特征匹配,又或者基于6种属性“粗糙度、对比度、方向度、线像度、规整度和粗略度”进行特征匹配。特征匹配的方式可以采用现有技术实现,本公开对此不作限定。

在步骤370中,将所述已知商品图像特征对应的商品属性,作为所述未知商品图像的商品属性。

需要说明的是,在查找到与未知商品图像特征匹配的已知商品图像特征后,可以认为未知商品图像和已知商品图像是相似的两张图片,默认这两张图片中的商品具有相同的商品属性。从而在查找到与未知商品图像特征匹配的已知商品图像特征后,可以认为已知商品图像特征对应的商品属性是该未知商品图像特征对应的商品属性,即得到未知商品图像的商品属性。

以图1所示应用场景举例来说,客户端120对上传商品图像的商品属性的文字描述不规范,目前只能通过人为方式定时更新对商品图像的商品属性的描述,人力成本较大,无法基于商品图像直接得到规范且统一的商品属性的文字描述。

本公开上述示例性实施例,通过提取未知商品图像的图像特征,查找与该图像特征匹配的已知商品图像特征,进而将已知商品图像特征对应的商品属性作为该未知商品图像的商品属性,从而无需人为定时查验未知商品图像更新对商品属性的描述,直接根据提供的未知商品图像就可以得到商品属性,降低了人力成本,也实现了商品属性文字描述的规范化。

如图4所示,在上述示例性实施例的基础上,在步骤s350查找预存储的与所述未知商品图像特征匹配的已知商品图像特征之前,本公开提供的一种商品属性的识别方法还包括以下步骤:

在步骤341中,获取已知商品图像和对应的商品属性;

具体的,可以在服务器中部署爬虫系统做已知商品图像的定向抓取,并根据抓取的已知商品图像整理出对应的商品属性数据。

在步骤342中,对所述已知商品图像进行图像特征提取,得到已知商品图像特征;

其中,已知商品图像特征包括已知商品图像颜色特征和已知商品图像纹理特征。对于已知商品图像的图像特征的提取方式可以参照上述示例性实施例中,对未知商品图像的颜色特征和纹理特征的提取方法。在此不再赘述。

在步骤343中,将所述已知商品图像特征和对应的商品属性进行关联并存储。

具体的,可以获取量化直方图(即已知商品图像特征),进行base64编码将字节数组编码成字符串,最后可使用img标签输出base64编码的图片。已知商品图像特征经过base64编码后的字符串与对应的商品属性进行关联,并存储。

优选的,在步骤s350之前,所述方法还可以包括:建立对未知商品图像特征的lsh局部敏感哈希索引,用于查找与所述未知商品图像特征匹配的已知商品图像特征。

局部敏感哈希算法(locality-sensitivehashing,lsh)的基本思想是:将原始数据空间中的两个相邻数据点通过相同的映射或投影变换(projection)后,这两个数据点在新的数据空间中仍然相邻的概率很大,而不相邻的数据点被映射到同一个桶的概率很小。也就是说,如果对原始数据进行一些哈希映射后,我们希望原先相邻的两个数据能够被哈希到相同的桶内,具有相同的桶号。对原始数据集合中所有的数据都进行哈希映射后,我们就得到了一个哈希表,这些原始数据集被分散到了哈希表的桶内,每个桶会落入一些原始数据,属于同一个桶内的数据就有很大可能是相邻的,当然也存在不相邻的数据被哈希到了同一个桶内。因此,如果我们能够找到这样一些哈希函数,使得经过它们的哈希映射变换后,原始空间中相邻的数据落入相同的桶内的话,那么我们在该数据集合中进行近邻查找就变得容易了,我们只需要将查询数据进行哈希映射得到其桶号,然后取出该桶号对应桶内的所有数据,再进行线性匹配即可查找到与查询数据相邻的数据。换句话说,我们通过哈希函数映射变换操作,将原始数据集合分成了多个子集合,而每个子集合中的数据间是相邻的且该子集合中的元素个数较小,因此将一个在超大集合内查找相邻元素的问题转化为了在一个很小的集合内查找相邻元素的问题,显然计算量下降了很多。

那具有怎样特点的哈希函数才能够使得原本相邻的两个数据点经过哈希变换后会落入相同的桶内。这些哈希函数需要满足以下两个条件:

1)如果d(x,y)≤d1,则h(x)=h(y)的概率至少为p1;

2)如果d(x,y)≥d2,则h(x)=h(y)的概率至多为p2;

其中d(x,y)表示x和y之间的距离,d1<d2,h(x)和h(y)分别表示对x和y进行hash变换。

满足以上两个条件的哈希函数称为(d1,d2,p1,p2)-sensitive。而通过一个或多个(d1,d2,p1,p2)-sensitive的哈希函数对原始数据集合进行哈希生成一个或多个哈希表的过程称为lsh。

使用lsh进行对海量数据建立索引(即哈希表)的过程如下:离线建立索引

(1)选取满足(d1,d2,p1,p2)-sensitive的lsh哈希函数;

(2)根据对查找结果的准确率(即相邻的数据被查找到的概率)确定哈希表的个数l,每个表内的哈希函数的个数k,以及跟lsh哈希函数自身有关的参数;

(3)将所有数据经过lsh哈希函数哈希到相应的桶内,构成了一个或多个哈希表;

需要说明的是,已知商品图像特征可以由一个或多个特征向量来表达,为了检索出与未知商品图像相似的图像集合,我们可以通过集成elasticsearch-image插件,对已知商品图像特征数据库中的所有特征向量利用上述方法建立lsh索引,通过查找lsh索引可以加快检索出匹配的已知商品图像特征的速度。

图5是对图1对应实施例中的步骤s350的细节进行描述的流程示意图,如图5所示,步骤s350具体包括:

在步骤351中,对所述未知商品图像特征进行编码将字节数组编写成字符串;

具体的,对于未知商品图像特征的量化直方图,可以通过base64编码的方式,将字节数组编写成字符串。

在步骤352中,将所述字符串经过局部敏感哈希算法的哈希函数,得到对应的存储位置;

具体的,应用lsh算法,将待查询的未知商品图像特征的字节数组字符串经过lsh哈希函数的哈希映射得到相应的桶号(即存储位置)。换句话说,得到了存储有已知商品图像特征数据的容器的编号,即“桶号”,并且该编号对应的容器中存储的已知商品图像特征与所查询的未知商品图像特征匹配的可能性较大。

在步骤353中,获取所述存储位置对应的所有已知商品图像特征;

需要说明的是,由于建立了lsh索引,从而可以快速读取桶号中对应的所有数据,即可以得到存储位置对应的所有已知商品图像特征。为了保证查找速度,通常也可只需取出前2l个数据。

在步骤354中,计算所述未知商品图像特征与每个已知商品图像特征之间的相似度或距离,将相似度最高或距离最接近的已知商品图像特征作为与所述未知商品图像特征匹配的已知商品图像特征。

其中,取出桶号中所有的已知商品图像特征与未知商品图像特征进行比对,具体的,计算未知商品图像特征与2l个已知商品图像特征之间的相似度或距离。其中,可以设置阈值,当相似度大于第一阈值或者距离小于第二阈值时,认为该未知商品图像特征与已知商品图像特征是匹配的,未知商品图像与已知商品图像是类似的图片,可以将已知商品图像的商品属性作为该未知商品图像的商品属性。

下述为本公开装置实施例,可以用于执行本公开上述服务器110执行的商品属性的识别方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开商品属性的识别方法实施例。

图6是根据一示例性实施例示出的一种商品属性的识别装置的框图,该商品属性的识别装置可以用于图1所示实施环境的服务器110中,执行图3-5任一所示的商品属性的识别方法的全部或者部分步骤。如图6所示,该商品属性的识别装置包括但不限于:图像获取模块610、特征提取模块630、特征匹配模块650以及属性确定模块670。

图像获取模块610,用于获取未知商品图像;

特征提取模块630,用于对所述未知商品图像进行图像特征提取,得到未知商品图像特征;

特征匹配模块650,用于查找预存储的与所述未知商品图像特征匹配的已知商品图像特征;

属性确定模块670,用于将所述已知商品图像特征对应的商品属性,作为所述未知商品图像的商品属性。

上述装置中各个模块的功能和作用的实现过程具体详见上述xx方法中对应步骤的实现过程,在此不再赘述。

图像获取模块610比如可以是图2中的某一个物理结构输入输出接口258。

特征提取模块630、特征匹配模块650以及属性确定模块670也可以是功能模块,用于执行上述商品属性的识别方法中的对应步骤。可以理解,这些模块可以通过硬件、软件、或二者结合来实现。当以硬件方式实现时,这些模块可以实施为一个或多个硬件模块,例如一个或多个专用集成电路。当以软件方式实现时,这些模块可以实施为在一个或多个处理器上执行的一个或多个计算机程序,例如图2的中央处理器222所执行的存储在存储器232中的程序。

可选的,所述未知商品图像特征可以包括但不限于未知商品图像颜色特征和未知商品图像纹理特征。

可选的,在上述示例性实施例的基础上,所述装置还可以包括但不限于:

信息获取模块,用于获取已知商品图像和对应的商品属性;

已知商品特征提取模块,用于对所述已知商品图像进行图像特征提取,得到已知商品图像特征;

存储模块,用于将所述已知商品图像特征和对应的商品进行关联并存储。

可选的,在上述示例性实施例的基础上,所述装置还可以包括但不限于:

索引构建模块,用于建立对未知商品图像特征的lsh局部敏感哈希索引,用于查找与所述未知商品图像特征匹配的已知商品图像特征。

图7为对图6对应实施例中的特征匹配模块650的细节进行描述的框架示意图,如图7所示,所述特征匹配模块650可以包括但不限于:编码单元651、哈希单元652、获取单元653以及计算单元654;

编码单元651,用于对所述未知商品图像特征进行编码将字节数组编写成字符串;

哈希单元652,用于将所述字符串经过局部敏感哈希算法的哈希函数,得到对应的存储位置;

获取单元653,用于获取所述存储位置对应的所有已知商品图像特征;

计算单元654,用于计算所述未知商品图像特征与每个已知商品图像特征之间的相似度或距离,将相似度最高或距离最接近的已知商品图像特征作为与所述未知商品图像特征匹配的已知商品图像特征。

可选的,本公开还提供一种商品属性的识别装置,该商品属性的识别装置可以用于图1所示实施环境的服务器110中,执行图3-5任一所示的商品属性的识别方法的全部或者部分步骤。所述装置包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,所述处理器被配置为执行:

获取未知商品图像;

对所述未知商品图像进行图像特征提取,得到未知商品图像特征;

查找预存储的与所述未知商品图像特征匹配的已知商品图像特征;

将所述已知商品图像特征对应的商品属性,作为所述未知商品图像的商品属性。

该实施例中的装置的处理器执行操作的具体方式已经在有关该商品属性的识别方法的实施例中执行了详细描述,此处将不做详细阐述说明。

在示例性实施例中,还提供了一种存储介质,该存储介质为计算机可读存储介质,例如可以为包括指令的临时性和非临时性计算机可读存储介质。该存储介质例如包括指令的存储器232,上述指令可由服务器200的中央处理器222执行以完成上述商品属性的识别方法。

应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1