属性获取方法和装置与流程

文档序号:11276379阅读:206来源:国知局
属性获取方法和装置与流程

本发明涉及信息技术,尤其涉及一种属性获取方法和装置。



背景技术:

在电子商务处理平台中,可以对所发布的商品维护一个商品库,在商品库中按照商品的商品类目,确定了品牌、材质、颜色、风格、价格区间等等属性项对商品进行描述,从而便于进行统计和用户进行筛选。原平台比如银泰商业需要接入淘宝等目标平台时,在目标平台上发布商品时,由于原平台上用于描述商品的属性,包括属性项和属性值,与目标平台往往是有所区别的。例如:在银泰商业平台上,采用了品牌、颜色、材质和上市时间描述连衣裙这一商品类目下的商品,而在淘宝平台上则采用了品牌、颜色分类、风格和价格区间。因此,在淘宝平台上发布商品之前,需要确定银泰商业平台上的商品在淘宝平台中进行描述时各属性项的属性值,也就是获取到该商品在目标平台上的属性。

现有技术中可以根据目标平台的属性,对原平台商品的属性进行聚类处理,从而获得在目标平台上该商品的属性,但这种方式仅能够针对该商品在原平台上的属性进行处理,而无法对商品在原平台上的标题或详情描述等非结构化文本进行处理。



技术实现要素:

本发明提供一种属性获取方法和装置,用于基于商品在原平台上的标题或详情描述等非结构化文本进行处理获得该商品的属性。

为达到上述目的,本发明的实施例采用如下技术方案:

第一方面,提供了一种属性获取方法,包括:

从用于描述目标对象的非结构化文本中,抽取出与预设属性匹配的目标词;

根据所述目标词确定所述目标对象的属性。第二方面,提供了一种属性获取装置,包括:

抽取模块,用于从用于描述目标对象的非结构化文本中,抽取出与预设属性匹配的目标词预设属性;

确定模块,用于根据所述目标词确定所述目标对象的属性预设属性。

本发明实施例提供的属性获取方法和装置,通过从原平台用于描述目标对象的非结构化文本中,抽取出与目标平台的预设属性匹配的目标词,进而根据目标词确定出目标对象在目标平台中的属性。针对电子商务平台来说,可以实现从商品的标题和详情描述这种非结构化文本中抽取出商品的属性,因此解决了现有技术中无法针对非结构化文本进行处理,获得原平台的商品在目标平台上的属性的技术问题。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1为实施例一提供的一种属性获取方法的流程示意图;

图2为属性获取方法的应用场景示意图;

图3为本发明实施例二提供的一种属性获取方法的流程示意图;

图4为本发明实施例三提供的一种属性获取装置的结构示意图;

图5为本发明实施例四提供的一种属性获取装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

下面结合附图对本发明实施例提供的属性获取方法和装置进行详细描述。

实施例一

图1为实施例一提供的一种属性获取方法的流程示意图,本实施例所提供的方法可以用于电子商务平台中,也就是说,本实施例中所提及的对象可以为商品,实施例可以用于将原平台中的商品投放到目标平台之前,获得该商品在目标平台中的属性,如图1所示,方法包括:

步骤101、从用于描述目标对象的非结构化文本中,抽取出与预设属性匹配的目标词。

其中,预设属性包括了预设属性项和预设属性值。针对同一个预设属性项,可以由一个或多个词汇构成对应的预设属性值。可选的,在设置预设属性项和预设属性值之间对应关系之后,还可以针对每一个预设属性值设置与多个预设属性子值之间的对应关系,其中,预设属性子值与预设属性值具有相似语义。

例如:针对服饰风格的预设属性项,可以设置用于描述不同服饰风格的词汇作为预设属性值。进一步,还可以针对还可以针对每一个服饰风格词汇设置多个具有相似语义的词汇作为预设属性子值,具体来说,可以设置民族为预设属性值,进而还可以设置苗族、汉族、藏族等具体描述民族的词汇作为预设属性子值,又如还可以在设置学院作为预设属性值的同时设置校园、文艺和小清新等等用于具体描述学院风格的词汇作为预设属性子值。

需要说明的是,这里所说的匹配不仅是指绝对匹配,还包括部分匹配的情况。

具体的,将非结构化文本中的词与该预设属性项对应的各个词进行匹配,若存在至少一个匹配的词汇则认为该词与预设属性匹配,进而确定该词为目标词。在匹配之前,可以通过获取目标对象在原平台中的标题和详情描述等非结构化文本,对这些非结构化文本进行预处理,预处理操作主要包括分词、全角换半角、大小写统一、对文本进行归一、对品牌词准确识别、处理单字等。进而在目标平台中,查询目标对象所属类目下的预设属性。采用相似度算法,对所述非结构化文本与所述预设属性进行字符串匹配,获得匹配的单词等目标词,并且获得每一个目标词与预设属性之间的匹配度。通过进行字符串匹配,从非结构化文本中找到与预设属性相似的词汇,这里使用的相似度算法可以包括:编辑距离、余弦夹角相似度、欧式距离、jacarrd遗传相似度距离(jacarrd是一种遗传相似度的算法)、二元语法(2-gram)语言模型、最长公共子序列、最长连续公共子串等。

在本步骤中不仅可以采用前述提及的字符串匹配,也可以采用其他方式从非结构化文本中抽取出目标词,例如语义匹配等。

需要说明的是,前述提及的类目是指对象所属类别,类目的粒度可以由用户自行进行设定,例如可以笼统的划分为服装、鞋帽、电子产品等,也可以进行进一步的细分,例如对于服装可以划分为更细粒度的衬衫、连衣裙、裤子等。类目划分的粒度越细,获取到的属性的准确度越高,但相应的需要维护的预设属性越多。类目所设定的粒度可以参考两个不同类目间的预设属性存在的差异性,类目的划分应当使得两类目间预设属性的存在一定的差异性,从而在保证获取到的属性的准确度的前提下,维持一个适当规模的预设属性集合。

步骤102、根据目标词确定目标对象的属性。

作为一种可能的实现方式,根据目标词与预设属性的匹配度,从目标词中确定目标对象的属性。

可以通过将目标词与预设属性中的预设属性值和/或预设属性子值进行匹配,从而根据目标词与预设属性的匹配度,从目标词中确定目标对象的属性。具体的,预先设置相似度阈值,即第一阈值和第二阈值,其中,第一阈值大于第二阈值。对于匹配度高于第一阈值的目标词,确定为目标对象在目标平台中的属性;对于匹配度高于第二阈值但小于第一阈值的目标词作为候选属性,采用语义判别方式确定所述候选属性是否为所述目标平台中的属性,根据判别结果从所述候选属性中确定所述目标对象在目标平台中的属性。

一般来说,匹配度的取值在0至1之间,在上一步骤中所获得的匹配度与第一阈值和第二阈值相比较,有三种情况:

第一种情况,针对匹配度大于第一阈值的目标词,认为有较大概率是该目标对象的属性;

第二种情况,针对匹配度小于第一阈值但大于第二阈值的目标词,认为其有可能是目标对象的属性,可以将这些目标词作为候选属性,需要进行进一步的判断,具体在本实施例中采用语义判别方式进行了进一步判断;

第三种情况,针对匹配度小于第二阈值的目标对象,认为是目标对象的属性的概率很低,直接进行舍弃。

可见,通过从原平台用于描述目标对象的非结构化文本中,抽取出与目标平台的预设属性匹配的目标词,进而根据目标词与预设属性的匹配度,从目标词中确定出目标对象在目标平台中的属性的方案,可以实现从商品的标题和详情描述这种非结构化文本中抽取出商品的属性,因此解决了现有技术中无法针对非结构化文本进行处理,获得原平台的商品在目标平台上的属性的技术问题。

作为另一种可能的实现方式,可以基于目标词的语义进行分析,获得所述目标对象的属性。例如:对商品的详情描述页中的词进行抽取所获得的目标词可以为“苗族传统服饰”,针对目标词的语义进行分析,确定“苗族传统服饰”的语义是用于描述民族风格的,因而可以将民族风格作为该商品的属性。这里的语义分析可以基于相似语义,以及概括语义等多种语义关系进行分析,具体来说,相似语义是指属性与目标词之间可以是具有相似的语义,概括语义是指属性与目标词之间可以是上下位的概念。

由于前述预设属性值和预设属性子值之间是具有语义相关性的,因而可以根据目标词所匹配的预设属性子值,进行查询获得该预设属性子值所对应的预设属性值,将该预设属性值作为商品的属性值,将该预设属性值对应的预设属性项作为商品的属性项。

需要说明的是,在实际使用中还可以采用其他基于目标词的语义进行分析的方式,从而获得目标对象的属性,例如:采用数据挖掘中的分类器,该分类器是基于词汇的语义进行训练获得的。

通过前述的属性获取方法,便可以通过原平台中商品的描述页面,获得商品在目标平台中的属性。图2为属性获取方法的应用场景示意图,如图2所示,左图为原平台中的商品页面,在页面中包括了商品标题和商品详情,对商品标题和商品详情进行抽取目标词,根据所抽取的目标词获得如右图所示的商品属性列表,该商品属性列表可以用于进行商品的筛选使用。其中,商品属性包括了商品属性项和商品的属性值,第一列为商品的属性项,第二列为商品的属性值。

实施例二

本实施例中具体针对电子商务应用场景中,原平台接入目标平台时,对于如何获取原平台中的商品在目标平台中的属性进行了详细说明,图33为本发明实施例二提供的一种属性获取方法的流程示意图,如图3所示,包括:

步骤201、基于原平台中用于描述目标商品的非结构化文本,对目标商品在目标平台所属的类目进行预测。

具体来说,可以首先预先构建一个分类模型,例如分类模型可以是简单贝叶斯算法分类模型。通过收集用户进行搜索的关键字和搜索之后的点击数据,根据点击数据中搜索之后被点击商品的类目,确定各关键字对应的类目,得到关键字和类目的对应关系。进而对关键字做分词,获得词条,将词条替代关键字和类目的对应关系中的关键字,获得词条和类目的对应关系。将词条和类目的对应关系作为训练集,对分类模型进行训练,分类模型进行训练,完成分类模型的构建。

然后,基于所述目标对象的非结构化文本,采用经过训练的分类模型进行数据挖掘,获得所述目标对象在目标平台所属类目。其中,非结构化文本可以为标题和/或详情页描述。

例如:当银泰等第三方平台作为原平台需要接入淘宝这一目标平台时,可以对第三方平台中目标商品的标题进行分词得到标题的词条,进而对标题的词条进行词性标注,获得各词条的词性信息。利用丢词算法,根据词性信息对词条进行丢词处理,从而将目标商品标题中的一些干扰词进行丢弃,只保留产品词、修饰词、品牌词、时间季节词、促销词等。将所保留的词条输入已经训练好的分类模型,获得目标商品在淘宝平台的类目。

由于在不同的平台中,类目的划分往往是不同的,因此,可以基于预测方式,获得目标商品在目标平台中所属的准确类目,从而便于基于该类目的预设属性匹配获得目标词,提高获取到的目标词中存在目标商品属性的可能性。

步骤202、从非结构化文本中抽取与所预测的类目下的预设属性匹配的目标词。

具体的,对经过预处理的非结构化文本进行相似度计算,获得与预设属性匹配的目标词,以及匹配度。为了便于描述将匹配度可以记为sim1。其中,匹配度用于描述目标词与预设属性的相似程度。

在预设属性中包括两部分,分别为属性项和属性值,若目标词与预设属性中的属性值相似,则称目标词与预设属性匹配,可以将目标词与匹配的属性中的属性项组合形成属性对记为pv。

步骤203、根据目标词的匹配度从目标词中确定所述目标对象在目标平台中的属性和候选属性。

例如:将相似度sim5大于预设阈值a的目标词,作为目标对象在目标平台中的属性;将相似度小于预设阈值a,且大于预设阈值b的目标词,作为候选属性。其中,0<b<a<1。

步骤204、针对确定为属性的目标词,在数据库中匹配所存储的目标平台的商品,提取匹配中的候选商品的属性。

具体的,数据库包括产品库和商品库,产品库与商品库相比不包含商家这一字段,其余数据可以是完全相同的。也就是说产品库中每一条记录对应一种产品,商品库中每一条记录对应一个商家提供的一种产品。

首先,在产品库中进行查询,经过查询获得产品库中与确定为属性的全部目标词均匹配中的候选商品。

然后,在商品库中进行查询,经过查询获得商品库中与确定为属性的全部目标词均匹配中的候选商品。

将两次查询所获得的全部候选商品的属性作为目标商品的属性,进而计算各属性的置信度。

步骤205、计算候选商品的各属性的置信度。

其中,置信度用来指示在目标平台中描述目标商品的准确程度。

若确定为属性的目标词包含品牌和型号时,且候选商品唯一时,则可以直接设置候选商品的各属性置信度为100%,也可以带入下面提及的置信度计算公式进行计算,结果是相同的。置信度计算公式如下:

置信度=(在候选商品的属性中的出现次数/候选商品总数)%

例如:

目标词构成的属性对为:p1v1和p2v2

在商品库中若存在匹配的候选商品有3个,候选商品的pv对分别为:

p1v1、p2v2、p3v3、p6v6

p1v1、p2v2、p7v7

p1v1、p2v2、p8v8

则输出p1v1、p2v2、p3v3、p7v7、p8v8作为目标商品的属性。

进而根据置信度公式,计算p1v1、p2v2、p3v3、p7v7、p8v8的置信度,分别为100%、100%、33.3%、33.3%、33.3%。

步骤206、针对确定为候选属性的目标词,采用语义判别方式,确定候选属性为目标平台中的属性的置信度。

首先,基于字与字之间的关系,进行语义判别。预先将目标平台中各预设属性值按照字进行分隔,作为训练文本,采用word2vec算法进行模型训练,将确定为候选属性的目标词输入训练好的判别模型,获得字向量,对字向量进行累加,获得词向量,采用词向量的余弦值作为候选属性为目标平台中的属性的置信度sim2。

其次,基于目标词在非结构化文本中的上下文,进行语义判别。预先将目标平台中各商品的标题或者详情页作为语料,进行分词,将分词结果其作为训练文本,采用word2vec算法进行模型训练,将确定为候选属性的目标词输入训练好的判别模型,获得词向量,采用词向量的余弦值作为候选属性为目标平台中的属性的置信度sim3。

最后,根据两种语义判别方式所获得的相似度sim2和sim3确定候选属性为目标平台中的属性的置信度s。例如:采用对sim2和sim3进行加权求和或加权平均的方式计算置信度s。

作为一种可能的实现方式,可以针对计算出置信度s,参考上一步骤中候选商品,统计各个候选属性在候选商品的属性中出现的频率对计算出的置信度进行修正,获得修正后的置信度s。

步骤207、汇总确定为属性和候选属性的目标词,以及候选商品的属性,根据置信度从汇总结果中确定目标商品的属性。

可以根据属性获取所需的准确度,确定置信度的阈值。所需的准确度越高,则可以相应调高置信度阈值,所需的准确度若较低,可以设置较低的置信度阈值。从汇总结果中选取出置信度大于置信度阈值的目标词作为目标商品的属性。

实施例三

图4为本发明实施例三提供的一种属性获取装置的结构示意图,如图4所示,包括:抽取模块31和确定模块32。

抽取模块31,用于从用于描述目标对象的非结构化文本中,抽取出与预设属性匹配的目标词;

具体的,抽取模块31具体用于采用相似度算法,对所述非结构化文本与所述预设属性进行字符串匹配,获得匹配的目标词与对应匹配度。

确定模块32,用于根据所述目标词确定所述目标对象的属性预设属性。

具体的,确定模块32,具体用于根据所述目标词与所述预设属性的匹配度,从所述目标词中确定所述目标对象的属性。

或者,具体的,确定模块32,具体用于基于所述目标词的语义进行分析,获得所述目标对象的属性。

本实施例中,通过从原平台用于描述目标对象的非结构化文本中,抽取出与目标平台的预设属性匹配的目标词,进而根据目标词确定出目标对象在目标平台中的属性的方案,可以实现从商品的标题和详情描述这种非结构化文本中抽取出商品的属性,因此解决了现有技术中无法针对非结构化文本进行处理,获得原平台的商品在目标平台上的属性的技术问题。

实施例四

图5为本发明实施例四提供的一种属性获取装置的结构示意图,在图4所提供的属性获取装置的基础上,确定模块32进一步包括:第一确定单元321和第二确定单元322。

第一确定单元321,用于对于匹配度高于第一阈值的目标词,确定为所述目标对象在目标平台中的属性。

第二确定单元322,用于对于匹配度高于第二阈值但小于所述第一阈值的目标词作为候选属性,采用语义判别方式确定所述候选属性是否为所述目标平台中的属性,根据判别结果从所述候选属性中确定所述目标对象在目标平台中的属性。

进一步,第二确定单元322,可以包括:第一判别子单元3221和第二判别子单元3222中的至少一个。作为一种可能的实现方式的示意,图4中第二确定单元322包括了第一判别子单元3221和第二判别子单元3222。

其中,第一判别子单元3221,用于基于所述候选属性中字与字之间的关系,进行语义判别,获得所述候选属性为所述目标平台中的属性的置信度。

具体的,第一判别子单元3221具体用于将所述候选属性中的各字符输入预先训练的字间语义判别模型,获得字向量;所述字间语义判别模型,是将所述目标平台的属性中各字符作为训练文本进行训练获得的;对所述字向量进行累加,获得第一词向量;将所述第一词向量的余弦值作为所述候选属性为所述目标平台中的属性的置信度。

第二判别子单元3222,用于基于所述候选属性在所述非结构化文本中的上下文关系,进行语义判别,获得所述候选属性为所述目标平台中的属性的置信度。

具体的,第二判别子单元3222,具体用于将所述非结构化文本中的各单词输入预先训练的词间语义判别模型,获得第二词向量;所述词间语义判别模型,是将所述目标平台中非结构化文本中的各单词作为训练文本进行训练获得的;将所述第二词向量的余弦值作为所述候选属性为所述目标平台中的属性的置信度。

进一步,第二确定单元322还可以包括:属性确定子单元3223。

属性确定子单元3223,用于根据所述置信度,从所述候选属性中确定所述目标对象在目标平台中的属性。

进一步,确定模块32,还包括:匹配单元323。

匹配单元323,用于将所述匹配度高于第一阈值的目标词与数据库中存储的所述目标平台中各对象的属性进行匹配,获得匹配中的候选对象;根据各候选对象的属性在全部候选对象的属性中出现的频率,计算候选对象的属性为所述目标对象在目标平台中的属性的概率;根据所计算出的概率,从所述候选对象的属性中确定所述目标对象在目标平台中的属性。

进一步,本实施例所提供的属性获取装置,还包括:类目预测模块33和预设属性确定模块34。

类目预测模块33,用于根据所述非结构化文本预测所述目标对象在目标平台所属类目。

预设属性确定模块34,用于将所述目标平台中所述类目下的属性作为所述预设属性。

其中,类目预测模块33,包括:挖掘单元331和建模单元332。

挖掘单元331,用于基于所述目标对象的非结构化文本,采用经过训练的分类模型进行数据挖掘,获得所述目标对象在目标平台所属类目。

建模单元332,用于获取用户搜索关键字以及从搜索结果中所选定的对象所属类目;对所述关键字进行分词处理,获得搜索词条;根据所述搜索词条和所选定的对象所属类目生成训练集;利用所述训练集对所述分类模型进行训练。

本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1