一种预测商品属性数据及训练其模型的方法和装置与流程

文档序号:16147496发布日期:2018-12-05 16:45阅读:115来源:国知局
一种预测商品属性数据及训练其模型的方法和装置与流程

本发明涉及计算机领域,具体是机器学习领域,尤其涉及一种预测商品属性数据及训练其模型的方法和装置。

背景技术

目前,商品在出售前需要进行相关的市场调研以预测商品相关属性数据信息,例如,包括商品价格、销售量和市场寿命等等,尤其是商品定价,传统的定价方法来源于成本和收益方面的考量,实际操作中受定价人主观因素(经验、认知等)的影响,这样的定价方法往往忽略了当前客观市场情况和商品自身的情况。另一方面,企业通过市场调查的方法来对商品定价,即设计实验抽样得到样本并对总体估计,但这种方法得到的价格与实际存在偏差,且对资源和技术手段要求较高,不利于实施。

因此,本领域的技术人员致力于开发一种预测商品属性数据及训练其模型的方法和装置



技术实现要素:

有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提供一种能够准确预测商品属性数据的预测商品属性数据及训练其模型的方法和装置。

为实现上述目的,本发明提供了一种训练预测商品属性数据模型的方法,包括以下步骤:

获取店铺的特征向量,所述店铺的特征向量包括店铺等级的特征值,所述店铺等级的特征值基于高斯混合模型获得,其中高斯混合模型公式是

其中k为模型的个数,h为所述店铺的特征向量的元素个数,πk为第k个高斯的权重,n(xi|μk,σk)则为第k个高斯的概率密度函数,其参数μk为均值,σk为方差,xi是所述店铺的特征向量的第i个元素;

获取商品属性的特征向量,所述商品属性的特征向量包括商品所属品类所对应的属性类别的特征值和商品的已知属性数据;

结合所述店铺的特征向量和所述商品属性的特征向量训练数学回归模型,以获得用于预测商品的未知属性数据的模型。

进一步地,所述店铺的特征向量还包括店铺总销售额的特征值、店铺商品总数量的特征值、品类总销售额的特征值和该品类商品总数量的特征值。

进一步地,所述商品所述品类所对应的属性类别基于词袋模型获得。

进一步地,当所述商品的描述与商品所属品类所对应的属性类别匹配,则该商品所属品类所对应的属性类别赋值为1,否则赋值为0。

进一步地,还包括:在训练数学回归模型前,对特征值进行预处理,所述预处理包括归一化处理和/或高维变量处理。

进一步地,所述归一化处理是将特征值除以该特征值所对应的最大值,所述高维变量处理是对特征值计算相应的平方项、立方项、四次方项和五次方项。

进一步地,所述商品的未知属性数据为商品的价格,所述数学回归模型为价值回归模型。

进一步地,所述价值回归模型包括随机森林回归模型、随机梯度下降模型和梯度提升决策模型中的至少一种。

本发明还提供了一种预测商品属性数据的方法,采用前面所述的训练预测商品属性数据模型的方法获得的模型预测商品的未知属性数据,以获得所述商品的未知属性数据的预测结果。

进一步地,所述数学回归模型包括多个,所述商品的未知属性数据是获得的多个模型的预测结果的平均值。

本发明还提供了一种训练预测商品属性数据模型的装置,包括:

第一获取单元,用于获取店铺的特征向量,所述店铺的特征向量包括店铺等级的特征值,所述店铺等级的特征值基于高斯混合模型获得,其中高斯混合模型公式是其中k为模型的个数,h为所述店铺的特征向量的元素个数,πk为第k个高斯的权重,n(xi|μk,σk)则为第k个高斯的概率密度函数,其参数μk为均值,σk为方差,xi是所述店铺的特征向量的第i个元素;

第二获取单元,用于获取商品属性的特征向量,所述商品属性的特征向量包括商品所属品类所对应的属性类别的特征值和商品的已知属性数据;

训练单元,用于结合所述店铺的特征向量和所述商品属性的特征向量训练数学回归模型,以获得用于预测商品的未知属性数据的模型。

进一步地,所述店铺的特征向量还包括店铺总销售额的特征值、店铺商品总数量的特征值、品类总销售额的特征值和该品类商品总数量的特征值。

进一步地,还包括:在训练数学回归模型前,对特征值进行预处理,所述预处理包括归一化处理和/或高维变量处理。

进一步地,所述商品的未知属性数据为商品的价格,所述数学回归模型为价值回归模型。

本发明还提供了一种预测商品属性数据的装置,包括:

预测单元,用于采用前面所述的训练预测商品属性数据模型的装置获得的模型预测商品的未知属性数据;

获得单元,用于获得所述预测单元对所述商品的未知属性数据的预测结果。

本发明提供的一种预测商品属性数据及训练其模型的方法和装置,具有以下效果:

(1)本发明中,通过结合店铺的特征向量和商品属性的特征向量训练数学回归模型获得的预测商品属性数据模型能够获得更准确的预测结果。

(2)本发明中,采用了高斯混合模型,能够有效地利用无监督聚类方法对店铺分级、基于词袋和向量将商品属性特征表示。

(3)本发明中,集成了多个价值回归模型(包括随机森林回归、随机梯度下降、梯度提升决策树都是数据量在百万级以上时能够有效回归的方法),为预测商品属性数据提供了的一种新的方案,该方案能够获得更为准确的预测结果。

(4)本发明适用于不同类型的店铺,包括线下实体店、线上电商和微商及各种不同销售渠道的店铺等。

(5)本发明适用于不同商品的未知属性数据的预测,包括服装、电子产品、食品和日用品等等。

综上所述,本发明针对不同品类,采用商品的已知属性(如尺寸、材质等)和店铺数据,利用高斯混合模型对店铺分类和进行特征向量表示,之后利用词袋获得商品属性特征向量表示,然后集成了随机森林回归、随机梯度下降、梯度提升决策树的集成模型,由此可以预测商品价值和影响价值的因素,从而得到预测商品属性数据的方法。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明实施例的训练预测商品属性数据模型的方法示意图;

图2是本发明实施例的计算基于高斯混合模型的店铺分类和店铺特征向量表示的流程图;

图3是本发明实施例的计算基于词袋对商品属性进行特征表示的流程图;

图4是本发明实施例的基于集成价值回归模型训练和预测的流程图。

下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

具体实施方式

如图1所示,是本发明实施例的训练预测商品属性数据模型的方法,包括以下步骤:

步骤s1,获取店铺的特征向量,店铺的特征向量包括店铺总销售额的特征值、店铺商品总数量的特征值、品类总销售额的特征值、该品类商品总数量的特征值和店铺等级的特征值,其中店铺等级的特征值基于高斯混合模型获得;

高斯混合模型公式是:其中k为模型的个数,h为所述店铺的特征向量的元素个数,πk为第k个高斯的权重,n(xi|μk,σk)则为第k个高斯的概率密度函数,其参数μk为均值,σk为方差,xi是所述店铺的特征向量的第i个元素;

步骤s2,获取商品属性的特征向量,商品属性的特征向量包括商品所属品类所对应的属性类别的特征值和商品的已知属性数据;其中商品品类所对应的属性类别基于词袋模型获得。当商品的描述与商品所属品类所对应的属性类别匹配,则该商品所属品类所对应的属性类别赋值为1,否则赋值为0。

步骤s3,结合店铺的特征向量和商品属性的特征向量训练数学回归模型,以获得用于预测商品的未知属性数据的模型。例如,可以预测商品的价格,除此之外还可以预测商品的销售量(包括未来的周销售量、月销售量、年销售量等等作为制定市场策略和市场活动的重要参考因素)和市场寿命等等。还包括:在训练数学回归模型前,对特征值进行归一化处理和/或高维变量处理预处理,例如,归一化处理是将特征值除以该特征值所对应的最大值,高维变量处理是对特征值计算相应的平方项、立方项、四次方项和五次方项,其中的数学回归模型是价值回归模型,包括随机森林回归模型、随机梯度下降模型和梯度提升决策模型中的至少一种。

下面采用具体实施例对本发明上述实施例的技术方案进行详细说明,以预测商品价格为例具体说明,同样地,以下描述的技术方案同样适用于预测商品其他数值型未知属性数据,例如,包括商品销售量和市场寿命等等。

步骤s1:获取店铺的特征向量。

举例来说,本实施例中,步骤s1是计算店铺的特征向量包括以下步骤:

步骤101,计算店铺特征,店铺特征包含了店铺总销售额s1、店铺总商品数量s2、店铺某品类商品总销售额s3和店铺某品类商品数量s4四个特征。

步骤102,使用高斯混合模型对店铺分类划级以计算店铺等级s5;高斯混合模型为:

其中k为模型的个数,πk为第个高斯的权重,n(xi|μk,σk)则为第个高斯的概率密度函数,其参数μk为均值,σk为方差,xi是第i条数据样本。

步骤103,把店铺等级加入店铺特证以获得店铺特征s={s1,s2,s3,s4,s5}。

如图2所示,是计算基于高斯混合模型的店铺分类和店铺特征向量表示的流程图,包括以下步骤:

步骤1-0为开始步骤;

步骤1-1为输入店铺信息数据;

步骤1-2为输入品类列表c={ci,i=1,2,…,n},其中n为品类种数;

步骤1-3为初始化品类循环变量i=0;

步骤1-4为计算店铺特征s={s1,s2,s3,s4},其中s1为店铺总销售额,s2为店铺总商品数量,s3为店铺品类i商品总销售额,s4为店铺品类i商品数量;

步骤1-5为使用高斯混合模型对店铺分级成作为特征s5;

步骤1-6为把1-5得到的店铺分类s5加入店铺特征,得到s′={s1,s2,s3,s4,s5},其中s1为店铺总销售额,s2为店铺总商品数量,s3为店铺品类i商品总销售额,s4为店铺品类i商品数量,s5为店铺等级;

步骤1-7为循环变量自增1;

步骤1-8为判断i是否大于所有品类种数n,即判断所有商品品类是否遍历完,若是,执行1-9,否则,执行1-4;

步骤1-9为结束步骤。

步骤s2:获取商品属性的特征向量。

举例来说,本实施例中,步骤s2是计算基于词袋的商品属性进行特征表示,包括以下步骤:

步骤201,输入属性列表,遍历所有属性列表为其赋值,例如,某服装商品的部分属性列表是{自身长度、材质、款式、风格、裙长、袖长}。

步骤202,判断商品描述文本中是否有对应属性名,若有则商品属性对应特征为1,否则为0;例如,某服装商品的描述文本是“春夏雪纺百褶短裙女”,对应于属性列表{自身长度、材质、款式、风格、裙长、袖长},其中文本描述中没有提及风格和袖长的属性,所以其对应的分向量设置为0,文本描述中提及自身长度是短裙、材质是雪纺、款式是百褶、裙长是短裙,所以其对应的分向量设置为1,则该商品属性向量表示是[1,1,1,0,1,0]

如图3所示,是基于词袋对商品属性进行特征表示的流程图,包括以下步骤是:

步骤2-0为开始步骤;

步骤2-1为输入商品描述desc;

步骤2-2为输入属性列表,即确定服装品类ci,在词袋中选择对应的属性类别;

步骤2-3为初始化商品属性向量表示,v={vj,j=1,2…m},其中,m为属性类别个数;

步骤2-4为初始化用于遍历属性标签的循环变量j=0;

步骤2-5至步骤2-9将遍历商品描述,为所有的属性类别赋值;

步骤2-5为判断商品描述中是否包含属性名ti,若没有,执行2-6,否则,执行2-7;

步骤2-6是为属性类别赋值,商品描述中不包含则赋值为0;

步骤2-7是为属性类别赋值,商品描述中包含则赋值为1;

步骤2-8为循环变量自增1;

步骤2-9为判断j是否大于所有的属性标签个数m,即判断是否所有属性标签还没有遍历完,若是,执行2-10,否则,执行2-5

步骤2-10为结束步骤。

需要说明的是,步骤s1和步骤s2是不分前后执行顺序的。

步骤s3:结合店铺的特征向量和商品属性的特征向量训练数学回归模型,以获得用于预测商品的未知属性数据的模型。

举例来说,本实施例中,步骤s3是基于集成价值回归模型训练数学回归模型,以获得用于预测商品的未知属性数据的模型,包括以下步骤:

步骤301,输入商品属性向量v和商品对应店铺的店铺特征s,合并为新商品特征向量v′={v,s}={vj,j=1,2…h},其中,h为商品特征和店铺特征的总个数;

对新商品特征向量v′进行预处理,其包含创建高维变量和特征值归一化:

创建高维变量,即创建特征向量中各特征值相应的平方项、立方项、四次方项和五次方项;

特征值归一化,即特征值除以此特征值对应最大值,使得所有特征值在[0,1]之间:

其中h为特征值个数,vi是归一化前的特征向量的第i个元素,vi′是归一化后的特征向量的第i个元素;max(vi)是在各个店铺的同个品类取其对应特征向量第i个元素的最大值

步骤302,训练随机森林模型、随机梯度下降模型和梯度提升决策树模型中至少一个模型获得相应模型的预测结果,其中随机森林模型是一种利用多棵回归树对样本进行训练并预测的一种分类模型;随机梯度下降模型是一种随机梯度下降的回归模型;随机梯度下降模型是一种迭代的决策树模型。

如图4所示,是基于集成价值回归模型训练的流程图,包括以下步骤:

步骤3-0为开始步骤;

步骤3-1为输入商品属性向量值v′={vi,y;i=1,2,…,m},其中vi是商品属性特征,y是需要预测的商品价格,m是商品属性类别个数;

步骤3-2为输入店铺特征s={s1,s2,s3,s4},其中s1为店铺总销售额,s2为店铺总商品数量,s3为店铺品类i商品总销售额,s4为店铺品类i商品数量;

步骤3-3为特征预处理,包括:创建高维度变量和归一化。

创建高维变量,即创建特征向量中各特征值相应的平方项、立方项、四次方项和五次方项;归一化,即特征值除以此特征值对应最大值:

其中h为特征值个数,vi是归一化前的特征向量的第i个元素,vi′是归一化后的特征向量的第i个元素。max(vi)是在各个店铺的同个品类取其对应特征向量第i个元素的最大值

步骤3-4为训练随机森林回归模型;

步骤3-5为训练随机梯度下降模型;

步骤3-6为训练梯度提升决策树模型;

步骤3-7为使用步骤3-3至步骤3-6中训练分别得到的每个模型的预测结果。

本发明还提供了一种预测商品属性数据的方法,采用前面的训练预测商品属性数据模型的方法获得的模型预测商品的属性数据。使用多个数学回归模型,商品的属性数据是获得的多个模型的预测结果的平均值。

例如,当随机森林回归模型预测商品价格p1,随机梯度下降模型预测商品价格p2,梯度提升决策树模型预测商品价格p3;则预测商品价格是其作为商品的推荐价格。

如图4所示,是基于集成价值回归模型预测商品价格的流程图,包括以下步骤:

步骤3-8为预测商品价值

步骤3-9为使用预测价值ppred作为商品推荐价格y′;

步骤3-10为结束步骤。

以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1