基于大数据的商品推荐方法与流程

文档序号:16138067发布日期:2018-12-01 01:17阅读:1410来源:国知局

本发明涉及商品推荐技术领域,具体涉及基于大数据的商品推荐方法。

背景技术

随着互联网的迅猛发展,互联网上呈现的信息量爆炸式增长。2012年在amazon购物网站上,提供超过1000万种商品。信息量的增大,反而降低了信息的利用率,导致用户更难找到自己需要的信息,出现信息超载现象。目前商品个性化推荐普遍被认为是解决这种问题最有效的工具之一,个性化推荐通过分析用户的行为习惯,将有效信息推荐给用户,节省用户筛选信息的时间,也提高了信息的有效利用率。

目前商品推荐主要采用的是单一用户和单一商品直接进行匹配比对的方法,对于目前动辄上千万种类的商品和上千万用户来说,运算量会几何倍上涨,大幅提高了商品推荐的运行成本。



技术实现要素:

本发明所要解决的技术问题是目前商品推荐主要采用的是单一用户和单一商品直接进行匹配比对的方法,对于目前动辄上千万种类的商品和上千万用户来说,运算量会几何倍上涨,大幅提高了商品推荐的运行成本,目的在于提供基于大数据的商品推荐方法,解决上述问题。

本发明通过下述技术方案实现:

基于大数据的商品推荐方法,包括以下步骤:s1:根据商品类型将所有商品划分为多个商品类;s2:提取同一个商品类中商品的特征进行svm机器学习并生成该商品类的二元分类器;所述二元分类器的数量与商品类的数量相同,且二元分类器与商品类一一对应;s3:从大数据中提取所有用户在平台上的浏览和交易记录作为用户的特征值;s4:以用户的特征值对所有的用户进行聚类分析,生成多个用户类;s5:提取同一个用户类中用户的特征值并进行加权平均得到每一个用户类的特征均值;s6:将特征均值带入每个二元分类器;当任意一个二元分类器的输出结果为真值时,将此二元分类器对应的商品类推荐给该特征均值对应的用户类中的每一个用户。

现有技术中,商品推荐主要采用的是单一用户和单一商品直接进行匹配比对的方法,对于目前动辄上千万种类的商品和上千万用户来说,运算量会几何倍上涨,大幅提高了商品推荐的运行成本。本发明应用时,先根据商品类型将所有商品划分为多个商品类,一般的电子商务平台都会有完善的商品分类,所以基本不需要什么运算量,然后提取同一个商品类中商品的特征进行svm机器学习并生成该商品类的二元分类器,这种二元分类器是与用户喜好相对应的,输入信息为用户的特征值,输出信息为真值(true)或假值(false),这一步的工作相当于是平台进行的预处理;再然后从大数据中提取所有用户在平台上的浏览和交易记录作为用户的特征值,这种特征值可以是平台上的大数据提供的,也可以是从其他平台上的大数据获得的,随着大数据技术的发展,大数据平台的信息共享越来越发达,可以获得的信息量也会越来越丰富;再然后以用户的特征值对所有的用户进行聚类分析,生成多个用户类,每一个用户类对应一种偏好,这种偏好可能会对应一种商品,也可能会对应多种商品,比如用户为汽车行业采购商,他的偏好可能会对应铝材、钢材、橡胶等多种商品。为了对用户类中共同的偏好进行定位,将特征均值带入每个二元分类器;当任意一个二元分类器的输出结果为真值时,将此二元分类器对应的商品类推荐给该特征均值对应的用户类中的每一个用户,这就使得在用户使用的过程中进行实时推荐时,系统端需要的运算量仅仅为二元分类器的运算,而二元分类器在形成以后的运算量是非常小的,对比现有技术中的点对点推荐的方式,可以大幅提高推荐速度。

进一步的,步骤s2中所述二元分类器采用线性二元分类器。

本发明应用时,为了进一步提高推荐效率,采用线性二元分类器。

进一步的,还包括以下步骤:s7:当新用户加入平台时,从大数据中提取该用户的浏览和交易记录作为新用户的特征值;根据新用户特征值得出新用户和所有用户类之间的距离,并将新用户加入与新用户距离最短的用户类。

本发明应用时,为了快速的对新进用户的偏好进行匹配,采用直接与现有的用户类进行比对的方式,将新进用户分配进已有的类中进行商品推荐,而不必将新进用户与上千万种商品再次进行匹配比对,有效提高了推荐效率,降低了运算量。

进一步的,步骤s7中所述距离为余弦距离。

进一步的,步骤s5包括以下步骤:s51:根据同一个用户类中用户的特征值得到该用户类的中心点;s52:以用户到用户类中心点距离的倒数为权值对用户的特征值进行加权平均得到用户类的特征均值。

本发明应用时,为了进一步的对运算过程进行简化,由于用户已经进行了聚类分析形成用户类,所以发明人采用中心点距离的运算方式得到用户的权值,提高了推荐效率,降低了运算量,有效提升了用户的体验。

进一步的,步骤s52中所述距离为余弦距离。

本发明与现有技术相比,具有如下的优点和有益效果:

本发明基于大数据的商品推荐方法,使得在用户使用的过程中进行实时推荐时,系统端需要的运算量仅仅为二元分类器的运算,而二元分类器在形成以后的运算量是非常小的,对比现有技术中的点对点推荐的方式,可以大幅提高推荐速度。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:

图1为本发明步骤示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。

实施例1

如图1所示,本发明基于大数据的商品推荐方法,包括以下步骤:s1:根据商品类型将所有商品划分为多个商品类;s2:提取同一个商品类中商品的特征进行svm机器学习并生成该商品类的二元分类器;所述二元分类器的数量与商品类的数量相同,且二元分类器与商品类一一对应;s3:从大数据中提取所有用户在平台上的浏览和交易记录作为用户的特征值;s4:以用户的特征值对所有的用户进行聚类分析,生成多个用户类;s5:提取同一个用户类中用户的特征值并进行加权平均得到每一个用户类的特征均值;s6:将特征均值带入每个二元分类器;当任意一个二元分类器的输出结果为真值时,将此二元分类器对应的商品类推荐给该特征均值对应的用户类中的每一个用户。

本实施例实施时,先根据商品类型将所有商品划分为多个商品类,一般的电子商务平台都会有完善的商品分类,所以基本不需要什么运算量,然后提取同一个商品类中商品的特征进行svm机器学习并生成该商品类的二元分类器,这种二元分类器是与用户喜好相对应的,输入信息为用户的特征值,输出信息为真值(true)或假值(false),这一步的工作相当于是平台进行的预处理;再然后从大数据中提取所有用户在平台上的浏览和交易记录作为用户的特征值,这种特征值可以是平台上的大数据提供的,也可以是从其他平台上的大数据获得的,随着大数据技术的发展,大数据平台的信息共享越来越发达,可以获得的信息量也会越来越丰富;再然后以用户的特征值对所有的用户进行聚类分析,生成多个用户类,每一个用户类对应一种偏好,这种偏好可能会对应一种商品,也可能会对应多种商品,比如用户为汽车行业采购商,他的偏好可能会对应铝材、钢材、橡胶等多种商品。为了对用户类中共同的偏好进行定位,将特征均值带入每个二元分类器;当任意一个二元分类器的输出结果为真值时,将此二元分类器对应的商品类推荐给该特征均值对应的用户类中的每一个用户,这就使得在用户使用的过程中进行实时推荐时,系统端需要的运算量仅仅为二元分类器的运算,而二元分类器在形成以后的运算量是非常小的,对比现有技术中的点对点推荐的方式,可以大幅提高推荐速度。

实施例2

本实施例在实施例1的基础上,步骤s2中所述二元分类器采用线性二元分类器。

本实施例实施时,为了进一步提高推荐效率,采用线性二元分类器。

实施例3

本实施例在实施例1的基础上,还包括以下步骤:s7:当新用户加入平台时,从大数据中提取该用户的浏览和交易记录作为新用户的特征值;根据新用户特征值得出新用户和所有用户类之间的距离,并将新用户加入与新用户距离最短的用户类。

本实施例实施时,为了快速的对新进用户的偏好进行匹配,采用直接与现有的用户类进行比对的方式,将新进用户分配进已有的类中进行商品推荐,而不必将新进用户与上千万种商品再次进行匹配比对,有效提高了推荐效率,降低了运算量。步骤s7中所述距离为余弦距离。

实施例4

本实施例在实施例1的基础上,步骤s5包括以下步骤:s51:根据同一个用户类中用户的特征值得到该用户类的中心点;s52:以用户到用户类中心点距离的倒数为权值对用户的特征值进行加权平均得到用户类的特征均值。

本实施例实施时,为了进一步的对运算过程进行简化,由于用户已经进行了聚类分析形成用户类,所以发明人采用中心点距离的运算方式得到用户的权值,提高了推荐效率,降低了运算量,有效提升了用户的体验。步骤s52中所述距离为余弦距离。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1