本发明涉及电商平台推荐技术领域,具体涉及一种基于集成学习方法的电商平台推荐系统。
背景技术:
传统的电商推荐系统大多数使用单一模型训练电商行为特征工程,这种单一模型无法结合其他模型的优点,若预处理效果不妥当,只能更加暴露该单一模型的缺点,造成后面预测分析的准确率过低。在电商平台中,推荐平台收益部分会降低。现有技术中,专利cn201611254081.3公开了基于逻辑回归进行构造训练特征工程,这种模型对训练特征中自变量多重共线性较为敏感,导致很多区间的变量变化对目标概率的影响没有区分度,无法确定阀值;专利cn201810332332.8公开了基于协同过滤的物品推荐方法,物品推荐只能在稠密数据才能有明显的效果,并且用户要对商品物品打分,而且模型训练比较费时,不具有很好的可解释性;同时分解出来的用户和物品矩阵的每个维度无法和现实生活中的概念来解释,无法用现实概念给每个维度命名,只能理解为潜在语义空间;而且存在针对现有的用户行为数据过于稀疏,缺乏用户对商品评分等客观条件,协同过滤等经典算法的效果较差的问题。
技术实现要素:
本发明的目的在于克服现有技术的缺点与不足,提供一种基于集成学习方法的电商平台推荐系统,该系统通过采集电商用户行为的数据集,把用户的购物行为分成若干个字段,把异常值剔除、特征筛选、样本划分,最后通过集成学习方法分类建模,通过预测结果能够个性化地向用户推荐商品,提高用户的购物效率,促成更多交易,提高电商平台的营业收入。
本发明的目的通过下述技术方案实现:
一种基于集成学习方法的电商平台推荐系统,包括下述步骤:
步骤一,采集电商用户行为的数据集,将电商用户的购物行为分成若干个字段;
步骤二,异常值剔除;
步骤三,特征筛选;筛选电商用户行为特征,由于原始数据无法直接用于建模,因此需要将其归纳为统计特征;特征的筛选需要能够充分描述商品信息、电商用户信息以及电商用户-商品的交互情况;
步骤四,样本划分;划分样本数据,由于数据总量较大,在处理过程中仅使用部分样本进行建模;
步骤五,集成学习方法分类建模;使用不同的集成学习方法对电商用户行为分析分类建模;
其中,所述集成学习方法可分为xgboost算法模型、catboost算法模型和lightbgm算法模型,然后将这些集成学习方法通过模型融合组成在一起;
步骤六,通过预测结果个性化地向电商用户推荐商品。
本发明与现有技术相比具有以下的有益效果:
本发明的训练模型部分使用了集成学习方法,即是多个单一推荐模型的算法通过改进的bagging和boosting进行模型集成,紧接着进行stacking模型融合,这种方法能够有效的降低电商推荐模型的错误率,而且该技术不需要有稠密的电商行为数据,也不需要用户对商品进行打分,这不仅更加符合现实生活中电商平台用户行为的稀疏性,而且这种电商用户行为是隐性存在的,从而提高了推荐评价指标的精确率,给电商平台带来更高的效益。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1所示,一种基于集成学习方法的电商平台推荐系统,包括下述步骤:
步骤一,采集电商用户行为的数据集,将电商用户的购物行为分成若干个字段。
步骤二,异常值剔除;异常值的存在通常会严重影响建模和预测质量,因此有必要对数据中存在的异常值进行剔除。
步骤三,特征筛选;筛选电商用户行为特征,由于原始数据无法直接用于建模,因此需要将其归纳为统计特征;特征的筛选需要能够充分描述商品信息、电商用户信息以及电商用户-商品的交互情况。
步骤四,样本划分;划分样本数据,由于数据总量较大,在处理过程中仅使用部分样本进行建模。
步骤五,集成学习方法分类建模;使用不同的集成学习方法对电商用户行为分析分类建模。
其中,所述集成学习方法可分为xgboost算法模型、catboost算法模型和lightbgm算法模型,然后将这些集成学习方法通过模型融合组成在一起;boosting是一种非常有效的集成学习算法,采用boosting方法可以将弱分类器转化为强分类器,从而达到准确的分类效果。这类boosting方法使用了xgboost、catboost和lightgbm结合起来一起使用,是为了方便下一步的stacking模型融合。在模型融合阶段,通过不同的电商用户行为数据划分不同的k折交叉验证,进一步提高了电商推荐系统的准确率。
步骤六,通过预测结果个性化地向电商用户推荐商品。
进一步来说,本发明首先针对梯度提升决策树易于过拟合且训练速度慢的问题,提出了解决方案并在其中主要做了四个工作:(1)提出了一种基于模型参数的复杂度的正则化方法,来降低boosting的过拟合的程度;(2)提出了一种基于牛顿法思想的优化方法,用该方法替代现有的梯度下降寻优方式;(3)提出了一种基于梯度提升决策树的单一模型,通过不同的梯度下降方式构造成不同的集成学习方法,例如改进的xgboost、catboost和lightbgm等;(4)提出了一种基于集成学习方法模型融合的迭代方法。
本发明的训练模型部分使用了集成学习方法,即是多个单一推荐模型的算法通过改进的bagging和boosting进行模型集成,紧接着进行stacking模型融合,这种方法能够有效的降低电商推荐模型的错误率,而且该技术不需要有稠密的电商行为数据,也不需要用户对商品进行打分,这不仅更加符合现实生活中电商平台用户行为的稀疏性,而且这种电商用户行为是隐性存在的,从而提高了推荐评价指标的精确率,给电商平台带来更高的效益。
上述为本发明较佳的实施方式,但本发明的实施方式并不受上述内容的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。