大数据环境下在线零售商的需求模型构建及需求预测方法

文档序号：30163359发布日期：2022-05-26 09:04阅读：111来源：国知局

1.本发明属于供应链需求预测领域，更具体地，涉及一种大数据环境下在线零售商的需求模型构建及需求预测方法。

背景技术：

2.随着电商的发展，为提高电商物流的时效性，电商平台纷纷建立了以实体门店为主的前置仓模式，通过对消费者的需求进行预测，提前将对应商品发送至前置仓门店，当消费者下单时，系统选择距离消费者较近的前置仓门店，将商品配送至目标地址，从而有效缩短商品与消费者的距离，降低物流配送时间。若预测中的商品未被购买，则会产生转运、存储、退回等费用，增加了供应链整体的运作成本。因此，前置仓模式的实现对供应链需求预测提出了更高的要求。在大数据和信息处理技术快速发展的新时代背景下，运用大数据分析技术，对前置仓门店的需求进行准确预测，可以为前置仓门店的“预判发货”提供决策支持。
3.当前大数据环境下，电商平台产生了大量客户点击、浏览、加入购物车等行为数据，以及商品销售量、退货量等数据信息，如何利用大量历史消费数据信息预测消费者需求成为业界和学术界研究的焦点问题，而现有已公开的需求预测方法主要是针对电商平台提供的数据建立整体的预测模型，以此方式建立的模型不能适应不同商家中不同产品的需求特点，预测精度不高。

技术实现要素：

4.本发明提供一种大数据环境下在线零售商的需求模型构建及需求预测方法，用以解决现有电商需求预测方法对不同商家对于不同商品的需求预测精度不高的技术问题。
5.本发明解决上述技术问题的技术方案如下：一种大数据环境下在线零售商的需求模型构建方法，包括：
6.基于历史数据样本集，统计每个零售商对每个商品的按时间粒度的需求统计量；并根据所述需求统计量，对各零售商id和各商品id构成的组进行聚类；每个历史数据样本包括：零售商id，商品id，消费者id，一次对该商品购买量，一次对该商品退货量，以及对该商品的需求量信息；
7.对任一聚类簇所对应的历史数据样本集按照周期划分，取每相邻多个周期的数据为一组数据；其中，从该相邻多个周期的数据中最后一个周期数据中提取各客户在各零售商购买各商品的需求标签值，从其他周期数据中提取各客户在各零售商购买各商品的需求特征，构成多个训练样本；
8.采用每一聚类簇的所有训练样本训练得到该聚类簇的需求预测模型。
9.本发明的有益效果是：本发明提出了一种大数据环境下基于市场细分的供应链需求预测方法，具体的，主要通过消费者在某一商店对某一产品的购买量、消费金额、退货量、商品信息以及商家信息等数据进行预处理和提取特征，然后根据需求特点对商家-产品进
行分组划分，完成聚类，分析其中隐含的不同需求模式，进一步针对不同组的商家-产品分别建立相应的需求预测模型，缩小了后续预测模型处理的数据量，减少了数据处理的时间，同时提高对未来一段时间各商家的需求量进行准确预测，为供应商向各前置仓门店“预判发货”提供技术支持。
10.上述技术方案的基础上，本发明还可以做如下改进。
11.进一步，所述对该商品的需求量信息为对该商品的需求量的对数值。
12.本发明的进一步有益效果是：采用需求量的对数值，提高预测精度。
13.进一步，采用som和层次聚类法进行所述聚类。
14.进一步，所述需求特征包括时序统计特征，所述时序统计特征包含：零售商对商品的需求量均值、方差、最大值和最小值，退货量的均值、方差、最大值和最小值，退货次数，以及退货比率；商品的需求量均值、方差、最大值和最小值，退货量的均值、方差、最大值和最小值，退货次数，以及退货比率；零售商的需求量均值、方差、最大值和最小值，退货量的均值、方差、最大值和最小值，退货次数，以及退货比率。
15.本发明的进一步有益效果是：通过这些时序特征描述了关于各种商品、各个零售商和某一零售商中某一产品历史需求情况，以及历史退货情况，为准确预测产品需求奠定基础。
16.进一步，采用gbdt模型，对每个训练样本中各特征进行重要度排序，在每个训练样本中保留重要度高的特征。
17.本发明的进一步有益效果是：该过程实现了特征选择，去除了对后续预测影响较小或无影响的特征，进而提高预测的效果和预测阶段的运行速度。
18.进一步，采用每一聚类簇的所有训练样本训练得到该聚类簇的需求预测模型，具体为：采用每一个聚类簇的所有训练样本训练多个模型，选择预测精度较高的模型作为该聚类簇的预测模型，其中，所述多个模型包括xgboost、lasso regression、elasticnet和ann。
19.进一步，所述选择预测精度较高的模型，具体为：通过mse、mae和r-squared评价指标选择预测精度较高的算法模型。
20.本发明还提供一种大数据环境下在线零售商的需求预测方法，包括：
21.基于待预测的零售商id和商品id所对应的历史数据，统计该零售商对该商品的按时间粒度的需求统计量，所述历史数据包括：零售商id，商品id，消费者id，一次对该商品购买量，一次对该商品退货量，以及对该商品的需求量信息；
22.根据如上所述的一种大数据环境下在线零售商的需求模型构建方法中所述的聚类簇，判断待预测的零售商id和商品id所在的聚类簇，并选择该聚类所对应的需求预测模型进行需求预测。
23.本发明还提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行如上所述的一种大数据环境下在线零售商的需求模型构建方法和/或如上所述的一种大数据环境下在线零售商的需求预测方法。
附图说明
24.图1为本发明实施例提供的一种大数据环境下在线零售商的需求模型构建方法流程框图；
25.图2为本发明实施例提供的一种大数据环境下在线零售商的需求模型构建方法中商家-产品的聚类划分流程图；
26.图3为本发明实施例提供的另一种大数据环境下在线零售商的需求模型构建方法流程框图；
27.图4为本发明实施例提供的一种大数据环境下在线零售商的需求模型构建方法中针对不同商家-产品组的需求预测模型构建流程框图。
具体实施方式
28.为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
29.实施例一
30.一种大数据环境下在线零售商的需求模型构建方法100，如图1所示，包括：
31.s110、基于历史数据样本集，统计每个零售商对每个商品的按时间粒度的需求统计量；并根据需求统计量，对各零售商id和各商品id构成的组进行聚类；每个历史数据样本包括：零售商id，商品id，消费者id，一次对该商品购买量，一次对该商品退货量，以及对该商品的需求量信息；
32.s120、对任一聚类簇所对应的历史数据样本集按照周期划分，取每相邻多个周期的数据为一组数据；其中，从该相邻多个周期的数据中最后一个周期数据中提取各客户在各零售商购买各商品的需求标签值，从其他周期数据中提取各客户在各零售商购买各商品的需求特征，构成多个训练样本；
33.s130、采用每一聚类簇的所有训练样本训练得到该聚类簇的需求预测模型。
34.在上述s110中，如图2所示，首先根据历史消费数据信息(即历史数据样本集)，针对商家-产品建立特征以反映其历史需求特点，主要包括按时间粒度的商家中各产品的需求统计量。然后，建立聚类算法对商家-产品进行分组划分，具体可通过som和层次聚类结合的方法对数据集进行聚类，获得商家-产品对应的簇标签。
35.其中，聚类方式可为：首先利用som算法得到第一聚类结果，但由于该算法得到的聚类簇较多，所以利用层次聚类算法对第一聚类结果再聚类，通过对得到的聚类树选取合适的height值，得到最终的聚类结果。
36.为了使得历史数据样本集更加清楚，现给出如下示例：
[0037][0038][0039]
s110在统计完需求统计量之后，由原始样本数据转变为零售商-产品-需求统计量数据，如下形式：
[0040]
商家_id产品_id平均需求量需求量的方差需求量的最大值需求量的最小值11101212325.144211101240439.325111101242322.923111211242538.26211213894320.287411305310424.610511315310631.68126
[0041]
基于需求统计量数据，对各零售商-产品聚类。
[0042]
另外，在上述s120中，如图3所示，具体可利用滑窗法对历史消费数据划分数据集，例如针对7周的历史消费数据采用滑窗法，以1周为周期进行滑窗，比如窗口步长大小为3周，构建多个训练窗口，增加训练集数据量，其中，采用每个窗口的前两周数据来构建不同消费者在不同商店购买不同商品的需求特征(向量)，采用该窗口的最后一周数据来构建每个所述需求特征(向量)的需求标签值。进一步可采用5折交叉验证的方法，比如4份为训练集，1份为验证集。
[0043]
本实施例提出了一种大数据环境下基于市场细分的供应链需求预测方法，具体的，主要通过消费者在某一商店对某一产品的购买量、消费金额、退货量、商品信息以及商家信息等数据进行预处理和提取特征，然后根据需求特点对商家-产品进行分组划分，完成聚类，分析其中隐含的不同需求模式，进一步针对不同组的商家-产品分别建立相应的需求预测模型，缩小了后续预测模型处理的数据量，减少了数据处理的时间，同时提高对未来一段时间各商家的需求量进行准确预测，为供应商向各前置仓门店“预判发货”提供技术支持。
[0044]
根据不同商家中不同产品的需求特点建立对应的模型，预测精度高，另外在库存管理方面，建立不同商家对应不同商品的预测模型，利于分析不同商家中不同商品的需求情况并提出具有针对性的库存管理决策。
[0045]
优选的，上述对该商品的需求量信息为对该商品的需求量的对数值。
[0046]
为提高预测效果，对数据中的需求量取对数，对数据中的空值用零填充。
[0047]
优选的，上述需求特征包括时序统计特征，时序统计特征有零售商对商品的需求量和退货量的均值、方差、最大值和最小值。
[0048]
对s120中划分的数据集进行特征工程构建，主要包括基础特征和时序相关的统计特征，基础特征可包含数据基本信息中的连续型特征和非连续型的独热编码处理后的特征，其中，商家和产品的基本信息中的连续型特征直接作为特征处理，包括产品的价格，销售量，退货量，非连续型的特征采用独热编码处理为数值型作为特征；时序相关的统计特征可包含：关于商家和产品需求量和退货量的均值、方差、最大值、最小值等，以及商家和产品交叉的统计特征，具体的，按时间粒度统计的产品需求量的均值、方差、最大值和最小值，以及退货次数，退货比率，退货量的均值、方差、最大值和最小值，商家需求量的均值、方差、最大值和最小值，以及退货次数，退货比率，退货量的均值、方差、最大值和最小值，商家-产品需求量的均值、方差、最大值和最小值，以及退货次数，退货比率，退货量的均值、方差、最大值和最小值。
[0049]
未来使得上述的基础特征和时序相关的统计特征更加清楚，现举例如下：
[0050][0051]
优选的，采用gbdt模型，对每个训练样本中各特征进行重要度排序，在每个训练样本中保留重要度高的特征。
[0052]
根据聚类结果对数据集进行分组划分并进行特征选择：将关于商家-产品的簇标签加入到数据集中，以簇标签将数据集划分为不同的数据子集，针对不同数据子集建立gbdt模型，训练完成后得到特征重要性的排序，选取前70％的特征进行后续的模型训练。
[0053]
优选的，如图4所示，采用每一聚类簇的所有训练样本训练得到该聚类簇的需求预测模型，具体为：采用每一个聚类簇的所有训练样本训练多个模型，选择预测精度较高的模型作为该聚类簇的预测模型，其中，多个模型包括xgboost、lasso regression、elasticnet和ann。
[0054]
针对不同组的数据分别建立预测模型，需要说明的是，如果在训练时以一周为一数据周期且采样每组数据的最后一周的数据来统计需求标签值，则在采样训练好的模型进行需求预测时是用于预测商品未来一周的需求量，如果在训练时采样每组数据的最后两周的数据来统计需求标签值，则在采样训练好的模型进行需求预测时用于预测商品未来两周的需求量，因此，模型用于预测未来多长时间的需求量与训练时所选的数据有关。其中，利用针对不同数据子集提取的特征，可在各数据子集上建立xgboost、lasso regression、elasticnet、ann四个算法模型，通过mse、mae、r-squared等评价指标，针对不同数据子集选择合适的算法模型。
[0055]
实施例二
[0056]
一种大数据环境下在线零售商的需求预测方法，包括：
[0057]
基于待预测的零售商id和商品id所对应的历史数据，统计该零售商对该商品的按时间粒度的需求统计量，所述历史数据包括：零售商id，商品id，消费者id，一次对该商品购买量，一次对该商品退货量，以及对该商品的需求量信息；
[0058]
根据实施例一所述的一种大数据环境下在线零售商的需求模型构建方法中所述的聚类簇，判断待预测的零售商id和商品id所在的聚类簇，并选择该聚类簇所对应的需求预测模型进行需求预测。相关技术方案同实施例一，在此不再赘述。
[0059]
在预测阶段，分别针对不同需求模式的数据集建立与其相适应的预测模型，可以有效提高需求预测的准确率。
[0060]
需要说明的是，将预测数据集以商家-产品为key值根据聚类的结果划分到对应的数据子集，其中由于预测数据集中出现新的商家-产品组合未发生历史需求，故将该类数据划分到需求量最低的数据子集中。不同的数据子集通过训练过程中选择的相应预测模型进行训练，得到最终的预测结果。
[0061]
实施例三
[0062]
一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行如上实施例一所述的一种大数据环境下在线零售商的需求模型构建方法和/或如上实施例二所述的一种大数据环境下在线零售商的需求预测方法。
[0063]
相关技术方案同实施例一和实施例二，在此不再赘述。
[0064]
本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐贤浩任欣欣
技术所有人：华中科技大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。