1.本发明涉及消费预测技术领域,尤其涉及一种基于两阶段组合的在线消费行为预测方法及系统。
背景技术:
2.qiu等(2017)提出了一个两阶段的网络购物行为预测框架。首先,计算产品之间的相关性。然后,利用支持向量机(svm)和层次贝叶斯离散选择模型计算顾客对候选产品的偏好。silahtaroglu(2015)等收集网上购物行为和顾客的人口统计信息,并利用决策树和神经网络预测用户是否会在购物车中购买商品。
3.传统的统计计量模型具有很好的鲁棒性和可解释性,但其预测精度不够高,无法处理高维数据;人工智能方法准确性高,对数据分布没有严格要求,但其鲁棒性较差,并且机器学习方法是黑箱操作,造成输出结果的可解释性不高。所以,本文建立一个预测在线消费行为的两阶段组合模型。
技术实现要素:
4.针对现有技术存在的问题,本发明提供一种基于两阶段组合的在线消费行为预测方法及系统。
5.为了解决上述技术问题,本发明采用以下的技术方案:
6.一方面,一种基于两阶段组合的在线消费行为预测方法,具体包括以下步骤:
7.步骤1:对用户在线浏览商品是否消费行为的历史数据进行预处理;其中历史数据包括定量指标值和定性指标值;
8.步骤1.1:将定量指标值采取最大最小标准化方法进行标准化处理;
9.步骤1.2:将定性指标值根据定性指标评分表进行打分;
10.步骤2:基于logistic模型进行指标组合的筛选;
11.所述logistic模型中,设n个独立指标变量x={x1,x2,
…
,x
n
},二元响应变量y∈{0,1},y=1表示某个用户购买商品,y=0表示某个用户不购买某个商品;设条件概率p(y=1|x)=p为样本x条件下事件y=1发生的概率,则logistic回归模型表示为:
[0012][0013]
其中g(x)=w0+w1x1+
…
+w
n
x
n
,w
n
表示第n个独立指标变量的权重;
[0014]
对比值比取对数得到:
[0015][0016]
通过公式2求出w0,w1,
…
,w
n
,若指标x
m
(m=1,2,
…
,n)的权重w
m
不为0且相应的显著性水平p值小于5%,则说明该特征对借款人的违约状态具有影响,保留该指标;否则删除该指标,以此进行变量筛选。
[0017]
步骤3:将logistic模型筛选出来的变量作为决策树模型的输入变量,使用决策树模型对用户浏览商品是否消费的行为进行二次预测,并输出购买商品的概率;
[0018]
所述二次预测为,给定数据集d={(x1,y1),(x2,y2),
…
,(x
i
,y
i
),
…
,(x
n
,y
n
)},其中x
i
为输入的特征向量,y
i
∈{1,2,...,k}是一个包含k个类的类别变量,在消费者是否购买的问题中k=2,i=1,2,
…
,n,n为样本量;
[0019]
使用基尼指数用来衡量数据集的不确定性,定义如式(3)所示:
[0020][0021]
对于二分类,即消费者是否购买问题中,k=2,则基尼指数表示为:
[0022]
gini(r)=2r(1
‑
r)
ꢀꢀꢀ
(4)
[0023]
其中r表示表示节点j(j=1,2,
…
,j)中第k(k=1,2,
…
,k)类样本的比例;
[0024]
基尼指数(gini)值越小,不确定程度就越小,选择基尼系数最小的指标进行分支,然后判断是否购买,输出用户是否购买商品的概率。
[0025]
步骤4:输出用户是否购买的概率,供商家进行营销决策。
[0026]
另一方面,一种两阶段组合的在线消费行为预测系统,用于实现前述一种两阶段组合的在线消费行为预测方法,包括:用户数据输入模块,用户数据处理模块,用户数据输出模块。
[0027]
所述用户数据输入模块,将用户浏览商品的在线数据输入到用户数据输入模块;
[0028]
所述用户数据处理模块,将用户数据输入模块的在线数据输入到用户数据处理模块,用户数据处理模型处理用户的在线数据,用于预测用户在线浏览行为购买商品的概率预测;
[0029]
所述用户数据输出模块,用户数据处理模块输出用户在线消费,即是否购买商品的概率,卖家根据用户购买商品的概率进行决策。
[0030]
本发明所产生的有益效果在于:
[0031]
本发明提出一种基于两阶段组合的在线消费行为预测方法及系统,具备以下有益效果:
[0032]
1、本发明找到了对用户(消费者)是否购买商品有较大影响力的指标,并且这些指标为商家采取相应营销措施提供了依据。
[0033]
2、本发明发现产品的消费高峰出现在8月、9月、10月和11月,所以,在这几个月增加库存以防止缺货,在其他月份进行促销。同时发现该产品的消费者直接从其他网站进入该产品主页的购物比例超过经常在该网站不同产品之间来回跳跃的购物比例,所以,建议该产品的卖家增加产品的粘性,从而使消费者直接访问该产品页面。
[0034]
3、本发明采用的系统及方法可以适用于其他在线销售的商品,可以为每一个商品使用该系统及方法找出影响商品销售的因素,并且有针对性的提出营销建议。
附图说明
[0035]
图1为本发明实施例中两阶段组合的在线消费行为预测方法的总体流程图;
[0036]
图2为本发明实施例中两阶段组合的在线消费行为预测系统总体结构框图。
具体实施方式
[0037]
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
[0038]
一方面,一种基于两阶段组合的在线消费行为预测方法,如图1所示,具体包括以下步骤:
[0039]
步骤1:对用户在线浏览商品是否消费行为的历史数据进行预处理;其中历史数据包括定量指标值和定性指标值;
[0040]
步骤1.1:将定量指标值采取最大最小标准化方法进行标准化处理;
[0041]
步骤1.2:将定性指标值根据定性指标评分表进行打分;指标类别购买商品的可能性越高,打分越高,例如第一个指标month中的feb二月份购买的可能性越高,打分越高
[0042]
表1定性指标评分表
[0043][0044]
步骤2:基于logistic模型进行指标组合的筛选;
[0045]
所述logistic模型中,设n个独立指标变量x={x1,x2,
…
,x
n
},二元响应变量y∈{0,1},y=1表示某个用户购买商品,y=0表示某个用户不购买某个商品;设条件概率p(y=1|x)=p为样本x条件下事件y=1发生的概率,其中样本为用户,事件为用户购买商品,则logistic回归模型表示为:
[0046][0047]
其中g(x)=w0+w1x1+
…
+w
n
x
n
,w
n
表示第n个独立指标变量的权重;
[0048]
对比值比取对数得到:
[0049][0050]
通过公式2求出w0,w1,
…
,w
n
,若指标x
m
(m=1,2,
…
,n)的权重w
m
不为0且相应的显著性水平p值小于5%,则说明该特征对借款人的违约状态具有影响,保留该指标;否则删除该指标,以此进行变量筛选。
[0051]
步骤3:将logistic模型筛选出来的7个变量作为决策树模型的输入变量,使用决策树模型对用户浏览商品是否消费的行为进行二次预测,并输出购买商品的概率;
[0052]
所述决策树模型是一种具有自顶向下树形结构的模型,它包含根节点、内部节点、
叶子节点和分支。构建决策树时,树的根节点是依据某一准则选出的最优属性。每个内部节点表示对一个属性的测试,每个分支表示测试的结果。叶节点表示类或类分布。在根节点之后,选择剩余属性中的最优属性作为下一个节点的测试。这个过程一直持续,直到比较了所有属性,或者没有剩余的属性可以对样本进行进一步分割。
[0053]
给定数据集d={(x1,y1),(x2,y2),
…
,(x
i
,y
i
),
…
,(x
n
,y
n
)},其中x
i
为输入的特征向量,y
i
∈{1,2,...,k}是一个包含k个类的类别变量,在消费者是否购买的问题中k=2,i=1,2,
…
,n,n为样本量;分类树的建模过程就是递归地选择一个属性变量,并确定根据这个属性进行分割的条件。常用衡量节点j不纯度q
j
的标准包括错分率、熵(entory)、基尼指数(gini)等,此处使用基尼指数(gini)。
[0054]
使用基尼指数用来衡量数据集的不确定性,定义如式(3)所示:
[0055][0056]
对于二分类,即消费者是否购买问题中,k=2,则基尼指数表示为:
[0057]
gini(r)=2r(1
‑
r)
ꢀꢀꢀ
(4)
[0058]
其中r表示表示节点j(j=1,2,
…
,j)中第k(k=1,2,
…
,k)类样本的比例;
[0059]
基尼指数(gini)值越小,不确定程度就越小,选择基尼系数最小的指标进行分支,然后判断是否购买。决策树在易于理解而且直观表达方面的优点十分显著;与其他分析方法不同的不同点在于决策树可以快速分析大量基于数据和常规数据,获得准确的结果。决策树模型可以输出用户是否购买商品的概率。
[0060]
步骤4:商家将用户实时数据输入用户数据输入模块,然后用户数据处理模型处理用户的输入数据,用户数据输出模型输出用户是否购买的概率,供商家进行营销决策。
[0061]
另一方面,一种基于两阶段组合的在线消费行为预测系统,用于实现前述一种基于两阶段组合的在线消费行为预测方法,如图2所示,包括:用户数据输入模块,用户数据处理模块,用户数据输出模块。
[0062]
所述用户数据输入模块,将用户浏览商品的在线数据输入到用户数据输入模块;
[0063]
所述用户数据处理模块,将用户数据输入模块的在线数据输入到用户数据处理模块,用户数据处理模型处理用户的在线数据,用于预测用户在线浏览行为购买商品的概率预测;
[0064]
所述用户数据输出模块,用户数据处理模块输出用户在线消费,即是否购买商品的概率,卖家根据用户购买商品的概率进行决策。
[0065]
本实施例中在评估在线消费者购买行为方面选择logistic回归模型和决策树模型,用串联方式建立两阶段组合模型。将logistic回归算法于变量选择和参数估计相结合,以最小的特征变量获得最高的预测精度。当自变量之间存在相关性时,它具有很好的鲁棒性和可解释性。决策树模型预测精度高,但鲁棒性差,不利于模型的推广。同时,由于黑箱操作的存在,无法解释。本文以logistic回归选择的变量作为决策树的输入变量,得到本模型的预测结果。本文的2个模型的对比表如2所示。
[0066]
表2不同模型的准确率对比表
[0067][0068]
从正确率来看,逻辑回归的正确率为0.8847,两阶段组合模型(本模型)的正确率率为0.9019。第一类错误率中最低的是组合模型,第二类错误率中最低的也是组合模型。经过以上分析,在准确率,第一类错误率和第二类错误率方面,本模型效果最好,证明了本模型能够有效判断消费者是否购买某商品,并对商家促销方案提供决策依据。
[0069]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。