基于网络平台的大数据烟草销量预测方法与流程

文档序号:12672099阅读:302来源:国知局

本发明涉及烟草销量的预测方法,尤其涉及基于大数据的烟草销量预测方法。



背景技术:

我国烟草行业大数据产业发展仍处于初级阶段,数据商业应用敏感度低,没有建立完善、科学的基础零售户数据库。客户评价标准还不统一。卷烟营销 V3 系统使用的客户组别管理,主要从客户订购的数量、金额、品牌规格几个指标进行评定,评价方式比较粗放,评价结果难以全面、客观的反映客户的贡献度、成长率等;手段过时。客户经理的移动办公系统,虽然将手工工作转换为系统操作,但仅限于线下客户拜访和跟踪订单等一些简单功能,没有发挥互联网对市场信息的感知和对客户需求采集及分析的作用;数据库多为传统事务型数据库,无法很好的进行数据挖掘,限制了对营销数据的分析和利用;数据的分析主要依靠电子表格,当样本数据量稍大或者计算较多时,分析过程会十分繁琐且效率低下;分析结果多以文字为主,无法做到一目了然,无法直接用于问题查找和辅助决策。

专利号201410183598.2公开了一种基于协同过滤的零售点产品销量预测方法,利用已知的产品(规格)在不同零售点的销量数据,通过协同过滤技术计算出未知的产品(规格)在零售点的销量预测。该方法涉及的自变量因素较少且自变量的域比较大,其最终的预测结果并不一定理想。



技术实现要素:

本发明所要解决的技术问题是针对现有烟草销量预测方式粗放、参照的自变量因素少的不足,提出一种基于大数据的烟草销量预测方法。

为了解决上述技术问题,本发明的基于网络平台的大数据烟草销量预测方法,包含如下步骤,选择至少一个因素类,所述因素类至少包含两组自变量因素,收集自变量因素在N个时间段的数据及对应烟草销量数据;建立关于自变量因素数据与烟草销量数据的数据库,对因素数据进行定量处理;将自变量因素数据进行标准化处理,使因素类中的每组自变量因素数据均值为0且Pearson相关系数为0;利用Gram-Schmidt变换,对因素类中的自变量因素数据组进行变量筛选,并得到初步的回归模型;对初步回归模型利用Gram-Schmidt反变换获得回归模型;将观测数据代入至回归模型,进而获得销量预测。

上述技术方案,选择的因素类为两组以上时,在对筛选后数据利用Gram-Schmidt变换获得初步回归模型过程中,对每个因素组自变量因素数据进行筛选,获得自变量因素数据集合。

上述技术方案,对自变量因素数据集合进行偏最小二乘回归处理,剔除多重相关性。

上述技术方案,所述的一个因素类为自我因素类,所述自我因素类中包含消费者的收入水平、年龄、性别、职业、文化程度、爱好及风俗习惯、消费者对卷烟的购买偏好、消费者群体聚集度自变量因素组。

上述技术方案,所述的一个因素类为产品因素类,所述产品因素类中包含卷烟的功效、品质、品牌形象、服务水平及价格自变量因素组。

上述技术方案,所述一个因素类为社会因素类,所述社会因素类中包含消费者生活圈子、地区文化、社会潮流及节假日需求自变量因素组。

上述技术方案,所述一个因素类为经济因素类,所述经济因素类中包含地区GDP、人均GDP、第一、二、三产业比重、第一、二、三产业值、该地区在岗职工年均工资、居民消费价格指数、商品零售价格指数、人均年可支配收入及人均年消费性支出自变量因素组。

上述技术方案,包含四个因素类,分别是自我因素类,所述自我因素类中包含消费者的收入水平、年龄、性别、职业、文化程度、爱好及风俗习惯、消费者对卷烟的购买偏好、消费者群体聚集度自变量因素组;产品因素类,所述产品因素类中包含卷烟的功效、品质、品牌形象、服务水平及价格自变量因素组;社会因素类,所述社会因素类中包含消费者生活圈子、地区文化、社会潮流及节假日需求自变量因素组;经济因素类,所述经济因素类中包含地区GDP、人均GDP、第一、二、三产业比重、第一、二、三产业值、该地区在岗职工年均工资、居民消费价格指数、商品零售价格指数、人均年可支配收入及人均年消费性支出自变量因素组。

本发明的烟草销售方法可以利用互联网平台,加入多种自变量因素,建立起与烟草零售户及消费者的联系,及时获取消费者信息,大数据分析市场动态,精准营销,促进烟草行业改革。

附图说明

图1为烟草销售预测方法流程图。

附图说明

结合图1,本发明的基于网络平台的大数据烟草销量预测方法的一种实施方式包含有如下几个步骤:

一、数据采集

1.确定影响销量的因素类

影响消费者购买动机转化为购买行为的因素主要分为自我因素、产品因素、社会因素和经济因素四大类型。

自我因素细分为:消费者的收入水平、年龄、性别、职业、文化程度、爱好及风俗习惯,消费者对卷烟的购买偏好,消费者群体聚集度。

产品因素细分为卷烟的功效、品质、品牌形象、服务水平及价格。

社会因素细分为消费者生活圈子,地区文化,社会潮流及节假日需求。

经济因素细分为该地区GDP,人均GDP,第一、二、三产业比重,第一、二、三产业值,该地区在岗职工年均工资、居民消费价格指数、商品零售价格指数、人均年可支配收入及人均年消费性支出。

上述的因素类及其包含的细分自变量因素组可以根据实际的需求选择部分或者全部,可以进行任意组合。将选择后的因素类及其自变量因素组与对应烟草销量进行关联。

2.建立数据库

通过网络平台发放调查问卷,得到不同时期以上的因素数据。对于定性因素进行打分定量处理,转化为相应数据。收集各个零售点对应时期的销量数据。

二、数据处理

将自变量因素分成4组,在第组中有个变量。对每组变量进行次观测,由此构成的数据表X可以表示成一个维的矩阵,X表示一个因素组。

其中,,被称为第个样本点。,被称为第个变量,表示所有样本点在第个指标上的取值分布。

以上述一个因素组为例,设中心化后的因变量也就是销量为,自变量为。将所有变量做中心化处理。使新坐标的原点与样本点的重心重合,每一个变量的均值为0,保证当两个变量是正交变量时,它们之间的Pearson相关系数等于0。

为方便起见,中心化后的变量仍为。

三、模型建立

利用Gram-Schmidt变换,对每组自变量集合进行变量筛选。

设第一步的备选变量集合为。分别建立关于的一元线性回归模型。在通过检验的自变量中,选统计量的绝对值最大的G-S变量进入模型。不妨设第一个被选中的关联变量为,即。

令第二步的备选变量集合为

分别求关于和的二元线性回归模型。在通过检验的自变量中,选中统计量的绝对值最大的G-S变量进入模型。不妨设第二个被选中的关联变量为,即。

令第三步的备选变量集合为

分别求关于和的三元线性回归模型。在通过检验的自变量中,选中统计量的绝对值最大的量进入模型。不妨设第三个被选中的关联变量为,即。

重复上面步骤,直到模型外边的所有变量经Gram-Schmidt变换处理后都不能通过检验为止。最终得到回归模型

上述b代表每种自变量权重,z代表影响影响因素处理后自变量。

再根据Gram-Schmidt反变换,把上式变换成关于的回归模型

针对每组自变量,选择最能够解释因变量的变量集合,得到将要参加回归模型的自变量集合为。

为剔除自变量集合间的多重相关性,再实施关于集合中的自变量的偏最小二乘回归,对模型修正。

四、销量预测

在实际预测过程中,只需要将选定的观测数据代入至回归模型,即可获得销量预测。随着不同时期观测数据的增多与改变,可利用上述方法定期对数据进行修正,进而修正模型各因素权重,预测未来销量。以便能够使数据保持准确、可靠。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1