基于决策树算法的烟草零售户定价方法与流程

文档序号:12272782阅读:来源:国知局

技术特征:

1.基于决策树算法的烟草零售户定价方法,其特征在于,

通过使用Python的Pandas包,根据烟草行业特有的数据结构,进行清除噪音数据,然后通过数据归一化方法将数值型数据转换成离散型数据;然后通过合并组成的挖掘宽表,通过使用决策树算法,设置相关参数;

找到零售价格和客户、商品名称、周期、订单量、满足率、销量、销额、平均库存量和存销占比之间的关系;

首先按照数据挖掘流程,对烟草数据进行分析,根据各类样本数据确定各个样本的初始阈值,然后通过迭代对各个样本的权重值进行修改,最终得到各个样本的最终权重值,最后根据样本权重值找出少数类边界区域的样本和多数类中心区域的样本,并使用基于聚类的过抽样算法对样本进行过抽样。

2.根据权利要求1所述的方法,其特征在于,

步骤如下:

1)根据训练集中样本的数据量初始化各个样本的权重值,作为本样本的误差权限值:设置迭代次数为T,从1到T每次的迭代依次循环以下的步骤2)-3);

2)利用C4.5决策树算法对训练集进行学习,得出一套规则;

3)根据步骤2)所得规则,将分类错误的样本权重增大,减少分类正确的样本权重,且变化幅度与其原始权重成正相关;

4)设计过抽样概率阈值,并根据样本的权重找出位于少数类边界区域的样本,利用基于聚类的过抽样算法对此取悦的样本进行过抽样,并将所有的少数类样本及过抽样所得样本添加到新的数据集中;

5)设定欠抽样阈值,按照样本的权重对分类目标进行欠抽样,使位于多数累样本更容易被选中,将选中的样本添加到新的数据集中;

6)使用C4.5算法对抽样得到的新的数据集进行训练,得到规则并使用测试数据集进行分类测试;

3.根据权利要求2所述的方法,其特征在于,在步骤1)中,计算初始化各个样本的阈值具体包括:使用奈曼法算法,即各层应抽样本数与该层总体数及其标准差的积成正比。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1