一种基于离散弱相关的云平台决策森林分类方法_2

文档序号:8361604阅读:来源:国知局
结束后,得到键值对〈属性1,(属性1,属性2,相关程度值)>,其中 属性1为当前所计算的属性(可能是前面所抽取2m个属性中的离散属性,也可能是所抽取 2m个属性中连续属性)(若属性1和属性2为不同类别的属性,相关程度值为0),属性2为 与属性1进行相关性检测的属性;
[0029] 步骤S22对步骤S21所得结果进行收集,计算抽样属性与其他决策树的已建树属 性的相关性均值,若该均值接近于〇,则表示相关性小。对每个抽样属性的相关性均值进行 快速排序,找出相关性最小的m个属性,构成每棵决策树的弱相关化随机抽样属性元组;
[0030] 步骤S23针对每棵决策树对应的弱相关化随机抽样属性元组,初始化Map任务,并 将所述随机抽样属性元组映射到对应的云平台节点上。
[0031] 步骤S3,依次对步骤S2所得各个决策树的弱相关化随机抽样属性元组中概率离 散化的连续属性进行增量更新,求得其中最大增益属性:
[0032] 步骤S31对每棵决策树的弱相关化随机抽样属性元组中的连续属性进行离散;是 根据连续属性的概率密度函数进行离散化。
[0033] 步骤S32通过更新函数用已离散化的属性替换描述文件中数据集的原连续属性, 并得到替换后的随机抽样属性元组;
[0034] 步骤S33将替换后的随机抽样属性元组划分为数个候选分裂属性子集,各个候选 分裂属性子集由对应云平台节点子线程处理,每个子线程在自己对应的候选分裂属性子集 上计算所有属性的信息增益,统计得到最大增益属性。
[0035] 返回键值对〈对应的属性名称,最大的信息增益值〉。
[0036] 调用Reduce函数统计包含属性名称和最大的信息增益值的各键值对,选择分裂 值最优的属性值作为该节点的分裂属性和分裂点,返回键值对〈分裂点编号和分裂规则〉。
[0037] 步骤S4,重复步骤S3获得分类属性序列,建立云平台决策森林并分类。
[0038] 步骤S41重复步骤S3获得分类属性序列,并行化建立相应的决策树;
[0039] 步骤S42构建各云平台节点对应的决策树,当所有决策树构建完成后,获取每个 节点上对应的键值,通过Reduce规约函数组合结果,生成云平台决策森林;
[0040] 步骤S43为待分类的数据集的每个决策树分配一个Map映射函数,统计各Map映 射函数返回投票情况键值对,选择投票数目最多的那个类别作为决策森林的分类预测类 别。
[0041] 上述方法中,对云平台的决策森林分类方法离散弱相关化。首先根据数据属性之 间的相关程度,选出随机抽样属性元组,然后增量更新属性组概率离散化的连续属性。并求 得最大增益属性。最后通过获得的分类属性序列建立云平台决策森林。这样在处理大规模 数据规模时,能减少构建云平台决策森林的时间和空间开销,增强抗数据噪音的能力及其 稳定性。并加快了分类的预测速度和提高了分类的质量。
[0042] 应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换, 而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
【主权项】
1. 一种基于离散弱相关的云平台决策森林分类方法,其特征在于,该方法包括如下步 骤: 步骤一,生成使云平台决策森林最优的描述文件,所述描述文件包括决策树的最优总 数及每棵决策树的新数据集dataset ; 步骤二,确定每棵决策树弱相关化随机抽样属性元组; 步骤三,依次对步骤二所得各个决策树的弱相关化随机抽样属性元组中概率离散化的 连续属性进行增量更新,求得其中最大增益属性; 步骤四,重复步骤三获得分类属性序列,建立云平台决策森林并分类。
2. 根据权利要求1所述的一种基于离散弱相关的云平台决策森林分类方法,其特征在 于,所述步骤一中所述决策树的最优总数是通过以下方法获得:用云平台的Data_Node节 点个数乘以各节点统一设定的Reduce任务数,用所求得的积开方的2倍除以m得到决策森 林中决策树的最优总数,其中m取LlogJW + l」,其中P是实验数据集中属性的维数。
3. 根据权利要求1所述的一种基于离散弱相关的云平台决策森林分类方法,其特征在 于,所述步骤一中所述新数据集dataset是通过以下方法获得的:通过bootstrap抽样方法 为云平台中的每棵决策树抽取训练样本,获得每棵决策树的新数据集dataset。
4. 根据权利要求1所述的一种基于离散弱相关的云平台决策森林分类方法,其特征在 于,所述步骤二具体包括以下步骤: 21) 为步骤一所得每棵决策树随机抽取2m个属性,并使用Map函数通过TF-IDF逆 文档频率计算离散属性相关程度,通过协方差矩阵计算连续属性相关程度,其中m取 U〇g2(p) + l」,其中p是实验数据集中属性的维数; 22) 对步骤21)所得结果进行收集,计算抽样属性与其他决策树的已建树属性的相关 性均值,对每个抽样属性的相关性均值进行快速排序,找出相关性最小的m个属性,构成每 棵决策树的弱相关化随机抽样属性元组; 23) 针对每棵决策树对应的弱相关化随机抽样属性元组,初始化Map任务,并将所述随 机抽样属性元组映射到对应的云平台节点上。
5. 根据权利要求1所述的一种基于离散弱相关的云平台决策森林分类方法,其特征在 于,所述步骤三是对每棵决策树进行以下操作: 31) 对每棵决策树的弱相关化随机抽样属性元组中的连续属性进行离散化; 32) 通过更新函数用已离散化的属性替换描述文件中数据集的原连续属性,并得到替 换后的随机抽样属性元组; 33) 将替换后的随机抽样属性元组划分为数个候选分裂属性子集,各个候选分裂属性 子集由对应云平台节点子线程处理,每个子线程在自己对应的候选分裂属性子集上计算所 有属性的信息增益,统计得到最大增益属性。
6. 根据权利要求5所述的一种基于离散弱相关的云平台决策森林分类方法,其特征在 于,所述步骤31)是根据连续属性的概率密度函数进行离散化。
7. 根据权利要求5所述的一种基于离散弱相关的云平台决策森林分类方法,其特征在 于,所述步骤33)所得结果包括所对应的属性名称和最大的信息增益值,以键值对表示。
8. 根据权利要求7所述的一种基于离散弱相关的云平台决策森林分类方法,其特征在 于,所述步骤33)所得结果还包括各个云平台节点的分裂属性和分裂点,所述分裂属性和 分裂点是通过以下方式得到的:调用Reduce函数统计包含属性名称和最大的信息增益值 的各键值对,选择分裂值最优的属性值作为该节点的分裂属性和分裂点,所得结果包括分 裂点编号和分裂规则,以键值对表示。
9.根据权利要求1所述的一种基于离散弱相关的云平台决策森林分类方法,其特征在 于,所述步骤四具体包括以下步骤: 41) 重复步骤三获得分类属性序列,并行化建立相应的决策树; 42) 构建各云平台节点对应的决策树,当所有决策树构建完成后,获取每个节点上对应 的键值,通过Reduce规约函数组合结果,生成云平台决策森林; 43) 为待分类的数据集的每个决策树分配一个Map映射函数,统计各Map映射函数返回 投票情况键值对,选择投票数目最多的那个类别作为决策森林的分类预测类别。
【专利摘要】本发明公开了一种基于离散弱相关的云平台决策森林分类方法,对云平台的决策森林分类方法离散弱相关化。首先根据数据属性之间的相关程度,选出随机抽样属性元组,然后增量更新属性组概率离散化的连续属性,求得最大增益属性。最后通过获得的分类属性序列建立云平台决策森林。这样在处理大规模数据规模时,能减少构建云平台决策森林的时间和空间开销,增强抗数据噪音的能力及其稳定性,并加快了分类的预测速度和提高了分类的质量。
【IPC分类】G06F17-30
【公开号】CN104679911
【申请号】CN201510133866
【发明人】袁景凌, 陈旻骋, 刘永坚, 杨光
【申请人】武汉理工大学
【公开日】2015年6月3日
【申请日】2015年3月25日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1