一种基于离散弱相关的云平台决策森林分类方法

文档序号:8361604阅读:261来源:国知局
一种基于离散弱相关的云平台决策森林分类方法
【技术领域】
[0001] 本发明涉及云计算领域,具体是指一种基于离散弱相关的云平台决策森林分类方 法。
【背景技术】
[0002] 随机分裂技术构建多棵决策树,通过投票得到最终预测结果。随机森林是由许多 决策树集成在一起的分类器,如果把决策树看成分类任务中的一个专家,随机森林就是许 多专家在一起对某种任务进行分类。
[0003] 目前,随着大数据时代的到来,数据的规模不断的增大以及数据的属性维度的连 续增加,传统的随机森林分类方法不能有效地处理海量规模数据,不能高效、快速地完成分 类预测。因此针对海量、高维的数据,不少学者提出了基于云平台的分布式随机森林分类方 法,虽然这些方法能够快速地完成数据的分类预测工作。但是空间效率及分类精度并不尽 如人意。
[0004] 为了解决这个问题,需要研宄怎样在保证分类时间效率的同时,减少云平台随机 森林方法的空间开销,提高分类精度。对随机森林离散弱相关化是一种有效手段。离散弱 相关化是指随机森林在随机抽样的基础上,根据数据集属性之间的相关程度,选取若干个 属性构成属性组,并增量更新属性组中概率离散化的连续属性。以此来提高云平台决策森 林分类效率。

【发明内容】

[0005] 本发明的目的是为了解决上述【背景技术】存在的不足,提出一种基于离散弱相关的 云平台决策森林分类方法,减少了时间和空间开销,增强抗数据噪音的能力,并提高了分类 质量。
[0006] 为了解决上述技术问题本发明的技术方案为:
[0007] 一种基于离散弱相关的云平台决策森林分类方法,其特征在于,该方法包括如下 步骤:步骤一,生成使云平台决策森林最优的描述文件,所述描述文件包括决策树的最优总 数及每棵决策树的新数据集dataset ;步骤二,确定每棵决策树弱相关化随机抽样属性元 组;步骤三,依次对步骤二所得各个决策树的弱相关化随机抽样属性元组中概率离散化的 连续属性进行增量更新,求得其中最大增益属性;步骤四,重复步骤三获得分类属性序列, 建立云平台决策森林并分类。
[0008] 较佳地,所述步骤一中所述决策树的最优总数是通过以下方法获得的:用云平台 的Data_Node节点个数乘以各节点统一设定的Reduce任务数,用所求得的积开方的2倍除 以m得到决策森林中决策树的最优总数,其中m取U〇g2(/0 + 1」,其中P是实验数据集中属 性的维数。
[0009] 较佳地,所述步骤一中所述新数据集dataset是通过以下方法获得的:通过 bootstrap抽样方法为云平台中的每棵决策树抽取训练样本,获得每棵决策树的新数据集 dataset〇
[0010] 较佳地,所述步骤二具体包括以下步骤:21)为步骤一所得每棵决策树随机抽取 2m个属性,并使用Map函数通过TF-IDF逆文档频率计算离散属性相关程度,通过协方差 矩阵计算连续属性相关程度,其中m取D〇g2(P) +l」,其中P是实验数据集中属性的维数; 22)对步骤21)所得结果进行收集,计算抽样属性与其他决策树的已建树属性的相关性均 值,对每个抽样属性的相关性均值进行快速排序,找出相关性最小的m个属性,构成每棵决 策树的弱相关化随机抽样属性元组;23)针对每棵决策树对应的弱相关化随机抽样属性元 组,初始化Map任务,并将所述随机抽样属性元组映射到对应的云平台节点上。
[0011] 较佳地,所述步骤三是对每棵决策树进行以下操作:31)对每棵决策树的弱相关 化随机抽样属性元组中的连续属性进行离散化;32)通过更新函数用已离散化的属性替换 描述文件中数据集的原连续属性,并得到替换后的随机抽样属性元组;33)将替换后的随 机抽样属性元组划分为数个候选分裂属性子集,各个候选分裂属性子集由对应云平台节点 子线程处理,每个子线程在自己对应的候选分裂属性子集上计算所有属性的信息增益,统 计得到最大增益属性。
[0012] 较佳地,所述步骤31)是根据连续属性的概率密度函数进行离散化。
[0013] 较佳地,所述步骤33)所得结果包括所对应的属性名称和最大的信息增益值,以 键值对表示。
[0014] 较佳地,所述步骤33)所得结果还包括各个云平台节点的分裂属性和分裂点,所 述分裂属性和分裂点是通过以下方式得到的:调用Reduce函数统计包含属性名称和最大 的信息增益值的各键值对,选择分裂值最优的属性值作为该节点的分裂属性和分裂点,所 得结果包括分裂点编号和分裂规则,以键值对表示。
[0015] 较佳地,所述步骤四具体包括以下步骤:41)重复步骤三获得分类属性序列,并行 化建立相应的决策树;42)构建各云平台节点对应的决策树,当所有决策树构建完成后,获 取每个节点上对应的键值,通过Reduce规约函数组合结果,生成云平台决策森林;43)为待 分类的数据集的每个决策树分配一个Map映射函数,统计各Map映射函数返回投票情况键 值对,选择投票数目最多的那个类别作为决策森林的分类预测类别。
[0016] 本发明首先根据数据集属性之间的相关程度,选出随机抽样属性元组,然后增量 更新属性组中概率离散化的连续属性,并求得其最大增益属性,最后通过获得的分类属性 序列建立云平台决策森林并分类。通过分析云平台的配置及数据集特性,优化描述文件中 的参数,经过相关性检测后,确定弱相关化随机抽样属性元组,再增量更新属性组中概率离 散化的连续属性,能够对云平台的决策森林方法离散弱相关化,减少了时间和空间开销,增 强抗数据噪音的能力及其稳定性,加快了分类的预测速度,提高了分类的质量。
【附图说明】
[0017] 图1为本发明实施例的流程图。
【具体实施方式】
[0018] 下面结合附图和实施例对本发明做进一步的说明。
[0019] 一种基于离散弱相关的云平台决策森林分类方法(图1),该方法包括如下步骤:
[0020] 步骤S1,生成使云平台决策森林最优的描述文件,所述描述文件包括决策树的最 优总数及每棵决策树的新数据集dataset;
[0021] 决策树的最优总数是通过以下方法获得的:用Hadoop云平台的Data_Node节点个 数乘以各节点统一设定的Reduce任务数,用所求得的积开方的2倍除以m得到决策森林中 决策树的最优总数,促使各个Reduce任务经归约后,能够单独计算一个属性的熵;其中m即 随机森林算法中超参数的取值,一般取m为[Iog2O) +1」,其中P是实验数据集中属性的维 数。
[0022] 新数据集dataset是通过以下方法获得的:通过bootstrap抽样方法为云平台中 的每棵决策树抽取训练样本,获得每棵决策树的新数据集dataset。
[0023] 将得到的决策森林中树的最优总数及dataset加入到云平台决策森林描述文件 中。并将这些决策树的描述文件分别进行Map映射操作,将其被分配到不同的节点上。
[0024] 步骤S2,确定每棵决策树弱相关化随机抽样属性元组;
[0025] 步骤S21为步骤Sl所得每棵决策树随机抽取2m个属性,并使用Map函数通过 TF-IDF逆文档频率计算离散属性相关程度,通过协方差矩阵计算连续属性相关程度,其中 m取Llog2(P) +1」,其中p是实验数据集中属性的维数;
[0026] 离散属性相关性计算:1利用倒排索引的思想统计出各离散值在两组属性中的出 现情况;2.设定变根据步骤1中统计的结果,若两组属性中均包含某一离散属性, 则对变量i_tag进行累加;3.将累加后的变量i_tag乘以权值,得到两组离散属性的相关 程度值(权值为实验数据集总属性数除以总离散属性数商的对数值)。此过程为TF-IDF思 想的变换
[0027] 连续属性相关性计算:1.分别计算两组连续属性的均值;2.将两组属性的均值代 入协方差公式进行计算,并将计算结果取绝对值。计算值越大,则说明两种属性的相关性越 强。若计算值为〇,则说明两种属性相互独立。
[0028]Map函数计算
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1