一种提高决策树建模准确率的方法

文档序号:6441743阅读:2286来源:国知局
专利名称:一种提高决策树建模准确率的方法
技术领域
本发明属于生物技术领域,适用于提高决策树建模准确率的方法。
背景技术
数据分类被描述为一个两步的过程。首先的一步是建立一个模型,来描述已有的数据集。数据集中的每个元组都有一个类标记,用来标记元组的类别。其次的一步就是使用已经构造好的模型进行分类。首先要评估分类方法的准确性,如果准确性可以接受,那么下一步就是用它对类标号未知的数据元组进行分离。在分类的过程中,我们可能需要注意一些问题。首先是需要根据数据的特点而对数据做预处理,比如做数据清理,进行特征选择等等。其次就是对分类方法的评估,需要选择合适的方法来评价方法的好坏,评价方法的选择对最终的结果很有影响。决策树模型(Decision Tree)是数据建模时常用的一种方法,基本思想是选取一个最能区分不同类别样本的属性,让其最为树根,并把样本集分为相应的几块,接下来再依次在每一块样本集中选出区分度最大的属性,作为数的第二层节点,以此类推,直到所有的叶节点都只包括一类样本时终止。这样构建起来的一棵树就叫决策树。它是一种直观的知识表示方法,同时也是高效的分类器。决策树着眼于从一组无序无规则的事例之中推理出树形式的分类规则,它采用自顶向下的递归方式,在每个内部结点进行属性值的比较并判断该结点以下的分支,在叶子结点得到分类的结论。树上的每一个节点说明了对实例的某个属性的测试,并且该节点的每一个后续分支对应于该属性的一个可能值。对决策树的评价一般采用分类准确率衡量其有效性,使用建树时间和树结点数来衡量决策树的复杂程度。决策树中最重要的就是对大区分度属性的选择方法,通常认为有最高信息增益的属性是给定数据集中既有最高区分度的属性。通过计算信息增益,可以得到属性的顺序。定义信息增益如下
权利要求
1.本发明所述的一种提高决策树建模准确率的方法,其主要特征如下步骤1、对所有数据进行方差分析,获得P值步骤2、按P值有大到小排序,逐个地加入到模型中。步骤3、计算模型交叉证实的准确度,并确定并确定合适的数据量。步骤4、建立决策树。步骤5、计算该决策树4倍交叉的正确率。步骤6、将模型进行随机预测,并且与随机猜测的结果做比较。
全文摘要
本发明为了提高决策树建树模型的准确性,设计了一种新方法,该方法主要的分析步骤为步骤1、对所有数据进行方差分析,获得p值;步骤2、按P值有大到小排序,逐个地加入到模型中;步骤3、计算模型交叉证实的准确度,并确定并确定合适的数据量;步骤4、建立决策树;步骤5、计算该决策树4倍交叉的正确率;步骤6、将模型进行随机预测,并且与随机猜测的结果做比较。通过以上方法建立决策树模型,能明显提高模型的准确率。
文档编号G06F17/30GK102270209SQ20101021404
公开日2011年12月7日 申请日期2010年6月29日 优先权日2010年6月29日
发明者曾华宗 申请人:上海聚类生物科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1