一种处理缺失数据的新型决策树分类器方法

文档序号:6422745阅读:238来源:国知局
专利名称:一种处理缺失数据的新型决策树分类器方法
技术领域
本发明属于数据挖掘与机器学习领域,涉及一种可以处理缺失数据的新型决策树分类器的方法。
背景技术
随着信息技术的高速发展,人们收集、存储和访问数据的数量越来越多,在这些大量的历史数据背后蕴藏着丰富的有效知识。如何去发现和分析这些数据之间所存在的关系和规则在目前是个十分重要的课题。数据挖掘(DM)技术在这种背景下应运而生了,它融合了数据库,人工智能,机器学习,统计学等多个领域的理论和知识。数据挖掘工具能够对未来趋势进行预测,可以很好的支持人们的决策。其中常用的方法有神经网络,遗传算法,决策树,规则推理,贝叶斯分类等等。其中决策树方法较容易被人们理解,输出的精度高,因此在数据挖掘领域应用较为广泛。但决策树方法也有其缺点,比如它很难基于多个变量组合 发现规则,不同的决策树分支之间的分裂也不平滑,传统决策树算法的计算复杂度较高等等。决策树方法是目前应用最广泛的归纳推理算法之一,是一种逼近离散值函数的方法,也可以把它看作是一个布尔函数。它是以实例为基础的归纳学习算法,通常用来形成分类器和预测模型,着眼于从一组无次序、无规则的事例中推理出决策树表示形成的分类规则。它采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分支,最后在决策树的叶结点得到结论。因此从根到叶结点的一条路径就对应着一条合取规则,而整棵决策树就对应着一组析取表达式规则。到目前为止决策树有很多实现算法。例如由Hunt等人提出的CLS,在1986年由Quinlan 提出的 ID3 和 1993 年提出的 C4. 5 算法,以及 CART, C5. 0, Fuzzy C4. 5,OCl,QUEST,和CAL5等。传统决策树算法的缺点包括(1)缺失数据的存在是导致分类器性能下降的一个重要原因,目前的分类器大多不能有效处理缺失数据的分类问题。(2)算法往往偏向于选择取值较多的属性,而在很多情况下属性较多的属性并不总是最优的属性。(3)在建树时,每个结点仅含一个特征,是一种单变元的算法,特征间的相关性不够紧。虽然在一棵树上连在一起,但联系还是松散的。(4)对燥声比较敏感,不容易除去燥声。也就是特征值取错或类别给错。(5)当训练集增加时,ID3决策树随之变化。在建树过程中,各特征的相互信息会随例子的增加而改变,决策树也随之变化,这对变化的数据集的学习是不适合的。(6)算法虽然理论清晰,但它的计算比较复杂,在学习和训练数据集的过程中机器内存占用率比较大,比较耗费资源,影响数据学习的时间和成本。

发明内容
为了克服以上缺陷,本发明要解决的技术问题是提出一种同时解决估算缺失数据的可能属性,以及递归地构造决策树的分枝,完成决策树的构造,精细了分类规则的处理缺失数据的新型决策树分类器的方法。本发明所采用的技术方案为一种处理缺失数据的新型决策树分类器方法,包括以下步骤a、将待处理的原始样本数据集进行初始化设置,且将所述数据集进行权重值初始化分配;b、选择一将所述数据集中的节点分裂为子节点的特征属性;C、将样本数据根据节点的特征属性分类到各子节点;d、通过计算出各子节点选择的特征量值将各子节点分裂出来;e、根据分裂出来的各子节点的样本属性确定叶子节点。根据本发明的另外一个实施例,一种处理缺失数据的新型决策树分类器方法进一步包括所述数据集包括缺失数据、非缺失数据。
根据本发明的另外一个实施例,一种处理缺失数据的新型决策树分类器方法进一步包括所述节点特征量值包括特征量的信息熵、特征量的信息增益率。根据本发明的另外一个实施例,一种处理缺失数据的新型决策树分类器方法进一步包括计算出特征量的信息增益率将子节点分裂出来时,子节点所选择的特征量就是最大信息增益率,则继续分裂节点为子节点;若子节点所选择的特征量不是最大信息增益率,则重新选择分裂为子节点的特征属性,直至子节点所选择的特征量为最大信息增益率。根据本发明的另外一个实施例,一种处理缺失数据的新型决策树分类器方法进一步包括在根据各子节点的样本属性确定叶子节点时,若每个子节点只含有同一类样本,则将此节点设置为叶子节点,结束此节点的分裂;若每个子节点不只含有同一类样本,则重新选择分裂为子节点的特征属性。本发明的有益效果是1、能够对缺失数据进行有效处理;2、可以生成可以理解的规则;3、计算量相对来说不是很大;4、可以处理连续和种类字段;5、可以清晰的显示哪些字段比较重要;6、用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;7、相对于传统的分类器算法在遇到缺失数据时将其舍弃的做法,本算法使得分类器在面对缺失数据的时候也可以按照其可能出现数据的概率对其进行分类。


图I是本发明的优选实施例的流程图;图中1、对原始数据进行初始化,2、为每个节点选择一个特征属性,3、将样本根据节点的特征属性分类到各子节点,4、计算各子节点选择的特征量的信息熵,5、计算出特征量的信息增益率将子节点分裂出来,6、根据各子节点的样本属性确定叶子节点,7、结束。
具体实施例方式现在结合附图和优选实施例对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。如图I所示,一种处理缺失数据的新型决策树分类器方法,包括以下步骤a、将待处理的原始样本数据集进行初始化设置1,且将所述数据集进行权重值初始化分配,其中,所述数据集包括缺失数据、非缺失数据。b、选择一将所述数据集中的节点分裂为子节点的特征属性2 ;C、将样本数据根据节点的特征属性分类到各子节点3 ;
d、通过计算出各子节点选择的特征量值将各子节点分裂出来,包括计算各子节点选择的特征量的信息熵4、信息增益率;e、根据分裂出来的各子节点的样本属性确定叶子节点6。计算出特征量的信息增益率将子节点分裂出来5时,子节点所选择的特征量就是最大信息增益率,则继续分裂节点为子节点;若子节点所选择的特征量不是最大信息增益率,则重新选择分裂为子节点的特征属性,直至子节点所选择的特征量为最大信息增益率。在根据各子节点的样本属性确定叶子节点6时,若每个子节点只含有同一类样本,则将此节点设置为叶子节点,结束此节点的分裂;若每个子节点不只含有同一类样本,则重新选择分裂为子节点的特征属性。本发明的基本思想是为缺失数据和非缺失数据样本分别分配一个权重,在分类过程中利用信息熵原理,选择信息增益率最大的属性作为分类属性,给予每个分类节点概率,递归地构造决策树的分枝,完成决策树的构造,使得分类器在面对缺失数据的时候也可以按照其可能出现数据的概率对其进行分类。如图I所示,该实施方式第一步开始于对原始数据进行初始化I。首先参照表I的数据格式来表示样本,每一个样本都拥有一个权值。权值初始值为I。权值代表每个样本的重要性,如果一个样本的权值为10,则代表在分类过程中此样本的重要性相当于10个权值为I的样本。
权利要求
1.一种处理缺失数据的新型决策树分类器方法,其特征在于包括以下步骤 a、将待处理的原始样本数据集进行初始化设置,且将所述数据集进行权重值初始化分配; b、选择一将所述数据集中的节点分裂为子节点的特征属性; C、将样本数据根据节点的特征属性分类到各子节点; d、通过计算出各子节点选择的特征量值将各子节点分裂出来; e、根据分裂出来的各子节点的样本属性确定叶子节点。
2.根据权利要求I所述的一种处理缺失数据的新型决策树分类器方法,其特征在于所述数据集包括缺失数据、非缺失数据。
3.根据权利要求I所述的一种处理缺失数据的新型决策树分类器方法,其特征在于所述特征量值包括特征量的信息熵、特征量的信息增益率。
4.根据权利要求3所述的一种处理缺失数据的新型决策树分类器方法,其特征在于计算出特征量的信息增益率将子节点分裂出来时,子节点所选择的特征量就是最大信息增益率,则继续分裂节点为子节点;若子节点所选择的特征量不是最大信息增益率,则重新选择分裂为子节点的特征属性,直至子节点所选择的特征量为最大信息增益率。
5.根据权利要求I所述的一种处理缺失数据的新型决策树分类器方法,其特征在于在根据各子节点的样本属性确定叶子节点时,若每个子节点只含有同一类样本,则将此节点设置为叶子节点,结束此节点的分裂;若每个子节点不只含有同一类样本,则重新选择分裂为子节点的特征属性。
全文摘要
本发明涉及一种处理缺失数据的新型决策树分类器方法,包括以下步骤将待处理的原始样本数据集进行初始化设置,且将所述数据集进行权重值初始化分配;选择一将所述数据集中的节点分裂为子节点的特征属性;将样本数据根据节点的特征属性分类到各子节点;通过计算出各子节点选择的特征量值将各子节点分裂出来;根据分裂出来的各子节点的样本属性确定叶子节点;本发明能够对缺失数据进行有效处理;可以生成可以理解的规则;计算量相对来说不是很大;可以处理连续和种类字段;可以清晰的显示哪些字段比较重要;用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足。
文档编号G06F17/30GK102750286SQ20111010023
公开日2012年10月24日 申请日期2011年4月21日 优先权日2011年4月21日
发明者吴军 申请人:常州蓝城信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1