一种基于属性间相关系数的数据分类方法

文档序号:8445634阅读:207来源:国知局
一种基于属性间相关系数的数据分类方法
【技术领域】
[0001] 本发明属于数据挖掘领域,涉及数据分类,具体地说是一种基于属性间相关系数 的数据分类方法。
【背景技术】
[0002] 数据挖掘就是从数据库中挖掘出数据间潜在的模式,再根据这些模式找出相应的 规律。数据挖掘技术通过使用计算机来对数据库中大量数据进行快速、有效的分析和处理, 从中提取有用信息,并以一种形式化、可以理解的方式表达,以便决策。数据挖掘对商务决 策、知识库、科学和医学的研宄等都具有重要的应用价值和十分广阔的应用前景。
[0003] 目前对数据挖掘的研宄主要集中在关联规则挖掘、聚类、分类、序列模式发现、异 常和趋势发现等方面,其中由于分类挖掘在商业等领域中的广泛应用,使它成为数据挖掘 中最活跃的研宄方向。分类的目的是提出一个分类函数或分类模型(分类器),该模型能把 数据库中的数据映射到给定类别中的某一个。
[0004] 由于分类技术能够对各个行业提供良好的决策支持,在不同的行业有着多种不同 领域方法的分类算法,例如决策树方法、神经网络方法、贝叶斯方法、粗略集方法等。在这些 算法中,决策树方法最容易理解,应用领域也特别广泛。决策树学习是一种逼近离散值目标 函数的方法,将从一组训练数据中学习到的函数表示为一棵决策树,它是一种常用于预测 模型的算法,通过将大量数据有目的的分类,从中找到一些具有价值的、潜在的信息。决策 树虽然生成模式简单,但也存在如下问题:1)个别训练样例的错误,可能导致决策树的精确 性较差;2)属性间的相互关系强调不够,容易导致决策树中子树的重复或有些属性在决策 树的某一路径上被多次检验。

【发明内容】

[0005] 本发明的目的在于克服上述已有技术的缺点,提出了一种基于属性间相关系数的 数据分类方法,以降低了个别训练样例错误的敏感性;相关系数的引入,避免了属性在路径 上出现多次检验的现象。
[0006] 本发明步骤:首先,输入样本集和待分类数据集,并计算训练样本集所有属性的信 息增益值GbM;其次,依据从大到小排序将最大信息增益值的属性选为决策树中根 节点冢的测试属性;然后,计算根节点属性(上层节点属性)与剩余属性集之间相关系数 的绝对值再根据夂值和不同属性的属性值进行每一层节点的建立过程,并更新剩余属 性集i?;最后,直到所有属性遍历为止,生成决策树,依据决策树将待分类数据进行分类,其 具体步骤包括如下: 步骤一、输入样本集和待分类数据集,计算训练样本集所有属性的信息增益值; 步骤二、对信息增益值依据从大到小排序,选取最大信息增益值Gb?的属性作为 决策树中根节点的测试属性; 步骤三、计算根节点属性(上一层节点属性)与剩余属性集之间相关系数的绝对值; 步骤四、根据值和不同属性的属性值进行每一层节点的建立过程,并更新剩余属性 集及; 步骤五、若剩余属性集及不为空集,即所有属性未遍历完,继续步骤三和四,直到所有 属性遍历完,生成决策树; 步骤六、依据决策树将待分类数据集进行分类。
[0007] 本发明具有如下优点: 1、 本发明在建立决策树过程中每一步都使用当前的所有训练样例,降低了个别训练样 本错误的敏感性,提高了分类的准确性; 2、 本发明通过计算属性间的相关系数,强调了属性之间的相关关系,解决了某些属性 在决策树的某一路径上被多次检验的问题。
【附图说明】
[0008] 图1是本发明流程图; 图2是本发明中决策树子节点建立过程的流程图; 图3是本发明一实施例(某企业客户购买力)决策树建立示意图。
【具体实施方式】
[0009] 为了更清楚地说明本发明,根据对某公司客户信息样本数据这一实施例来进行具 体描述,其中属性包括销售频率(对应的属性值有210、<10 ),年生产总值(对应的属性值 有乏1000、< 1000 ),信誉程度(对应的属性值有不好、好),客户性质(对应的属性值有私营、 国营、民营),产品行业(对应的属性值有工业和农业),所属省市(对应的属性值有湖南、江 西、上海),将使用本方法根据已分类的信息样本数据建立决策树,根据决策树,可实现输入 客户信息输出客户购买力的类别(对应的类别有高、一般、低)。
[0010] 结合附图和实施例,本发明的具体步骤如下: 步骤一、输入样本集和待分类数据集,计算训练样本数据的所有属性依据信息增益值 ,具体步骤如下: 1) 已知待分类数据集£),训练样本集公具有属性集儿可分为w个不同类 Gp= 1,2,...,;),即S= ,SsJ,其中勾表示类Cfi中的样本数;属性集2具有界种属性, 即3 = {4,4,...,4}且每种属性40 =〗,2,...3)具有4个不同属性值1[%,%2,...,%.」,则属 性值将样本集j划分,其样本数集合为,其中表示在属性^下属性值为 的样本数;参考图3所示,在本例中,,《=6,属性集』={销售频率,年生产总值,信 誉程度,客户性质,产品行业,所属省市},类表示客户购买力高,类Q表示客户购买力一 般,类C3表示客户购买力低; 2) 求样本分类所需的期望信息,即总的信息熵值为/(?,S2^s1J=-21巧Iog2 (巧),其 中Pi=Si/(S1+? +... +SM),IAS战;
【主权项】
1. 一种基于属性间相关系数的数据分类方法,其特征在于,在数据分 类过程中,先输入样本集和待分类数据集,计算样本所有属性的信息增益值 并排序,然后根据所有属性的信息增益值确定决策树根节点的属性,其次根据 属性间相关系数的绝对值众和不同属性的属性值,确定余下结点的属性,最后直到所有属 性遍历完,生成决策树,再依据决策树将待分类数据集进行分类,所述方法至少包括以下步 骤: 步骤一、输入样本集和待分类数据集,计算训练样本集所有属性的信息增益值; 步骤二、对信息增益值?依据从大到小排序,选取最大信息增益值(??的属性作为 决策树中根节点JF的测试属性; 步骤三、计算根节点属性(上一层节点属性)与剩余属性集之间相关系数的绝对值f ; 步骤四、根据#值和不同属性的属性值进行每一层节点的建立过程,并更新剩余属性 集M ; 步骤五、若剩余属性集5不为空集,即所有属性未遍历完,继续步骤三和四,直到所有 属性遍历完,生成决策树; 步骤六、依据决策树将待分类数据集进行分类。
2. 根据权利要求1所述的一种基于属性间相关系数的决策树数据分类方法,其特征在 于根节点F的测试属性选取过程,至少还包括以下步骤: 1) 已知待分类数据集I),训练样本集公具有属性集J,可分为μ个不同类 Ci p = ,即SffJ,其中巧表示类中的样本数;属性集2具有》种属性, 即j = {4,為,...,4}且每种属性(先具有4个不同属性值·,则属 性值将样本集S划分,其样本数集合为(?, %SfoJ,其中s%表示在属性4下属性值为 的样本数; 2) 求样本分类所需的期望信息,即总的信息熵值为/(?...4;) = _Σ灼loS2 ,其 中Pi = ^/(?+?+...+sJ,1幻 ; 3) 计算样本各属性的平均信息期望
,zis聊'sm'…,= - Σog2 (pmh 其中 = sm/isw)+sm + 表示在属性4下属性值为%的类Ci的样本数,s为训练样本总数,lASm, 1 幻 Svfc ; 4) 求样本各属性的信息增益值GbwU),即外W..,?)-邱為,); 5) 根据信息增益值Gb?(為.)将属性集』= 〖4,4^4)从大到小排序,并将最 大信息增益值所对应的属性选为决策树中根节点ir的测试属性,即该节点有 Gaira(JF) = max(Gfai?(為),...,〇
3. 根据权利要求1所述的一种基于属性间相关系数的决策树数据分类方法,其特征在 于根节点属性(上一层节点属性)与剩余属性集之间相关系数的绝对值夂的计算,至少还包 括以下步骤: 1) 计算各属性的方差和根节点属性(上一层节点属性)与剩余属性集之 间的协方差,即方差/)(4) = 5(4-5(4))2, £)(為)=5(為-5(4)f,协方差 Cov'd為)=£(』4為)-·?(4〇五(為),其中?且; 2) 计算根节点属性(上一层节点属性)与剩余属性集之间相关系数的绝对值P%即
其中 CUp1 <1。
4. 根据权利要求1所述的一种基于属性间相关系数的决策树数据分类方法,其特征在 于根据P1值和不同属性的属性值进行每一层节点的建立过程,至少还包括以下步骤: ο初始化剩余属性集及,即,其中辠表示根节点的属性; 2) 将p'从大到小进行排序,即#=^1,/^...4:11,再选取前%个彳,并把其对应的 属性作为根节点的子节点的测试属性,并更新剩余属性集Λ,即i?=l·[岑; 3) 依据属性4斤=:1,2,...,4具有4个不同属性值{%,^^...,%^,可将样本集3 划分为,计算根节点属性Jff.(上一层节点属性)下不同属性值的信息量 ',...,= -Σ夕w(Pm),其中Pm = 5雨/(%1+5[? + ...+5附,),I。; 4) 求根节点属性4r (上一层节点属性)在不同属性值~下,子节点 属性的平均信息期望5(為),即
'勝XS)),其中巧(哪)=si(呵ft/(sp,)+s2(m册 + …^ 表示除根节点属性外的剩余属性,属性為T是属性為的父节点属性,表示属性Jfff 中属性值为%下,其子节点属性4中属性值为%并属于类Cfi的样本数,, l<x<vk, i<j<vt . 5) 求根节点属性為^ (上一层节点属性)在不同属性值下子节点属性 f目息增?值,即(為)4 bin,sIf^a,j (為),并分别将根节点属性值 α...,i3WV下的(為)从大到小排序,选取(為M直大的作为根节点属性(上一层 节点属性)不同属性值对应的子节点测试属性,完成根节点(上一层节点)的子节点的建立 过程; 6) 计算当前剩余属性集与上一层属性相关系数的绝对值P',比较同一剩余属性与上 一层属性的众值,选取大的作为上一层属性结点的子节点的测试属性,并更新剩余属性集 R ' 7) 依据根节点(上一层节点)的子节点的建立过程中的步骤2)、3)、4)、5)以及步骤6), 来完成余下每层子节点的建立过程。
【专利摘要】本发明提出了一种基于属性间相关系数的数据分类方法。本发明步骤:首先,输入样本集和待分类数据集,并计算训练样本集所有属性的信息增益值;其次,依据从大到小排序将最大信息增益值的属性选为决策树中根节点的测试属性;然后,计算根节点属性(上一层节点属性)与剩余属性集之间相关系数的绝对值;再根据值和不同属性的属性值进行每一层节点的建立过程,并更新剩余属性集;最后,直到所有属性遍历为止,生成决策树,依据决策树将待分类数据进行分类。本发明大大改善了传统决策树的效能,提高了决策树的分类准确性。
【IPC分类】G06F17-30
【公开号】CN104765839
【申请号】CN201510180290
【发明人】裴廷睿, 赵津锋, 郭勋, 朱更明, 李哲涛, 田淑娟
【申请人】湘潭大学
【公开日】2015年7月8日
【申请日】2015年4月16日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1