一种基于循环更新模式的决策树构建方法

文档序号:8543519阅读:415来源:国知局
一种基于循环更新模式的决策树构建方法
【技术领域】
[0001] 本发明设及一种基于循环更新模式的决策树构建方法。
【背景技术】
[0002] 用于构建决策树的计算方法的数量和种类很多,该些算法大多着眼于决策树端点 数和决策树高度等决策树复杂度进行构建,其种类大致可分为动态规划,增量算法,贪婪算 法等。根据S.Hussain,"Totalpathlengthandnumberofterminalnodesfordecision trees" ,ProcediaComput.Sci. ,vol. 35,pp. 514-521, 2014.的研究,对于一般的决策表,通 常无法构建具有所有复杂度最小化的决策树。该种无法最小化所有复杂度的情况属于多目 标最优化理论的范畴,但与多目标最优化中可行空间可被显式探索不同,决策树复杂度的 可行空间通过决策树与子决策树间的关系进行探索。由于决策树复杂度可行空间的隐式探 索方式,决策树算法一般只对决策表进行一次性分析。该种构建决策表的模式,既脱离现 实应用的实际需要,又常常无法得到具有复杂度理论上最优化的决策树。虽然在数据挖掘 中,存在根据决策树应用情况修改决策表的算法,例如D.M.Farid,L.Zhang,C.M.Rahman,M. A.Hossain,R.Strachan,"Hybriddecisiontreeandnai.v'eBayesclassifiersfor multi-classclassificationtasks",ExpertSyst.withApplicat. ,vol. 41,no. 4,pp. 19 37-1946,Mar. 2014.,但建立在一次性删减决策表内部信息的基础上。该种修改决策表的方 式,既不能保证决策表的信息完整,又无法根据实际应用做进一步的决策树优化。因此,为 更符合实际应用需求,提升应用决策树系统的自动决策效率,生成决策树的过程应考虑应 用需求,从而保证良好的决策效率。

【发明内容】

[0003] 本发明要解决的技术问题是;为了提升应用决策树系统的自动决策效率,生成决 策树的过程紧密结合应用需求,从而保证良好的决策效率,本发明提供一种基于循环更新 模式的决策树构建方法。
[0004] 为使陈述清楚明了,现集中定义本发明所设及的部分符号和概念。
[0005] {? :U表示一集合,且其中的任一元素均不与集合中的其他元素重复。
[0006] { ? }表示一任意集合。
[0007]I{ ? }U表示集合{ ? }中含有不同元素的种类数。
[000引I{ ? }I表示集合{ ? }中元素的数量。
[0009]Z+表示不包括零的正整数集合。
[0010] 护表示不包括零的正实数集合。
[00川 RD表示nGZ+的n维实向量空间。
[001引"max{元素I条件}"或"max^t元素"表示满足条件的最大元素。
[001引 "min{元素I条件}"或"min^A元素"表示满足条件的最小元素。
[0014] T。表示对本发明方案给定的初始决策表。
[0015] T表示对本发明方案中每次输入程序的决策表。
[001引T嗦示任意非空的决策表,W下对T'的相关定义与描述均适用于T。和T。
[0017]E(T')表示T'中的条件属性集合,且满足E(T')=巧(T<)}*。
[001引C(T')表示T'中的条件值集合的集合。
[0019]D(T')表示T'中的决策值集合。决策值即"决策属性值(valuesofdecision attributes)",又称"决策特征值",或"决策属性值",本申请中简称为"决策值"。
[0020] …,f|E(T')|EE(T')表示T'的共 |E(T')I个条件属性。
[0021 ] {〇", 0 口,{。21,。22, ???, {。|"了')|1, 0|"了')|2, ??' ,C|"ni.iE<n|}eCCT)表示T'的共ICCr)I个条件值集合,对于CCT)中任意条件值集 合,其元素均为条件值且属于r。
[002引 ^1,过2,…,d|D(r)LeD(T')表示T<的共|D(T<)U个决策值。
[0023]T'是具有如下结构的二维表;
[0024]
【主权项】
1. 一种基于循环更新模式的决策树构建方法,其特征在于:包括以下步骤: 步骤1 :根据给定的初始决策表计算基于决策树时空复杂度的目标函数帕累托最优 值; 步骤2 :根据步骤1计算所得目标函数帕累托最优值,结合贝叶斯理论,计算决策表中 每行的贝叶斯概率,根据计算所得的贝叶斯概率修改初始决策表; 步骤3 :根据所修改的决策表构建初始决策树;在应用初始决策树的信息系统中,在满 足决策树应用数据可回收并能计算决策表每行决策频率的前提下,根据决策频率修改决策 表,根据所修改的决策表构建新决策树; 步骤4 :在信息系统中应用新决策树,再回收并分析新决策树的应用数据,如此反复直 至当前决策变化率小于给定的决策变化率阀值时终止,从而循环更新决策树。
2. 如权利要求1所述的基于循环更新模式的决策树构建方法,其特征在于:步骤1中 帕累托最优值的定义如下:
其中E ,用图表不任意非空的决策表T '及其与子表,以及子表与子表之间的 关系时,图的节点代表子表T '(V) = Iwv,从包含属性Ae E (Τ' ν)的节点Iwν出发,指 向节点 T' Jf^akhakeCCT ',f\),kez+,k=l,…,⑷汀,ν,Α)| 的边用(Lak)标 识;图中的边是有向的,且连接了一个表及其子表,图是有向非循环图(directed acyclic 区四口11,046),对于节点1''^£〇46,|〇(1'')|#其存在以下两种情况: 当|D(T' V)U=1,对于任意Iwv中的行rjeC(T' v),r」与所有行共享一个公共的 决策值,此时,T',是DAG的叶子节点,且:Fg(1.) = 〇; 当|D(T' v) U> 1,qe CCT v)根据其对应的决策值分类,从节点v开始, 对于任意E(T ' v),_
>,则存在被况,aj,况,
标识的数量为|C(T' ν,Α)|的边分别指向节点T' v(fi,ai),
,对于每个Iwv况,ak),都存在对应的龙; 对于fie E(T' v),由:其中组成的所有可能组合构成了如下定义的有序 集合,
其中V = [1…1]τ,*表示内积,且vk, *v < vk, +1*v其中k ' = i,i+Ι,…, i+|c(r v) 1-1,令kmax彡 |c(r v,I,\定义如下:
对于T' v(fi,ak),可求得Fr1^,(Zfc)的值;对于* V e ,基于决策树的时空 复杂度且关于属性fie E(Τ' ν)的目标函数:F0定义如下:
其中V (k)表示向量V中第k个元素;根据:FpOfc),关于Ε(Τ' ν)的,用于描述子 表T' 3寸空复杂度的目标函数帕累托最优值JVjOi7vriO的定义如下:
如果T' #图的叶子节点,则FyUsO且帕累托最优点为如果Τ' ν 不是叶子节点,则对于每个E(Τ' ν)计算:并选计算所得的最小值作为 的值,此时帕累托最优点为
,其中9??是用于找到生 成^^的外* V e ^^心的函数;对于决策树的时空复杂度的多目标最优化,目标空间 是基于函数沢;i和值的二维空间。
3.如权利要求2所述的基于循环更新模式的决策树构建方法,其特征在于:步骤2中,
k6e Z+,则对于rj的贝叶斯概率P(r p定义如下:
计算所得贝叶斯概率用于修改初始决策表,若当前决策表非初始决策表,则根据决策 表T '的应用数据,即应用决策表T '及其决策树进行自动决策的信息系统,在运行过程中 积累的,与决策过程相关的,且用于统计分析的计算机数据,计算决策表T '中每行的决策频 率,即由决策表T '的应用数据记录的信息系统使用过程中,符合r#全部条件值的自动决 策次数,与符合决策表T '任意行的自动决策总次数的比值。
4.如权利要求3所述的基于循环更新模式的决策树构建方法,其特征在于:步骤3和 步骤4 :若T1表示第一次根据初始决策表T ^和贝叶斯概率生成的决策表,T 2表示第二次根 据决策表T1的应用数据计算的决策频率修改T i获得的决策表,…,T t+1表示第t+Ι次根据 决策表Tt的应用数据计算的决策频率修改Tt获得的决策表,且r/+1 e C(Tt+1)表示第t+1 次生成的决策表Tt+1中的第j行,t e Z + U {0},则修改决策表T t的定义如下: 于第t+Ι次生成的Tt+1,则Tt+1的决策树仏+1由基于
"决策树选择标准",即S的算法A5生 成,^rt+1二,"决策树选择标准的定义如下:
对于任意
,Ws根据/^+ι(ν)计算<r/ +1)的值,并根据 Tt+1(v)计算I -fi2(;r/+1;)的值,最终计算s,选择3:(;rt+1(v);)中具有 6最小值的决策树 为^Tt+1〇),这个过程一直反复,直到Frt+1被构建为止; 循环更新模式的终止条件在步骤2内进行检查,要终止该模式,需要设置两个常 数:决策频率阀值鈐,Os 4幺1,且谷E R+,和决策变化率阀值亡Λ,O仝夂幺1,且 夂e R+;鈐和4仅在步骤2内固定,步骤2外这两个阀值根据需要在0到1之间调整; 整个模式终止与否取决于当前决策变化率#t+i,也称第t+Ι次决策变化率,#t+i用 于计算在t+i次修改决策表且t > 〇时,决策频率超过的行数占总行数的比例;t = 〇, ft+l无需计算,Ct+l定义如下:
循环更新模式的终止条件为:^t+i <亡λ,该条件满足时,说明当前决策树根据所给 参数A和句\,已没有必要再做更新。
【专利摘要】本发明涉及一种基于循环更新模式的决策树构建方法,对于给定决策表,使用基于其决策树时空复杂度的目标函数帕累托最优值与贝叶斯理论计算贝叶斯概率,根据贝叶斯概率修改给定决策表,使用基于决策树选择标准的计算方法构建所修改决策表的决策树,将决策树应用于信息系统进行自动决策并自动记录决策过程。在系统运行一段时间后,根据所记录决策过程的数据,计算对应决策表每行的自动决策次数与决策表所有行的总决策次数之比,根据该比例修改决策表,使用基于决策树选择标准的计算方法构建所修改决策表的新决策树,再次将新决策树应用于信息系统,如此反复,直至所计算的每行比例小于决策变化率阀值。应用本发明方案的信息系统具有高效的自动决策功能。
【IPC分类】G06F9-44
【公开号】CN104866314
【申请号】CN201510277941
【发明人】贾靓
【申请人】常州大学
【公开日】2015年8月26日
【申请日】2015年5月27日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1