多标准误分类代价敏感决策树构建方法与流程

文档序号:11063707阅读:来源:国知局

技术特征:

1.多标准误分类代价敏感决策树构建方法,该方法涉及人工智能、数据挖掘和

机器学习领域,其特征是,包括如下步骤:

步骤1:设训练集中有X个样本,属性个数为n,即,同时分裂属性对应了m个类L,其中,,,设误分类代价矩阵为C,C由用户指定;

类别标识个数为m,则该数据的代价矩阵方阵是:

其中表示第类数据分为第i类的代价,如果为正确分类,则,否则为错误分类,其值由相关用户给定,这里

步骤2:创建根节点G;

步骤3:如果训练数据集为空,则返回节点G并标记失败;

步骤4:如果训练数据集中所有记录都属于同一类别,则以该类型标记节点G;

步骤5:如果候选属性为空,则返回G为叶子节点,标记为训练数据集中最普通的类;

步骤6:根据代价敏感的候选属性选择因子ASF候选属性中选择splitS;

候选属性选择因子ASF:

averagegain(S)为选择属性S的平均信息增益,reduce_mc(S)为选择属性S作为分裂属性时的误分类代价减少率;

当选择属性splitS满足目标函数ASF(S)最小时,则找到标记节点G,如果一些属性具有相同的ASF值,为了打破平局的标准,再按照更大的reduce_mc(S)值来优先选择候选属性,这样构建的决策树优先遵从误分类代价最低的原则;

步骤7:标记节点G为属性splitS;

步骤8:由根据基尼指数值延伸出满足条件为分支,

分支基尼指数

设训练数据集X,其类有m个,那么其gini指标为:

其中为分裂属性属于类的相对频率,当,即在此结点处所有样例都属于同一类,表示能得到最大有用信息;当此结点所有样例对于类别字段来讲均匀分布时,最大,表示能得到最小的有用信息;

8.1这里假设为训练数据集中的样本集合,满足以下两条件之一,则终止建树;

(1)如果为空,加上一个叶子节点,标记为训练数据集中最普通的类;

(2)在一节点中所有例子属于相同类;

步骤9:非8.1中情况,则递归调用步骤6至步骤8;

步骤10:为避免决策树中存在过渡拟合问题,利用后剪支技术对决策树进行剪支操作。

2.根据权利要求1所述的多标准误分类代价敏感决策树构建方法,其特征是,所述步骤6中计算候选属性选择因子ASF,需要求出候选属性S的平均信息增益averageGain(S)、误分类代价减损率reduce_mc(S),其具体求解过程如下:

步骤6.1,X的基尼指数gini(X)

其中m为训练集X的类个数,为训练集X对应类的概率;

步骤6.2. 候选属性S的信息增益Gain(S)

根据基尼指数gini(X)定义,属性S的信息增益为:

其中gini(S,X)表示当属性S作为分裂属性分裂后在所有类中剩余的基尼指数,即:

这里属性S有j个属性值,则第j个属性值样本数为,即 ;

为属性值对应的类概率;

即候选属性S的信息增益:

步骤6.3,候选属性S的平均信息增益averageGain(S)

根据Gain(S),可得平均候选属性S的信息增益averageGain(S)

其中j为属性S的属性值个数,即分支节点个数;

averageGain(S)作用:有更好的分类精度;

步骤6.4 误分类代价减损率reduce_mc(S)

mc是在候选属性S分裂前的误分类代价,这里S有j个分支,则表示候选属性S分裂之后总的误分类代价;

reduce_mc(S)作用:把误分类代价不同单位机制量化为同一单位,降低了误分类代价单位异质性对分裂属性选择的影响;

步骤6.5分裂属性选择因子

作用:对属性信息增益进行优化处理,避免因属性信息增益过小而忽略了属性信息的风险;

ASF(S)能够很好的平衡由于误分类代价以及平均信息增益之间存在的异构难题,把属性分类能力与误分类代价共同融合进行候选属性选择,可以更好提高分类精度和降低误分类代价。

3.根据权利要求1所述的多标准误分类代价敏感决策树构建方法,其特征是,

所述步骤10中设定后剪支条件,其具体设定过程如下:

其剪支条件为:

为用户指定的值,剪枝的条件首先要满足尽可能使代价减损达到用户指定条件。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1