标准化多维代价敏感决策树的集成分类器构建方法与流程

文档序号:11063711阅读:来源:国知局

技术特征:

1.标准化多维代价敏感决策树的集成分类器构建方法,本发明涉及机器学习、人工智能以及数据挖掘领域,具体涉及一种标准化多维代价敏感决策树的集成分类器构建方法,其特征是,包括如下步骤:

步骤一:设原始训练集中有D个样本,原始训练集属性特征个数为n,F为分类器个数,T为测试数据集

步骤二:根据装袋法从D中随机出训练子集,从属性特征个数n中提取出属性特征子集个数

步骤三:由子集利用目标函数作为属性选择因子来构建基分类器,即构建一个标准化多维代价敏感决策树

步骤四:重复步骤2和步骤3,建立一个集成分类器

步骤五:测试集中数据,通过集成分类器中每棵决策树和运行记录的预测值,根据投票预测结果,得票最多的预测类作为此测试数据的最终类标号。

2.根据权利要求1中所述的标准化多维代价敏感决策树的集成分类器构建方法,其特征是,所述步骤一的具体表述过程如下:

步骤一:设原始训练集中有D个样本,原始训练集属性特征个数为n,F为基分类器个数,T为测试数据集

F为基分类器个数,其具体设定公式为:

F=1/2lnD。

3.根据权利要求1中所述的标准化多维代价敏感决策树的集成分类器构建方法,其特征是,所述步骤二的具体计算过程如下:

步骤二:从D中随机出训练子集,从属性特征个数n中提取出属性特征子集个数,其具体原理如下:

第一,从D中随机出训练子集具体描述为:从原数据集D中有放回的随机抽样N个样本更换原来的N,有些样本被抽中一次以上,以及有些样本一次都不被选中,这种抽样法大约有2/3的样本个数将被选中

第二,从原始属性特征个数n中提取出属性特征子集个数具体方法为:先把原始属性特征根据信息量进行排列,设置一个划分点H,在属性范围为高再从中选出个属性特征作为基分类器的分裂属性

根据信息属性值对原始属性特征n进行排序,其具体计算式如下:

上式分别为属性所对应的信息属性值,代表第i个属性的第j类属性值,为第i个属性的所有属性值的均值

根据的值从大到小对原始属性特征n进行排序,对排序后的属性n用H进行划分,即临界属性的确定

临界属性的确定具体判定条件为:

4.根据权利要求1中所述的标准化多维代价敏感决策树的集成分类器构建方法,其特征是,步骤四的具体表述过程如下:

步骤四:重复步骤二和步骤三,建立一个集成分类器,当满足以下条件,即停止构建单个决策树

假设t为基分类器初始个数,即初始t=0,完成一次步骤二和步骤三,即实行t++操作,当满足t=F时,停止重复步骤二和步骤三的操作。

5.根据权利要求1中所述的标准化多维代价敏感决策树的集成分类器构建方法,其特征是,步骤五的具体计算过程如下:

步骤五:测试集中数据,通过集成分类器中每棵决策树和运行记录的预测值,根据投票预测结果,得票最多的预测类作为此测试数据的最终类标号

投票预测:

这里为测试集数据x对应的类标号,为各基分类器分别对测试集数据x预测的类标号

选取类标号个数的最大值作为测试集数据x对应的类标号

投票预测具体公式为:

根据此判断出的最大值即为此测试数据对应的类。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1