标准化多维代价敏感决策树的集成分类器构建方法与流程

文档序号：11063711阅读：来源：国知局

技术特征：

1.标准化多维代价敏感决策树的集成分类器构建方法，本发明涉及机器学习、人工智能以及数据挖掘领域，具体涉及一种标准化多维代价敏感决策树的集成分类器构建方法，其特征是，包括如下步骤：

步骤一：设原始训练集中有D个样本，原始训练集属性特征个数为n，F为分类器个数，T为测试数据集

步骤二：根据装袋法从D中随机出训练子集，从属性特征个数n中提取出属性特征子集个数

步骤三：由子集利用目标函数作为属性选择因子来构建基分类器，即构建一个标准化多维代价敏感决策树

步骤四：重复步骤2和步骤3，建立一个集成分类器

步骤五：测试集中数据,通过集成分类器中每棵决策树和运行记录的预测值，根据投票预测结果，得票最多的预测类作为此测试数据的最终类标号。

2.根据权利要求1中所述的标准化多维代价敏感决策树的集成分类器构建方法，其特征是，所述步骤一的具体表述过程如下：

步骤一：设原始训练集中有D个样本，原始训练集属性特征个数为n，F为基分类器个数，T为测试数据集

F为基分类器个数，其具体设定公式为：

F=1/2lnD。

3.根据权利要求1中所述的标准化多维代价敏感决策树的集成分类器构建方法，其特征是，所述步骤二的具体计算过程如下：

步骤二：从D中随机出训练子集，从属性特征个数n中提取出属性特征子集个数，其具体原理如下：

第一，从D中随机出训练子集具体描述为：从原数据集D中有放回的随机抽样N个样本更换原来的N，有些样本被抽中一次以上，以及有些样本一次都不被选中，这种抽样法大约有2/3的样本个数将被选中

第二，从原始属性特征个数n中提取出属性特征子集个数具体方法为：先把原始属性特征根据信息量进行排列，设置一个划分点H,在属性范围为高再从中选出个属性特征作为基分类器的分裂属性

根据信息属性值对原始属性特征n进行排序，其具体计算式如下：

上式分别为属性所对应的信息属性值，代表第i个属性的第j类属性值，为第i个属性的所有属性值的均值

根据的值从大到小对原始属性特征n进行排序，对排序后的属性n用H进行划分，即临界属性的确定

临界属性的确定具体判定条件为：

。

4.根据权利要求1中所述的标准化多维代价敏感决策树的集成分类器构建方法，其特征是，步骤四的具体表述过程如下：

步骤四：重复步骤二和步骤三，建立一个集成分类器，当满足以下条件，即停止构建单个决策树

假设t为基分类器初始个数，即初始t=0,完成一次步骤二和步骤三，即实行t++操作，当满足t=F时，停止重复步骤二和步骤三的操作。

5.根据权利要求1中所述的标准化多维代价敏感决策树的集成分类器构建方法，其特征是，步骤五的具体计算过程如下：

步骤五：测试集中数据,通过集成分类器中每棵决策树和运行记录的预测值，根据投票预测结果，得票最多的预测类作为此测试数据的最终类标号

投票预测：

这里为测试集数据x对应的类标号，为各基分类器分别对测试集数据x预测的类标号

选取类标号个数的最大值作为测试集数据x对应的类标号

投票预测具体公式为：

根据此判断出的最大值即为此测试数据对应的类。

完整全部详细技术资料下载

当前第2页1 2 3