一种基于随机森林加权距离的大规模高维数据分类方法

文档序号:9200693阅读:1194来源:国知局
一种基于随机森林加权距离的大规模高维数据分类方法
【技术领域】
[0001] 本发明涉及计算机模式识别及机器学习技术领域,具体涉及一种基于随机森林加 权距离的大规模高维数据分类方法。
【背景技术】
[0002] 分类问题是数据挖掘、机器学习和模式识别中一个重要的研宄内容。分类算法通 过对已知类别训练集的分析,从中发现分类规则,以此预测新数据的类别。
[0003] 随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的 类别的众数而定。随机森林算法可以在决定类别时,评估维度的重要性。k近邻算法是一种 基于实例的惰性分类学习算法,将局部近似和将所有计算推迟到分类时。k近邻算法中被分 配的对象被列为了其k个邻域对象中最多的一个类别。该分类方法适用于各种大规模高维 数据的分类及回归问题。

【发明内容】

[0004] 本发明要解决的技术问题是:本发明提供了一种基于随机森林加权距离的大规模 高维数据分类方法,对训练样本利用随机森林算法计算各维度重要性,以维度重要性数值 加权标准化距离,利用k近邻算法进行分类。
[0005] 本发明所采用的技术方案为:
[0006] -种基于随机森林加权距离的大规模高维数据分类方法,所述方法对训练样本利 用随机森林算法计算各维度重要性,以维度重要性数值加权标准化距离,利用k近邻算法 进行分类。
[0007] 所述方法包括步骤如下:
[0008] 1)训练样本数据预处理及维度标准化;
[0009] 其中:
[0010] 数据预处理:目是对数据进行预处理,消除数据间的不一致性;
[0011] 维度标准化:目的是消除不同维度的差异;
[0012] 2)维度重要性计算;
[0013] 采用随机森林算法得到各维度重要性;
[0014] 3) K近邻分类;
[0015] 对于一个待分类样本,首先计算它和所有模板样本间的加权距离,选择其中距离 最小的k个模板样本;选择的样本中数量最多的分类类别标记为待分类样本的类别。
[0016] 所述维度标准化,是以训练样本为基础,计算各维度的均值及标准差,然后再后续 训练及分类阶段,对应维度利用均值及标注差进行标准化;标准化之后,所有维度的均值变 为0,标准差变为1。
[0017] 所述维度重要性的计算为误分率的变化:随机森林的每棵树的子样本集由所有训 练样本集有放回采样得到,平均会有大约1/3的样本不会被选取,这部分样本可用来验证 每一棵的分类误分率,计算某维度重要性时,在训练决策树不采用该维度时得到误分率和 采用该维度时的误分率的比值定义为该维度的维度重要性。
[0018] 所述维度重要性的计算为分裂时信息熵变化率下降量:决策树在节点分裂时会选 择一个最优的分裂维度,选择的依据即是选择该维度导致信息熵的变化率,在决策树训练 的过程中,可计算每个维度所有信息熵变化率的平均值,以此作为维度的重要性。
[0019] 假设各维度通过前面计算得到的加权值分别为Wl,W2,…,W n,待测样本各维度分别 为D1, D2, D3,…,Dn,匹配模板各维度分别为T1, T2, T3,…,Tn,所述加权距离如下:
[0020]
[0021] 其中δ 训练数据中第i个维度的标准差。
[0022] 本发明的有益效果为:
[0023] 本发明分类方法可解决所有分类问题,尤其适合于解决大规模高维数据的分类问 题,该方法同样适用于大规模高维数据的回归问题。
[0024] 说明书附图
[0025] 图1为本发明方法流程图;
[0026] 图2为随即森林算法示意图;
[0027] 图3为维度重要性误分率计算方法示意图。
【具体实施方式】
[0028] 下面根据说明书附图,结合【具体实施方式】对本发明进一步说明:
[0029] -种基于随机森林加权距离的大规模高维数据分类方法,所述方法对训练样本利 用随机森林算法计算各维度重要性,以维度重要性数值加权标准化距离,利用k近邻算法 进行分类。
[0030] 如图1所示,所述方法包括步骤如下:
[0031] 1)训练样本数据预处理及维度标准化;
[0032] 其中:
[0033] 数据预处理:目是对数据进行预处理,消除数据间的不一致性;数据预处理是几 乎所有数据挖掘方法中重要的一个步骤,有效及可靠的数据的预处理,是后续分类的基 础;
[0034] 维度标准化:目的是消除不同维度的差异;
[0035] 2)维度重要性计算;
[0036] 采用随机森林算法得到各维度重要性;随机森林算法用随机建立有多棵不相关决 策树构成的森林,如附图2所示,待分类样本由每棵决策树给出一个分类结果,给出最多的 分类即为森林的输出分类结果;
[0037] 3) K近邻分类;
[0038] 对于一个待分类样本,首先计算它和所有模板样本间的加权距离,选择其中距离 最小的k个模板样本;选择的样本中数量最多的分类类别标记为待分类样本的类别。
[0039] 所述维度标准化,是以训练样本为基础,计算各维度的均值及标准差,然后再后续 训练及分类阶段,对应维度利用均值及标注差进行标准化;标准化之后,所有维度的均值变 为0,标准差变为1。
[0040] 如图3所示,所述维度重要性的计算为误分率的变化:随机森林的每棵树的子样 本集由所有训练样本集有放回采样得到,平均会有大约1/3的样本不会被选取,这部分样 本可用来验证每一棵的分类误分率,计算某维度重要性时,在训练决策树不采用该维度时 得到误分率和采用该维度时的误分率的比值定义为该维度的维度重要性。
[0041] 所述维度重要性的计算为分裂时信息熵变化率下降量:决策树在节点分裂时会选 择一个最优的分裂维度,选择的依据即是选择该维度导致信息熵的变化率,在决策树训练 的过程中,可计算每个维度所有信息熵变化率的平均值,以此作为维度的重要性。
[0042] 假设各维度通过前面计算得到的加权值分别为W1, W2,…,Wn,待测样本各维度分别 为D1, D2, D3,…,Dn,匹配模板各维度分别为T1, T2, T3,…,Tn,所述加权距离如下:
[0043]
[0044] 其中δ 训练数据中第i个维度的标准差。
[0045] 实施时注意事项:
[0046] 1)本发明中使用的基本算法可以重新编写,也可以采用现有程序包;
[0047] 2)考虑到高维数据的特点,实施时可先对原始样本数据进行特征的变换或筛选;
[0048] 3)本
【发明内容】
中给出了两种给出了两种不同的维度重要性的计算方式,在实际实 施应用时,可根据实际情况选择其中一种或两种计算方法组合使用;
[0049] 4)本发明给出的距离定义,在实施时需要根据实际,选择合理的p值,当P = 1,该 距离为加权的曼哈顿距离;当P = 2,该距离为加权的欧式距离;
[0050] 5)将k近邻分类方法改为k近邻回归方法,可将本发明方法应用大规模高维数据 的回归问题。
[0051] 以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通 技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有 等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
【主权项】
1. 一种基于随机森林加权距离的大规模高维数据分类方法,其特征在于:所述方法对 训练样本利用随机森林算法计算各维度重要性,以维度重要性数值加权标准化距离,利用k 近邻算法进行分类。2. 根据权利要求1所述的一种基于随机森林加权距离的大规模高维数据分类方法,其 特征在于,所述方法包括步骤如下: 1) 训练样本数据预处理及维度标准化; 其中: 数据预处理:目是对数据进行预处理,消除数据间的不一致性; 维度标准化:目的是消除不同维度的差异; 2) 维度重要性计算; 采用随机森林算法得到各维度重要性; 3. K近邻分类; 对于一个待分类样本,首先计算它和所有模板样本间的加权距离,选择其中距离最小 的k个模板样本;选择的样本中数量最多的分类类别标记为待分类样本的类别。3. 根据权利要求2所述的一种基于随机森林加权距离的大规模高维数据分类方法,其 特征在于:所述维度标准化,是以训练样本为基础,计算各维度的均值及标准差,然后再后 续训练及分类阶段,对应维度利用均值及标注差进行标准化;标准化之后,所有维度的均值 变为〇,标准差变为1。4. 根据权利要求2或3所述的一种基于随机森林加权距离的大规模高维数据分类方 法,其特征在于,所述维度重要性的计算为误分率的变化:随机森林的每棵树的子样本集由 所有训练样本集有放回采样得到,平均会有1/3的样本不会被选取,这部分样本可用来验 证每一棵的分类误分率,计算某维度重要性时,在训练决策树不采用该维度时得到误分率 和采用该维度时的误分率的比值定义为该维度的维度重要性。5. 根据权利要求2或3所述的一种基于随机森林加权距离的大规模高维数据分类方 法,其特征在于,所述维度重要性的计算为分裂时信息熵变化率下降量:决策树在节点分裂 时会选择一个最优的分裂维度,选择的依据即是选择该维度导致信息熵的变化率,在决策 树训练的过程中,可计算每个维度所有信息熵变化率的平均值,以此作为维度的重要性。6. 根据权利要求2或3所述的一种基于随机森林加权距离的大规模高维数据分类方 法,其特征在于:假设各维度通过前面计算得到的加权值分别为Wl,w2,…,wn,待测样本各 维度分别为DpD2,D3,…,Dn,匹配模板各维度分别为1\,T2,T3,…,Tn,所述加权距离如下:其中\为训练数据中第i个维度的标准差。
【专利摘要】本发明公开了一种基于随机森林加权距离的大规模高维数据分类方法,所述方法对训练样本利用随机森林算法计算各维度重要性,以维度重要性数值加权标准化距离,利用k近邻算法进行分类。本发明分类方法可解决所有分类问题,尤其适合于解决大规模高维数据的分类问题,该方法同样适用于大规模高维数据的回归问题。
【IPC分类】G06K9/62, G06F17/30
【公开号】CN104915679
【申请号】CN201510272419
【发明人】韦鹏, 付兴旺, 吴楠, 朱英澍
【申请人】浪潮电子信息产业股份有限公司
【公开日】2015年9月16日
【申请日】2015年5月26日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1