分类器构建方法和系统的制作方法

文档序号:6485831阅读:184来源:国知局
分类器构建方法和系统的制作方法
【专利摘要】本发明设计一种分类器构建方法和系统。该构建方法包括以下步骤:从数据集中抽取N个样本集;将每个样本集作为根节点,求取每个根节点的属性空间中的M个属性的权重值,其中,M为属性的总数;根据权重值从M个属性中采用加权抽样抽取m个属性,构成属性子空间,且m小于M;采用划分函数从属性子空间的m个属性中选择最佳属性,根据最佳属性对根节点进行划分,产生子节点;对每个样本集递归重复节点划分直至生成单个随机森林分类器;根据N个单个随机森林分类器构建整体随机森林分类器。上述分类器构建方法和系统,采取对求取属性的权重值,根据其权重值进行加权抽样,构建的单个随机森林分类器的精度较高,从而提高了整体随机森林分类器的精度。
【专利说明】分类器构建方法和系统
【技术领域】
[0001]本发明涉及数据处理领域,特别是涉及一种分类器构建方法和系统。
【背景技术】
[0002]数据种类很多,如文本数据、视频数据、图像数据等,可采用随机森林分类模型对文本数据或视频数据或图像数据进行分类。随机森林分类模型是由一组决策树分类模型组成,对于一些数据分类问题,单一个体决策树分类模型无法满足分类的精度要求,而利用同一训练数据建立多个决策树,以多个个体决策树的分类结果确定最终分类结果的分类技术,可显著提高数据的分类精度,从而满足应用需求。
[0003]传统的随机森林分类模型构建时,从给定的一个训练数据中,采用有放回的随机抽样方法抽取建立K棵决策树的K个样本集,每个样本集的样本数与训练数据的样本数相同,但训练数据的同一样本可在单个样本集中重复出现。然后再用K个样本集构建K个决策树分类模型。该随机森林分类模型对维数不高的数据(如属性个数小于100)分类效果较好,对超高维的复杂数据,如几百个属性或千个以上属性的数据,构建的分类模型精度较低,无法满足应用需求。

【发明内容】

[0004]基于此,有必要提供一种能提高分类精度和降低误差的分类器构建方法。
[0005]一种分类器构建方法,包括以下步骤:
[0006]从数据集中抽取N个样本集;
[0007]将每个样本集作为根节点,求取每个根节点的属性空间中的M个属性的权重值,其中,M为属性的总数;
[0008]根据所述权重值从M个属性中采用加权抽样抽取m个属性,构成属性子空间,且m小于M;
[0009]采用划分函数从属性子空间的m个属性中选择最佳属性,然后根据所述最佳属性对根节点进行划分,产生子节点;
[0010]对每个样本集递归重复节点划分直至生成单个随机森林分类器;
[0011]根据N个单个随机森林分类器构建整体随机森林分类器。
[0012]在其中一个实施例中,所述求取每个根节点的属性空间中的M个属性的权重值的步骤具体为:
[0013]求取每个节点的属性空间中的每个属性与类别属性的相关性,将所述每个属性与类别属性的相关性作为所述每个属性的权重值。
[0014]在其中一个实施例中,还包括步骤:通过卡方检验公式或信息增益率公式求取每个属性与类别属性的相关性。
[0015]在其中一个实施例中,根据所述权重值从M个属性中采用加权抽样抽取m个属性,构成属性子空间的步骤具体为:[0016]将每个属性的权重值求平方根,将每个平方根与M个属性的权重值的平方根和的比值,作为每个属性被抽取的概率;
[0017]根据所述每个属性的被抽取的概率从M个属性中抽取m个属性,构成属性子空间。
[0018]在其中一个实施例中,所述采用划分函数从属性子空间的m个属性中选择最佳属性的步骤具体为:
[0019]采用信息增益函数从属性子空间的m个属性中选择信息增益率最大的属性,将所述信息增益率最大的属性作为最佳属性。
[0020]此外,还有必要提供一种能提高精度和降低误差的分类器构建系统。
[0021]—种分类器构建系统,包括:
[0022]样本抽取模块,用于从数据集中抽取N个样本集;
[0023]权重求取模块,用于将每个样本集作为根节点,求取每个根节点的属性空间中的M个属性的权重值,其中,M为属性的总数;
[0024]属性抽取模块,用于根据所述权重值从M个属性中采用加权抽样抽取m个属性,构成属性子空间,且m小于M ;
[0025]划分模块,用于采用划分函数从属性子空间的m个属性中选择最佳属性,然后根据所述最佳属性对根节点进行划分,产生子节点;
[0026]递归模块,用于对每个样本集递归重复节点划分直至生成单个随机森林分类器;
[0027]构建模块,用于根据N个单个随机森林分类器构建整体随机森林分类器。
[0028]在其中一个实施例中,所述权重求取模块还用于求取每个节点的属性空间中的每个属性与类别属性的相关性,将所述每个属性与类别属性的相关性作为所述每个属性的权重值。
[0029]在其中一个实施例中,所述权值求取模块还用于通过卡方检验公式或信息增益率公式求取每个属性与类别属性的相关性。
[0030]在其中一个实施例中,所述属性抽取模块包括:
[0031]概率计算单元,用于将每个属性的权重值求平方根,将每个平方根与M个属性的权重值的平方根和的比值,作为每个属性被抽取的概率;
[0032]抽取单元,用于从M个属性中根据所述每个属性的被抽取的概率抽取m个属性,构成属性子空间。
[0033]在其中一个实施例中,所述划分模块还用于采用信息增益函数从属性子空间的m个属性中选择信息增益率最大的属性,将所述信息增益率最大的属性作为最佳属性。
[0034]上述分类器构建方法和系统,采取对求取属性的权重值,根据其权重值进行加权抽样,如此获取的最佳属性较为准确,构建的单个随机森林分类器的精度较高,从而提高了整体随机森林分类器的精度。
[0035]另外,通过求取属性与类别属性的相关性,将其相关性作为属性的权重值,权重值越大被抽取的概率越大,这样对类别属性影响力大的属性被抽中的概率提高,从而提高了整体随机森林分类器的精度。
【专利附图】

【附图说明】
[0036]图1为一个实施例中分类器构建方法的流程示意图;[0037]图2为一个实施例中根据权重值从M个属性中采用加权抽样抽取m个属性,构成属性子空间的具体流程示意图图;
[0038]图3为分类器构建方法应用于文本信息的具体流程示意图;
[0039]图4为一个实施例中分类器构建系统的内部结构不意图;
[0040]图5为另一个实施例中分类器构建系统的内部结构示意图。
【具体实施方式】[0041]下面结合具体的实施例及附图对分类器构建方法和系统的技术方案进行详细的描述,以使其更加清楚。
[0042]如图1所示,在一个实施例中,一种分类器构建方法,包括以下步骤:
[0043]步骤S110,从数据集中抽取N个样本集。
[0044]具体的,数据集可通过对互联网信息进行筛选后形成,例如通过网络爬虫从网站特定新闻版面、主流媒体、论坛、博客、社交网络、微博等信息源筛选得到文本信息,再将文本信息与预先建立的词库比较,将文本信息按关键词定义量化抽取成结构化数据,即得到数据集。数据集也可为视频数据、音频数据、图像数据等。
[0045]对数据集采用有放回的随机抽样方法(即装袋bagging方法)抽取N个样本集,每个样本集记录有M个属性和I个类别属性。每个样本集中的样本数与数据集中的样本数相同,但数据集中的同一个样本可在单个样本集中重复出现。属性可如表示一个学生的性别、年龄、学号、班级等。类别属性是指将某物分类后的属性,如学生分类为好学生或坏学生,好坏即为类别属性。每一个样本集建立单个随机森林分类器,即单个决策树。整体随机森林分类器由N个决策树组成。
[0046]步骤S120,将每个样本集作为根节点,求取每个根节点的属性空间中的M个属性的权重值,其中,M为属性的总数。
[0047]具体的,每个样本集作为单个决策树的根节点。然后求取每个样本集中的属性空间的所有(M个)属性的权重值。属性空间是指节点的容纳属性的容器。
[0048]在一个实施例中,求取每个根节点的属性空间中的M个属性的权重值的步骤具体为:求取每个节点的属性空间中的每个属性与类别属性的相关性,将每个属性与类别属性的相关性作为每个属性的权重值。具体的,采用卡方检验公式或信息增益率公式求取每个属性与类别属性的相关性,以得到相应的权重值。相关性是指变量之间密切关联而又不能由某一个或某一些变量唯一确定另外一个变量的关系,称为变量间的相关关系或相关性。
[0049]具体的,对于给定的数据集D,类别属性Y有q个不同取值yj; j = 1,2,...,q ;属性A有p个不同取值ai;i = l,2,...,p。采用卡方检验公式计算属性A和类别属性Y之间的相关性的卡方统计量为:
【权利要求】
1.一种分类器构建方法,包括以下步骤: 从数据集中抽取N个样本集; 将每个样本集作为根节点,求取每个根节点的属性空间中的M个属性的权重值,其中,M为属性的总数; 根据所述权重值从M个属性中采用加权抽样抽取m个属性,构成属性子空间,且m小于M ; 采用划分函数从属性子空间的m个属性中选择最佳属性,然后根据所述最佳属性对根节点进行划分,产生子节点; 对每个样本集递归重复节点划分直至生成单个随机森林分类器; 根据N个单个随机森林分类器构建整体随机森林分类器。
2.根据权利要求1 所述的分类器构建方法,其特征在于,所述求取每个根节点的属性空间中的M个属性的权重值的步骤具体为: 求取每个节点的属性空间中的每个属性与类别属性的相关性,将所述每个属性与类别属性的相关性作为所述每个属性的权重值。
3.根据权利要求2所述的分类器构建方法,其特征在于,还包括步骤:通过卡方检验公式或信息增益率公式求取每个属性与类别属性的相关性。
4.根据权利要求2所述的分类器构建方法,其特征在于,根据所述权重值从M个属性中采用加权抽样抽取m个属性,构成属性子空间的步骤具体为: 将每个属性的权重值求平方根,将每个平方根与M个属性的权重值的平方根和的比值,作为每个属性被抽取的概率; 根据所述每个属性的被抽取的概率从M个属性中抽取m个属性,构成属性子空间。
5.根据权利要求1所述的分类器构建方法,其特征在于,所述采用划分函数从属性子空间的m个属性中选择最佳属性的步骤具体为: 采用信息增益函数从属性子空间的m个属性中选择信息增益率最大的属性,将所述信息增益率最大的属性作为最佳属性。
6.—种分类器构建系统,其特征在于,包括: 样本抽取模块,用于从数据集中抽取N个样本集; 权重求取模块,用于将每个样本集作为根节点,求取每个根节点的属性空间中的M个属性的权重值,其中,M为属性的总数; 属性抽取模块,用于根据所述权重值从M个属性中采用加权抽样抽取m个属性,构成属性子空间,且m小于M ; 划分模块,用于采用划分函数从属性子空间的m个属性中选择最佳属性,然后根据所述最佳属性对根节点进行划分,产生子节点; 递归模块,用于对每个样本集递归重复节点划分直至生成单个随机森林分类器; 构建模块,用于根据N个单个随机森林分类器构建整体随机森林分类器。
7.根据权利要求6所述的分类器构建系统,其特征在于,所述权重求取模块还用于求取每个节点的属性空间中的每个属性与类别属性的相关性,将所述每个属性与类别属性的相关性作为所述每个属性的权重值。
8.根据权利要求7所述的分类器构建系统,其特征在于,所述权值求取模块还用于通过卡方检验公式或信息增益率公式求取每个属性与类别属性的相关性。
9.根据权利要求7所述的分类器构建系统,其特征在于,所述属性抽取模块包括: 概率计算单元,用于将每个属性的权重值求平方根,将每个平方根与M个属性的权重值的平方根和的比值,作为每个属性被抽取的概率; 抽取单元,用于从M个属性中根据所述每个属性的被抽取的概率抽取m个属性,构成属性子空间。
10.根据权利要求7所述的分类器构建系统,其特征在于,所述划分模块还用于采用信息增益函数从属性子空间的m个属性中选择信息增益率最大的属性,将所述信息增益率最大的属性作为最佳 属性。
【文档编号】G06F17/30GK103473231SQ201210184713
【公开日】2013年12月25日 申请日期:2012年6月6日 优先权日:2012年6月6日
【发明者】黄哲学, 扎拉玛, 李俊杰, 陈小军, 王强 申请人:深圳先进技术研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1