基于MapReduce的并行特征选择方法

文档序号:6514800阅读:286来源:国知局
基于MapReduce的并行特征选择方法
【专利摘要】本发明的基于MapReduce的并行特征选择方法,包括:a)将数据划分为份;b)将份数据分配到个Map计算节点上;c)建立已选择的特征集和未选中的特征集;d)求取向量与类变量之间的联合互信息;e)联合互信息最大的特征变量作为特征变量,并将特征变量序列号和相应的联合互信息值传递给Reduce计算节点;f)判断是否存在统计数量相等的特征变量;g)联合互信息值的比较;h)被选中特征的添加和删除;i)判断选中特征的数目。本发明的基于MapReduce的并行特征选择方法,可快速、有效地在海量数据集中提取出信息量最大的特征变量组合,适于海量数据的特征提取。
【专利说明】基于MapReduce的并行特征选择方法
【技术领域】
[0001]本发明涉及一种基于MapReduce的并行特征选择方法,更具体的说,尤其涉及一种可对海量数据进行快速特征提取的基于MapReduce的并行特征选择方法。
【背景技术】
[0002]近年来,很多领域的数据集不论是在数量上还是特征变量数上都变得越来越大,如基因组工程、文本分类、图像检索和客户关系管理等。这可能会给很多机器学习方法的可扩展性和学习性能带来严重的问题。如何选择信息量最大的特征变量组合是一个至关重要的问题。特征选择是从原始特征集中根据一定的评价标准来选择特征子集,从而有效降低特征变量集维数的过程。特征选择可有效降低特征变量维数,去除不相关数据,提高学习精度,提高结果的可理解性。因此,特征选择对于高维数据的机器学习任务变得十分必要。
[0003]相关分析是特征选择基础,相关系数是ー种常用相关测度,它只能测量变量之间的线性关系。逐步回归是另ー种常用的特征选择方法,它主要用于线性回归问题。熵是ー个可以度量任意随机变量不确定性的測度,基于熵的互信息可以度量变量之间任意统计相关性,基于互信息的特征选择已被广泛应用。但是,随着电子和信息机技术的快速发展,电子数据量呈 指数级增长。数据洪流已成为急需解决的突出问题,科学家们面临各个领域产生的不断增长的海量数据处理问题,如生物信息学、生物医学、化学信息学、网络等等。常规的特征选择方法无法处理大規模的数据集。

【发明内容】

[0004]本发明为了克服上述技术问题的缺点,提供了一种可对海量数据进行快速特征提取的基于MapReduce的并行特征选择方法。
[0005]本发明的基于MapReduce的并行特征选择方法,其特别之处在于,通过以下步骤来实现:a).数据划分,将初始数据J平均划分为份设其分别为坫、込、…、久;b).数据部署,设參与运算的计算节点的数目力个,将划分后的〃份数据平均分配到%个Map计算节点上;c).建立向量,设S和V为两个向量,其中S= OjV = CXllIr2^ ,Jfir)
S表示已选择的特征集,初始为空集;V表示未选中的特征集,初始为数据D的所有特征变量,况为特征变量数;设C为类变量,设需要从况个特征变量中选取 < 个特征;d).求取联合互信息,对于《个Map计算节点中的任意ー个计算节点i来说,在处理姆一份数据的过程中,均计算向量(SJj)与类变量e之间的联合互信息/(氓ろ)ぶ),其中:? e (1,2,-へ《) ,1 < j < N ;e).选取特征变量,步骤d)中,使联合互信息/((S,ろ)ぶ)最大的特征变量I/作为该计算节点从该份数据中选择的特征变量,并将该特征变量序列号J和相应的联合互信息值传递给Reduce计算节点;f).统计被选中特征的数目,在Reduce计算节点,统计所有Map计算节点记录的特征变量的序列号,判断是否存在统计数
量相等的特征变量,如果不存在,则将统计数量最多的序列号所对应的特征变量I/作为选
取的全局特征变量;如果存在,则执行步骤g) ;g).联合互信息值的比较,对统计数量相等的特征变量,分别对各自变量所对应的联合互信息值进行求和计算,选择具有较大联合互
信息值的特征变量I/作为全局特征变量;h).被选中特征的添加和删除,将选中的全局特征变量Zi添加至向量S中,即令S = (S,ろ.);并将选中的全局特征变量从向量V中删除,即令V = VUXjO ;i).判断选中特征的数目,判断已选中特征变量的数目是否已达到
Z个,如果达到J:个,则整个特征选择过程结束;如果没达到ど个,则重复执行步骤d)~
h)重选择下ー个特征。
[0006]本发明的基于MapReduce的并行特征选择方法,步骤d)中联合互信息的求取采用基于香农熵的互信息求取方法,其采用以下步骤:d_l).建立特征变量,特征变量集
用向量X =(ズ1,12,… …,ろ/"表示,名=(%)表示第个特征变量,其中2 = 1,2,...,P
,i =,每个特征变量有q个不同的取值;d-2).建立类变量,类变量用C表示,
【权利要求】
1.一种基于MapReduce的并行特征选择方法,其特征在于,通过以下步骤来实现:a).数据划分,将初始数据L平均划分为《份,设其分别为A、D2、…、Ai ; b).数据部署,设參与运算的计算节点的数目为m个,将划分后的》份数据平均分配到m个Map计算节点上; c).建立向量,设S和V为两个向量,其中S==,§表示已选择的特征集,初始为空集V表示未选中的特征集,初始为数据£)的所有特征变量パカ特征变量数;设カ类变量,设需要从况个特征变量中选取个特征; d).求取联合互信息,对于《fMap计算节点中的任意ー个计算节点i来说,在处理姆一份数据的过程中,均计算向量(Hj)与类变量之间的联合互信息/((SJQぶ),其中:ie {1,2,…… ,m) ,I ≤ j ≤ N.e).选取特征变量,步骤d)中,使联合互信息/((SJyXC)最大的特征变量ろ作为该计算节点从该份数据中选择的特征变量,并将该特征变量序列号J和相应的联合互信息值传递给Reduce计算节点; f).统计被选中特征的数目,在Reduce计算节点,统计所有Map计算节点记录的特征变量的序列号,判断是否存在统计数量相等的特征变量,如果不存在,则将统计数量最多的序列号所对应的特征变量I/作为选取的全局特征变量;如果存在,则执行步骤g); g).联合互信息值的比较,对统计数量相等的特征变量,分别对各自变量所对应的联合互信息值进行求和计算,选择具有较大联合互信息值的特征变量-ち作为全局特征变量; h).被选中特征的添加和删除,将选中的全局特征变量添加至向量S中,即令S = (Sr^j);并将选中的全局特征变量ろ从向量V中删除,即令v = v\(ろ); i).判断选中特征的数目,判断已选中特征变量的数目是否已达到K个,如果达到个,则整个特征选择过程结束;如果没达到尤个,则重复执行步骤d)~h)选择下ー个特征。
2.根据权利要求1所述的基于MapReduce的并行特征选择方法,其特征在于,步骤d)中联合互信息的求取采用基于香农熵的互信息求取方法,其采用以下步骤: d-1).建立特征变量,特征变量集用向量;X= 毛,…ユV.、ろf表示,表示第个特征变量,其中* = H ?ゝP,j = 1,2,っq,每个特征变量有q个不同的取值; d-2).建立类变量,类变量用C表示,C= (Ci) , s = l,2,-,k,所有的特征映射到k个不同的类中;特征变量和类变量都是离散值; d-3).获取概率分布,通过对样本的统计得到概率分布,设1?是特征变量名的概率分布,设是类变量C的概率分布,设是特征变量名与类变量C*的联合概率分布;d-4).计算特征变量香农熵,通过公式(I)计算出特征变量名的香农熵;
【文档编号】G06F17/30GK103559205SQ201310467990
【公开日】2014年2月5日 申请日期:2013年10月9日 优先权日:2013年10月9日
【发明者】孙占全, 顾卫东, 李钊, 赵彦玲 申请人:山东省计算中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1