基于信息熵特征权重量化的海量短文本分布式knn分类算法及系统的制作方法

文档序号:6543796阅读:578来源:国知局
基于信息熵特征权重量化的海量短文本分布式knn分类算法及系统的制作方法
【专利摘要】本发明公开了一种基于信息熵特征权重量化的海量短文本分布式KNN分类算法及系统。算法主要包括对文本的预处理、用信息熵衡量特征的权重,基于信息熵的文档向量表示方法,采用索引及缓存技术的KNN分类算法,整个算法基于MapReduce计算框架的实现。本发明利用特征在训练集中的信息熵,有效地衡量文本中词对于分类的作用大小,并且算法基于MapReduce计算框架能利用大规模集群来高效地对进行海量短文本的分类处理。本发明提供了一个准确率高、运行效率高、扩展性强的海量短文本分类算法。
【专利说明】基于信息熵特征权重量化的海量短文本分布式KNN分类算法及系统
【技术领域】
[0001]本发明属于文本分类【技术领域】,涉及一种基于信息熵特征权重量化的海量短文本分布式KNN分类算法及系统。
【背景技术】
[0002]随着互联网的高速发展,用户生成的电子文档及资源数目日益增长。文本分类技术成为处理和组织海量文档数据的关键技术。特别是随着微型博客和各类用户评论等短文本数据在互联网范围内的大量出现,有关短文本的相关研究逐步受到人们的关注。分本分类算法一般包括:文本预处理、文档的表示以及分类器的选择和训练。具体来说,文本预处理主要是将文本进行分词切割,并将其中对于语义表达无用的停词去除。文档表示是为了降低文档的复杂性,使其便于后续步骤的处理,将文档的文本格式转成向量格式。向量中的每个特征将被赋予一个权重用来表示其在分类贡献度,对特征进行恰当的权重量化处理能够有效地提高分类算法的分类精度。最后,采用相应的分类算法对重新表示后的文档进行训练,并对未分类的文档进行类别预测及分类。
[0003]目前,对于文本分类处理方法大多是针对长文本分类提出的。所谓长文本是指篇幅较长,包含了较多内容的文本文件。不同于长文本,短文本具有关键词特征稀疏、语境不完整和语义信息模糊的特点,使得传统的文本表示方法在短文本处理时难以较好地量化特征在分类时的有用性。
[0004]此外,随着大数据时代的到来,对海量数据处理的实时性、可靠性、可扩展性等有了更高的要求。在这种情况下,Hadoop、Spark等海量数据处理平台应运而生。然而,传统的算法大多数都是在单机环境下进行数据处理,尚未有效地扩展到并行、分布式计算平台,使之能适应大数据处理能力的需求。

【发明内容】

[0005]本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于信息熵特征权重量化的海量短文本分布式KNN分类算法。
[0006]本发明的另一目的在在于,提供一种基于信息熵特征权重量化的海量短文本分布式KNN分类系统。
[0007]为了达到上述第一目的,本发明采用以下技术方案:
[0008]基于信息熵特征权重量化的海量短文本分布式KNN分类算法,包括下述步骤:
[0009]S1、通过信息熵指标衡量特征在数据集中的分布确定性,将确定性高的特征赋予高权重,反之赋予低权重,得到反映类分布的权重量化方法;
[0010]S2、基于Hadoop分布式计算平台,采用MapReduce计算框架进行设计的,分为两轮MapReduce操作组合;
[0011]在第一轮Map操作中,训练集被平均拆分为多个子训练集并分配到进行运算的结点上,每一个待分类的测试数据同时在不同节点上,分别与该节点中的子训练集进行相似度计算。在第一轮Reduce操作中,在各个节点中对Map计算得到的相似度进行排序,获得每个节点上与测试样本数据的局部最相似的k个训练集样本;
[0012]在第二轮Map操作中,将每个节点中的局部最相似的k个训练集样本的相似度和类别进行统计,在第二轮Reduce操作中,各个训练集样本以相似度进行投票,选出相似度最大的类别作为测试样本数据的预测类别;其中第二轮MapReduce操作组可以根据集群节点数目酌情变换成多轮MapReduce操作组合。
[0013]优选的,步骤SI中,对于面向类分布均匀数据、基于熵的特征权重量化子方法的具体步骤为:
[0014]S111、初试化特征-类别分布矩阵,统计每个特征t在各个类Ci中出现词频
f (t, Ci);
[0015]S112、计算每个类别Ci的词频总数f (Ci) = Σ tf (t, Ci);
[0016]S113、计算特征在训练数据集中的熵值:
[0017]
【权利要求】
1.基于信息熵特征权重量化的海量短文本分布式KNN分类算法,其特征在于,包括下述步骤: .51、通过信息熵指标衡量特征在数据集中的分布确定性,将确定性高的特征赋予高权重,反之赋予低权重,得到反映类分布的权重量化方法; .52、基于Hadoop分布式计算平台,采用MapReduce计算框架进行设计的,分为两轮MapReduce操作组合; 在第一轮Map操作中,训练集被平均拆分为多个子训练集并分配到进行运算的结点上,每一个待分类的测试数据同时在不同节点上,分别与该节点中的子训练集进行相似度计算;在第一轮Reduce操作中,在各个节点中对Map计算得到的相似度进行排序,获得每个节点上与测试样本数据的局部最相似的k个训练集样本; 在第二轮Map操作中,将每个节点中的局部最相似的k个训练集样本的相似度和类别进行统计,在第二轮Reduce操作中,各个训练集样本以相似度进行投票,选出相似度最大的类别作为测试样本数据的预测类别;其中第二轮MapReduce操作组可以根据集群节点数目酌情变换成多轮MapReduce操作组合。
2.根据权利要求1所述的基于信息熵特征权重量化的海量短文本分布式KNN分类算法,其特征在于,步骤SI中,对于面向类分布均匀数据、基于熵的特征权重量化子方法的具体步骤为: . 5111、初试化特征——类别分布矩阵,统计每个特征t在各个类Ci中出现词频f (t, Ci); S112、计算每个类别Ci的词频总数f(Ci) = Σtf(t, Ci); s113、计算特征在训练数据集中的熵值:
3.根据权利要求1所述的基于信息熵特征权重量化的海量短文本分布式KNN分类算法,其特征还在于,面向非均匀类分布数据、基于平衡熵的特征权重量化子方法,考虑到类之间文档数量的不平衡性,在一个样本数极少的类中出现一次和在一个样本数较多的类中出现一次应该给予不同的权重,包括以下步骤: s121、初始化特征-类别分布矩阵,统计每个特征w在各个类Ci中出现词频f(t,Ci); s122、计算每个类别Ci的词频总数f(Ci) = Σ tf (t, Ci); s123、计算特征-类别词频与类别总词频的相对比例:
f1 (t, Ci) = f (t, CiVf(Ci); s124、计算特征在训练数据集中的熵值:
4.根据权利要求1所述的基于信息熵特征权重量化的海量短文本分布式KNN分类算法,其特征在于,步骤S2具体为: 521、将训练数据集划分成η个子集,其中η为Hadoop平台中负责运算的从属节点个数; 522、每个从属节点在读入训练数据子集时,建立一个特征与包含该特征的文档之间的索引,如:〈t1:qi,一,qk>,其中\是特征,Qi为包含\的文档,该索引用来快速查找包含某个特征的文档集合,另外,建立一个文档向量模的缓存单元; 523、对于一个待分类的测试文档数据q,同时分派给每个从属节点,在每个节点中,首先初始化A[l]_A[k]作为q的初始近邻,A[l]-A[k]按q与A[i]的相似度similarity (q,A[i])降序排序,然后通过查找索引找出包含q中特征的所有训练集文档〈q”…,qk>作为候选邻居集合,依次计算q与每个候选邻居Qi的余弦相似度,q与Qi的相似度的计算公式如:
5.基于信息熵特征权重量化的海量短文本分布式KNN分类系统,其特征在于,文本预处理模块、特征提取模块、基于信息熵的词权重量化模块、文档表示模块以及引入索引缓存机制的KNN分布式分类模块; 所述文本预处理模块,使用分词器将所要分类的文本分成易于处理的单个词项,每一个词项作为此算法中处理的最小单元;然后根据中文停词表,把表中这些对文本分类没有意义的词项去掉; 所述特征提取方法模块,对每个样本中的文本预处理后得到的词项进行词频统计,从而把每个样本表示为U1If1,...,&:&,的形式,其中L为文本中得到的词项,为该词项在当前样本的文本中出现的次数,η为所有样本中不同词项的总数;所述基于信息熵的词权重量化模块,通过计算特征在训练集类别中的熵值来量化特征类别分布的确定性程度,并以此来衡量各个特征在分类过程中的贡献度;根据训练集的类别分布情况,若各个类别包含的文档数据数目比较一致,即各个类的分布较均匀,则采样对于面向类分布均匀数据、基于熵的特征权重量化子方法进行处理;否则,即各个类别包含的文档数据数目相差较大,各个类的分布不均匀,则采用面向非均匀类分布数据、基于平衡熵的特征权重量化子方法进行特征权重设置; 所述的文档表示模块,对每个样本中表示为如下形式,(t1:wl,…,t1:wi,"%tn:wn),其中为文本中得到的词,η为样本中不同特征总的总数量;假设经特征提取后的文档q =(t1: fv …,h: fi,…,tn: fn),则 Wi = f^weight (ti); 所述的引入索引缓存机制的分布式KNN分类模块,由一种引入索引和缓存机制的KNN分布式分类算法组成;对一个未知分类的测试样本q,首先计算它与所有已知分类样本的相似度,再取出其中最相似的k个,得到一个样本集S。
6.根据权利要求5所述基于信息熵特征权重量化的海量短文本分布式KNN分类系统,其特征在于,引入索引缓存机制的分布式KNN分类模块中,根据S中样本的标记类别以及其与测试样本X的相似度,计算出测试样本与每个类的相似度:
【文档编号】G06F17/27GK103955489SQ201410150855
【公开日】2014年7月30日 申请日期:2014年4月15日 优先权日:2014年4月15日
【发明者】蔡毅, 蔡志威, 王涛 申请人:华南理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1