一种MapReduce并行化大数据文本分类方法

文档序号:8543804阅读:190来源:国知局
一种MapReduce并行化大数据文本分类方法
【技术领域】
[0001] 本发明设及计算机领域,更具体地设及机器学习及大数据文本分类的方法。
【背景技术】
[0002] 伴随着互联网应用的普及,在网上传输信息更加便捷,同时网上的信息数量正在 W空前速度增长。毫无疑问,研究文本分类方法的意义异常重要。曾经人们使用人工分类 的方法,尽管正确率很高,可是效率低下。因为该种分类方法依靠的是个人经验,所W不 同的人对同样的数据进行分类,得到的结果可能不一样,而且即便是同一个人,每次的分 类也可能会存在不同。面对互联网上如今规模庞大的数据量,分类工作交由人工完成显然 并不现实。因此,自动化的文本分类技术无疑是理想的解决之道。
[0003] 在行业应用领域,为了应对大规模数据的处理,需要更加庞大系统的规模。作为机 器学习的一个重要领域,文本分类是根据文本数据信息主题将相同主题的信息归并至一个 类别,从而实现对海量数据的管理。然而,实际应用中海量数据的处理面临着一些难题, 一方面,传统的文本分类技术针对单机设计,而单一的机器面临着存储容量有限和计算效 率较低等问题;另一方面,集成起来的各种数据往往是大容量、多种类的大数据,分析数据 是提取信息、发现知识、预测未来的关键步骤。为此,非常迫切寻求一种高效处理大数据的 方式。目前,大数据的组织与处理主要是经由分布式文件处理系统来完成,主流的技术是 化doop开源平台,它提供分布式文件处理系统皿FSW及分布式计算框架MapRe化ce,分别 作为大数据的存储和处理的框架。
[0004] 贝叶斯分类器训练阶段需计算类的先验概率及相应特征项的类条件概率。类的先 验概率计算不难实现,因为计算数量少,例如样本集中一共包含m个类,那么计算m次就可 W了。问题的关键在于对特征词的类条件概率计算。因为大规模的词汇量用于形成文本集, 所W,用空间向量来表示文本时的维数会很大。根据Google公司在2007年时统计的数据, 中文常用词汇多达34万个。可W想象一下,一个训练文本集中包含10000个词汇的话,就 需要计算次的类条件概率。大数据时代,数据量不断暴增,若不进行任何处理,文本集所包 含的词汇远超10000,很可能会被表示为维数巨大的向量空间模型,造成内存与运算开销浪 费。
[0005] 互信息在信息理论中描述整个系统通信前与通信后减少了多少不确定度,从而 判断两个信号在一个消息里相互之间的依赖程度。如今,互信息在各种设及统计信息的模 型中应用非常广泛。如果两个变量计算得到越大的互信息值,那么说明两者间存在越大的 统计相关性。具体到文本分类,互信息值通常被用来量度文本中特征词与不同的类别间差 异性。
[0006] 虽然互信息算法在特征选择时具有时空复杂度低、便于理解和计算方便等优点, 但是传统的互信息算法在分类精度方面存在着一定的不足。
[0007]MI特征提取方法通过计算特征与类别的关联程度实现,能挑选出带有强类别信息 的词汇作为特征。然而,如果一个特征只在某个类别中的几个文本中出现,根据MI的计算 方法,该个特征将很有可能被提取出来。而该个特征在该类别中并不具有普遍性,将该特征 用于表示该类别的其它文本的时候,该项的词频权值将为0。如果该类不具代表性的强类别 信息词汇过多,将导致无法正确的表示大部分文档的文本信息,从而导致在分类过程中文 本被错分可能性过大。很显然互信息在选择表示文本的特征词时忽略掉了词频,造成的影 响便是低频词经常被选择,扩大了低频词的作用,如果加入的低频词是噪音的话,将导致分 类效果大打折扣。另外,W特征与所有类别的互信息值求和也不能突出特征对类之间的区 分能力,该也从一定程度上削弱了分类信息。

【发明内容】

[000引为了克服已有大数据文本分类方法的分类性能较差、区分度较低的不足,本发明 提供一种分类性能良好、区分度较高的MapRe化ce并行化大数据文本分类方法。
[0009] 本发明解决其技术问题所采用的技术方案是:
[0010] 一种MapRe化ce并行化大数据文本分类方法,包括如下步骤:
[0011] 第一步:建立用于文本分类的基准测试数据集,进行数据预处理,包括分词、去停 用词、词根还原;
[0012] 将该基准测试数据集随机划分为训练文本和测试文本,将所述基准测试数据集采 用向量空间模型建立文本表示模型;
[0013] 第二步;根据上述文本表示模型采用CDMT对所述基准测试数据集进行特征选择, 即
[0014]
【主权项】
1. 一种MapReduce并行化大数据文本分类方法,其特征在于:所述分类方法包括如下 步骤: 第一步:建立用于文本分类的基准测试数据集,进行数据预处理,包括分词、去停用词、 词根还原; 将该基准测试数据集随机划分为训练文本和测试文本,将所述基准测试数据集采用向 量空间模型建立文本表示模型; 第二步:根据上述文本表示模型采用CDMT对所述基准测试数据集进行特征选择; 第三步:采用贝叶斯分类器对所述基准测试数据集进行训练学习,得到分类结果。
2. 如权利要求1所述的一种MapReduce并行化大数据文本分类方法,其特征在于:根 据所述第二步中,采用训练数据集中所有特征词按CDMT方法计算后降序排列并提取出大 于某个阈值的所有特征词的方法,来生成一个特征词汇表。
3. 如权利要求1或2所述的一种MapReduce并行化大数据文本分类方法,其特征在于: 所述第三步中,训练学习过程如下: 3. 1)训练数据集和测试数据集文本向量化,求出每个文件中每个单词的词频TF后,读 取含IDF值的特征词汇表,计算每个单词的TFX IDF值,并将计算结果保存; 3.2)贝叶斯分类器的处理过程: 3. 2. 1)对于测试数据集中的每一条记录,计算它属于训练数据集中每一个类别的概率 值; 3. 2. 2)把测试记录归为K个值中权值最大的类。
4. 如权利要求1或2所述的一种MapReduce并行化大数据文本分类方法,其特征在于: 所述基准测试数据集为属于国际中文标准数据集的搜狗语料库,其按照各个已知类目进行 分类,其中的60 %做为训练集,40 %做为测试集,不包括重复文本。
【专利摘要】一种MapReduce并行化大数据文本分类方法,包括如下步骤:第一步:建立用于文本分类的基准测试数据集,进行数据预处理,包括分词、去停用词、词根还原;将该基准测试数据集随机划分为训练文本和测试文本,将所述基准测试数据集采用向量空间模型建立文本表示模型;第二步:根据上述文本表示模型采用CDMT对所述基准测试数据集进行特征选择;第三步:采用贝叶斯分类器对所述基准测试数据集进行训练学习,得到分类结果。本发明提供一种分类性能良好、区分度较高的MapReduce并行化大数据文本分类方法。
【IPC分类】G06F17-30
【公开号】CN104866606
【申请号】CN201510297189
【发明人】朱信忠, 徐慧英, 赵建民, 陈远超
【申请人】浙江师范大学
【公开日】2015年8月26日
【申请日】2015年6月2日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1