一种电力云环境下基于k最近邻算法的文档自动分类方法

文档序号:6357664阅读:361来源:国知局
专利名称:一种电力云环境下基于k最近邻算法的文档自动分类方法
技术领域
本发明属于云计算和数据挖掘领域,涉及一种电力公司文档分类方法,具体地说 是一种电力云环境下基于K最近邻算法的文档自动分类方法。
背景技术
自动文档分类技术是利用自然语言,数据挖掘和人工智能技术经过一定的训练之 后,使程序能够自动对文档进行识别及分类的技术,在大规模数据处理方面具有重要的应用。传统的K最近邻算法因为其简单有效,在文档自动分类方面得到了广泛的应用。 由于传统的K最近邻算法存在计算复杂度高,可扩展性差的缺点,在电力公司文档急剧增 加的情况下,如果直接使用该算法对文档进行分类,其计算量急剧上升,分类实时性下降。 自从2007年IBM和Google联合推出云计算以来,云计算已经成为工业界和学术界都关注 的热点问题,云计算已成为分布式计算未来发展方向。在此基础上,国家电网建立了电力云 仿真实验室,搭建起了电力云计算环境,对智能电网的海量信息进行分析处理。由Google 提出的MapReduce编程框架是云计算中的代表性技术,它适用于分布式处理大规模数据 集,程序员在Map函数中指定对各分块数据的处理过程,在Reduce函数中指定如何对分块 数据处理的中间结果进行规约。但是,传统MapReduce编程框架只能处理单个数据集,而不 能直接支持对多个相关数据集的处理,而K最近邻算法的文档分类方法又必然要面对多个 相关数据集的处理问题。传统的K最近邻算法虽然应用很广,但是同时也存在计算复杂度 高的缺点。在算法的运行过程中,需要找到K个近邻,为此需要计算和所有样本之间的距 离,计算量巨大。虽有改进算法,却大部分是以降低分类性能的代价做出的。

发明内容
为了克服传统的K最近邻算法存在的问题,本发明的目的是提供一种电力云环境 下基于K最近邻算法的文档自动分类方法,本方法对云计算的MapReduce编程框架进行了 改进,其中Map函数完成文档相似性的计算,reduce函数规约出相似性最高的K个样本,能 够利用电力云强大的计算能力,大幅缩短文档分类任务的执行时间,提高分类效率;且具备 健壮性。本发明的目的是通过以下技术方案来实现的
一种电力云环境下基于K最近邻算法的文档自动分类方法,其特征在于该方法对云计 算的MapReduce编程框架进行了改进,其中Map函数完成文档相似性的计算,reduce函数 规约出相似性最高的K个样本,统计最近邻所属各个类别的权重,并输出权重最大的类别, 具体内容包括
1)利用电力系统信息库里的元数据,构造电力系统行业专用的的特征词词典、禁用词 词集以及概念集;然后将训练集文档进行结构化处理,建立模型,根据禁用词集去除无用、 虚泛的禁用词;根据特征词词典对文档进行分词;根据概念集将不同表达方式的相同概念映射为同一概念;将处理后的结构化文档进行特征项提取并处理,最后生成文档矢量库; 根据该矢量库将训练集文档以及待分类的新文本文档进行再处理,表示为一个空间向量模 型;
2)将训练集文档的空间向量模型以及待分类的新文档的空间向量模型,按行以文件 保存在分布式文件系统上,每一行表示一个文档的空间向量模型表示;Map函数从DFS按 <a, La>读取文件记录,并计算训练文档和新文档之间的相似度,将本结点相似度Top-k个 结果作为中间结果返回;Reduce函数汇聚所有Map结点产生的中间结果,计算用户K-最近 邻集合N(U) ;Merge函数基于N(U),再次读取DFS上的行文件或列文件,计算出K-最近邻 集合中每个类的权重P (X,u);
3)将权重输入到缓存,并排序,找出其中最大的权重的类,将该类别作为结果输出,完 成文档自动分类。由于传统的MapReduce编程框架只能处理单个数据集,K最近邻算法最后需要统计最近邻所属各个类别的权重,因此本发明在原有MapReduce编程框架上重新构造一个 merge函数,用以计算该权重,最后输出权重最大的类别。本发明将空间向量模型化后的训练集文档以及待分类的新文本文档保存至分布 式文件系统(DFS)上,用MapReduce编程框架进行处理,将K-最近邻的计算分布到各个节点 上并行执行,在不影响K-最近邻算法的计算精度的条件下,利用电力云的强大计算能力, 提高K-最近邻算法的执行效率。同时由于MapReduce编程框架只能一次读取数据集,在此 基础上,对MapReduce编程框架进行了改进,加入了 Merge函数,通过Map、Reduce和Merge 三个阶段完成K-最近邻算法的执行过程。本发明根据K最近邻算法的特点,对该框架进行了一些改进,在此基础上重新设 计了 K最近邻算法,并使用这种算法对电力公司文档进行自动分类,快速完成大量的文档 分类任务,大幅缩短文档分类任务的执行时间,提高分类效率;且具备健壮性。


图1是本发明的流程框图。
具体实施例方式一种本发明所述的电力云环境下基于K最近邻算法的文档自动分类方法,该方法 对云计算的MapReduce编程框架进行了改进,其中Map函数完成文档相似性的计算,reduce 函数规约出相似性最高的K个样本,统计最近邻所属各个类别的权重,并输出权重最大的 类别,具体内容包括
利用电力系统信息库里的元数据,构造电力系统行业专用的的特征词词典、禁用词词 集以及概念集。然后将训练集文档进行结构化处理,建立模型,根据禁用词集去除无用、虚 泛的禁用词;根据特征词词典对文档进行分词;根据概念集将不同表达方式的相同概念映 射为同一概念。将处理后的结构化文档进行特征项提取并处理,最后生成文档矢量库。根据 该矢量库将训练集文档以及待分类的新文本文档进行再处理,表示为一个空间向量模型。将训练集文档的空间向量模型以及待分类的新文档的空间向量模型,也就是一个 矩阵,按行以文件保存在分布式文件系统(DFS)上,每一行就是一个文档的空间向量模型表示。Map函数从DFS按& La〉读取文件记录,并计算训练文档和新文档之间的相似度,将本 结点相似度Top-k个结果作为中间结果返回。Reduce函数汇聚所有Map结点产生的中间结 果,计算用户K-最近邻集合N(U)。Merge函数基于N(U),再次读取DFS上的行文件或列文 件,计算出K-最近邻集合中每个类的权重P (x, u)。将权重输入到缓存,并排序,找出其中最大的权重的类。将该类别作为结果输出, 完成文档自动分类。实施时,具体步骤如下
1.文档的预处理。将电力公司文档进行结构化处理,根据电力系统的元数据,将文档进 行分词,同时去除禁用词并进行概念映射。2.特征项抽取,并进行缩减,使之能深度刻画电力系统中文档的类别。3.将训练文本根据特征项,保存为空间向量模型。即以向量表示文本 (ω1; ω2,...,ωη)其中ω i是第i个特征项的权重。4.将训练文本的向量按行进行存储,并将各训练文本的类别同时进行存储,所有 文件由分布式文件系统统一管理,对用户透明;
5.将新文本根据特征项,保存为空间向量模型,待处理。6. Map函数从DFS读取文件记录,用相似度计算公式计算新文本向量和分布式文 件系统DFS读取的各训练文本之间的相似度。并将本结点产生的相似度K-top个结果作为 中间结果返回。7. Reduce函数汇聚所有Map结点产生的中间结果,将其进行队列排序,规约出其 中相似度最高的K个训练文本向量,生成K最近邻集合N(U)。8. Merge根据权重计算公式,再次读取DFS上的文件记录,找出在上一步得到的K 个训练文本向量,基于上一步生成K最近邻集合N(U),计算每一类的权重。输出到缓存里。9.将缓存里的各类的权重进行排序,找出最大的权重,其所属的类别就是新文本 的类别。本发明能大幅缩短文档分类任务的执行时间,提高分类效率,且具备健壮性。
权利要求
1. 一种电力云环境下基于K最近邻算法的文档自动分类方法,其特征在于该方法对云 计算的MapReduce编程框架进行了改进,其中Map函数完成文档相似性的计算,reduce函数 规约出相似性最高的K个样本,统计最近邻所属各个类别的权重,并输出权重最大的类别, 具体内容包括1)利用电力系统信息库里的元数据,构造电力系统行业专用的的特征词词典、禁用词 词集以及概念集;然后将训练集文档进行结构化处理,建立模型,根据禁用词集去除无用、 虚泛的禁用词;根据特征词词典对文档进行分词;根据概念集将不同表达方式的相同概念 映射为同一概念;将处理后的结构化文档进行特征项提取并处理,最后生成文档矢量库; 根据该矢量库将训练集文档以及待分类的新文本文档进行再处理,表示为一个空间向量模 型;2)将训练集文档的空间向量模型以及待分类的新文档的空间向量模型,按行以文件 保存在分布式文件系统上,每一行表示一个文档的空间向量模型表示;Map函数从DFS按 <a, La>读取文件记录,并计算训练文档和新文档之间的相似度,将本结点相似度Top-k个 结果作为中间结果返回;Reduce函数汇聚所有Map结点产生的中间结果,计算用户K-最近 邻集合N(U) ;Merge函数基于N(u),再次读取DFS上的行文件或列文件,计算出K-最近邻 集合中每个类的权重P (X,u);3)将权重输入到缓存,并排序,找出其中最大的权重的类,将该类别作为结果输出,完 成文档自动分类。
全文摘要
本发明公开了一种电力云环境下基于K最近邻算法的文档自动分类方法,该方法对云计算的MapReduce编程框架进行了改进,其中Map函数完成文档相似性的计算,reduce函数规约出相似性最高的K个样本,统计最近邻所属各个类别的权重,并输出权重最大的类别,对文档进行自动分类。本发明快速完成大量的文档分类任务,大幅缩短文档分类任务的执行时间,提高分类效率;且具备健壮性。
文档编号G06F17/30GK102147813SQ201110086018
公开日2011年8月10日 申请日期2011年4月7日 优先权日2011年4月7日
发明者王磊, 祁建, 赵俊峰 申请人:江苏省电力公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1