一种利用分布式技术实现的数据采集与处理方法

文档序号:6652830阅读:615来源:国知局
专利名称:一种利用分布式技术实现的数据采集与处理方法
技术领域
本发明涉及利用分布式技术实现信息搜集及信息处理的方法,属于计算机网络和 和分布式计算的交叉技术应用领域。
背景技术
分布式技术是一种基于网络的计算机处理技术,由于个人计算机的性能得到极大 的提高及其使用的普及,使处理能力分布到网络上的所有计算机成为可能。Hadoop ( 一种并行运算编程工具)是一个开源的可运行于大规模集群上的分布式 并行编程框架,基于Hadoop,可以轻松地编写可处理海量数据的分布式并行程序,并将其 运行于由成百上千个结点组成的大规模计算机集群上。Hadoop框架中最核心的设计就是 MapReduce (映射与化简)和HDFS (分布式文件系统)。MapReduce的思想是由Google (谷 歌)的一篇论文所提及而被广为流传的,简单的说MapReduce就是“任务的分解与结果的 汇总”。"Map (映射),,就是将一个任务分解成为多个任务,"Reduce (化简),,就是将分解 后多任务处理的结果汇总起来,得出最后的分析结果。在Map前还可能会对输入的数据有 Split (分割)的过程,保证任务并行效率,在Map之后还会有amff Ie (混合)的过程,对于 提高Reduce的效率以及减小数据传输的压力有很大的帮助。HDFS则为分布式计算存储提 供了底层支持。使用Hadoop进行分布式计算的优势有1.可扩展不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。2.经济框架可以运行在任何普通的个人电脑上。3.可靠分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布 式处理的可靠性。4.高效分布式文件系统的高效数据交互实现以及MapReduce结合本地数据处理 的模式,为高效处理海量的信息作了基础准备。

发明内容
技术问题本发明的目的是提供一种利用分布式技术实现的数据采集与排序处理 方法,利用Hadoop技术从网络上的数据库中搜集与对象有关的数据,并对相关数据进行运 算,进而对对象进行排名的方法。技术方案本发明利用分布式技术实现的数据采集与排序处理方法的具体步骤如 下步骤1).通过分布式计算工具,向各大网络论文搜索引擎发送用户请求,从某一 类列表中依次读取该类列表中各子目录名称,并以此为关键字利用搜索引擎搜索与该子目 录名称相关的数据情况;步骤幻.抓取各搜索引擎返回的查询结果,并将其保存为超文本传输协议文件;步骤;3).利用分布式计算工具的超文本传输协议文件分析器分析得到的文件,将 其转换成爪哇对象,并通过遍历对象,获取需要的关键信息;
步骤4).通过数据清洗,去除与排序无关的信息,只保留所需排序的有关若干种 信息的收录情况,并按照此格式将处理过的数据保存入文档,每个子目录名称对应一个文 件;步骤5).遍历每个子目录名称对应的文件,查询其中是否有重复数据,若有则将 重复数据删除;步骤6).遍历每个子目录名称对应的文件,统计每个子目录名称中各种数据,步骤7)以每个子目录名称中各种数据计算每个子目录名称下的总得分,公式为
权利要求
1. 一种利用分布式技术实现的数据采集与排序处理方法,其特征在于此方法所包含的 步骤为步骤1).通过分布式计算工具,同时向各大搜索引擎发送用户请求,从某一类列表中 依次读取该类列表中各子目录名称,并以此为关键字利用搜索引擎搜索与该子目录名称相 关的数据情况;步骤幻.抓取各搜索引擎返回的查询结果,并将其保存为超文本传输协议文件; 步骤;3).利用分布式计算工具的超文本传输协议文件分析器分析得到的文件,将其转 换成爪哇对象,并通过遍历对象,获取需要的关键信息;步骤4).通过数据清洗,去除与排序无关的信息,只保留所需排序的有关若干种信息 的收录情况,并按照此格式将处理过的数据保存入文档,每个子目录名称对应一个文件;步骤幻.遍历每个子目录名称对应的文件,查询其中是否有重复数据,若有则将重复 数据删除;步骤6).遍历每个子目录名称对应的文件,统计每个子目录名称中各种数据, 步骤7)以每个子目录名称中各种数据计算每个子目录名称下的总得分,公式为
全文摘要
本发明提出了一种利用分布式技术实现的数据采集与排序处理方法,利用分布式技术从网络上的数据库中搜集与待排名对象有关的数据,并对相关数据进行运算,进而对对象进行排名的方法,并用此方法实现了一个大学学术排名系统。本方法可分为两个部分,第一部分为数据采集,第二部分为数据分析,第三部分为数据计算。数据采集部分通过分布式工具从网络数据库中采集相关数据,数据分析部分对数据采集部分得到的数据进行分析,并将分析结果保存在文本文件中。数据计算部分利用数据分析的结果计算对象的得分并对其进行排名。
文档编号G06F17/30GK102110164SQ201110047210
公开日2011年6月29日 申请日期2011年2月28日 优先权日2011年2月28日
发明者刘波, 李致远, 林巧民, 王汝传, 邵星, 韩志杰, 顾翔 申请人:南京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1