一种分布式网络信息结构化处理方法

文档序号:8282357阅读:497来源:国知局
一种分布式网络信息结构化处理方法
【技术领域】
[0001]本发明涉及了网络信息采集领域的一种网络信息处理方法,特别是涉及了一种分布式网络信息结构化采集处理方法。
【背景技术】
[0002]分布式系统是通过将廉价的计算集群有效的组织起来,执行大规模数据运算和存储的系统。
[0003]分布式系统不同于单机系统,利用计算机集群进行数据运算和存储要平衡单节点计算能力和节点间的通信之间的代价,同时还要考虑集群中节点故障导致的系统有效性和数据的可恢复性等问题。Hadoop分布式处理与HDFS分布式文件系统是基于Google提出的Map/Reduce计算模型设计开发的开源分布式运算与存储系统。由于其有效的解决了分布式系统中的问题以及其架构的简洁通用性,在很多领域都得到了广泛的应用。
[0004]结构化聚类方法是聚类方法中的一种,与按内容进行聚类的方法不同,结构化聚类强调的是按照结构进行聚类,这就需要不同的相似度衡量方法。树编辑距离方法是一种衡量树状结构相似度的方法,将一棵树转换为另一棵树意味着在两棵树之间进行一系列的节点的插入,删除和替换,每一次操作耗费一定成本。若两棵树的结构差异大,意味着操作成本高,操作成本低则表明树的结构差异小。因此树的编辑距离表示的是两棵树转换所需要的最小成本。
[0005]网络信息采集通常也叫网络爬虫,被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。它可以自动采集所有其能够访问到的页面内容,以供搜索引擎等做进一步的处理。
[0006]现有的网络爬虫抓取到的信息是以原始网页的形式保存于存储系统中。这样的存储方式存在以下缺点,一是以原始网页的形式存储需要较大的存储空间;二是存储的信息中有大量的不相关信息,如广告等;三是以网页的形式对信息进行保存是一种半结构化的方式,相对于结构化的存储方式,半结构化的存储方式会给进一步信息的使用造成一定的障碍。

【发明内容】

[0007]本发明的目的在于针对现有网络信息采集技术的不足,提供了一种分布式网络信息结构化采集处理方法。
[0008]本发明采用的技术方案包括以下步骤:
[0009]I)对网络信息采集任务进行配置,将用户感兴趣的网页进行分类保存,作为目标网页;
[0010]2)对网络信息进行采集,通过多个map/reduce过程共同协作采集网页并进行结构化处理,保存在HDFS文件系统中;
[0011]3)将结构化处理后的网页采用树编辑距离的方式,进行结构化聚类;
[0012]4)对聚类后的网页信息进行结构化提取,保存到数据库中。
[0013]所述的步骤2)具体包括:
[0014]2.1)获取URL种子文件,将URL种子文件集合保存至HDFS文件系统的待抓取文件夹中,待抓取文件夹存放有要抓取的URL,并设置初始的层序数为I ;
[0015]2.2)判断待抓取文件夹中是否为空,若是,则跳转到步骤2.7);否则,进行下一步骤 2.3);
[0016]2.3)通过map/reduce过程对HDFS文件系统中的各个URL种子文件对应的网页进行采集,并保存在HDFS文件系统中网页存储文件夹存放,网页存储文件夹存放有未经加工的网页;
[0017]2.4)再通过map/reduce过程对网页存储文件夹中已抓取的网页从中提取解析出新的URL,并将新的URL保存在HDFS文件系统的临时文件夹中,临时文件夹存放有解析出来的 URL ;
[0018]2.5)通过map/reduce过程优化临时文件夹,过滤其中的URL,将重复的URL去掉,然后将结果在HDFS文件系统的待抓取文件夹中进行更新;
[0019]2.6)将层序数+1;
[0020]2.7)判断层序数,如果当前的层序数大于抓取深度值DeptJW进入步骤2.7),否则跳转到步骤2.2);
[0021]2.7)通过map/reduce的过程将上述步骤得到的多个网页存储文件夹合并为一个网页存储文件夹,并去掉其中重复的网页。
[0022]所述的步骤3)通过map/reduce过程进行聚类,具体步骤如下:
[0023]3.1)在map阶段,对于步骤2)得到的合并后的网页存储文件夹中的每一个网页,利用树编辑距离方法,分别计算每一个网页的标签树了1?民与每一个所述目标网页C i的标签树TREEci之间的树编辑距离DIS α,得到树编辑距离集合{DISC1,DISc2, DISc3,…,DIScJ,并生成键值对〈C;,WEB〉,然后从树编辑距离集合中选取最小树编辑距离DISemin,将最小树编辑距离DISemin对应的键值对〈C min,WEB>传给reduce阶段;
[0024]3.2)在reduce阶段,根据上述键值对〈Q,WEB>中键值将具有相同键的网页合并到一个文件DOCei中作为同一类网页,并保存在HDFS文件系统的结果文件夹中,每一个文件DOCa保存了具有相同网页结构的网页,得到结构化网页聚类结果{DOCa,DOCc2, DOCc3,…,DOCqJ,完成网页的结构化聚类。
[0025]所述的步骤4)根据步骤3)中得到的结构化网页聚类结果{D0Ca,DOCc2,DOCra,…,DOCqJ,对每一类网页进行提取,将网页中的信息提取出来保存到数据库中。
[0026]将所述网页中对应的标签树的节点提取到数据库中对应的字段。
[0027]所述不同类的网页采用不同的提取方式。
[0028]步骤I)对网络信息采集任务配置,是交互的接口。与搜索引擎的爬虫不同,本发明主要目的在于对于网络特定的信息源进行监控。作为信息源的用户感兴趣的网页可按内容类型分为文本信息、图片信息和视频信息等,也可按内容属性分为新闻信息和广告信息等。同时,不同信息源的更新频率也不尽相同。通过网络信息采集任务配置,可确定采集的信息源的信息,从而实现对不同类型信息源采取不同的采集方法。
[0029]步骤2)基于Hadoop分布式处理以及HDFS分布式文件系统,对步骤I)中定义的网络采集任务进行分布式抓取。
[0030]步骤3)进行网页结构化聚类,步骤2)抓取下来的网页还是以半结构化的文件形式存储在HDFS中,不能直接提取到数据库中。步骤3)采用树编辑距离的方式,对网页按其结构进行聚类。网页都是采用HTML进行编写,单个HTML文件可抽象成一个标签树的形式,具有相同信息的网页,其标签树也具有相似甚至相同的结构。为了衡量标签树的相似性,本发明采用了树编辑距离的方法,将步骤2)抓取到的网页进行分类。
[0031]步骤4)对网页信息结构化提取,根据步骤3)中结构化聚类的结果,以及步骤I)中对每一类网页的提取方式,将网页中的信息提取出来保存到数据库中。
[0032]本发明具有的有益效果是:
[0033]本发明采用了分布式的架构,利用廉价的计算机集群的计算以及存储能力来处理数据量庞大的网络数据;采用了树编辑距离的网页结构化聚类方式,有效的对网页进行分类;采用了结构化的方式对网络信息进行提取并保存,方便了对网络信息的进一步分析处理。
【附图说明】
[0034]图1是本发明实施步骤流程图。
[0035]图2是本发明步骤3.1)中的网页标签树。
【具体实施方式】
[0036]下面结合附图和实施例对本发明作进一步说明。
[0037]如图1所示,本发明包括以下步骤:
[0038]I)对网络信息采集任务进行配置,将用户感兴趣的网页进行分类保存,作为目标网页;可得到后续步骤用来聚类的目标网页集合IC1, c2, C3,…,CJ ;本发明的目标网页分类保存时,可对同一网站不同信息类型进行分类,比如同一网站中可能存在信息类可分为新闻类、产品数据类和图片类等。
[0039]2)对网络信息进行采集,通过多个map/reduce过程共同协作采集网页并进行结构化处理,保存在HDFS文件系统中。
[0040]步骤2)基于Hadoop分布式处理以及HDFS分布式文件系统,对步骤I中定义的网络采集任务进行分布式抓取。
[0041]2.1)获取URL种子文件,将URL种子文件集合保存至HDFS文件系统的待抓取文件夹中,待抓取文件夹存放有要抓取的URL,并设置初始的层序数为I ;
[0042]2.2)判断待抓取文件夹中是否为空,若是,则跳转到步骤2.7);否则,进行下一步骤 2.3);
[0043]2.3)通过map/reduce过程对HDFS文件系统中的各个URL种子文件对应的网页进行采集,并保存在HDFS文件系统中网页存储文件夹存放,网页存储文件夹存放有未经加工的网页;
[0044]2.4)再通过map/reduce过程对网页存储文件夹中已抓取的网页从中提取并解析出新的URL,并将新的URL保存在HDFS文件系统的临时文件夹中,临时文件夹存放有解析得到的URL ;
[0045]2.5)通过map/reduce过程优
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1