并行式关联布告栏爬虫系统的制作方法

文档序号:6468302阅读:141来源:国知局
专利名称:并行式关联布告栏爬虫系统的制作方法
技术领域
本发明涉及网络数据釆集系统,尤其涉及一种并行式关联布告 4兰爬虫系统。
背景技术
进入信息社会,人们社会的工作形式进行着翻天覆地的变化 从以前的用粉笔在黑板上写字来通知工作事宜,发展到用纸张贴在 面板上通知工作信息,到现在无纸化办/>利用电子布告栏通知工作 资讯。越来越多的人们发现电子布告栏的及时和便利,这使得越来 越多的学校、企业等为了提高工作效率纷纷建立起电子布告栏系 统。但是随着学校和企业的扩大,每个学校或者企业不可能只有一 个电子布告栏。通常在大型的学4交里几乎每个学院都有自己独立的 电子布告栏。在大型的企业中每个子公司一个电子布告栏,甚至是 每个部门 一个专用的电子布告栏。在方便人们的同时也带来了 一些 问题,如,学生选择的课程是夸院系的,就要分别去到各个学院的 布告栏去查询有关i果程的通知,这不但_效率{氐下而且有可能再查过 之后,由于通知信息并没有综合在一起仍然会不小心选择互相冲突 的课程。同样的情况在大公司中就更加容易发生了。庞大的企业在 高效运作中, 一定会在不同的部门和不同的子公司之间发生各种复 杂的业务往来。而这就更加急迫地要求综合各个部门和各个子/>司 的布告栏信息,否则后果不堪设想,轻则出现工作效率低下,重则 出现运作异常最终导致瘫痪。而现行的4叟索引擎无力改变现状。为 了解决这一棘手问题,人们提出复式综合布告栏搜索引擎系统的思
3虫子系统以外的其他子系统对于数据 的处理是不关心形式的,所以在复式综合布告栏搜索引擎系统中这 些子系统对于数据的处理是几乎相同的。而恰恰相反的是爬虫子系 统是tt据,敏感的,原来的方法才艮本不能够直4妄运用,这就《合系统的 开发设置了巨大的障碍。因此,复式综合布告栏搜索引擎系统的爬 虫子系统便成为当前一个搜索领域的焦点问题。目前,还没有一种 系统的行之有效的复式综合布告栏搜索引擎系统的爬虫子系统。
由于为了综合各个电子布告栏上的信息而布告栏上的信息很 多且具有时效性,这就要求爬虫系统有很高的采集效率。采集效率 成为一个布告栏爬虫的并瓦颈。本发明通过并4亍爬耳又器来突石皮该弁瓦 颈。由于为了综合各个电子布告栏上的信息就必须知道数据的出 处,而布告栏上除了网页能够标识来源以外其他的凄t据都不能够标 识出处。凄史据的无源性成为布告栏爬虫的另一个重要难题。本发明 通过lt据关联器来解决这一难题。

发明内容
针对现有技术存在的问题,本发明的目的是提供一种高效、信 息综合的爬虫系统。
为达到上述目的,本发明^是供一种并^f亍式关耳关布告栏爬虫系
统,其特征在于包括
并4亍爬取器,用于乂人各个对应的布告栏上下载网页;
超链接剥离器,用于从网页中分离出超链接;
数据分拣器,用于将不同的数据超链接分别送入所述存储器
中;
网页超链接存储器,用于存储网页的超链接; 数据关联器,用于在网页和数据之间建立关联信息;存储器,用于下载存储各个数据;
超链接投递器,用于将超链接投递给所述相应的并行爬取器。
所述系统中,所述凄t据关耳关器包括
网页超链接緩存器,用于暂时存储网页超链接;
关联信息写入器,用于将网页和数据之间的关联信息写入所述 存储器中。
本发明的有益效果在于,通过应用本发明所描述的系统,可以 为开发复式综合布告栏搜索引擎系统的爬虫系统提供通用的设计 架构;可以有效地快速地将多个布告栏信息综合分类,并且获得分 类关联的信息数据集;从而为复式综合布告栏搜索引擎系统的其他 子系统的设计和开发创造Y更利的条件和基础,尤其是给;险索子系统 提供设计开发的便利,大大地提高系统的开发效率和降低系统的开 发成本。
结合附图,本发明的其他特点和优点可以从下面通过举例来对


图1是才艮据本发明的一个实施方式的系统的结构图。 图2示出图1中凄史据关耳关器内部结构的一个例子。
具体实施例方式
下面将结合附图对本发明的具体实施方式
进行详细描述。
图1是才艮据本发明的一个实施方式的系统的结构图。101表示 并行爬取器,102表示超链接剥离器,103表示数据分拣器,104表示网页超链4妻存J诸器,105表示凄t据关联器,106表示存储器,以 及107表示超链接投递器。需要指出的是下文所述的布告栏可以是 企业、学校的,也可以是出自其他地方的,这仅仅是举例,布告栏 的不同出处不构成对本发明的限制。
并4亍爬耳又器101,用于/人各个只于应的布告栏上下载网页。同一 时刻,若只有一个爬去器在爬去一个布告栏,显然这样效率低下且 不能达到实时性的要求。为了提高爬取效率, 一个并行爬取器101 的具体实施例是利用多线程技术,每一个线程引导一个并行爬取
器,多个线程可以在同一时刻同时工作,这样就使得多个并行爬取 器在同一时刻同时采集不同的布告栏,极大的提升爬取效率。并行 爬取器的个数通常由布告栏的个lt决定。以上是并行爬取器101的 一个具体实施例,其〗也不同的实施例不构成乂于本发明的限制。
超4连4妄剥离器102,用于从网页中分离出超链接。 一个超链4妾
语言中的超链4妄标记,如src, href等等,从而将超链接从网页中剥 离出来。以上是超链接剥离器102的一个具体实施例,其他不同的 实施例不构成对本发明的限制。
数据分拣器103 ,用于将不同的数据超链接分别送入存储器中。 一个数据分拣器103的具体实施例是通过超链接本身包含的数据类 型信息,将数据按类型分开。如.doc、 .htm、 .xls、 .rar等等的超链 接后缀名。通过字符串匹配超链接的后缀名,然后将其分拣,如, 匹配文本后缀名.doc,将其送入存储器的文本库中;匹配压缩文件 后缀名.rar,将其送入存储器的压缩文件库中;匹配网页后缀名.htm, 将其送入网页超链接存储器中。以上是数据分拣器103的一个具体 实施例,其他不同的实施例不构成对本发明的限制。网页超链接存储器104,用于存储网页的超链接。 一个网页超 链接存储器104的具体实施例是通过文件系统将网页超链4妄存入。 以上是网页超链接存储器104的一个具体实施例,其他不同的实施 例不构成对本发明的限制。
数据关耳关器105,用于在网页和数据之间建立关联信息。 一个 具体实施例在图2中所示。
存储器106,用于下载存储各个数据。 一个存储器106的具体 实施例是通过现有的关系型数据库建立不同的数据子库分别存储-不同类型的凄t据。如,在凄丈据库建立文本库存4诸文本;在凄丈据库建 立压缩文件库存储压缩文件;在凄t据库建立图<象库存*者图<象凄丈据等 等。以上是存储器106的一个具体实施例,其他不同的实施例不构 成对本发明的限制。
超链接投递器107,用于将超链接投递给所述相应的并行爬取 器。 一个超链接投递器107的具体实施例是检测网页超链接存储器 104中是否还有未被处理的超链接,若还有未被处理的超链接,贝'J 读取此超链接,然后按照超链接本身信息中所包含的布告栏标识信 息将超链接投递给并行爬取器101与布告栏标识信息相应的爬耳又 器;若没有未被处理的超链接,则爬虫系统停止。如布告栏超链接 http:〃buptoa.bupt.edu.cn/student—broad.nsf/AuthorView OpenView禾口 http:〃buptoa.bupt.edu.cn/broad.nsf/depView—qt Open"View, 从超链4妄 的部分字才寻串"http:Vbuptoa.bupt.edu.cn/student—broad.nsf,和
"http:〃buptoa.bupt.edu.cn/broad.nsf,中可以-彈出这是同 一个主片几下 的两个独立不同的布告栏,通过读取以上标识并爿夸其4殳递给不同的 爬取器实现并行和高效地采集。以上是超链接投递器107的一个具 体实施例,其他不同的实施例不构成对本发明的限制。图2示出图l中数据关联器内部结构的一个例子。除了it据关
联器105以外,图2中的各部件与图1中的各部件相同。
如图2所示,数据关联器105包括网页超链接緩存器1051和 关联信息写入器1052。
网页超链接緩存器1051,用于暂时存储网页超链接。 一个网页 超链接緩存器1051具体实施例是通过文件系统将在超链接剥离器 102中被剥离的网页的超链接暂时存储。当网页超链接緩存器1051 将信息传递给关联信息写入器1052后就重置,释放资源。以上是 网页超《连4妄緩存器1051的一个具体实施例,其他不同的实施例不 构成对本发明的限制。
关联信息写入器1052,用于将网页和数据之间的关联信息写入 所述存储器中。 一个关联信息写入器1052具体实施例是首先从网 页超链接緩存器1051中获取緩存的网页超链接,然后将此网页超 链接通过字符串匹配提取出其中的布告栏标识信息,最后在数据存 4诸到存4诸器106之前将此布告栏标识信息和网页超链4矣写入凄t据的 开头处。以上是关写关信息写入器1052的一个具体实施例,其他不 同的实施例不构成对本发明的限制。
以上结合附图描述了本发明的具体实施方式
,各种举例说明不 对发明的实质内容构成限制,本发明不限于上面提供的实施细节, 可以在不脱离本发明特征的情况下以另外的实施例实现。所属技术 领域的普通技术人员在阅读了说明书后可以对以前所述的具体实 施方式^L修改或变形,而不背离发明的实质和范围。
权利要求
1. 一种并行式关联布告栏爬虫系统,其特征在于包括并行爬取器,用于从各个对应的布告栏上下载网页;超链接剥离器,用于从网页中分离出超链接;数据分拣器,用于将不同的数据超链接分别送入所述存储器中;网页超链接存储器,用于存储网页的超链接;数据关联器,用于在网页和数据之间建立关联信息;存储器,用于下载存储各个数据;超链接投递器,用于将超链接投递给所述相应的并行爬取器。
2. 才艮据权利要求1所述的并行式关联布告栏爬虫系统,其特4正在 于,所述数据关联器包括网页超链接緩存器,用于暂时存储网页超链接;关联信息写入器,用于将网页和数据之间的关联信息写 入所述存储器中。
全文摘要
本发明公开了一种并行式关联布告栏爬虫系统,包括以下部件并行爬取器,超链接剥离器,数据分拣器,网页超链接存储器,数据关联器,存储器,以及超链接投递器。通过应用本发明所描述的系统,可以为开发复式综合布告栏搜索引擎系统的爬虫系统提供通用的设计架构;可以有效地快速地将多个布告栏信息综合分类,并且获得分类关联的信息数据集;从而为复式综合布告栏搜索引擎系统的其他子系统的设计和开发创造便利的条件和基础,尤其是给检索子系统提供设计开发的便利,大大地提高系统的开发效率和降低系统的开发成本。
文档编号G06F17/30GK101446953SQ20081018082
公开日2009年6月3日 申请日期2008年11月25日 优先权日2008年11月25日
发明者徐蔚然, 溥 杨, 军 郭 申请人:北京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1