布告栏搜索引擎的爬虫系统构建方法

文档序号:6468301阅读:156来源:国知局
专利名称:布告栏搜索引擎的爬虫系统构建方法
技术领域
本发明涉及网络凄史据采集系统的构建方法,尤其涉及一种布告 栏:搜索引擎的爬虫系统构建方法。
背景技术
步入二十 一世纪,人们社会的工作形式进行着翻天覆地的变化从以前的用粉笔在黑板上写字来通知工作事宜,发展到用纸张 贴在面板上通知工作信息,到现在无纸化办公利用电子布告栏通知 工作资讯。越来越多的人们发现传统的布告栏越来越不能适应现代 化的发展,存在许多的硬伤。如,粉笔黑板,字迹容易模糊、易于 被别人涂改、更新极其麻烦,需要重新排版书写;纸张面板,贝占上 难以取下、需要很多纸张、只有到面前才能看到信息等等。而与之 呈现鲜明对比的是电子布告栏的及时和便利,如,容易及时更新、 存储量大、获取信息不需要到面前、不需要大量纸张、更加面向公 众化等等。这一系列优点使得越来越多的学校、企业等为了提高工 作效率纷纷建立起电子布告栏系统。^f旦是正是由于电子布告栏的容 易及时更新和存储量大使得人们被大量的信息所淹没,即使现行有 些布告栏能够将公告分类显示,但也是差强人意,因为经过研究显 示大量的布告栏信息是以附件的形式/>布在布告栏上的,如以文本 凄t据形式doc、 txt等;图表凄W居形式xls、 et等;类pdf教:据形 式pdf、 pdg等;图像数据形式jpeg、 png等。这些附件的数据 的内容是不能通过分类来得知的,即使是引用的网页也不能全部得 知。而当前的搜索引擎都是针对网页的,没有针对附件内容的搜索。因此,布告栏搜索引擎是当前 一 个十分前沿的搜索领域的焦点问 题。而爬虫系统作为布告栏4叟索引擎数据获耳又的子系统,自然而然 地成为焦点中的焦点。目前,还没有一种系统的4亍之有岁丈的布告栏 搜索引擎的爬虫系统构建方法。由于电子布告栏的信息主要内容分为如下五种数据形式网页 数据、文本凄t据、图表数据、类pdf数据、图傳_数据。"f旦是在布告 栏中类型混杂无层次的存在于布告栏中。这样就给搜索引擎的其他前,也还没有一种系统的4亍之有步丈的爬虫构建方法来为布告4兰」後索 引擎提供清晰类化的数据集。发明内容针对现有技术存在的问题,本发明的目的是提供一种布告栏搜 索引擎的爬虫系统构建方法。为达到上述目的,本发明的方法包括下列步-骤(1 )分冲斤处理网页页面;(2)分析和归类网页内超链接和超链接的指向数据;(3 )重复执行步骤(1 )和(2 ),直到超链接全部处理完为止。 上述方法中,步骤(l)进一步包括(11 )读取当前网页;(12)存储网页数据;(13)寻找网页包含的超链接。 上述方法中,步骤(2)进一步包括(21 )若当前超链接所指向的数据类型是文本数据,则存储该文 本数据;若当前超链接所指向的数据类型不是文本数据,则执行步 骤(22 );(22 )若当前超链接所指向的数据类型是图表数据,则存储该图 表数据;若当前超链接所指向的数据类型不是图表数据,则执行步 骤(23 );(23 )若当前超链接所指向的数据类型是类pdf数据,则存储该 类pdf数据;若当前超链接所指向的数据类型^是类pdf数据,则 执行步骤(24 );(24)若当前超链接所指向的数据类型是图像数据,则存储该图 像数据;若当前超链接所指向的数据类型不是图像数据,则执行步 骤(25 );(25 )若当前超链接所指向的数据类型是网页数据,则存储该网 页数据;若当前超链接所指向的数据类型不是网页数据,则丢弃不 存储该数据。上述方法中,步骤(3)进一步包括(31 )若当前页面包含的所有超《连4妄还没有处理完,则批^亍步骤 (13);若当前页面包含的所有超链4妄都处理完了 ,则4丸行步骤 (32);(32)若网页超《连接还没有处理完,则执4亍步-骤(11 );若网页 超链4妄都处理完了,则结束。本发明的有益效果在于,通过应用本发明所描述的方法,可以 为搭建布告栏搜索引擎系统所需的重要子系统--布告栏爬虫系统 提供通用的设计方法;可以为布告栏搜索引擎提供清晰类化的数据 集,从而简单便利化布告栏搜索引擎的其他部分的设计和开发,大 幅度地降低爬虫子系统和4叟索引擎大系统的开发成本。结合附图,本发明的其他特点和优点可以从下面通过举例来对 本发明的原理进4亍解释的优选实施方式的i兌明中变得更清楚。


图1是才艮据本发明的一个实施方式的方法的流程图。
具体实施方式
下面将结合附图对本发明的具体实施方式
进行详细描述。图1是根据本发明的一个实施方式的方法的流程图。该流程开始于步骤101,这些布告栏可以是企业、学校等的,需要指出的是这仅仅是举例,布告栏的不同出处不构成对本发明的限制。然后在步骤102中,读取当前网页。需要说明的是起始网页应当是包含超 链接丰富的布告栏页面,如布告栏的首页或导航页等,这仅仅是最 优举例,起始网页的不同不构成对本发明的限制。读取当前网页, 一种实施方式是通过HTTP协议向布告栏所在 的服务器发送网页正文获取请求,即通过给服务器发送请求建立连 接,而后通过传输得到网页正文的数据流。以上是读取当前网页的 一种实施例,其他不同的实施例不构成对本发明的限制。步艰《102之后,流禾呈进入步骤103。在步骤103,存储网页数据。 一个实施例是通过文件系统,将 网页以文本的形式存储。以上是存储网页数据的一种实施例,其他 不同的实施例不构成对本发明的限制。步骤103之后,流程进入步骤104。在步骤104,将步骤103中存储的网页数据进行超链接查找。下面通过网页结构并且结合一个实施例来it明。网页的结构一般包含如下三个部分显示性文本,网页样式结 构标记语言和动态脚本语言。其中直接与超链接相关联的是网页样 式结构标记语言,即现^亍的html语言。在html i吾言中超链4姿是以 "href,和"src"标识的。 一个实施例是通过字符串对比技术,在 网页中对比查找以上"href,和"src"的位置,乂人而查找到网页中 的超链接。以上是寻找网页包含的超链接的一个实施例,其他不同 的实施例子不构成对本发明的限制。步-骤104之后,;危禾呈进入步-骤105。在步骤105,将步骤104中寻找到的超链4妻进行分析判断指向 的数据是否为文本数据。文本数据可以是doc类型、txt类型等等, 需要指出的是这仅仅是举例,文本数据的不同类型不构成对本发明 的限制。 一个分析判断指向的数据是否为文本lt据的具体实施方式
是由于超链接的末尾部分都有标识^t据类型的后缀名,如 有.doc、 .htm、 .xls、 .rar等等。因为文本凄史才居类型是有限的几个, 而且预先可全部知道,这样可以直接通过正则表达式技术或字符串 查找技术,匹配包超链接的末尾部分标识数据类型的后缀名,即匹 配符号"."后面的部分。以如上举例的文本凄t:據类型为例子,匹配 符号"doc",若能够匹配上,则该数据为文本类型tt据;匹配符号 "txt",若能够匹配上,则该数据为文本类型lt据。以上是分析判 断指向的数据是否为文本数据的 一个实施方式,其他不同的实施方 式不构成对本发明的限制。需要说明的是以下步骤107,步骤109,步骤lll,步骤113分 析判断指向数据类型的原理是一样的,即通过后缀名分析判断,但 在具体实施方式
里有差别,即匹配的后缀名各不相同。若当前超链接所指向的lt据类型是文本数据,则流程进入步骤106;若当前超链接所指向的数据类型不是文本数据,则流程进入 步骤107。在步骤106,存^f诸文本tt据。 一个存^f诸文本^t据的具体实施方 式是通过建立文件系统存〗诸文本数据。以上是存储文本ft据的 一个 实施方式,其他不同的实施方式不构成对本发明的限制。需要说明的是以下步骤108,步骤IIO,步骤112,步骤114存 储数据的原理是一样的,即通过建立文件系统,但在具体实施方式
里有差别,即存储的是不同类型的数据。在步骤107,将步骤104中寻找到的超链接进行分析判断指向 的数据是否为图表数据。图表数据可以是xls类型、et类型等等, 需要指出的是这仅仅是举例,图表数据的不同类型不构成对本发明 的限制。 一个分析判断指向的数据是否为图表数据的具体实施方式
是因为图表数据类型是预先可全部知道的有限的几个,可以通过正 则表达式技术或字符串查找技术匹配后缀名。以如上举例的图表数 据类型为例子,匹配符号"xls"和"et",若能够匹配上其中之一, 则该数据为图表类型数据。以上是分析判断指向的数据是否为图表 数据的一个实施方式,其4也不同的实施方式不构成对本发明的限 制。若当前超链接所指向的数据类型是图表数据,则流程进入步骤 108;若当前超链接所指向的数据类型不是图表数据,则流程进入 步骤109。在步骤108,存储图表数据。 一个存储图表数据的具体实施方 式是通过建立文件系统存储图表数据。以上是存储图表数据的一个 实施方式,其4也不同的实施方式不构成只于本发明的限制。在步骤109,将步骤104中寻找到的超链接进行分析判断指向 的数据是否为类pdf数据。类pdf数据可以是pdf类型、pdg类型等 等,需要指出的是这仅仅是举例,类pdf数据的不同类型不构成对 本发明的限制。 一个分析判断指向的数据是否为类pdf数据的具体 实施方式是因为类pdf数据类型是预先可全部知道的有限的几个, 可以通过正则表达式技术或字符串查找技术匹配后缀名。以如上举 例的类pdf数据类型为例子,匹配符号"pdf,和"pdg",若能够匹 配上其中之一,则该凄t据为类pdf类型ft据。以上是分4斤判断指向 的凄t据是否为类pdf数据的一个实施方式,其4也不同的实施方式不 构成对本发明的限制。若当前超链接所指向的数据类型是类pdf数据,则流程进入步 骤110;若当前超链接所指向的数据类型不是类pdf数据,则流程 进入步骤111。在步骤110,存储类pdf数据。 一个存储类pdf ^t据的具体实 施方式是通过建立文件系统存储类pdf数据。以上是存储类pdf数 才居的一个实施方式,其j也不同的实施方式不构成只于本发明的限制。在步骤111,将步骤104中寻找到的超链接进行分析判断指向 的数据是否为图像数据。图像数据可以是jpeg类型、png类型等等, 需要指出的是这仅仅是举例,图像数据的不同类型不构成对本发明 的限制。 一个分析判断指向的数据是否为图像数据的具体实施方式
是因为图傳4t据类型是预先可全部知道的有限的几个,可以通过正 则表达式4支术或字符串查找4支术匹配后缀名。以如上举例的图傳J史 据类型为例子,匹配符号"jpeg"和"jpeg,,,若能够匹配上其中之 一,则该数据为图像类型数据。以上是分析判断指向的数据是否为 图像数据的一个实施方式,其他不同的实施方式不构成对本发明的 限制。若当前超链接所指向的数据类型是图像数据,则流程进入步骤112;若当前超链接所指向的数据类型不是图像数据,则流程进入 步骤113。在步骤112,存储图像数据。 一个存储图像数据的具体实施方 式是通过建立文件系统存储图像数据。以上是存储图像数据的 一个 实施方式,其他不同的实施方式不构成对本发明的限制。在步骤113,将步骤104中寻找到的超链接进行分析判断指向 的数据是否为网页数据。网页数据可以是html类型、htm类型等等, 需要指出的是这仅仅是举例,网页数据的不同类型不构成对本发明 的限制。 一个分析判断指向的数据是否为网页数据的具体实施方式
是因为网页数据类型是预先可全部知道的有限的几个,可以通过正 则表达式技术或字符串查找技术匹配后缀名。以如上举例的网页数 才居类型为例子,匹配f寻号"html"和"htm",若能够匹配上其中之 一,则该数据为网页类型ft据。以上是分析判断指向的数据是否为 网页数据的一个实施方式,其4也不同的实施方式不构成对本发明的 限制。若当前超链接所指向的数据类型是网页凄t据,则流程进入步骤 114;若当前超链接所指向的数据类型不是网页数据,则流程进入 步骤115。在步骤114,存储网页超链接。 一个存储网页超链接的具体实 施方式是通过建立文件系统存储网页超链接。以上是存储网页超链 才妄的一个实施方式,其他不同的实施方式不构成对本发明的限制。在步骤115,丟弃不存储4壬何#1据。步骤114之后,流程进入步骤116;步骤115之后,流程进入 步骤116。在步骤116,检测当前页面包含的所有超链接是否处理完,若 全部纟皮处理完了,则流程进入步骤117;若还有没有被处理的超链 接,则流程进入步骤104。在步骤117, 4企测在步骤114中存储网页超链接是否处理完, 若全部#1处理完了,则流禾呈进入步-骤118;若还有没有纟皮处理的超 链"l妄,则流程进入步骤102。在步艰《118,系统结束。以上结合附图描述了本发明的具体实施方式
,各种举例说明不 对发明的实质内容构成限制,本发明不限于上面提供的实施细节, 可以在不脱离本发明特征的情况下以另外的实施例实现。所属4支术 领域的普通技术人员在阅读了说明书后可以对以前所述的具体实 施方式估文z修改或变形,而不背离发明的实质和范围。
权利要求
1.一种布告栏搜索引擎的爬虫系统构建方法,其特征在于包括下列步骤(1)分析处理网页页面;(2)分析和归类网页内超链接和超链接的指向数据;(3)重复执行步骤(1)和(2),直到超链接全部处理完为止。
2. 才艮据权利要求1所述的布告栏4叟索引擎的爬虫系统构建方法, 其特征在于步骤(1 )进一步包括(11 )读耳又当前网页;(12)存储网页数据;(13 )寻找网页包含的超《连4妄。
3. 根据权利要求1所述的布告栏搜索引擎的爬虫系统构建方法, 其特征在于步骤(2)进一步包括(21) 若当前超链接所指向的数据类型是文本数据,则 存储该文本数据;若当前超链接所指向的数据类型不是文本数 据,则拍J亍步-骤(22);(22) 若当前超链接所指向的数据类型是图表数据,则 存储该图表数据;若当前超链接所指向的数据类型不是图表数 据,则执行步骤(23);(23 )若当前超链接所指向的数据类型是类pdf数据,则 存储该类pdf数据;若当前超链接所指向的数据类型不是类 pdflt据,则执4亍步-骤(24);(24) 若当前超链接所指向的数据类型是图像数据,则 存储该图像数据;若当前超链接所指向的数据类型不是图像数 据,则4丸行步4f (25);(25) 若当前超链接所指向的数据类型是网页数据,则 存储该网页数据;若当前超链接所指向的数据类型不是网页数 据,则丢弃不存储该数据。
4. 根据权利要求1所述的布告栏搜索引擎的爬虫系统构建方法, 其特征在于步骤(3)进一步包括(31 )若当前页面包含的所有超《连4妄还没有处理完,则 ,执行步骤(13 );若当前页面包含的所有超链接都处理完了 , 则#^亍步骤(32);(32)若网页超链4妄还没有处理完,则^丸^亍步艰《(11); 若网页超链接都处理完了,则结束。
全文摘要
本发明公开了一种布告栏搜索引擎的爬虫系统构建方法,该方法包括下列步骤(1)分析处理网页页面;(2)分析和归类网页内超链接和超链接的指向数据;(3)重复执行步骤(1)和(2),直到超链接全部处理完为止。通过应用本发明所描述的方法,可以为搭建布告栏搜索引擎系统所需的重要子系统——布告栏爬虫系统提供通用的设计方法;可以为布告栏搜索引擎提供清晰类化的数据集,从而简单便利化布告栏搜索引擎的其他部分的设计和开发,大幅度地降低爬虫子系统和搜索引擎大系统的开发成本。
文档编号G06F17/30GK101404025SQ20081018082
公开日2009年4月8日 申请日期2008年11月25日 优先权日2008年11月25日
发明者徐蔚然, 溥 杨, 军 郭 申请人:北京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1