网页爬取方法及装置与流程

文档序号:11545135阅读:190来源:国知局
网页爬取方法及装置与流程

本发明涉及数据处理技术领域,尤其涉及一种网页爬取方法及装置。



背景技术:

爬虫是人们为了形象描述计算机程序在网络不断通过定制的入口网址去提取网页的链接,并根据这些链接再度抓取更深的其它未知的链接,以此下去,将这样的程序抓取形为形容成类似爬虫似的动作,称之为爬虫,爬虫是一种自动获取网页内容的程序。

目前,如果爬虫需要对网页中的某些特定链接进行爬取,比如爬取新浪主页上的有关于新闻内容的链接,现有爬虫的做法会将新浪主页中所有的链接全部抽取出来,然后对属于新闻内容的链接做出特殊标记,在做出特殊标签之后,爬取新浪主页中全部链接对应的网页内容,最后检索出带有特殊标记链接对应的网页内容,以此实现对网页中的某些特定链接进行爬取,因此现有爬取网页中特定链接对应内容的效率较低。



技术实现要素:

鉴于上述问题,提出了本发明,以便提供一种克服上述问题或者至少部分地解决上述问题的网页爬取方法及装置。

为达到上述目的,本发明主要提供如下技术方案:

一方面,本发明实施例提供了一种网页爬取方法,该方法包括:

爬虫程序接收爬虫任务,所述爬虫任务中包括需要爬取页面的url;

从预置规则表中获取与所述url匹配成功的url匹配规则对应的区域限制规则,所述预置规则表中存储有多个url匹配规则,每个url匹配规则至少对应一个区域限制规则,所述区域限制规则用于限制所述爬虫程序在所述url对应的页面中将要爬取的链接;

从所述url对应的页面中提取与所述区域限制规则匹配的链接;

爬取所述提取的链接对应的网页。

另一方面,本发明实施例还提供一种网页爬取装置,该装置包括:

接收单元,用于接收爬虫任务,所述爬虫任务中包括需要爬取页面的url;

获取单元,用于从预置规则表中获取与所述url匹配成功的url匹配规则对应的区域限制规则,所述预置规则表中存储有多个url匹配规则,每个url匹配规则至少对应一个区域限制规则,所述区域限制规则用于限制所述爬虫程序在所述url对应的页面中将要爬取的链接;

提取单元,用于从所述url对应的页面中提取与所述区域限制规则匹配的链接;

爬取单元,用于爬取所述提取的链接对应的网页。

借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:

本发明实施例提供的一种网页爬取方法及装置,爬虫程序首先接收爬虫任务,所述爬虫任务中包括需要爬取页面的url,然后从预置规则表中获取与所述url匹配成功的url匹配规则对应的区域限制规则,所述预置规则表中存储有多个url匹配规则,每个url匹配规则至少对应一个区域限制规则,所述区域限制规则用于限制所述爬虫程序在所述url对应的页面中将要爬取的链接,之后从所述url对应的页面中提取与所述区域限制规则匹配的链接,最后爬取所述提取的链接对应的网页。与目前通过对网页中需要爬取的链接做出特殊标记,然后从爬取的全部链接对应的网页内容中检索出特殊标记链接对应的网页内容相比,本发明实施例在接收到爬虫任务后,首先从预置规则表中获取与当前url匹配成功的url匹配规则对应的区域限制规则,然后从所述url对应的页面中提取与所述区域限制规则匹配的链接,最后爬取所述提取的链接对应的网页,因此通过本发明实现的对网页中特殊链接对应网页内容的爬取工作,无需爬取网页中全部链接对应的网页内容,只需对符合预置规则表中规则的链接进行爬取即可,从而本发明提高了对特定链接网页的爬取效率。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1为本发明实施例提供的一种网页爬取方法流程图;

图2为本发明实施例提供的另一种网页爬取方法流程图;

图3为本发明实施例提供的一种网页爬取装置的组成框图;

图4为本发明实施例提供的另一种网页爬取装置的组成框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

为使本发明技术方案的优点更加清楚,下面结合附图和实施例对本发明作详细说明。

本发明实施例提供了一种网页爬取方法,如图1所示,所述方法包括:

101、爬虫程序接收爬虫任务。

其中,所述爬虫任务中包括需要爬取页面的url。

102、从预置规则表中获取与所述url匹配成功的url匹配规则对应的区域限制规则。

其中,所述预置规则表中存储有多个url匹配规则,每个url匹配规则至少对应一个区域限制规则,所述区域限制规则用于限制所述爬虫程序在所述url对应的页面中将要爬取的链接。需要说明的是,预置规则表中存储的url匹配规则,和与url匹配规则对应的区域限制规则是根据用户的实际需求进行预先设定的,用于匹配爬虫任务中的url。其中,所 述url匹配规则中包括匹配类型和匹配内容,匹配类型具体可为左匹配,右匹配,包含正则匹配等,匹配内容可以是一个字符串或者正则表达式,本发明实施例不做具体限定。所述区域限制规则具体可以为路径表达式。

例如,爬虫任务中的url为http://www.sample.com/picture/123.html,预置规则表中的url匹配规则包括以下几种分别为:左匹配、http://www.sample.com/picture;左匹配、http://www.sample.com/news;左匹配、http://www.sample.com/weather。则将爬虫任务中的url和预置规则表中的url匹配规则进行匹配会发现,爬虫任务中的url和url匹配规则:左匹配、http://www.sample.com/picture匹配成功。

103、从所述url对应的页面中提取与所述区域限制规则匹配的链接。

对于本发明实施例,从预置规则表中获取到与所述url匹配成功的url匹配规则对应的区域限制规则之后,再从预置规则表中获取与所述url匹配成功的url匹配规则对应的区域限制规则。其中,所述区域限制规则具体可以为路径表达式,也可以为匹配类型和匹配内容组合的形式,本发明实施例不做具体限定。

例如,爬虫任务url为http://news.sina.com.cn/c/nd/?qq-pf-to=pcqq.c2c,从预置规则表中获取到与爬虫任务url匹配的url匹配规则为:左匹配、http://news.sina.com.cn。而在预置规则表中该url匹配规则对应的区域限制规则为:左匹配、http://blog.sina.com.cn/s/blog。则从所述url对应的页面中提取与所述区域限制规则匹配的链接,即从爬虫任务url的页面中提取能够左匹配路径表达式http://blog.sina.com.cn/s/blog的链接。

104、爬取所述提取的链接对应的网页。

在本发明实施例中,当爬虫程序接收到爬虫任务后,首先从预置规则表中获取与当前url匹配成功的url匹配规则对应的区域限制规则,然后从所述url对应的页面中提取与所述区域限制规则匹配的链接,最后爬取所述提取的链接对应的网页,因此通过本发明实现的对网页中特殊链接对应内容的爬取工作,无需爬取网页中全部链接对应的网页内容,只需对符合预置规则表中规则的链接进行爬取即可,从而本发明提高了对网页中特定链接内容的爬取效率。

本发明实施例提供了另一种网页爬取方法,如图2所示,所述方法包括:

201、爬虫程序接收爬虫任务。

其中,所述爬虫任务中包括需要爬取页面的url。

202、判断所述爬虫任务是否设置了区域爬取限制功能。

203、若是,则提取所述url的域名。

例如,爬虫任务url为http://www.sample.com/123.html,提取的domain为www.sample.com。

204、从所述预置规则表中获取与所述url的域名匹配的域名。

需要说明的是,由于爬虫任务中url的多样性,且同一域名下的网页基本属于一个样式,因此本发明实施例采用域名作为一级索引。如果没有域名作为一级索引的话,那么对于每一条需要做区域限制的网页都需要对所有的url匹配规则进行匹配操作。这样必定会造成爬虫系统的资源浪费,运行速度也会受到影响。因此本发明对url归属的域名做出归类,当对爬取任务中的url进行区域限制爬取时,通过提取的域名可以在预置规则表中找到对应的域名索引下的所有url规则项,然后根据域名索引下的所有url规则项对当前爬取任务的url做匹配。而无需对所有的url匹配规则进行匹配操作,从而本发明提高了爬取数据的速度。

对于本发明实施例,所述方法还包括:配置所述预置规则表中的数据,所述预置规则表存储有多个域名,每个域名至少对应一个url规则,每个url规则至少对应一个区域限制规则。所述区域限制规则用于限制所述爬虫程序在所述url对应的页面中将要爬取的链接。由于一条url匹配规则对应着的区域限制规则可能是多条,而同一域名下又有可能会有多条url匹配规则。一条域名对应的规则模式用json格式进行表示,如下所示,其中domain1和domain2表示的是域名,urlregulationg1表示的是url匹配规则,xpath1和xpath2表示urlregulationg1下的区域限制规则。

205、从所述获取的域名对应的url匹配规则中,获取与所述url匹配成功的url规则对应的区域限制规则。

206、对所述提取的链接进行去重处理。

在本发明实施例中,由于一个url匹配规则下可对应多个区域限制规则,而当url匹配规则对应多个区域限制规则时,会出现提取的链接为重复的状况,此时需要对提取的链接进行去重处理,以保证提取的链接为不重复的,进而避免了爬虫重复爬取网页数据的状况。

207、爬取所述去重后的链接对应的网页。

对于本发明实施例,当爬虫程序接收爬虫任务后,首先判断所述爬虫任务是否设置了区域爬取限制功能,若设置了区域爬取限制功能,则提取爬虫任务中url的域名,然后从所述预置规则表中获取与所述url的域名匹配的域名,接着从所述获取的域名对应的url匹配规则中,获取与所述url匹配成功的url规则对应的区域限制规则,最后对所述提取的链接进行去重处理,并爬取所述去重的链接对应的网页。因此通过本发明实现的对网页中特殊链接对应网页内容的爬取工作,无需爬取网页中全部链接对应的内容,只需对符合预置规则表中规则的链接进行爬取即可,从而本发明提高了对特定链接网页的爬取效率。

本发明实施例提供的一种网页爬取方法,爬虫程序首先接收爬虫任务,所述爬虫任务中包括需要爬取页面的url,然后从预置规则表中获取与所述url匹配成功的url匹配规则对应的区域限制规则,所述预置规则表中存储有多个url匹配规则,每个url匹配规则至少对应一个区域限制规则,所述区域限制规则用于限制所述爬虫程序在所述url对应的页面中将要爬取的链接,之后从所述url对应的页面中提取与所述区域限制规则匹配的链接,最后爬取所述提取的链接对应的网页。与目前通过对网页中需要爬取的链接做出特殊标记,然后从爬取的全部链接对应的网页内容中检索出特殊标记链接对应的网页内容相比,本发明实施例在接收到爬虫任务后,首先从预置规则表中获取与当前url匹配成功的url匹配规则对应的区域限制规则,然后从所述url对应的页面中提取与所述区域限制规则匹配的链接,最后爬取所述提取的链接对应的网页,因此通过本发明实 现的对网页中特殊链接对应网页内容的爬取工作,无需爬取网页中全部链接对应的网页内容,只需对符合预置规则表中规则的链接进行爬取即可,从而本发明提高了对特定链接网页的爬取效率。

进一步地,本发明实施例提供一种网页爬取装置,如图3所示,所述装置包括:接收单元31、获取单元32、提取单元33、爬取单元34。

接收单元31,用于接收爬虫任务,所述爬虫任务中包括需要爬取页面的url;

获取单元32,用于从预置规则表中获取与所述url匹配成功的url匹配规则对应的区域限制规则,所述预置规则表中存储有多个url匹配规则,每个url匹配规则至少对应一个区域限制规则,所述区域限制规则用于限制所述爬虫程序在所述url对应的页面中将要爬取的链接;

提取单元33,用于从所述url对应的页面中提取与所述区域限制规则匹配的链接;

爬取单元34,用于爬取所述提取的链接对应的网页。

需要说明的是,本发明实施例提供的一种基于网页爬取装置所涉及各功能单元的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。

进一步地,本发明实施例提供另一种网页爬取装置,如图4所示,所述装置包括:接收单元41、获取单元42、提取单元43、爬取单元44。

接收单元41,用于接收爬虫任务,所述爬虫任务中包括需要爬取页面的url;

获取单元42,用于从预置规则表中获取与所述url匹配成功的url匹配规则对应的区域限制规则,所述预置规则表中存储有多个url匹配规则,每个url匹配规则至少对应一个区域限制规则,所述区域限制规则用于限制所述爬虫程序在所述url对应的页面中将要爬取的链接;

提取单元43,用于从所述url对应的页面中提取与所述区域限制规则匹配的链接;

爬取单元44,用于爬取所述提取的链接对应的网页。

对于本发明实施例,所述预置规则表中还存储有多个域名,每个域名至少对应一个url匹配规则,

所述提取单元43,还用于提取所述url的域名;

所述获取单元42,还用于从所述预置规则表中获取与所述url的域名匹配的域名;

所述获取单元42,具体用于从所述获取的域名对应的url匹配规则中,获取与所述url匹配成功的url规则对应的区域限制规则。

在本发明实施例中,所述装置还包括:判断单元45;

所述判断单元45,用于判断所述爬虫任务是否设置了区域爬取限制功能;

所述提取单元43,具体用爬虫任务设置了区域爬取限制功能,则提取所述url的域名。

所述去重单元46,用于对所述提取的连接进行去重处理;

所述爬取单元44,具体用于爬取所述去重后的链接对应的网页。

需要说明的是,本发明实施例提供的一种网页爬取装置所涉及各功能单元的其他相应描述,可以参考图2所示方法的对应描述,在此不再赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。

本发明实施例提供的一种网页爬取装置,爬虫程序首先接收爬虫任务,所述爬虫任务中包括需要爬取页面的url,然后从预置规则表中获取与所述url匹配成功的url匹配规则对应的区域限制规则,所述预置规则表中存储有多个url匹配规则,每个url匹配规则至少对应一个区域限制规则,所述区域限制规则用于限制所述爬虫程序在所述url对应的页面中将要爬取的链接,之后从所述url对应的页面中提取与所述区域限制规则匹配的链接,最后爬取所述提取的链接对应的网页。与目前通过对网页中需要爬取的链接做出特殊标记,然后从爬取的全部链接对应的网页内容中检索出特殊标记链接对应的网页内容相比,本发明实施例在接收到爬虫任务后,首先从预置规则表中获取与当前url匹配成功的url匹配规则对应的区域限制规则,然后从所述url对应的页面中提取与所述区域限制规 则匹配的链接,最后爬取所述提取的链接对应的网页,因此通过本发明实现的对网页中特殊链接对应网页内容的爬取工作,无需爬取网页中全部链接对应的网页内容,只需对符合预置规则表中规则的链接进行爬取即可,从而本发明提高了对特定链接网页内容的爬取效率。

所述网页爬取装置包括处理器和存储器,上述接收单元、获取单元、提取单元、爬取单元、判断单元和去重单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高对网页中特定链接内容的爬取效率。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram),存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:爬虫程序接收爬虫任务,所述爬虫任务中包括需要爬取页面的url;从预置规则表中获取与所述url匹配成功的url匹配规则对应的区域限制规则,所述预置规则表中存储有多个url匹配规则,每个url匹配规则至少对应一个区域限制规则,所述区域限制规则用于限制所述爬虫程序在所述url对应的页面中将要爬取的链接;从所述url对应的页面中提取与所述区域限制规则匹配的链接;爬取所述提取的链接对应的网页。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流 程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读 介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1