爬取网站页面的方法、装置及系统与流程

文档序号:11156972阅读:363来源:国知局
爬取网站页面的方法、装置及系统与制造工艺

本发明涉及互联网领域,尤其涉及一种爬取网站页面的方法、装置及系统。



背景技术:

网络爬虫是一种自动获取网页内容的程序,是搜索引擎的重要组成部分。在爬虫爬取网站页面内容期间,对于网站域名的DNS(Domain Name System,域名系统)解析工作是非常重要的。一个DNS域名的解析工作通常是将网站的域名转换为IP(Internet Protocol,互联网)地址,但是在DNS解析域名IP的过程中可能存在各种隐患。例如,当DNS服务器遭到污染时(例如受到黑客攻击),DNS服务器对于一些网站域名的IP指向会被篡改,会导致爬虫根据错误的IP地址,爬取错误的地址页面。

发明人在实现本发明的过程中,发现至少存在如下问题:

当DNS服务器遭到污染、导致对于一些网站域名的IP指向被篡改时,无法根据域名获取正确IP地址。



技术实现要素:

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的爬取网站页面的方法、装置及系统。

一方面,本发明提供一种爬取网站页面的方法,所述方法包括:

获取爬虫爬取的超文本传输协议HTTP地址;

检测所述HTTP地址是否异常;

当检测到所述HTTP地址异常时,按照预设规则修改所述HTTP地址;

将修改后的HTTP地址发送至预设域名系统DNS服务器,以使所述预设DNS服务器根据所述修改后的HTTP地址得到对应的IP地址,所述IP地址与所述HTTP地址相对应;

接收所述预设DNS服务器发送的IP地址,访问所述IP地址以爬取所 述HTTP地址对应的网站页面。

另一方面,本发明提供了一种爬取网站页面的装置,所述装置包括:

获取单元,用于获取爬虫爬取的超文本传输协议HTTP地址;

检测单元,用于检测所述获取单元获取的所述HTTP地址是否异常;

修改单元,用于当所述检测单元检测到所述HTTP地址异常时,按照预设规则修改所述HTTP地址;

发送单元,用于将所述修改单元修改后的HTTP地址发送至预设域名系统DNS服务器,以使所述预设DNS服务器根据所述修改后的HTTP地址得到对应的IP地址,所述IP地址与所述HTTP地址相对应;

访问单元,用于接收所述预设DNS服务器发送的IP地址,访问所述IP地址以爬取所述HTTP地址对应的网站页面。

借由上述技术方案,本发明提供的爬取网站页面的方法、装置及系统,当爬虫爬取的HTTP地址异常时,可以将该HTTP地址转发到预设DNS服务器,从所述预设DNS服务器获取与所述HTTP地址对应的正确的IP地址,从而使得所述爬虫爬取正确的网站页面内容。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了本发明实施例中的一种爬取网站页面的方法流程示意图;

图2示出了本发明实施例中的另一种爬取网站页面的方法流程示意图;

图3示出了本发明实施例中的一种爬取网站页面的装置框图;

图4示出了本发明实施例中的另一种爬取网站页面的装置框图;

图5示出了本发明实施例中的一种爬取网站页面的系统框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种爬取网站页面的方法,本实施例提供的方法适合应用于爬虫服务器,即部署有爬虫的服务器。值得说明的是,本实施例提供的方法稍作适应性修改,也可以适用于其他部署有爬虫的网络设备,对此不做限定。

为了便于理解,本实施例以爬虫服务器为例进行说明。如图1所示,本实施例提供的方法包括:

101、爬虫服务器获取爬虫爬取的HTTP(HyperText Transfer Protocol,超文本传输协议)地址。

其中,爬虫爬取的HTTP地址中包括待访问页面的域名。

102、爬虫服务器检测所述HTTP地址是否异常。

例如,当所述HTTP地址在一些区域无法正常访问时,可以判定所述HTTP地址发生异常。

103、当检测到所述HTTP地址异常时,爬虫服务器按照预设规则修改所述HTTP地址。

104、爬虫服务器将修改后的HTTP地址发送至预设DNS服务器,以使所述预设DNS服务器根据所述修改后的HTTP地址得到对应的IP地址,所述IP地址与所述HTTP地址相对应。

105、爬虫服务器接收所述预设DNS服务器发送的IP地址,访问所述IP地址以爬取所述HTTP地址对应的网站页面。

本实施例中,所述HTTP地址是指爬虫爬取的地址。

本发明提供的爬取网站页面的方法,当爬虫爬取的HTTP地址异常时,可以将该HTTP地址转发到预设DNS服务器,从所述预设DNS服务器获 取与所述HTTP地址对应的正确的IP地址,从而使得所述爬虫爬取正确的网站页面内容。

基于图1所示实施例,本实施例还提供一种爬取网站页面的方法,如图2所示,所述方法包括:

201、爬虫服务器获取爬虫爬取的HTTP地址。

为了便于理解,本实施例以爬虫爬取到的HTTP地址为“http://www.baidu.com/index.htm”为例进行说明。

202、检测所述HTTP网址是否存在无法正确访问的记录,即检测“http://www.baidu.com/index.htm”是否存在无法正确访问的记录。

203、当检测到所述HTTP网址存在无法正确访问的记录时,确定所述HTTP网址存在异常。

例如,当检测到存在“http://www.baidu.com/index.htm”在一些省份区域无法正常访问时,则判定该网址存在异常。

值得说明的是,步骤203由监控模块执行,所述监控模块用于监控网址在不同区域的访问情况。所述监控模块可以是一个独立的、与爬虫服务器联通的设备,也可以是配置在爬虫服务器上的一个功能模块,本实施例不做限定。

204、当检测到所述HTTP地址异常时,获取预设DNS服务器的地址,爬虫服务器将所述预设DNS服务器的地址添加到所述HTTP地址中,得到修改后的HTTP地址。其中,所述预设DNS服务器是运行正常的DNS服务器,所述DNS服务器具备执行正确域名解析的能力。

例如,一种可能的修改方式是,修改后的HTTP地址为

“http://预设DNS服务器的IP地址/getHostPage?host=

www.baidu.com&address=http://www.baidu.com/index.htm”

例如,预设DNS服务器的地址为“192.168.3.133”,则修改后的HTTP地址为“http://192.168.3.133/getHostPage?host=

www.baidu.com&address=http://www.baidu.com/index.htm”。

205、爬虫服务器基于所述修改后的HTTP地址中的所述预设DNS服务器的地址,确定所述预设DNS服务器,将所述修改后的HTTP地址发送 至所述预设DNS服务器。

206、所述预设DNS服务器对所述修改后的HTTP地址进行解析,得到所述爬虫爬取的所述HTTP地址,查找与所述HTTP地址对应的IP地址。

例如,预设DNS服务器对则修改后的HTTP地址“http://192.168.3.133/getHostPage?host=www.baidu.com&address=http://www.baidu.c om/index.htm”进行解析,得到爬虫爬取的HTTP地址为“http://www.baidu.com/index.htm”,通过DNS映射确定对应的IP地址,例如对应的IP地址为“192.168.1.1”,则将所述爬虫爬取的HTTP中的域名替换为所述IP地址,得到的结果为“http//192.168.1.1/index.htm”。

207、预设DNS服务器采用HTTP302协议将所述得到的IP地址发送给爬虫服务器。

208、爬虫服务器接收所述预设DNS服务器采用HTTP302协议发送的所述IP地址,根据所述IP地址跳转至相应网站页面。

爬虫服务器得到的是一个HTTP的跳转地址,就像是在用浏览器访问页面时被自动跳转到了别的网站一样,爬虫服务器拿到这个跳转地址后随即访问这个跳转地址,从而拿到了http://www.baidu.com/index.htm这个页面的真实HTML内容。

通过本实施例提供的爬取网站页面的方法,当爬虫爬取的HTTP地址异常时,可以将该HTTP地址转发到预设DNS服务器,从所述预设DNS服务器获取与所述HTTP地址对应的正确的IP地址,从而使得所述爬虫爬取正确的网站页面内容,提升爬虫爬取数据的质量。

本发明实施例还提供了一种爬取网站页面的装置,能够实现上述图1和图2所示的方法实施例。如图3所示,所述爬取网站页面的装置包括:

获取单元31,用于获取爬虫爬取的超文本传输协议HTTP地址;

检测单元32,用于检测所述获取单元31获取的所述HTTP地址是否异常;

修改单元33,用于当所述检测单元32检测到所述HTTP地址异常时,按照预设规则修改所述HTTP地址;

发送单元34,用于将所述修改单元33修改后的HTTP地址发送至预设 域名系统DNS服务器,以使所述预设DNS服务器根据所述修改后的HTTP地址得到对应的IP地址,所述IP地址与所述HTTP地址相对应;

访问单元35,用于接收所述预设DNS服务器发送的IP地址,访问所述IP地址以爬取所述HTTP地址对应的网站页面。

本发明实施还提供一种爬取网站页面的装置,如图4所示,

所述检测单元32包括:

检测模块321,用于检测所述HTTP网址是否存在无法正确访问的记录;

判断模块322,用于当所述检测模块321检测到所述HTTP网址存在无法正确访问的记录时,确定所述HTTP网址存在异常。

所述修改单元33包括:

获取模块331,用于获取所述预设DNS服务器的地址;

修改模块332,用于将所述获取模块331获取的所述预设DNS服务器的地址添加到所述HTTP地址中,得到修改后的HTTP地址;

所述发送单元34,用于基于所述修改后的HTTP地址中的所述预设DNS服务器的地址,确定所述预设DNS服务器,将所述修改后的HTTP地址发送至所述预设DNS服务器。

所述访问单元35,包括:

接收模块351,用于接收所述预设DNS服务器采用HTTP302协议发送的所述IP地址;

调整模块352,用于根据所述接收模块351接收的所述IP地址跳转至相应网站页面。

通过本实施例提供的爬取网站页面的装置,当爬虫爬取的HTTP地址异常时,可以将该HTTP地址转发到预设DNS服务器,从所述预设DNS服务器获取与所述HTTP地址对应的正确的IP地址,从而使得所述爬虫爬取正确的网站页面内容,提升爬虫爬取数据的质量。

本发明还一种爬取网站页面的系统,能够实现图1和图2所示的方法,如图5所示,所述系统包括爬虫服务器51,预设DNS服务器52;

所述爬虫服务器51用于将异常的HTTP地址修改后发送给所述预设 DNS服务器52;

所述预设DNS服务器52是运行正常的DNS服务器,所述DNS服务器具备执行正确域名解析的能力;所述预设DNS服务器52用于接收修改后的HTTP地址,对所述修改后的HTTP地址进行解析,得到爬虫爬取到的HTTP地址,查找与所述HTTP地址对应的IP地址。

所述爬取网站页面的装置包括处理器和存储器,上述获取单元、检测单元、修改单元、发送单元和访问单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来爬取网站页面。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取爬虫爬取的HTTP地址;检测所述HTTP地址是否异常;当检测到所述HTTP地址异常时,按照预设规则修改所述HTTP地址;将修改后的HTTP地址发送至预设DNS服务器,以使所述预设DNS服务器根据所述修改后的HTTP地址得到对应的IP地址,所述IP地址与所述HTTP地址相对应;接收所述预设DNS服务器发送的IP地址,访问所述IP地址以爬取所述HTTP地址对应的网站页面。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中 的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载 波。

以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1