一种设置爬虫爬取时间间隔的方法及装置与流程

文档序号:11066194阅读:1802来源:国知局
一种设置爬虫爬取时间间隔的方法及装置与制造工艺

本发明涉及互联网技术领域,特别是涉及一种设置爬虫爬取时间间隔的方法及装置。



背景技术:

网络爬虫是一种自动获取网页内容的程序,爬虫从一个或若干个初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统一定的停止条件。在爬虫工作的过程中,特别是在检查网站更新量的时候,对没有更新或更新量很少的网站在短时间内多次爬取是没有必要的,因此有必要控制爬虫对同一个网站爬取的时间间隔,避免浪费爬虫资源。

目前通行的做法是人工设置网页的爬取时间间隔,包括对每个种子(爬虫需要爬取的页面url)单独进行设置和统一设置两种方式,统一的设置爬取时间间隔需要平衡更新量不同的网站,对于更新频繁的网站,期望时间间隔要尽量的短,对于更新不频繁的网站,期望时间间隔相对要长,因此一般设置的时间间隔都是这两种情况下的折中选择结果。但是折中的时间间隔一方面导致更新频繁的网站将无法及时的获取到更新内容,严重影响了更新时间的确定,另一方面导致更新不频繁的网站多次重复爬取,浪费了系统的爬虫资源。



技术实现要素:

有鉴于此,本发明提出了一种设置爬虫爬取时间间隔的方法及装置,主要目的在于解决无法为爬虫设置合理的爬取时间间隔而造成爬虫有效利用率低下的问题。

依据本发明的第一个方面,本发明提出了一种设置爬虫爬取时间间隔的方法,包括:

以默认爬取时间间隔对目标网站进行爬取;

获取目标网站在一段时间内的实际平均更新量;

判断实际平均更新量是否等于预设平均更新量;

当判断结果为否时,根据实际平均更新量、预设平均更新量以及默认爬取时间间隔设置爬虫爬取时间间隔。

依据本发明的第二个方面,本发明提出了一种设置爬虫爬取时间间隔的装置,包括:

爬取单元,用于以默认爬取时间间隔对目标网站进行爬取;

获取单元,用于获取目标网站在一段时间内的实际平均更新量;

判断单元,用于判断获取单元获取的实际平均更新量是否等于预设平均更新量;

设置单元,用于当判断结果为否时,根据获取单元获取的实际平均更新量、预设平均更新量以及默认爬取时间间隔设置爬虫爬取时间间隔。

借由上述技术方案,本发明实施例提供的设置爬虫爬取时间间隔的方法及装置,能够以默认爬取时间间隔对目标网站进行爬取,获取目标网站在一段时间内的实际平均更新量,判断实际平均更新量是否等于预设平均更新量;当判断结果为否时,根据实际平均更新量、预设平均更新量以及默认爬取时间间隔设置爬虫爬取时间间隔。与现有技术中为爬虫人工设置统一的爬取时间间隔造成的无法对频繁更新的网站进行及时爬取或者对更新不频繁的网站多次重复爬取浪费爬虫资源的缺陷相比,本发明能够通过对网站更新频率的自学习,自动对不同网站的爬取时间间隔进行设置,既能及时获取网站更新内容,又能避免爬虫资源的浪费。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了本发明实施例提供的一种设置爬虫爬取时间间隔的方法的 流程图;

图2示出了本发明实施例提供的一种设置爬虫爬取时间间隔的装置的组成框图;

图3示出了本发明实施例提供的另一种设置爬虫爬取时间间隔的装置的组成框图。

具体实施方式

下面将参照附图更加详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

在现有的爬虫爬取目标网站的过程中,为了能够保证对每个网站都能及时进行爬取,通常会为每个网站单独设置一个爬取时间间隔,但是这种方式需要耗费极大的人力成本,若为所有的目标网站统一设置一个爬取时间间隔,虽然节约了部分人力成本,但是又会出现设置的爬取时间间隔不准确的缺陷,一方面导致更新频繁的网站将无法及时的获取到更新内容,严重影响了更新时间的确定,另一方面导致更新不频繁的网站多次重复爬取,浪费了系统的爬虫资源。

为了解决无法为爬虫设置合理的爬取时间间隔而造成爬虫有效利用率低下的问题,本发明实施例提供了一种设置爬虫爬取时间间隔的方法,如图1所示,该方法包括:

101、以默认爬取时间间隔对目标网站进行爬取。

在本发明实施例中,当爬虫首次开始爬取目标网站的内容时,是以统一的爬取时间间隔进行爬取的,该爬取时间间隔是爬虫默认爬取时间间隔,是基于所有目标网站的更新频率选择的爬取时间间隔,该默认爬取时间间隔既不会对更新频率高的网站爬取过慢又不会对更新频率低的网站爬取过快,通常该默认爬取时间间隔在一段时间内是适用的,随着爬取时间的推移,该默认爬取时间间隔适用度下降,因此该默认爬取时间间隔还可以动态调整。

102、获取目标网站在一段时间内的实际平均更新量。

由于本发明实施例是针对各个网站的不同更新情况实时为爬虫设置爬取时间间隔,因此为了获取每个目标网站的更新情况,本发明实施例需要在爬虫通过默认爬取时间间隔对各个目标网站进行爬取的过程中,执行步骤102获取目标网站在一段时间内的实际平均更新量,该实际平均更新量能够反映该目标网站在该段时间内的更新状况,从而为爬虫设置该段时间内的爬取时间间隔提供参考依据。

103、判断实际平均更新量是否等于预设平均更新量。

对每个目标网站而言,通过步骤102获取的一段时间内的实际平均更新量是动态变化的,在下一段时间内的获取的实际平均更新量可能会发生变化。但是对目标网站而言,其通常在正常更新水平的情况下,会存在一个正常平均更新量,该正常平均更新量反应了目标网站理想的更新状况,可以作为判断该目标网站在一段时间内更新状况的频繁与否,因此本发明实施例可以将目标网站的正常平均更新量作为预设平均更新量与获取的目标网站的实际平均更新量进行比较,判断实际平均更新量是否等于预设平均更新量。若通过步骤102获取的目标网站在一段时间内的实际平均更新量大于预设平均更新量,则说明在该段时间内目标网站更新频率较高,需要缩短爬取时间间隔;若获取的目标网站在一段时间内的实际平均更新量小于预设平均更新量,则说明在该段时间内目标网站更新频率较低,需要延长爬取时间间隔;若获取的目标网站在一段时间内的实际平均更新量等于预设平均更新量,则说明在该段时间内目标网站更新频率不变,可以继续按照默认爬取时间间隔进行爬取。

104、当判断结果为否时,根据实际平均更新量、预设平均更新量以及默认爬取时间间隔设置爬虫爬取时间间隔。

当在步骤104中判断实际平均更新量不等于预设平均更新量时,说明需要重新设置爬虫爬取时间间隔,可以根据实际平均更新量、预设平均更新量以及默认爬取时间间隔,结合平均更新量和爬取时间的负相关性,设置爬虫爬取时间间隔。

本发明实施例提供的设置爬虫爬取时间间隔的方法,能够以默认爬取 时间间隔对目标网站进行爬取,获取目标网站在一段时间内的实际平均更新量,判断实际平均更新量是否等于预设平均更新量;当判断结果为否时,根据实际平均更新量、预设平均更新量以及默认爬取时间间隔设置爬虫爬取时间间隔。与现有技术中为爬虫人工设置统一的爬取时间间隔造成的无法对频繁更新的网站进行及时爬取或者对更新不频繁的网站多次重复爬取浪费爬虫资源的缺陷相比,本发明能够通过对网站更新频率的自学习,自动对不同网站的爬取时间间隔进行设置,既能及时获取网站更新内容,又能避免爬虫资源的浪费。

为了更好的对上述图1所示的方法进行理解,本发明实施例将以一个目标网站为例,针对图1中的各步骤进行详细说明。

在通过爬虫对所有目标网站开始进行爬取时,可以以默认爬取时间间隔对各个目标网站进行爬取。在本发明实施例中,可以根据为各个目标网站单独设置的爬取时间间隔计算爬取时间折中值,以此作为各个目标网站统一的默认爬取时间间隔。由于各个目标网站各自的爬取时间间隔不同,若要用统一的时间间隔对各个网站进行爬取则必须从众多的爬取时间间隔中选取一个具有代表性的时间间隔,该时间间隔既不会造成对更新频率高的网站爬取过慢又不会对更新频率低的网站爬取过快。因此,本发明实施例中可以通过计算各个目标网站爬取时间间隔的平均值,将该平均值作为默认爬取时间间隔对所有目标网站进行爬取;当然也可以通过计算各个目标网站爬取时间间隔的中位数值,将该中位数值作为默认爬取时间间隔对所有目标网站进行爬取。

在用上述方式得到的默认爬取时间间隔对目标网站进行一段时间的爬取后,需要获取在该段时间内目标网站的实际平均更新量。具体的,可以先获取目标网站在该段时间内的总更新量,根据总更新量以及该段时间计算目标网站在该段时间内的实际平均更新量。若该段时间为D,目标网站在D时间内的总更新量为N,则目标网站在该段时间内的实际平均更新量为N/D。该实际平均更新量反应了目标网站在该段时间内的更新状况,若实际平均更新量高,则说明目标网站在该段时间内更新频率高;若实际平均更新量低,则说明目标网站在该段时间内更新频率低。

当获取到目标网站在D时间段内的实际平均更新量后,需要进一步判断目标网站在该段时间内是否需要调整爬取时间间隔。需要调整爬取时间间隔的情况分为两种:一种是实际平均更新量过大,需要缩短爬取时间间隔;一种是实际平均更新量过小,需要延长爬取时间间隔。为了明确获取到的实际平均更新量过大或过小,本发明实施例提供了预设平均更新量,该预设平均更新量为目标网站在长时间内稳定的平均更新量,可以通过对历史更新情况进行大量的统计,得到符合目标网站正常更新水平的平均更新量,并将目标网站正常更新水平的平均更新量作为预设平均更新量,判断获取的实际平均更新量是否等于预设平均更新量,从而根据判断结果确定是否需要对爬虫爬取时间间隔进行调整。

在本发明实施例中,假设预设平均更新量为X,默认爬取时间间隔为T,则在上述判断结果中会出现三种情况:1、当获取到的实际平均更新量N/D大于预设平均更新量X时,说明当前对目标网站使用的默认爬取时间间隔T过长;2、当N/D小于X时,说明当前对目标网站使用的默认爬取时间间隔T过短;3、当N/D等于X时,说明当前对目标网站使用的默认爬取时间间隔合适,可以继续使用该时间间隔对目标网站进行爬取。在上述前两种情况下都应该重新设置对目标网站的爬取时间间隔,也就是当判断获取的实际平均更新量不等于预设平均更新量后,需要重新设置爬虫的爬取时间间隔。具体的,由于目标网站的实际平均更新量越高,对其爬取的时间间隔需要越短;目标网站的实际平均更新量越低,对其爬取的时间间隔需要越长。因此,可以认为网站的平均更新量和爬虫的爬取时间间隔之间存在一定的负相关性,预设平均更新量为X、默认爬取时间间隔为T、调整后的时间间隔T'、时间D内的实际平均更新量N/D之间存在如下关系:X:(N/D)=T':T,由此可以得到调整后的爬取时间间隔T'=TX/(N/D)=TDX/N;因此根据公式T'=TX/(N/D)=TDX/N可以得到每个目标网站调整后的爬取时间间隔,其中,T代表默认爬取时间间隔,D代表爬虫的爬取时间、X代表目标网站的正常平均更新量、N代表目标网站在D时间内的总更新量。每当爬虫得到新的爬取时间间隔后,可以使用该爬取时间间隔工作一段时间,并根据上述公式不断调整得到合适的爬取时间间隔,达到动态更新爬虫爬 取时间间隔的目的。

在按照上述方式动态设置爬取时间间隔时,若某个网站的更新频率过高或过低,则通过公式计算得到的爬取时间间隔会过长或过短,过长或过短的爬取时间间隔有时并不符合爬虫的爬取要求或者爬取性能,因此为了避免单纯通过公式计算出现的意外情况,本发明实施例可以设置爬取时间的最大阈值和最小阈值,当计算结果在阀值范围之内,那么使用计算值作为调整后的爬取时间间隔,如果计算值不在阀值范围内,则放弃使用计算值,改为使用最大阀值或最小阈值作为调整后的爬取时间间隔。具体的,当计算的爬取时间间隔大于最大阈值时,选择最大阈值进行爬取;当计算的爬取时间间隔小于最小阈值时,选择最小阈值进行爬取。这样的机制既保证了根据网站更新频率设置爬取时间间隔,又避免过短或者过长的爬取时间间隔与爬虫性能和爬取需求不符。

进一步的,作为对上述图1所示方法的应用,本发明实施例还提供了一种设置爬虫爬取时间间隔的装置,如图2所示,该装置包括:爬取单元21、获取单元22、判断单元23及设置单元24,其中,

爬取单元21,用于以默认爬取时间间隔对目标网站进行爬取;

获取单元22,用于获取目标网站在一段时间内的实际平均更新量;

判断单元23,用于判断获取单元22获取的实际平均更新量是否等于预设平均更新量;

设置单元24,用于当判断结果为否时,根据获取单元22获取的实际平均更新量、预设平均更新量以及默认爬取时间间隔设置爬虫爬取时间间隔。

进一步的,如图3所示,爬取单元21包括:

配置模块211,用于根据各个目标网站的爬取时间间隔配置爬取时间折中值;

爬取模块212,用于将配置模块211得到的所述爬取时间折中值作为默认爬取时间间隔对所有目标网站进行爬取。

进一步的,获取单元22包括:

获取模块221,用于获取所述目标网站在一段时间内的总更新量;

计算模块222,用于根据获取模块221获取的所述总更新量以及所述一 段时间计算所述目标网站在所述一段时间内的实际平均更新量。

进一步的,设置单元24用于通过下述公式:爬虫爬取时间间隔=默认爬取时间间隔/(实际平均更新量/预设平均更新量),设置爬虫爬取时间间隔。

进一步的,该装置还包括:

预设单元25,用于预设爬虫爬取时间间隔的最大阈值与最小阈值;

选择单元26,用于当设置的所述爬虫爬取时间间隔位于所述最大阈值与所述最小阈值范围之间时,选择设置的所述爬虫爬取时间间隔进行爬取;

选择单元26还用于当设置的所述爬虫爬取时间间隔大于所述最大阈值时,选择所述最大阈值进行爬取;

选择单元26还用于当设置的所述爬虫爬取时间间隔小于所述最小阈值时,选择所述最小阈值进行爬取。

本发明实施例提供的一种设置爬虫爬取时间间隔的装置,能够以默认爬取时间间隔对目标网站进行爬取,获取目标网站在一段时间内的实际平均更新量,判断实际平均更新量是否等于预设平均更新量;当判断结果为否时,根据实际平均更新量、预设平均更新量以及默认爬取时间间隔设置爬虫爬取时间间隔。与现有技术中为爬虫人工设置统一的爬取时间间隔造成的无法对频繁更新的网站进行及时爬取或者对更新不频繁的网站多次重复爬取浪费爬虫资源的缺陷相比,本发明能够通过对网站更新频率的自学习,自动对不同网站的爬取时间间隔进行设置,既能及时获取网站更新内容,又能避免爬虫资源的浪费。

此外,本发明实施例设置爬取时间的最大阈值和最小阈值,当计算的爬取时间间隔大于最大阈值时,选择最大阈值进行爬取;当计算的爬取时间间隔小于最小阈值时,选择最小阈值进行爬取。这样的机制既保证了根据网站更新频率设置爬取时间间隔,又避免过短或者过长的爬取时间间隔与爬虫性能和爬取需求不符。

所述设置爬虫爬取时间间隔的装置包括处理器和存储器,上述爬取单元21、获取单元22、判断单元23及设置单元24均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现动态设置网页爬取时间间隔,提高爬虫有效利用率的目的。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(f l ashRAM),存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:以默认爬取时间间隔对目标网站进行爬取;获取所述目标网站在一段时间内的实际平均更新量;判断所述实际平均更新量是否等于预设平均更新量;当判断结果为否时,根据所述实际平均更新量、所述预设平均更新量以及所述默认爬取时间间隔设置爬虫爬取时间间隔。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个 流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(f l ashRAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1