一种网页内容抓取方法和装置的制造方法

文档序号:9826254阅读:204来源:国知局
一种网页内容抓取方法和装置的制造方法
【技术领域】
[0001]本发明涉及互联网技术领域,特别涉及一种网页内容抓取方法和装置。
【背景技术】
[0002]目前搜索引擎得到广泛使用,人们常常通过搜索引擎搜索内容。搜索引擎事先从互联网服务器中抓取网页内容,将抓取得到的网页内容收录起来,然后供用户搜索。
[0003]目前搜索引擎都使用网络爬虫从互联网服务器中抓取网页内容,网络爬虫是一种抓取网页内容的应用。然而发明人在实现本发明时发现网络爬虫抓取网页内容的过程比较耗时,导致抓取网页内容的效率低。

【发明内容】

[0004]为了使解决现有技术的问题,本发明提供了一种网页内容抓取方法和装置。技术方案如下:
[0005]一方面,本发明提供了一种网页内容抓取方法,所述方法包括:
[0006]周期性的通过第一线程从第一调度库中找出调度时间到达的网页标识,将所述找出的网页标识从所述第一调度库移至第二调度库中,所述第一调度库用于存储所有待抓取网页内容的网页标识;
[0007]在抓取完网页内容时,通过第二线程从所述第二调度库中选择调度优先级别最高的预设数值个网页标识;
[0008]根据所述选择的网页标识,抓取网页内容。
[0009]另一方面,本发明提供了一种网页内容抓取装置,所述装置包括:
[0010]第一移动模块,用于周期性的通过第一线程从第一调度库中找出调度时间到达的网页标识,将所述找出的网页标识从所述第一调度库移至第二调度库中,所述第一调度库用于存储所有待抓取网页内容的网页标识;
[0011]选择模块,用于在抓取完网页内容时,通过第二线程从所述第二调度库中选择调度优先级别最高的预设数值个网页标识;
[0012]抓取模块,用于根据所述选择的网页标识,抓取网页内容。
[0013]在本发明实施例中周期性的通过第一线程从第一调度库中找出调度时间为当前时间或者在当前时间之前的网页标识,将找出的网页标识从第一调度库移至第二调度库中,在抓取完网页内容时,通过第二线程从第二调度库中选择调度优先级别最高的预设数值个网页标识;根据选择的网页标识,抓取网页内容。由于第一线程和第二线程可以同时进行,并且第二调度库中存储的网页标识的数目较少,从第二调度库中选择网页标识比较省时,从而提闻了抓取网页内容的效率。
【附图说明】
[0014]图1是本发明实施例1提供的一种网页内容抓取方法流程图;
[0015]图2是本发明实施例2提供的一种网页内容抓取方法流程图;
[0016]图3-1是本发明实施例3提供的一种网页内容抓取装置结构示意图;
[0017]图3-2是本发明实施例3提供的另一种网页内容抓取装置结构示意图;
[0018]图4是本发明实施例4提供的一种服务器的结构示意图。
【具体实施方式】
[0019]为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
[0020]实施例1
[0021]本发明实施例提供了一种网页内容抓取方法,参见图1,该方法包括:
[0022]步骤101:周期性的通过第一线程从第一调度库中找出调度时间到达的网页标识,将找出的网页标识从第一调度库移至第二调度库中,第一调度库用于存储所有待抓取网页内容的网页标识;
[0023]步骤102:在抓取完网页内容时,通过第二线程从第二调度库中选择调度优先级别最高的预设数值个网页标识;
[0024]步骤103:根据选择的网页标识,抓取网页内容。
[0025]在本发明实施例中周期性的通过第一线程从第一调度库中找出调度时间为当前时间或者在当前时间之前的网页标识,将找出的网页标识从第一调度库移至第二调度库中,在抓取完网页内容时,通过第二线程从第二调度库中选择调度优先级别最高的预设数值个网页标识;根据选择的网页标识,抓取网页内容。由于第一线程和第二线程可以同时进行,并且第二调度库中存储的网页标识的数目较少,从第二调度库中选择网页标识比较省时,从而提闻了抓取网页内容的效率。
[0026]实施例2
[0027]本发明实施例提供了一种网页内容抓取方法,该方法的执行主体可以为服务器。在搜索引擎领域,需要从互联网上的服务器中的抓取网页内容,为了提高抓取网页内容的效率,在本发明实施例中建立第一线程和第二线程,周期性地通过第一线程从第一调度库找出调度时间到达的网页标识,将找出的网页标识添加到第二调度库;通过第二线程从第二调度库中选择网页标识,再抓取选择的网页标识对应的网页内容。
[0028]其中,第一线程和第二线程是并行工作的,第一进程周期性地从第一调度库中选择网页标识,只要第二调度库中有网页标识,第二进程只要在抓取完网页内容后就从第二调度库中选择网页标识,如此通过第一线程和第二线程使抓取网页内容的两个过程并行执打,从而提闻抓取网页内容的效率。
[0029]参见图2,该方法包括:
[0030]步骤201:周期性的通过第一线程从第一调度库中找出调度时间到达的网页标识,将找出的网页标识从第一调度库移至第二调度库中;
[0031]第一调度库中用于存储互联网中包括的网页的网页标识,第一调度库中的每个网页标识对应一个调度时间间隔,对于每个网页标识,该网页标识的调度时间是根据该网页标识对应的调度时间间隔周期性计算得到的。
[0032]将网页标识和调度时间间隔存储在网页标识和调度时间间隔的对应关系中,从而可以根据网页标识,从网页标识和调度时间间隔的对应关系中获取网页标识的调度时间间隔。
[0033]网页标识的调度时间间隔可以根据网页标识对应的网页内容变化快慢进行设置并更改。如果网页标识对应的网页内容变化较快,则为该网页标识分配一个较小的调度时间间隔;如果网页标识对应的网页内容变化较慢,则为该网页标识分配一个较大的调度时间间隔。
[0034]例如,网页标识对应的网页内容变化较快,如5分钟变化一次,则为该网页标识分配一个较小的调度时间间隔,如为该网页标识分配一个5分钟或者4分钟的调度时间间隔等;如果网页标识对应的网页内容变化较慢,如20分钟变化一次,则为该网页标识分配一个较大的调度时间间隔,如为该网页标识分配一个20分钟或者18分钟的调度时间间隔。
[0035]调度时间到达的网页标识是指调度时间为当前时间或者在当前时间之前的网页标识。
[0036]步骤201可以具体为:周期性的通过第一线程根据调度时间由近到远的顺序将第一调度库中的网页标识进行排序,从排序后的第一调度库中找出调度时间为当前时间或者在当前时间之前的网页标识。
[0037]网页标识可以为网页的URL(Uniform Resoure Locator,统一资源定位器)等。
[0038]步骤202:在抓取完网页内容时,通过第二线程从第二调度库中选择调度优先级别最高的预设数值个网页标识;
[0039]计时的时间到达预设时长就是抓取完网页内容。
[0040]第二线程与第一线程并行工作,在抓取完网页内容时,只要第二调度库中有网页标识,就通过第二线程从第二调度库中选择网页标识。
[0041]由于每个网页标识对应的网页内容的价值并不相同,因此,根据每个网页标识对应的网页内容的价值为每个网页标识分配一个调度优先级别。如果网页标识对应的网页内容的价值高,则为网页标识分配一个高的优先级别,如果网页标识对应的网页内容的价值低,则为网页标识分配一个低的优先级别。在抓取网页内容时,首先抓取网页内容的价值高也即调度优先级别高的网页标识对应的网页内容,然后抓取网页内容的价值低也即调度优先级别低的网页标识对应的网页内容。
[0042]进一步地,服务器为每个网页标识分配一个调度优先级别之后,将每个网页标识和每个网页标识的调度优先级别存储在网页标识和调度优先级别的对应关系中,从而可以根据网页标识从网页标识和调度优先级别的对应关系中获取网页标识的调度优先级别。
[0043]服务器也可以将每个网页标识的调度优先级别存储到网页标识的属性信息中,从而可以从网页标识的属性信息中获取网页标识的调度优先级别。
[0044]其中,步骤202可以通过以下步骤(I)至
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1