基于站点配额的均衡调度系统及方法

文档序号:8322173阅读:255来源:国知局
基于站点配额的均衡调度系统及方法
【专利说明】基于站点配额的均衡调度系统及方法
[0001]本发明专利申请是申请日为2012年09月29日、申请号为201210376922.3、名称为“基于站点配额的均衡调度系统及方法”的中国发明专利申请的分案申请。
技术领域
[0002]本发明涉及互联网技术领域,具体涉及一种基于站点配额的均衡调度系统及方法。
【背景技术】
[0003]对于搜索引擎来说,从互联网上抓取页面是其处理的第一步。然而互联网累积的页面数巨大,而每天新更新和新产生的页面数同样非常巨大。如何及时地获取这些页面,是搜索引擎面临的首要问题。为了能及时地抓取这些海量页面,必须进行合理而有效的调度。因此,采用何种调度算法就非常重要了。
[0004]目前,网页搜索在进行网页抓取调度时,对于新发现的页面按顺序进行排队。对于历史页面,则根据历史页面的更新频率来决定其重新调度的频度。
[0005]在网页搜索中,由于所有页面都采用统一的策略,下载延迟的时间几乎都是按天来计的。这对于很多垂直搜索来说是无法容忍的。
[0006]特殊情况下,大数据量网站将影响其他网站的及时处理。如果服务器数量不足,一些数据量大的网站的页面,将占去大部分处理能力,导致其他网站无法及时处理。

【发明内容】

[0007]鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于站点配额的均衡调度系统及方法。
[0008]依据本发明的一个方面,提供了一种基于站点配额的均衡调度系统,包括:
[0009]调度任务获取模块,适于获取站点的域名队列中的调度任务;
[0010]调度模块,适于对所述调度任务所指定的服务器按照预配置的一次可调度页面数从所述服务器中下载相应数量的页面。
[0011]可选地,所述调度任务获取模块适于按预定的任务优先级获取站点的域名队列中的调度任务。
[0012]可选地,所述系统还包括:反馈调整模块,适于在调度一个页面后将所述服务器的上次调度时间更新为所述上次调度时间加上页面超时时间。
[0013]可选地,所述系统还包括:反馈调整模块,适于在下载一个页面后将所述服务器的上次调度时间更新为所述上次调度时间减去回调时间,所述回调时间为页面超时时间与所述页面下载时间之差。
[0014]可选地,当页面实际下载时间小于预设的下载耗时,则所述页面下载时间为所述预设的下载耗时,否则为页面实际下载时间。
[0015]可选地,所述系统还包括:配额分配模块,具体包括:
[0016]站点结构定位模块,适于获取当前服务器上的站点总数,根据站点序号,直接定位站点结构;
[0017]域名配额分配模块,适于从站点结构中获取该站点的域名总数和首尾域名序号,对站点域名按上次调度时间进行排序,从选择排序后的域名中选择预定数量的域名;
[0018]域名IP定位模块,适于对选定的域名根据其域名IP总数和域名IP首尾序号定位其域名IP地址,通过域名IP中的IP偏移定位IP结构地址,依次选取并记录IP的上次调度时间,选择上次调度时间最早的IP对应的服务器;
[0019]调度时间设置模块,适于定位IP结构后,比较IP结构里的上次调度时间与当前时间。如果上次调度时间大于或等当前时间,不为该服务器分配所述一次可调度页面数,如果上次调度时间小于当前时间,为该服务器分配所述一次可调度页面数,同时将该IP的上次调度时间置为当前时间;
[0020]循环分配模块,适于如果该域名中IP结构分配完成,循环处理下一个域名,否则在剩下的IP中选择上次调度时间最早的一个IP继续处理,当前站点中所有域名分配完成后,将站点序号加1,以便处理下一个站点,如果站点数达到最大值,序号重置为0,如果在所有站点都检查过一次后没有可分配站点,休眠预定时间后再对所有站点循环分配。
[0021 ] 可选地,预定时间为I秒。
[0022]根据本发明的另一方面,提供了基于站点配额的均衡调度方法,包括以下步骤:
[0023]获取站点的域名队列中的调度任务;
[0024]对所述调度任务所指定的服务器按照预配置的一次可调度页面数从所述服务器中下载相应数量的页面。
[0025]可选地,按预定的任务优先级获取站点的域名队列中的调度任务。
[0026]可选地,调度一个页面后还包括步骤:将所述服务器的上次调度时间更新为所述上次调度时间加上页面超时时间。
[0027]可选地,下载一个页面后还包括步骤:将所述服务器的上次调度时间更新为所述上次调度时间减去回调时间,所述回调时间为页面超时时间与所述页面下载时间之差。
[0028]可选地,当页面实际下载时间小于预设的下载耗时,则所述页面下载时间为所述预设的下载耗时,否则为页面实际下载时间。
[0029]可选地,对所述调度任务中的服务器按照预配置的一次可调度页面数从所述服务器中下载相应数量的页面具体包括:
[0030]获取当前服务器上的站点总数,根据站点序号,直接定位站点结构;
[0031]从站点结构中获取该站点的域名总数和首尾域名序号;
[0032]对站点域名按上次调度时间进行排序,从排序后的域名中选择预定数量的域名;
[0033]对选定的域名根据其域名IP总数和域名IP首尾序号定位其域名IP地址,通过域名IP中的IP偏移定位IP结构地址,依次选取并记录各IP的上次调度时间,选择上次调度时间最早的IP对应的服务器;
[0034]定位IP结构后,比较IP结构里的上次调度时间与当前时间。如果上次调度时间大于或等于当前时间,不为该服务器分配所述一次可调度页面数,如果上次调度时间小于当前时间,为该服务器分配所述一次可调度页面数,同时将该IP的上次调度时间置为当前时间;
[0035]如果该域名中IP结构分配完成,循环处理下一个域名,否则在剩下的IP中选择上次调度时间最早的一个IP继续处理;
[0036]当前站点中所有域名分配完成后,将站点序号加1,以便处理下一个站点,如果站点数达到最大值,序号重置为0,如果在所有站点都检查过一次后没有可分配站点,休眠预定时间后再对所有站点循环分配。
[0037]可选地,预定时间为I秒。
[0038]根据本发明的基于站点配额的均衡调度系统将方法保证所有站点在任何情况下都能获得一定的下载机会。同时,可以根据实际情况设置不同的配额限制,以兼顾效率与时效性,满足不同搜索产品的需求。这也为全网搜索能与垂直搜索统一处理奠定了基础。
[0039]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
【附图说明】
[0040]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0041]图1示出了根据本发明一个实施例的基于站点配额的均衡调度方法流程图;
[0042]图2示出了图1中步骤S120的具体流程图;
[0043]图3示出了根据本发明一个实施例的基于站点配额的均衡调度系统结构示意图;
[0044]图4示出了图3中调度模块具体结构示意图。
【具体实施方式】
[0045]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1