确定网站抓取流量配额的方法及设备的制作方法

文档序号:6516284阅读:188来源:国知局
确定网站抓取流量配额的方法及设备的制作方法
【专利摘要】本发明公开了确定网站抓取流量配额的方法及设备,其中所述方法包括:获取待抓取目标网站的受访问数据;根据所述受访问数据,确定所述目标网站的抓取承受流量;获取所述目标网站内网页的网页质量分布;根据所述目标网站内网页的所述网页质量分布,确定抓取目标网站的任务流量;根据所述目标网站的抓取承受流量,以及所述抓取目标网站的任务流量,确定在所述目标网站上进行网页抓取的流量配额。通过本方法,能够在搜索引擎爬虫程序抓取网站中的网页时,更好的分配在目标网站上进行网页抓取的流量配额,减少了爬虫程序与被抓取站点的冲突,使爬虫程序抓取行为与搜索引擎更新需求得到了合理的平衡。
【专利说明】确定网站抓取流量配额的方法及设备
【技术领域】
[0001]本发明涉及搜索引擎【技术领域】,具体涉及确定网站抓取流量配额的方法及设备。【背景技术】
[0002]搜索引擎是一种互联网信息平台,通过搜索引擎能够将互联网上的大量网页信息收集起来,经过加工处理后,建立信息数据库和索引数据库,用户可以通过在搜索引擎提供的入口中输入查询词,从而获取搜索引擎针对该查询词返回的搜索结果。随着搜索引擎技术的不断发展和成熟,其提供的服务业越来越完善,在人们从规模庞大的互联网中获取所需信息时,搜索引擎已经成为一种非常常用,也非常便利的工具。
[0003]搜索引擎为了能够下载互联网上的网页,以供分析网页数据和建立索引,往往需要使用一种抓取网页的工具程序,这种程序通常被称为“爬虫程序”或“蜘蛛程序”。由于互联网上总是不停的产生新网页,同时原有的网页也在不断的更新,因此爬虫程序需要不停的工作,以保证搜索引擎能够得到最新的网页数据。为了提供更好的搜索结果,搜索引擎的爬虫程序总希望能够更快地收录互联网上的新网页以及更新的原有网页。但网页资源位于网络上的各个站点主机上,爬虫程序对网页资源的抓取势必会占用站点主机的服务资源,如站点主机的软硬件处理资源,带宽等。如果抓取网页的任务超过了站点主机的承受范围,就会影响到网站用户的正常访问,那么爬虫程序的网页抓取行为就成为了对网站不友好行为,严重时会导致影响网站响应超时,甚至网站服务器崩溃。而且,为保护网站的稳定性,网站常常会监控爬虫程序的访问,并对产生不友好行为的爬虫程序采取限制,甚至禁止访问措施。一旦爬虫程序被限制或禁止,搜索引擎的网页抓取效率会变低,甚至无法更新或下载该网站网页资源,最终对搜索服务的提供产生负面影响。
[0004]同时,现有技术中一般是由人工设定来设定爬虫程序可对网站抓取的流量或频率,这种方式虽然减少搜索引擎的爬虫程序与被抓取网站的冲突,但是对网页数据更新没有得到最大体现,因此使得爬虫程序抓取行为与网站数据更新的需求没有得到合理的平衡。

【发明内容】

[0005]鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的确定网站抓取流量配额的设备和相应的确定网站抓取流量配额的方法。
[0006]依据本发明的一个方面,提供了一种确定网站抓取流量配额的方法,包括:
[0007]获取待抓取目标网站的受访问数据;
[0008]根据所述受访问数据,确定所述目标网站的抓取承受流量;
[0009]获取所述目标网站内网页的网页质量分布;
[0010]根据所述目标网站内网页的所述网页质量分布,确定抓取目标网站的任务流量;
[0011]根据所述目标网站的抓取承受流量,以及所述抓取目标网站的任务流量,确定在所述目标网站上进行网页抓取的流量配额。[0012]可选地,所述获取待抓取目标网站的受访问数据,包括:
[0013]根据搜索弓I擎对所述目标网站的访问统计数据,确定所述目标网站的所述受访问数据。
[0014]可选地,所述根据所述受访问数据,确定所述目标网站的抓取承受流量,包括:
[0015]根据所述受访问数据,确定所述目标网站的可承受访问总量;
[0016]根据所述可承受访问总量与预置的抓取压力系数,确定所述目标网站的抓取承受流量。
[0017]可选地,所述根据所述受访问数据,确定所述目标网站的可承受访问总量,包括:
[0018]根据搜索引擎对所述目标网站的访问统计数据,所述搜索引擎的市场占有率,用户直接访问量,以及网站冗余流量,确定所述目标网站的可承受访问总量。
[0019]可选地,所述获取所述目标网站内网页的网页质量分布,包括:
[0020]根据所述目标网站内网页的pagerank,和/或网页的链接深度,确定网页的评分;
[0021]对所述目标网站内多个网页的评分进行归一化处理,获得各个网页对应的质量分布。
[0022]可选地,所述获取所述目标网站内网页的网页质量分布,包括:
[0023]获取所述目标网站内所有已收录网页的网页质量分布;
[0024]所述根据所述目标网站内网页的所述网页质量分布,确定抓取目标网站的任务流量,包括:
[0025]获取所述目标网站内所有已收录网页的网页质量分布的总和,根据所述目标网站内所有网页的网页质量分布的总和,确定抓取目标网站的任务流量。
[0026]可选地,还包括:
[0027]获取一个或多个任务比例因子;
[0028]所述根据所述目标网站内所有已收录网页的网页质量分布的总和,确定抓取目标网站的任务流量,包括:
[0029]根据所述网页质量分布的总和与一个或多个所述任务比例因子的乘积,确定抓取目标网站的任务流量。
[0030]可选地,所述获取一个或多个任务比例因子,包括:
[0031]获取所述目标网站中,待抓取的网页数占所述目标网站中已收录网页总数的比例;
[0032]和/ 或,
[0033]获取所述目标网站中,不重复的网页数量占所述目标网站中网页总数的比例。
[0034]可选地,所述获取所述目标网站中,待抓取的网页数占所述目标网站中网页总数的比例,包括:
[0035]获取所述目标网站中,抓取历史中更新的网页数,和/或,所述目标网站中新产生的网页数,占所述目标网站中网页总数的比例。
[0036]可选地,所述获取所述目标网站中,不重复的网页数量占所述目标网站中网页总数的比例,包括:
[0037]在对目标网站的抓取历史中,获取和比对所抓取的网页的信息指纹;
[0038]根据比对的结果获取不重复的信息指纹数,占总指纹数的比例,作为所述不重复的网页数量占所述目标网站中网页总数的比例。
[0039]可选地,还包括:
[0040]根据抓取目标网站的任务总时间确定单位时间系数;
[0041]所述根据所述目标网站内所有已收录网页的网页质量分布的总和,确定抓取目标网站的任务流量,包括:
[0042]根据所述网页质量分布的总和与一个或多个所述任务比例因子,以及所述单位时间系数的乘积,确定抓取目标网站的任务流量。
[0043]可选地,还包括:
[0044]当所述任务流量大于所述抓取承受流量,且两者的差大于预置的阈值时,通过调整所述任务比例因子,和/或所述单位时间系数,调整所述任务流量,直至所述任务流量小于或等于所述抓取承受流量,或两者的差小于预置的阈值。
[0045]可选地,所述根据所述目标网站的抓取承受流量,以及所述抓取目标网站的任务流量,确定在所述目标网站上进行网页抓取的流量配额,包括:
[0046]当所述任务流量大于所述抓取承受流量,且两者的差小于预置的阈值时,将所述任务流量确定为在所述目标网站上进行网页抓取的流量配额。
[0047]根据本发明的另一方面,提供了一种确定网站抓取流量配额的设备,包括:
[0048]网站访问数据获取单元,适于获取待抓取目标网站的受访问数据;
[0049]网站承受力确定单元,适于根据所述受访问数据,确定所述目标网站的抓取承受流量;
[0050]网页质量分布获取单元,适于获取所述目标网站内网页的网页质量分布;
[0051]任务流量获取单元,适于根据所述目标网站内网页的所述网页质量分布,确定抓取目标网站的任务流量;
[0052]流量配额确定单元,适于根据所述目标网站的抓取承受流量,以及所述抓取目标网站的任务流量,确定在所述目标网站上进行网页抓取的流量配额。
[0053]可选地,所述网站访问数据获取单元,适于:
[0054]根据搜索弓丨擎对所述目标网站的访问统计数据,确定所述目标网站的所述受访问数据。
[0055]可选地,所述网站承受力确定单元,包括:
[0056]访问量确定子单元,适于根据所述受访问数据,确定所述目标网站的可承受访问总量;
[0057]所述网站承受力确定单元,适于根据所述可承受访问总量与预置的抓取压力系数,确定所述目标网站的抓取承受流量。
[0058]可选地,所述访问量确定子单元,适于:
[0059]根据搜索引擎对所述目标网站的访问统计数据,所述搜索引擎的市场占有率,用户直接访问量,以及网站冗余流量,确定所述目标网站的可承受访问总量。
[0060]可选地,所述网页质量分布获取单元,适于:
[0061]根据所述目标网站内网页的pagerank,和/或网页的链接深度,确定网页的评分;
[0062]对所述目标网站内多个网页的评分进行归一化处理,获得各个网页对应的质量分布。[0063]可选地,所述网页质量分布获取单元,包括:
[0064]网页质量分布获取子单元,适于获取所述目标网站内所有已收录网页的网页质量分布;
[0065]所述任务流量获取单元,包括:
[0066]任务流量获取子单元,适于获取的所述目标网站内所有已收录网页的网页质量分布的总和,根据所述目标网站内所有已收录网页的网页质量分布的总和,确定抓取目标网站的任务流量。
[0067]可选地,还包括:
[0068]任务比例因子获取单元,适于获取一个或多个任务比例因子;
[0069]所述任务流量获取子单元,适于:
[0070]根据所述网页质量分布的总和与一个或多个所述任务比例因子的乘积,确定抓取目标网站的任务流量。
[0071]可选地,所述任务比例因子获取单元,适于:
[0072]获取所述目标网站中,待抓取的网页数占所述目标网站中已收录网页总数的比例;
[0073]和/ 或,
[0074]获取所述目标网站中,不重复的网页数量占所述目标网站中网页总数的比例。
[0075]可选地,所述任务比例因子获取单元,适于:
[0076]获取所述目标网站中,抓取历史中更新的网页数,和/或,所述目标网站中新产生的网页数,占所述目标网站中网页总数的比例。
[0077]可选地,所述任务比例因子获取单元,适于:
[0078]在对目标网站的抓取历史中,获取和比对所抓取的网页的信息指纹;
[0079]根据比对的结果获取不重复的信息指纹数,占总指纹数的比例,作为所述不重复的网页数量占所述目标网站中网页总数的比例。
[0080]可选地,还包括:
[0081]单位时间系数获取单元,适于根据抓取目标网站的任务总时间确定单位时间系数;
[0082]所述任务流量获取子单元,适于:
[0083]根据所述网页质量分布的总和与一个或多个所述任务比例因子,以及所述单位时间系数的乘积,确定抓取目标网站的任务流量。
[0084]可选地,还包括:
[0085]任务流量调整单元,适于当所述任务流量大于所述抓取承受流量,且两者的差大于预置的阈值时,通过调整所述任务比例因子,和/或所述单位时间系数,调整所述任务流量,直至所述任务流量小于或等于所述抓取承受流量,或两者的差小于预置的阈值。
[0086]可选地,所述流量配额确定单元,适于:
[0087]当所述任务流量大于所述抓取承受流量,且两者的差小于预置的阈值时,将所述任务流量确定为在所述目标网站上进行网页抓取的流量配额。
[0088]根据本发明的确定网站抓取流量配额的方法可以根据待抓取目标网站的受访问数据,确定搜索引擎爬虫程序对目标网站进行抓取时,目标网站的所能够承受的抓取承受流量;并且可以根据目标网站内网页的网页质量分布,确定抓取目标网站任务的任务流量;进而根据目标网站的抓取承受流量,以及抓取目标网站的任务流量,确定在目标网站上进行网页抓取的流量配额。由此解决了爬虫程序无限制的抓取导致过多占用网站资源的问题。实现了在对网站的抓取压力允许的情况下,对网站的网页数据进行有效的抓取,以减少搜索引擎的爬虫程序与被抓取站点的冲突。使爬虫程序抓取行为与搜索引擎更新需求得到合理的平衡。
[0089]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
【专利附图】

【附图说明】
[0090]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0091]图1示出了根据本发明一个实施例的网页抓取的方法的流程图;
[0092]图2示出了根据本发明一个实施例的确定网站抓取流量配额的方法的流程图;
[0093]图3示出了根据本发明一个实施例的确定抓取流量的方法的流程图;
[0094]图4示出了根据本发明一个实施例的确定网站子频道抓取流量配额的方法的流程图;
[0095]图5示出了根据本发明一个实施例的网页抓取的设备的示意图;
[0096]图6示出了根据本发明一个实施例的确定网站抓取流量配额的设备的示意图;
[0097]图7示出了根据本发明一个实施例的确定抓取流量的设备的示意图;
[0098]图8示出了根据本发明一个实施例的确定网站子频道抓取流量配额的设备的示意图。
【具体实施方式】
[0099]下面将参照附图更详细地描述本发明公开的示例性实施例。虽然附图中显示了本发明公开的示例性实施例,然而应当理解,可以以各种形式实现本发明公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本发明公开的范围完整的传达给本领域的技术人员。
[0100]为了便于说明,首先定义如表I中所示的参数以及参数的说明:
[0101]表I
【权利要求】
1.一种确定网站抓取流量配额的方法,包括: 获取待抓取目标网站的受访问数据; 根据所述受访问数据,确定所述目标网站的抓取承受流量; 获取所述目标网站内网页的网页质量分布; 根据所述目标网站内网页的所述网页质量分布,确定抓取目标网站的任务流量;根据所述目标网站的抓取承受流量,以及所述抓取目标网站的任务流量,确定在所述目标网站上进行网页抓取的流量配额。
2.如权利要求1所述的方法,所述获取待抓取目标网站的受访问数据,包括: 根据搜索引擎对所述目标网站的访问统计数据,确定所述目标网站的所述受访问数据。
3.如权利要求1或2所述的方法,所述根据所述受访问数据,确定所述目标网站的抓取承受流量,包括: 根据所述受访问数据,确定所述目标网站的可承受访问总量; 根据所述可承受访问总量与预置的抓取压力系数,确定所述目标网站的抓取承受流量。
4.如权利要求1-3任一项所述的方法,所述根据所述受访问数据,确定所述目标网站的可承受访问总量,包括: 根据搜索引擎对所述目标网站的访问统计数据,所述搜索引擎的市场占有率,用户直接访问量,以及网站冗余流量,确定所述目标网站的可承受访问总量。
5.如权利要求1-4任一项所述的方法,所述获取所述目标网站内网页的网页质量分布,包括: 根据所述目标网站内网页的pagerank,和/或网页的链接深度,确定网页的评分; 对所述目标网站内多个网页的评分进行归一化处理,获得各个网页对应的质量分布。
6.一种确定网站抓取流量配额的设备,包括: 网站访问数据获取单元,适于获取待抓取目标网站的受访问数据; 网站承受力确定单元,适于根据所述受访问数据,确定所述目标网站的抓取承受流量; 网页质量分布获取单元,适于获取所述目标网站内网页的网页质量分布; 任务流量获取单元,适于根据所述目标网站内网页的所述网页质量分布,确定抓取目标网站的任务流量; 流量配额确定单元,适于根据所述目标网站的抓取承受流量,以及所述抓取目标网站的任务流量,确定在所述目标网站上进行网页抓取的流量配额。
7.如权利要求6所述的设备,所述网站访问数据获取单元,适于: 根据搜索引擎对所述目标网站的访问统计数据,确定所述目标网站的所述受访问数据。
8.如权利要求6或7所述的设备,所述网站承受力确定单元,包括: 访问量确定子单元,适于根据所述受访问数据,确定所述目标网站的可承受访问总量; 所述网站承受力确定单元,适于根据所述可承受访问总量与预置的抓取压力系数,确定所述目标网站的抓取承受流量。
9.如权利要求6-8任一项所述的设备,所述访问量确定子单元,适于: 根据搜索引擎对所述目标网站的访问统计数据,所述搜索引擎的市场占有率,用户直接访问量,以及网站冗余流量,确定所述目标网站的可承受访问总量。
10.如权利要求6-9任一项所述的设备,所述网页质量分布获取单元,适于: 根据所述目标网站内网页的pagerank,和/或网页的链接深度,确定网页的评分; 对所述目标网站 内多个网页的评分进行归一化处理,获得各个网页对应的质量分布。
【文档编号】G06F17/30GK103544278SQ201310500682
【公开日】2014年1月29日 申请日期:2013年10月22日 优先权日:2013年10月22日
【发明者】魏少俊 申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1