确定网站子频道抓取流量配额的方法及设备的制作方法

文档序号:6516266阅读:203来源:国知局
确定网站子频道抓取流量配额的方法及设备的制作方法
【专利摘要】本发明公开了确定网站子频道抓取流量配额的方法及设备,其中所述方法包括:获取目标网站各子频道承受流量;根据各子频道内网页的网页质量分布,确定各子频道任务流量;根据所述子频道承受流量,和所述子频道任务流量计算各子频道对应的抓取权重;根据目标网站总流量配额,以及各子频道抓取权重,确定各子频道配额。通过本方法,能够根据获取到的子频道承受流量,和子频道任务流量计算各子频道对应的抓取权重;根据目标网站总流量配额,以及各子频道抓取权重,确定各子频道配额,在减少搜索引擎的爬虫程序与被抓取站点的冲突的同时,可以将更合理的将抓取流量分配给各子频道,实现了对目标网站各子频道更加合理的浏览分配。
【专利说明】确定网站子频道抓取流量配额的方法及设备
【技术领域】
[0001]本发明涉及搜索引擎【技术领域】,具体涉及确定网站子频道抓取流量配额的方法及设备。
【背景技术】
[0002]搜索引擎是一种互联网信息平台,通过搜索引擎能够将互联网上的大量网页信息收集起来,经过加工处理后,建立信息数据库和索引数据库,用户可以通过在搜索引擎提供的入口中输入查询词,从而获取搜索引擎针对该查询词返回的搜索结果。随着搜索引擎技术的不断发展和成熟,其提供的服务业越来越完善,在人们从规模庞大的互联网中获取所需信息时,搜索引擎已经成为一种非常常用,也非常便利的工具。
[0003]搜索引擎为了能够下载互联网上的网页,以供分析网页数据和建立索引,往往需要使用一种抓取网页的工具程序,这种程序通常被称为“爬虫程序”或“蜘蛛程序”。由于互联网上总是不停的产生新网页,同时原有的网页也在不断的更新,因此爬虫程序需要不停的工作,以保证搜索引擎能够得到最新的网页数据。为了提供更好的搜索结果,搜索引擎的爬虫程序总希望能够更快地收录互联网上的新网页以及更新的原有网页。但网页资源位于网络上的各个站点主机上,爬虫程序对网页资源的抓取势必会占用站点主机的服务资源,如站点主机的软硬件处理资源,带宽等。如果抓取网页的任务超过了站点主机的承受范围,就会影响到网站用户的正常访问,那么爬虫程序的网页抓取行为就成为了对网站不友好行为,严重时会导致影响网站响应超时,甚至网站服务器崩溃。而且,为保护网站的稳定性,网站常常会监控爬虫程序的访问,并对产生不友好行为的爬虫程序采取限制,甚至禁止访问措施。一旦爬虫程序被限制或禁止,搜索引擎的网页抓取效率会变低,甚至无法更新或下载该网站网页资源,最终对搜索服务的提供产生负面影响。
[0004]同时,现有技术中一般是由人工设定来设定爬虫程序可对网站抓取的流量或频率,这种方式虽然减少搜索引擎的爬虫程序与被抓取网站的冲突,但是对网页数据更新没有得到最大体现,因此使得爬虫程序抓取行为与网站数据更新的需求没有得到合理的平衡。

【发明内容】

[0005]鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的确定网站子频道抓取流量配额的设备和相应的确确定网站子频道抓取流量配额的方法。
[0006]依据本发明的一个方面,提供了一种确定网站子频道抓取流量配额的方法,包括:
[0007]获取目标网站各子频道承受流量;
[0008]根据各子频道内网页的网页质量分布,确定各子频道任务流量;
[0009]根据所述子频道承受流量,和所述子频道任务流量计算各子频道对应的抓取权重;
[0010]根据目标网站总流量配额,以及各子频道抓取权重,确定各子频道配额。
[0011]可选地,所述获取目标网站各子频道承受流量,包括:
[0012]根据目标网站各子频道的受访问数据,获取目标网站各子频道承受流量。
[0013]可选地,所述根据目标网站各子频道的受访问数据,获取目标网站各子频道承受流量,包括:
[0014]根据搜索引擎统计的对目标网站各子频道的受访问数据,获取目标网站各子频道
承受流量。
[0015]可选地,所述根据目标网站各子频道的受访问数据,获取目标网站各子频道承受流量,包括:
[0016]根据目标网站各子频道的受访问数据,确定目标网站各子频道的频道承受访问总量;
[0017]根据所述频道承受访问总量与预置的频道压力系数,确定目标网站各子频道承受流量。
[0018]可选地,所述根据各子频道内网页的网页质量分布,确定各子频道任务流量,包括:
[0019]根据各子频道内网页的pagerank,和/或网页的链接深度,确定各子频道内网页的评分;
[0020]对各子频道内多个网页的所述评分进行归一化处理,获得各个网页对应的质量分布;
[0021]根据获得的各子频道内网页的网页质量分布,确定各子频道任务流量。
[0022]可选地,所述根据目标网站总流量配额,以及各子频道抓取权重,确定各子频道配额,包括:
[0023]根据目标网站的网站访问数据,确定目标网站的抓取承受流量;
[0024]根据目标网站内网页的网页质量分布,确定抓取目标网站的网站任务流量;
[0025]根据所述目标网站的抓取承受流量,以及所述抓取目标网站的网站任务流量,确定在目标网站上进行网页抓取的所述目标网站总流量配额;
[0026]根据上述步骤确定的所述目标网站总流量配额,以及各子频道抓取权重,确定各子频道配额。
[0027]可选地,还包括:
[0028]根据抓取各子频道的任务总时间确定单位时间系数;
[0029]所述根据目标网站总流量配额,以及各子频道抓取权重,确定各子频道配额,包括:
[0030]将目标网站总流量配额与各子频道权重占比,以及所述单位时间系数的乘积作为对对应子频道进行抓取的所述子频道配额。
[0031]可选地,还包括:
[0032]根据所述各子频道配额对各个子频道内的网页进行抓取。
[0033]根据本发明的另一方面,提供了一种确定网站子频道抓取流量配额的设备,包括:[0034]频道承受力获取单元,适于获取目标网站各子频道承受流量;
[0035]频道任务量获取单元,适于根据各子频道内网页的网页质量分布,确定各子频道任务流量;
[0036]抓取权重获取单元,适于根据所述子频道承受流量,和所述子频道任务流量计算各子频道对应的抓取权重;
[0037]配额确定单元,适于根据目标网站总流量配额,以及各子频道抓取权重,确定各子频道配额。
[0038]可选地,所述频道承受力获取单元,适于:
[0039]根据目标网站各子频道的受访问数据,获取目标网站各子频道承受流量。
[0040]可选地,所述频道承受力获取单元,适于:
[0041]根据搜索引擎统计的对目标网站各子频道的受访问数据,获取目标网站各子频道
承受流量。
[0042]可选地,所述频道承受力获取单元,适于:
[0043]根据目标网站各子频道的受访问数据,确定目标网站各子频道的频道承受访问总量;
[0044]根据所述频道承受访问总量与预置的频道压力系数,确定目标网站各子频道承受流量。
[0045]可选地,所述频道任务量获取单元,适于:
[0046]根据各子频道内网页的pagerank,和/或网页的链接深度,确定各子频道内网页的评分;
[0047]对各子频道内多个网页的所述评分进行归一化处理,获得各个网页对应的质量分布;
[0048]根据获得的各子频道内网页的网页质量分布,确定各子频道任务流量。
[0049]可选地,所述配额确定单元,适于:
[0050]根据目标网站的网站访问数据,确定目标网站的抓取承受流量;
[0051]根据目标网站内网页的网页质量分布,确定抓取目标网站的网站任务流量;
[0052]根据所述目标网站的抓取承受流量,以及所述抓取目标网站的网站任务流量,确定在目标网站上进行网页抓取的所述目标网站总流量配额;
[0053]根据上述步骤确定的所述目标网站总流量配额,以及各子频道抓取权重,确定各子频道配额。
[0054]可选地,还包括:
[0055]频道时间系数确定单元,适于根据抓取各子频道的任务总时间确定频道单位时间系数;
[0056]所述配额确定单元,适于:
[0057]将目标网站总流量配额与各子频道权重占比,以及所述频道单位时间系数的乘积作为对对应子频道进行抓取的所述子频道配额。
[0058]可选地,还包括:
[0059]频道网页抓取单元,适于根据所述各子频道配额对各个子频道内的网页进行抓取。[0060]根据本发明的确定网站子频道抓取流量配额的方法可以根据各子频道内网页的网页质量分布,确定各子频道任务流量;根据子频道承受流量和子频道任务流量计算各子频道对应的抓取权重;根据目标网站总流量配额,以及各子频道抓取权重,确定各子频道配额。由此解决了爬虫程序无限制的抓取导致过多占用网站资源的问题。实现了在对网站的抓取压力允许的情况下,在减少搜索引擎的爬虫程序与被抓取站点的冲突的同时,可以将更合理的将抓取流量分配给各子频道,实现了对目标网站各子频道更加合理的浏览分配。
[0061]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
【专利附图】

【附图说明】
[0062]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0063]图1示出了根据本发明一个实施例的网页抓取的方法的流程图;
[0064]图2示出了根据本发明一个实施例的确定网站抓取流量配额的方法的流程图;
[0065]图3示出了根据本发明一个实施例的确定抓取流量的方法的流程图;
[0066]图4示出了根据本发明一个实施例的确定网站子频道抓取流量配额的方法的流程图;
[0067]图5示出了根据本发明一个实施例的网页抓取的设备的示意图;
[0068]图6示出了根据本发明一个实施例的确定网站抓取流量配额的设备的示意图;
[0069]图7示出了根据本发明一个实施例的确定抓取流量的设备的示意图;
[0070]图8示出了根据本发明一个实施例的确定网站子频道抓取流量配额的设备的示意图。
【具体实施方式】
[0071]下面将参照附图更详细地描述本发明公开的示例性实施例。虽然附图中显示了本发明公开的示例性实施例,然而应当理解,可以以各种形式实现本发明公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本发明公开的范围完整的传达给本领域的技术人员。
[0072]为了便于说明,首先定义如表I中所示的参数以及参数的说明:
[0073]表I
【权利要求】
1.一种确定网站子频道抓取流量配额的方法,包括: 获取目标网站各子频道承受流量; 根据各子频道内网页的网页质量分布,确定各子频道任务流量; 根据所述子频道承受流量,和所述子频道任务流量计算各子频道对应的抓取权重; 根据目标网站总流量配额,以及各子频道抓取权重,确定各子频道配额。
2.如权利要求1所述的方法,所述获取目标网站各子频道承受流量,包括: 根据目标网站各子频道的受访问数据,获取目标网站各子频道承受流量。
3.如权利要求1或2所述的方法,所述根据目标网站各子频道的受访问数据,获取目标网站各子频道承受流量,包括: 根据搜索引擎统计的对目标网站各子频道的受访问数据,获取目标网站各子频道承受流量。
4.如权利要求1-3任一项所述的方法,所述根据目标网站各子频道的受访问数据,获取目标网站各子频道承受流量,包括: 根据目标网站各子频道的受访问数据,确定目标网站各子频道的频道承受访问总量; 根据所述频道承受访问总量与预置的频道压力系数,确定目标网站各子频道承受流量。
5.如权利要求1-4任一项所述的方法,所述根据各子频道内网页的网页质量分布,确定各子频道任务流量,包括:· 根据各子频道内网页的pagerank,和/或网页的链接深度,确定各子频道内网页的评分; 对各子频道内多个网页的所述评分进行归一化处理,获得各个网页对应的质量分布; 根据获得的各子频道内网页的网页质量分布,确定各子频道任务流量。
6.一种确定网站子频道抓取流量配额的设备,包括: 频道承受力获取单元,适于获取目标网站各子频道承受流量; 频道任务量获取单元,适于根据各子频道内网页的网页质量分布,确定各子频道任务流量; 抓取权重获取单元,适于根据所述子频道承受流量,和所述子频道任务流量计算各子频道对应的抓取权重; 配额确定单元,适于根据目标网站总流量配额,以及各子频道抓取权重,确定各子频道配额。
7.如权利要求6所述的设备,所述频道承受力获取单元,适于: 根据目标网站各子频道的受访问数据,获取目标网站各子频道承受流量。
8.如权利要求6或7所述的设备,所述频道承受力获取单元,适于: 根据搜索引擎统计的对目标网站各子频道的受访问数据,获取目标网站各子频道承受流量。
9.如权利要求6-8任一项所述的设备,所述频道承受力获取单元,适于: 根据目标网站各子频道的受访问数据,确定目标网站各子频道的频道承受访问总量; 根据所述频道承受访问总量与预置的频道压力系数,确定目标网站各子频道承受流量。
10.如权利要求6-9任一项所述的设备,所述频道任务量获取单元,适于: 根据各子频道内网页的pagerank,和/或网页的链接深度,确定各子频道内网页的评 分; 对各子频道内多个网页的所述评分进行归一化处理,获得各个网页对应的质量分布; 根据获得的各子频道内网页的网页质量分布,确定各子频道任务流量。
【文档编号】G06F17/30GK103530393SQ201310500261
【公开日】2014年1月22日 申请日期:2013年10月22日 优先权日:2013年10月22日
【发明者】魏少俊 申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1