一种防止博客被网络爬虫检索的方法和装置与流程

文档序号:11707979阅读:580来源:国知局
一种防止博客被网络爬虫检索的方法和装置与流程

本申请涉及网络信息管理领域,更具体地说,涉及一种防止博客被网络爬虫检索的方法和装置。



背景技术:

在这个信息时代,数据资源显得格外重要。网络爬虫该类的脚本程序使得检索网络信息资源变得更加方便。许多网站上的资源很容易被人给检索过去。以博客为例子,博客入驻了很多知名的名家,每个博主都拥有较多的文章。这时候其他小网站的要搜集这些资源只要一个写一个网络爬虫的脚本,该网络爬虫脚本可根据博客某文章列表分页的url进行修改页码拼接得到所有文章列表分页的url,就能加载所有博客文章的内容一次把文章给复制过去,显然,这对于网络公司来说很不利。

在现在一般防止被爬虫的方法一般是通过限制ip的访问,比如一个ip一秒钟内不能连续加载两个文章内容或者文章页列表,或者写一个脚本,把一些经常用来检索数据的ip给加入黑名单,限制访问,但是这样的效果并不好,尽管做了时间限制,然后别人每次延迟加载一秒钟,照样可以完整的爬取内容。所以,这时候需要有更好的防止网络爬虫的方法。



技术实现要素:

有鉴于此,本申请提供一种防止博客被网络爬虫检索的方法和装置,以防止博客被网络爬虫检索。

为了实现上述目的,现提出的方案如下:

一种防止网络博客被网络爬虫检索的方法,包括:

接收访客发送的访问请求;

基于预设加密算法对博客的所有页码进行加密生成与所述页码对应的字符串;

根据所述字符串生成所述页码对应的网络链接,所述网络链接中包含所述字符串;

允许访客访问博客主页。

优选的,所述将所述字符串添加到所述页码对应的网络链接中,之后还包括:

保存所有页码对应的包含有所述字符串的网络链接。

优选的,当所述字符串的存在时长超出了预设有效期后,生成新字符串,并根据所述新字符串对所述页码对应的网络链接进行更新。

优选的,所述预设加密算法包括:利用uuid生成唯一识别码然后以此作为密码对页码进行加密。

一种防止网络博客被网络爬虫检索的装置,包括:

访问请求接收单元,用于接收访客发送的访问请求;

字符串生成单元,用于基于预设加密算法对博客的所有页码进行加密生成与所述页码对应的字符串;

网络链接生成单元,用于根据所述字符串生成所述页码对应的网络链接,所述网络链接中包含所述字符串;

访问请求回复单元,用于允许访客访问博客主页。

优选的,还包括:存储单元,用于保存所有页码对应的包含有所述字符串的网络链接。

优选的,还包括:网络链接更新单元,用于当所述字符串的存在时长超出了预设有效期后,生成新字符串,并根据所述新字符串对所述页码对应的网络链接进行更新。

优选的,所述预设加密算法包括:利用uuid生成唯一识别码然后以此作为密码对页码进行加密。

经由上述技术方案可知,本申请公开了一种防止博客被网络爬虫检索的方法和装置。该方法在接收到访客的访问请求后,对博客的页码进行加密以生成与该页码对应字符串,并根据生成的字符串生成该页码对应的网络链接中。由于该字符串是通过加密方式生成的,因而访客只能通过点击博客页码实现对博客页面的访问,而无法利用网络爬虫实现对页面网络链接的拼接,从而防止了网络爬虫对博客的大量检索。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1示出了本发明一个实施例公开的一种防止博客被网络爬虫检索的方法的流程示意图;

图2示出了本发明另一个实施例公开的一种防止博客被网络爬虫检索的方法的流程示意图;

图3示出了本发明另一个实施例公开的一种防止博客被网络爬虫检索的装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

一个用户浏览了一个博主的首页。这时候,服务器向页面传递数据的时候应该传递了总的页数,和每页显示的文章数量,然后第一页是用阿拉伯数字1表示,第二页就是2。但是这个时候如果是网络爬虫软件,就可以很轻易的模拟url请求去请求后台数据。如:http://blog.cnfol.com/9999999999?page=1这个域名,只要把page=1改成page=2就可以获取第二页里面的所有内容了。而一般用户访问的时候不是改这个page的值去访问,而是通过点击页面下的页码实现访问。

参见图1示出了本发明一个实施例公开的一种防止博客被网络爬虫检索的方法的流程示意图。

由图1可知,该方法包括:

s101:接收访客发送的访问请求。

访客要进入一个博主博客的主页,需要向服务器发送访问发起请求,通过url访问,例如点击http://blog.cnfol.com/9999999999这个博主的url。

s102:基于预设加密算法对博客的所有页码进行加密生成与所述页码对应的字符串。

服务器接收到访客发送的访问请求后,对博客的页面进行加密处理(如利用生成当前有效的uuid这个唯一识别码当做页码从而实现加密)生成相应的字符串。如生成与页码1相对应的特殊字符串550e8400,不同的页码对应不同的字符串。

s103:根据所述字符串生成所述页码对应的网络链接,对所有页码对应的网络链接进行保存。

将生成的字符串添加到该页面对应的网络链接中。这样的话,当访客点击页码1时实际发送的请求则为:http://blog.cnfol.com/9999999999?page=550e8400,以替换原有的网络链接:http://blog.cnfol.com/9999999999?page=1,因而网络爬虫无法根据页面1的网络链接对其他页面url的拼接。

s104:允许访问博客主页。

由以上实施例可知,本申请公开了一种防止博客被网络爬虫检索的方法。该方法在接收到访客的访问请求后,对博客的页码进行加密以生成与该页码对应字符串,并根据生成的字符串生成该页码对应的网络链接中。由于该字符串是通过加密方式生成的,因而访客只能通过点击博客页码实现对博客页面的访问,而无法利用网络爬虫实现对页面网络链接的拼接,从而防止了网络爬虫对博客的大量检索。

参见图2示出了本发明另一个实施例公开的一种防止博客被网络爬虫检索的方法的流程示意图。

由图2可知,该方法包括:

s201:接收访客发送的访问请求。

s202:基于预设加密算法对博客的所有页码进行加密生成与所述页码对应的字符串。

s203:将所述字符串添加到所述页码对应的网络链接中,对所有页码对应的网络链接进行保存。

s204:当所述字符串的存在时长超出了预设有效期后,生成新字符串,并根据所述新字符串对所述页码对应的网络链接进行更新。

为了提高保密性,在本实施例中当所述字符串的存在时长超出了预设有效期后(如1小时),可以重新生成一个新的字符串,并根据新生成的字符串对页码对应的网络链接进行更新。

s205:允许访问博客主页。

参见图3示出了本发明另一个实施例公开的一种防止博客被网络爬虫检索的装置的结构示意图。

由图3可知,该装置包括:访问请求接收单元1、字符串生成单元2、网络链接生成单元3、网络链接更新单元4以及访问请求回复单元5。

其中,访问请求接收单元1用于接收访客发送的访问请求。

当服务器接收到访客发送的访问请求后,字符串生成单元2则基于预设加密算法对博客的所有页码进行加密生成与所述页码对应的字符串,其中不同的页码对应不同的字符串。

进而,网络链接生成单元3根据字符串生成单元2生成的字符串生成与页码对应的网络链接。如,若页码1对应的字符串为550e8400,则页码1对应的网络链接为:http://blog.cnfol.com/9999999999?page=550e8400。

网络链接更新单元4用于当所述字符串的存在时长超出了预设有效期后,生成新字符串,并根据所述新字符串对所述页码对应的网络链接进行更新,以提高字符串的保密性。

当服务器为各个页码重新分配了网络链接后,访问请求回复单元5则允许访客访问博客主页。

需要说明的是,在本发明公开的其他实施例中,该装置还包括:存储单元6。其中,存储单元6用于保存所有页码对应的包含有所述字符串的网络链接。

需要说明的是该系统实施例与方法实施例相对应,其执行过程和执行原理相同,在此不作赘述。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1