网站内容防采集系统和方法

文档序号:6337174阅读:201来源:国知局
专利名称:网站内容防采集系统和方法
技术领域
本发明涉及互联网中网站内容的采集复制技术,更具体地,本发明涉及一种网站 内容防采集方法。
背景技术
本文中所提到的术语“采集”,是指程序按照指定的规则定向获取其他网站数据的 一种方式。网络采集器是用来批量采集例如网页和论坛等的内容,将所采集的内容直接保 存到数据库或发布到网站的一种工具,它从目标网页中摘取某些数据形成统一的本地数据 库。例如,互联网中新建立的网站,往往需要大量的数据充实其网站内容。在这种情况下, 一些网站管理人员可能利用网络采集器快速且大量地复制其他网站内容,借助采集快速充 实其自己的网站。但是这种操作对被采集网站尤其是以原创内容为主的网站来说,一方面 占用了被采集网站大量的网络资源,降低了网络的运行速度和运行效率;另一方面也侵犯 了被采集网站的知识产权,因而损害被采集网站的利益。为了限制网站内容被他人采集,防 采集技术应运而生。目前常见的防采集技术是在网站的各网页内容中使用混淆字符串。这种技术通过 在网页内容中随机添加一些字符串实现。这些字符串在正常状态下例如普通用户在浏览网 页时是不可见的。但在网页内容被采集之后,混淆字符串就会在采集到的网页中显示出来。 这样采集到的内容是混有混淆字符串的内容,不符合采集者的要求,从而实现防采集的目 的。但是,这种在网站的各网页内容中使用混淆字符串实现防采集的方法有几种固有 的缺陷。首先,在网页内容中添加的随机字符串,虽然对于普通访客来说是不可见的,但对 于索引网页内容的搜索引擎机器人来说,是可见内容。这导致在搜索引擎的搜索结果中显 示网页内容时,可能会出现添加的随机字符串。同时由于某网站的网页内容中混杂了无意 义的随机字符串,有可能导致该网站在搜索引擎的搜索结果中排名靠后,不利于网站的推 广和访问量的提升。其次,采集者如果不太在意自己网站的网页内容质量,网页内容中添加 的随机字符串就起不到防采集的作用,也无法从根本上解决网页内容被采集的问题。现有的防采集技术通过添加混淆字符串修改了网页内容,破坏了网站对搜索引擎 的友好度。同时它是一种被动的防采集措施,虽然添加了随机字符串,但在采集者对所采集 内容质量要求不高的情况下,依然可以被任意采集。因此,需要一种不修改网页内容防止网页内容被采集的方法。

发明内容
本发明通过识别网站访问者是普通用户还是采集器而防止网站的网页内容被采集。本发明提供一种网站内容防采集系统,该系统包括获取单元,用于获取用户的ID,IP地址,User-Agent和当前时间;
查询单元,用于查询用户在预定时间段内对网站页面的访问量;比较单元,用于将所述记录的用户在预定时间段内对网站页面的访问量与设定值 进行比较,禁止单元,当用户在预定时间段内对网站页面的访问量大于设定值时,禁止该用 户对网站的访问。优选地,该网站内容防采集系统进一步包括存储单元,用于存储IP地址白名单和IP地址黑名单;和判断单元,如果所获取的用户的IP地址属于IP地址白名单,则该用户对网站的访 问被允许;如果所获取的用户的IP地址属于IP地址黑名单,则该用户对网站的访问被禁止。优选地,所述IP地址白名单包括搜索引擎的IP地址。本发明提供一种网站内容防采集方法,该方法包括获取用户的ID,IP地址,User-Agent和当前时间;对用户在预定时间段内访问的网站页面进行计数获得该预定时间段的用户访问 量;将该访问量与设定值进行比较;如果该访问量大于设定值时,则禁止该用户对网站的访问。优选地,在所述获取用户的IP地址步骤之后,如果所获取的用户的IP地址属于IP地址白名单,则允许该用户对网站的访问;如果所获取的用户的IP地址属于IP地址黑名单,则禁止该用户对网站的访问。优选地,该方法进一步包括将搜索引擎的IP地址放入IP地址白名单列表。优选地,将被禁止用户的IP地址放入IP地址黑名单列表。优选地,该预定时间段为1-600秒,设定值的数值为预定时间段秒数的1-50倍。由于采集是一种通过快速复制其他网站的网页内容获取其他网站数据的方法,采 集器在执行采集时,会快速密集的访问网站页面,访问频率例如可达到每分钟120页甚至 更多。相反,普通用户在浏览网站时,一般情况下不会达到这么高的访问频率。通过这种差 异,就可以识别采集器的访问,从而限制采集器继续获取网站内容。根据本发明的网站内容防采集方法通过利用不同于通过添加混淆字符串实现防 采集的原理,解决了目前防采集技术存在的缺陷。根据本发明的网站内容防采集方法不对 网站内容做任何修改,不会影响搜索引擎的索引。同时,由于此方法可以区分网站访问者是 普通用户还是采集器,通过限制采集器对网站的访问,从根本上解决了网站内容被大量采 集的问题。


下面参照附图并结合实施例对本发明进行详细说明,其中,图1示出根据本发明优选实施例的系统的框图;图2示出根据本发明一个优选实施例的方法流程图;图3示出根据本发明另一个优选实施例的方法流程图。
具体实施例方式图1示出根据本发明优选实施例的网站内容防采集系统100的结构框图。该系统 包括获取单元,用于获取用户的ID,IP地址,User-Agent和当前时间;查询单元,用于查询 用户在预定时间段内对网站页面的访问量;比较单元,用于将所述记录的用户在预定时间 段内对网站页面的访问量与设定值进行比较;和禁止单元,用于当用户在预定时间段内对 网站页面的访问量大于设定值时,禁止该用户对网站的访问。网站内容防采集系统的获取单元可以在收到每次访问请求时记录访问者的ID, IP地址、用户代理^ser-Agent)及访问时间。在访问者通过浏览器程序如hternet Explorer,或通过采集器程序访问网站时,访问者的浏览器程序或采集器程序通常会向网 站发送一段用来描述自己身份的字符串,这段字符串被称为her-Agent。用户使用的不同 的软件通常会发送不同的her-Agent。通过将访问者的IP地址和her-Agent组合,网站 可以识别和区分每一个访问者。查询单元查询当前访问者在单位时间段内访问的网站页面 的数量即访问量。比较单元将查询单元查询到的该用户的访问量和设定的访问量相比较, 如果在单位时间段内的页面访问量超过设定的访问量,即可判定该访问者的访问属于非正 常访问。禁止单元可以禁止该访问者对网站的该非正常访问。单位时间段和单位时间段内的页面访问量的设定值是两个可以在网站程序配置 中分别修改的变量。单位时间段可设置为例如10-600秒之间。单位时间段设置过短可能 导致普通用户的访问被误判为非正常访问,单位时间段设置过长则可能导致在设置的时间 段里采集器已经采集了大量数据后网站才检测到当前的访问是采集器的访问。由于采集器 在执行采集时通常有每秒钟1页至50页的频率,因此单位时间段内的页面访问量的数值可 设置为所选择以秒为单位的单位时间段的1-50倍。例如,可以将单位时间段设置为60秒, 将该单位时间段内页面访问量的设定值设置为600页。由于采集器的采集速度受网速及网 站响应速度等多种因素的影响,具体的单位时间段和单位时间段内的页面访问量应允许网 站管理员根据实际情况进行设置。另外,根据本发明的网站内容防采集系统可进一步包括用于存储IP地址白名单 和IP地址黑名单的存储单元,和判断单元,该判断单元用于判断用户的地址是否属于IP白 地址或属于IP黑地址,如果属于IP白地址,则用户对网站的访问被允许,如果属于IP黑地 址,则用户对网站的访问被禁止。由于搜索引擎在索引网站数据时也可能出现较高的访问 频率,为防止搜索引擎的索引操作被误判为采集,根据本发明的网站内容防采集系统可提 供IP地址白名单功能,将常见搜索引擎的IP地址或IP地址段加入IP地址白名单。来自 这些IP地址的访问将绕过访问频率的判断,不受访问量设定值的限制。进一步,根据本发 明的网站内容防采集系统可提供IP地址黑名单功能,将常见的采集器IP地址加入IP地址 黑名单。来自这些IP地址的访问将绕过访问频率的判断,直接被禁止。图2示出根据明一个优选实施例的方法流程图。根据该实施例的网站内容防采集 方法,包括以下步骤获取用户的ID,IP地址,User-Agent和当前时间;对用户在预定时间 段内访问的网站页面进行计数获得该预定时间段的用户访问量;将该访问量与设定值进行 比较;如果该访问量大于设定值时,则禁止该用户对网站的访问。图3示出根据本发明另一个优选实施例的方法流程图。由于搜索引擎在索引网站 数据时也可能出现较高的访问频率,为防止搜索引擎的索引操作被误判为采集,根据本发明的网站内容防采集系统可提供IP地址白名单功能,将常见搜索引擎的IP地址或IP地址 段加入IP地址白名单。来自这些IP地址的访问将绕过访问频率的判断,不受访问量设定 值的限制。图3所示方法不同于图2所示方法步骤之处在于,在所述获取用户的IP地址步 骤之后,首先判断该用户IP地址是否属于IP地址白名单,如果属于,则允许该用户对网站 的访问。如果不属于,则判断该用户IP地址是否属于IP地址黑名单。如果属于,则禁止该 用户对网站的访问。如果不属于,则如图2所示,继续查询该用户对网站页面的访问数量的 步骤。下面以PHP+MySQL的开发环境为例说明实施方法,其他语言类似数据库可通过下列SQL语句建立数据表CREATE TABLE"visitlist"(~icfINT(10) NOT NULL AUTO_INCREMENT PRIMARY KEY,VARCHAR(40)NOT NULL DEFAULT",“useragent"VARCHAR(255)NOT NULL DEFAULT",~time~INT(10)NOT NULL DEFAULT' 0') ENGINE = MYISAM ;数据表中有4个字段:id, ip,useragent, time分别表示记录ID,用户IP,用户 User-Agent,访问时间。主要的程序代码说明获取用户 IP、User-Agent 信息程序首先要获取用户的IP、her-Agent,及当前时间信息,代码如下$ip = $_SERVER[' REM0TE_ADDR'];$useragent = $_SERVER[' HTTP_USER_AGENT‘];$time = time () ;//time ()函数返回以秒为单位的当前UNIX时间戳然后,将以上数据存入数据库。代码如下mysql_query(“ INSERT INTO visitlist (、ip、,、useragent丫time、)values(‘ $ip' , ' $useragent' , ' $time')〃 );查询当前用户在单位时间段内访问的页面数假设单位时间段是一个网站管理员已经设置好的常量define (‘ DURATION',60);$time_start = time ()-DURATION ;//通过当前时间减去设置的时间段,就是计数 开始时间$query = mysql_query ( “ SELECT COUNT (*) AS visit_count FROM visitlistffHERE"time" > $time_start AND—ip— = ' {$this- > base- > ip} ' AND、useragent、=' {$useragent}"');$row = mysql_fetch_array($query);$visit_count = isset($row[ ' visit_count ' ]) ? $row[ ' vist_ count' ] : 0 ;判断单位时间段内访问的页面数是否大于设定值,并处理最终结果
假设单位时间段内访问的页面数是一个网站管理员已经设置好的常量define(‘ MAX_PAGES' ,300);if($visit_count > MAX_PAGES){exit('访问频率过高,禁止访问');//此处也可以将访问者的IP地址加入网站 IP黑名单列表,可以更有效的禁止用户访问。}应当理解,以上借助本发明的优选实施例本发明的技术方案进行了详细说明,应 当理解,以上说明是示意性的而非限制性的。本领域的普通技术人员在阅读本发明说明书 的基础上可以对各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同 替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的 精神和范围。本发明的保护范围仅由随附权利要求书限定。
权利要求
1.一种网站内容防采集系统,其特征在于,该系统包括获取单元,用于获取用户的ID,IP地址,User-Agent和当前时间;查询单元,用于查询用户在预定时间段内对网站页面的访问量;比较单元,用于将所述记录的用户在预定时间段内对网站页面的访问量与设定值进行 比较,禁止单元,当用户在预定时间段内对网站页面的访问量大于设定值时,禁止该用户对 网站的访问。
2.根据权利要求1的网站内容防采集系统,其特征在于,该预定时间段为1-600秒,该 设定值的数值为预定时间段秒数的1-50倍。
3.根据权利要求1的网站内容防采集系统,其特征在于,该系统进一步包括存储单元,用于存储IP地址白名单和IP地址黑名单;和判断单元,如果所获取的用户的IP地址属于IP地址白名单,则该用户对网站的访问被 允许;如果所获取的用户的IP地址属于IP地址黑名单,则该用户对网站的访问被禁止。
4.根据权利要求3的网站内容防采集系统,其特征在于,所述IP地址白名单包括搜索 引擎的IP地址。
5.一种网站内容防采集方法,其特征在于,该方法包括获取用户的ID,IP地址,User-Agent和当前时间;对用户在预定时间段内访问的网站页面进行计数获得该预定时间段的用户访问量;将该访问量与设定值进行比较;如果该访问量大于设定值时,则禁止该用户对网站的访问。
6.根据权利要求5的网站内容防采集方法,其特征在于,该预定时间段为1-600秒,设 定值的数值为预定时间段秒数的1-50倍。
7.根据权利要求5的网站内容防采集方法,其特征在于,在所述获取用户的IP地址步 骤之后,如果所获取的用户的IP地址属于IP地址白名单,则允许该用户对网站的访问。
8.根据权利要求5的网站内容防采集方法,其特征在于,在所述获取用户的IP地址步 骤之后,如果所获取的用户的IP地址属于IP地址黑名单,则禁止该用户对网站的访问。
9.根据权利要求5的网站内容防采集方法,其特征在于,该方法进一步包括将搜索引 擎的IP地址放入IP地址白名单列表。
10.根据权利要求5的网站内容防采集方法,其特征在于,将被禁止用户的IP地址放入 IP地址黑名单列表。
全文摘要
本发明提供一种网站内容防采集系统和方法。本发明的网站内容防采集系统包括获取单元,用于获取用户的ID,IP地址,User-Agent和当前时间;查询单元,用于查询用户在预定时间段内对网站页面的访问量;比较单元,用于将所述记录的用户在预定时间段内对网站页面的访问量与设定值进行比较,禁止单元,当用户在预定时间段内对网站页面的访问量大于设定值时,禁止该用户对网站的访问。根据本发明的方法可以在不修改网页内容的情况下防止网页内容被采集。
文档编号G06F17/30GK102088477SQ201010566679
公开日2011年6月8日 申请日期2010年11月25日 优先权日2010年11月25日
发明者孟凡斌, 梅春, 潘海东 申请人:互动在线(北京)科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1