一种智能反屏蔽网络爬虫系统的制作方法

文档序号:11960390阅读:608来源:国知局
一种智能反屏蔽网络爬虫系统的制作方法与工艺

本发明涉及计算机技术领域,具体涉及一种智能反屏蔽网络爬虫系统。



背景技术:

网络爬虫是一种“自动化浏览网络”的程序,是一种自动检索工具,它可以自动采集所有其能够访问到的网站页面内容,然后将访问到的内容存储下来,供分析使用。

然后,由于很多网站的商业排他行为,会在网站上设置发爬虫机制,导致用户可以正常访问的页面不能使用爬虫获取。



技术实现要素:

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的智能反屏蔽网络爬虫系统。

依据本发明的一个方面,提供了一种智能反屏蔽网络爬虫系统

本发明的目的可以通过以下技术方案实现:

一种智能反屏蔽网络爬虫系统,包括智能代理模块、用户行为模拟模块、信息爬取模块、信息整理储存模块、信息分析单元、屏蔽规则库、代理信息库、用户帐号库、用户行为规则库;

所述的屏蔽规则库储存网站的屏蔽规则;

所述的代理信息库负责储存IP代理站点的信息,包含用户名、密码、IP地址、协议;

所述的用户帐号库储存用户登录目标网站的用户帐号信息,包含用户名、密码、网址;

所述的用户行为规则库用于储存用户行为规则的关键指标,包含访问频率、单页面滞留时间、定单用户最长滞留时间,该指标为一组阀值,具体值由管理员设定。

进一步地,所述的智能代理模块工作步骤如下:

步骤S201,获取入口url,首次访问网站,根据屏蔽规则库去主动触发屏蔽规则;

步骤S202,根据目标网站的返回值判断目标网站是否有屏蔽机制,返回值枚举存放在屏蔽规则库中,由管理员维护,根据枚举值和返回值比较,判断目标网站不存在屏蔽机制的时候,执行步骤S207,调用信息爬取模块爬取信息,根据枚举值和返回值比较,判断目标网站存在屏蔽机制的时候,执行步骤S203,启用代理;

步骤S203,启用代理;

步骤S204,判断代理是否失效或已到达设定时限,如果为是则执行步骤S205更换代理,此处的代理信息为步骤S209从代理信息库中获取,如果为否,则执行步骤S206调用用户行为模拟模块模拟用户访问目标网站;

步骤205,更换代理;

步骤206,调用用户行为模拟模块模拟用户访问;

步骤S207,调用信息爬取模块爬取目标网站信息。

进一步地,所述的用户行为模拟模块工作步骤如下:

步骤S301,获取用户帐号,此用户帐号为储存在用户帐号库中与目标网站相对应的帐号/密码;

步骤S302,获取用户行为规则,此用户行为规则为储存在用户行为规则库中的用户行为规则,包括但不限于访问频率、单页面滞留时间、定单用户最长滞留时间,该指标为一组阀值,具体值由管理员设定;

步骤S303,设定用户行为参数,将上一步获取的用户行为规则的阀值配置入配置文件中,供后续使用;

步骤S304,访问页面信息,为目标网站的信息,使用步骤S301获取的用户名/密码;

步骤S305,判断用户行为信息是否达到步骤S303中设定的阀值,如果没有达到阀值,继续执行步骤S304访问页面信息;如果达到阀值,回到步骤S301,更换帐号后循环以上步骤。

本发明的有益效果:本发明的智能代理模块通过主动触发方式来智能判断是否启用代理,并且智能代理模块可以实现无人工介入的自动更换代理,并且提供用户行为模拟模块来模拟用户访问网站页面数据,可以实现智能规避网站的反屏蔽措施。从而使用该智能反屏蔽网络爬虫实现网站数据的智能采集。

附图说明

下面结合附图和具体实施例对本发明作进一步详细描述。

图1是本发明的示意图。

图2是本发明的智能代理模块的工作示意图。

图3是本发明的用户行为模拟模块的工作示意图。

图4是本发明的信息爬取模块示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

由图1所示,本发明提供了一种智能反屏蔽网络爬虫系统,该智能反屏蔽网络爬虫系统包括智能代理模块111、用户行为模拟模块112、信息爬取模块113、信息整理储存模块114、信息分析单元120、屏蔽规则库115、代理信息库116、用户帐号库117、用户行为规则库118。

智能代理模块111连接用户行为模拟模块112,用户行为模拟模块112连接信息爬取模块113,信息爬取模块113连接信息整理储存模块114,信息整理储存模块114连接信息分析单元120。

屏蔽规则库115和代理信息库116分别与智能代理模块111连接。

用户帐号库117和用户行为规则库118分别与用户行为模拟模块112连接。

屏蔽规则库115储存网站的屏蔽规则。

代理信息库116负责储存IP代理站点的信息,包含用户名、密码、IP地址、协议。

用户帐号库117储存用户登录目标网站的用户帐号信息,包含用户名、密码、网址。

用户行为规则库118用于储存用户行为规则的关键指标,包含访问频率、单页面滞留时间、定单用户最长滞留时间,该指标为一组阀值,具体值由管理员设定。

图2示出了根据本发明一个实施例的智能代理模块的处理方法的流程图,如图2所示,该方法包括:

步骤S201,获取入口url,首次访问网站,根据屏蔽规则库去主动触发屏蔽规则。此处的屏蔽规则为步骤S208从屏蔽规则库115中取得。

步骤S202,根据目标网站的返回值判断目标网站是否有屏蔽机制。返回值枚举存放在屏蔽规则库115中,由管理员维护。

当根据枚举值和返回值比较,判断目标网站不存在屏蔽机制的时候,执行步骤S207,调用信息爬取模块113爬取信息。

当根据枚举值和返回值比较,判断目标网站存在屏蔽机制的时候,执行步骤S203,启用代理。此处的代理信息为步骤S209从代理信息库116中获取。

步骤S204,判断代理是否失效或已到达设定时限,如果为是则执行步骤S205更换代理,此处的代理信息为步骤S209从代理信息库116中获取。如果为否,则执行步骤S206调用用户行为模拟模块模拟用户访问目标网站。

步骤S207,调用信息爬取模块113爬取目标网站信息。

与现有技术中的网络爬虫不同,本实施例中的网络爬虫由于采用了智能IP代理和用户行为模拟,使目标网站认为该爬虫是正常的用户,所以可以完美绕过目标网站的屏蔽机制,顺利采集网站数据。

图3示出了根据本发明一个实施例的用户行为模拟模块的处理方法的流程图,如图3所示,该方法包括:

步骤S301,获取用户帐号,此用户帐号为储存在用户帐号库117中与目标网站相对应的帐号/密码。

步骤S302,获取用户行为规则,此用户行为规则为储存在用户行为规则库118中的用户行为规则,包括但不限于访问频率、单页面滞留时间、定单用户最长滞留时间,该指标为一组阀值,具体值由管理员设定。

步骤S303,设定用户行为参数,将上一步获取的用户行为规则的阀值配置入配置文件中,供后续使用。

步骤S304,访问页面信息,为目标网站的信息,使用步骤S301获取的用户名/密码。

步骤S305,判断用户行为信息是否达到步骤S303中设定的阀值,如果没有达到阀值,继续执行步骤S304访问页面信息;如果达到阀值,回到步骤S301,更换帐号后循环以上步骤。

图4示出了根据本发明一个实施例的信息爬取模块实现方法的流程图,如图4所示,该方法包括:

步骤S401,模拟用户对网页的访问操作发送网页访问请求。其中,可以通过客户端如浏览器发送网页访问请求。

步骤S402,根据网页访问请求对应的反馈内容获得相应的网页内容。

步骤S403,分析获得的网页内容,获得目标信息。

在本发明的一个实施例中,上述方法进一步包括:智能代理和用户行为模拟所达成的反屏蔽机制效果。

需要说明的是:

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1