IP调用方法及装置、存储介质、电子设备与流程

文档序号:11437055阅读:274来源:国知局
IP调用方法及装置、存储介质、电子设备与流程

本公开涉及网络安全技术领域,具体而言,涉及一种ip调用方法、ip调用装置、计算机可读存储介质以及电子设备。



背景技术:

在很多年以前,网络大数据已经被专家们定义为信息时代的“新型石油”。并且,通过各种网络大数据处理技术的不断提炼和升华,网络大数据的价值已经在商务、医疗、能源以及互联网等诸多领域得到了充分的证明,同时也创造了巨大的收益。

随着近年来网络大数据应用呈现井喷式的爆发,各行各业也愈加关注获取网络大数据的方式和来源。其中,网络爬虫技术就是获取网络大数据的一种方式;一方面,网络爬虫可以利用互联网的开放性,对网络数据源进行定制化的搜索和收集;另一方面,网络爬虫还可以利用互联网信息量大、时效性高以及数据种类丰富的特点汲取海量网络大数据的营养。

但是,网络爬虫对于网络大数据的爬取如同矛与盾的较量,为了保护网站本身的网络大数据,一些网站会采取某些手段以防止网络爬虫对网络大数据的爬取,例如可以包括设置验证码、用户黑名单、cookie加密以及ip封锁等方式限制网络爬虫的请求,这对于网络大数据的获取造成了很大的不便。

需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。



技术实现要素:

本公开的目的在于提供一种ip调用方法、ip调用装置、计算机可读存储介质以及电子设备,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。

根据本公开的一个方面,提供一种ip调用方法,包括:

配置ip切换策略以及ip接口;

响应爬虫应用通过所述ip接口发送的包括待爬取网站url的ip调用请求;

根据所述待爬取网站url以及所述ip切换策略为所述爬虫应用分配可调用ip以使所述爬虫应用根据所述可调用ip爬取待爬取网站。

在本公开的一种示例性实施例中,根据所述待爬取网站url以及ip切换策略为所述爬虫应用分配可调用ip包括:

根据所述待爬取网站url判断所述待爬取网站是否需要登录;

在判断所述待爬取网站需要登录时,查询ip缓存中是否存在所述爬虫应用调用过的历史ip;

在查询到所述ip缓存中存在所述历史ip时,将所述历史ip发送给所述爬虫应用以使所述爬虫应用根据所述历史ip爬取所述待爬取网站。

在本公开的一种示例性实施例中,所述ip调用方法还包括:

在判断所述待爬取网站不需要登录时,从ip数据库中调用一未调用ip并将所述未调用ip发送给所述爬虫应用以使所述爬虫应用利用所述未调用ip爬取所述待爬取网站。

在本公开的一种示例性实施例中,所述ip调用方法还包括:

在查询到所述ip缓存中不存在所述历史ip时,从ip数据库中调用一未调用ip并将所述未调用ip发送给所述爬虫应用以使所述爬虫应用利用所述历史ip爬取所述待爬取网站。

在本公开的一种示例性实施例中,所述ip调用方法还包括:

判断所述历史ip是否被所述待爬取网站加入黑名单;

在判断所述历史ip未被所述待爬取网站加入黑名单时,判断所述历史ip对所述待爬取网站的访问次数是否超过预设次数;

在判断所述访问次数未超过所述预设次数时,利用所述历史ip爬取所述待爬取网站。

在本公开的一种示例性实施例中,所述ip调用方法还包括:

在判断所述历史ip被所述待爬取网站加入黑名单时,重新获取有效ip并删除所述ip缓存中的所述历史ip;

判断所述有效ip是否被所述待爬取网站加入黑名单。

在本公开的一种示例性实施例中,所述ip调用方法还包括:

在判断所述访问次数超过所述预设次数时,重新获取有效ip并删除所述ip缓存中的所述历史ip;

判断所述有效ip对所述待爬取网站的访问次数是否超过预设次数。

在本公开的一种示例性实施例中,所述ip调用方法还包括:

向ip服务器发送增加ip的增加请求并判断所述ip服务器响应所述增加请求发送的新增ip是否与所述可调用ip相同;

在判断所述新增ip与所述可调用ip不相同时,存储所述新增ip。

在本公开的一种示例性实施例中,所述ip调用方法还包括:

判断所述可调用ip的失效时间是否超过预设时间;

在判断所述失效时间超过所述预设时间时,更新所述可调用ip以形成新生成ip;

利用所述新生成ip替换所述可调用ip。

在本公开的一种示例性实施例中,为所述爬虫应用分配可调用ip以及存储所述新增ip以异步方式执行。

根据本公开的一个方面,提供一种ip调用方法,包括:

通过代理服务器的ip接口向所述代理服务器发送包括待爬取网站url的ip调用请求;

接收所述代理服务器响应所述ip调用请求并通过ip切换策略切换发送的可调用ip;

利用所述可调用ip爬取待爬取网站。

根据本公开的一个方面,提供一种ip调用装置,包括:

配置模块,用于配置ip切换策略以及ip接口;

响应模块,用于响应爬虫应用通过所述ip接口发送的包括待爬取网站url的ip调用请求;

ip分配模块,用于根据所述待爬取网站url以及所述ip切换策略为所述爬虫应用分配可调用ip以使所述爬虫应用根据所述可调用ip爬取待爬取网站。

根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的ip调用方法。

根据本公开的一个方面,提供一种电子设备,包括:

处理器;以及

存储器,用于存储所述处理器的可执行指令;

其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的ip调用方法。

本公开一种ip调用方法及装置,通过配置ip切换策略以及ip接口;当接收爬虫应用通过ip接口发送的包括待爬取网站url的ip调用请求时,根据待爬取网站url以及ip切换策略为爬虫应用分配可调用ip以使爬虫应用根据可调用ip爬取待爬取网站;一方面,通过ip接口,使得所有的爬虫应用可以根据配置的ip切换策略去爬取待爬取网站,提高了爬虫应用的可控性以及统一性,提升了系统的安全性;另一方面,通过根据待爬取网站url以及ip切换策略为爬虫应用分配可调用ip,以保证爬虫应用分配到的可调用ip均有效,提高了爬虫应用的爬取效率。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1示意性示出一种爬虫应用爬取示例图。

图2示意性示出一种ip调用方法的流程图。

图3示意性示出一种为爬虫应用分配可调用ip的方法流程图。

图4示意性示出另一种ip调用方法的流程图。

图5示意性示出一种ip调用方法的流程图。

图6示意性示出一种ip调用方法的流程图。

图7示意性示出一种ip调用方法的流程图。

图8示意性示出一种代理服务器的结构框图。

图9示意性示出另一种爬虫应用爬取示例图。

图10示意性示出一种ip调用装置的方框图。

图11示意性示出一种能够实现上述ip调用方法的电子设备示例图。

图12示意性示出一种能够实现上述ip调用方法的程序产品示例图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

ip封锁的反爬机制是指将短时间内,将对某网站高频次的请求ip列入黑名单以屏蔽该ip的请求。为了破解这该反爬机制,目前常见的可以包括两种方法:一种是在程序中降低爬虫请求的频次,并且爬取频次要低于网站黑名单规则的最低阈值以避免被网站列入黑名单,实现数据正常的持续爬取;另一种是建立ip库并以轮询或随机的形式调用ip,然后将ip与爬虫应用进行绑定,当爬虫应用访问待爬取网站时,不断切换ip以避开网站ip反爬机制的检测。

但是,上述两种方案虽然可以适用部分业务场景,但是可用范围相对较小;同时,对于昂贵的ip还存在利用率不高、资源浪费的问题。其中,第一种方案会严重减低爬虫的抓取效率,而且随着网站反爬机制的优化,爬虫程序还需要人工测试和维护,大大的增加了运维成本以及测试成本;第二种方案虽然ip的选择机制相对简单,但是ip在爬虫应用中的利用率不高;另外,如果ip库中的某一个ip被列入黑名单,当爬虫应用没有检测和排除机制依旧利用黑名单中的ip去请求网站时,会造成无效的请求,进而无法抓取数据。

另外,参考图1所示,在一种爬取网络大数据的技术方案中,客户端需要根据返回的ip开发代理应用,并根据ip制定切换策略再绑定爬虫应用;爬虫应用获取该ip后,再爬取待爬取网站并获取相关数据。采用该技术方案,需要多次制定切换策略,大大的降低了爬取的速度。

本示例实施方式中首先提供了一种ip调用方法。参考图2所示,该ip调用方法可以包括以下步骤:

步骤s210.配置ip切换策略以及ip接口。

步骤s220.响应爬虫应用通过所述ip接口发送的包括待爬取网站url的ip调用请求。

步骤s230.根据所述待爬取网站url以及所述ip切换策略为所述爬虫应用分配可调用ip以使所述爬虫应用根据所述可调用ip爬取待爬取网站。

在上述ip调用方法中,一方面,通过ip接口,使得所有的爬虫应用可以根据配置的ip切换策略去爬取待爬取网站,提高了爬虫应用的可控性以及统一性,提升了系统的安全性;另一方面,通过根据待爬取网站url以及ip切换策略为爬虫应用分配可调用ip,以保证爬虫应用分配到的可调用ip均有效,提高了爬虫应用的爬取效率。

下面,将对本示例实施方式中上述ip调用方法的各步骤进行详细的说明。

在步骤s210中,配置ip切换策略以及ip接口。

在本示例实施方式中,上述ip切换策略例如可以包括:当待爬取网站需要登录时从ip缓存中调用历史ip或者从ip数据库中调用一未调用ip给爬虫应用;当历史ip被待爬取加入黑名单时从ip数据库中调用一未调用ip给爬虫应用;当历史ip的访问次数超过预设访问次数时从ip数据库中调用一未调用ip给爬虫应用等等,也可以包括:当新增ip与ip数据库以及ip缓存库中的ip不同时存储该新增ip,本示例实施方式对此不作特殊限制;上述ip接口可以用于对各爬虫应用进行统一,使得各爬虫应用可以适用上述切换策略,不用制定多次切换策略。在本示例中,通过在代理服务器中为各爬虫应用配置统一的ip接口以及ip切换策略,可以节省需要多次配置ip切换策略的时间,提高了爬取的速度。此外,在本公开的其他示例性实施例中,也可以根据实际情况以其他的方式提高爬取速度,本示例性实施例中对此不做特殊限定。

在步骤s220中,响应爬虫应用通过所述ip接口发送的包括待爬取网站url的ip调用请求。详细而言:

当爬虫应用需要爬取某一网页(例如可以是http://www.google.com/)时,首先通过上述ip接口向代理服务器发送包括该网页url(http://www.google.com/)的ip调用请求。其中,上述代理服务器(proxyserver)的功能例如可以包括代理网络用户去获得网络信息,是网络信息的中转站;在一种情况下,用户使用网络浏览器直接去连接其他internet站点取得网络信息时,须送出request信号来得到问答,然后对方再把信息以bit方式传送回来;代理服务器是介于浏览器和web服务器之间的一台服务器,有了代理服务器之后,浏览器不是直接到web服务器去取回网页而是向代理服务器发出请求,request信号会先送到代理服务器,由代理服务器来取回浏览器所需要的信息并传送给你的浏览器。在本示例中,代理服务器(可以参考图8所示)可以包括ip智能调用模块、ip容器(可以包括ip数据库以及ip缓存)以及代理拨号模块等等,也可以其他模块,例如可以是存储模块等等,本示例对此不作特殊限制。

在步骤s230中,根据所述待爬取网站url以及所述ip切换策略为所述爬虫应用分配可调用ip以使所述爬虫应用根据所述可调用ip爬取待爬取网站。参考图3所示,根据所述待爬取网站url以及ip切换策略为所述爬虫应用分配可调用ip可以包括步骤s310、步骤s320以及步骤s330。其中:

在步骤s310中,根据所述待爬取网站url判断所述待爬取网站是否需要登录。举例而言:

根据上述待爬取网站url(http://www.google.com/)判断该待爬取网站是否需要登录。

在步骤s320中,在判断所述待爬取网站需要登录时,查询ip缓存中是否存在所述爬虫应用调用过的历史ip。举例而言:

当上述待爬取网站需要登录时,登陆后浏览器会生成cookie,携带cookie参数对网站进行请求通常不会被拒绝或反爬,所以对于ip的反爬几率就比较低,此时代理系统可以先判断缓存ip中是否包括爬虫应用使用过的ip。其中,上述cookie是指某些网站为了辨别用户身份,进行session(会话控制)跟踪而存储在用户本地终端上的数据(通常经过加密);cookie是小量信息,由网络服务器发送出来以存储在网络浏览器上,从而下次这位独一无二的访客又回到该网络服务器时,可以从该浏览器读回此信息,让浏览器记住这位访客的特定信息,例如上一次访问的位置、花费的时间或者用户首选项等等。

在步骤s330中,在查询到所述ip缓存中存在所述历史ip时,将所述历史ip发送给所述爬虫应用以使所述爬虫应用根据所述历史ip爬取所述待爬取网站。举例而言:

在查询到上述ip缓存中存在爬虫应用使用过的ip时,则继续使用该使用过的ip进行爬取;该方案可以提高ip的使用率。

在本示例的另一种实施方式中,上述ip调用方法还包括:在判断所述待爬取网站不需要登录时,从ip数据库中调用一未调用ip并将所述未调用ip发送给所述爬虫应用以使所述爬虫应用利用所述未调用ip爬取所述待爬取网站。举例而言:

当上述待爬取网站不需要登录时,直接从数据库中调用一未调用ip给爬虫应用。此外,在本公开的其他示例性实施例中,也可以从ip缓存中调用一ip给爬虫应用,本示例性实施例中对此不做特殊限定。

在本示例的另一种实施方式中,上述ip调用方法还可以包括:在查询到所述ip缓存中不存在所述历史ip时,从ip数据库中调用一未调用ip并将所述未调用ip发送给所述爬虫应用以使所述爬虫应用利用所述历史ip爬取所述待爬取网站。举例而言:

在查询到上述ip缓存中不存在爬虫应用使用过的ip时,则从ip数据库中调取一未使用的ip给爬虫应用。此外,在本公开的其他示例性实施例中,也可以从ip缓存中调用一ip给爬虫应用,本示例性实施例中对此不做特殊限定。

在本示例的另一种实施方式中,参考图4所示,上述ip调用方法还可以包括步骤s410、步骤s420以及步骤s430。其中:

在步骤s410中,判断所述历史ip是否被所述待爬取网站加入黑名单。

在本示例实施方式中,当获取到可调用ip后,根据数据库中的可调用ip的标志位判断该可调用ip是否被上述待爬取网站加入黑名单。此外,在本公开的其他示例性实施例中,也可以根据其他的方式判断上述可调用ip是否被待爬取网站加入黑名单,本示例性实施例中对此不做特殊限定。

在步骤s420中,在判断所述历史ip未被所述待爬取网站加入黑名单时,判断所述历史ip对所述待爬取网站的访问次数是否超过预设次数。详细而言:

当上述可调用ip通过上述待爬取网站的黑名单验证之后,还需要检测上述可调用ip对上述待爬取网站的访问次数是否已经超过上述切换策略中规定的预设阈值(例如可以是总数不超过10次、15次等等,也可以是每天不超过5次、8次等等,本示例对此不作特殊限制)。其中,在各爬虫应用第一次通过上述ip代理接口向代理平台发送调用请求之前,都需要配置一个参数(预设阈值),该参数例如可以是同个代理最多使用次数;因此,当同某一ip访问网站的次数多于同个代理最多使用次数时,该ip就需要被作废。

在步骤s430中,在判断所述访问次数未超过所述预设次数时,利用所述历史ip爬取所述待爬取网站。

在本示例的另一种实施方式中,上述ip调用方法还可以包括:在判断所述历史ip被所述待爬取网站加入黑名单时,重新获取有效ip并删除所述ip缓存中的所述历史ip;判断所述有效ip是否被所述待爬取网站加入黑名单。举例而言:

为了保证上述ip容器中存储的ip均为有效ip,在判断上述历史ip被上述待爬取网站加入黑名单时,重新获取有效ip并删除上述ip容器中的上述历史ip。此外,在本公开的其他示例性实施例中,为了方便对各ip的抓取记录进行查询,也可以将上述历史ip进行外部存储,本示例性实施例中对此不做特殊限定。

在本示例的另一种实施方式中,上述ip调用方法还可以包括:在判断所述访问次数超过所述预设次数时,重新获取有效ip并删除所述ip缓存中的所述历史ip;判断所述有效ip对所述待爬取网站的访问次数是否超过预设次数。举例而言:

为了保证上述ip容器中存储的ip均为有效ip,在判断上述历史ip对上述待爬取网站的访问次数超过预设阈值时,重新获取有效ip并删除上述ip容器中的上述历史ip。此外,在本公开的其他示例性实施例中,为了方便对各ip的抓取记录进行查询,也可以将上述历史ip进行外部存储,本示例性实施例中对此不做特殊限定。

本示例实施方式还提供了另一种ip调用方法。参考图5所示,该ip调用方法可以包括步骤s510以及步骤s520。其中:

在步骤s510中,向ip服务器发送增加ip的增加请求并判断所述ip服务器响应所述增加请求发送的新增ip是否与所述可调用ip相同。详细而言:

利用代理服务器中的代理拨号模块通过adsl的pppoe方式进行拨号,向ip服务器发送增加ip的增加请求;然后利用jsf将生成的ip录入到代理服务器的ip容器中并通过比对算法计算ip服务器响应上述增加请求发送的新增ip是否与ip容器中的各ip相同。其中:

上述ip容器可以分为ip数据库以及ip缓存区;其中,ip缓存区收录的是已经被爬虫应用使用过但依然有效的ip,这些ip没有被网站列入黑名单所以可以重复的使用;ip数据库收录的是新生成的ip,当新的爬虫请求ip或者旧的ip被网站封掉时,都会从数据库中调取新的ip共爬虫应用使用;

上述adsl数据是dsl技术的一种,全称为asymmetricdigitalsubscriberline(非对称数字用户线路),也可以称为非对称数字用户环路,是一种新的数据传输方式;

上述pppoe是通过adsl方式上网的计算机大都是通过以太网卡(ethernet)与互联网相连的。pppoe使用的还是普通的tcp/ip方式,并没有附加新的协议;另一方面,调制解调器的拨号上网,使用的是ppp协议,即pointtopointprotocol,点到点协议,该协议具有用户认证以及通知ip地址的功能。pppoverethernet(pppoe)协议,是在以太网络中转播ppp帧信息的技术,尤其适用于adsl;

jsf:jsf(中文名:杰夫)是jingdongserviceframework(京东服务框架)的缩写,jsf是京东完全自主研发的高性能服务框架,它具有高效rpc调用、高可用的注册中心、完备的容灾特性、同时支持tcp与http协议调用、支持跨语言调用、支持多种序列化格式、支持数据压缩、提供黑白名单、负载均衡、动态切换调用分组等服务治理功能。全部模块均为自主研发,自主设计协议;各模块功能可控、可扩展性较好。

在步骤s520中,在判断所述新增ip与所述可调用ip不相同时,存储所述新增ip。举例而言:

在判断上述新增ip与与ip容器中的各ip均不相同时,将该新增ip存储至上述ip数据库中,也可以存储至ip缓存库中,本示例对此不做特殊限制。

本示例实施方式还提供了另一种ip调用方法。参考图6所示,该ip调用方法可以包括步骤s610、步骤s620以及步骤s630。其中:

在步骤s610中,判断所述可调用ip的失效时间是否超过预设时间。

在步骤s620中,在判断所述失效时间超过所述预设时间时,更新所述可调用ip以形成新生成ip。

在步骤s630中,利用所述新生成ip替换所述可调用ip。详细而言:

为了保证各ip的有效性,各ip均设置有一失效时间(当前时间+拨号间隔时间),在判断某一ip的失效时间超过预设时间时时,系统会自动生成一个新的ip来取代超时失效的ip。并且,无论该ip是在数据库中还是在缓存中,该ip连带的相关信息都会被更新;如果该ip正在被某一爬虫应用调用,该ip的内容、修改时间以及新的失效时间均会在ip数据库中更新;因此可以理解的是,爬虫应用调用的也就相当于一个新的ip,利用此方案,大大的提高了爬虫的爬取效率,保证了爬虫应用被分配到的每一个ip均是有效的。

在本公开的另一种示例实施方式中,为了提高爬取效率,减少爬虫应用由于等待可用ip而增加的时间上的消耗,代理拨号模块通过adsl的pppoe方式进行拨号并向ip服务器发送增加ip的增加请求与向爬虫应用分配可调用ip以异步方式执行。

本示例实施方式还提供了另一种ip调用方法。参考图7所示,该ip调用方法可以包括步骤s710、步骤s720以及步骤s730。其中:

在步骤s710中,通过代理服务器的ip接口向所述代理服务器发送包括待爬取网站url的ip调用请求。

在步骤s720中,接收所述代理服务器响应所述ip调用请求并通过ip切换策略切换发送的可调用ip。

在步骤s730中,利用所述可调用ip爬取待爬取网站。详细而言:

参考图9所示,当爬虫应用需要爬取某一网站时,首先需要通过代理服务器配置的ip接口向该代理服务器发送包括待爬取网站url(例如可以是:http//:www.googole.com)的ip调用请求;代理服务器响应该ip调用请求并根据切换策略为爬虫应用分配一可调用ip然后将该可调用ip发送给爬虫应用;当爬虫应用接收到该可调用ip后,利用该可调用ip爬取上述待爬取网站。其中,代理服务器对于爬虫应用来说是透明的,当爬虫应用当爬虫应用接收到上述可调用ip后,直接利用该可调用ip爬取上述待爬取网站并获取相关的数据。

此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。

本示例实施方式还提供了一种ip调用装置。参考图10所示,该ip调用装置可以包括:配置模块1010、响应模块1020以及ip分配模块1030。其中:

配置模块1010可以用于配置ip切换策略以及ip接口。

响应模块1020可以用于响应爬虫应用通过所述ip接口发送的包括待爬取网站url的ip调用请求。

ip分配模块1030可以用于根据所述待爬取网站url以及所述ip切换策略为所述爬虫应用分配可调用ip以使所述爬虫应用根据所述可调用ip爬取待爬取网站。

上述ip调用装置中各模块的具体细节已经在对应的ip调用方法中进行了详细想描述,因此此处不再赘述。

应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。

下面参照图11来描述根据本发明的这种实施方式的电子设备600。图6显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

参考图11所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:上述至少一个处理单元610、上述至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630、显示单元640。

其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610执行,使得所述处理单元610执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元610可以执行如图2中所示的步骤s210:配置ip切换策略以及ip接口;步骤s220:响应爬虫应用通过所述ip接口发送的包括待爬取网站url的ip调用请求;步骤s230:根据所述待爬取网站url以及所述ip切换策略为所述爬虫应用分配可调用ip以使所述爬虫应用根据所述可调用ip爬取待爬取网站。

存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(rom)6203。

存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器660通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

参考图12所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1