代理服务器及互联网数据的采集方法与流程

文档序号:14571945发布日期:2018-06-01 22:47阅读:594来源:国知局
代理服务器及互联网数据的采集方法与流程

本发明涉及互联网数据采集技术领域,尤其涉及一种代理服务器及互联网数据的采集方法。



背景技术:

已知,目前互联网已经十分普及,互联网时代也是大数据的时代,在互联网中每时每刻都在产生着海量的数据,而掌握了越多的大数据,凭借对海量数据的处理分析,能够使得更高层面的决策、判断更加有理有据,为不同的行业提供数据支持,为企业高管、政府人员等提供数据参考,因此,采集互联网数据成为了目前大数据公司必备的能力,然而,目前的互联网数据采集软件通常采用htp交互进行数据采集,这种采集方式对于采用 Javascript解密渲染的网站或页面数据无法采集,而在采集软件层面进行改进会导致整个软件程序结构的改动,研发成本很大,因此,上述问题均亟待解决。



技术实现要素:

针对现有技术中存在的缺陷,本发明实施例提供一种代理服务器及互联网数据的采集方法。

为解决上述技术问题,本发明的实施例采用的技术方案是:

一种互联网数据的采集方法,包括:

接收客户端发送的向目标服务器的待采集站点采集数据的采集请求;

解析所述采集请求并得到待采集站点的URL地址;

模拟浏览器登录所述URL地址并执行Javascript脚本渲染以得到所述待采集站点的数据流;

将所述数据流作为回复数据包发送给所述客户端。

作为优选,所述浏览器配置为采用能够执行Javascript脚本渲染并得到站点内容的浏览器。

本发明实施例进一步提供一种代理服务器,包括:

数据接收模块,其用于接收客户端发送的向目标服务器的待采集站点采集数据的采集请求;

解析模块,其用于解析所述采集请求并得到待采集站点的URL地址;

模拟模块,其用于模拟浏览器登录所述URL地址并执行Javascript脚本渲染以得到所述待采集站点的数据流;

数据发送模块,其用于将所述数据流作为回复数据包发送给所述客户端。

作为优选,所述浏览器配置为采用能够执行Javascript脚本渲染并得到站点内容的浏览器。

与现有技术相比,本发明的实施例提供的代理服务器及互联网数据的采集方法,能够通过代理服务器模拟浏览器登录采用Javascript脚本渲染的站点网站并对该站点的网页内容数据进行采集,然后由代理服务器将采集得到的数据发送给采集软件,无需改变传统采集软件的源程序,即可对传统采集软件无法采集的网站内容进行采集,提高了数据采集效率,降低了人力物力。

附图说明

图1为本发明的实施例的方法步骤示意图;

图2为本发明的实施例的结构框图。

图中标号:1-数据接收模块2-解析模块3-模拟模块4-数据发送模块

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。

根据图1至图2,本发明实施例提供一种互联网数据的采集方法,包括以下步骤:

步骤1:接收客户端发送的向目标服务器的待采集站点采集数据的采集请求;

在该步骤1中,所述采集请求是包括待采集站点URL地址及相关请求参数的数据包。

步骤2:解析所述采集请求并得到待采集站点的URL地址;

在该步骤中,具体的,本实施例根据URL(Uniform/Universal Resource Locator,统一资源定位符)对待采集站点的数据进行采集,所谓URL也称网页地址,是因特网(Internet)上标准的资源地址(Address),本实施例中,所述客户端为数据采集软件,用于在互联网上采集待采集站点的页面数据。

步骤3:模拟浏览器登录所述URL地址并执行Javascript脚本渲染以得到所述待采集站点的数据流;

具体的,在该步骤3中,所述浏览器配置为采用能够执行Javascript脚本渲染并得到站点内容的浏览器,从而能够模拟登录待采集站点页面,例如,可以模拟火狐浏览器、谷歌浏览器。

进一步的,参照图2,本发明实施例还提供一种代理服务器,其包括:

数据接收模块1,其用于接收客户端发送的向目标服务器的待采集站点采集数据的采集请求;

解析模块2,其用于解析所述采集请求并得到待采集站点的URL地址;

模拟模块3,其用于模拟浏览器登录所述URL地址并执行Javascript脚本渲染以得到所述待采集站点的数据流;

数据发送模块4,其用于将所述数据流作为回复数据包发送给所述客户端。

具体的,例如,某URL地址下的页面内容只有通过Javascript解密渲染才能够显示正常的文字内容,而通过采集软件无法自动执行javascript脚本并进行数据采集,而通过本发明实施例的方法,则可以通过代理服务器模拟浏览器登录该URL地址进行数据采集,并将得到的数据返回采集软件,从而完成数据采集,而又无需对采集软件的源程序进行改动。另一种情况下,某网站首次访问时会输出一段加密的代码,通过分析,加密Javascript的是向cookie里面写入了一个服务端的随机标记,再执行跳转显示详细内容,当采集软件详情请求在服务器端检测不到cookie内容时则不会输出详细内容,这种情况下可以通过此方法来获取渲染后的代码,因为是真实模拟浏览器行为,浏览器已经执行了javascript的所有动作。

以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1