保密单位网络信息采集分析系统的制作方法

文档序号:13140247阅读:667来源:国知局
保密单位网络信息采集分析系统的制作方法

本实用新型涉及一种保密单位网络信息采集分析系统,更具体的说,尤其涉及一种在保证专网数据安全性的基础上通过VPN代理服务器来解决访问IP地址单一问题的保密单位网络信息采集分析系统。



背景技术:

随着互联网和移动互联网技术的不断发展,人们迎来了数据呈爆炸式增长的大数据时代。保密单位若能在自有保密数据的基础上更好的引入外部Web网络所承载的各类数据,对于更好地理解、丰富和使用自有数据有着积极地提升作用。网络爬虫系统可以帮助用户从外网中获取数据,为保密单位采集外部数据提供技术手段。

保密单位的自有保密数据及用户一般都部署在与外网物理隔离的专网中,这样既可保证保密数据的安全性又兼顾了单位内用户的正常使用。然而如何在保证专网内自有保密数据安全的基础上,有效地从Web网络中外部获取数据是此类单位所面临的第一个问题。

此外,由于保密单位的专网是与外网物理隔离的,一般不具备与外网通信的公网IP,其连入外网也大多是通过路由器接入运营商的方式访问Internet。在访问Internet过程中,所有接入Internet的设备共享运营商分配的同一个IP地址。

保密单位对Web信息的需求可能并不仅局限于政策导向类的网站或新闻发布类的网站,为更好地了解自身所涉及领域的热点、风向、倾向、动态等,可能还会涉及论坛、微博等即时互动平台数据的抓取。此类公众参与的即时互动平台数据更新频率远远高于网站,受服务器的限制,同一IP的爬虫在一定时间内只能采集同一目标数据源限定的数据。即使配置了多个爬虫,这些爬虫在访问目标数据源的过程中也将被运营商分配相同的IP地址,因此当其中一个爬虫达到访问上限时,其余爬虫也将被拒绝访问。如何保证即时互动平台数据采集的实时性是保密单位所面临的第二个问题。



技术实现要素:

本实用新型为了克服上述技术问题的缺点,提供了一种保密单位网络信息采集分析系统。

本实用新型的保密单位网络信息采集分析系统,包括网络信息采集子系统、网络信息分析子系统以及最终用户,网络信息采集子系统部署于局域网内,网络信息分析子系统和最终用户均部署于保密隔离的专网内;其特征在于: 所述网络信息采集子系统由爬取设置客户端、爬取主控节点、多个爬取节点、URL索引服务器以及数据接收、汇总服务器构成,网络信息采集子系统经路由器接入运营商访问Internet;爬取设置客户端用于配置数据源、关键词和爬取策略,爬取主控节点根据爬取设置客户端的配置为各爬取节点分配任务,爬取节点根据爬取主控节点分配的任务选择一个VPN连接连入远程代理服务器,使用代理服务器访问Internet中的目标数据源;爬取节点采集的数据存储至数据接收、汇总服务器中,网络信息采集子系统经网闸与网络信息分析子系统相连接,网闸用于实现数据接收、汇总服务器至网络分析子系统的单向数据发送。

本实用新型的保密单位网络信息采集分析系统,所述网络信息分析子系统由Hadoop集群、保密数据服务器和应用服务器组成,Hadoop集群由一台主节点NameNode和多台从节点DataNode组成,主节点NameNode用于接收和存储数据接收、汇总服务器发送的单向数据;保密数据服务器用于存储各类保密性数据,应用服务器根据最终用于的请求返回从Internet中采集的数据和/或保密数据服务器中的数据。

本实用新型的保密单位网络信息采集分析系统,所述最终用户通过应用服务器提交请求并获取所需信息;最终用户与应用服务器间通过B/S形式或C/S形式交互信息。

本实用新型的保密单位网络信息采集分析系统,所述网络信息采集子系统和网络信息分析子系统中的各设备均为逻辑划分,并非每个设备均需一个物理设备与其对应;在设备性能富有余地的情况下,网络信息采集子系统中的爬取主控节点的功能可由某一个爬取节点承担,URL索引服务器和数据接收、汇总服务器也可由爬取主控节点承担;网络信息分析子系统中的应用服务器可并入Hadoop集群,由其中的某台服务器承担其功能。

本实用新型的有益效果是:首先,负责数据源采集的爬取节点、负责爬取管理的主控节点、负责数据查重过滤URL索引服务器、数据接收、汇总服务器以及爬取设置客户端共处于同一局域网中,相互之间可直接通过内网通信,简化了网络信息采集子系统的同步、协调和管理工作;其次,爬取节点通过VPN拨号的方式连入远程VPN代理服务器,进而使用代理服务器的公网IP地址访问数据源,通过切换VPN连接获取足够的公网IP,从而解决即时互动平台数据采集覆盖性和完整性问题。通过网闸的隔离,爬取节点抓取的Internet中的数据只能单向传输到网络信息分析子系统中,网络信息分析子系统通过统筹处理Internet数据和保密数据,既保证保密数据的安全性又满足专网内用户对外网信息的需求。

附图说明

图1为本实用新型的保密单位网络信息采集分析系统的部署结构图;

图2为本实用新型的保密单位网络信息采集分析系统的工作原理图。

具体实施方式

下面结合附图与实施例对本实用新型作进一步说明。

针对保密单位在接入外网的同时需保证专网数据的安全性要求,以及即时互动平台数据采集的实时性要求,本实用新型方案提出了一种保密单位网络信息采集分析系统。如图1和图2所示,分别给出了本实用新型的保密单位网络信息采集分析系统的部署结构图和工作原理图,其由网络信息采集子系统、网络信息分析子系统和最终用户组成,网络信息采集子系统部署于局域网内,网络信息分析子系统以及最终用户均部署于保密隔离的专网内,局域网与专网之间通过网闸连接。局域网内的服务器及客户端通过路由器接入运营商访问Internet。网闸负责局域网与专网之间的数据转发和隔离,通过在网闸上设置规则,只允许数据接收、汇总服务器向NameNode节点的数据单向传输,禁止专网数据向外网的传输,尽量减少内网与专网之间的数据交互,从而在保证专网数据安全性的基础上,有效引入外网数据。

所示的网络信息采集子系统由爬取设置客户端、爬取主控节点、多个爬取节点、URL索引服务器和数据接收、汇总服务器组成。爬取设置客户端用于配置数据源、关键词、爬取策略等;爬取主控节点根据爬取设置客户端的配置为多个爬取节点分配任务;爬取节点中部署着网络爬虫系统,在接到爬取主控节点分配的采集任务后选择一个VPN连接连入远程VPN代理服务器,使用代理服务器访问Internet中的目标数据源。

爬取主控节点在收到数据源和关键词后,根据抓取策略为各爬取节点分配数据采集任务。爬取主控节点将定时接收各爬取节点的心跳及任务完成情况,以确定可用的爬取节点及各节点的任务完成进度,并根据所配置的抓取策略动态调整各爬取节点的任务分配,以均衡网络信息采集子系统的负载。当一段时间内接收不到某爬取节点的心跳信号,则认为此爬取节点宕机,将其所承担的任务根据负载分配给其他爬取节点。而当有新的心跳产生时,则认为有新的爬取节点加入,可为新的节点分配新任务。

当爬取主控节点有新的任务分配时,爬取节点首先将目标数据源的URL与URL索引服务器所维护的URL列表进行比对,当URL列表中包含目标数据源URL时,说明系统已采集过此目标数据源的数据,可直接结束此任务,等待爬取主控节点下一个任务的分配。当URL列表中不包含目标数据源URL时,URL索引服务器将此目标数据源URL记录到URL列表,同时爬取节点在自身所维护的VPN连接列表中选择一个连接接入远程VPN代理服务器,通过代理服务器访问Internet中的目标数据源,通过连接VPN使用远程代理服务器的IP地址访问目标数据源的方式解决访问时IP地址单一问题。

当爬取节点所接到的任务是采集同一即时互动类目标数据源的数据时,在采集到一定数据后记录采集状态,断开与当前VPN代理服务器的连接,重新在VPN连接列表中选择一个新的连接,接着之前记录的采集状态继续后续采集任务。各个爬取节点所采集的数据均交由数据接收、汇总服务器统一处理。数据接收、汇总服务器在接收到各个爬取节点所采集的数据后进行汇总,通过网闸发送给网络信息分析子系统的NameNode节点,交由Hadoop集群存储。

所示网络信息分析子系统由Hadoop集群、保密数据服务器和应用服务器组成,其中Hadoop集群由一台主节点(NameNode)和多台从节点(DataNode)组成;网络信息分析子系统中Hadoop的NameNode节点从网络信息采集子系统的数据接收、汇总服务器处获取数据,存储于Hadoop平台HDFS文件系统或HBase中;保密数据服务器负责存储保密单位的各级各类保密性数据;应用服务器接收用户请求并交由Hadoop平台MapReduce模型处理数据进行加工分析,处理结果由应用服务器返回给用户;Hadoop平台在接收到用户请求后利用MapReduce模型统筹分析处理从Internet中采集的数据及保密数据服务器中的数据,生成用户所需信息返回给应用服务器。

网闸在接收到数据后,根据规则设定的链路,只接来自于接收、汇总服务器的数据,并将接收到的数据转发给网络信息分析子系统中Hadoop集群的NameNode节点,而其他非设定链路的数据转发请求直接被网闸丢弃。网络信息分析子系统中Hadoop集群的NameNode节点在接收到数据接收、汇总服务器发送的数据后将其分布式地存储于HDFS或HBase。用户需要检索某方面的数据时将向应用服务器提出请求,应用服务器在接收到用户请求后,将请求提交给网络信息分析子系统中的NameNode节点,交由Hadoop集群处理。

网络信息分析子系统中Hadoop集群的NameNode节点在接收到应用服务器的处理请求时从HDFS或HBase以及保密数据服务器中抽取所需数据,按照MapReduce模式生成处理任务交由DataNode节点并行处理,并将最终处理结果返回给应用服务器,由应用服务器以图形化的方式展现给用户。

网络信息采集子系统和网络信息分析子系统中的各设备均为逻辑划分,并非每个设备均需一个物理设备与其对应。在设备性能富有余地的情况下,网络信息采集子系统中的爬取主控节点的功能可由某一个爬取节点承担;而URL索引服务器和数据接收、汇总服务器也可由爬取主控节点承担;网络信息分析子系统中的应用服务器可并入Hadoop集群,由其中的某台服务器承担其功能。用户通过应用服务器提交请求并获取所需信息。用户与应用服务器间可通过B/S形式或C/S形式交互信息。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1