一种WEB数据采集方法及系统与流程

文档序号:16070412发布日期:2018-11-24 13:08阅读:1124来源:国知局

本发明涉及web数据采集技术领域,具体为一种web数据采集方法及系统。

背景技术

web是伴随着internet技术而产生的。在计算机网络中,对于提供web服务的计算机称为web服务器。web采用浏览器/服务器的工作方式。每个web服务器上都放置着大量的web信息。web信息的基本单位是web页(网页),多个网页组成了一个web节点。每个web节点的起始页称为“主页”,且拥有一个url地址(统一资源定位地址)。web节点之间及网页之间都是以超文本结构(非线性的网状结构)来进行组织的。

目前,互联网技术飞速发展,信息呈现出爆炸性的增长,web数据分析具有了非常重大的意义。通过对网页中大量的非结构化的数据进行分析,可以得到有价值的报表等,提供给网站运营人员和管理人员,供他们做决策和运营。其中,web数据例如包括:pv(pageview,页面浏览量)日志,点击(或者称事件)日志,效果日志(包括登录,订单等)等数据。

目前的web数据采集方法采集效率低,而且安全性能差。



技术实现要素:

本发明的目的在于提供一种web数据采集方法及系统,以解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:一种web数据采集系统,采集系统包括数据采集装置、数据传输模块和数据接收装置,所述数据采集装置通过数据传输模块连接数据接收装置,所述数据采集装置内设有处理单元、数据采集器、数据加密单元、数据病毒检测单元和数据存储单元,所述数据采集器输入端连接数据采集节点,输出端连接数据加密单元,所述数据加密单元、数据病毒检测单元和数据存储单元均连接处理单元,所述数据接收装置内设有第一数据处理单元、第二数据处理单元和存储单元。

优选的,所述第一数据处理单元接收数据并进行分帧处理,将处理得到的数据存储到存储单元并发出第一控制信号;所述第二数据处理单元与所述第一数据处理单元连接,用于根据第一控制信号从存储单元读取相应数据;所述存储单元包括状态寄存器,所述第一数据处理单元检测所述状态寄存器中是否存在未被读取的数据帧,根据检测结果产生表征状态寄存器数据位是否有效的第一状态数据。

优选的,其采集方法包括以下步骤:

a、数据采集器采集数据采集节点上的web数据,采集的web数据通过数据加密单元进行加密后传输至处理单元;

b、处理单元向数据病毒检测单元发送病毒检测指令,对web数据进行病毒检测,若检测不到病毒,则传输至数据存储单元进行存储;

c、之后web数据通过数据传输模块传输至数据接收装置,数据接收装置对接收的web数据进行读取。

优选的,所述步骤b中数据病毒检测方法如下:

a、获取采集到的web数据中的外部链接,外部链接指向数据的供应商所提供资源以外的资源;

b、对外部链接进行格式化,得到预设格式的浏览记录,所述预设格式的浏览记录包括用户标识、数据的域名和外部链接;

c、如果外部链接既不存在于白数据表又不存在于黑数据表中,则将浏览记录保存到灰数据表中,白数据表用于记录安全外部链接,黑数据表用户记录病毒外部链接;

d、在预设时长之后,根据灰数据表中每个外部链接对应的用户标识数量和数据的域名数量,确定每个外部链接的安全类型。

与现有技术相比,本发明的有益效果是:

(1)本发明结构原理简单,能够准确高效地进行web数据采集,而且安全性高。

(2)本发明采用的数据接收装置能够通过读取第一状态数据来判断存储单元的数据存储状态,以便判断是否需要继续进行数据读取。这样有效提高了第二数据处理单元的数据读取效率,也就提高了整个装置的数据接收效率。

(3)本发明采用的数据病毒检测方法能够主动搜索病毒外部链接,进而达到主动web蠕虫病毒搜索的效果,提高蠕虫病毒的防治效率。

附图说明

图1为本发明系统原理图;

图2为本发明采集方法流程图;

图3为本发明数据病毒检测方法流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1-3,本发明提供一种技术方案:一种web数据采集系统,采集系统包括数据采集装置1、数据传输模块2和数据接收装置3,所述数据采集装置1通过数据传输模块2连接数据接收装置3,所述数据采集装置1内设有处理单元4、数据采集器5、数据加密单元6、数据病毒检测单元7和数据存储单元8,所述数据采集器5输入端连接数据采集节点9,输出端连接数据加密单元6,所述数据加密单元6、数据病毒检测单元7和数据存储单元8均连接处理单元4,所述数据接收装置3内设有第一数据处理单元10、第二数据处理单元11和存储单元12。

本发明中,第一数据处理单元10接收数据并进行分帧处理,将处理得到的数据存储到存储单元12并发出第一控制信号;所述第二数据处理单元11与所述第一数据处理单元10连接,用于根据第一控制信号从存储单元读取相应数据;所述存储单元包括状态寄存器,所述第一数据处理单元检测所述状态寄存器中是否存在未被读取的数据帧,根据检测结果产生表征状态寄存器数据位是否有效的第一状态数据。第二数据处理单元从存储单元读取数据时,首先读取第一状态数据以判断状态寄存器数据位是否有效,如果有效,所述第二数据处理单元继续进行数据读取操作,否则停止进行数据读取操作。本发明采用的数据接收装置能够通过读取第一状态数据来判断存储单元的数据存储状态,以便判断是否需要继续进行数据读取。这样有效提高了第二数据处理单元的数据读取效率,也就提高了整个装置的数据接收效率。

本发明的采集方法包括以下步骤:

a、数据采集器采集数据采集节点上的web数据,采集的web数据通过数据加密单元进行加密后传输至处理单元;

b、处理单元向数据病毒检测单元发送病毒检测指令,对web数据进行病毒检测,若检测不到病毒,则传输至数据存储单元进行存储;

c、之后web数据通过数据传输模块传输至数据接收装置,数据接收装置对接收的web数据进行读取。

此外,本发明中,步骤b中数据病毒检测方法如下:

a、获取采集到的web数据中的外部链接,外部链接指向数据的供应商所提供资源以外的资源;

b、对外部链接进行格式化,得到预设格式的浏览记录,所述预设格式的浏览记录包括用户标识、数据的域名和外部链接;

c、如果外部链接既不存在于白数据表又不存在于黑数据表中,则将浏览记录保存到灰数据表中,白数据表用于记录安全外部链接,黑数据表用户记录病毒外部链接;

d、在预设时长之后,根据灰数据表中每个外部链接对应的用户标识数量和数据的域名数量,确定每个外部链接的安全类型。

本发明采用的数据病毒检测方法能够主动搜索病毒外部链接,进而达到主动web蠕虫病毒搜索的效果,提高蠕虫病毒的防治效率。

综上所述,本发明结构原理简单,能够准确高效地进行web数据采集,而且安全性高。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1