一种网站分析系统及方法和装置的制作方法

文档序号:7857567阅读:476来源:国知局
专利名称:一种网站分析系统及方法和装置的制作方法
技术领域
本发明涉及通信技术领域,尤其涉及一种网站分析系统及方法和装置。
背景技术
网站分析(Web Analytics)是一种对网站访客行为的研究。通过获得了基本的流量数据,从中发现网站访客的规律和问题。通过网站分析,可以有效的达到监控流量、吸引流量、保留流量的作用。现在技术中网站分析通常采用日志分析法和页面标记法两种方式
关于日志分析法日志分析法利用WEB服务器保存的访问日志文件作为原始的数据输入源,分析访客的浏览和访问行为。日志分析法的基本流程是I、首先需要在web服务器(例如Appache、ISS等)配置WEB日志格式,通过web服务器记录用户访问的信息;2、将保存于服务器上的日志记录通过FTP等协议保存到本地的某台机器上;3、在保存了日志的机器上运行日志分析软件;4、日志分析软件读取日志记录,通过日志记录的还原分析可以获得访客的浏览和访问行为。关于页面标记法页面标记法需要在被统计的页面中嵌入一小段脚本,这个脚本的作用就是收集必要的用户访问数据,然后将用户访问的数据发送到特定的服务器上进行分析。 页面标记法的基本流程I、在需要被统计的页面中嵌入一段采用JS语言开发脚本;2、当用户浏览网页的同时,浏览器同时解析执行这段嵌入到网页的脚本;3、这个脚本会触发一次新的HTTP请求,该请求会携带一些内容到一台专门用于网站分析的服务器上,内容通常会包括该用户的IP地址、访问的URL、用户的浏览器等信息,并通过Cookies记录一些用户信息。用于网站分析的服务器本身也是一台WEB服务器,该服务器会接收脚本发来的请求,将请求携带的内容记录在服务器上,可以获得访客的浏览和访问行为。这两种分析方法存在的弊端是I、日志分析法需要web服务器开启日志保存功能,增加了 web服务器的性能负担;2、日志分析法由于需要取得服务器日志信息之后才可以提供网站分析结果,因此网站日志分析法无法获得实时的分析结果;3、页面标记法需要在每个需要分析的页面中嵌入一段JS代码,增加了技术实施的复杂度;4、页面标记法无法统计爬虫、攻击等行为,如果用户的浏览器安全级别要求较高,或者不允许JS脚本执行,也会导致页面标记法无法完成统计功能;因为这些访问不会触发JS脚本的执行;5、页面标记法一般都是通过第三方网站提供的脚本来完成统计分析服务,这样有可能会导致网站的一些敏感信息被第三方获取;6、页面标记法的脚本都会采用Cookies的模式记录用户信息,其中有些是采用第一方Cookies,有些采用第三方Cookies。其中第一方Cookies会增加网站负担,第三方Cookies会带来用户隐私泄漏 的风险。

发明内容
本发明的目的在于提供一种基于旁路镜像的网站分析系统及方法和装置,从而解决现有技术中存在的前述问题。本发明采用独具创新的模式完成网站分析的数据采集。对用户访问网站的数据进行“旁路镜像”,可以获得用户访问网站的原始数据包信息,经过有效的数据清理、筛选,获得完整的网站分析的数据报告。本发明可以对网站的流量进行最全面的分析,包括网站的攻击流量、网络爬虫、恶意的机器人访问等等情况。无需网站修改任何代码,没有任何的安全风险。传统组网模型就是在交换机上接入相关的WEB服务器,由WEB服务器实体来完成相关的网站分析等功能;而本发明的技术组网方案在交换机上旁路部署了一个设备实体,由该设备实体来完成网站分析的功能,WEB服务器实体仅需要完成网站的信息应答功能。本发明公开的技术方案具体如下一种网站分析系统,包括防火墙、网络交换机和web服务器,所述网络交换机为具备镜像端口的网络交换机,所述镜像端口上连接有网站分析服务器;所述镜像端口用于通过流量镜像方式获取连接有所述网站分析服务器的通讯端口的通讯数据。优选的,所述网站分析服务器包括流量采集模块、http协议分析模块、Request报文分析模块、Response报文分析模块、访问信息收集模块和网站分析基础数据库;所述流量采集模块、所述http协议分析模块、所述Request报文分析模块、所述Response报文分析模块、所述访问信息收集模块和所述网站分析基础数据库顺序连接。优选的,所述网站分析系统还包括访问数据挖掘模块,所述访问数据挖掘模块用于根据请求端指定的分析条件对所述网站分析基础数据库中的数据进行筛选形成网站分析的报表并将所述网站分析的报表反馈给所述请求端。一种应用网站分析系统进行数据采集和分析的方法,包括以下步骤SI,通过所述镜像端口获取所述web服务器收到和发出的全部数据包;S2,分析所述数据包,从所述数据包中获取http协议数据包;S3,分析所述http协议数据包中的Request报文数据,得到Request报文必要信息;S4,分析所述http协议数据包中的Response报文数据,得到Response报文必要信息;S5,将所述Request报文数据的所述Request报文必要信息,和与所述Request报文数据相对应的Response报文数据的Response报文必要信息组合在一起,形成访问网站的一次完整访问信息记录;
S6,将所述完整访问信息记录写入数据库和/或数据文件中;S7,在预设时间段内循环执行S2-S6,从而形成网站分析基础数据;S8,根据预设条件和指定格式对所述数据库和/或数据文件中所述网站分析基础数据进行分析归纳形成网站分析报表。优选的,所述Request报文必要信息包括访问者的IP地址、访问的具体域名、访问的具体URL、Refrence信息和携带的Cookies ;所述Response报文必要信息包括应答状态码、携带的内容类型和报文长度。优选的,SI具体为,通过所述镜像端口获取,得到所有发送到所述web服务器以及从所述web服务器发出的报文,并将所述报文分离成上行和下行流量;和/或
S2具体为,通过对所述上行和下行流量中TCP载荷的内容分析区分,获取得到http协议报文;和/或S3具体为,对所述http协议报文中的Request报文进行解码处理,分离出Request必要信息,并将所述Request必要信息缓冲;和/或S4具体为,对所述http协议报文中的Response报文进行解码处理,分离出Response必要信息,并将所述Response必要信息缓冲;和/或S5具体为,把包含有所述Request必要信息的Request报文缓存,并等待与该Request报文相对应的Response报文,当获取到与该Request报文对应的Response报文后,则将相互对应的Request报文中的Request必要信息和Response报文中的Response必要信息合并组合,形成访问网站的一次完整访问信息记录;和/ 或S6具体为,将所述网站分析基础数据按照预设格式和规则,将一次完整的用户访问按照访问时间、访问者信息、访问的类型几个不同的维度分布存放在数据库和或数据文件中;一种应用网站分析系统进行数据采集和分析的装置,其特征在于,包括流量采集模块,用于通过所述镜像端口获取所述web服务器收到和发出的全部数据包;http协议分析模块,用于通过所述镜像端口获取所述web服务器收到和发出的全部数据包;Request报文分析模块,用于分析所述http协议数据包中的Request报文数据,得到Request报文必要信息; Response报文分析模块,用于分析所述http协议数据包中的Response报文数据,得到Response报文必要信息;访问信息收集模块,用于将所述Request报文数据的所述Request报文必要信息,和与所述Request报文数据相对应的Response报文数据的Response报文必要信息组合在一起,形成访问网站的一次完整访问信息记录;网站分析基础数据库,用于将接收所述完整访问信息记录,并以数据库和或数据文件形式保存;优选的,还包括访问数据挖掘模块,所述访问数据挖掘模块用于根据请求端指定的分析条件对所述网站分析基础数据库中的数据进行筛选形成网站分析的报表并将所述网站分析的报表反馈给所述请求端。本发明的有益效果是I.对网站没有任何的影响,无需修改网站任何的配置,无需改写网站的网页,可以做到即插即用;2.通过流量分析方法代替了传统的信息收集的方法,可以在不增加网站服务器任何负担的前提下完成网站分析;3.本发明可以完全收集所有信息,使得网站分析的原始信息非常完整;4.本发明是在WEB服务器实体前端部署一个设备实体协助来完成网站分析,该设 备实体和WEB服务器构成一个完整的体系,因此具有极高的安全性,网站无需担心数据泄露的风险。5.本发明提供二次数据挖掘,可以实现灵活多样的分析报表。


图I是本发明公开的网站分析系统的结构示意框图;图2是本发明公开的应用网站分析系统进行数据采集和分析的方法的步骤流程图;图3是本发明公开的应用网站分析系统进行数据采集和分析的装置的示意框图。
具体实施例方式为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式
仅仅用以解释本发明,并不用于限定本发明。如图I所示,本发明公开了一种网站分析系统,包括防火墙、网络交换机和web服务器,所述网络交换机为具备镜像端口的网络交换机,所述镜像端口上连接有网站分析服务器;所述镜像端口用于通过流量镜像方式获取连接有所述网站分析服务器的通讯端口的通讯数据。所述网站分析服务器包括流量采集模块、http协议分析模块、Request报文分析模块、Response报文分析模块、访问信息收集模块和网站分析基础数据库;所述流量采集模块、所述http协议分析模块、所述Request报文分析模块、所述Response报文分析模块、所述访问信息收集模块和所述网站分析基础数据库顺序连接。所述网站分析系统还包括访问数据挖掘模块,所述访问数据挖掘模块用于根据请求端指定的分析条件对所述网站分析基础数据库中的数据进行筛选形成网站分析的报表并将所述网站分析的报表反馈给所述请求端。如图2所示,本发明公开了一种应用网站分析系统进行数据采集和分析的方法,该方法包括以下步骤SI,通过所述镜像端口获取所述web服务器收到和发出的全部数据包;具体为,通过所述镜像端口获取,得到所有发送到所述web服务器以及从所述web服务器发出的报文,并将所述报文分离成上行和下行流量;S2,分析所述数据包,从所述数据包中获取http协议数据包;具体为,通过对所述上行和下行流量中TCP载荷的内容分析区分,获取得到http协议报文;因为http协议是由Request报文发起的,因此对http协议分析时需要首先分离出Request报文,然后再找到针对这个Request报文的应答,分别分析Request报文和Response报文,并形成Request报文和Response报文的对应关系;S3,分析所述http协议数据包中的Request报文数据,得到Request报文必要信息;具体为,对所述http协议报文中的Request报文进行解码处理,分离出Request必要信息,并将所述Request必要信息缓冲;所述Request必要信息包括访问者的IP地址、访问的具体域名、访问的具体URL、Refrence信息和携带的Cookies等信息;S4,分析所述http协议数据包中的Response报文数据,得到Response报文必要信息;具体为,对所述http协议报文中的Response报文进行解码处理,分离出Response必 要信息,并将所述Response必要信息缓冲;所述Response报文必要信息包括应答状态码、携带的内容类型和报文长度等信息;S5,将所述Request报文数据的所述Request报文必要信息,和与所述Request报文数据相对应的Response报文数据的Response报文必要信息组合在一起,形成访问网站的一次完整访问信息记录;具体为,把包含有所述Request必要信息的Request报文缓存,并等待与该Request报文相对应的Response报文,当获取到与该Request报文对应的Response报文后,则将相互对应的Request报文中的Request必要信息和Response报文中的Response必要信息合并组合,形成访问网站的一次完整访问信息记录;S6,将所述完整访问信息记录写入数据库和/或数据文件中;具体为,将所述网站分析基础数据按照预设格式和规则,将一次完整的用户访问按照访问时间、访问者信息、访问的类型几个不同的维度分布存放在数据库和/或数据文件中;S7,在预设时间段内循环执行S2-S6,从而形成网站分析基础数据;所述预设时间段通常是网站分析系统用户根据实际需要设置的一段时间,可以是几个小时也可以是几天;S8,根据预设条件和指定格式对所述数据库和/或数据文件中所述网站分析基础数据进行分析归纳形成网站分析报表。如图3所示,本发明公开了一种应用网站分析系统进行数据采集和分析的装置,包括流量采集模块,用于通过所述镜像端口获取所述web服务器收到和发出的全部数据包;http协议分析模块,用于通过所述镜像端口获取所述web服务器收到和发出的全部数据包;Request报文分析模块,用于分析所述http协议数据包中的Request报文数据,得到Request报文必要信息;Response报文分析模块,用于分析所述http协议数据包中的Response报文数据,得到Response报文必要信息;访问信息收集模块,用于将所述Request报文数据的所述Request报文必要信息,和与所述Request报文数据相对应的Response报文数据的Response报文必要信息组合在一起,形成访问网站的一次完整访问信息记录;
网站分析基础数据库,用于将接收所述完整访问信息记录,并以数据库和或数据文件形式保存;还包括访问数据挖掘模块,所述访问数据挖掘模块用于根据请求端指定的分析条件对所述网站分析基础数据库中的数据进行筛选形成网站分析的报表并将所述网站分析的报表反馈给所述请求端。通过采用本发明公开的上述技术方案,得到了如下有益的效果
I.对网站没有任何的影响,无需修改网站任何的配置,无需改写网站的网页,可以做到即插即用;2.通过流量分析方法代替了传统的信息收集的方法,可以在不增加网站服务器任何负担的前提下完成网站分析;3.本发明可以完全收集所有信息,使得网站分析的原始信息非常完整;4.本发明是在WEB服务器实体前端部署一个设备实体协助来完成网站分析,该设备实体和WEB服务器构成一个完整的体系,因此具有极高的安全性,网站无需担心数据泄露的风险。5.本发明提供二次数据挖掘,可以实现灵活多样的分析报表。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。
权利要求
1.一种网站分析系统,包括防火墙、网络交换机和web服务器,其特征在于,所述网络交换机为具备镜像端口的网络交换机,所述镜像端口上连接有网站分析服务器;所述镜像端口用于通过流量镜像方式获取连接有所述网站分析服务器的通讯端口的通讯数据。
2.根据权利要求I所述的网站分析系统,其特征在于,所述网站分析服务器包括流量采集模块、http协议分析模块、Request报文分析模块、Response报文分析模块、访问信息收集模块和网站分析基础数据库;所述流量采集模块、所述http协议分析模块、所述Request报文分析模块、所述Response报文分析模块、所述访问信息收集模块和所述网站分析基础数据库顺序连接。
3.根据权利要求I所述的网站分析系统,其特征在于,所述网站分析系统还包括访问数据挖掘模块,所述访问数据挖掘模块用于根据请求端指定的分析条件对所述网站分析基础数据库中的数据进行筛选形成网站分析的报表并将所述网站分析的报表反馈给所述请 求端。
4.一种应用权利要求I或2或3所述的网站分析系统进行数据采集和分析的方法,其特征在于,包括以下步骤 SI,通过所述镜像端口获取所述web服务器收到和发出的全部数据包; S2,分析所述数据包,从所述数据包中获取http协议数据包; 53,分析所述http协议数据包中的Request报文数据,得到Request报文必要信息; 54,分析所述http协议数据包中的Response报文数据,得到Response报文必要信息; 55,将所述Request报文数据的所述Request报文必要信息,和与所述Request报文数据相对应的Response报文数据的Response报文必要信息组合在一起,形成访问网站的一次完整访问信息记录; S6,将所述完整访问信息记录写入数据库和/或数据文件中; S7,在预设时间段内循环执行S2-S6,从而形成网站分析基础数据; S8,根据预设条件和指定格式对所述数据库和/或数据文件中所述网站分析基础数据进行分析归纳形成网站分析报表。
5.根据权利要求4所述的方法,其特征在于,所述Request报文必要信息包括访问者的IP地址、访问的具体域名、访问的具体URL、Refrence信息和携带的Cookies ;所述Response报文必要信息包括应答状态码、携带的内容类型和报文长度。
6.根据权利要求4或5所述的方法,其特征在于, SI具体为,通过所述镜像端口获取,得到所有发送到所述web服务器以及从所述web服务器发出的报文,并将所述报文分离成上行和下行流量;和/或 S2具体为,通过对所述上行和下行流量中TCP载荷的内容分析区分,获取得到http协议报文;和/或 S3具体为,对所述http协议报文中的Request报文进行解码处理,分离出Request必要信息,并将所述Request必要信息缓冲;和/或 S4具体为,对所述http协议报文中的Response报文进行解码处理,分离出Response必要信息,并将所述Response必要信息缓冲;和/或 S5具体为,把包含有所述Request必要信息的Request报文缓存,并等待与该Request报文相对应的Response报文,当获取到与该Request报文对应的Response报文后,则将相互对应的Request报文中的Request必要信息和Response报文中的Response必要信息合并组合,形成访问网站的一次完整访问信息记录;和/或 S6具体为,将所述网站分析基础数据按照预设格式和规则,将一次完整的用户访问按照访问时间、访问者信息、访问的类型几个不同的维度分布存放在数据库和或数据文件中。
7.一种应用权利要求I或2或3所述的网站分析系统进行数据采集和分析的装置,其特征在于,包括 流量采集模块,用于通过所述镜像端口获取所述web服务器收到和发出的全部数据包; http协议分析模块,用于通过所述镜像端口获取所述web服务器收到和发出的全部数据包; Request报文分析模块,用于分析所述http协议数据包中的Request报文数据,得到Request报文必要信息; Response报文分析模块,用于分析所述http协议数据包中的Response报文数据,得到Response报文必要信息; 访问信息收集模块,用于将所述Request报文数据的所述Request报文必要信息,和与所述Request报文数据相对应的Response报文数据的Response报文必要信息组合在一起,形成访问网站的一次完整访问信息记录; 网站分析基础数据库,用于将接收所述完整访问信息记录,并以数据库和或数据文件形式保存。
8.根据权利要求7所述的装置,其特征在于,还包括访问数据挖掘模块,所述访问数据挖掘模块用于根据请求端指定的分析条件对所述网站分析基础数据库中的数据进行筛选形成网站分析的报表并将所述网站分析的报表反馈给所述请求端。
全文摘要
本发明提供一种基于旁路镜像的网站分析系统及方法和装置,从而解决现有技术中存在的问题。本发明采用“旁路镜像”的模式完成网站分析的数据采集。对用户访问网站的数据进行“旁路镜像”,可以获得用户访问网站的原始数据包信息,经过有效的数据清理、筛选,获得完整的网站分析的数据报告。本发明可以对网站的流量进行最全面的分析,包括网站的攻击流量、网络爬虫、恶意的机器人访问等等情况。无需网站修改任何代码,没有任何的安全风险。
文档编号H04L12/24GK102761450SQ20121027972
公开日2012年10月31日 申请日期2012年8月7日 优先权日2012年8月7日
发明者王宁 申请人:北京鼎震科技有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1