一种监控分析网站用户行为的方法

文档序号:7801694阅读:891来源:国知局
一种监控分析网站用户行为的方法
【专利摘要】本发明涉及一种监控分析网站用户行为的方法,包括步骤如下:(1)分析对象确定;(2)页面埋点;(3)日志收集;(4)HDFS分布式文件系统存储;(5)分布式汇总计算;(6)结果展现。本发明所述方法支持海量(亿级别/天)访问量的网站,准实时的展现网站浏览量、点击量等数据,并支持明细数据毫秒级查询。本发明所述的方法完全基于开源软件开发,使用普通pcserver,普通sata硬盘,系统架构使用冗余设计,任何数据节点或磁盘损坏后数据都不会丢失。本发明各个环节都实现自动化,支持图形化监控,运维简单。
【专利说明】一种监控分析网站用户行为的方法
【技术领域】
[0001]本发明涉及一种监控分析网站用户行为的方法,属于网络监控分析的【技术领域】。【背景技术】
[0002]传统的用户访问网站的行为的分析方法,是根据用户访问网站功能的url日志,导入关系数据库汇总分析,数据量大耗时,很难做到实时或准实时分析展现用户访问网站的行为,耗时耗人工且信息丢失,用户不产生页面请求的行为将被丢失,无法支撑大并发的电子商务网站分析用户访问行为,因此依据现有的传统的网站行为的分析方法很难对广告投放等网络营销提供及时的数据支撑依据。

【发明内容】

[0003]针对现有技术的不足,本发明提供一种监控分析网站用户行为的方法。该方法通过监听用户页面操作行为,将用户在网页上的操作行为通过监听收集起来,存入hdfs分布式文件系统,利用hadoop-hive进行分布式汇总快速大数据运算,每隔半小时统计一次数据,实现用户网站行为的准实时统计分析,为广告投放等网络营销提供准实时数据支撑,整个过程自动化不需要人工干预。对大数据的快速计算模型。
[0004]本发明的技术方案如下:
[0005]一种监控分析网站用户行为的方法,包括步骤如下:
[0006](I)分析对象确定:用户在网站上的操作行为包括网页页面浏览和网页页面内对可点击元素的点击;所述网页的页面使用URL作为标识,所述网页页面可点击元素使用ID作为标识;定义分析对象包括:用户对网页页面URL的访问(PV:page view)数量、用户对网页页面元素的点击(CV:click view)数量以及不同用户类型、不同时间、不同地域所分别对应的网页页面访问数量和网页页面元素点击数量;
[0007](2)页面埋点:在需要做用户行为分析的网站的框架页面添加用按照步骤(I)确定分析对象后形成的用户行为分析的脚本文件,即可实现监听并跟踪用户访问网站的行为,当用户按照步骤(I)所述的分析对象对网页页面进行访问或对网页页面元素进行点击时,自动请求一次日志服务器的IK大小的图片,实现往标签服务器打点的目的;
[0008](3)日志收集:日志收集使用apache作为日志服务器,用户对网页页面元素操作时,将对分析对象的操作及操作者的信息拼装成对图片请求的参数,发送给日志服务器apache,日志服务器apache每收到一次请求即记录一条日志记录,实现日志收集;通过分析页面浏览日志收集用户在网站打开网页的信息,通过分析用户在网站上的点击按钮、链接、图片的日志收集用户在网站网页中的点击行为;
[0009](4) HDFS分布式文件系统存储:将收集的apache日志服务器所存的日志通过Hadoop Hive结构化后存储到Hadoop分布式文件系统中,Hadoop分布式文件系统(HadoopDistributed File System HDFS)是运行在通用硬件(普通pcserver或者普通pc)上的分布式文件系统;所述hadoop提供了一个高度容错性和高吞吐量的海量数据存储解决方案。HDFS通过一个高效的分布式算法,将数据的访问和存储分布在大量服务器之中,在可靠地多备份存储的同时还能将访问分布在集群中的各个服务器之上,是传统存储构架的一个颠覆性的发展;
[0010](5)分布式汇总计算:利用Hadoop Hive支持HSql的特性,通过书写HSql在HDFS集群环境下,利用Hadoop的MapReduce在多台机器上并行计算,计算每个网页页面每半小时、每天、每月的浏览量和点击量;如:某天12:00?12:30半小时内,网站所有URL都有哪些用户点击了,点击了多少次等;
[0011](6)结果展现:分布式汇总计算的统计结果通过Apache Sqoop将网站、网页页面、用户、按钮的访问数量的数据自动从HDFS中转移至Mysql关系数据库表中,使用java web程序访问mysql数据库,以html页面图表和列表的方式展现网页、广告、图片、按钮实时和一段时间内的网页页面浏览量或网页页面的点击量;所述网页页面浏览量、网页页面元素点击的明细数据以列式存储在HBase分布式数据库中,支持毫秒级的查询。为广告投放、网站营销等提供延迟半小时的准实时访问量数据依据,指导网站更精准的投放广告,开展网上营销。
[0012]本发明的优势:
[0013]1.本发明所述方法支持海量(亿级别/天)访问量的网站,准实时的展现网站浏览量、点击量等数据,并支持明细数据毫秒级查询。
[0014]2.本发明所述的方法完全基于开源软件开发,使用普通pcserver,普通sata硬盘,系统架构使用冗余设计,任何数据节点或磁盘损坏后数据都不会丢失。本发明各个环节都实现自动化,支持图形化监控,运维简单。
[0015]3.本发明所述方法支持网站快速使用,安装简单,报表展现只需简单修改SQL,可灵活定制,并可根据客户个性化需求只需增加一些指标,增加一些展现SQL即可实现个性化改造,快速实现。
【专利附图】

【附图说明】
[0016]图1为本发明所述方法的系统架构图。该架构图从在网站页面中部署脚本,日志收集,日志自动提交至hadoop的分布式文件系统,并存储至HBase,基于hive做汇总计算后,利用sqoop同步至mysql关系数据库,通过用户行为分析统计分析系统提供汇总结果查询,接口服务,明细数据查询,其中明细数据查询由HBase提供快速检索支持。
[0017]图2为用户行为分析结果展现示例图,是新商盟电子商务网站,利用本发明实现的网站2013年9月26日的网站概览数据,折线图为25日和26日的整个网站页面浏览展示,由每半小时累计一次的数据形成。
【具体实施方式】
[0018]下面结合实施例和说明书附图对本发明做详细的说明,但不限于此。
[0019]实施例1、
[0020]一种监控分析网站用户行为的方法,包括步骤如下:
[0021](I)分析对象确定:用户在网站上的操作行为包括网页页面浏览和网页页面内对可点击元素的点击;所述网页的页面使用URL作为标识,所述网页页面可点击元素使用ID作为标识;定义分析对象包括:用户对网页页面URL的访问(PV:page view)数量、用户对网页页面元素的点击(CV:click view)数量以及不同用户类型、不同时间、不同地域所分别对应的网页页面访问数量和网页页面元素点击数量;
[0022](2)页面埋点:在需要做用户行为分析的网站的框架页面添加用按照步骤(I)确定分析对象后形成的用户行为分析的脚本文件,即可实现监听并跟踪用户访问网站的行为,当用户按照步骤(I)所述的分析对象对网页页面进行访问或对网页页面元素进行点击时,自动请求一次日志服务器的IK大小的图片,实现往标签服务器打点的目的;
[0023](3)日志收集:日志收集使用apache作为日志服务器,用户对网页页面元素操作时,将对分析对象的操作及操作者的信息拼装成对图片请求的参数,发送给日志服务器apache,日志服务器apache每收到一次请求即记录一条日志记录,实现日志收集;通过分析页面浏览日志收集用户在网站打开网页的信息,通过分析用户在网站上的点击按钮、链接、图片的日志收集用户在网站网页中的点击行为;
[0024](4) HDFS分布式文件系统存储:将收集的apache日志服务器所存的日志通过Hadoop Hive结构化后存储到Hadoop分布式文件系统中,Hadoop分布式文件系统(HadoopDistributed File System HDFS)是运行在通用硬件(普通pcserver或者普通pc)上的分布式文件系统;所述hadoop提供了一个高度容错性和高吞吐量的海量数据存储解决方案。HDFS通过一个高效的分布式算法,将数据的访问和存储分布在大量服务器之中,在可靠地多备份存储的同时还能将访问分布在集群中的各个服务器之上,是传统存储构架的一个颠覆性的发展;
[0025](5)分布式汇总计算:利用Hadoop Hive支持HSql的特性,通过书写HSql在HDFS集群环境下,利用Hadoop的MapReduce在多台机器上并行计算,计算每个网页页面每半小时、每天、每月的浏览量和点击量;如:某天12:00?12:30半小时内,网站所有URL都有哪些用户点击了,点击了多少次等;
[0026](6)结果展现:分布式汇总计算的统计结果通过Apache Sqoop将网站、网页页面、用户、按钮的访问数量的数据自动从HDFS中转移至Mysql关系数据库表中,使用java web程序访问mysql数据库,以html页面图表和列表的方式展现网页、广告、图片、按钮实时和一段时间内的网页页面浏览量或网页页面的点击量;所述网页页面浏览量、网页页面元素点击的明细数据以列式存储在HBase分布式数据库中,支持毫秒级的查询。为广告投放、网站营销等提供延迟半小时的准实时访问量数据依据,指导网站更精准的投放广告,开展网上营销。
[0027]利用上述所述的方法实现对以下网站进行监控分析:新商盟电子商务网站WWW.xinshangmeng.com 使用的例子:
[0028]1、新商盟网站是统一前端框架的jsp页面负责页面展示,可以点击的元素主要是一些按钮、菜单或图片链接等,因此对新商盟网站用户的行为进行分析,主要分析页面的浏览和页面元素的点击页面以jsp页面的url为标识,页面元素以页面元素的id或name或label为标识。
[0029]2、在新商盟网站前端框架层页面layout, jsp中引入用户行为分析收集信息的js文件 install_up_beacon.js 和
[0030]up_beacon.js。js负责在打开页面或点击页面元素时,请求标签服务器记录日志。[0031]3、日志收集采取记录apache服务器access日志的方式,一条日志为一个页面浏览或点击事件,日志以固定格式记录访问事件的各种参数,如:时间、用户、用户所属公司、用户使用浏览器版本、ip地址等。每半小时生成一个新的日志文件。
[0032]4、日志服务器生成的日志文件,通过自动化程序,直接load进hadoop分布式文件系统,因为每条记录都是结构化的,load进hdfs时,结构化到hive的表中,供hive做汇总计算,明细数据同时存入hbase数据库,目前新商盟网站用户行为分析分布式文件系统服务器采用5台廉价pc服务器,进行存储计算。
[0033]5、使用hive的hsql对load进来的结构化好的数据,做汇总计算,按照半小时、天、月等维度及访问用户所属的地域或组织机构进行计算,汇总结果存储在hive的表中。如每天网站的页面浏览量,按钮点击量,用户量,用户停留时长等。
[0034]6、将汇总结果使用sqoop程序由hdfs转移至关系数据库mysql,使用web应用的报表、图表展现,并为网站提供接口,供网站使用,明细数据直接访问hbase数据库,实时展现。如图2所示,为新商盟网站某天的实时访问情况。
【权利要求】
1.一种监控分析网站用户行为的方法,包括步骤如下: (1)分析对象确定:用户在网站上的操作行为包括网页页面浏览和网页页面内对可点击元素的点击;所述网页的页面使用URL作为标识,所述网页页面可点击元素使用ID作为标识;定义分析对象包括:用户对网页页面URL的访问(PV:page view)数量、用户对网页页面元素的点击(CV:click view)数量以及不同用户类型、不同时间、不同地域所分别对应的网页页面访问数量和网页页面元素点击数量; (2)页面埋点:在需要做用户行为分析的网站的框架页面添加用按照步骤(I)确定分析对象后形成的用户行为分析的脚本文件,当用户按照步骤(I)所述的分析对象对网页页面进行访问或对网页页面元素进行点击时,自动请求一次日志服务器的IK大小的图片,实现往标签服务器打点的目的; (3)日志收集:日志收集使用apache作为日志服务器,用户对网页页面元素操作时,将对分析对象的操作及操作者的信息拼装成对图片请求的参数,发送给日志服务器apache,日志服务器apache每收到一次请求即记录一条日志记录,实现日志收集;通过分析页面浏览日志收集用户在网站打开网页的信息,通过分析用户在网站上的点击按钮、链接、图片的日志收集用户在网站网页中的点击行为; (4)HDFS分布式文件系统存储:将收集的apache日志服务器所存的日志通过HadoopHive结构化后存储到Hadoop分布式文件系统中,Hadoop分布式文件系统(HadoopDistributed File System HDFS)是运行在通用硬件(普通pcserver或者普通pc)上的分布式文件系统; (5)分布式汇总计算:利用HadoopHive支持HSql的特性,通过书写HSql在HDFS集群环境下,利用Hadoop的MapReduce在多台机器上并行计算,计算每个网页页面每半小时、每天、每月的浏览量和点击量; (6)结果展现:分布式汇总计算的统计结果通过ApacheSqoop将网站、网页页面、用户、按钮的访问数量的数据自动从HDFS中转移至Mysql关系数据库表中,使用java web程序访问mysql数据库,以html页面图表和列表的方式展现网页、广告、图片、按钮实时和一段时间内的网页页面浏览量或网页页面的点击量;所述网页页面浏览量、网页页面元素点击的明细数据以列式存储在HBase分布式数据库中,支持毫秒级的查询。
【文档编号】H04L12/26GK103916293SQ201410157305
【公开日】2014年7月9日 申请日期:2014年4月15日 优先权日:2014年4月15日
【发明者】杨函涛 申请人:浪潮软件股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1