一种基于实时更新的用户浏览行为采集方式的制作方法

文档序号:8319058阅读:362来源:国知局
一种基于实时更新的用户浏览行为采集方式的制作方法
【技术领域】
[0001]本发明涉及计算机数据采集技术领域,具体地说是一种基于实时更新的用户浏览行为米集方式。
【背景技术】
[0002]目前,简单地直接从web服务器的日志文件采集web使用数据进行web使用挖掘研究并不可取,它存在很大的弊端:
I)海量的日志对web用户使用数据而言是海量的垃圾数据。基于web日志的使用挖掘就必须用数据净化操作对这些海量数据进行数据预处理,剩下的可用数据约为5%。可见,庞大的web日志文件是没有多少利用价值的,可以说是垃圾数据。
[0003]2)用户在浏览页面的时候,页面记录不完整。web日志文件是对每一个到达web服务器的HTTP请求的记录,Internet上存在着各种各样的缓存机制,导致了 web日志文件中对用户浏览页面记录的不完整性。
[0004]3 )无法获取用户准确的浏览时间。

【发明内容】

[0005]本发明的技术任务是提供一种基于实时更新的用户浏览行为采集方式。
[0006]本发明的技术任务是按以下方式实现的,该采集方式包括服务器端数据采集和客户端数据采集两种方式,其中服务器端数据采集包括主动式服务器端数据采集和被动式服务器端数据采集;
将采集的数据进行数据处理,形成数据仓库;根据不同的产业,形成不同的数据处理模式和分析模式,按照模式进行分析,最终形成有价值的模式或规律。
[0007]所述的主动式服务器端数据采集:将WEB服务器和代理服务器软件自动记录的日志文件和用户的使用数据收集作为数据源;
被动式服务器端数据采集:在海量的日志文件基础上进行数据预处理,进行数据清洗、用户识别、会话识别、事物识别和路径补充,以获得准确和完整的用户使用数据。
[0008]所述的客户端数据采集是通过java applet技术、javaScript技术、Plug-1n技术和页面跟踪帧技术来实现的。
[0009]所述的java applet技术的使用方法如下:
应用java applet技术在客户端对用户使用信息进行采集,客户端浏览器要下载并安装SUN SVM插件,在每个需要追踪的网页分别添加applet程序代码。
[0010]所述的javaScript技术的使用方法如下:
客户端可以通过应用javaScript技术中XMLHttpRequest对象向服务器发送请求,当用户浏览缓存里面的页面或者离开网站时,触发页面0NUNL0AD事件,保证用户浏览记录的完整性。
[0011]所述的页面跟踪帧技术的使用方法如下: 通过一个嵌入在网页内的隐含帧追踪用户的使用,记录用户的IP、访问页面的使用信息,随时将客户端浏览信息以WinSockTCP的方式传到服务器。
[0012]本发明的一种基于实时更新的用户浏览行为采集方式和现有技术相比,可以有效的在海量垃圾数据中选取需要的用户浏览数据,避免了无用繁杂的存储过程和后期大批量数据处理;能够完整记录页面的内容,保持页面记录的完整性,并且可以准确地获取用户的浏览时间,在应用服务器的内部分别进行识别和采集。
【附图说明】
[0013]附图1为一种基于实时更新的用户浏览行为采集方式的流程框图。
【具体实施方式】
[0014]实施例1:
该采集方式包括服务器端数据采集和客户端数据采集两种方式,其中服务器端数据采集包括主动式服务器端数据采集和被动式服务器端数据采集;
将采集的数据进行数据处理,形成数据仓库;根据不同的产业,形成不同的数据处理模式和分析模式,按照模式进行分析,最终形成有价值的模式或规律。
[0015]所述的主动式服务器端数据采集:将WEB服务器和代理服务器软件自动记录的日志文件和用户的使用数据收集作为数据源;
被动式服务器端数据采集:在海量的日志文件基础上进行数据预处理,进行数据清洗、用户识别、会话识别、事物识别和路径补充,以获得准确和完整的用户使用数据。
[0016]所述的客户端数据采集是通过java applet技术、javaScript技术、Plug-1n技术和页面跟踪帧技术来实现的。
[0017]所述的java applet技术的使用方法如下:
应用java applet技术在客户端对用户使用信息进行采集,客户端浏览器要下载并安装SUN SVM插件,在每个需要追踪的网页分别添加applet程序代码。
[0018]所述的javaScript技术的使用方法如下:
IE 5.0以后及以后版本增加了对javaScript中XMLHttpRequest对象的支持,在非IE的浏览器中,需要用new XMLHttpRequest ()来创建对象。客户端可以通过应用javaScript技术中XMLHttpRequest对象向服务器发送请求,当用户浏览缓存里面的页面或者离开网站时,尽管不发出HTTP请求,但会触发页面0NUNL0AD事件,保证用户浏览记录的完整性。
[0019]所述的页面跟踪帧技术的使用方法如下:
通过一个嵌入在网页内的隐含帧追踪用户的使用,记录用户的IP、访问页面等使用信息,随时将客户端浏览信息以WinSockTCP的方式传到服务器。为了不延迟请求效率,将针对服务器的操作代码分离出来,放入一个独立的PHP文件,如Server php.在主页面中加入一个隐藏的内嵌页面。将Server php放入内嵌页面打开,其他内容扔放在主页面,由于内嵌页面的下载并不影响主页面的下载,这提高了速度。
[0020]名词解释:
JavaApplet:就是用Java语言编写的小应用程序,可以直接嵌入到网页中,并能够产生特殊的效果。
[0021]JavaScript:一种直译式脚本语言,是一种动态类型、弱类型、基于原型的语言,内置支持类型。
[0022]Plug-1n:一种为一个较大的软件增加特殊功能的小段程序。
[0023]通过上面【具体实施方式】,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的几种【具体实施方式】。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。
【主权项】
1.一种基于实时更新的用户浏览行为采集方式,其特征在于,该采集方式包括服务器端数据采集和客户端数据采集两种方式,其中服务器端数据采集包括主动式服务器端数据采集和被动式服务器端数据采集; 将采集的数据进行数据处理,形成数据仓库;根据不同的产业,形成不同的数据处理模式和分析模式,按照模式进行分析,最终形成有价值的模式或规律。
2.根据权利要求1所述的一种基于实时更新的用户浏览行为采集方式,其特征在于,所述的主动式服务器端数据采集:将WEB服务器和代理服务器软件自动记录的日志文件和用户的使用数据收集作为数据源; 被动式服务器端数据采集:在海量的日志文件基础上进行数据预处理,进行数据清洗、用户识别、会话识别、事物识别和路径补充,以获得准确和完整的用户使用数据。
3.根据权利要求1所述的一种基于实时更新的用户浏览行为采集方式,其特征在于,所述的客户端数据采集是通过java applet技术、javaScript技术、Plug-1n技术和页面跟踪帧技术来实现的。
4.根据权利要求3所述的一种基于实时更新的用户浏览行为采集方式,其特征在于,所述的java applet技术的使用方法如下: 应用java applet技术在客户端对用户使用信息进行采集,客户端浏览器要下载并安装SUN SVM插件,在每个需要追踪的网页分别添加applet程序代码。
5.根据权利要求3所述的一种基于实时更新的用户浏览行为采集方式,其特征在于,所述的javaScript技术的使用方法如下: 客户端可以通过应用javaScript技术中XMLHttpRequest对象向服务器发送请求,当用户浏览缓存里面的页面或者离开网站时,触发页面ONUNLOAD事件,保证用户浏览记录的完整性。
6.根据权利要求3所述的一种基于实时更新的用户浏览行为采集方式,其特征在于,所述的页面跟踪帧技术的使用方法如下: 通过一个嵌入在网页内的隐含帧追踪用户的使用,记录用户的IP、访问页面的使用信息,随时将客户端浏览信息以WinSockTCP的方式传到服务器。
【专利摘要】本发明公开了一种基于实时更新的用户浏览行为采集方式,该采集方式包括服务器端数据采集和客户端数据采集两种方式,其中服务器端数据采集包括主动式服务器端数据采集和被动式服务器端数据采集;将采集的数据进行数据处理,形成数据仓库;根据不同的产业,形成不同的数据处理模式和分析模式,按照模式进行分析,最终形成有价值的模式或规律。本发明的一种基于实时更新的用户浏览行为采集方式和现有技术相比,可以有效的在海量垃圾数据中选取需要的用户浏览数据,避免了无用繁杂的存储过程和后期大批量数据处理;能够完整记录页面的内容,保持页面记录的完整性,并且可以准确地获取用户的浏览时间,在应用服务器的内部分别进行识别和采集。
【IPC分类】G06F9-44, G06F11-34
【公开号】CN104636245
【申请号】CN201510101492
【发明人】焦毓葳, 徐宏伟, 左少标
【申请人】浪潮集团有限公司
【公开日】2015年5月20日
【申请日】2015年3月9日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1