基于Web日志数据挖掘的网站优化方法

文档序号:9350019阅读:612来源:国知局
基于Web日志数据挖掘的网站优化方法
【技术领域】
[0001] 本发明属于网络站点优化技术领域,尤其涉及一种基于Web日志数据挖掘的网站 优化方法。
【背景技术】
[0002] 近年来,网络技术迅速发展,随着科技的突飞猛进,以及生活水平的日益提高, 越来越多的人喜欢到网上了解和搜索自己感兴趣的东西,网络已经成为了人们沟通交流 的重要途径之一。同时,网站作为一种新的信息平台,受到了越来越多的公司、企业甚至 个人的重视。企业网站按照功能大致可以分为企业形象展示、公司产品推广、信息发布和数 字商务类型。无论哪一类型的网站,最终目的还是要吸引客户访问,从而提升公司形象, 促成产品交易。企业网站的结构设计、页面信息等因素将会直接影响浏览者对企业网站整 体乃至整个企业的印象。
[0003] 但是,公司网站在运行时,不能直观地反映出用户的访问习惯和访问要求,因而 公司管理者不能很好的了解公司网站的运行情况对网站结构进行优化,提升用户满意度, 为公司带来效益。

【发明内容】

[0004] 本发明的发明目的是:为了解决现有技术中Web日志不能很好的使得网站得到优 化等问题,本发明提出了一种基于Web日志数据挖掘的网站优化方法。
[0005] 本发明的技术方案是:一种基于Web日志数据挖掘的网站优化方法,包括以下步 骤:
[0006] A、从站点服务器获取Web日志数据;
[0007] B、对步骤A中获取的Web日志数据进行预处理,得到用户的访问序列;
[0008] C、对步骤B中得到的用户访问序列进行数据挖掘,得到用户访问模式集合;
[0009] D、对步骤C中得到的用户访问模式集合进行筛选,根据筛选得到的用户访问模式 对网站进行优化。
[0010] 进一步地,所述Web日志数据包括IP地址、请求时间、GET方法、被请求文件的 URUHTTP版本号、返回码、传输字节数、被请求文件的页面和代理。
[0011] 进一步地,所述步骤B对Web日志数据进行预处理,具体包括以下分步骤:
[0012] B1、对Web日志数据进行清洗,删除无效及错误数据并对Web日志数据进行分类;
[0013] B2、根据Web日志数据和站点拓扑结构将用户及请求访问网页进行关联,并对用 户进行识别;
[0014] B3、将用户的原始访问序列划分为若干个单次访问序列;
[0015] B4、判断用户请求访问页面和对应页面请求有无链接关系;若用户请求访问页面 和对应页面请求有链接关系,则进行下一步骤;若用户请求访问页面和对应页面请求无链 接关系,则利用站点拓扑结构将请求页面补充完整;
[0016] B5、根据用户访问第一个页面至回退前访问的一个页面的访问路径,得到用户的 访问序列。
[0017] 进一步地,所述步骤B2中对用户进行识别,具体包括以下分步骤:
[0018] B21、根据Web日志数据获取用户IP地址、代理和操作系统,并对用户集进行初始 化;
[0019] B22、判断用户IP地址是否相同,若用户IP地址不相同,则将该用户加入到用户 集;若用户IP地址相同,则进行下一步骤;
[0020] B23、判断代理或者操作系统是否相同,若代理或者操作系统不同,则将该用户加 入到用户集;若代理或者操作系统都相同,则进行下一步骤;
[0021] B24、根据站点拓扑结构判定用户请求访问页面能否从已访问所有页面到达,若用 户请求访问页面能够从已访问所有页面到达,则操作结束;若用户请求访问页面不能从已 访问所有页面到达,则将该用户加入到用户集。
[0022] 进一步地,所述步骤C具体为:根据预处理后的Web日志数据,利用统计分析方法, 得到流量分析、低层次错误分析、网站出入口分析及用户来源分析数据;并利用关联规则挖 掘方法,得到用户访问序列模式。
[0023] 本发明的有益效果是:本发明的基于Web日志数据挖掘的网站优化方法,通过对 Web日志数据进行预处理,再利用统计分析方法和关联规则挖掘方法对预处理后的Web日 志数据进行挖掘,得到用户访问规律及模式,从而对网站结构进行调整及页面内容进行优 化,改善了网站的设计,提高了用户的访问及浏览兴趣。
【附图说明】
[0024] 图1是本发明的基于Web日志数据挖掘的网站优化方法流程示意图。
[0025] 图2是本发明实施例中站点拓扑结构示意图。
[0026] 图3是本发明实施例中频繁项挖掘过程示意图。
【具体实施方式】
[0027] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不 用于限定本发明。
[0028] 如图1所示,为本发明的基于Web日志数据挖掘的网站优化方法流程示意图。一 种基于Web日志数据挖掘的网站优化方法,包括以下步骤:
[0029] A、从站点服务器获取Web日志数据;
[0030] B、对步骤A中获取的Web日志数据进行预处理,得到用户的访问序列;
[0031] C、对步骤B中得到的用户访问序列进行数据挖掘,得到用户访问模式集合;
[0032] D、对步骤C中得到的用户访问模式集合进行筛选,根据筛选得到的用户访问模式 对网站进行优化。
[0033] 在步骤A中,服务器是最直接的数据来源,不管静态还是动态网站,只要客户端访 问站点就会在服务器上产生相应的数据,包括服务器日志,数据库日志等。本发明从站点 Apache Tomcat服务器运行日志中获取Web日志数据,日志文件记录每个从客户端发起的 请求信息。这里的Web日志数据包括IP地址、请求时间、GET方法、被请求文件的URL(统 一资源定位符)、HTTP(Hyper Text Transfer Protocol,超文本传输协议)版本号、返回码、 传输字节数、被请求文件的页面和代理。如下表1所示,为本发明获取的Web日志数据。
[0034] 表1、本发明获取的Web日志数据
[0035]
[0036] 在步骤B中,由于网络环境的复杂性和用户环境的多样性,Web访问日志中很多数 据是不能使用的或者是错误的数据,因此需要对步骤A中获取的Web日志数据进行预处理, 具体包括以下分步骤:
[0037] B1、对Web日志数据进行清洗,删除无效及错误数据并对Web日志数据进行分类;
[0038] B2、根据Web日志数据和站点拓扑结构将用户及请求访问网页进行关联,并对用 户进行识别;
[0039] B3、将用户的原始访问序列划分为若干个单次访问序列;
[0040] B4、判断用户请求访问页面和对应页面请求有无链接关系;若用户请求访问页面 和对应页面请求有链接关系,则进行下一步骤;若用户请求访问页面和对应页面请求无链 接关系,则利用站点拓扑结构将请求页面补充完整;
[0041] B5、根据用户访问第一个页面至回退前访问的一个页面的访问路径,得到用户的 访问序列。
[0042] 在步骤Bl中,本发明对Web日志数据进行清洗包括对无效及错误数据进行删除及 对删除处理后得到的Web日志数据进行分类。本发明通过删除无效或者错误的数据,减少 数据量,缩小挖掘对象,提高数据挖掘的效率。这里删除无效或者错误的数据具体包括以下 分步骤:
[0043] B11、删除Web日志数据中以jpg、]>68、见6、见£6、8丨;^6正和〇88、」8等结尾的记 录数据。
[0044] 以上记录数据是用户非显示请求的站点图形文件和页面样式文件,这些文件通常 是站点根据请求页面中的连接自动下载的。
[0045] B12、删除返回代码404 (没有找到)、301 (永久删除)或500 (内部服务器
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1