一种分布式网站日志数据采集方法和分布式网站系统的制作方法

文档序号:7665312阅读:500来源:国知局
专利名称:一种分布式网站日志数据采集方法和分布式网站系统的制作方法
技术领域
本发明涉及互联网数据处理技术,尤其是分布式网站日志采集方法。
背景技术
随着互联网的普及,为了提高互联网应用中数据处理速度以及满足数据 量越来越大的要求,很多大型网站逐步采用了分布式的网络结构主要在于实 现负载的均衡。
所述分布式的结构是使用多个同样角色的服务器做前台的WEB服务, 这种结构大大方便了服务的分布规划和扩展性。但另一方面,多个服务器的 分布设置使得网络日志数据的分析统计也变得有些麻烦。
例如采用现有较通用的一款网页分析工具webalizer,那么对于分布式的 网络结构,就需要对每台服务器分别做日志数据统计,从而带来以下的问题
1、 数据的汇总带来很多麻烦,比如统计的总访问量需要将服务器1 (SERVER1)、服务器2 ( SERVER2 )……上指定期限内的数据相加;
2、 对于唯一访客数unique visits,唯一站点数unique sites的等指标的统 计造成影响,基于网络分布式的网络结构特点以及负载均衡的机制,上述这 些指标的统计并非是将几台服务器上数据的代数相加。
并且,在上述问题基础上,在每台服务器上配置日志数据分析功能将提 高服务器的环境的复杂度,降低服务器运行的安全性能;并且,分布式结构 中各服务器的日志数据分析功能需要保持一致,当变更某一服务器上的日志 数据分析功能后,为了实现全网数据的统计,不得不将所有服务器上的日志 数据分析功能进行适应性的变更,使得数据完整性不易监控,并提高了维护 成本。因此,在一定程度上限制了分布式网站的可扩展性和部署。

发明内容
本发明实施例要提供分布式网站日志采集方法。目的在于降低网络曰志 数据统计的复杂度,并且提高分布式网站的可扩展性。
为解决上述技术问题,本发明所提供的分布式网站日志采集方法实施例
是通过以下技术方案实现的
一种分布式网站日志数据采集方法,包括对WEB服务器的日志数据 进行净化处理,并将净化处理后的日志数据上传到集中处理服务器;集中处 理服务器将收到的日志lt据文件合并为一个文件。
上述方法中,WEB服务器上传日志数据前,对净化后的日志数据进行 压缩,并标记服务器的标识;集中处理服务器依据服务器列表,根据所述服 务器标识判断预定执行日志数据上传的WEB服务器的日志数据是否到达。
上述方法基础上,WEB服务器上传日志数据前,进一步对压缩后得到 的曰志数据文件生成第一校验文件,以及将所述第一校验文件发送到集中处 理服务器;集中处理服务器采用与WEB服务器相同的校验算法对获取到的 日志数据文件生成第二校验文件,若所述第一校验文件与所述第二校验文件 不同,则触发WEB服务器重新上传日志数据文件。
相应的本发明实施例还提供了分布式网站系统,包括WEB服务器, 集中处理服务器;其中,WEB服务器,用于对已保存的日志数据进行净化 处理,并将净化处理后的日志数据上传到集中处理服务器;集中处理服务器 将收到的日志数据文件合并为一个文件。
在上述系统结构基础上,WEB服务器,进一步用于对净化后的日志数 据进行压缩,并标记服务器的标识;集中处理服务器,用于依据服务器列表, 根据所述服务器标识判断预定执行日志数据上传的WEB服务器的日志数据 是否到达。
进一步的,WEB服务器,还包括对压缩后得到的日志数据文件生成 第一校验文件,以及将所述第一校验文件发送到集中处理服务器;集中处理 服务器,还用于采用与WEB服务器相同的校验算法对获取到的日志数据文 件生成第二才交验文件,若所述第一冲L验文件与所述第二校-睑文件不同,则触 发WEB服务器重新上传日志lt据文件。
由以上技术方案可以看出,本发明中在各WEB服务器上报日志数据之 前对待上报的日志数据进行净化处理,因而,减小了集中处理服务器的工作
负荷;并且,由于本发明中各WEB服务器仅需要在上报日志数据前进行净 化处理,与现有技术相比,不需要在WEB服务器配置太多的CGI环境(所 述CGI环境是一种运行在网络服务器上的程序环境,该程序用于超文本传输 协议HTTP服务器与其它终端上的程序进行交互)或者其他特殊要求,仅利 用系统本身的功能就可达到本方案的要求,使得本发明WEB服务器具有较 高的安全性,并且,本发明不会出现现有技术中"为了实现全网数据的统计, 不得不将所有服务器上的日志数据分析功能进行统一化的变更",因此使得 本发明的系统部署简单,提高了系统的可扩展性。
进一步的,基于上述方法实现的基础上,使得本发明集中处理服务器可 以机将采集到的日志数据文件进行合并处理,因而可以避免由于用户访问记 录有可能在两台以上的服务器上保存而导致数据统计的不准确,最终提高了 曰志数据分析的准确性。


图1为本发明实施例方法示意图。
具体实施例方式
本发明目的在于降低网络日志数据统计的复杂度,并且提高分布式网站 的可扩展性。
为实现上述发明目的,参照图1,以下具体说明本发明实施例的实现方式。
如图l所示,本发明实施例系统包括WEB服务器和集中处理服务器, 该系统满足分布式的结构,即多个同样角色的服务器用于前台的WEB服务。 所述方法包括以下步骤。
步骤ll,对于已保存的日志数据,WEB服务器对其进行净化处理。
所述净化处理的目的在于过滤掉对于日志数据分析无用的数据,以减少 日志数据的大小。所述过滤方法很多,例如对于Linux服务器,可以直接采 用SHELL命令,过虑掉诸如样式、图片等一些不需要的日志记录。因为往 往一个用户请求一个页面中含有大量的脚本、样式、图片数据,所以通过数
据净化后,能大大减少日志文件大小,进而减少了网络传输的时间,并且有 助于提高对日志数据的分析效率。 '所述执行日志数据净化处理的时机可以选择在WEB服务器负载低峰时段,所述服务器低峰时段可根据统计数据分析得到,并且随着网络应用的发 展可根据统计数据结果进行调整。步骤12,对净化处理后的日志数据,WEB服务器对其进行压缩处理生 成日志数据压缩文件,所述压缩文件名附加上本服务器的标识,以便在集中 处理服务器上能够区分不同WEB服务器发送的网络日志数据压缩文件。本 实施例中采用IP地址用于区分不同服务器的日志数据压缩文件。除此之外, 也可以为每台服务器编号作标识或者采用其他标识方法。步骤13,为了防止文件网络传输的时候,传输不完整或者出错,因此需 要把压缩后的文件做个文件验证,生成第一校验码。本实施例中采用MD5 校验方法,然而本发明并无意对具体采用的校验方法进行限制。步骤14,将所述日志数据压缩文件以及所述的第一校验码发送到集中处 理服务器。本实施例中采用FTP方法传送所述日志数据压缩文件以及所述点 第一校验码。本发明也可釆用其他方法传送,如HTTP等。步骤15,集中处理服务器检查收到的各服务器的日志数据文件(被压缩 后的)。具体包括以下步骤的标识,因此集中处理服务器需下载WEB服务器的IP地址配置列表,且本 实施例中采用FTP方式传送数据,因此所述配置文件格式如210.121.123.123 ftpuser ftppasswd210.121.123.124 ftpuser ftppasswd其中,ftpuser是ftp用户名,ftppasswd是ftp验证码。根据配置文件列表,集中处理服务器在指定的时间段内,循环校验个 WEB服务器的日志数据文件是否已经到达,如果到达,则根据WEB服务器 采用的验证方式对收到的日志数据文件进行验证,如果所述日志数据文件还
未到达集中处理服务器,则等待预置的时长后再行检测。本实施例中,集中处理服务器对收到的日志数据压缩文件进行验证的方法具体包括按照MD5校验方法,根据获取到的日志数据压缩文件生成第二校验码, 若所述第二校验码与所述第一校验码相同,则表明所述日志数据压缩文件传 送正确;若所述第二校验码与所述第一校验码不同,则集中处理服务器可以 执行步骤17,即主动触发WEB服务器对日志数据压缩文件进行重传。在上述重传机制基础上,本发明实施例中进一步对重传次数设置了门限 值,当重传次数达到所述门限值时,且获取到的日志数据压缩文件仍然未能 通过MD5验证时,则集中处理服务器可停止对该WEB服务器的日志数据压 缩文件进行处理,并发出告警。所述告警形式可包括发送邮件或者短信报 警,以使得网站维护人员可以根据实际情况进行处理,以保证整个网站日志 的完整性。步骤16,若集中处理服务器判断已获取到预定的WEB服务器的日志数 据压缩文件,则把所述压缩文件进行解压;并且,因为用户访问记录有可能 在两台以上的WEB服务器存在,为了保证数据的准确性,集中处理服务器 要将各WEB服务器的日志文件合并到一个文件当中。由以上技术方案可以看出,本发明中在各WEB服务器上"^艮日志数据之 前对待上报的日志数据进行净化处理,从而减少了很多不必要的记录。这样 在以后的日志分析过程中,将提高日志数据的分析效率,减小集中处理服务 器的工作负荷。并且,由于本发明中各WEB服务器仅需要在上报日志数据前进行净化 处理,不需要在WEB服务器配置太多的CGI环境或者其他特殊要求,仅利 用系统本身的功能就可达到本方案的要求。理论上,越多的环境配置,安全 性就会相应的下降,因此,本发明WEB服务器具有较高的安全性。因为分布式网站采用的WEB服务器端较多,采用现有的技术,则改变一 点需求,则需要对每台WEB端的脚本和程序进行调整,这样的调整过程容易
出错。而且每台服务器的日志不容易作监控,如果某台服务器日志出现了不正常,很难发现到底是哪台WEB服务端出现了问题。相比现有技术,本发明不会出现现有技术中"为了实现全网数据的统计,不得不将所有服务器上的 日志数据分析功能进行统一化的变更",因此使得本发明的系统部署简单, 提高了系统的可扩展性。并且由于日志数据集中在集中处理服务器中进行处 理,因此更容易确定问题并进行解决。相应的,本发明还提供了一种分布式网站系统,其特征在于,包括 WEB服务器,集中处理服务器;其中,WEB服务器,用于对已保存的曰志 数据进行净化处理,并将净化处理后的日志数据上传到集中处理服务器;集 中处理服务器将收到的日志数据文件合并为一个文件。其中,所述净化处理包括过滤日志数据中的样式或/和图片数据。在上述系统结构基础上,所述WEB服务器,进一步用于对净化后的日 志数据进行压缩,并标记服务器的标识;以及,所述集中处理服务器,用于依据服务器列表,根据所述服务器标 识判断预定执行日志数据上传的WEB服务器的日志数据是否到达。在上述系统结构基础上,所述WEB服务器,还包括对压缩后得到的 日志数据文件生成第一校验码,以及将所述第一校验码发送到集中处理服务 器;以及,所述集中处理服务器,还用于采用与WEB服务器相同的校验算 法对获取到的日志数据文件生成第二校验码,若所述第一校验码与所述第二 校验码不同,则触发WEB服务器重新上传日志数据文件。以上对本发明实施例所提供的 一种分布式网站日志数据采集方法和分 布式网站系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实 施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的实现方 式;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方 式及应用范围上可能会有改变之处,综上所述,本说明书内容不应理解为对 本发明的限制。
权利要求
1、一种分布式网站日志数据采集方法,其特征在于,包括对WEB服务器的日志数据进行净化处理,并将净化处理后的日志数据上传到集中处理服务器;集中处理服务器将收到的日志数据文件合并为一个文件。
2、 如权利要求l所述的方法,其特征在于,所述净化处理包括过滤日 志数据中的样式或/和图片数据。
3、 如权利要求1所述的方法,其特征在于WEB服务器上传日志数据前,对净化后的日志数据进行压缩,并标记服 务器的标识;集中处理服务器依据服务器列表,根据所述服务器标识判断预定执行日 志数据上传的WEB服务器的日志数据是否到达。
4、 如权利要求3所述的方法,其特征在于WEB服务器上传日志数据前,进一步对压缩后得到的日志数据文件生成 第一校验码,以及将所述第一校验码发送到集中处理服务器;集中处理服务器采用与WEB服务器相同的校验算法对获取到的日志数 据文件生成第二校验文件,若所述第一校验码与所述第二校验码不同,则触 发WEB服务器重新上传日志数据文件。
5、 如权利要求l所述的方法,其特征在于在预置的时间或者在服务器负载低于预置门限时启动所述的日志数据净 化处理。
6、 一种分布式网站系统,其特征在于,包括WEB服务器,集中处理 服务器;其中,WEB服务器,用于对已保存的日志数据进行净化处理,并将净化处理后 的日志数据上传到集中处理服务器;集中处理服务器将收到的日志数据文件合并为一个文件。
7、 如权利要求6所述的网站系统,其特征在于,所述净化处理包括过 滤日志数据中的样式或/和图片数据。
8、 如权利要求6所述的网站系统,其特征在于,WEB服务器,进一步用于对净化后的日志数据进行压缩,并标记服务器 的标识;集中处理服务器,用于依据服务器列表,根据所述服务器标识判断预定执行日志数据上传的WEB服务器的日志数据是否到达。
9、 如权利要求6所述的网站系统,其特征在于,WEB服务器,还包括对压缩后得到的日志数据文件生成第一校验码, 以及将所述第 一校验码发送到集中处理服务器;集中处理服务器,还用于采用与WEB服务器相同的校验算法对获取到的 日志数据文件生成第二校验码,若所述第一校验码与所述第二校验码不同, 则触发WEB服务器重新上传日志数据文件。
全文摘要
本发明实施例提供了一种分布式网站日志数据采集方法和分布式网站系统,目的在于降低网络日志数据统计的复杂度,并且提高分布式网站的可扩展性。所述方法包括对WEB服务器的日志数据进行净化处理,并将净化处理后的日志数据上传到集中处理服务器;集中处理服务器将收到的日志数据文件合并为一个文件。本发明减小了集中处理服务器的工作负荷;使得WEB服务器具有较高的安全性;并且,本发明的系统部署简单,提高了系统的可扩展性。
文档编号H04L12/24GK101163046SQ200710177939
公开日2008年4月16日 申请日期2007年11月22日 优先权日2007年11月22日
发明者辉 宁, 涛 张 申请人:北京金山软件有限公司;北京金山数字娱乐科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1