一种日志信息管理方法及系统的制作方法

文档序号:7721393阅读:170来源:国知局
专利名称:一种日志信息管理方法及系统的制作方法
技术领域
本发明涉及网站管理技术领域,尤其涉及一种日志信息管理方法及系统。
背景技术
互联网的快速发展使人们对网站设计和功能提出了更高的要求,这些要求包括 具有智能性、快速、准确地找到用户所需信息;能为不同用户提供不同的服务;能为管理者 提供产品营销策略信息等等。利用对网站日志的挖掘分析,可以掌握访问者历史信息,有目的优化站点内容和 设计、使网站能够适应访问者的口味和习惯,从而提高用户的体验、忠诚度回访率;通过多 角度的分析,多种格式的报告,得知网站的运营是否健康,从而为管理者提供营销参考信 息。网站服务器日志是运营商对网站运营状态分析的有效依据,网站日志记录着所有用户 操作的记录。当网站运营商需要了解访问者的访问状况或者在受到攻击时,都需查看日志信息 以进行相应的分析,其查看的操作是随机进行的,而由于日志信息的初始格式并不相同,操 作者在获取日志信息后,都需要从获取的日志信息中选出网站日志信息,然后将所述网站 日志信息进行格式转换,最后才能进行网站日志信息的分析,从而产生分析操作延时,进而 导致运营商无法及时了解网站的运营状况。

发明内容
有鉴于此,本发明目的在于提供一种日志信息管理方法及系统,有效的解决服务 器在对日志的分析操作时的延时问题,使运营商在第一时间了解网站的运营状况。为了实现上述目的,本发明提供了如下技术方案一种网站日志信息管理系统,包括日志信息管理单元、日志信息抽取格式化单 元、数据统一集中单元和网站日志信息提供单元,其中所述日志信息管理单元用于配置同一服务器端的日志信息的格式为预设格式, 以及,定时截取日志信息并保存,从中选出网站日志信息并存储于预先建立的日志回收服 务器中;所述日志信息抽取格式化单元用于格式化日志回收服务器中存储的网站日志信 息;所述数据统一集中单元用于将经过格式化的网站日志信息进行分类,形成多个 数据集市并存储;所述网站日志信息提供单元,用于在接收到查看网站日志信息请求时,提供相应 的网站日志信息。优选的,所述日志回收服务器包括一级日志回收点和二级日志回收点;所述一级日志回收点用于存储所有网络日志信息中选出的带宽情况良好的网站 日志fn息;
所述二级日志回收点用于存储除所述一级日志回收点存储的网站日志信息之外 的网站日志信息。优选的,所述一级日志回收点和/或二级日志回收点的存储方式为RAID6并划分 虚拟卷方式。优选的,所述日志信息抽取格式化单元包括抽取单元,用于抽取网络日志信息;转换单元,用于将所述抽取单元抽取的网络日志信息转换成预定格式的网络日志 fn息;装载单元,用于将所述预定格式的网络日志信息进行存储。优选的,所述日志信息抽取格式化单元还包括触发器,用于产生控制所述抽取单 元、转换单元和装载单元工作的触发信号。优选的,所述触发器包括行触发器和表触发器。优选的,所述日志信息抽取格式化单元进行处理的网络日志信息包括基础数据层 数据,粒度放大层数据和数据集市层数据。一种网站日志信息管理方法,包括配置同一服务器日志信息格式;定时截取日志信息并保存;从所述截获的日志信息中选取网站日志信息并存储于预先建立的日志回收服务 器中;将所述日志回收服务器中存储的网站日志信息格式化处理,转换成符合预定格式 的网络日志信息;将经过所述预定格式的网站日志信息进行分类形成多个数据集市,并存储,便于 在接收到查看网站日志信息请求时,提供相应的网站日志信息给操作者。优选的,将网络日志信息存储于预先建立的日志回收服务器包括预设一级回收点和二级回收点,用以对日志信息进行分类回收; 所述一级日志回收点选取存储所有数据中的带宽情况良好的网站日志信息;所述二级日志回收点存储除所述一级日志回收点存储的数据之外的数据。优选的,在将所述网站日志信息进行格式化处理前还包括将网络日志信息分为基础数据层数据、粒度放大层数据和数据集市层数据;将上 述每层数据再进行分层,在每层中把所有数据用数列连接,便于对数据的处理。从上述技术方案可以看出,本发明通过对服务器中的日志进行统一配置,并预设 日志回收服务器,通过日志回收服务器定时存储网站日志信息,将回收服务器中的日志信 息进行格式化处理,并将处理过的日志信息统一集中存储,以供网站维护者(或称为网站 操作者)随机获取、分析。也就是说,在网站维护者需要了解网站当前运营情况时,可以直 接获取经过格式化处理后的网站日志信息并进行分析,从而减小了处理时延,进而使网站 维护者能够及时了解网站当前的运营情况。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现
5有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。图1为本发明系统的结构图;图2为本发明方法的流程图。
具体实施例方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。如图1所示本发明公开了一种日志信息管理系统,包括日志信息管理单元1、日 志信息抽取格式化单元2、数据统一集中单元3和网站日志信息提供单元4。所述日志信息管理单元1根据互联网服务器的分类,针对服务器类型的不同 (apache的web服务器\squid的缓存服务器\ftp的文件管理服务器\流媒体的源服务器 \流媒体的广播服务器)配置各自的统一的日志格式,这样能确保日志的产生时的格式在 同类服务器中是完全统一的。日志的配置尽可能采用互联网的标准W3C格式,确保日志的 二次处理能最大可能的降低抽取和转换的比例,并且日志的存放要放置在空间较大的存储 空间。因网站的运营使日志处于不断地更新中,对网站日志进行定时截取,从而保证为运营 商提供网站各个时段的运营情况。服务器在被访问时,日志的产生无可避免要有固定的位置,而且是唯一的位置,这 就给日志的回收造成了 一定的麻烦,因为需要在不间断的日志回收系统和不间断对外提供 服务的服务器找一个互不影响的机制,因此我们会在保证不影响服务器的前提下,创建一 个独立的日志回收体系和通道,在服务器的物理分布和网路质量两个维度找一个平衡的地 点,放置日志回收的服务器,而全网多个这样的日志回收服务器组成了完整的日志回收服 务器组,再加上我们希望日志的保存要做到冗余,因此我们会将整个网络分成几个大的区 域,在各区域之间和之中都放置主从关系的日志服务器,即建立一级日志回收点,选取所有 数据中心中的骨干节点(带宽足,到各数据中心延时相对最小),创建二级日志回收点,每 一个日志回收点的存储空间确保能够保证收集日志日最大产出量的50倍的空间,并且要 做到每一个日志回收点的存储采用RAID6并划分虚拟卷的技术来确保存储的安全性,每一 个日志回收点需要一个异地热备份,采用rsync技术实时同步,确保日志回收点的单点不 可访问的故障对日志的保存不会造成任何影响。数据的抽取格式化单元2进一步包括抽取单元,转换单元和装载单元,对收集上 来的各种日志进行抽取,转换和装载即ETL技术。抽取单元,用于抽取网络日志信息;转换 单元,用于将所述抽取单元抽取的网络日志信息转换成预定格式的网络日志信息;装载单 元,用于将所述预定格式的网络日志信息进行存储。我们将整个导出的过程分成若干的层次,根据顺序性,跨越性和不可逆性,可 以规定所有Job只能向下调用,绝对不允许向上调用,不过允许向下跨层调用。这样在 DataStage这个ETL工具中,各个Job根据其在ETL过程中所处的阶段,可分别放入各个层次,利用层次间的关系来约束Job的关系,从而确保各个Job的调用关系得以明确。因此可将ETL对数据处理分为三个层次基础数据层,粒度放大层,数据集市层 (即在基础数据层中的Job都完成后才能做粒度放大的Job,在粒度放大后才能做数据集市 的Job)每层中又细分了若干个小的层次。在每一层中把所有的Job全部都用一个序列连 接起来,这样当每天运行分布在各层的所有Job的时候,只需要按照从低到高的顺序,运行 每层中的序列,就可以保证每个Job运行出的数据都是一致的,从而避免了因为Job调用顺 序混乱导致数据不一致的情况出现。ETL实现过程中由于处理的是海量的日志信息,而且涉及到多个系统,这些系统 往往都是核心系统,在技术的使用上需要考虑到把对源系统的性能和可靠性的影响降到最 低,因此在实现过程中会具体采用了以下几个方面的技术触发器是一种特殊类型的存储过程,主要是通过事件进行触发而被执行的。在日 志的抽取过程中,根据不同种类的日志格式创建不同的触发机制,而实现转换为统一格式 化的日志信息。触发器可以有行触发器和表触发器两种行触发器这类触发器在触发时仅仅锁住触发的行,而表中其他的行还是可以操 作的,但此类的触发器无法在触发时更改表本身。表触发器这类触发器在触发时会锁住表,从而此时对表除检索外的所有的操作 将被锁定,但此类触发器无法获取更新前或更新后的数据。因此我们会在日志的产生的初期就将日志分割截取,确保后面的ETL实现过程 中,不会遇到日志信息的更新,而只需要保证日志文件能够被及时送达ETL处就可以了。同时为了确保ETL的并发处理,我们选择了行触发器,这样就让多个ETL处理一各 文件变的可能,从而对系统的效率提高的最高。也降低了单台ETL的故障对整体ETL实现 过程的影响可能。为了提高导出的效率,在实现过程中采用了增量导出方案,为了进行增量导出就 要建立增量的起点时间,有了这个起点时间,系统就有了寻找新更改记录的起点,以后每次 只要导出这个时间点之后变更的记录,并在确认成功导出后更新这个时间点就可以了。为了保证数据的质量,需要自动处理,自动处理的原则是在增量成功的时间点 后,删除本条记录,再重新增量导出新的记录。所述数据统一集中单元3将经过格式化的网站日志信息进行分类,形成多个数据 集市并存储。ETL为数据集市的建立创建了一个完整的,能反映历史变化的和结构一致的平台, 这样一个数据仓库平台的建立为根据用户的需求开发面向主题的数据集市奠定了基础。所有日志的分析报表的价值是通过使用者的设计而体现的,使用者是业务的专 家,而专家应该主动站在系统实现的角度,帮助每一个查询报表的用户分析出各个数据在 报表中的角色,然后设计出合适的数据结构,这样就形成了数据集市。通常日志的分析报表的需求来源主要来自两个方面,一个是行业专家,一个是使 用和查询分析报表的用户,不论需求来自哪里,都是对不同数据的在不同维度的角色上的 定义,而这些角色的定义就组成了一套数据的组合,而根据对这些数据的合理组合,就形成 了一套完整的数据集市,只要确保任何一种数据在原始日志中可以获取到,那么就可以将其通过ETL的实现过程集中到数据集市,而ETL的实现过程是相对独立的,这就确保了整体 分析系统的快速扩展性。网站日志信息提供单元4,用于在接收到查看网站日志信息请求时,提供相应的网 站曰志信息。当运营商需要对网站进行维护或管理时,需要调看网站的日志信息,通过对日志 信息的分析对网站作出调整。运营商通过提交查看日志的命令,网站日志信息提供单元接 到命令后,调取数据统一集中单元中存储的日志信息提供给运营商。另外本发明还公开了一种与上述系统相对应的方法,包括以下步骤步骤21,配置同一服务器日志信息格式。运营商分析网站运营状况的数据源来自于互联网的各种服务器的访问日志,因此 日志的设计和配置对于日后集中抽取和转换很关键,互联网的各种服务器在设计时,就考 虑了业内的日志标准,因此让分析系统的日志源配置的统一工作变的可能。根据互联网服务器的分类,针对服务器类型的不同配置各自的统一的日志格式, 这样能确保日志的产生时的格式在同类服务器中是完全统一的。步骤22,定时截取日志信息,并将截取的日志信息存放在存储空间里。由于日志不断地更新,对日志的截取工作非常重要,通过对日志的实时截取来获 取网站当时的运营状况。步骤23,从所述截获的日志信息选取网站日志信息并存储于日志回收服务器中。服务器在被访问时,日志的产生无可避免要有固定的位置,而且是唯一的位置,这 就给日志的回收造成了 一定的麻烦,因为需要在不间断的日志回收系统和不间断对外提供 服务的服务器找一个互不影响的机制,因此我们会在保证不影响服务器的前提下,创建一 个独立的日志回收体系和通道,在服务器的物理分布和网路质量两个维度找一个平衡的地 点,放置日志回收的服务器,而全网多个这样的日志回收服务器组成了完整的日志回收服 务器组,再加上我们希望日志的保存要做到冗余,因此我们会将整个网络分成几个大的区 域,在各区域之间和之中都放置主从关系的日志服务器,避免单点故障引发的日志回收中 断,同时为了确保单点日志回收服务器的存储安全性,我们采用最新一代的sata硬盘及 raid6上划分虚拟卷的方式组建存储架构。日志回收体系主要由分布的各区域的日志回收服务器和中心日志存储服务器组 成,为了保证原始日志的可重复计算,我们在各区域的日志都保存7天,而中心日志存储服 务器则是永久存储。步骤M,将所述日志回收服务器中存储的网站日志信息转换成符合预定格式的网
络曰志fe息。日志一旦被送到日志回收服务器,就要面临如何拆分、抽取、和转换及装载入数据 仓库的问题,因为日志分析系统要求部分分析内容,如流量带宽、访问者等具有时效性,因 此这一步的效率尤为重要,因此我们在这个环节,会采用技术进行多级拆分,将所有的日志 先进行去重、去错、格式化,这个环节每5分钟执行一次,将中心收集上来的日志打上时间 戳,然后处理,同时面对不同类型的日志,我们采用不同的抽取和格式化的标准,经过一级 的拆分,抽取,我们将不同的类型、不同的区域、不同的服务域名分类,然后再针对分类的日 志进行二次抽取,将日志的信息按照不同的粒度分类,并进行格式化操作,为数据集市的运算提供尽可能准确和格式化的数据。步骤25,将经过所述预定格式的网站日志信息进行分类形成多个数据集市,并存 储,便于在接收到查看网站日志信息请求时,提供相应的网站日志信息给操作者。值得注意的是,本领域技术人员应该很容易了解,上述提及的网站维护者、网站操 作者、网站运营商、管理者等皆为同一概念,其都需要对网站日志进行处理,具体本文不再 赘述。从上述内容可以看出,本发明实施例定时获取网站日志信息并在进行格式化后集 中存储,使得网站维护者在需要了解网站当前运营情况时,可以直接获取经过格式化的网 站日志信息并进行分析,而无需进行格式化操作,从而减小了处理时延。从而使得网站维护 者可及时了解网站当前运营情况,制定出更有效的运营策略。对所公开的实施例的上述说明,使本领域专业技术使用者员能够实现或使用本发 明。对这些实施例的多种修改对本领域的专业技术使用者员来说将是显而易见的,本文中 所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因 此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新 颖特点相一致的最宽的范围。
权利要求
1.一种日志信息管理系统,其特征在于,包括日志信息管理单元、日志信息抽取格式 化单元、数据统一集中单元和网站日志信息提供单元,其中所述日志信息管理单元用于配置同一服务器端的日志信息的格式为预设格式,以及, 定时截取日志信息并保存,从中选出网站日志信息并存储于预先建立的日志回收服务器 中;所述日志信息抽取格式化单元用于格式化日志回收服务器中存储的网站日志信息; 所述数据统一集中单元用于将经过格式化的网站日志信息进行分类,形成多个数据 集市并存储;所述网站日志信息提供单元,用于在接收到查看网站日志信息请求时,提供相应的网 站曰志信息。
2.根据权利要求1所述系统,其特征在于,所述日志回收服务器包括一级日志回收点 和二级日志回收点;所述一级日志回收点用于存储所有网络日志信息中选出的带宽情况良好的网站日志 fn息;所述二级日志回收点用于存储除所述一级日志回收点存储的网站日志信息之外的网站曰志信息。
3.根据权利要求2所述系统,其特征在于,所述一级日志回收点和/或二级日志回收点 的存储方式为RAID6并划分虚拟卷方式。
4.根据权利要求1所述系统,其特征在于,所述日志信息抽取格式化单元包括 抽取单元,用于抽取网络日志信息;转换单元,用于将所述抽取单元抽取的网络日志信息转换成预定格式的网络日志信息;装载单元,用于将所述预定格式的网络日志信息进行存储。
5.根据权利要求4所述系统,其特征在于,所述日志信息抽取格式化单元还包括触发 器,用于产生控制所述抽取单元、转换单元和装载单元工作的触发信号。
6.根据权利要求5所述系统,其特征在于,所述触发器包括行触发器和表触发器。
7.根据权利要求1所述系统,其特征在于,所述日志信息抽取格式化单元进行处理的 网络日志信息包括基础数据层数据,粒度放大层数据和数据集市层数据。
8.—种日志信息管理方法,其特征在于,包括 配置同一服务器日志信息格式;定时截取日志信息并保存;从所述截获的日志信息中选取网站日志信息并存储于预先建立的日志回收服务器中;将所述日志回收服务器中存储的网站日志信息格式化处理,转换成符合预定格式的网 络日志信息;将经过所述预定格式的网站日志信息进行分类形成多个数据集市,并存储,便于在接 收到查看网站日志信息请求时,提供相应的网站日志信息给操作者。
9.根据权利要求8所述方法,其特征在于,将网络日志信息存储于预先建立的日志回 收服务器包括预设一级回收点和二级回收点,用以对日志信息进行分类回收; 所述一级日志回收点选取存储所有数据中的带宽情况良好的网站日志信息; 所述二级日志回收点存储除所述一级日志回收点存储的数据之外的数据。
10.根据权利要求8所述方法,其特征在于,在将所述网站日志信息进行格式化处理前 还包括将网络日志信息分为基础数据层数据、粒度放大层数据和数据集市层数据;将上述每 层数据再进行分层,在每层中把所有数据用数列连接,便于对数据的处理。
全文摘要
本发明涉及一种日志信息管理方法及系统;其中,该系统包括日志信息管理单元、日志信息抽取格式化单元和数据统一集中单元;所述日志信息管理单元用于配置同一服务器端的日志格式,截取日志信息并保存,在服务器数据中心建立日志回收服务器;所述日志信息抽取格式化单元对日志回收服务器收集来的各种日志进行抽取,转换和装载;所述数据统一集中单元用于将经过抽取、转换处理的日志信息集中并创建数据集市。通过将相同服务器上的日志格式统一,从而能够最大的降低日志信息抽取格式化过程中抽取和转换的比例,将通过上述处理的数据进行集中统一的存储,从而使服务器对日志的分析操作效率提高。
文档编号H04L12/24GK102111285SQ200910244009
公开日2011年6月29日 申请日期2009年12月24日 优先权日2009年12月24日
发明者刘万年, 郜时红, 陈涛, 雷紫东 申请人:北京云快线软件服务有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1