一种基于云计算平台的日志数据处理方法、装置及系统的制作方法

文档序号:9508620阅读:446来源:国知局
一种基于云计算平台的日志数据处理方法、装置及系统的制作方法
【技术领域】
[0001 ] 本发明涉及日志信息处理领域,尤其涉及一种基于云计算平台的日志数据处理方法、装置及系统。
【背景技术】
[0002]随着计算机技术以及Internet行业迅速发展,Web在人们日常工作和生活中的地位日益显著,因此,产生Web日志数据量是巨大的,为了更好服务用户,Web日志挖掘工作就显得尤为重要。Web日志挖掘就是对Web日志记录的挖掘,通过Web日志挖掘,发现用户访问的Web页面的浏览模式,从而进一步分析和研究Web日志记录中的规律,改进Web站点的性能和组织结构,并据此提供个性化服务。
[0003]面对海量日志数据,传统的数据库、处理方式等已经不能及时有效的处理相关日志数据,得到这些改进Web站点性能的规律,分布式系统就是在这种背景下应运而生,采用分布式文件系统既可以对各个服务器上的日志进行存储,也可以采用分布式运算来处理这些日志数据。
[0004]但是在对日志数据进行分析之前,没有对日志数据进行预处理,导致后续从日志信息中提取关键信息时,影响了获取关键信息的效率;另外,在对日志数据采用关键字进行提取关键信息的过程中,并没有考虑关键字之间的关联度,因此导致提取的关键信息是碎片化的,需要人工进行组合,大大增加了工作量,影响了用户体验。

【发明内容】

[0005]本发明提供一种基于云计算平台的日志数据处理方法、装置及系统,以解决上述问题。
[0006]本发明提供一种基于云计算平台的日志数据处理方法。上述方法包括以下步骤:
[0007]日志预处理服务器分别从各个网页服务器中获取对应的日志数据,进行预处理后,获取中间日志数据并将所述中间日志数据发送至日志提取服务器;
[0008]所述日志提取服务器按照预设信息提取策略,从所述中间日志数据中获取目标日志数据。
[0009]本发明还提供一种基于云计算平台的日志数据处理装置,包括中间日志数据获取模块、日志数据处理模块;其中,所述中间日志数据获取模块与所述日志数据处理模块相连;
[0010]所述中间日志数据获取模块,用于分别从各个网页服务器中获取对应的日志数据,进行预处理后,获取中间日志数据并将所述中间日志数据发送至所述日志数据处理模块;
[0011]所述日志数据处理模块,用于按照预设信息提取策略,从所述中间日志数据中获取目标日志信息。
[0012]本发明还提供一种基于云计算平台的日志数据处理系统,包括一个或多个网页服务器、日志预处理服务器、日志提取服务器;其中,所述一个或多个网页服务器通过所述日志预处理服务器与所述日志提取服务器相连;
[0013]所述日志预处理服务器,用于分别从各个网页服务器中获取对应的日志数据,进行预处理后,获取中间日志数据并将所述中间日志数据发送至所述日志提取服务器;
[0014]所述日志提取服务器,用于按照预设信息提取策略,从所述中间日志数据中获取目标日志数据。
[0015]通过以下方案:日志预处理服务器分别从各个网页服务器中获取对应的日志数据,进行预处理后,获取中间日志数据并将所述中间日志数据发送至日志提取服务器;所述日志提取服务器按照预设信息提取策略,从所述中间日志数据中获取目标日志数据,实现了在对日志数据进行预处理的前提下,自动生成符合用户需求的目标日志数据,大大提升了用户体验。
[0016]通过以下方案:所述日志提取服务器根据各个关键字,从所述中间日志数据中提取与各个关键字对应的日志数据;所述日志提取服务器根据关键字之间的关联度,将具有关联度的关键字对应的日志数据进行组合作为目标日志数据,进行输出,能够自动生成符合用户需求的目标日志数据,减少了人工操作,提高了用户体验。
[0017]通过以下方案:对日志数据进行预处理包括:日志数据抽取、日志数据清洗、日志数据变换、日志数据集成;实现了在对日志数据进行分析之前,对日志数据进行预处理,使得后续从日志信息中提取目标日志数据时,提高了获取效率。
【附图说明】
[0018]此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0019]图1所示为本发明实施例1的基于云计算平台的日志数据处理方法流程图;
[0020]图2所示为本发明实施例2的基于云计算平台的日志数据处理装置结构图;
[0021]图3所示为本发明实施例3的基于云计算平台的日志数据处理系统结构图;
[0022]图4所示为本发明实施例4的基于云计算平台的日志数据处理系统结构图。
【具体实施方式】
[0023]下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
[0024]图1所示为本发明实施例1的基于云计算平台的日志数据处理方法流程图,包括以下步骤:
[0025]步骤101:日志预处理服务器分别从各个网页服务器中获取对应的日志数据;
[0026]进一步地,日志预处理服务器分别从各个网页服务器中获取对应的日志数据之前,还包括:
[0027]各个网页服务器中的业务系统产生日志数据并将所述日志数据存储至日志文件中。
[0028]步骤102:日志预处理服务器对获取的日志数据进行预处理后,获取中间日志数据并将所述中间日志数据发送至日志提取服务器;
[0029]进一步地,对日志数据进行预处理包括:日志数据抽取、日志数据清洗、日志数据变换、日志数据集成。
[0030]例如:在具体实施过程中,日志数据抽取可以是从日志数据中抽取特定时间或特定时间段的日志数据,还可以是抽取来自特定IP地址或特定IP地址段的日志数据;日志数据清洗可以是从日志数据中清洗噪音数据,还可以是从日志数据中清洗无关数据;日志数据变换是指把日志数据转换成适合数据挖掘的形式;日志数据集成是指将来自多个数据源中的日志数据结合起来存放在一个一致的数据存储中。
[0031]步骤103:所述日志提取服务器按照预设信息提取策略,从所述中间日志数据中获取目标日志数据。
[0032]进一步地,所述日志提取服务器按照预设信息提取策略,从所述中间日志数据中获取目标日志数据的过程为:
[0033]所述日志提取服务器根据各个关键字,从所述中间日志数据中提取与各个关键字对应的日志数据;
[0034]所述日志提取服务器根据关键字之间的关联度,将具有关联度的关键字对应的日志数据进行组合作为目标日志数据,进行输出。
[0035]进一步地,关键字之间的关联度包括:关键字之间有关联度、关键字之间无关联度。
[0036]进一步地,关键字之间有关联度是指对具有关联性的业务产生的日志,采用关键字进行日志数据提取时,采用的关键词之间具有关联度;关键字之间无关联度是指对没有关联性的业务产生的日志数据,采用关键字进行日志数据提取时,采用的关键词之间无关联度。
[0037]其中,在具体实施过程中,例如:图像采集业务、图像拼接业务是具有关联性的业务;数据库查询业务、碎片整理业务是没有关联性的业务。
[0038]针对图像采集业务、图像拼接业务产生的日志数据,采用具有关联度的关键字:(“图像采集时间”、“拼
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1