基于Hadoop大数据处理技术的日志分析系统的制作方法

文档序号:9911208阅读:328来源:国知局
基于Hadoop大数据处理技术的日志分析系统的制作方法
【技术领域】
[0001]本发明涉及日志分析技术,特别是涉及一种基于Hadoop大数据处理技术的日志分析技术。
【背景技术】
[0002]今天,我们生活在数据时代,已经被各种数据包围着。这是个信息爆炸的时代,全球以亿为单位的电话、互联网用户每天不断地产生大量数据,人们之间打电话、发短信、上网聊天、上传视频、转发微博等,信息每天以几何级的速度增长着,使得市场上各大互联网公司都面临着严峻的挑战。他们需要TB甚至PB级数据的分析,挖掘出销售量高的商品信息,网站受欢迎程度高的版面,网站上点击量高的广告等,而传统的解决方案和方法对如此规模的数据就只能望洋兴叹了。
[0003]开源组织机构Apache基金会下大数据处理平台Hadoop的诞生,突破了传统数据处理方式的瓶颈,使得海量数据的收集、存储、计算变得更加容易、更加高效。Hadoop系统是一个分布式的数据存储与处理的平台,可以实施在廉价的计算机集群上,提供了一个海量数据分布式存储和计算的架构,文件系统HDFS和计算框架MapReduce,使用户能充分利用集群的大容量空间存储海量数据和集群总分总(即总:数据收集合并;分:分布式存储和计算;总:计算结果合并)的高速计算能力开发分布式的应用程序,实现海量数据的毫秒级高速处理。由于该平台采用面向对象的编程语言Java编写,因此它具有很好的可移植性和可扩展性。发展至今,已扩展出了一些优秀的框架,企业用的比较多的框架如Flume、ZooKeeper、HBase、Pig、Hive、Sqoop等,实现了一些业务逻辑的封装,简化了Hadoop的使用。
[0004]传统数据处理方式存储空间和运算能力有限,例如,在一台计算机上运行传统APP,数据量仅仅三千条左右,运行也需要大概半个小时左右,并且CPU的使用率可达到85 %左右,如果计算机硬件配置更低,则会运行更长时间,而且必须人工收集并加工数据,清洗数据,耗费大量的人力物力,并且效率极低,所以现有技术已经很难满足大数据量的需求,必须想方设法提高效率,运用更先进的技术解决大量数据的处理。

【发明内容】

[0005]对于传统的数据处理模式,收集到的数据放在关系型数据库中,数据间存在各种关联,甚至产生数据依赖,而且数据在单台计算机上处理,受到计算机的配置、网络等各种因素的干扰而影响数据处理的效率。
[0006]本发明是基于Hadoop平台开发的企业网站日志分析解决方案,主要分为五个模块,分别是文件上传模块、数据清洗模块、数据统计分析模块、数据导出模块、数据展现模块。文件上传使用Flume框架,数据清洗使用MapReduce核心算法,数据的统计分析使用Hi ve框架,可以计算得到网站各大关键指标,如浏览量PV、注册用户数、ip数、跳出率,以供运营者决策,数据的导出使用SQOOP框架,将得到的各个指标导出到集群外的关系型数据库MySql中,数据的展现使用ZooKeeper和HBase框架,可以实现海量数据的毫秒级查询。
[0007]为实现本发明之目的,采用以下技术方案予以实现:
[0008]一种日志分析系统,包括:文件上传模块、数据清洗模块、数据统计分析模块、数据导出模块和数据展示模块,其中
[0009]文件上传模块,用于上传日志文件,首先文件上传模块采集日志文件,之后将日志文件上传到分布式文件系统;
[0010]数据清洗模块,用于对分布式文件系统中的日志文件数据进行清洗转换,清洗转换后的数据存放在分布式文件系统中;
[0011 ]数据统计分析模块,用于对分布式文件系统中的日志文件按数据进行统计分析,得到需要的统计数据,将统计数据存放在分布式文件系统中;
[0012]数据导出模块,用于把分布式文件系统中存储的数据导出到外部的数据库中;
[0013]数据展现模块,用于对外部的数据库中存储的数据进行查询,并显示查询结果。
[0014]所述的日志分析系统,优选的:
[0015]所述分布式文件系统是HDFS;
[0016]所述日志文件为应用集群的日志文件。
[0017]所述的日志分析系统,优选的:
[0018]数据清洗包括检查数据一致性,处理无效值和缺失值。
[0019]所述的日志分析系统,优选的:
[0020]所述统计数据包括PV、注册用户数、独立ip数、跳出率。
[0021 ]所述的日志分析系统,优选的:
[0022]所述外部的数据库是Mysql数据库。
[0023]一种日志分析方法,包括以下步骤:
[0024]步骤1.文件上传:首先采集日志文件,之后将日志文件上传到分布式文件系统;
[0025]步骤2.数据清洗:对分布式文件系统中的日志文件数据进行清洗转换,清洗转换后的数据存放在分布式文件系统中;
[0026]步骤3.数据统计分析,对分布式文件系统中的日志文件数据进行统计分析,得到需要的统计数据,将统计数据存放在分布式文件系统中。
[0027]步骤4.数据导出:把分布式文件系统中存储的数据导出到外部的数据库中。
[0028]步骤5.数据展现:对外部的数据库中存储的数据进行查询,并显示查询结果。
[0029]所述的日志分析方法,优选的:
[0030]所述分布式文件系统是HDFS;
[0031]所述日志文件为应用集群的日志文件。
[0032]所述的日志分析方法,优选的:
[0033]数据清洗包括检查数据一致性,处理无效值和缺失值。
[0034]所述的日志分析方法,优选的:
[0035]所述统计数据包括PV、注册用户数、独立ip数、跳出率。
[0036]所述的日志分析方法,优选的:
[0037]所述外部的数据库是Mysql数据库。
[0038]—种日志分析系统的建设方法,包括以下步骤:
[0039]第一步:搭建分布式集群平台,包括以下四种节点:[0040 ]元数据节点、从元数据节点、数据节点1、数据节点2;
[0041 ]第二步:在集群上搭建所需的数据框架;
[0042]第三步:在以上四种节点的Iinux系统的根目录下创建日志文件夹,用于存放日志文件执行命令,启动集群;
[0043]第四步:在分布式文件系统中的根目录下创建网页日志文件夹,通过日志收集模块与集群通过远程过程调用协议)通信交互,让日志收集任务以后台进程运行,监控日志文件夹,一旦文件夹收集到日志文件,就同步上传到分布式文件中的网页日志文件夹下;
[0044]第五步:数据上传成功后,通过启动清洗模块进行数据清洗;数据清洗完毕后,通过网页的形式在浏览器端访问查看文件系统,查看到所需数据;
[0045]第六步:清洗完后使用数据统计分析模块)对数据进行统计分析,创建外部表引用网页日志文件夹下的数据,包括:
[0046]计算浏览量PV,统计量PV;
[0047]计算注册用户数;
[0048]计算独立ip数,;
[0049]计算跳出数,;
[0050]第七步:将得到的各个统计量分别存放到对应的表中,然后把各个表中的数据汇总到一张表中;
[0051]第八步:使用数据导出模块把汇总的数据导出到外面的关系型数据库中,实现数据的快速查询。
【附图说明】
[0052]图1为本发明日志分析系统示意图;
[0053]图2为本发明日志分析方法示意图。
【具体实施方式】
[0054]如图1所示,本发明日志分析系统包括:文件上传模块、数据清洗模块、数据统计分析模块、数据导出模块和数据展示模块。
[0055]文件上传模块,用于上传日志文件,首先文件上传模块采集日志文件,之后将日志文件上传到分布式文件系统,如HDFS文件系统。所述日志文件为应用集群的日志
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1