一种大数据处理方法

文档序号:7817665阅读:161来源:国知局
一种大数据处理方法
【专利摘要】本发明公开了一种大数据处理方法,包括以下步骤:在OpenStack云平台上创建Hadoop集群,提供大数据处理的基本环境;通过将数据导入到HDFS和Swift中来创建数据源;用户对步骤2中创建的数据进行处理,并将处理结果通过Web页面显示或将处理结果指定到特定路径下的输出文件。本发明一种基于OpenStack和Hadoop实现大数据处理的方法,提高了服务器的资源利用率,且降低了大数据的准入门槛。
【专利说明】一种大数据处理方法

【技术领域】
[0001]本发明属于大数据处理【技术领域】,涉及一种大数据处理方法。

【背景技术】
[0002]随着网络信息化时代的日益普遍,移动互联网、社交网络、电子商务大大拓展了互联网的疆界和应用领域,我们正处在一个数据爆炸性增长的"大数据"时代,大数据在社会经济、政治、文化,人们生活等方面产生深远的影响,大数据时代对人类的数据驾驭能力提出新的挑战与机遇。大数据具有海量性、多样性、高速性、易变性、数据类型繁多,数据价值相对密度低、时效性要求高等特点,已经超出了传统的数据库处理系统的处理能力。数据中隐藏着有价值的模式和信息,利用传统的数据处理的方式,要挖掘出大数据中的信息,需要花费较长时间和巨大的成本,甚至对有些数据无法处理。云计算和大数据革命掀起的浪潮,带动了数据分析行业的发展,云计算提供基础架构平台,大数据应用运行在这个平台上,这是目前公认非常高效的处理大数据的方法之一。利用云计算来进行大数据分析,势必成为将来的发展趋势之一。其中以Hadoop应用为代表的大数据分析,是最适合在云平台上运行的业务之一。
[0003]OpenStack是一种开源云计算技术,它主要的任务是简化云的部署过程并为其带来良好的可扩展性。
[0004]为了方便快速的对大数据进行处理分析,从中挖掘出数据的价值,我们提出一种新的处理方法即OpenSatck Sahara,利用Openstack Sahara可以快速和低成本的挖掘出大数据中的信息。


【发明内容】

[0005]本发明的目的是提供一种大数据处理方法,提高了服务器的资源利用率,且降低了大数据的准入门槛。
[0006]本发明的技术方案是,一种大数据处理方法,具体按照以下步骤实施:
[0007]步骤I,在openstack云平台上创建Hadoop集群,提供大数据处理的基本环境;
[0008]步骤2,通过将数据导入到HDFS和Swift中来创建数据源;
[0009]步骤3,用户对步骤2中创建的数据源中的数据进行处理,并将处理结果通过Web页面显示或将处理结果指定到特定路径下的输出文件。
[0010]本发明的特点还在于,
[0011]步骤I具体按照以下步骤实施:
[0012]步骤1.1,用户申请OpenStack账号,并使用OpenStack账号登陆OpenStack云平台;
[0013]步骤1.2,用户上传镜像至OpenStack云平台并注册镜像;
[0014]步骤1.3,用户创建网络和路由、结点组模块和集群模板;
[0015]步骤1.4,用户通过选择Plugin和Hadoop版本、填写集群名、选择集群模板、基础镜像、密钥对和网络来创建Hadoop集群。
[0016]步骤2中数据源包括HDFS数据源和Swift数据源。
[0017]步骤3中用户对数据进行处理包括用户界面处理方法和命令行处理方法,
[0018]用户界面处理方法是指通过用户界面进行人机交互,创建Job Binaries和Job,并执行作业,通过web页面查看执行结果;
[0019]命令行处理方法是指用户在命令行界面下,通过命令提交并执行作业,通过输出结果的指定路径下的输出文件查看。
[0020]步骤3中用户采用Hadoop的Map-Reduce框架对数据进行处理。
[0021]本发明的有益效果是,利用Sahara可以在openstack云环境中快速部署Hadoop集群,作为云计算和大数据的桥梁,能够推动openstack云平台和Hadoop的整合,从而可以快速和低成本的挖掘出大数据中的信息,提高服务器的资源利用率,又大大降低了大数据的准入门槛,大数据应用运行在云平台上是非常高效的处理大数据的方法之一。

【专利附图】

【附图说明】
[0022]图1是本发明一种大数据处理方法的流程示意图;
[0023]图2是本发明方法中Hadoop集群创建过程的示意图;
[0024]图3是本发明方法中Map-Reduce处理方法的流程示意图。

【具体实施方式】
[0025]下面结合附图和【具体实施方式】对本发明进行详细说明。
[0026]本发明一种大数据处理方法,如图1所示,包括以下步骤:
[0027]步骤I,在OpenStack云平台上创建Hadoop集群,提供大数据处理的基本环境;
[0028]其中,如图2所示,步骤I具体按照以下步骤实施:
[0029]步骤1.1,用户申请OpenStack账号,并使用OpenStack账号登陆OpenStack云平台;
[0030]步骤1.2,用户上传镜像至OpenStack云平台并注册镜像;
[0031]步骤1.3,用户创建网络和路由、结点组模块和集群模板;
[0032]步骤1.4,用户通过选择Plugin和Hadoop版本、填写集群名、选择集群模板、基础镜像、密钥对和网络来创建Hadoop集群;
[0033]步骤2,通过将数据导入到HDFS和Swift中来创建数据源;
[0034]其中,步骤2中数据源包括HDFS数据源和Swift数据源,
[0035]HDFS数据源包括输入/输出数据源名称、选择数据源类型HDFS、输入/输出URL路径。
[0036]Swift数据源包括输入/输出数据源名称、选择数据源类型Swift、输入/输出URL路径、输入用户名和密码。
[0037]步骤3,用户可以通过两种方法对数据进行处理,一种是通过用户界面进行人机交互,仓Il建Job Binaries,创建job,执行job,通过web查看执行结果;一种是通过命令行界面,用户在命令行界面下,通过命令提交并执行作业,通过输出结果的指定路径下的输出文件查看。具体的数据处理是采用Hadoop的Map-Reduce框架。Map-reduce就是任务的分解与结果的汇总。处理过程如图3所示:
[0038]Map阶段:Hadoop Map/Reduce框架为每一个InputSplit产生一个map任务,而每个InputSplit是由该作业的InputFormat产生的;框架会把与一个特定key关联的所有中间过程的值(value)分成组,Mapper的输出被排序后,就被划分给每个Reducer
[0039]Reduce 阶段:Reducer 有 3 个主要阶段:shuffle、sort 和 reduce。ShuffleReducer的输入就是Mapper已经排好序的输出。在这个阶段,框架通过HTTP为每个Reducer获得所有Mapper输出中与之相关的分块。
[0040]Sort这个阶段,框架将按照key的值对Reducer的输入进行分组(因为不同mapper的输出中可能会有相同的key)。
[0041]Shuffle和Sort两个阶段是同时进行的;map的输出也是一边被取回一边被合并的。
[0042]Reduce在这个阶段,框架为已分组的输入数据中的每个〈key, (list of values) >对调用一次reduce方法。Reduce任务的输出通常是通过调用OutputCollector.collect写入文件系统的。
【权利要求】
1.一种大数据处理方法,其特征在于,具体按照以下步骤实施: 步骤1,在OpenStack云平台上创建Hadoop集群,提供大数据处理的基本环境; 步骤2,通过将数据导入到HDFS和Swift中来创建数据源; 步骤3,用户对步骤2中创建的数据源中的数据进行处理,并将处理结果通过Web页面显示或将处理结果指定到特定路径下的输出文件。
2.根据权利要求1所述的一种大数据处理方法,其特征在于,所述步骤I具体按照以下步骤实施: 步骤1.1,用户申请OpenStack账号,并使用OpenStack账号登陆OpenStack云平台; 步骤1.2,用户上传镜像至OpenStack云平台并注册镜像; 步骤1.3,用户创建网络和路由、结点组模块和集群模板; 步骤L 4,用户通过选择Plugin和Hadoop版本、填写集群名、选择集群模板、基础镜像、密钥对和网络来创建Hadoop集群。
3.根据权利要求1所述的一种大数据处理方法,其特征在于,步骤2中数据源包括HDFS数据源和Swift数据源。
4.根据权利要求1所述的一种大数据处理方法,其特征在于,所述步骤3中用户对数据进行处理包括用户界面处理方法和命令行处理方法, 所述用户界面处理方法是指通过用户界面进行人机交互,创建Job Binaries和Job,并执行作业,通过web页面查看执行结果; 所述命令行处理方法是指用户在命令行界面下,通过命令提交并执行作业,通过输出结果的指定路径下的输出文件查看。
5.根据权利要求1至4任意一项所述的一种大数据处理方法,其特征在于,步骤3中用户采用Hadoop的Map-Reduce框架对数据进行处理。
【文档编号】H04L29/08GK104320460SQ201410577834
【公开日】2015年1月28日 申请日期:2014年10月24日 优先权日:2014年10月24日
【发明者】王茜, 李安颖, 史晨昱, 葛新, 梁小江 申请人:西安未来国际信息股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1