一种大数据处理方法

文档序号：7817665阅读：161来源：国知局

一种大数据处理方法
【专利摘要】本发明公开了一种大数据处理方法，包括以下步骤：在OpenStack云平台上创建Hadoop集群，提供大数据处理的基本环境；通过将数据导入到HDFS和Swift中来创建数据源；用户对步骤2中创建的数据进行处理，并将处理结果通过Web页面显示或将处理结果指定到特定路径下的输出文件。本发明一种基于OpenStack和Hadoop实现大数据处理的方法，提高了服务器的资源利用率，且降低了大数据的准入门槛。
【专利说明】一种大数据处理方法

【技术领域】
[0001]本发明属于大数据处理【技术领域】，涉及一种大数据处理方法。

【背景技术】
[0002]随着网络信息化时代的日益普遍，移动互联网、社交网络、电子商务大大拓展了互联网的疆界和应用领域，我们正处在一个数据爆炸性增长的"大数据"时代，大数据在社会经济、政治、文化，人们生活等方面产生深远的影响，大数据时代对人类的数据驾驭能力提出新的挑战与机遇。大数据具有海量性、多样性、高速性、易变性、数据类型繁多，数据价值相对密度低、时效性要求高等特点，已经超出了传统的数据库处理系统的处理能力。数据中隐藏着有价值的模式和信息，利用传统的数据处理的方式，要挖掘出大数据中的信息，需要花费较长时间和巨大的成本，甚至对有些数据无法处理。云计算和大数据革命掀起的浪潮，带动了数据分析行业的发展，云计算提供基础架构平台，大数据应用运行在这个平台上，这是目前公认非常高效的处理大数据的方法之一。利用云计算来进行大数据分析，势必成为将来的发展趋势之一。其中以Hadoop应用为代表的大数据分析，是最适合在云平台上运行的业务之一。
[0003]OpenStack是一种开源云计算技术，它主要的任务是简化云的部署过程并为其带来良好的可扩展性。
[0004]为了方便快速的对大数据进行处理分析，从中挖掘出数据的价值，我们提出一种新的处理方法即OpenSatck Sahara,利用Openstack Sahara可以快速和低成本的挖掘出大数据中的信息。

【发明内容】

[0005]本发明的目的是提供一种大数据处理方法，提高了服务器的资源利用率，且降低了大数据的准入门槛。
[0006]本发明的技术方案是，一种大数据处理方法，具体按照以下步骤实施:
[0007]步骤I,在openstack云平台上创建Hadoop集群,提供大数据处理的基本环境；
[0008]步骤2，通过将数据导入到HDFS和Swift中来创建数据源；
[0009]步骤3，用户对步骤2中创建的数据源中的数据进行处理，并将处理结果通过Web页面显示或将处理结果指定到特定路径下的输出文件。
[0010]本发明的特点还在于，
[0011]步骤I具体按照以下步骤实施:
[0012]步骤1.1,用户申请OpenStack账号，并使用OpenStack账号登陆OpenStack云平台；
[0013]步骤1.2,用户上传镜像至OpenStack云平台并注册镜像；
[0014]步骤1.3，用户创建网络和路由、结点组模块和集群模板；
[0015]步骤1.4,用户通过选择Plugin和Hadoop版本、填写集群名、选择集群模板、基础镜像、密钥对和网络来创建Hadoop集群。
[0016]步骤2中数据源包括HDFS数据源和Swift数据源。
[0017]步骤3中用户对数据进行处理包括用户界面处理方法和命令行处理方法，
[0018]用户界面处理方法是指通过用户界面进行人机交互,创建Job Binaries和Job,并执行作业，通过web页面查看执行结果；
[0019]命令行处理方法是指用户在命令行界面下，通过命令提交并执行作业，通过输出结果的指定路径下的输出文件查看。
[0020]步骤3中用户采用Hadoop的Map-Reduce框架对数据进行处理。
[0021]本发明的有益效果是，利用Sahara可以在openstack云环境中快速部署Hadoop集群，作为云计算和大数据的桥梁，能够推动openstack云平台和Hadoop的整合,从而可以快速和低成本的挖掘出大数据中的信息，提高服务器的资源利用率，又大大降低了大数据的准入门槛，大数据应用运行在云平台上是非常高效的处理大数据的方法之一。

【专利附图】

【附图说明】
[0022]图1是本发明一种大数据处理方法的流程示意图；
[0023]图2是本发明方法中Hadoop集群创建过程的示意图；
[0024]图3是本发明方法中Map-Reduce处理方法的流程示意图。

【具体实施方式】
[0025]下面结合附图和【具体实施方式】对本发明进行详细说明。
[0026]本发明一种大数据处理方法，如图1所示，包括以下步骤:
[0027]步骤I,在OpenStack云平台上创建Hadoop集群,提供大数据处理的基本环境；
[0028]其中，如图2所示，步骤I具体按照以下步骤实施:
[0029]步骤1.1,用户申请OpenStack账号，并使用OpenStack账号登陆OpenStack云平台；
[0030]步骤1.2,用户上传镜像至OpenStack云平台并注册镜像；
[0031]步骤1.3，用户创建网络和路由、结点组模块和集群模板；
[0032]步骤1.4,用户通过选择Plugin和Hadoop版本、填写集群名、选择集群模板、基础镜像、密钥对和网络来创建Hadoop集群；
[0033]步骤2，通过将数据导入到HDFS和Swift中来创建数据源；
[0034]其中，步骤2中数据源包括HDFS数据源和Swift数据源，
[0035]HDFS数据源包括输入/输出数据源名称、选择数据源类型HDFS、输入/输出URL路径。
[0036]Swift数据源包括输入/输出数据源名称、选择数据源类型Swift、输入/输出URL路径、输入用户名和密码。
[0037]步骤3，用户可以通过两种方法对数据进行处理，一种是通过用户界面进行人机交互，仓Il建Job Binaries,创建job,执行job,通过web查看执行结果；一种是通过命令行界面，用户在命令行界面下，通过命令提交并执行作业，通过输出结果的指定路径下的输出文件查看。具体的数据处理是采用Hadoop的Map-Reduce框架。Map-reduce就是任务的分解与结果的汇总。处理过程如图3所示:
[0038]Map阶段:Hadoop Map/Reduce框架为每一个InputSplit产生一个map任务,而每个InputSplit是由该作业的InputFormat产生的；框架会把与一个特定key关联的所有中间过程的值(value)分成组，Mapper的输出被排序后,就被划分给每个Reducer
[0039]Reduce 阶段:Reducer 有 3 个主要阶段:shuffle、sort 和 reduce。ShuffleReducer的输入就是Mapper已经排好序的输出。在这个阶段，框架通过HTTP为每个Reducer获得所有Mapper输出中与之相关的分块。
[0040]Sort这个阶段，框架将按照key的值对Reducer的输入进行分组(因为不同mapper的输出中可能会有相同的key)。
[0041]Shuffle和Sort两个阶段是同时进行的；map的输出也是一边被取回一边被合并的。
[0042]Reduce在这个阶段,框架为已分组的输入数据中的每个〈key, (list of values) >对调用一次reduce方法。Reduce任务的输出通常是通过调用OutputCollector.collect写入文件系统的。
【权利要求】
1.一种大数据处理方法，其特征在于，具体按照以下步骤实施: 步骤1，在OpenStack云平台上创建Hadoop集群,提供大数据处理的基本环境；步骤2，通过将数据导入到HDFS和Swift中来创建数据源；步骤3，用户对步骤2中创建的数据源中的数据进行处理，并将处理结果通过Web页面显示或将处理结果指定到特定路径下的输出文件。
2.根据权利要求1所述的一种大数据处理方法，其特征在于，所述步骤I具体按照以下步骤实施: 步骤1.1，用户申请OpenStack账号，并使用OpenStack账号登陆OpenStack云平台；步骤1.2，用户上传镜像至OpenStack云平台并注册镜像；步骤1.3，用户创建网络和路由、结点组模块和集群模板；步骤L 4,用户通过选择Plugin和Hadoop版本、填写集群名、选择集群模板、基础镜像、密钥对和网络来创建Hadoop集群。
3.根据权利要求1所述的一种大数据处理方法，其特征在于，步骤2中数据源包括HDFS数据源和Swift数据源。
4.根据权利要求1所述的一种大数据处理方法，其特征在于，所述步骤3中用户对数据进行处理包括用户界面处理方法和命令行处理方法，所述用户界面处理方法是指通过用户界面进行人机交互，创建Job Binaries和Job,并执行作业，通过web页面查看执行结果；所述命令行处理方法是指用户在命令行界面下，通过命令提交并执行作业，通过输出结果的指定路径下的输出文件查看。
5.根据权利要求1至4任意一项所述的一种大数据处理方法，其特征在于，步骤3中用户采用Hadoop的Map-Reduce框架对数据进行处理。
【文档编号】H04L29/08GK104320460SQ201410577834
【公开日】2015年1月28日申请日期:2014年10月24日优先权日:2014年10月24日
【发明者】王茜, 李安颖, 史晨昱, 葛新, 梁小江申请人:西安未来国际信息股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王茜;李安颖;史晨昱;葛新;梁小江
技术所有人：西安未来国际信息股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。