一种实现软硬件结合的面向应用的大数据系统及方法

文档序号:6552562阅读:1447来源:国知局
一种实现软硬件结合的面向应用的大数据系统及方法
【专利摘要】本发明公开了一种实现软硬件结合的面向应用的大数据系统及方法,包括:硬件层、基础平台层、平台增强层;其中,硬件层,用于根据应用场景以及系统需求对硬件进行定制,并对基础平台层提供硬件支撑;基础平台层,用于根据大数据平台搭配能力以及应用场景的策略,选择一个或者几个大数据平台;平台增强层,用于根据基础平台层选择的大数据平台提供相应的大数据平台工具;其中,应用场景为用户应用需求或用户应用场景。本申请的技术方案屏蔽了平台多样性对用户带来的选择和搭配的难度,并且充分利用了软硬件结合的优势以及结合大数据平台工具提高易用性,极大地提高了行业大数据应用的开发质量和效率。
【专利说明】一种实现软硬件结合的面向应用的大数据系统及方法

【技术领域】
[0001] 本发明涉及大数据领域,尤指一种实现软硬件结合的面向应用的大数据系统及方 法。

【背景技术】
[0002] 大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集, 并不是说一定要超过特定万亿字节(TB)值的数据集才能算是大数据。国际数据公司(IDC) 从四个特征定义大数据,即海量的数据规模(Volume)、快速的数据流转和动态的数据体系 (Velocity)、多样的数据类型(Variety)和巨大的数据价值(Value)。大数据几乎渗透到国 民经济的所有部门,应用领域涉及信息服务、智慧城市、金融、制造业、国家安全和科学研究 等。但目前这些行业处理大数据时,至少会面临如下的问题:
[0003] 1、数据存储与管理
[0004] 大数据给存储系统带来了 3个方面的挑战:存储规模大,通常达到ΡΒ(1,000ΤΒ)甚 至EB (1,000ΡΒ)量级;存储管理复杂,需要兼顾结构化、非结构化和半结构化的数据;上层 应用对存储系统的性能、可靠性等指标有不同的要求,而数据的大规模和高复杂度放大了 达到这些指标的技术难度。
[0005] 2、数据分析处理
[0006] 传统的并行计算方法主要从体系结构和编程语言的层面定义了一些较为底层的 并行计算抽象和模型,但由于大数据处理问题具有很高层的数据特征和计算特征,因此大 数据处理需要更多地结合这些高层特征考虑更为高层的计算模式。大数据处理包括以下典 型的特征和维度:
[0007] 1)数据结构特征
[0008] 可分为结构化数据处理、半结构化数据处理与非结构化数据处理。
[0009] 2)数据获取处理方式
[0010] 按照数据获取方式,大数据可分为批处理与流式计算方式。
[0011] 3)数据处理类型
[0012] 从数据处理类型来看,大数据处理可分为传统的查询分析计算和复杂的数据挖掘 分析计算。
[0013] 4)实时性
[0014] 从数据计算响应性能角度看,大数据处理可分为实时/准实时与非实时计算,或 者是联机计算与离线计算。
[0015] 5)并行计算体系结构
[0016] 由于需要支持大规模数据的存储计算,大数据处理通常需要使用基于集群的分布 式存储与并行计算体系结构和硬件平台。
[0017] 3、数据系统使用及日常运维
[0018] 目前大数据系统与传统关系型数据库(比如Oracle、MySql等)相比,对于企业IT 人员在使用和日常运维方面还有不小的难度。一方面,大数据系统相关配套工具很零散或 不成熟(比如数据导入导出、数据安全、备份容灾等);另一方面由于大数据系统部署在集 群上,服务器数量较多,怎样减少人工操作成本和提高效率,这对大数据系统进行监控和运 维提出了很大挑战。
[0019] 4、应用迁移与开发难度
[0020] 目前行业内大部分的应用系统都不是基于大数据平台,随着数据规模的增大,这 些应用系统已逐渐满足不了日常需求,需要在大数据系统框架下进行应用系统迁移或重 构。但大数据应用的开发跟传统应用的开发还是有很大区别,加上缺乏面向行业解决方案 的开发工具包,使得行业内大数据应用系统开发成本及难度很高,难以短时间内进行普及。
[0021] 另外,现有的平台级的大数据系统及产品,每个都侧重于解决一种应用场景,而现 实中大数据应用一般都是混合型场景,比如既包含批处理又包含查询分析,并且现有技术 中并没有通过对硬件的一些限定来适应大数据平台运行的方法这至少会带来三个问题:第 一,平台的多样性会给用户的选择与搭配能力带来极大挑战;第二,需要有为应用场景定制 的硬件才能使平台发挥出其优势,采取通用硬件往往达不到最佳效果或者造成浪费;第三, 目前这些平台基本是面向通用性,缺乏对具体行业应用的支持,使用及应用开发难度比较 大,离用户还有一定距离。


【发明内容】

[0022] 为了解决上述技术问题,本发明提供了一种实现软硬件结合的面向应用的大数据 系统及方法,能够屏蔽平台多样性对用户带来的选择和搭配的难度,充分利用软硬件结合 的优势以及结合大数据平台工具提高易用性,极大地提高了行业大数据应用的开发质量和 效率。
[0023] 为了达到上述发明目的,本发明公开了一种实现软硬件结合的面向应用的大数据 系统,包括:硬件层、基础平台层、平台增强层;其中,
[0024] 硬件层,用于根据应用场景以及系统需求对硬件进行定制,并对基础平台层提供 硬件支撑;
[0025] 基础平台层,用于根据大数据平台搭配能力以及应用场景的策略,选择一个或者 几个大数据平台;
[0026] 平台增强层,用于根据基础平台层选择的所述大数据平台提供相应的大数据平台 工具;
[0027] 其中,所述应用场景为用户应用需求或用户应用场景。
[0028] 进一步地,大数据平台搭配能力以及应用场景的策略包括:
[0029] 批处理查询分析对应平台:映射规约平台MapReduce,内存计算引擎平台Spark, 数据仓库工具Hive,数据仓库工具Shark ;
[0030] 交互式查询分析对应平台:交互式数据分析系统Dremel,实时查询开源项目 Impala,内存数据库;
[0031] 高并发单表简单查询场景对应平台:分布式的、面向列的开源数据库Hbase ;
[0032] 流式计算场景对应平台:流式计算平台Storm,流式计算平台Spark streaming ;
[0033] 复杂查询场景对应平台:大规模并行处理数据库,内存数据库。
[0034] 进一步地,上述系统还包括业务增值层,用于根据用户应用场景提供与行业应用 结合的大数据开发工具包;
[0035] 所述与行业应用结合的大数据开发工具包包括:金融行业开发工具包、电信行业 开发工具包、公安行业开发工具包。
[0036] 进一步地,硬件层具体用于:
[0037] 对硬件的网络性能进行定制,包括:根据所述应用场景选择节点间的网络互连类 型;
[0038] 对硬件的存储性能进行定制,包括:节点的硬盘配置、是否使用SSD卡及内存的大 小;
[0039] 对硬件的计算资源进行定制,包括:确定CPU个数、核数及主频要求。
[0040] 进一步地,大数据平台工具包括:运维监控、数据导入导出、集群管理、数据挖掘、 工作流管理、安全增强及权限管理、数据可视化、备份与容灾。
[0041] 本发明还公开了一种实现软硬件结合的面向应用的大数据方法,包括以下步骤:
[0042] 根据应用场景以及系统需求对硬件进行定制,并提供硬件支撑;
[0043] 根据大数据平台搭配能力以及应用场景的策略,选择一个或者几个大数据平台;
[0044] 根据基础平台层选择的所述大数据平台提供相应的大数据平台工具;
[0045] 其中,所述应用场景为用户应用需求或用户应用场景。
[0046] 进一步地,大数据平台搭配能力以及应用场景的策略包括:
[0047] 批处理查询分析对应平台:映射规约平台MapReduce,内存计算引擎平台Spark, 数据仓库工具Hive,数据仓库工具Shark ;
[0048] 交互式查询分析对应平台:交互式数据分析系统Dremel,实时查询开源项目 Impala,内存数据库;
[0049] 高并发单表简单查询场景对应平台:分布式的、面向列的开源数据库Hbase ;
[0050] 流式计算场景对应平台:流式计算平台Storm,流式计算平台Spark streaming ;
[0051] 复杂查询场景对应平台:大规模并行处理数据库,内存数据库。
[0052] 进一步地,上述方法还包括:根据用户应用场景提供与行业应用结合的大数据开 发工具包;
[0053] 所述与行业应用结合的大数据开发工具包包括:金融行业开发工具包、电信行业 开发工具包、公安行业开发工具包。
[0054] 进一步地,根据应用场景以及系统需求对硬件进行定制,包括:
[0055] 对硬件的网络性能进行定制,包括:根据所述应用场景选择节点间的网络互连类 型;
[0056] 对硬件的存储性能进行定制,包括:节点的硬盘配置、是否使用SSD卡及内存的大 小;
[0057] 对硬件的计算资源进行定制,包括:确定CPU个数、核数及主频要求。
[0058] 进一步地,大数据平台工具包括:运维监控、数据导入导出、集群管理、数据挖掘、 工作流管理、安全增强及权限管理、数据可视化、备份与容灾。
[0059] 本申请技术方案包括:硬件层、基础平台层、平台增强层;其中,硬件层,用于根据 应用场景以及系统需求对硬件进行定制,并对基础平台层提供硬件支撑;基础平台层,用于 根据大数据平台搭配能力以及应用场景的策略,选择一个或者几个大数据平台;平台增强 层,用于根据基础平台层选择的大数据平台提供相应的大数据平台工具;其中,应用场景为 用户应用需求或用户应用场景。本申请的技术方案为行业应用提供一个相对完整的解决 方案,屏蔽了平台多样性对用户带来的选择和搭配的难度,并且充分利用了软硬件结合的 优势以及结合大数据平台工具提高易用性,极大地提高了行业大数据应用的开发质量和效 率。

【专利附图】

【附图说明】
[0060] 此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发 明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0061] 图1为本发明实现软硬件结合的面向应用的大数据系统的结构示意图;
[0062] 图2为本发明实现软硬件结合的面向应用的大数据方法的流程图。

【具体实施方式】
[0063] 大数据查询分析的典型系统包括分布式系统基础架构(Hadoop)下的分布式的、 面向列的开源数据库(HBase)和数据仓库工具(Hive),社交服务网站Facebook开发的 非关系型数据库(Cassandra), Google公司的交互式数据分析系统(Dremel),Cloudera 公司的实时查询开源项目(Impala);此外为了实现更高性能的数据查询分析,还出现了 不少基于内存的分布式数据存储管理和查询系统,UC Berkeley AMPLab的基于内存计 算引擎(Spark)的数据仓库(Shark)。还有大规模并行处理(MPP,Massively Parallel Processing)数据库,比如唯冠公司(EMC)的数据库引擎GreenPlum,惠普公司(HP)的基于 列存储的数据库Vertica。
[0064] 最适合于大数据批处理的计算模式是MapReduce, MapReduce是一个单输入、两阶 段(Map和Reduce)的数据处理过程。MapReduce的简单易用性使其成为目前大数据处理 最为成功、最广为接受使用的主流并行计算模式。在开源社区的努力下,Hadoop系统目前 已发展成为较为成熟的大数据处理平台,并已发展成一个包含众多数据处理工具和环境的 完整的生态系统。Spark也是一个批处理系统,在性能方面比Hadoop MapReduce有很大提 升,但是其易用性及稳定性方面目前仍不如Hadoop MapReduce。
[0065] 流式计算是一种高实时性的计算模式,需要对一定时间窗口内产生的新数据完成 实时的计算处理,避免造成数据堆积和丢失。Facebook的Scribe和Apache的Flume都提 供了机制来构建日志数据处理流图。通用的流式计算系统是Twitter公司的Storm、Yahoo 公司的 S4、以及 UC Berkeley AMPLab 的 Spark Streaming。
[0066] 下面结合附图及具体实施例对本发明进行详细说明。
[0067] 图1为本发明实现软硬件结合的面向应用的大数据系统的结构示意图,如图1所 示,包括:硬件层、基础平台层、平台增强层。其中,
[0068] 硬件层,用于根据应用场景以及系统需求对硬件进行定制,并对基础平台层提供 硬件支撑。
[0069] 上述应用场景为用户应用需求或用户应用场景。
[0070] 该硬件层具体用于:
[0071] 首先,对硬件的网络性能进行定制,包括:根据该应用场景选择节点间的网络互连 类型。
[0072] 其次,对硬件的存储性能进行定制,包括:节点的硬盘配置、是否使用SSD卡及内 存的大小。
[0073] 最后,对硬件的计算资源进行定制,包括:确定CPU个数、核数及主频要求。
[0074] 基础平台层,用于根据大数据平台搭配能力以及应用场景的策略,选择一个或者 几个大数据平台。
[0075] 需要说明的是,基础平台层在众多的大数据平台中选择合适的平台或组合,可以 把用户从众多平台的选择中解放出来,其中合适的是指满足用户应用需求的,选择即是根 据上述策略,匹配出合适的大数据平台。
[0076] 上述大数据平台搭配能力以及应用场景的策略包括:
[0077] 批处理查询分析对应平台:映射规约平台(MapReduce),内存计算引擎平台 (Spark),数据仓库工具(Hive),数据仓库工具(Shark);
[0078] 交互式查询分析对应平台:交互式数据分析系统(Dremel),实时查询开源项目 (Impala),内存数据库;
[0079] 高并发单表简单查询场景对应平台:分布式的、面向列的开源数据库(Hbase);
[0080] 流式计算场景对应平台:流式计算平台(Storm),流式计算平台(Spark streaming);
[0081] 复杂查询场景对应平台:大规模并行处理数据库,内存数据库。
[0082] 平台增强层,用于根据基础平台层选择的所述大数据平台提供相应的大数据平台 工具。
[0083] 上述大数据平台工具包括:运维监控、数据导入导出(ETL)、集群管理、数据挖掘、 工作流管理、安全增强及权限管理、数据可视化、备份与容灾。
[0084] 较优地,上述系统还包括业务增值层,用于根据用户应用场景提供与行业应用结 合的大数据开发工具包;
[0085] 其中,上述与行业应用结合的大数据开发工具包包括:金融行业开发工具包、电信 行业开发工具包、公安行业开发工具包。这些工具包是指跟具体业务相关的代码或类库,方 便进行应用开发。跟传统工具包不同的是,这些代码或类库是基于大数据平台的。
[0086] 图2为本发明实现软硬件结合的面向应用的大数据方法的流程图,如图2所示,包 括以下步骤:
[0087] 步骤201,根据应用场景以及系统需求对硬件进行定制,并提供硬件支撑。
[0088] 上述应用场景为用户应用需求或用户应用场景。
[0089] 本步骤具体包括:
[0090] 对硬件的网络性能进行定制,包括:根据所述应用场景选择节点间的网络互连类 型。
[0091] 对硬件的存储性能进行定制,包括:节点的硬盘配置、是否使用SSD卡及内存的大 小。
[0092] 对硬件的计算资源进行定制,包括:确定CPU个数、核数及主频要求。
[0093] 步骤202,根据大数据平台搭配能力以及应用场景的策略,选择一个或者几个大数 据平台。
[0094] 上述大数据平台搭配能力以及应用场景的策略包括:
[0095] 批处理查询分析对应平台:映射规约平台(MapReduce),内存计算引擎平台 (Spark),数据仓库工具(Hive),数据仓库工具(Shark);
[0096] 交互式查询分析对应平台:交互式数据分析系统(Dremel),实时查询开源项目 (Impala),内存数据库;
[0097] 高并发单表简单查询场景对应平台:分布式的、面向列的开源数据库(Hbase);
[0098] 流式计算场景对应平台:流式计算平台(Storm),流式计算平台(Spark streaming);
[0099] 复杂查询场景对应平台:大规模并行处理数据库,内存数据库。
[0100] 本步骤需要说明是,在众多的大数据平台中选择合适的平台或组合,可以把用户 从众多平台的选择中解放出来,其中合适的是指满足用户应用需求的,选择即是根据上述 策略,匹配出合适的大数据平台。
[0101] 步骤203,根据基础平台层选择的所述大数据平台提供相应的大数据平台工具。
[0102] 上述大数据平台工具包括:运维监控、数据导入导出(ETL)、集群管理、数据挖掘、 工作流管理、安全增强及权限管理、数据可视化、备份与容灾。
[0103] 较优地,上述方法还包括:根据用户应用场景提供与行业应用结合的大数据开发 工具包。
[0104] 其中,上述与行业应用结合的大数据开发工具包包括:金融行业开发工具包、电信 行业开发工具包、公安行业开发工具包。这些工具包是指跟具体业务相关的代码或类库,方 便进行应用开发。跟传统工具包不同的是,这些代码或类库是基于大数据平台的。
[0105] 实施例一
[0106] 本实施中以交通卡口数据查询为例,来详细说明如何实现实现软硬件结合的面向 应用的大数据系统。
[0107] 交通卡口数据可以理解为高速公路收费口或路口的车辆通行信息,每条记录至少 包含:车牌号、通行时间、车辆类型、卡口编号(可根据卡口编号得到卡口所在城市信息) 等。基于交通卡口数据的一个应用场景是,查询在指定时间段内同时出现在指定卡口的车 辆信息。比如6月28日上午9:00-10:00出现在卡口 1,6月28日上午11:00-12:00出现 在卡口 3, 6月28日下午4:00-5:00出现在卡口 10的所有车辆信息。假设卡口数据总量为 2T,服务器节点数为10。
[0108] 此实施例的应用场景为数据复杂查询场景,基础平台层可以选用内存数据库产 品。根据数据量来看,硬件层可以选用内存比较大而硬盘相对较小的机器,而且为了提高读 写速度可以选用ssd硬盘。对于平台增强层,需要有集群管理、运维监控、备份与容灾模块 (这个具体还要基于客户需求)。对于业务增值层,由于这个场景是卡口数据的一个通用场 景,可以把场景逻辑实现为一个应用程序接口(API),上层应用(比如Π 展示)只需调用这 个API,应用开发者无需关注具体使用何种大数据平台。当基础平台层发生变化(比如版 本升级或客户强制要求替换)时无需对上层应用进行修改,同时简化了上层应用的开发难 度。
[0109] 本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令 相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘 等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应 地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的 形式实现。本申请不限制于任何特定形式的硬件和软件的结合。
[0110] 以上所述,仅为本发明的较佳实例而已,并非用于限定本发明的保护范围。凡在本 发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范 围之内。
【权利要求】
1. 一种实现软硬件结合的面向应用的大数据系统,其特征在于,包括:硬件层、基础平 台层、平台增强层;其中, 硬件层,用于根据应用场景以及系统需求对硬件进行定制,并对基础平台层提供硬件 支撑; 基础平台层,用于根据大数据平台搭配能力以及应用场景的策略,选择一个或者几个 大数据平台; 平台增强层,用于根据基础平台层选择的所述大数据平台提供相应的大数据平台工 亘. ,N 9 其中,所述应用场景为用户应用需求或用户应用场景。
2. 根据权利要求1所述的系统,其特征在于,所述大数据平台搭配能力以及应用场景 的策略包括: 批处理查询分析对应平台:映射规约平台MapReduce,内存计算引擎平台Spark,数据 仓库工具Hive,数据仓库工具Shark ; 交互式查询分析对应平台:交互式数据分析系统Dremel,实时查询开源项目Impala, 内存数据库; 高并发单表简单查询场景对应平台:分布式的、面向列的开源数据库Hbase ; 流式计算场景对应平台:流式计算平台Storm,流式计算平台Spark streaming ; 复杂查询场景对应平台:大规模并行处理数据库,内存数据库。
3. 根据权利要求1所述的系统,其特征在于,所述系统还包括业务增值层,用于根据用 户应用场景提供与行业应用结合的大数据开发工具包; 所述与行业应用结合的大数据开发工具包包括:金融行业开发工具包、电信行业开发 工具包、公安行业开发工具包。
4. 根据权利要求1所述的系统,其特征在于,所述硬件层具体用于: 对硬件的网络性能进行定制,包括:根据所述应用场景选择节点间的网络互连类型; 对硬件的存储性能进行定制,包括:节点的硬盘配置、是否使用SSD卡及内存的大小; 对硬件的计算资源进行定制,包括:确定CPU个数、核数及主频要求。
5. 根据权利要求1所述的系统,其特征在于,所述大数据平台工具包括:运维监控、数 据导入导出、集群管理、数据挖掘、工作流管理、安全增强及权限管理、数据可视化、备份与 容灾。
6. -种实现软硬件结合的面向应用的大数据方法,其特征在于,包括: 根据应用场景以及系统需求对硬件进行定制,并提供硬件支撑; 根据大数据平台搭配能力以及应用场景的策略,选择一个或者几个大数据平台; 根据基础平台层选择的所述大数据平台提供相应的大数据平台工具; 其中,所述应用场景为用户应用需求或用户应用场景。
7. 根据权利要求6所述的方法,其特征在于,所述大数据平台搭配能力以及应用场景 的策略包括: 批处理查询分析对应平台:映射规约平台MapReduce,内存计算引擎平台Spark,数据 仓库工具Hive,数据仓库工具Shark ; 交互式查询分析对应平台:交互式数据分析系统Dremel,实时查询开源项目Impala, 内存数据库; 高并发单表简单查询场景对应平台:分布式的、面向列的开源数据库Hbase ; 流式计算场景对应平台:流式计算平台Storm,流式计算平台Spark streaming ; 复杂查询场景对应平台:大规模并行处理数据库,内存数据库。
8. 根据权利要求6所述的方法,其特征在于,所述方法还包括:根据用户应用场景提供 与行业应用结合的大数据开发工具包; 所述与行业应用结合的大数据开发工具包包括:金融行业开发工具包、电信行业开发 工具包、公安行业开发工具包。
9. 根据权利要求6所述的方法,其特征在于,所述根据应用场景以及系统需求对硬件 进行定制,包括: 对硬件的网络性能进行定制,包括:根据所述应用场景选择节点间的网络互连类型; 对硬件的存储性能进行定制,包括:节点的硬盘配置、是否使用SSD卡及内存的大小; 对硬件的计算资源进行定制,包括:确定CPU个数、核数及主频要求。
10. 根据权利要求6所述的方法,其特征在于,所述大数据平台工具包括:运维监控、数 据导入导出、集群管理、数据挖掘、工作流管理、安全增强及权限管理、数据可视化、备份与 容灾。
【文档编号】G06F17/30GK104102702SQ201410321901
【公开日】2014年10月15日 申请日期:2014年7月7日 优先权日:2014年7月7日
【发明者】辛国茂, 亓开元, 赵仁明, 房体盈, 曹连超, 卢军佐 申请人:浪潮(北京)电子信息产业有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1