基于s-plus的大数据平台的构建方法

文档序号:8257998阅读:589来源:国知局
基于s-plus的大数据平台的构建方法
【技术领域】
[0001]本发明涉及一种基于S-PLUS的大数据平台的构建方法,结合云计算、虚拟化和Hadoop等技术,集成了 S-PLUS语言,适用于处理城市管理、城市信息系统服务、社会监管、公共安全等数据集,允许用户通过Web界面的方式进行数据挖掘、分析。
【背景技术】
[0002]随着信息化的推进和智慧城市的建设,以城市为单位的数据量日益上升,智慧城市每天会产生0.3PB-6.7PB左右的视频数据。在城市系统应用中,收集了大量的海量的业务数据,其中蕴藏着大量未知的、潜在的信息。数据挖掘是一种新的商业信息处理技术,在银行、电信、保险、交通、零售等领域得到了普遍的应用。通过对大量业务数据进行抽取、转换、分析和其他模型化处理,可提取辅助做出正确而关键的决策。面对的数据量越来越大,针对大数据的挖掘、分析日趋得到关注。但是,受限于内存容量和计算能力,传统的基于单机,单区域范围内的数据分析已经开始在大数据时代显得力不从心;传统的数据挖掘、分析方法在大数据环境下不再有效。
[0003]云计算的出现,为解决大数据问题提供了有效的途径。云计算、虚拟化技术可以有效地整合基础设施资源,为大数据的挖掘、分析提供了计算和存储能力。Hadoop可以让用户在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储,为大数据的计算和存储提供了可用框架。商业软件S-PLUS是当今相当流行的数据分析、统计制图语言,具有丰富的分析模块和实用工具,在业界已得到广泛应用。为了充分挖掘、分析大数据的价值,为用户提供功能强大的数据挖掘、分析功能,设计一个集成了商业软件S-PLUS语言、易用的大数据挖掘平台,具有很好的应用价值。

【发明内容】

[0004]发明目的:本发明提供一种基于S-PLUS的大数据平台的构建方法,集成S-PLUS语言作为数据分析引擎,设计了一个能够处理大数据环境下的数据挖掘平台。利用该平台进行数据挖掘,用户可以解决一些典型的数据挖掘问题,如处理城市管理、城市信息系统服务、社会监管、公共安全等问题。
[0005]为了实现上述目的,所构建系统的体系结构如下:
物理层:由服务器、PC机、网络设备等硬件组成,为大数据处理提供必需的硬件基础。
[0006]虚拟化层:采用开源云平台解决方案Eucalyptus搭建虚拟机集群,整合基础设施资源,为整个系统提供了可扩展的、易管理的计算和存储能力;然后,在虚拟机上部署Hadoop环境和MySQL集群,用于支持大数据的读写和存储。
[0007]服务层:部署Hadoop环境,使得S-PLUS语言引擎能够运行在Hadoop集群之上,既可以充分发挥S-PLUS语言在统计计算和绘图方面的强大功能,同时可以利用Hadoop在并行计算和扩展性方面的能力弥补S-PLUS语言在处理大数据时的不足;开发服务,在服务中封装通常用到的数据挖掘方法实现的功能。
[0008]应用层:以Web界面的方式向用户服务层实现的各种功能。用户可以建立分析流程,包括:设置数据来源、选择分析方法、设置分析参数、数据挖掘与分析、得出分析结果并展示。
[0009]技术方案:一种基于S-PLUS的大数据平台的构建方法,包括如下几个步骤:
步骤1:基础设施虚拟化。采用虚拟化技术将设施虚拟化,包括物理层的服务器虚拟化、存储虚拟化和网络虚拟化,形成虚拟化层;其中建立两个虚拟化池即计算虚拟化池和存储虚拟化池是最重要的两个部分;计算虚拟化池主要实现计算资源层面的虚拟化,其中又包括服务器虚拟化和应用中间件虚拟化;存储虚拟化池主要实现存储数据虚拟化,其中又包括存储硬件架构虚拟化和存储软件虚拟化。本发明按照上述思路搭建主机、管理节点、多台计算节点以及网络设备等硬件,为大数据处理提供必需的硬件基础。
[0010]步骤2:虚拟机实例化。此流程大致分为以下几个步骤:
(O选择虚拟机并定制化;
(2)保存定制化参数文件;
(3)选择部署的目标物理机服务器;
(4)拷贝虚拟机的相关文件;
(5)在目标机上启动部署后的虚拟机。
[0011]步骤3:开源云计算解决方案Eucalyptus的安装;使用Eucalyptus作为基础,搭建虚拟机集群,用户可以快速方便地在现有的基础架构上创建私有的云计算平台,其安装过程主要包含以下几步:
(1)安装Linux操作系统;
(2)配置Yum安装源;
(3)配置安装脚本;
(4)安装其他节点操作系统;
(5)搭建Cobbler服务;
(6)PXE方式安装节点OS ;
(7)配置安全策略、网桥、防火墙、NFS共享。
[0012]步骤4:服务层:部署S-PLUS环境,使得S-PLUS语言引擎能够运行在Hadoop集群之上;配置动态链接库,使得实际的计算过程是通过在底层调用S-PLUS语言来实现的。
[0013]步骤5:处理关系型数据库中的海量数据;结合S-PLUS和Hadoop来实现对关系型数据库中大规模数据的操作:通过商业工具S-PLUS将大量待分析数据输出为文本数据文件,并将文本数据文件上传到HDFS中,然后转化为对文本数据集进行分布式处理。
[0014]步骤6:流程化的操作方法;在应用层以Web界面的方式向用户服务层实现的各种功能;用户可以操纵数据的输入和输出,可实现分支、循环,并可自定义功能,功能包括但不限于城市管理、城市信息系统服务、社会监管、公共安全等智慧交通系统需关注的目标,设置内容包括:设置数据来源、选择分析方法、设置分析参数、数据挖掘与分析、得出分析结果并展不。
[0015]本发明采用上述技术方案,具有以下效果:
(I)利用云计算虚拟化和大数据技术,整合基础设施资源,为平台提供便于统一管理、具备高可扩展性的计算和存储能力。
[0016](2)针对不同规模数据集采用最优的数据处理模式,当数据规模单机模式不能处理时候,利用Hadoop集群提供支持。并且,Hadoop存储的多备份策略、任务执行时的心跳机制、以及数据库集群和复制技术保证了平台具备较高容错能力。
[0017](3)为解决数据挖掘算法的可扩展性,使用多种设计模式优化接口设计,表示层的参数配置界面和S-PLUS语言分析数据的逻辑松耦合。
[0018](4)提供了主流的数据挖掘算法,支持处理结构化(MySQL、SQLServer、txt、csv和xls等格式文件)、半结构化(XML、HTML等格式文件)、非结构化(jpg、bmp和GIS底图、MPG等图像视频文件)三大类数据。
[0019](5)提供了将原来的垂直扩展的关系型数据库转变为水平扩展的分布型数据库,从而缓解智慧交通所带来的数据暴增问题。
【附图说明】
[0020]图1是基于S-PLUS的大数据平台的构建方法的体系架构图。
【具体实施方式】
[0021]下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
[0022]基于S-PLUS的大数据平台的构建方法的体系架构,如图1所示,包括如下几个步骤:
步骤1:基础设施虚拟化。采用虚拟化技术能实现主机和存储资源的一体化整合和共享利用,既能提高资源利用率,降低成本,又能降低管理的复杂性。将设施虚拟化,包括服务器虚拟化、存储虚拟化、网络虚拟化。本发明主要从两个方面进行虚拟化,建立两个虚拟化池即计算虚拟化池和存储虚拟化池。计算虚拟化池主要实现应用虚拟化,在计算资源层面包括服务器虚拟化和应用中间件虚拟化。存储虚拟化池主要实现数据存储虚拟化,在存储层面包括存储硬件架构虚拟化和存储软件虚拟化。本发明按照上述思路搭建主机、管理节点、多台计算节点以及网络设备等硬件,为大数据处理提供必需的硬件基础。
[0023]步骤2:虚拟机实例化的阶段。此流程大致分为以下几个步骤:
(O选择虚拟机并定制化;
(2)保存定制化参数文件;
(3)选择部署的目标物理机服务器;
(4)拷贝虚拟机的相关文件;
(
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1