一种大数据虚拟化操作方法与流程

文档序号:16811171发布日期:2019-02-10 13:40阅读:327来源:国知局

本发明属于数据技术领域,特别涉及一种大数据虚拟化操作方法。



背景技术:

近年来,大数据如浪潮般席卷全球,深刻改变了人们的生活、工作和思维方式。业界通常用4个v来概括大数据的特征。一是数据体量巨大(volume)。从tb级别,跃升到pb级别。二是数据类型繁多(variety)。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。三是价值密度低(value)。价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。四是处理速度快(velocity)。这是大数据区分于传统数据挖掘的最显著特征。根据idc的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2zb。在如此海量的数据面前,处理数据的效率就是企业的生命。

同时,世界上越来越多的国家开始从战略层面认识大数据,在政府治理领域融入大数据思维和技术。由于政府数据的敏感性,对网络及数据的安全性也具有更高的要求。为了处理快速增加的数据,需要配套的硬件环境满足大数据处理的需要。用于存储及应用大数据的网络架构需要适应大数据的特征。现有技术中有多种大数据存储系统,通常采用san以及光纤交换机的方式,价格十分昂贵。以hadoop为代表的云存储技术采用大量廉价服务器来构成海量存储容量,与san相比大大降低了成本,但每台存储设备依然需要配备相应的存储服务器,对网络带宽要求也很高,往往需要用昂贵的网络设备,而且namenode依然存在单点故障风险,成本、性能和可靠性仍然不够理想。

为此,需要提供一种高性能、低成本的能存储大数据的大数据存储装置。



技术实现要素:

本发明提供了一种大数据存储架构,以提供一种高性能、低投入、高可靠性的大数据虚拟化操作方法。

本发明的具体技术方案是:一种大数据虚拟化操作方法,包括以下步骤:

1)基础设施虚拟化;采用虚拟化技术将设施虚拟化,包括物理层的服务器虚拟化、存储虚拟化和网络虚拟化,形成虚拟化层;建立计算虚拟化池和存储虚拟化池;所述计算虚拟化池用于实现计算资源层面的虚拟化,所述存储虚拟化池用于实现存储数据虚拟化;

2)虚拟机实例化;包括以下步骤:

(1)选择虚拟机并定制化;

(2)保存定制化参数文件;

(3)选择部署的目标物理机服务器;

(4)拷贝虚拟机的相关文件;

(5)在目标机上启动部署后的虚拟机;

3)开源云计算解决方案,安装eucalyptus;使用eucalyptus作为基础,搭建虚拟机集群,用户安装云计算平台,包含以下步骤:

(1)安装linux操作系统

(2)配置yum安装源;

(3)配置安装脚本;

(4)安装其他节点操作系统;

(5)搭建cobbler服务;

(6)pxe方式安装节点os;

(7)配置安全策略、网桥、防火墙、nfs共享;

4)建立服务层,部署服务器主机和存储阵列,所述服务器主机和存储阵列之间通过光纤交换机连接,所述服务器安装有虚拟化软件和云管理软件,服务器通过虚拟化软件将服务器资源进行池化;

5)处理关系型数据库中的海量数据,结合s-plus和hadoop对关系型数据库操作:通过s-plus输出文本数据文件,上传到hdfs中,再转化为文本数据集,进行分布式处理;

6)流程化操作,在应用层以web界面的方式向用户服务层实现各种功能;设置分析参数、数据挖掘,得出分析结果并展示。

进一步,所述服务层中,使用mysql数据库的复制技术以及商业工具s-plus实现hadoop与数据库间进行可定制的数据传递机制。

进一步,所述服务层中包括硬件防火墙,虚拟防火墙,多个应用虚拟化服务器,以及分布式存储系统;所述硬件防火墙连接所述虚拟防火墙,所述虚拟防火墙连接所述应用虚拟化服务器,所述应用虚拟化服务器连接所述分布式存储系统。

进一步,在所述硬件防火墙连接所述虚拟防火墙之间设置应用防火墙。

进一步,所述应用层中,设计b/s模式的用户操作界面,用户只需利用图形化界面进行操作,而不需要直接编写s-plus代码进行数据分析和统计,实际的计算过程则是通过在底层调用s-plus语言来实现的,从根本上屏蔽了s-plus语言的复杂性。

进一步,步骤4)中所述服务器主机的型号为de11poweredgel2gr720;所述存储阵列型号为dellscv2020fc;所述光纤交换机型号为bocade300。所述虚拟化软件为vmwarevsphere,所述云管理软件为vmwarevcenter。

本发明的有益效果:

(1)利用云计算虚拟化和大数据技术,整合基础设施资源,为平台提供便于统一管理、具备高可扩展性的计算和存储能力。

(2)为解决数据挖掘算法的可扩展性,使用多种设计模式优化接口设计,表示层的参数配置界面和s-plus语言分析数据的逻辑松耦合。

(3)将垂直扩展的关系型数据库转变为水平扩展的分布型数据库,从而缓解数据暴增问题。

具体实施方式

以下实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。

一种大数据虚拟化操作方法,其特征在于,包括以下步骤:

步骤1:基础设施虚拟化。采用虚拟化技术实现主机和存储资源的一体化整合和共享利用,提高资源利用率,降低成本,降低管理的复杂性。将设施虚拟化,包括服务器虚拟化、存储虚拟化、网络虚拟化。本发明主要从两个方面进行虚拟化,建立两个虚拟化池即计算虚拟化池和存储虚拟化池。计算虚拟化池主要实现应用虚拟化,在计算资源层面包括服务器虚拟化和应用中间件虚拟化。存储虚拟化池主要实现数据存储虚拟化,在存储层面包括存储硬件架构虚拟化和存储软件虚拟化。按照上述思路搭建主机、管理节点、多台计算节点以及网络设备等硬件,为大数据处理提供必需的硬件基础。

步骤2:虚拟机实例化阶段。包含以下步骤:

(1)选择虚拟机并定制化;

(2)保存定制化参数文件;

(3)选择部署的目标物理机服务器;

(4)拷贝虚拟机的相关文件;

(5)在目标机上启动部署后的虚拟机。

步骤3:开源云计算解决方案,安装eucalyptus;使用eucalyptus作为基础,搭建虚拟机集群,用户在现有的基础架构上创建私有的云计算平台,安装过程包含以下步骤:

(1)安装linux操作系统;

(2)配置yum安装源;

(3)配置安装脚本;

(4)安装其他节点操作系统;

(5)搭建cobbler服务;

(6)pxe方式安装节点os;

(7)配置安全策略、网桥、防火墙、nfs共享。

步骤4:建立服务层:部署服务器主机和存储阵列,所述服务器主机和存储阵列之间通过光纤交换机连接,所述服务器安装有虚拟化软件和云管理软件,服务器通过虚拟化软件将服务器资源进行池化。

本实施例中,标准配置方案的四台de11poweredgel2gr720服务器主机,每台服务器配置2个e5-2650v2处理器,该型号处理器单片包含8个内核,16个线程,flops达到166.4,单台服务器提供16内核32线程、四台机群整体gflops可达到1331.2,能够很好满足数据库、大数据及虚拟化和云计算实训实验的需求。内存方面,每台服务器配置1286内存,除去exsi虚拟化系统保留8g外,可以提供120g给用户虚拟机使用,单台服务器能同时创建和运行30台4g或60台2g的客户机系统。机群四台服务器除去云计算服务等资源消耗,总共能提供100台4g或200台2g的客户机系统。

对于数据的存储,考虑到系统的高并发程度,为消除i/0热点,保证性能,系统采用de11scv2020fc高性能存储阵列,存储阵列和服务器主机通过光纤交换机连接。scv2020fc服务器存储配置有24块15k高速sas磁盘,每块磁盘的容量为6006,整体容量达到14.4t,能很好满足大数据对海量数据的存储要求。在数据冗余方面,scv2020fc存储支持raids/6,raid10和raidiodm(双镜像)。

如果只用ie作为客户端访问splusserver,在客户端则不必安装和设置任何内容,只需打开ie,输入网址:http://hostname/statserver即可;访问;如果使用其他客户端,例如spluspublishing客户端或者excel客户端,则必须在客户机器上运行客户端安装软件,此s-plus企业服务器客户端组件,通过基于http通讯的机制和服务器进行交互,此客户端安装在主安装窗口上,单击s-plus按钮即可开始安装。

对于数据的传输效率,在服务器和存储之间采用高性能的brocade300光纤交换机,该交换机可提供高达8.5gbit/sec全双工的传输能力,足以满足系统高并发性及数据库与大数据项目大数据量传输对系统性能的严格要求。

对于系统数据的安全,除了每台服务器和存储通过ra工d10提供冗余外,vmware数据中心虚拟化软件还提供系统元数据与用户数据的可靠备份,可以做到数据的绝对安全。

所述虚拟化软件为vsphere6.0,所述云管理软件为vcenter6.0。vsphere是业界市场占有率最高的虚拟化产品,具有稳定性好、易于使用和管理、兼容性好等特点,其主要作用是对服务器资源进行虚拟化,需要针对每台服务器安装部署。vcenter基于vsphere部署,提供云发布及云管理的功能。

步骤5:处理关系型数据库中的海量数据;结合s-plus和hadoop实现对关系型数据库中大规模数据的操作:通过商业工具s-plus将大量待分析数据输出为文本数据文件,并将文本数据文件上传到hdfs中,然后转化为文本数据集进行分布式处理。hadoop提供了相应的从关系数据库查询和读取数据的接口,虽然允许用相关接口从数据库中直接读取数据记录作为mapreduce的输入,但处理效率较低,而且大量频繁地从mapreduce程序中查询和读取关系数据库会增加数据库的访问负载。本发明采用了一种可以更高效地读取并处理关系数据库中大量数据记录的解决方案:通过商业工具s-plus将大量待分析数据输出为文本数据文件,并上传到hdfs中,然后转化为文本数据集进行分布式处理。

步骤6:流程化操作方法;在应用层以web界面的方式向用户服务层实现各种功能;用户操纵数据的输入和输出,实现分支、循环,并可自定义功能,所述功能包括但不限于城市管理、城市信息系统服务、社会监管、公共安全等智慧交通系统需关注的目标,设置内容包括:设置数据来源、选择分析方法、设置分析参数、数据挖掘与分析、得出分析结果并展示。

本发明应用多个虚拟化服务器,将服务器物理资源抽象成逻辑资源,不再受限于物理上的界限,而是让cpu、内存、磁盘、i/o等硬件变成可以动态管理的“资源池”,从而提高资源的利用率,简化系统管理,实现服务器整合,可以把一个实体服务器分割成多个小的虚拟服务器。有了服务器虚拟化,多个服务器依靠一台实体机生存。由于将服务器合并成更少的硬件且增加了效率,服务器虚拟化减少了成本。多个虚拟化服务器可以根据实际需求预先部署各类应用程序,从而对数据进行各种加工或应用。例如,一个虚拟化服务器可以部署etl(抽取、转换、加载)和调度软件,通过自定义调度策略和抽取模式,将数据从其他数据来源导入到分布式存储系统中。还可以用于部署数据质量管理系统,对抽取的数据做数据质量剖析,通过抽样和扫描数据发现数据存在的质量问题,生成数据质量报告。还可以用于部署webservice,对外提供统资源接口。

为了保障大数据存储应用的安全,须将多个虚拟的应用服务器进行分区,并对不同的虚拟区域采用不同的安全策略。通过虚拟防火墙所划分出的多个虚拟的防火墙可以实现这一点,可以为每个虚拟的防火墙单独分配安全策略。在每个区内,还需要根据功能和对安全的不同需求,将多个虚拟的应用服务器安排在不同的虚拟网段上,虚拟的防火墙可以作为各个网段的网关。不同的分区采用不同的安全策略,满足对多个虚拟网段进行安全管理。

以上对本发明的目的、技术方案和有益效果进行了详细说明,应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1