大数据教学管理架构系统的制作方法

文档序号:14990600发布日期:2018-07-20 22:08阅读:192来源:国知局

本发明涉及大数据架构技术领域,具体为一种大数据教学管理架构系统。



背景技术:

大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

在现有社会中,通常高校会采用大数据教学管理架构系统。然而,现有的大数据教学管理架构系统,不可提供安全可靠的实验环境,从而不能大幅度提升大数据技能;其次,现有的大数据教学管理架构系统,不具有完善的全系列虚拟化方案、不具有卓越的用户体验、不具有更全面的数据安全保障、不具有集中式web管理模式、不具有专业的本地化服务模式;此外,现有的大数据教学管理架构系统,不可增加高校硬实力和影响力。



技术实现要素:

(一)解决的技术问题

针对现有技术的不足,本发明提供了一种大数据教学管理架构系统,解决了现有的大数据教学管理架构系统,不可提供安全可靠的实验环境,从而不能大幅度提升大数据技能;其次,现有的大数据教学管理架构系统,不具有完善的全系列虚拟化方案、不具有卓越的用户体验、不具有更全面的数据安全保障、不具有集中式web管理模式、不具有专业的本地化服务模式;此外,现有的大数据教学管理架构系统,不可增加高校硬实力和影响力的问题。

(二)技术方案

为实现以上目的,本发明通过以下技术方案予以实现:一种大数据教学管理架构系统,包括服务器集群、交换机以及虚拟桌面控制器,所述服务器集群通过存储交换机与磁盘阵列连接,所述服务器集群与虚拟机管理平台连接,该服务器集群通过交换机分别与管理员服务器以及虚拟桌面控制器连接,所述虚拟桌面控制器通过lan分别与智能终端、笔记本、pc机以及瘦客户机连接。

优选的,所述智能终端、笔记本、pc机以及瘦客户机集成云终端。

优选的,所述服务器集群包括cproc云处理软件,该cproc云处理软件包括依次双向连接的应用层、业务层、处理层、管理层、存储层以及虚拟资源层,且cproc云处理软件还包括监控协调层。

优选的,所述处理层包括jobkeeper软件和mapreduce软件,且管理层包括数据立方系统以及hbase分布式存储系统,存储层包括estor组件以及hdfs系统。

优选的,所述监控协调层包括zookeeper组件以及chukwa组件。

优选的,所述服务器集群采用hadoop的分布式架构系统,将大数据处理引擎尽可能的靠近存储,hadoop系统包括mapreduce组件、分布式数据库、分布式存储机制、zookeeper组件以及通用功能模块,且mapreduce组件分别与分布式数据库以及分布式存储机制相连,且分布式数据库分别与分布式存储机制以及zookeeper组件相连,该分布式存储机制亦与zookeeper组件相连。

优选的,所述mapreduce组件包括m个分段输入、m个map任务、r个reduce任务以及r个结果,且m个分段输入分别与m个map任务连接,且每个map任务分别与r个reduce任务连接,且每个reduce任务输出相对应的结果。

(三)有益效果

本发明提供了一种大数据教学管理架构系统。具备以下有益效果:

1、该大数据教学管理架构系统,可提供安全可靠的实验环境,大幅度提升大数据技能。

2、该大数据教学管理架构系统,采用桌面虚拟化平台架构,使其具有完善的全系列虚拟化方案、卓越的用户体验、更全面的数据安全保障、集中式web管理模式、专业的本地化服务模式。

3、该大数据教学管理架构系统,可增加高校硬实力和影响力。具体为,该大数据教学管理架构系统,可提高教学水平,促使学生完善大数据知识体系;其有助于大数据实验室建设;其还能提升高校就业水平。

附图说明

图1为本发明的平台整体架构图;

图2为本发明的cproc架构图;

图3为本发明的hadoop架构图;

图4为本发明的hdfs架构图;

图5为本发明的mapreduce架构图;

图6为本发明的hbace架构图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例提供一种大数据教学管理架构系统,如图1-6所示。根据项目实际情况,建议将高校大数据实验室分为三个步骤进行建设:

1、大数据虚拟化平台搭建--针对桌面终端零散无管理现状,部署cdesktop虚拟云桌面系统;

2、后台云存储系统搭建--针对海量综合数据的无序存储及复用,部署大数据实验一体机系统;

3、应用系统搭建--基于基础的大数据教学要求,部署智能教学云盘系统;

平台整体架构如图1所示:该大数据教学管理架构系统,包括服务器集群、交换机以及虚拟桌面控制器,所述服务器集群通过存储交换机与磁盘阵列连接,所述服务器集群与虚拟机管理平台连接,该服务器集群通过交换机分别与管理员服务器以及虚拟桌面控制器连接,所述虚拟桌面控制器通过lan分别与智能终端、笔记本、pc机以及瘦客户机连接。

本发明中:智能终端、笔记本、pc机以及瘦客户机集成云终端。

整体桌面云方案是由云终端thinclient、虚拟桌面控制器ovd、虚拟机管理平台ovp、服务器存储设备等组成,实现将企业员工的办公桌面统一部署于服务器上,员工的个人数据也集中存储,然后通过网络(局域网或广域网)将个人桌面系统快速交付给员工,员工可以通过各种不同类型的终端设备如瘦客户机、笔记本、手机及平板等随时随地接入办公,打造一种新型的桌面办公模式。

ovd桌面云平台以独享桌面的形式,将桌面作为一种按需服务随时随地交付给任何用户,利用独特的vdx桌面传输协议,ovd可以快速而安全地向企业内的所有用户交付整个桌面,不管他们是固定办公员工,还是移动办公员工。平台核心组件如下:

虚拟机管理平台ovp:构建硬件资源可动态调度的服务器集群环境,通过虚拟机可承载windows和linux桌面操作系统和应用,实现桌面池的统一管理和性能监控。

独有的对称式集群架构,可以登陆到任意一台服务器对整个集群进行管理,无需单独安装中央管理服务器,从而保证了管理平台的高可用性。

虚拟桌面控制器ovd:与ovp协同工作,内置域服务提供集中式的桌面用户认证,自动化的桌面管理,控制ovp进行创建、更新、还原虚拟桌面等操作。在不依赖于虚拟机的网络情况下将虚拟桌面安全,快速,可靠地交付到thinclient。

云终端thinclient:无论是体积小巧,功率低的瘦客户机,还是pc机,笔记本,智能终端,都能作为云终端thinclient的软件载体,随时随地连接到虚拟桌面进行办公应用。

大数据资源池建设,这一步骤中最主要涉及cproc云计算;cproc是一种处理海量数据的高效分布式软硬件集合的云处理平台,该平台可以从tb乃至pb级的数据中挖掘出有用的信息,并对这些海量信息进行快捷、高效的处理。cproc云处理平台是搭建在云存储系统上,对业务层直接提供对外开发接口和数据传输接口的分布式数据处理平台。cproc云处理平台是一种处理海量数据的并行编程模型和计算框架,用于对大规模数据集的并行计算。

cproc架构图如图2所示:服务器集群包括cproc云处理软件,该cproc云处理软件包括依次双向连接的应用层、业务层、处理层、管理层、存储层以及虚拟资源层,且cproc云处理软件还包括监控协调层。

本发明中:处理层包括jobkeeper软件和mapreduce软件,且管理层包括数据立方系统以及hbase分布式存储系统,存储层包括estor组件以及hdfs系统;监控协调层包括zookeeper组件以及chukwa组件。

同时cproc云处理软件支持和关系数据库混合模式,绝大部分海量数据存放于分布式平台并进行分布式处理,少量实时性要求很高的数据存放于关系数据库,以满足支撑各种类型的业务需求。支持支撑查询、统计、分析业务;可支撑深度数据挖掘和商业智能分析业务。要求对标准sql规范支持度达到50%以上。提供属性选择、分类预测、回归预测、聚类分析、关联分析、时间序列分析等数据挖掘算法。提供食品二维码扫描功能,能够对各类信息实现溯源。

大数据多网融合科研架构系统平台,涉及hadoop技术。

hadoop可以在大数据处理应用中广泛应用,得益于其自身在数据提取、变形和加载(etl)方面上的天然优势。hadoop的分布式架构,将大数据处理引擎尽可能的靠近存储,对例如像etl这样的批处理操作相对合适,因为类似这样操作的批处理结果可以直接走向存储。hadoop的mapreduce功能实现了将单个任务打碎,并将碎片任务(map)发送到多个节点上,之后再以单个数据集的形式加载(reduce)到数据仓库里。

hadoop架构图如图3所示,服务器集群采用hadoop的分布式架构系统,将大数据处理引擎尽可能的靠近存储,hadoop系统包括mapreduce组件、分布式数据库、分布式存储机制、zookeeper组件以及通用功能模块,且mapreduce组件分别与分布式数据库以及分布式存储机制相连,且分布式数据库分别与分布式存储机制以及zookeeper组件相连,该分布式存储机制亦与zookeeper组件相连。

通过图3可以看出,hadoop由许多元素构成。其最底部是hadoopdistributedfilesystem(hdfs),它存储hadoop集群中所有存储节点上的文件。hdfs(对于本文)的上一层是mapreduce引擎,该引擎由jobtrackers和tasktrackers组成。通过对hadoop分布式计算平台最核心的分布式文件系统hdfs、mapreduce处理过程,以及数据仓库工具hive和分布式数据库hbase的介绍,基本涵盖了hadoop分布式平台的所有技术核心。

hadoop关键技术介绍,下面我们将从hdfs、mapreduce、hbase三大部分详细介绍hadoop的关键指数。

hdfs架构图如图4所示:对外部客户机而言,hdfs就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件,等等。但是hdfs的架构是基于一组特定的节点构建的(参见图1),这是由它自身的特点决定的。这些节点包括namenode(仅一个),它在hdfs内部提供元数据服务;datanode,它为hdfs提供存储块。由于仅存在一个namenode,因此这是hdfs的一个缺点(单点失败)。

存储在hdfs中的文件被分成块,然后将这些块复制到多个计算机中(datanode)。这与传统的raid架构大不相同。块的大小(通常为64mb)和复制的块数量在创建文件时由客户机决定。namenode可以控制所有文件操作。hdfs内部的所有通信都基于标准的tcp/ip协议。

mapreduce架构图如图5所示,mapreduce组件包括m个分段输入、m个map任务、r个reduce任务以及r个结果,且m个分段输入分别与m个map任务连接,且每个map任务分别与r个reduce任务连接,且每个reduce任务输出相对应的结果。

mapreduce主要功能如下:

(1)、数据划分和计算任务调度:系统自动将一个作业(job)待处理的大数据划分为很多个数据块,每个数据块对应于一个计算任务(task),并自动调度计算节点来处理相应的数据块。作业和任务调度功能主要负责分配和调度计算节点(map节点或reduce节点),同时负责监控这些节点的执行状态,并负责map节点执行的同步控制。

(2)、数据/代码互定位:为了减少数据通信,一个基本原则是本地化数据处理,即一个计算节点尽可能处理其本地磁盘上所分布存储的数据,这实现了代码向数据的迁移;当无法进行这种本地化数据处理时,再寻找其他可用节点并将数据从网络上传送给该节点(数据向代码迁移),但将尽可能从数据所在的本地机架上寻找可用节点以减少通信延迟。

(3)、系统优化:为了减少数据通信开销,中间结果数据进入reduce节点前会进行一定的合并处理;一个reduce节点所处理的数据可能会来自多个map节点,为了避免reduce计算阶段发生数据相关性,map节点输出的中间结果需使用一定的策略进行适当的划分处理,保证相关性数据发送到同一个reduce节点;此外,系统还进行一些计算性能优化处理,如对最慢的计算任务采用多备份执行、选最快完成者作为结果。

(4)、出错检测和恢复:以低端商用服务器构成的大规模mapreduce计算集群中,节点硬件(主机、磁盘、内存等)出错和软件出错是常态,因此mapreduce需要能检测并隔离出错节点,并调度分配新的节点接管出错节点的计算任务。同时,系统还将维护数据存储的可靠性,用多备份冗余存储机制提高数据存储的可靠性,并能及时检测和恢复出错的数据。

hbace架构图如图6所示:hbase即hadoopdatabase,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用hbase技术可在廉价pcserver上搭建起大规模结构化存储集群。附图描述hadoopecosystem中的各层系统。其中,hbase位于结构化存储层,hadoophdfs为hbase提供了高可靠性的底层存储支持,hadoopmapreduce为hbase提供了高性能的计算能力,zookeeper为hbase提供了稳定服务和failover机制。

此外,pig和hive还为hbase提供了高层语言支持,使得在hbase上进行数据统计处理变的非常简单。sqoop则为hbase提供了方便的rdbms数据导入功能,使得传统数据库数据向hbase中迁移变的非常方便。

综上所述,该大数据教学管理架构系统具有以下一系列有益效果:

(一)、该大数据教学管理架构系统,可提供安全可靠的实验环境,大幅度提升大数据技能。

(1.1)、其采用docker容器技术:大数据教学平台基于docker容器技术,docker可以在容器内部快速自动化部署应用,并可以通过内核虚拟化技术(namespaces及cgroups等)来提供容器的资源隔离与安全保障等。由于docker通过操作系统层的虚拟化实现隔离,所以docker容器在运行时,不需要类似虚拟机(vm)额外的操作系统开销,提高资源利用率,并且提升诸如io等方面的性能,可瞬间创建随时运行的实验环境。

(1.2)、其可按需部署:软件配置方面,各大高校可根据具体应用,在容器云中选择部署hadoop、hbase、ambari、hdfs、yarn、mapreduce、zookeeper、spark、storm、hive、pig、oozie、mahout、r语言等不同的大数据应用组件。

(1.3)、其实验集群完全隔离:采用mesos+zookeeper+mrathon架构管理集群,几台机器即可虚拟出大量实验集群,实验集群完全隔离,实验环境互不干扰,如果实验环境破坏,一键重启即可建立新集群,方便上百学生同时使用。

(二)、该大数据教学管理架构系统,采用桌面虚拟化平台架构,使其具有完善的全系列虚拟化方案、卓越的用户体验、更全面的数据安全保障、集中式web管理模式、专业的本地化服务模式。

(2.1)、完善的全系列虚拟化方案:涵盖瘦客户机、虚拟桌面控制器ovd、虚拟机管理软件ovp三大环节,业界方案最全面,兼容性最好,性价比最高,为企业it提供了一种更加精简和安全的方法来管理用户和提供可按需访问的敏捷桌面服务。

(2.2)卓越的用户体验:针对各种应用场景进行性能调优,高效传输协议vdx达到与传统pc一致的访问体验。尤其是对于高清视频的本地和在线播放,达到清晰流畅的体验效果。

(2.3)更全面的数据安全保障:ovp,ovd,thinclient三方认证保障用户接入安全、全方位的加密算法保障传输安全、灵活访问控制进行集中鉴权、数据统一存储和备份保障个人数据安全,高可靠性ha设计保障平台安全,最终实现端到端桌面虚拟化安全保护。

(2.4)集中式web管理模式:整套方案的搭建仅需两大组件(ovp和ovd),相对业界其他厂商其部署组件最少,并可提供集中式、单一化的远程运维模式,提高了虚拟桌面部署的易用性和可维护性。

(2.5)专业的本地化服务模式:在全国设立多个办事处有本地化技术支持与专业的虚拟化技术研发团队,成为国内唯一具备自主研发整套虚拟化产品体系的厂商,产品个性化开发能力强,可快速解决产品后期问题。

(三)、该大数据教学管理架构系统,可增加高校硬实力和影响力。具体为,该大数据教学管理架构系统,可提高教学水平,促使学生完善大数据知识体系;其有助于大数据实验室建设;其还能提升高校就业水平。

(3.1)提高教学水平,促使学生完善大数据知识体系:大数据实验一体机解决方案采用理论与实验相结合的人才培养模式,基于真实的企业基地实训经验,提供丰富的项目实训案例,结合高校各专业实际情况进行行业数据研究,培养实用型人才的专业项目能力。

(3.2)有助于大数据实验室建设:大数据上升为国家战略,发改委明确组建13个国家级大数据实验室,高校大数据实验教学平台的建设,符合国家战略,起到示范效应,提高高校信息化水平和实验项目研究能力,增强高校硬件实力。

(3.3)提升高校就业水平:大数据产业迎来发展黄金期,人才缺口相当巨大,培养学生相关方面的能力,有助于提供学生就业水平,进而增加高校影响力。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1