一种数据处理系统的制作方法

文档序号:14796987发布日期:2018-06-29 19:41阅读:178来源:国知局

本发明涉及大数据应用技术领域,特别是涉及一种数据处理系统。



背景技术:

大数据时代,政务公共数据作为社会大众共享的无形财富。其中,教育数据作为公共数据的重要组成部分和基础内容,预计其开放的范围将越来越大、开放的程度将越来越高。

有报告预测,2016年中国教育大数据市场规模约为4.49亿元人民币,环比增长率为61.88%。

综上所述,如何有效地利用教育大数据等问题,是目前本领域技术人员急需解决的技术问题。



技术实现要素:

本发明的目的是提供一种数据处理系统,以有效地利用教育大数据。

为解决上述技术问题,本发明提供如下技术方案:

一种数据处理系统,包括:

数据采集模块,用于根据预设数据采集方式,获取原始数据;

数据治理模块,用于对所述原始数据进行修正,获得目标数据;

存储检索模块,用于将所述目标数据以分布式存储方式存入预设一体化异构数据库中,并对外提供检测服务;

实时计算模块,用于基于SparkStream对实时流数据进行计算;

挖掘计算模块,用于基于预设的算法模型对所述目标数据进行计算;

科研实践模块,用于创建图形化的大数据科研平台;

统一API模块,用于整合各类型异构的数据库的接口,和对接第三方BI开发工具;

数据安全模块,用于在存储所述目标数据之前,对所述目标数据进行加密和/或备份;

运维模块,用于进行事故预测和事故发生后进行追踪。

优选地,存储检索模块,具体用于采样编码容错技术对所述目标数据进行处理之后,以分布式存储方式存入预设一体化异构数据库中,并对外提供检测服务。

优选地,所述数据采集模块,具体用于根据预设数据采集方式,获取原始数据,所述预设数据采集方式包括接口读取、数据库获取、网络爬虫或智能录入。

优选地,所述数据治理模块,具体用于对所述原始数据修复缺失数据、纠正错误数据和对不可用数据进行适配,获得目标数据。

优选地,所述预设一体化异构数据库为融合了Mysql、Oracle、HDFS和HIVE的数据库。

优选地,所述实时计算模块,包括:

实时流数据获取单元,用于基于Flume获取实时流数据;

实时流数据调度单元,用于基于Kafka调度所述实时流数据;

实时流数据聚合单元,用于通过预设实时流数据聚合技术将所述实时流数据聚合;

流数据计算单元,用于采样SparkStream对实时流数据进行计算。

优选地,所述实时计算模块,具体用于对实时流数据进行分片之后,基于Spark Stream对实时流数据进行计算。

优选地,所述挖掘计算模块,具体用于基于大数据算法和/或机器学习算法模型,对所述目标数据进行计算。

优选地,所述存储检索模块,具体用于将所述预设一体化异构数据库中的数据进行压缩。

优选地,所述数据处理系统为处理教育大数据的系统。

应用本发明所提供的系统,数据采集模块,用于根据预设数据采集方式,获取原始数据,数据治理模块,用于对原始数据进行修正,获得目标数据,存储检索模块,用于将目标数据以分布式存储方式存入预设一体化异构数据库中,并对外提供检测服务,实时计算模块,用于基于Spark Stream对实时流数据进行计算,挖掘计算模块,用于基于预设的算法模型对目标数据进行计算,科研实践模块,用于创建图形化的大数据科研平台,统一API模块,用于整合各类型异构的数据库的接口,和对接第三方BI开发工具,数据安全模块,用于在存储目标数据之前,对目标数据进行加密和/或备份,运维模块,用于进行事故预测和事故发生后进行追踪。本发明提供的数据处理系统包括9大模块,可获取原始数据,对原始数据进行修正,并存储在预设的一体化异构数据库中,可进行检索和挖掘计算、创建图形化的大数据科研平台等。当应用在教育大数据的处理时,可以有效的利用教育大数据。另外,以模块化的设计,可在不影响业务正常运行的情形下进行版本无缝升级。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种数据管理系统的结构示意图;

图2为本发明实施例中一种数据治理模块的数据治理示意图。

具体实施方式

本发明的核心是提供一种数据处理系统,数据采集模块,用于根据预设数据采集方式,获取原始数据,数据治理模块,用于对原始数据进行修正,获得目标数据,存储检索模块,用于将目标数据以分布式存储方式存入预设一体化异构数据库中,并对外提供检测服务,实时计算模块,用于基于Spark Stream对实时流数据进行计算,挖掘计算模块,用于基于预设的算法模型对目标数据进行计算,科研实践模块,用于创建图形化的大数据科研平台,统一API模块,用于整合各类型异构的数据库的接口,和对接第三方BI开发工具,数据安全模块,用于在存储目标数据之前,对目标数据进行加密和/或备份,运维模块,用于进行事故预测和事故发生后进行追踪。本发明提供的数据处理系统包括9大模块,可获取原始数据,对原始数据进行修正,并存储在预设的一体化异构数据库中,可进行检索和挖掘计算、创建图形化的大数据科研平台等。当应用在教育大数据的处理时,可以有效的利用教育大数据。另外,以模块化的设计,可在不影响业务正常运行的情形下进行版本无缝升级。

该系统可以用于处理教育大数据,即本申请提供的数据处理系统为处理教育大数据的系统。

为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参考图1,图1为本发明实施例中一种数据处理系统的结构示意图,该系统包括:

数据采集模块101,用于根据预设数据采集方式,获取原始数据。

在本实施例中,科研预先设置数据采集方式,具体的数据采集方式可以根据实际需要采集的原始数据的类型确定,本发明实施例对比并不限定。

数据采集模块101可以根据预设的数据采集方式,获取原始数据。其中,原始数据可以为结构化、半结构化以及非结构化的数据。

在本发明的一个具体实施例中,数据采集模块101,具体用于根据预设数据采集方式,获取原始数据,预设数据采集方式包括接口读取、数据库获取、网络爬虫或智能录入。

当本发明提供的系统应用于教育大数据的处理时,数据采集模块101可以通过接口读取、数据库获取、网络爬虫和智能录入4种方式采集学校数据,全量存储在融合hive(基于Hadoop的数据仓库工具)、mysql(关系型数据库管理系统)、hdfs(Hadoop Distributed File System,分布式文件系统)多种集群的数据仓库中,保证数据的原始性和多元性。此外,数据采集模块101还可以支持ftp(File Transfer Protocol,文件传输协议)、http、Oracle和syslog等采集方式。同时可以采用可视化ETL工具设计,用户可灵活拖拽,自主设计数据采集,并提供图形化的数据报告,用于数据监控与质量追踪。

数据治理模块102,用于对原始数据进行修正,获得目标数据。

在本实施例中,数据治理模块102可以对原始数据进行修正,以获得目标数据。目标数据为在系统中的其他模块可调用的数据,或可对系统外的应用读取的数据。

在本发明的一个具体实施例中,数据治理模块102,具体用于对原始数据修复缺失数据、纠正错误数据和对不可用数据进行适配,获得目标数据。即数据治理密可以对原始数据中的缺失数据、错误数据和不可以数据进行相应的修复、纠正和适配操作,以获得目标数据。

请参考图2,当本发明提供的系统应用于教育大数据的处理时,数据治理模块102可以作为数据管理和数据治理工具,即其可将缺失数据、错误数据、不可用数据等进行治理,结合学校标准和国家标准规范,以学校数据进行重新梳理,以保证大数据分析的原始数据质量。实现了对高校不同数据源进行针对性的数据清洗与治理工作。

存储检索模块103,用于将目标数据以分布式存储方式存入预设一体化异构数据库中,并对外提供检测服务。

在本实施例中,存储检索模块103可以将目标数据以分布式存储方式存入预设一体化异构数据库中,并对外提供检测服务。其中,预设一体化异构数据库为融合了Mysql、Oracle、HDFS和HIVE的数据库。具体的,在存储时,可以采用MPP集群、HDFS分布式存储等,因分布式存储具有出色的多任务并行处理和分布式计算性能,并兼备高扩展、强容错、低延迟、高吞吐等特点,在结合Elastic Search和针对教育行业自定义分片技术,达到毫秒级全文搜索,可实现单条查询速度3ms以内、十亿多条日志量中查检索时间在7s以内。

在本发明的另一个实施例中,存储检索模块103,具体用于将预设一体化异构数据库中的数据进行压缩。即,存储检索模块103可以结合版本管理和时间轴的技术,将历史数据进行抽取存放,并且结合数据压缩技术,将存储在预设一体化异构数据库中的数据进行压缩。

在本发明的一个实施例中,存储检索模块103,具体用于采样编码容错技术对目标数据进行处理之后,以分布式存储方式存入预设一体化异构数据库中,并对外提供检测服务。

在实际的应用中,存储检索模块103可以将目标数据存储在融合了Mysql、Oracle、HDFS和HIVE的一体化异构数据仓库中,并对数据进行切割、过滤、归纳、整理、排列等处理,可实现分布式存储,并且提供了高性能的并行计算能力,同时提供了PB数量级的秒级搜索功能,从而给客户提供强大、横向可扩展的大型分布式数据存储中心。还可以提供全量数据备份功能,采用增量备份,结合版本管理和时间轴的技术,将历史数据进行抽取存放,并且结合数据压缩技术,可以将系统中的数据存放10年以上,并实现历史数据的查询与分析。在存储检索模块103还可以内置聚合建模分析功能,可以提供超过30种聚合模型,采用数据量化、标签化、黑箱去重等技术。当进行教育大数据的处理时,可将高校每天百万级的日志记录和流水记录进行数据聚合,便于实时的数据挖掘与深度分析。

实时计算模块104,用于基于Spark Stream对实时流数据进行计算。

具体的,实时计算模块104,可以包括:

实时流数据获取单元,用于基于Flume获取实时流数据;

实时流数据调度单元,用于基于Kafka调度实时流数据;

实时流数据聚合单元,用于通过预设实时流数据聚合技术将实时流数据聚合;

流数据计算单元,用于采样Spark Stream对实时流数据进行计算。

在本发明的一个实施例中,实时计算模块104,具体用于对实时流数据进行分片之后,基于Spark Stream对实时流数据进行计算。其中,分片具体为采用Hash、Range、List和datetime等分片技术进行分片。

在实际的应用中,实时计算模块104可以采用基于Flume的实时流数据采集,基于Kafka实现实时流调度处理,同时通过高校的实时流数据聚合技术,并采用Spark Stream实现实时流计算功能,进行大数据实时计算与分析。实时计算模块104可以实时处理海量数据、在线统计分析,涵盖批处理、流处理、机器学习、图计算、SQL等多种应用模式,实现分布式存储、并行计算和自动容错等功能,提供低延迟、高性能的数据处理。

挖掘计算模块105,用于基于预设的算法模型对目标数据进行计算。

在本实施例中,可以预先对算法模型进行设置。挖掘计算模块105,便可以基于预设的算法模型对目标数据进行计算。需要说明的是,挖掘计算模块105,具体用于基于大数据算法和/或机器学习算法模型,对目标数据进行计算。

在实际应用中,挖掘计算模块105可以内置大量高校大数据与机器学习算法,包括分类、聚类、回归、频度关联和神经网络等,形成学生素质评估、行为异常、心理异常等大数据分析模型。挖掘计算模块105,可以内置超过50种高校行业定制优化的专用算法,用于深度挖掘分析大数据平台中的海量数据,从而快速构建基于高校业务的大规模数据挖掘分析应用。例如,将学生各科成绩进行学时加权标准分换算,以实现不同专业/科目具有可比性;基于学生综合数据,进行综合雷达画像的分析预测,判断学生性格特点;基于历史借阅信息、就业信息数据,以及样本关联指数进行书籍和就业岗位的推荐等。

科研实践模块106,用于创建图形化的大数据科研平台。

在实际应用中,科研实践模块106可快速构造大数据分析应用的科研实践中心,为高校用户提供图形化操作、简单易用的大数据科研平台。用户可通过快速选取数据源,采用内嵌的算法模型库或者自主开发算法,灵活选用饼图、折线图、散点图等展示图形,即可创建属于自己的大数据分析用应用,实现高校大数据科研分析的需求。

统一API模块107,用于整合各类型异构的数据库的接口,和对接第三方BI开发工具。统一API模块107可以通过整合大数据平台中各类型异构的数据库,实现接口统一封装与数据调度,屏蔽由于语言和工具导致的接口差异,对外提供标准的jdbc接口。同时支持R语言、Python、Java等多种开发语言,并且对接第三方BI开发工具,可以提高用户数据查询、数据存储管理和自主开发的易用性。

在实际应用中,统一API模块107可以对外提供统一的API接口,支持SQL、R语言、Python、Scala、Java等多种语言,以及可无缝对接第三方主流BI,从而实现快速自主构建大数据应用环境,满足高校开发和运维的需求。

数据安全模块108,用于在存储目标数据之前,对目标数据进行加密和/或备份。

数据安全模块108可以采用加密、认证、审计、快照以及容灾备份等技术,有机全面建设涵盖访问安全、运维安全、内容安全和存储安全的防御体系。同时,数据安全模块108在服务组件交互中采用SSL链路加密机制,以保证链路之间传递信息不会被获取,从而保障数据安全。数据安全模块108还可以配置用户权限,可授权到字段级别,同时支持敏感字段加密、用户读写权限分配等功能,从而提高用户数据访问的安全。

在实际应用中,数据安全模块108还可以融合权限控制、数据加密脱敏、审计隔离、报警阻断和多租户安全等技术,建立标准规范的大数据安全防御体系,全面保障用户的数据绝对安全。同时利用先进的编码容错技术,实现分步式数据存放与恢复,可容忍多个数据块同时丢失,将平均无故障时间提高一倍。

运维模块109,用于进行事故预测和事故发生后进行追踪。

运维模块109提供大数据平台中的数据查询、数据管理、用户管理、存储管理、集群管理和用户管理等工作,采用图形化的工具,实现对成百上千节点的运维管理,同时支持平台性能、访问等异常告警功能并上报系统管理员,降低用户运维管理的技术难度,做到事故事前预测和事故后进行追踪,以进行双重保障。

应用本发明实施例所提供的系统,该系统包括:数据采集模块,用于根据预设数据采集方式,获取原始数据,数据治理模块,用于对原始数据进行修正,获得目标数据,存储检索模块,用于将目标数据以分布式存储方式存入预设一体化异构数据库中,并对外提供检测服务,实时计算模块,用于基于Spark Stream对实时流数据进行计算,挖掘计算模块,用于基于预设的算法模型对目标数据进行计算,科研实践模块,用于创建图形化的大数据科研平台,统一API模块,用于整合各类型异构的数据库的接口,和对接第三方BI开发工具,数据安全模块,用于在存储目标数据之前,对目标数据进行加密和/或备份,运维模块,用于进行事故预测和事故发生后进行追踪。本发明提供的数据处理系统包括9大模块,可获取原始数据,对原始数据进行修正,并存储在预设的一体化异构数据库中,可进行检索和挖掘计算、创建图形化的大数据科研平台等。当应用在教育大数据的处理时,可以有效的利用教育大数据。另外,以模块化的设计,可在不影响业务正常运行的情形下进行版本无缝升级。

需要说明的是,在实际的应用过程中,根据实际业务的需求,本发明实施例所提供的数据处理系统除了上文描述的九大核心模块之外,还可以有数据统一管理模块、数据库和字段授权模块、用户访问资源权限控制模块、服务节点监控模块、引入合作方模块等常见的系统模块。每个模块具体的应用于实现可以参照常见的处理系统,在此本发明实施例不再赘述。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1