一种基于高校大数据的可视化综合分析系统的制作方法

文档序号:16901185发布日期:2019-02-19 18:00阅读:231来源:国知局
本发明涉及大数据
技术领域
:,更具体的说是涉及一种基于高校大数据的可视化综合分析系统。
背景技术
::大数据是规模非常巨大和复杂的数据集,具有4v特性,一是数据量巨大(volume)且持续快速增加;二是具有高速度(velocity)的数据输入、输出流;三是数据类型和来源多样化(variety);四是价值(value)密度低。学校是人类活动非常密集的区域,随着信息技术的不断发展,数字化校园的数据产生主要通过教学活动和教育管理两个渠道实现,在日常教学和管理的过程中,产生了大量的数据,数据存量越来越大,且数据种类繁多(variety),规模庞大(volume),对数据的输入和处理速度要求较高(velocity)。综上可以看出,学校数据完全符合大数据所具有的4v特性,是大数据概念范畴当中的一个典型样本。但是,目前各大高校对于学校大数据的利用不是很充分,仅仅利用到其中的一小部分。例如:很多高校开始使用校园一卡通产生的大数据分析学生日常的消费、上网、借阅等数据,从而改进学校的教学和管理。但是,对单一数据的利用不能全面的反应学生所存在的所有问题,从而为学校的精细化管理和决策提供依据。因此,如何充分利用学校产生的数据,从而为学校的精细化管理和决策提供依据是本领域技术人员亟需解决的问题。技术实现要素:有鉴于此,本发明提供了一种基于高校大数据的可视化综合分析系统,综合利用学校产生的各类数据,从多角度综合分析学生的成长轨迹,从而为学校的精细化管理和决策提供依据。为了实现上述目的,本发明采用如下技术方案:一种基于高校大数据的可视化综合分析系统,包括:构建模块、数据获取模块、数据抽取模块、数据预处理模块、存储模块、数据综合分析模块和可视化模块;构建模块,设计行为记录模型,所述行为记录模型为“主体-时间-宾语”结构;数据获取模块,获取日常管理和教学中的各类数据;数据抽取模块,对获取到的数据进行清洗、转换,将非结构化和半结构化的数据转为结构化的数据,并对结构化的数据进行消歧,得到抽取后的数据;数据预处理模块,基于行为记录模型,将抽取到的数据进行关联性组合,并保存;存模模块,采用hadoop+hdfs+mapreduce文件系统对经过数据预处理模块处理的数据进行统一存储,每日保存一套完整数据文件集,形成数据仓库;数据综合分析模块,基于存储模块形成的数据仓库,对数据进行聚类和预测,将对应的分析结果转换为数据报表,每日形成数据报表文件集;可视化模块,基于数据报表文件集及利用可视化工具建立大数据可视化平台。优选的,所述数据获取模块中收集的各类数据包括:一卡通系统数据、学生公寓系统数据、教务数据、党建数据、就业数据、信息中心数据和财务数据。优选的,所述可视化平台包括:可视化图表模块、分析报告模块、内容检索模块和权限管理模块;所述可视化图表模块,用于根据数据报表,利用可视化工具进行直观展示;所述分析报告模块,用于以文字方式呈现分析结果;所述内容检索模块,用于根据关键词检索分析结果;所述权限管理模块,用于根据用户的级别为客户提供不同的查看权限。优选的,还包括:与所述可视化模块相连的智能终端,供用户从智能终端上查看分析结果。优选的,所述数据综合分析模块采用k-means算法对数据进行聚类。优选的,还包括预警模块,所述预警模块用于根据分析结果对学生给予不同等级的预警提示。优选的,所述可视化模块采用javaweb的springmvc框架与echarts组件建立大数据可视化平台。经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于高校大数据的可视化综合分析系统,获取日常管理和教学中的各类数据,并对数据进行统一管理,再根据各类数据多维度综合分析学生的成长轨迹,实现学业预警、精准资助和就业推荐等目的,从而可以为学校对学生进行个性化与精准化的教育管理与引导提供重要依据。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本发明提供的一种基于高校大数据的可视化综合分析系统的示意图;图2为本发明提供的一种基于高校大数据的可视化综合分析系统的总体架构图;图3为本发明提供的可视化平台的示意图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。参见附图1和图2,本发明实施例公开了一种基于高校大数据的可视化综合分析系统,具体包括:构建模块、数据获取模块、数据抽取模块、数据预处理模块、存储模块、数据综合分析模块和可视化模块;构建模块,设计行为记录模型,行为记录模型为“主体-时间-行为”结构;其中,这里需要说明的是,主体主要指学生的姓名,时间和行为指某学生在某时间做了某件事,从大量数据中重点提取出这些信息即可,一方面进一步缩小了数据量,另一方面能够在数据预处理时,将不同格式的数据都处理成相同的格式,这样采用统一的数据接口即可进行后续的操作,更加节约数据接口。数据获取模块,获取日常管理和教学中的各类数据;在这里需要说明的是,各类数据包括但不限于:出勤率、迟到率、消费数据、上网数据、去图书馆的频率、借阅数据、进出学生公寓时间、智育成绩、德育成绩、体育成绩、作息规律、吃早餐次数等等。需要强调的是,其他未列举的数据主要是学生在学校生活和学习产生的数据都在本发明获取的范围内,不再一一列举。数据抽取模块,对获取到的数据进行清洗、转换,将非结构化和半结构化的数据转为结构化的数据,并对结构化的数据进行消歧,得到抽取后的数据;数据预处理模块,基于行为记录模型,将抽取到的数据进行关联性组合,并保存;其中,对本发明所涉及到的一些数据操作进行解释。(1)数据清洗:由于本发明中的数据来源于各类系统,各类系统所建设的时间不同,数据结构混乱,采集到的数据也包括已经离校的学生的数据,也有一些学生因为休学、缺考等不确定因素造成数据缺失,为了保证数据的完成性,本发明对数据进行清洗,剔除了这些冗余和部分缺失的数据;(2)数据转换:本发明采用统计学、聚类和分类的方法将数据进行压缩、泛化和规范化。例如:针对学生的一卡通消费数据,本发明采用统计方法将原始数据转换为学生每个月的月消费额、平均每天消费次数、学生消费时间段的频次等能反应学生消费水平和行为规律的数据形式。对于不同的数据进行了相应的数据转换,让数据更有意义;(3)数据消歧:经过对原始数据分析发现,由于数据分别来自不同的系统,所以有很多重复的数据属性,针对重复的数据属性,本发明进行消歧处理。另外,还有很多属性与本发明的目标挖掘无关。针对此类无关数据属性,本发明在预处理阶段根据行为记录模型进行剔除,从而达到降低数据维度的效果,同时,也为后续的处理减少了数据量。存模模块,采用hadoop+hdfs+mapreduce文件系统对经过数据预处理模块处理的数据进行统一存储,每日保存一套完整数据文件集,形成数据仓库;数据综合分析模块,基于存储模块形成的数据仓库,对数据进行聚类和预测,将对应的分析结果转换为数据报表,每日形成数据报表文件集;可视化模块,基于数据报表文件集及利用可视化工具建立大数据可视化平台。本发明公开提供了一种基于高校大数据的可视化综合分析系统,获取日常管理和教学中的各类数据,并对数据进行统一管理,再根据各类数据多维度综合分析学生的成长轨迹,实现学业预警、精准资助和就业推荐等目的,从而可以为学校对学生进行个性化与精准化的教育管理与引导提供重要依据。本发明一个重要的应用方面就是基于学生的成绩与学生的出勤、消费、上网、作息等数据及其相关性,实现对学生失联、沉迷上网、困难贫困生等方面进行预警,为学校的管理人员提供重要的信息,从而为学校的精细化管理和决策提供重要依据。通过本发明提供的系统,能够掌握学生的日常生活和行为轨迹,实时的了解学生的状态变化,并可以通过分析数据,提前为学生提供有效的学习、生活以及未来的职业规划建议,进一步提高学习管理及服务水平。例如:从学习方面,能够及时发现学生的学习、作息规律以及出勤的变化,及时查找变化原因,为学生提出合理的建议及帮助,提高学生的学习效果。从健康方面,可以及时关注学生的饮食习惯及消费状况,为学生提供精准的资助服务,保证学生的学习正常进行。本发明提供的大数据平台的构建借鉴了开源系统的先进理念,采用了hadoop开源系统,充分利用hdfs的可靠性,mapreduce的引入大大加强了平台在数据分析方面的弹性,使平台在可扩展性、可靠性、易用性和性能方面都有良好的表现。hadoop框架是一个开源的大规模数据处理平台和工具,主要来源于google公司提出的mapreduce编程框架,gfs文件系统以及bigtable存储系统等技术。hadoop具有庞大的家族体系,本平台的构建主要涉及到hadoop框架的分布式文件系统hdfs和mapreduce模型。分布式文件系统作为hadoop框架的底层,主要负责分析数据的分布式存储和管理,mapreduce模型主要是负责对大规模数据集进行计算处理。hadoop釆用hdfs文件系统子框架来实现其所具有的存储能力,用mapreduce编程模型框架来实现其计算能力,二者的巧妙结合使得hadoop拥有高效的存储和计算能力。为了进一步优化上述技术方案,数据获取模块中收集的各类数据包括:一卡通系统数据、学生公寓系统数据、教务数据、党建数据、就业数据、信息中心数据和财务数据。需要强调的是,其他未列举的数据主要是学生在学校生活和学习产生的数据都在本发明获取的范围内,不再一一列举。参见图3,为了进一步优化上述技术方案,可视化平台包括:可视化图表模块、分析报告模块、内容检索模块和权限管理模块;可视化图表模块,用于根据数据报表,利用可视化工具进行直观展示;通过报表展示工具将数据与美观的图标完美的结合在一起,使得分析结果更加直观、易懂。分析报告模块,用于以文字方式呈现分析结果;这部分主要提供针对学生的分析结果的文字说明。内容检索模块,用于根据关键词检索分析结果;权限管理模块,用于根据用户的级别为客户提供不同的查看权限。本发明提供的综合分析系统可以针对不同的用户设置不同的查看权限,对于学生仅可以查看自己的分析结果;对于辅导员老师或者其他学生管理老师来说,只能查看所管理的学生的分析结果;对于学院领导来说,可以查看该学院内所有学生的分析结果;对于校领导来讲,可以查看整个学校内所有学生的分析结果,以便不同的人群掌握相应的信息,进而采取不同的措施,来督促学生好好学习和生活。为了进一步优化上述技术方案,还包括:与可视化模块相连的智能终端,供用户从智能终端上查看分析结果。用户可以通过便携的智能终端,如:智能手机、平板电脑等设备来随时随地查看可视化模块。为了进一步优化上述技术方案,数据综合分析模块采用k-means算法对数据进行聚类。为了进一步优化上述技术方案,还包括预警模块,预警模块用于根据分析结果对学生给予不同等级的预警提示。如果通过分析发现学生出勤率比较低,超过某一阈值,可以判断出学生没有按时上课,根据分析结果对学生发出预警,同时,负责学生管理的老师也会查看到这一情况并采取相应的措施,来促进学生正常出勤。此外,这里还需要说明的是,在学生的行为进行分析的过程中需要相应的评价指标。例如:请参见表1,表1中示出了学生学习情况的评价指标,从多个维度评价学生的努力程度。表1学习情况评价指标指标名称类型取值范围备注课堂考勤率数值型0-1考勤次数/总出勤率加权平均成绩数值型1-100学生成绩的平均加权值挂科次数数值型1-30平均每学期挂科次数图书阅读量数值型1-100图书借阅数量图书馆出入次数数值型1-100平均每月出入图书馆的次数为了进一步优化上述技术方案,可视化模块采用javaweb的springmvc框架与echarts组件建立大数据可视化平台。本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1