一种基于教育大数据的分析方法与流程

文档序号:14609527发布日期:2018-06-05 20:31阅读:1190来源:国知局
一种基于教育大数据的分析方法与流程

本发明属于数据处理技术领域,具体涉及一种基于教育大数据的分析方法。



背景技术:

大数据领域近年来蓬勃发展,但是国内大数据在教育领域中的应用是近几年才开始出现的。自2013年起,我国掀起了教育大数据应用性研究的热潮。在教育部办公厅的《2014年教育信息化工作要点》中强调,要对动态监测、决策应用、教育预测等相关数据资源进行汇聚整合,为教育科学决策提供及时、准确和有效的数据支撑,并能共享全国的教育基础数据。

由此可见,教育大数据的研究与应用越来越受到教育管理者的重视,但目前关于教育大数据的研究与应用还处于开始阶段,研究主要停留在学习分析、个性化教学、教育数据挖掘、管理方式的改善等方面,缺乏整体规划和具体应用综合研究,并且存在数据标准不统一、数据采集覆盖面窄、模型构建专业性不足、数据分析效率不高等问题。因此,亟需一个系统化和高效率的教育大数据分析平台,为学生和教师以及教育管理者在学生成长监测、个性化教育、教育管理决策等方面提供智能化服务。



技术实现要素:

鉴于此,本发明的目的在于提供一种基于教育大数据的分析方法,以有效地改善上述问题。

本发明的实施例是这样实现的:

本发明实施例提供了一种基于教育大数据的分析方法,应用于分析设备,所述分析方法包括:获取数据源,其中,所述数据源是按照预设标准格式预处理过的数据源;识别所述数据源的类型,并将识别出的数据源存储到相对应的数据库;在需要对存储于数据库中的数据进行分析时,从所述数据库中提取待分析数据;基于所述待分析数据和预设数据分析模型获得分析结果。

在本发明较佳的实施例中,所述从所述数据库中提取待分析数据,包括:从所述数据库中提取用于表征学生和/或教师行为的音频数据、图像数据和文本数据;从所述音频数据、所述图像数据和/或所述文本数据中提取上课过程中表征学生行为的第一数据,作为待分析数据,所述第一数据包括:学习状态、兴趣调查问卷表、访问记录、回复/提问内容、回答问题的次数和/或作业完成情况;以及提取表征教师行为的第二数据,作为待分析数据,所述第二数据包括:讲课的方式、兴趣调查问卷表、访问记录、回复/提问内容、提问的次数、教学进度和/或作业的布置情况。

在本发明较佳的实施例中,所述基于所述待分析数据和预设数据分析模型获得分析结果之前,所述分析方法还包括:基于预设规则和样本构建所述预设数据分析模型,其中,所述预设数据分析模型包括:基于个人信息与兴趣偏好、知识模型和课堂状态中的至少一类属性所构建的学生模型和教师模型。

在本发明较佳的实施例中,所述样本为课程的学生成绩分析数据表,所述预设规则为决策树算法,所述基于预设规则和样本构建预设数据分析模型,包括:1)获取所述学生成绩分析数据表中的每个属性的信息增益率,共至少一个信息增益率;2)从所述至少一个信息增益率中选取最大信息增益率对应的属性作为根节点,并按其值划分数据集合,获得至少两个子数据集;3)对每个子数据集递归执行步骤1)、2),以构建学生成绩预测的第一决策树模型。

在本发明较佳的实施例中,所述样本为课程的学生活动基本数据表,所述预设规则为聚类分析算法;所述基于预设规则和样本构建预设数据分析模型,包括:1)将所述学生活动基本数据表中每个维度系数映射为多维空间的点,获得至少三个点,从所述至少三个点中随机选取3个聚类质心点;2)计算每个点到每个所述聚类质心点的欧氏距离,并按照预设规则对每个点进行分类,获得三个类别;3)将每个类别中的所有对象所对应的均值作为每个类别的聚类中心,计算与每个类别的聚类中心对应的目标函数的值;4)判断每个聚类中心和与之相对应的目标函数的值是否发生改变,若改变,则执行步骤2),以构建学生相似度划分的相似度分析模型。

在本发明较佳的实施例中,所述样本为课程的教师教学相关数据表,所述预设规则为决策树算法,所述基于预设规则和样本构建预设数据分析模型,包括:1)获取所述教师教学相关数据表中的每个属性的信息增益率,共至少一个信息增益率;2)从所述至少一个信息增益率中选取最大信息增益率对应的属性作为根节点,并按其值划分数据集合,获得至少两个子数据集;3)对每个子数据集递归执行步骤1)、2),以构建教师教学能力预测的第二决策树模型。

在本发明较佳的实施例中,所述基于所述待分析数据和预设数据分析模型获得分析结果,包括:基于所述第一数据和所述第一决策树模型,获得每个学生对应一课程的预测成绩。

在本发明较佳的实施例中,所述基于所述待分析数据和预设数据分析模型获得分析结果,包括:基于所述第一数据和所述相似度分析模型,获得按照相似度进行划分的分组结果。

在本发明较佳的实施例中,所述基于所述待分析数据和预设数据分析模型获得分析结果,包括:基于所述第二数据和所述第二决策树模型,获得教师教学能力预测结果。

在本发明较佳的实施例中,所述样本为学生的学生成长相关数据表,所述预设规则为回归算法,所述基于预设规则和样本构建预设数据分析模型,包括:基于所述回归算法和所述学生成长相关数据表构建学生成长评估模型。

本发明实施例提供的基于教育大数据的分析方法,在获得进行预处理过的教育大数据后,首先对获取到的数据进行识别,识别出该数据的类型,并将其存储到与之相对应的数据库中,进行统一保存管理,以便后续调用该数据;在需要对这些数据进行分析和统计时,从数据中提取待分析数据,在基于该数据和所需的预设数据分析模型获得所需的分析结果,以便根据该分析结果针对性的提供服务,从而提高学生学习以及老师教学的质量和效率,达到事半功倍的效果。

本发明的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明实施例而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。通过附图所示,本发明的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本发明的主旨。

图1示出了本发明实施例提供的一种分析设备的结构示意图。

图2示出了本发明实施例提供的一种基于教育大数据的分析方法的方法流程图。

图3示出了本发明实施例提供的图2中的步骤S103的方法流程图。

图4示出了本发明实施例提供的一种数据分析装置的模块示意图。

图5示出了本发明实施例提供的提取模块的模块示意图。

图6示出了本发明第一实施例提供的模型建立模块的模块示意图。

图7示出了本发明第二实施例提供的模型建立模块的模块示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中,需要说明的是,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

如图1所示,本发明实施例提供的一种基于教育大数据的分析设备100。该分析设备100包括:数据分析装置110、存储器120、存储控制器130和处理器140。

所述存储器120、存储控制器130、处理器140各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述数据分析装置110包括至少一个可以软件或固件(firmware)的形式存储于所述存储器120中或固化在所述分析设备100的操作系统(operating system,OS)中的软件功能模块。所述处理器140用于执行存储器120中存储的可执行模块,例如所述数据分析装置110包括的软件功能模块或计算机程序。

其中,存储器120可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器120用于存储程序,所述处理器140在接收到执行指令后,执行所述程序,后述本发明实施例任一实施例揭示的流程定义的分析设备100所执行的方法可以应用于处理器140中,或者由处理器140实现。

处理器140可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器140也可以是任何常规的处理器等。

第一实施例

请参阅图2,为本发明实施例提供的一种应用于上述基于教育大数据的分析设备100的分析方法,下面将结合图2对其所包含的步骤进行说明。

步骤S101:获取数据源。

获取到的数据源,可以是由多套采集设备所采集的数据以及人工导入的数据组成,由于经采集设备获取到的数据以及人工导入的数据是最基本的原始数据,不仅结构多样化而且还携带有很多冗余信息,因此需要对这行原始数据按照预设标准格式进行预处理,例如,对获取到的数据进行清洗,将结构多样、内容杂乱的数据清洗成统一标准格式的数据,并在清洗的过程中过滤掉冗余信息,使其满足使用需求,其中,在按照预设标准格式对这些数据进行清洗时,还将对应类型的数据打上分类标签,例如,当识别出该数据的类别为结构化类型时,便打上表征结构化类型的标签;当识别出该数据的类别为非结构化类型时,便打上表征非结构化类型的标签;当识别出该数据的类别为半结构化类型时,便打上表征半结构化类型的标签。也就是说,获取到的数据源是按照预设标准格式预处理过的数据源。

其中,预设标准格式可以根据实际使用需求来设定,例如,可以是结构化、非结构化以及半结构化的标准格式。

其中,为了使采集的数据全面,即涉及学生和教师行为的方方面面,上述中的每套采集设备均是由构架于一个网络体系中的多个元器件构成的。例如,每套采集设备包括多个元器件,例如包括:摄像头、电子白板与激光笔、投影仪与激光笔、触摸屏、麦克风阵列等仪器等,以及一些辅助设备,例如,智能手机、个人电脑、笔记本电脑、平板电脑、智能手环等设备。

S102:识别所述数据源的类型,并将识别出的数据源存储到相对应的数据库。

在获得数据源后,对这行数据源的类型进行识别,作为一种实施方式,可以识别该数据中的分类标签的类型,并将识别出的数据源存储到相对应的数据库,其中,所述数据库包括:Hadoop数据库、Mysql数据库和Nosql数据库。也就是说,将识别出的非结构化类型的数据存储到Hadoop数据库,将识别出的结构化类型的数据存储到Mysql数据库,将识别出的半结构化类型的数据存储到Nosql数据库。

步骤S103:从所述数据库中提取待分析数据。

在需要对存储于数据库中的数据进行分析时,需要从数据库中提取出待分析的数据,例如,需要对学生的成长进行评估时,则从数据库中提取与学生成长相关的数据,如基于学生的学习成绩、出入图书馆情况、教师或学生评语、是否担任班级或学校干部、参加班级或校园活动情况、社会实践创新能力、校园卡消费情况等数据。再例如,需要完善高校专业课程设置的问题时,则从数据库中提取与专业课程相关的数据,如基于专业的报考人数、学生的学习绩效数据(各种考试成绩、课程设计以及参加的各种专业竞赛等情况)、学生的课程评价、课程是否设置实践环节、学院是否举办校企合作、学生的就业率以及就业方向、企业关于学生的反馈信息、当前的就业形势以及互联网发展现状等数据。作为一种可选的实施方式,如图3所示,下面将结合图3对这一过程进行说明。

步骤S201:从所述数据库中提取用于表征学生和/或教师行为的音频数据、图像数据和文本数据。

在需要对存储于数据库中的数据进行分析时,例如,当需要对学生和/或教师进行分析时,从数据库中提取用于表征学生和/或教师行为的数据,由于表征学生和/或教师行为的数据可以是音频数据、图像数据和文本数据中的任意一种,因此本实施例中,从数据库中提取用于表征学生和/或教师行为的音频数据、图像数据和文本数据,以使获得数据更加全面。

其中,本实施例中仅以表征学生和/或教师行为的数据进行举例说明,可以理解的是,表征学生和/或教师行为的数据仅仅只是教育大数据中的一小部分,教育大数据远不止这些,因此不能将其理解成是对本发明的限制。

步骤S202:从所述音频数据、所述图像数据和/或所述文本数据中提取上课过程中表征学生行为的第一数据,作为待分析数据,以及提取表征教师行为的第二数据,作为待分析数据。

在获得表征学生和/或教师行为的数据后,通过相关算法提取表征教师行为和/或学生行为的行为数据,例如,通过一些匹配算法对摄像头所采集到的教室中的学生的动作行为,例如,坐姿、举手、走路的姿态等动作进行处理,便可以知道该学生上课时的注意力集中度,是否睡觉,有无举手,期间有无离开等数据。同理,也可以对通过摄像头、麦克风等获取的行为数据进行处理,便可以知道该教师在上课时是否有提问,教学进度,作业的布置情况及讲解情况等数据。在获得行为数据中,从中提取上课过程中表征学生行为的第一数据,作为待分析数据,其中,所述第一数据包括:学习状态、兴趣调查问卷表、访问记录、回复/提问内容、回答问题的次数和/或作业完成情况;以及提取表征教师行为的第二数据,作为待分析数据,所述第二数据包括:讲课的方式、兴趣调查问卷表、访问记录、回复/提问内容、提问的次数、教学进度和/或作业的布置情况。

步骤S104:基于所述待分析数据和预设数据分析模型获得分析结果。

针对不同的分析需求,选取不同的待分析数据和不同的预设数据分析模型即可获得需要的分析结果。例如,基于学生成绩分析数据表和预设的第一决策树模型,即可获得每个学生对应某一课程的预测成绩;又例如,基于学生活动基本数据表和预设的相似度分析模型,即可获得将每个学生按照一定相似度进行划分的分组结果;又例如,基于教师教学相关数据表和预设的第二决策树模型,即可获得每个教师的教学能力预测结果。同时,在对待分析数据进行分析的过程中,也可以不断的对与之对应的预设数据分析模型进行学习,以提高识别的准确率。

其中,可以理解的是,上面所示出的仅仅是针对学生和/或教师行为的待分析数据以及基于学生和/或教师行为的预设数据分析模型,而待分析数据远不止这些,而预设的数据分析模型是根据不同的分析需求进行建模的,因此,针对不同的分析需求,选取的待分析数据和预设数据分析模型是不同的,上述实例仅仅是为了使其易于理解,而不应将其理解成是对本发明的限制。

其中,上述中的第一决策树模型、相似度分析模型和第二决策树模型都属于预设数据分析模型,该预设数据分析模型远不止这三类,根据不同的需求,可以构建不同的分析模型。

其中,只有先建立适当的模型,才能对教学中的行为数据进行合理地数据分析,进而为学习者和教师提供有针对性的服务。在构建预设数据分析模型时,作为一种可选的实施方式,可以基于这样一种思路进行,根据目前教育部教育信息化技术标准研究委员会制定的网络学习者模型标准CELTS-11,将学习者分为八类:个人信息、学业信息、管理信息、关系信息、安全信息、偏好信息、绩效信息和作品集信息。这些特征信息包含静态和动态信息,涉及人口学特征、教学、管理及安全等所有内容。基于建模视角和目的的不同,学习者模型构建方法多种多样,本实施例中,可选地,基于预设规则和样本构建所述预设数据分析模型,其中,所述预设数据分析模型包括:基于个人信息与兴趣偏好、知识模型和课堂状态中的至少一类属性所构建的学生模型和教师模型。

其中,个人信息属于静态信息,学生和教师的个人信息主要包括个人的身份信息及与教学相关的信息,包括姓名、年龄、性别、地域、专业、学历层次等,是基本稳定的用户属性,是开展个性化教学的必要基础,比如年龄、性别、专业可作为课堂小组学习分组的重要指标,学历层次在一定程度上反映了学生的学前知识水平和教师的教学水平。

其中,兴趣偏好实际上是潜藏在人们内心的对某一事物或行为方式的一种情感和倾向,在教学活动中具体表现为教师的教学策略或学生的学习风格,它由初始数据和动态数据组成。初始数据是在用户进行系统注册时通过调查表单确定的,由教师或学生选择自己感兴趣的话题、知识点、人物,偏好的媒体类型、资源形式等。动态数据是在用户的整个教学过程中不断演化的,在后续的教学过程中,教师的教学行为和学生的学习行为(如:教师与学生交流讨论所涉及到的知识点、学生对某一知识点的访问次数、检索查询所使用的关键字等)数据被系统的采集模块不断地记录和积累,通过大数据分析技术可以获取教师和学生兴趣偏好的动态数据。

其中,知识模型是用户的领域知识水平,反映的是教师的教学绩效信息和学生的学习绩效信息,由课程目标、初始知识水平、动态知识水平三部分组成。初始知识水平表示的是教师或学生在该领域已掌握的知识内容,可以通过教学前的诊断性测试来确定。动态知识水平在整个教学过程中不断进化,通过大数据分析技术对采集设备采集到的数据(如:学生的单元测试结果、作业得分与评价、课程考试成绩等,教师的教学任务完成度、所教学生的学科成绩、课题研究成果等)进行分析,更新教师和学生已具备的知识水平。

其中,课堂状态反映的是教师和学生在整个课堂教学过程中的瞬时状态变化,通过大数据分析处理技术对采集设备实时采集到的数据(如:学生的面部表情变化、生理特征变化、举止动作、回答问题的频率,教师的提问次数、课堂秩序监督控制情况、教学设备操作频率等)进行分析并总结出当时的课堂状态。

其中,为了便于理解上述中的基于预设规则和样本构建所述预设数据分析模型的过程,下面结合具体例子,对这一过程进行进一步说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。作为一种实施方式,基于决策树算法,构建学生模型,选取表1所示的与成绩相关性较大的性别、专业、是否感兴趣、初始知识水平、上课回答问题的次数、随堂测试成绩、课程成绩七个属性作为成绩预测决策树模型的依据。

表1

假设该表1收集了《教育学原理》这门课程中500名学生的成绩信息,来建立第一决策树模型,其中80%的数据作为训练集,20%的数据作为测试集。表中感兴趣程度分为:一般、感兴趣、非常感兴趣;初始知识水平通过教学前的水平测试,并将成绩通过离散化处理将学生划分为A、B、C三个等级;上课回答问题的次数为每节课回答问题的次数,经过离散化处理后分为:不回答问题为0,回答问题的次数为1-2次和回答问题的次数为>2次;随堂测试的成绩和课程成绩同样经过离散化处理分为:不及格、及格、良好、优秀四个等级。

基于表1中的样本数据,应用决策树算法(例如,C4.5算法),构建第一决策树模型,其步骤如下:

1)获取所述学生成绩分析数据表中的每个属性的信息增益率,共至少一个信息增益率;

2)从所述至少一个信息增益率中选取最大信息增益率对应的属性作为根节点,并按其值划分数据集合,获得至少两个子数据集;

3)对每个子数据集递归执行步骤1)、2),以构建学生成绩预测的第一决策树模型。

通过以上步骤,就建立了学生成绩预测的第一决策树模型。通过训练集的模型训练,就能预测测试集中学生的课程成绩到底是属于不及格、及格、良好还是优秀。如果预测出某学生的课程成绩可能不及格,就要分析导致该学生成绩不及格的因素,如:对这门课的兴趣度不高、初始知识水平不够或是上课不够积极,如果是兴趣度不高,服务模块便可以根据该学生的兴趣偏好将教学内容以不同的媒体形式呈现以提高学生对课程的兴趣度。如果是该学生初始知识水平不够,服务模块则可以降低教学内容的难度,制定一条适合该学生的学习路径。如果是学生上课不够专心,经常开小差则可以通过教师适当地进行监督管控。

其中,还可以基于课程的教师教学相关数据表,应用决策树算法(例如,C4.5算法),构建预测教师教学能力的第二决策树模型第二决策树模型,以预测教师的教学能力,其步骤与第一决策树模型的构建方式相同,此处不再一一举例说明。

其中,可以理解的是,上述涉及到七个属性只是与学生学习成绩相关性较大的属性,而基于教育大数据可获取的数据远不仅于此。此外上述提到的机器学习算法C4.5只是本发明分析设备基于大数据分析模型中的一种,其他的数据分析模型如:神经网络、SVM、关联规则等针对具体的应用场景采用相应的分析模型。

其中,最为一种实施方式,还可以是基于采集设备所采集的数据,构建学生模型,选取表2所示的与学生活动相关性较大的学生应答次数、主动提问次数、与同学讨论次数、做练习时长、观看媒体演示时长、使用多媒体设备与老师交互次数,课堂小测验成绩、自己阅读资料时长八个维度作为评定教学策略的依据。

表2

假设该表2收集了《数字化教学资源设计》这门课中400名学生的课堂活动信息,来建立相似度分类模型。数据真实地反映出课堂中学生丰富的行为活动,通过分析学生在教学中参与教学、与教师互动、与同伴互动、如何使用技术和多媒体的行为表现,针对不同类别的学生,采用相应的教学方式。将八个维度的数据通过离散化处理,学生应答次数分为:0次、1-3次、大于3次;主动提问次数分为:0次、1-3次、大于3次;与同学讨论次数分为:0次、1-3次、大于3次;使用多媒体设备与老师交互次数分为:0次、1-3次、大于3次;做练习时长分为:0分钟、5-10分钟、大于10分钟;观看媒体演示时长分为:0分钟、5-10分钟、大于10分钟;自己阅读资料时长分为:0分钟、5-10分钟、大于10分钟;课堂小测验成绩分为A、B、C、D。

基于表2中的样本数据,应用聚类分析算法(例如,k-means算法)构建相似度分析模型,将学生数据集划分为若干类,使得类内之间的数据最为相似,各类之间的数据相似度差别尽可能大。(聚类分析就是以相似性为基础,对数据集进行聚类划分,属于无监督学习)其步骤如下:

1)将所述学生活动基本数据表中每个维度系数映射为多维空间的点,获得至少三个点,从所述至少三个点中随机选取3个聚类质心点;

2)计算每个点到每个所述聚类质心点的欧氏距离,并按照预设规则对每个点进行分类,获得三个类别;

3)将每个类别中的所有对象所对应的均值作为每个类别的聚类中心,计算与每个类别的聚类中心对应的目标函数的值;

4)判断每个聚类中心和与之相对应的目标函数的值是否发生改变,若改变,则执行步骤2),若不变,则输出结果,以构建学生相似度划分的相似度分析模型。

通过以上步骤,就建立了学生根据活动情况的相似度分类模型。通过对数据集进行运算,就能得到三个学生分组。对于不同组的学生,采用不同的教学策略和方法,提高学生对课程的兴趣度,提升学习效率,进而可以提高学生成绩。对于性格以及学习方法不同的学生,引导不同的学习路径。

其中,上述涉及到八个属性只是与学生活动行为比较有代表性的属性,而采集设备采集的数据远不仅于此。此外上述提到的机器学习算法k-means只是本实施例分析设备基于大数据分析模型中的一种,其他的数据分析模型如:贝叶斯网络、逻辑回归等针对具体的应用场景采用相应的分析模型。

可以理解的是,上述所示例的第一决策树模型和相似度分析模型仅仅是分析设备基于大数据分析模型中的2种模型,而预设的数据分析模型远不止这两种,例如,还可以是基于课程的教师教学相关数据表,构建预测教师教学能力的第二决策树模型;还可以是基于学生的学习成绩、出入图书馆情况、教师或学生评语、是否担任班级或学校干部、参加班级或校园活动情况、社会实践创新能力、校园卡消费情况等属性构建的学生成长相关数据表,结合回归算法构建学生成长评估模型;以及基于专业的报考人数、学生的学习绩效数据(各种考试成绩、课程设计以及参加的各种专业竞赛等情况)、学生的课程评价、课程是否设置实践环节、学院是否举办校企合作、学生的就业率以及就业方向、企业关于学生的反馈信息、当前的就业形势以及互联网发展现状等属性构建专业课程设置问题模型;以及针对学生教师管理、教学科研管理、资产财务管理、招生就业管理、校园安全管理等日常业务管理需要,构件教育管理业务问题模型和教育管理业务决策模型等;亦或者,针对教育发展和教育管理业务中的若干问题,构建教育宏观政策决策模型其中,教育宏观政策决策模型包括教育质量与均衡问题,教育突出问题,教育政策评估等方面;因此不能将其理解成是对本发明的限制。

第二实施例

本发明实施例还提供了一种数据分析装置110,如图4所示。该数据分析装置110包括:获取模块111、识别模块112、提取模块113、分析模块114和模型建立模块115。

所述获取模块111,用于获取数据源,其中,所述数据源是按照预设标准格式预处理过的数据源。

所述识别模块112,用于识别所述数据源的类型,并将识别出的数据源存储到相对应的数据库。

所述提取模块113,用于在需要对存储于数据库中的数据进行分析时,从所述数据库中提取待分析数据。进一步地,如图5所示,该提取模块113包括:数据提取子模块1131和特征提取子模块1132。

所述数据提取子模块1131,用于从所述数据库中提取用于表征学生和/或教师行为的音频数据、图像数据和文本数据。

所述特征提取子模块1132,用于从所述音频数据、所述图像数据和/或所述文本数据中提取上课过程中表征学生行为的第一数据,作为待分析数据,所述第一数据包括:学习状态、兴趣调查问卷表、访问记录、回复/提问内容、回答问题的次数和/或作业完成情况;以及提取表征教师行为的第二数据,作为待分析数据,所述第二数据包括:讲课的方式、兴趣调查问卷表、访问记录、回复/提问内容、提问的次数、教学进度和/或作业的布置情况。

所述分析模块114,用于所述基于所述待分析数据和预设数据分析模型获得分析结果。

所述模型建立模块115,用于基于预设规则和样本构建所述预设数据分析模型,其中,所述预设数据分析模型包括:基于个人信息与兴趣偏好、知识模型和课堂状态中的至少一类属性所构建的学生模型和教师模型。其中,作为一种实施方式,当所述样本为课程的学生成绩分析数据表,所述预设规则为决策树算法时,优选地,如图6所示,所述模型建立模块115包括:获取子模块1151、划分子模块1152和递归子模块1153。

所述获取子模块1151,用于获取所述学生成绩分析数据表中的每个属性的信息增益率,共至少一个信息增益率。

所述划分子模块1152,用于从所述至少一个信息增益率中选取最大信息增益率对应的属性作为根节点,并按其值划分数据集合,获得至少两个子数据集。

所述递归子模块1153,用于使所述获取单元对每个子数据集执行步骤所述获取所述学生成绩分析数据表中的每个属性的信息增益率,共至少一个信息增益率;以及使所述划分单元对每个子数据集执行步骤从所述至少一个信息增益率中选取最大信息增益率对应的属性作为根节点,并按其值划分数据集合,获得至少两个子数据集,以构建学生成绩预测的第一决策树模型。

作为另一种实施方式,当所述样本为课程的学生活动基本数据表,所述预设规则为聚类分析算法时,如图7所示,所述模型建立模块115包括:选取子模块1151、第一计算子模块1152、第二计算子模块1153和判断子模块1154。

所述选取子模块1151,用于将所述学生活动基本数据表中每个维度系数映射为多维空间的点,获得至少三个点,从所述至少三个点中随机选取3个聚类质心点;

所述第一计算子模块1152,用于计算每个点到每个所述聚类质心点的欧氏距离,并按照预设规则对每个点进行分类,获得三个类别;

所述第二计算子模块1153,用于将每个类别中的所有对象所对应的均值作为每个类别的聚类中心,计算与每个类别的聚类中心对应的目标函数的值;

所述判断子模块1154,用于判断每个聚类中心和与之相对应的目标函数的值是否发生改变,若改变,则执行步骤所述计算每个点到每个所述聚类质心点的欧氏距离,并按照预设规则对每个点进行分类,获得三个类别,以构建学生相似度划分的相似度分析模型。

需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

本发明实施例所提供的数据分析装置110,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1