基于校园数据的学生排名预测方法

文档序号:10535470阅读:284来源:国知局
基于校园数据的学生排名预测方法
【专利摘要】本发明公开了一种基于校园数据的学生排名预测方法,采集所有在校学生的数据,包括成绩数据和行为数据,对学生数据进行数据清洗,并对非时间数据项进行数据规范,从处理后的数据提取出每个学生的行为特征向量,行为特征包括成绩特征、努力程度特征和生活规律特征,然后对行为特征向量进行降维,每个学生采用其降维后的行为特征向量减去其他每个学生的行为特征向量,求得差异特征向量,输入分类器中得到对应的标签值,将标签值求和得到学生的得分,将所有学生的得分进行排序,即可得到每个学生的排名预测值。本发明通过对学生的校园数据进行分析,用数据来描述学生的学习习惯和行为特征,预测得到学生排名,作为学生教育的参考。
【专利说明】
基于校园数据的学生排名预测方法
技术领域
[0001 ]本发明属于大数据分析挖掘技术领域,更为具体地讲,涉及一种基于校园数据的 学生排名预测方法。
【背景技术】
[0002] 如何了解学生心理、掌握学生异常行为、预测学生学习状况和提供个性化辅导,已 经成为不少高校面临的问题与挑战。近年来,伴随着以"数据和计算"为驱动的科技革命,大 数据成为互联网信息技术行业的重要影响因素。如何将大数据引入教育领域,作为推动教 育变革、引领教育创新的强劲助力,成为新的研究方向。但是目前,由于学生行为难以量化 等问题,在教育领域进行大数据的应用还处在研究阶段,尚未出现有效的应用方式。

【发明内容】

[0003] 本发明的目的在于克服现有技术的不足,提供一种基于校园数据的学生排名预测 方法,通过对学生的校园数据进行分析,用数据来描述学生的学习习惯和行为特征,预测得 到学生排名,作为学生教育的参考。
[0004] 为实现上述发明目的,本发明基于校园数据的学生排名预测方法包括以下步骤:
[0005] S1:采集所有在校学生的数据,包括成绩数据和行为数据,其中成绩数据包括学生 的所有课程的课程类型、学分数、成绩,行为数据包括学生在校园内各个地点使用校园一卡 通的记录;
[0006] S2:对采集到的学生数据进行数据清洗;
[0007] S3:对清洗完成的学生数据中的非时间数据项,采用以下方法进行数据规范:
[0008] 记第i个学生的第j项非时间数据为Xij,i = 1,2,…,N,N表示学生数量,j = 1,2,…, M,M表示非时间数据项数量;求取每个数据xij的线性变换值x'j,计算公式为:
[0010]其中,max」表示第j项数据序列中的最大值,min」表示第j项数据序列中的最小值, L_max表示第j项数据序列限定区间的上限,表示第j项数据序列限定区间的下限;
[0011]对线性变换后的数据V u,根据以下公式计算规范数据值:
[0013] 其中為表示第j项数据序列的平均值,s谦示第j项数据序列的方差;
[0014] S4:从学生数据中提取每个学生的行为特征向量,行为特征包括成绩特征、努力程 度特征和生活规律特征,其中成绩特征包括学生所有课程的课程类型、学分数、成绩,努力 程度特征是学生进入学习相关地点的频次,生活规律特征是学生的生活规律度量值,由以 上数据项构成学生的行为特征向量;
[0015] S5:对步骤S4提取到的行为特征向量进行降维,得到降维后每个学生的行为特征 向量;
[0016] S6:对第i个学生,采用其行为特征向量减去其他每个学生的行为特征向量,得到 N-1个差异特征向量,将差异特征向量输入预先训练好的分类器,得到对应的N-1个标签,标 签值为1或-1,将学生的所有标签值求和,得到该学生的得分,将所有学生的得分进行排序, 从而得到学生的排名预测值;
[0017] 其中,分类器的训练方法为:对具有历史排名的学生,搜集得到这些学生的数据, 根据步骤S1至步骤S5的方法得到这些学生的行为特征向量,然后两两求得学生之间的差异 特征向量;对于一个差异特征向量,如果被减特征向量所对应的学生排名较前,则该差异特 征向量所对应的标签为1,否则为-1;将这些差异特征向量作为分类器的输入,对应的标签 作为输出,对分类器进行训练。
[0018] 本发明基于校园数据的学生排名预测方法,采集所有在校学生的数据,包括成绩 数据和行为数据,对学生数据进行数据清洗,并对非时间数据项进行数据规范,从处理后的 数据提取出每个学生的行为特征向量,行为特征包括成绩特征、努力程度特征和生活规律 特征,然后对行为特征向量进行降维,每个学生采用其降维后的行为特征向量减去其他每 个学生的行为特征向量,求得差异特征向量,输入分类器中得到对应的标签值,将标签值求 和得到学生的得分,将所有学生的得分进行排序,即可得到每个学生的排名预测值。
[0019] 本发明针对学生在校园中的学习行为数据进行深度分析,对学生个体的基本信 息、学习、生活情况进行精准的量化描述,预测学生个体的排名,为相关职能部门的,为相关 职能部门教学管理以及日常辅导工作提供定量化决策依据,从而有效释放学生数据的价 值。
【附图说明】
[0020] 图1是本发明基于校园数据的学生排名预测方法的流程图;
[0021] 图2是行为特征数据降维的流程图。
【具体实施方式】
[0022] 下面结合附图对本发明的【具体实施方式】进行描述,以便本领域的技术人员更好地 理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许 会淡化本发明的主要内容时,这些描述在这里将被忽略。
[0023] 实施例
[0024]图1是本发明基于校园数据的学生排名预测方法的流程图。如图1所示,本发明基 于校园数据的学生排名预测方法包括以下步骤:
[0025] S101:学生数据采集:
[0026]首先要采集所有在校学生的数据,学生数据源自于学校的各个职能部门,具有异 质的结构,包含了从结构化的学生基本信息数据到时间序列化的学生校园生活轨迹。学生 数据包括成绩数据和行为数据,其中成绩数据包括学生的所有课程的课程类型、学分数和 成绩,及成绩各个组成部分的情况(如平时成绩、期中成绩等),行为数据包括学生在校园内 各个地点使用校园一卡通的记录,例如学生在超市、食堂以及教室打水的消费记录,包括消 费时间和金额;出入图书馆、宿舍门禁的记录;借书记录,包括图书信息和借阅时间。表1是 学生数据的来源与内容示例。
[0028] 表 1
[0029] S102:数据清洗:
[0030] 在采集到所有学生数据后,需要对采集到的原始数据进行数据清洗。本发明中由 于学生数据来自多个业务系统而且包含大量历史数据,常常会出现重复值、缺失值等,因此 需要进行数据清洗。数据清洗的任务是过滤那些不符合要求的数据,修正之后再写入数据 仓库。清洗的对象主要包括数据中的重复值、缺失值、不一致数据等等,数据清洗是大数据 领域的常用手段,其具体过程在此不再赘述。
[0031] S103:数据规范化:
[0032] 对于清洗完成的学生数据,由于每项数据的属性不同,通常具有不同的量纲和数 量级。一般而言,用较小的单位表示属性将导致该属性具有较大值域,因此趋向于使这样的 属性具有较大的影响或较高的"权重"。为了避免对度量单位选择的依赖性,保证结果的可 靠性,需要对原始数据中除了时间数据以外其他数据项进行规范化处理。
[0033]数据规范化指的是将数据按比例缩放,使之落入一个小的特定区间。这种方式在 某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯 数值,便于不同单位或量级的指标能够进行比较和加权。本发明中,数据规范化的包括以下 两个步骤:
[0034] ?线性变换:
[0035]记第i个学生的第j项非时间数据为xij,i = 1,2,…,N,N表示学生数量,j = 1,2,…, M,M表示非时间数据项数量。对每个数据,分别按照以下公式求取线性变换值
[0037]其中,max」表示第j项数据序列中的最大值,min」表示第j项数据序列中的最小值, Tj_max表示第j项数据序列限定区间的上限,表示第j项数据序列限定区间的下限。第j 项数据序列就是所有学生的第j项数据组成的序列。可见,通过上式,将第j项数据序列中原 本在区间[m i nj,maxj ]的值统一映射到了 [ Tj_min,Tj_max ]上。
[0038]假设第j项数据序列为[1,2,1,4,3,2,5,6,2,7],取值区间为[1,7],其限定区间为 [0,1],那么线性变换后的数据序列为[0,0.16,0,0.5,0.33,0.16,0.66,0.83,0.16,1]。 [0039] ?数值规范:
[0040]将线性变换后的数据基于数据的均值和标准差进行数值规范化。对线性变换后的 数据V &根据以下公式计算规范数据值:
[0042]其中,%表示第j项数据序列的平均值
,&表示第j项数据序列的方 差
[0043]数值规范化后的每项数据序列均值为0,方差为1,且无量纲,序列中的字段值围绕 〇上下波动,大于〇说明高于平均水平,小于〇说明低于平均水平。
[0044] 通过以上两个步骤不仅能够将数据映射到统一的区间,并且有效地消除了超出取 值范围的离群数据对数据整体分布的影响。
[0045] S104:提取行为特征向量:
[0046] 完成数据规范化的工作之后,需要数据中提取学习行为特征。本发明中所需要每 个学生的行为特征分为三部分:成绩特征、努力程度特征和生活规律特征。成绩特征包括学 生所有课程的课程类型、学分数、成绩。努力程度特征统计了进入学习相关地点的频次,包 括进入图书馆次数、教室打卡次数、打印次数、借书次数等,以此来描述学生的学习努力程 度和主动学习意愿。生活规律特征是学生的生活规律度量值,是通过分析学生在不同地点 的刷卡时间来刻画其生活作息的规律性。
[0047]本实施例中,生活规律度量值的计算方法为:首先根据每个学生的学生数据中对 预设的若干个地点(一般为食堂、宿舍、教室)的访问情况,计算得到预定时间段内该学生对 这些地点的访问概率,然后根据访问概率计算得到香农熵,该香农熵即为学生的生活规律 度量值。
[0048]香农熵(Shannon Entropy)表达了一个离散型变量所带来的平均信息量,可以用 于表征生活规律性,其计算公式为:
[0049] Mi{z) = -YJPl,(z)\〇g2P:r{z)
[0050] 其中,IMz)表示第i个学生的香农熵,Plf(z)表示第i个学生访问第f个地点的访问 概率,f = 1,2,…,F,F表示地点数量。
[0051]例如,当计算得到一个学生分别在食堂、宿舍、教室这三个地点的访问概率分别是 0.3、0.3、0.4时,计算得到香农熵Hi (Z) = 1.572。另一个学生访问三个地点的概率分别是 0.1、0.6、0.2时,计算得到出(2) = 1.24。后者的香农熵更小,体现出了更强的行为规律性 (出入宿舍的概率更高)。对于一个概率分布,当概率集中于较少的某几个取值时(绝大多数 情况下变量会取少数的几个值之一),香农熵的值会较低,相反地,如果概率在各种取值上 比较平均(几乎无法判断变量会取哪个值),那么香农熵会较高。因此可以看出,学生对地点 访问的时间越集中,那么熵就会越小,生活规律性就越强。
[0052] 计算对各个地点的访问概率可以采用学生数据进行统计,也可以采用密度估计的 方式来得到,具体方法可以根据需要来设置。针对本发明中学生数据量大的特点,提出了一 种访问概率计算方法,其具体过程如下:
[0053] 对预定时间段进行时间区间细分,从学生数据中抽取学生对每类地点的访问时 间,投影到细分时间区间,统计每类地点在每个细分时间区间内的访问次数,然后采用密度 估计函数估计得到每个细分时间区间内对该类地点的访问概率,然后积分得到预设时间段 对该类地点的访问概率。密度估计函数可以根据实际需要进行选择,本实施例中所采用的 密度估计函数表达式为:
[0055]其中,Plfv(z)表示第i个学生在第v个细分时间区间内访问第f个地点的访问概率, v=l,2,…,V,V表示细分时间区间的数量。zlfv表示第i个学生在第v个细分时间区间内访问 第f个地点的访问次数。G lf表示第i个学生在预定时间段内访问第f个地点的总访问次数,即 %. =H1%V jlf表示第i个学生在访问第f?个地点对应的密度估计带宽值,其其经验公式 为:
[0057] 其中〇if表示V个访问次数zifv的标准差。
[0058]然后对Vfplfv(z)进行积分,就可以得到预定时间段内第i个学生访问第f个地点 的访问概率Pif(z)。
[0059] S105:行为特征数据降维:
[0060]在提取学生特征之后,由于特征项较多,因此需要对数据进行降维处理,,数据降 维可以降低计算的复杂性,减少相关性导致的信息量的缺失,对于海量数据的特征提取有 着重要的意义。数据降维的方法有许多,可以根据实际需要来选择,本实施例中针对本发明 的应用场景的特征,设计出了一种降维方法,通过降维把多指标转化为少数几个综合指标, 从而使降维后的特征数据所涵盖的信息更为全面。
[0061]图2是行为特征数据降维的流程图。如图2所示,特征数据降维包括以下步骤:
[0062] S201:构建行为特征矩阵:
[0063]记第i个学生的行为特征向量为,…,blD}T,D表示特征项数,将所有学 生的行为特征数据组成大小为DXN的行为特征矩阵U,显然矩阵U中,第i列即为m,上标T表 示转置。
[0064] S202:求取协方差矩阵:
[0065] 求取行为特征矩阵U的协方差矩阵C。
[0066] S203:求取协方差矩阵的特征矩阵:
[0067]求取协方差矩阵C的特征值以及对应的特征向量,然后按照对应特征值从大到小 将特征向量从上到下按行排列成矩阵,取前K行组成特征向量矩阵P,K的数值根据实际需要 进行设置。
[0068] S204:计算降维后行为特征矩阵:
[0069]计算降维后学生的行为特征矩阵Q = PU,矩阵Q中第i列即为经过降维后第i个学生 的行为特征向量V i。
[0070] 显然矩阵Q的行数即为K,步骤S203中K越大,得到的矩阵Q越能体现行为特征,但是 后续计算的复杂度也会增大。一般设置K的取值范围关
[0071] 假设10个学生的行为特征向量所构建的行为特征矩阵H如下: "2.5 0.5 2.2 1.9 3.1 2.3 2 1 1.5 1.1"
[0072] H = 2.4 0.7 2.9 2.2 3 2,1 1.6 1,1 1.6 0,9
[0073] 可见,每个学生的行为特征向量中包含两个特征项。
[0074]求得协方差矩阵C如下: "0.616555556 0.615444444'
[0075] C = 0.615444444 0.716555556_
[0076] 求得协方差矩阵C的特征值A和对应的特征向量a分别为:
[0077] Ai = 0.490833989, ax = [-0. 735178656,0.677873399]
[0078] 人 2= 1 ? 28402771,a2= [-0 ? 677873399,-0 ? 735178656]
[0079] 然后选择最大的1个特征值人2对应的特征向量作为列向量组成特征向量矩阵,那 么特征向量矩阵P= [-0.677873399,-0.735178656]。计算得到降维后学生的行为特征矩阵 Q = PU,BP:
[0080] Q=[-0.8280,1.7776,-0.9922,-0.2742,-1.6758,-0.9129,0.0991,1.1446, 0.4380,1.2238]
[0081] 矩阵Q中每个数值都取小数点后四位。
[0082] S106:学生排名预测:
[0083]通过步骤S101至S105,从海量的学生数据中提取出了每个学生的行为特征向量, 就可以通过学生的行为特征向量来进行排名预测了。本发明中排名预测的具体方法为:
[0084] 对第i个学生,采用其行为特征向量减去其他每个学生的行为特征向量,得到N-1 个差异特征向量,将差异特征向量输入预先训练好的分类器,得到对应的N-1个标签,标签 值为1或-1,将学生的所有标签值求和,得到该学生的得分,将所有学生的得分进行排序,从 而得到学生的排名预测值。
[0085] 其中,分类器是通过具有历史排名的学生数据来训练得到的,训练方法为:对具有 历史排名的学生,搜集这些学生的数据,根据步骤S101至步骤S105的方法得到这些学生的 行为特征向量,然后两两求得学生之间的差异特征向量。对于一个差异特征向量,如果被减 特征向量所对应的学生排名较前,则该差异特征向量所对应的标签为1,否则为-1;将这些 差异特征向量作为分类器的输入,对应的标签作为输出,对分类器进行训练。
[0086] 根据以上描述可以看出,本发明是采用了两两比较的方法来刻画两个人的差异。 把任意两个人的每个行为特征向量进行相减,作为一个新的特征向量。例如,学生A的排名 为5,行为特征向量为六=(3,2,5,7,9,6,8,1,4,7)7,学生8的排名为12,行为特征向量为8 =
[0087] 假定训练样本中有W个学生,每两个学生计算得到一个差异特征向量,所得到的差 异特征向量就有W(W_l)/2,那么分类器的训练样本有W(W_l)/2个。因为标签只有两类(1和_ 1),所以预测的就是这个标签。也就是说,本发明将学生之间的排名预测转换为了先预测得 到每两个学生的相对排名顺序,而后再根据这些相对排名顺序转化为真实的排名,将排名 预测问题就转化为了一个排序学习问题,从而有效地解决了学生的排名预测问题。如果学 生A的排名越高,他和别人比较所产生的标签中出现1的次数越多,-1的次数越少,那么通过 计算学生A和其他学生所产生的标签之和可以得到一个得分,根据所有学生的得分进行排 序就可以得到当前学生A的排名预测值。例如,学生A与其他学生相比较得到的标签集合为 (1, _1,_1,1,1,1,_1,1,_1,_1,1),学生B和其他学生比较得到的标签集合为( -1,1厂1,-1, 1,1,-1,-1,-1,1,1),可得学生A的得分为1,学生B的得分为-1,那么学生A会比学生B的排名 更靠前。
[0088] 尽管上面对本发明说明性的【具体实施方式】进行了描述,以便于本技术领域的技术 人员理解本发明,但应该清楚,本发明不限于【具体实施方式】的范围,对本技术领域的普通技 术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些 变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
【主权项】
1. 一种基于校园数据的学生排名预测方法,其特征在于,包括以下步骤: Si:采集所有在校学生的数据,包括成绩数据和行为数据,其中成绩数据包括学生的所 有课程的课程类型、学分数、成绩,行为数据包括学生在校园内各个地点使用校园一卡通的 记录; S2:对采集到的学生数据进行数据清洗; S3:对清洗完成的学生数据中的非时间数据项,采用以下方法进行数据规范: 记第i个学生的第j项非时间数据为xij,i = 1,2,…,N,N表示学生数量,j = 1,2,…,M,M 表示数据项数量;求取每个数据XU的线性变换值Y U,计算公式为:其中,Hiaxj表示第j项数据序列中的最大值,Hiinj表示第j项数据序列中的最小值,Τ」_· χ 表示第j项数据序列限定区间的上限,L_min表示第j项数据序列限定区间的下限; 对线性变换后的数据Y&根据以下公式计算规范数据值yu:其中,巧表示第j项数据序列的平均值表示第j项数据序列的方差; S4:从学生数据中提取每个学生的行为特征向量,行为特征包括成绩特征、努力程度特 征和生活规律特征,其中成绩特征包括学生所有课程的课程类型、学分数、成绩,努力程度 特征是学生进入学习相关地点的频次,生活规律特征是学生的生活规律度量值,由以上数 据项构成学生的行为特征向量; S5:对步骤S4提取到的行为特征向量进行降维,得到降维后每个学生的行为特征向量; S6:对第i个学生,采用其降维后的行为特征向量减去其他每个学生的行为特征向量, 得到N-I个差异特征向量,将差异特征向量输入预先训练好的分类器,得到对应的N-I个标 签,标签值为1或-1,将该学生的所有标签值求和,得到该学生的得分,将所有学生的得分进 行排序,从而得到学生的排名预测值; 其中,分类器的训练方法为:对具有历史排名的学生,搜集得到这些学生的数据,根据 步骤Sl至步骤S5的方法得到这些学生的行为特征向量,然后两两求得学生之间的差异特征 向量;对于一个差异特征向量,如果被减特征向量所对应的学生排名较前,则该差异特征向 量所对应的标签为1,否则为-1;将这些差异特征向量作为分类器的输入,对应的标签作为 输出,对分类器进行训练。2. 根据权利要求1所述的学生排名预测方法,其特征在于,所述步骤S4中生活规律度量 值的计算方法为:根据每个学生的学生数据中对预设的若干个地点的访问情况,计算得到 预定时间段内该学生对这些地点的访问概率,然后根据访问概率计算得到香农熵,该香农 熵即为该学生的生活规律度量值。3. 根据权利要求2所述的学生排名预测方法,其特征在于,所述访问概率的计算方法 为: 对预定时间段进行时间区间细分,从学生数据中抽取学生对每类地点的访问时间,投 影到细分时间区间,统计每类地点在每个细分时间区间内的访问次数,采用密度估计函数 估计得到每个细分时间区间内对该类地点的访问概率,然后积分得到预设时间段对该类地 点的访问概率。4. 根据权利要求1所述的学生排名预测排名方法,其特征在于,所述步骤S5中,行为特 征向量降维的方法为: S5.1 :记第i个学生的行为特征向量为Bi= {bu,bi2,···,biD}T,D表示特征项数,将所有学 生的行为特征数据组成大小为DXN的行为特征矩阵U; S5.2:求取行为特征矩阵U的协方差矩阵C; S5.3:求取协方差矩阵C的特征值以及对应的特征向量,然后按照对应特征值从大到小 将特征向量从上到下按行排列成矩阵,取前K行组成特征向量矩阵P,K的数值根据实际需要 进行设置; S5.4:计算降维后学生的行为特征矩阵Q = PU,矩阵Q中第i列即为经过降维后第i个学 生的行为特征向量V i。5. 根据权利要求4所述的学生排名预测排名方法,其特征在于,所述步骤参数K的取值 范围
【文档编号】G06Q10/04GK105894119SQ201610207978
【公开日】2016年8月24日
【申请日】2016年4月5日
【发明人】杨磊, 聂敏, 夏虎
【申请人】成都寻道科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1