基于在校行为数据多维分析的贫困生资助推荐方法与流程

文档序号:14714488发布日期:2018-06-16 01:04阅读:493来源:国知局

本发明涉及大数据分析技术领域,具体来说是基于在校行为数据多维分析的贫困生资助推荐方法。



背景技术:

大数据时代的来临,为贫困生资助工作提供了新的理念和技术支持,也为高校利用大数据推进快速、便捷、高效精准资助工作带来了新的机遇。利用大数据挖掘与分析技术、数学建模理论帮助管理者掌握学生在校期间真实的行为模式发现“隐性贫困”与疑似“虚假认定”的学生,实现精准资助。

目前对于在校贫困生的精准资助还处在探索阶段,国内暂无统一的评估方法,对于在校贫困生没有统一的定界标准,对贫困生的资助缺乏系统、规范化的管理,使得资助工作非常繁琐,并且造成很多数据资源的浪费。虽有部分技术提出了一些观点和思路,但均无法满足实际应用或难以实现,例如:专利号为201710223971.6、专利名称为基于数据挖掘的学生贫困状态预测方法的专利申请文件。其虽是针对于学生在校数据进行分析,但直接使用大数据平台hadoop和spark,且模型使用了随机森林,未对学生在校数据进行有针对性的技术数据分类划分,使得分类结果并不理想。

因此,如何利用大数据技术准确地实现贫困生的资助认为已经成为需解决的技术问题



技术实现要素:

本发明的目的是为了解决现有技术中难以实现待资助贫困生精准推荐的缺陷,提供一种基于在校行为数据多维分析的贫困生资助推荐方法来解决上述问题。

为了实现上述目的,本发明的技术方案如下:

一种基于在校行为数据多维分析的贫困生资助推荐方法,包括以下步骤:

历史行为数据的获取,获取往期学生多个维度的历史行为数据,历史行为数据包括往期学生的家庭经济数据、校园一卡通消费数据、学生成绩数据、图书馆借阅数据;

历史行为数据的特征提取,提取往期学生历史行为数据的维度特征,并建立特征矩阵;

推荐模型的训练,利用家庭经济情况特征矩阵A、校园一卡通消费情况特征矩阵B、学生潜在因子矩阵Pi和借阅矩阵S对推荐模型进行训练;

待分析行为数据的获取,获取待分析学生多个维度的行为数据,行为数据包括往期学生的家庭经济数据、校园一卡通消费数据、学生成绩数据、图书馆借阅数据;

待分析行为数据的特征提取,提取待分析学生行为数据的维度特征,并建立待分析特征矩阵;

推荐结果的获得,将待分析特征矩阵输入训练后的推荐模型,获得贫困生资助推荐集合和贫困生资助非推荐集合。

所述历史行为数据的特征提取包括以下步骤:

根据提取到的家庭经济数据构建家庭经济情况特征矩阵A;

计算每个往期学生家庭经济消费的最大值Maxi、最小值Mini、中位数Mediani、平均数Avgi、四分位数Quartilei、标准差Standardi、工作日与周末的消费金额比例Ratei,以矩阵的形式存至内存中,

家庭经济情况特征矩阵A定义如下:

A=[Maxi,Mini,Mediani,Avgi,Quartilei,Standardi,Ratei]T

根据提取到的校园一卡通消费数据构建校园一卡通消费情况特征矩阵B,其具体步骤如下:

计算每个往期学生的消费次数Timesi、消费总额Cost_Amounti、单笔最大消费Single_max_amounti、单笔最小消费Single_min_amounti、消费均值Cost_avgi、消费中位数Cost_mediani;

计算每个往期学生的恩格尔系数,其计算公式如下:

其中,P1表示每个往期学生食堂消费金额,P2表示每个往期学生消费总金额,Ei表示每个往期学生的恩格尔系数;

建立校园一卡通消费情况特征矩阵B,其表达式如下:

B=[Timesi,Cost_Amounti,Single_max_amounti,Single_min_amounti,Cost_avgi,Cost_mediani,Ei]T

根据提取到的往期学生成绩数据计算学生潜在因子矩阵Pi,其具体步骤如下:

构建往期学生成绩矩阵R中的每个元素r,

其中,rij表示学生ui在课程cj中的成绩,为学生pi在课程qj中的平均成绩;

构建往期学生选课矩阵W中的每个元素Wij,

Wij表示学生ui在课程cj中的选课情况,1表示选择课程,0表示未选择课程;

对成绩矩阵R进行矩阵分解,通过优化以下目标函数实现:

其中,Pi表示学生潜在因子,Qj表示课程因子,λ表示惩罚参数;参数Pi和Qj通过交替最小二乘法和随机梯度下降法求得,交替最小二乘法利用以下的公式来更新参数:

其中,Ek是一个k*k的单位矩阵,k是给定要提取的特征的维度,即单个学生的成绩情况为一个k维的向量;pi是学生潜在因子矩阵表示学生对课程的偏好程度,qj是课程潜在因子矩阵表示课程自身的质量;

根据提取到的往期学生图书馆借阅数据构建借阅矩阵S,其具体步骤如下:

借阅矩阵S的每一行表示一个学生的借阅情况,每一列表示一本图书被借阅的情况其中矩阵中的每个元素,sui表示学生u是否借阅了图书i,sui为1时表示该书被借阅,sui为0时表示该书未被借阅;

对图书借阅矩阵S做矩阵分解,通过优化以下目标函数实现,

其中,Hu表示学生对图书的偏好因子,Gi表示图书的潜在因子,λ表示惩罚参数;参数Huk和Gik通过随机梯度下降法求得,梯度公式如下:

梯度下降求最小值:

其中,α为迭代步长,Huk是学生u在k这个类别上的偏好分数,Gki是图书i在k这个类别上的偏好分数;

得到学生u的阅读兴趣Hu,阅读兴趣Hu反映了该学生对应的阅读兴趣特征。

所述推荐模型的训练包括以下步骤:

模型预处理阶段,以递归形式设定模型设计的停止条件,其设定如下:

创建数据集类标签向量,记作Clsaslist{c1、c2、...、ck};

若训练集D中所有学生属于同一类标签Ck,则直接返回该类标签Ck;

若特征集X为空,将训练集D中学生数最大的类标签Ck作为返回值;

模型训练阶段,基于香农的信息论创建树模型,分别计算每个特征的信息增益,挑选出信息增益最大特征作为第一个分类节点,递归整个模型,直到所有特征全部用完,模型训练结束;其具体步骤如下:

计算特征集X中各特征对训练集D的熵,其计算公式如下:

其中,D为训练集,pi表示第i个分类的频率,m表示分类的数量;

将训练集D按照特征集X进行划分,计算特征集X对训练集D划分的信息期望,计算公式如下:

其中,Values(X)表示特征集X的属性值集合,j表示一个属性值,Dj是训练集D中属性值为j的子集;

分别计算家庭经济情况特征矩阵A、校园一卡通消费情况特征矩阵B、学生潜在因子矩阵Pi和借阅矩阵S的信息增益gain(),计算公式如下:

gain(D,X)=info(D)-infoX(D);

针对家庭经济情况特征矩阵A、校园一卡通消费情况特征矩阵B、学生潜在因子矩阵Pi和借阅矩阵S的信息增益进行比较;

找出信息增益最大的特征矩阵作为树模型的根节点,树模型的第二层子节点分为两个节点,其中一个节点为贫困生资助非推荐集合;

对剩下的三个特征矩阵重新计算信息增益并比较,找出三个特征矩阵中增益最大的特征矩阵作为第二层子节点的第二个节点;

第二层子节点的第二个节点往下延伸作为树模型的第三层子节点,第三层子节点分为两个节点,其中一个节点为贫困生资助非推荐集合;

对剩下的两个特征矩阵重新计算信息增益并比较,找出两个特征矩阵中增益最大的特征矩阵作为第三层子节点的第二个节点;

第三层子节点的第二个节点往下延伸作为树模型的第四层子节点,第四层子节点分为两个节点,其中,一个节点为贫困生资助非推荐集合,另一个节点为增益最小的特征矩阵。

还包括推荐模型的验证,所述推荐模型的验证包括以下步骤:

获取已产生结果的测试集;

将测试集应用在推荐模型上,计算测试集上的F1值,

其计算方法如下:

其中,M为贫困类别数,TP为测试集中预测为贫困生并且实际也是贫困生的学生数量,FP为测试集中预测为贫困生但是实际不是贫困生的学生数量,FN为测试集中预测不是贫困生但是实际为贫困生的学生数量;

通过F1的值评估模型的准确性。

有益效果

本发明的基于在校行为数据多维分析的贫困生资助推荐方法,与现有技术相比基于学生产生的在校数据,通过提取多个维度的特征,利用这些特征建立分类模型,借助分类模型准确判断学生的贫困情况并作出决策。

本发明利用数据挖掘处理贫困生的各项数据信息,找出贫困生认定中的关键因素,提取学生家庭经济情况、校园一卡通消费情况、学生成绩情况和图书馆借阅情况数据的多个维度特征,使得推荐方法更加贴近于实际应用,基础数据准确性高、获取信息准确。通过利用这些特征建立分类模型,分类模型基于决策树模型建立,其无需准备庞大的数据量、无需创建虚拟变量、去除不完整的数据;并且能够处理数字和数据的类别,能够处理多输出的问题,同时,分类模型使用白盒模型,使得给定的情况在一个模型中观察到的,该条件的解释转变为较容易解释的布尔逻辑。具有数据量需求小、推荐结果准确率高、贴近实际应用的特点。

附图说明

图1为本发明的方法顺序图。

具体实施方式

为使对本发明的结构特征及所达成的功效有更进一步的了解与认识,用以较佳的实施例及附图配合详细的说明,说明如下:

如图1所示,本发明所述的基于在校行为数据多维分析的贫困生资助推荐方法,包括以下步骤:

第一步,历史行为数据的获取。获取往期学生多个维度的历史行为数据,历史行为数据包括往期学生的家庭经济数据、校园一卡通消费数据、学生成绩数据、图书馆借阅数据,这些数据能准确反映学生家庭、学生在校的学习、生活情况,由于本发明中推荐模型的建立是基于行为数据提取的特征而进行构造训练,在此,基础数据的准确选定为后期的精准推荐打下了基础。

第二步,历史行为数据的特征提取。提取往期学生历史行为数据的维度特征,并建立特征矩阵。通过对学生成绩矩阵、图书馆借阅矩阵进行矩阵分解,采用矩阵降维的方式找到学生与课程,学生与图书借阅之间的潜在关系,利于模型的建立。其具体步骤如下:

(1)根据提取到的家庭经济数据构建家庭经济情况特征矩阵A;

计算每个往期学生家庭经济消费的最大值Maxi、最小值Mini、中位数Mediani、平均数Avgi、四分位数Quartilei、标准差Standardi、工作日与周末的消费金额比例ratei,以矩阵的形式存至内存中,

家庭经济情况特征矩阵A定义如下:

A=[Maxi,Mini,Mediani,Avgi,Quartilei,Standardi,Ratei]T

(2)根据提取到的校园一卡通消费数据构建校园一卡通消费情况特征矩阵B,其具体步骤如下:

A、计算每个往期学生的消费次数Timesi、消费总额Cost_Amounti、单笔最大消费Single_max_amounti、单笔最小消费Single_min_amounti、消费均值Cost_avgi、消费中位数Cost_mediani;

B、计算每个往期学生的恩格尔系数,其计算公式如下:

其中,P1表示每个往期学生食堂消费金额,P2表示每个往期学生消费总金额,Ei表示每个往期学生的恩格尔系数;

C、建立校园一卡通消费情况特征矩阵B,其表达式如下:

B=[Timesi,Cost_Amounti,Single_max_amounti,Single_min_amounti,Cost_avgi,Cost_mediani,Ei]T

(3)根据提取到的往期学生成绩数据计算学生潜在因子矩阵Pi,其具体步骤如下:

A、构建往期学生成绩矩阵R中的每个元素r,

其中,rij表示学生ui在课程cj中的成绩,学生pi在课程qj中的平均成绩;

B、构建往期学生选课矩阵W中的每个元素Wij,

Wij表示学生ui在课程cj中的选课情况,1表示选择课程,0表示未选择课程;

C、对成绩矩阵R进行矩阵分解,通过优化以下目标函数实现:

其中,Pi表示学生潜在因子,Qj表示课程因子,λ表示惩罚参数;参数Pi和Qj通过交替最小二乘法和随机梯度下降法求得,交替最小二乘法利用以下的公式来更新参数:

其中,Ek是一个k*k的单位矩阵,k是给定要提取的特征的维度,即单个学生的成绩情况为一个k维的向量;pi是学生潜在因子矩阵表示学生对课程的偏好程度,qj是课程潜在因子矩阵表示课程自身的质量;

(4)根据提取到的往期学生图书馆借阅数据构建借阅矩阵S,其具体步骤如下:

A、借阅矩阵S的每一行表示一个学生的借阅情况,每一列表示一本图书被借阅的情况其中矩阵中的每个元素,sui表示学生u是否借阅了图书i,sui为1时表示该书被借阅,sui为0时表示该书未被借阅;

B、对图书借阅矩阵S做矩阵分解,通过优化以下目标函数实现,

其中,Hu表示学生对图书的偏好因子,Gi表示图书的潜在因子,λ表示惩罚参数;参数Huk和Gik通过随机梯度下降法求得,梯度公式如下:

梯度下降求最小值:

其中,α为迭代步长,Huk是学生u在k这个类别上的偏好分数,Gki是图书i在k这个类别上的偏好分数;

C、得到学生u的阅读兴趣Hu,阅读兴趣Hu反映了该学生对应的阅读兴趣特征。

第三步,推荐模型的训练,利用家庭经济情况特征矩阵A、校园一卡通消费情况特征矩阵B、学生潜在因子矩阵Pi和借阅矩阵S对推荐模型进行训练。其具体步骤如下:

(1)模型预处理阶段,以递归形式设定模型设计的停止条件,其设定如下:

A、创建数据集类标签向量,记作Clsaslist{c1、c2、...、ck};

B、若训练集D中所有学生属于同一类标签Ck,则直接返回该类标签Ck;

C、若特征集X为空,将训练集D中学生数最大的类标签Ck作为返回值。

以上训练集D为历史行为数据,特征集X为家庭经济情况特征矩阵A、校园一卡通消费情况特征矩阵B、学生潜在因子矩阵Pi或借阅矩阵S。

(2)模型训练阶段,基于香农的信息论创建树模型,分别计算每个特征的信息增益,挑选出信息增益最大特征作为第一个分类节点,递归整个模型,直到所有特征全部用完,模型训练结束。其具体步骤如下:

A、计算特征集X中各特征对训练集D的熵,其计算公式如下:

其中,D为训练集,pi表示第i个分类的频率,m表示分类的数量;

B、将训练集D按照特征集X进行划分,计算特征集X对训练集D划分的信息期望,计算公式如下:

其中,Values(X)表示特征集X的属性值集合,j表示一个属性值,Di是训练集D中属性值为j的子集;

C、分别计算家庭经济情况特征矩阵A、校园一卡通消费情况特征矩阵B、学生潜在因子矩阵Pi和借阅矩阵S的信息增益gain(),计算公式如下:

gain(D,X)=info(D)-infoX(D);

D、针对家庭经济情况特征矩阵A、校园一卡通消费情况特征矩阵B、学生潜在因子矩阵Pi和借阅矩阵S的信息增益进行比较;

E、找出信息增益最大的特征矩阵作为树模型的根节点,树模型的第二层子节点分为两个节点,其中一个节点为贫困生资助非推荐集合;

F、对剩下的三个特征矩阵重新计算信息增益并比较,找出三个特征矩阵中增益最大的特征矩阵作为第二层子节点的第二个节点;

G、第二层子节点的第二个节点往下延伸作为树模型的第三层子节点,第三层子节点分为两个节点,其中一个节点为贫困生资助非推荐集合;

H、对剩下的两个特征矩阵重新计算信息增益并比较,找出两个特征矩阵中增益最大的特征矩阵作为第三层子节点的第二个节点;

I、第三层子节点的第二个节点往下延伸作为树模型的第四层子节点,第四层子节点分为两个节点,其中,一个节点为贫困生资助非推荐集合,另一个节点为增益最小的特征矩阵。

第四步,待分析行为数据的获取。获取待分析学生多个维度的行为数据,行为数据包括往期学生的家庭经济数据、校园一卡通消费数据、学生成绩数据、图书馆借阅数据。

第五步,待分析行为数据的特征提取。通过历史行为数据的特征提取同样的方法步骤提取待分析学生行为数据的维度特征,并建立待分析特征矩阵。

第六步,推荐结果的获得。将待分析特征矩阵输入训练后的推荐模型,通过树模型获得贫困生资助推荐集合和贫困生资助非推荐集合。

为了进一步增加推荐准确性,在此,还提供针对于推荐模型的准确度验证方法,推荐模型的验证包括以下步骤:

(1)获取已产生结果的测试集,以便利用实际结果与预测结果进行对比分析。

(2)将测试集应用在推荐模型上,计算测试集上的F1值,

其计算方法如下:

其中,M为贫困类别数,TP为测试集中预测为贫困生并且实际也是贫困生的学生数量,FP为测试集中预测为贫困生但是实际不是贫困生的学生数量,FN为测试集中预测不是贫困生但是实际为贫困生的学生数量。

(3)通过F1的值评估模型的准确性,F1的值大于一定阈值,则认为模型是可靠、有效的。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1