一种基于机器学习的学生贫困程度预测方法与流程

文档序号:16532915发布日期:2019-01-05 10:55阅读:481来源:国知局

本发明属于大数据应用技术领域,具体涉及一种基于机器学习的学生贫困程度预测方法。



背景技术:

当前学生资助的基本采用一刀切,学校将资金按固定比例分配给班级中家庭经济情况较贫困的学生,目前大多数高校主要是依据学生的家庭经济情况调查表并综合相关教师、同学反映的情况在班级内初步进行家庭经济情况认定。受资助学生贫困程度无法量化,资助难免陷入平均主义。

随着大数据时代的技术发展,全球主干通信网每天传输数万兆兆字节数据,每个人的行为都被各种形式的数据记录着,学生在校园的一切行都会产生数据,记录着学生的各项特征。这些数据可以反应学生的真实情况,通过合理的利用,可以一定程度解决贫困生资助的平均化,给真正贫困的学生更多的帮助。



技术实现要素:

本发明的目的就在于为了解决贫困生受资助时平均主义的缺陷,而提出的一种基于机器学习的学生贫困程度预测方法。

本发明通过以下技术方案来实现上述目的:

一种基于机器学习的学生贫困程度预测方法,包括以下步骤;

步骤1,获取与学生贫困相关的数据;

步骤2,数据解析,将数据分为非结构化的文本数据和结构化数据,将结构化数据直接存入数据库;

步骤3,对缺失数据进行发现及填补;

步骤4,对原始结构化数据进行标准化处理,使结果值统一映射到一个固定区间;

步骤5,按照快速聚类算法,采用欧氏距离,将数据聚为k类:

设第k个初始聚点的集合是

将样品分为不相交的k类,得到一个初始分类

从初始类g(0)开始计算新的聚点集合l(1),计算

得到一个新集合从l(1)开始再进行分类,记,

得到一个新的类

重复以上步骤m次得其中是类的重心。当m逐渐增大时,分类趋于稳定。同时可以近似地看做重心,即此时计算结束;或者,若对某一个m,相同,则结束计算;

步骤6,计算各聚类后各类别评价因素体系中每个因素对实现评价目标和功能的相对重要程度,并对计算结果进行检验,保证评价结论的可靠性;

步骤6.1根据贫困因素汇总数据先分析相关系数矩阵,两个同向指标,即两个都为正指标或者负指标应正相关,相关系数应大于零;两个反向指标即一个正指标一个负指标,应负相关,相关系数应小于零;满足此对应关系的直接转入步骤7计算得分,不满足则转步骤6.2;

步骤6.2对相关系数不符合上述原则的两个指标,将其分开,得到分块矩阵。对每一块分别进行主成分分析,若某一块的指标权系数仍不满足,重复步骤6.1,得到最终分块矩阵;

步骤7,计算主成分综合评价得分:

q为步骤6得出的最终分块矩阵数,第i(i=1,…,q)分块有ai个指标项,则第i分块的权重;

综合得分si为第i分块得分,若第i分块与总得分成负相关,则t=1,若第i分块与总得分成正相关,则t=0;

si求解方法如下:求解已标准化矩阵的相关系数矩阵r,rij(i=1,…,n,j=1,…,m)为r的i行j列元素,求解相关矩阵的特征值λi(i=1,2,…,s,s为特征值的总个数)与特征向量vi;

计算贡献率按特征值大小依次排列。由特征向量组成新指针变量:

其中y1是第一主成分,ys是第s主成分;计算主成分综合评价得分其中将每个学生对应的s进行排序,s越高表明困难程度越高,以s的值作为参考进行资助分配。

本方法进一步改进在于,还包括提取学生在校上网数据,包括浏览内容和使用的电子产品型号、上网地点、浏览网站类型、上网时间,提取上网浏览信息中包含出国、旅游、雅思培训、新东方培训的数据,当两名学生贫困程度相同时,本领域消费高的认作是贫困程度较低的学生。

优选的,上述方法中所述获取数据,包括提取学生基本信息数据,包括姓名、籍贯、民族、国籍、健康情况、政治面貌、是否通过绿色通道入学、是否办理生源地贷款、是否办理校园地贷款、是否享受一补、大学期间受过何种奖励或资助、入学方式、学校名称、学号、学院、性别、专业、班级、现住址、与监护人关系、监护人职务、监护人其他信息;

还包括提取学生家庭信息数据,包括是否独生子女、是否留守儿童、是否进城务工人员随迁子女、是否为低保家庭、是否烈士或优抚子女、是否为孤儿、是否建档立卡贫困户、城乡最低保障、是否城乡特困供养人员、是否城乡最低生活保障家庭、是否城乡低收入家庭学生、是否农村五保户、学生本人户籍、学生本人是否有残疾、本人残疾类别、学生本人是否患病及患病类型、父母是否残疾、父母残疾类别、父母是否患病及患病类型、家人是否患病及患病类型、家庭主要收入来源、家庭人均年收入、是否单亲、是否父母离异、是否亲属抚养、是否有家人失踪、家庭就学人口数、是否为贫困县、是否为山区、是否办理助学贷款、房屋情况、家庭遭受突发意外事件、家庭成员失业情况、家庭欠债数额、欠债原因、学生本学年已获资助情况、父亲职业、母亲职业、城镇是否有住房、家庭医疗支出年数额;

还包括提取校园一卡通消费数据并计算特征,包括总消费额、月总消费额最大值、总消费次数、日消费额均值、日消费次数均值、消费天数、食堂消费额、食堂总消费次数、食堂消费总次数最大值、食堂日消费金额、食堂日消费金额最大值、食堂日消费次数、超市消费额、超市消费次数、医务消费额、医务消费次数、开水消费、开水消费次数、图书消费额、图书消费次数、日早餐消费金额、早餐日消费方差、日午餐消费金额、午餐日消费方差、日晚餐消费金额、晚餐日消费方差、早餐月总消费金额、早餐月总消费次数、午餐月总消费金额、午餐月总消费次数、晚餐月总消费金额、晚餐月总消费次数、食堂消费占比、超市消费占比、水果消费占比、食堂消费占比、节假日消费总额偏离度;

还包括提取学生成绩数据,包括课程名、课程号、开课学期、学时、学分、考试成绩、平时成绩,并计算出绩点、学期平均成绩、学年平均成绩、挂科数量;

还包括提取图书馆数据:包括图书名称、图书编号、图书类型、借书时间、借书地点、还书时间、借书地点,根据数据计算出特征:借书次数、借书频率、借出时间、平均借出时间、年平均借出次数、借书次数偏离度、借书时间偏离度、节假日借书数量;

还包括提取门禁及用电数据:包括刷卡时间、地点、进出入宿舍楼时间,宿舍停留时间、图书馆停留时间、宿舍总用电量、宿舍人均用电量、校学生人均用电量;

优选的,其中步骤4中标准化的方法为:各指标aij转换成aij’,有aij’=(aij-uj)/sj,i=1,2,...,n,j=1,2,...,m

转化后的矩阵记为为标准化的结果。

基于上述方法的一种异常贫困生数据快速监测过滤方法,在步骤4之后,将数据按从小到大排列,记其中一类的数据个数为排序为k的数记为x(k)(1≤k≤n);

p分位数计算公式为:

其中,[np]表示对np取整,即np的整数部分。根据公式(1)计算上截段点q1=m0.75+1.5r与下截段点q3=m0.25-1.5r。其中,m0.25为0.25分位数,m0.75为0.75分位数,r=m0.75-m0.25。则小于q3或大于q1的数据为异常值,将该数据列为数据的主体异常贫困生。异常贫困生的某方面表现严重偏离群体,需要针对其进行特殊对待。

基于上述方法的一种贫困生致贫原因的提取方法,其特征在于,在步骤2之后,提取数据中的文本数据,使用nlp自然语言处理技术,调用python中的snownlp库实现文本分词、命名实体识别、句法分析功能,提取文本中的描述对象、对象特征,并做成表格输出,此表格可以让人快速看清学生致贫原因。

本发明的有益效果在于:

1)本发明在评价贫困生贫困程度时,采用了大量数据,避免了单一数据来源评价的片面性;

2)本发明采用机器学习对数据进行处理,可以克服人为主观因素影响;

3)本发明还提出了用于快速对异常贫困生数据快速过滤的方法,可以发现异常贫困生给与特殊对待。

具体实施方式

下面对本申请作进一步详细描述,有必要在此指出的是,以下具体实施方式只用于对本申请进行进一步的说明,不能理解为对本申请保护范围的限制,该领域的技术人员可以根据上述申请内容对本申请作出一些非本质的改进和调整。

实施例1

一种基于机器学习的学生贫困程度预测方法,其特征在于:包括以下步骤;

步骤a1,获取数据:所述数据包括扶贫数据、民政厅数据、助学系统数据、学工系统数据、学校教务系统数据、校园一卡通消费数据、上网行为数据、考勤系统数据、校内论坛数据、图书馆数据、校医院系统数据,并建立数据库存储;

所述获取数据,包括提取学生基本信息数据,包括姓名、籍贯、民族、国籍、健康情况、政治面貌、是否通过绿色通道入学、是否办理生源地贷款、是否办理校园地贷款、是否享受一补、大学期间受过何种奖励或资助、入学方式、学校名称、学号、学院、性别、专业、班级、现住址、与监护人关系、监护人职务、监护人其他信息;

还包括提取学生家庭信息数据,包括是否独生子女、是否留守儿童、是否进城务工人员随迁子女、是否为低保家庭、是否烈士或优抚子女、是否为孤儿、是否建档立卡贫困户、城乡最低保障、是否城乡特困供养人员、是否城乡最低生活保障家庭、是否城乡低收入家庭学生、是否农村五保户、学生本人户籍、学生本人是否有残疾、本人残疾类别、学生本人是否患病及患病类型、父母是否残疾、父母残疾类别、父母是否患病及患病类型、家人是否患病及患病类型、家庭主要收入来源、家庭人均年收入、是否单亲、是否父母离异、是否亲属抚养、是否有家人失踪、家庭就学人口数、是否为贫困县、是否为山区、是否办理助学贷款、房屋情况、家庭遭受突发意外事件、家庭成员失业情况、家庭欠债数额、欠债原因、学生本学年已获资助情况、父亲职业、母亲职业、城镇是否有住房、家庭医疗支出年数额;

还包括提取校园一卡通消费数据并计算特征,包括总消费额、月总消费额最大值、总消费次数、日消费额均值、日消费次数均值、消费天数、食堂消费额、食堂总消费次数、食堂消费总次数最大值、食堂日消费金额、食堂日消费金额最大值、食堂日消费次数、超市消费额、超市消费次数、医务消费额、医务消费次数、开水消费、开水消费次数、图书消费额、图书消费次数、日早餐消费金额、早餐日消费方差、日午餐消费金额、午餐日消费方差、日晚餐消费金额、晚餐日消费方差、早餐月总消费金额、早餐月总消费次数、午餐月总消费金额、午餐月总消费次数、晚餐月总消费金额、晚餐月总消费次数、食堂消费占比、超市消费占比、水果消费占比、食堂消费占比、节假日消费总额偏离度;

还包括提取学生成绩数据,包括课程名、课程号、开课学期、学时、学分、考试成绩、平时成绩,并计算出绩点、学期平均成绩、学年平均成绩、挂科数量;

还包括提取图书馆数据:包括图书名称、图书编号、图书类型、借书时间、借书地点、还书时间、借书地点,根据数据计算出特征:借书次数、借书频率、借出时间、平均借出时间、年平均借出次数、借书次数偏离度、借书时间偏离度、节假日借书数量;

还包括提取门禁及用电数据:包括刷卡时间、地点、进出入宿舍楼时间,宿舍停留时间、图书馆停留时间、宿舍总用电量、宿舍人均用电量、校学生人均用电量;

还包括提取学生在校上网数据,包括浏览内容和使用的电子产品型号、上网地点、浏览网站类型、上网时间,提取上网浏览信息中包含出国、旅游、雅思培训、新东方培训的数据,当步骤a7中两名学生贫困程度相同时,本领域消费高的认作是贫困程度较低的学生。

步骤a2,数据解析,将数据分为非结构化的文本数据和结构化数据,将结构化数据直接存入数据库;

步骤a3,对缺失数据进行发现及填补,根据不同缺失情况使用不同的填补策略,包括均值填补、插值、拟合,完成缺失数据的初始化,所述策略均为常规技术不再阐述;

步骤a4,对原始结构化数据进行标准化处理,使结果值统一映射到一个固定区间;

各指标aij转换成aij’,有aij’=(aij-uj)/sj,i=1,2,...,n,j=1,2,...,m

转化后的矩阵记为为标准化的结果。

将数据按从小到大排列,记其中一类的数据个数为排序为k的数记为x(k)(1≤k≤n);

p分位数计算公式为:

其中,[np]表示对np取整,即np的整数部分。根据公式(1)计算上截段点q1=m0.75+1.5r与下截段点q3=m0.25-1.5r。其中,m0.25为0.25分位数,m0.75为0.75分位数,r=m0.75-m0.25。则小于q3或大于q1的数据为异常值,将该数据列为数据的主体异常贫困生。

步骤a5,按照快速聚类算法,采用欧氏距离,将数据聚为k类:

设第k个初始聚点的集合是

将样品分为不相交的k类,得到一个初始分类

从初始类g(0)开始计算新的聚点集合l(1),计算

得到一个新集合从l(1)开始再进行分类,记,

得到一个新的类

重复以上步骤am次得其中是类的重心。当m逐渐增大时,分类趋于稳定。同时可以近似地看做重心,即此时计算结束;或者,若对某一个m,相同,则结束计算;

步骤a6,计算各聚类后各类别评价因素体系中每个因素对实现评价目标和功能的相对重要程度,并对计算结果进行检验,保证评价结论的可靠性;

步骤a6.1根据贫困因素汇总数据先分析相关系数矩阵,两个同向指标,即两个都为正指标或者负指标应正相关,相关系数应大于零;两个反向指标即一个正指标一个负指标,应负相关,相关系数应小于零;满足此对应关系的直接转入步骤a7计算得分,不满足则转步骤a6.2;

步骤a6.2对相关系数不符合上述原则的两个指标,将其分开,得到分块矩阵。对每一块分别进行主成分分析,若某一块的指标权系数仍不满足,重复步骤a6.1,得到最终分块矩阵;

步骤a7,计算主成分综合评价得分:

q为步骤a6得出的最终分块矩阵数,第i(i=1,…,q)分块有ai个指标项,则第i分块的权重;

综合得分si为第i分块得分,若第i分块与总得分成负相关,则t=1,若第i分块与总得分成正相关,则t=0;

si求解方法如下:求解已标准化矩阵的相关系数矩阵r,rij(i=1,…,n,j=1,…,m)为r的i行j列元素,求解相关矩阵的特征值λi(i=1,2,…,s,s为特征值的总个数)与特征向量vi;

计算贡献率按特征值大小依次排列。由特征向量组成新指针变量:

其中y1是第一主成分,ys是第s主成分;计算主成分综合评价得分其中将每个学生对应的s进行排序,s越高表明困难程度越高,以s的值作为参考进行资助分配。

实施例2,一种贫困生致贫原因的提取方法,包括以下步骤:

步骤b1,获取数据:所述数据包括扶贫数据、民政厅数据、助学系统数据、学工系统数据、学校教务系统数据、校园一卡通消费数据、上网行为数据、考勤系统数据、校内论坛数据、图书馆数据、校医院系统数据,并建立数据库存储;

步骤b2,数据解析,将数据分为非结构化的文本数据和结构化数据,文本数据使用nlp自然语言处理技术,调用python中的snownlp库实现文本分词、命名实体识别、句法分析功能,提取文本中的描述对象、对象特征,并做成表格输出。

实施例3,一种异常贫困生数据快速监测过滤方法,包括以下步骤:

步骤c1,获取数据:所述数据包括扶贫数据、民政厅数据、助学系统数据、学工系统数据、学校教务系统数据、校园一卡通消费数据、上网行为数据、考勤系统数据、校内论坛数据、图书馆数据、校医院系统数据,并建立数据库存储;

步骤c2,数据解析,将数据分为非结构化的文本数据和结构化数据,将结构化数据直接存入数据库;

步骤c3,对缺失数据进行发现及填补,根据不同缺失情况使用不同的填补策略,包括均值填补、插值、拟合,完成缺失数据的初始化;

步骤c4,对原始结构化数据进行线性变换,使结果值统一映射到一个固定区间;

步骤c5,将数据按从小到大排列,记其中一类的数据个数为排序为k的数记为x(k)(1≤k≤n);

p分位数计算公式为:

其中,[np]表示对np取整,即np的整数部分。根据公式(1)计算上截段点q1=m0.75+1.5r与下截段点q3=m0.25-1.5r。其中,m0.25为0.25分位数,m0.75为0.75分位数,r=m0.75-m0.25。则小于q3或大于q1的数据为异常值,将该数据列为数据的主体异常贫困生,行为脱离大众平均水平,应给与特殊关注。本方法不受数据完整性限制,根据独立的数据分类即可做出判断,较为迅速。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1