本发明涉及一种大数据技术领域,尤其涉及一种基于校园大数据环境下的精准资助多级认定方法及一种基于校园大数据环境下的精准资助多级认定系统。
背景技术:
在一般的高校里面,贫困生人数占学生总人数的25%~30%,其中家庭经济特别困难的学生占学生总人数的5%~10%。这些贫困生大多来自于落后的偏远山区、城市里面下岗失业的职工家庭。
贫困生认定工作的关键在于贫困生的认定过程和方法是否可靠、是否科学合理,但由于贫困生认定工作的复杂性、艰巨性,在实践过程中很难把握,各高校在认定贫困生时感觉力不从心,难以取舍。
目前,学校贫困生认定流程主要为:1、由学校发起;2、学生主动提交申请;3、班级评定;4、国家评定。从流程上看,认定过程涉及诸多主观因数,其中,还会出现不少碍于面子不去申请的学生,也有不少实际上生活并不困难但也递交申请的学生。这类问题屡屡被媒体曝光多次,成为日益突出的问题。
对上述问题,传统解决办法是增设投诉机制,并结合学校的主动调研。然而,传统的投诉机制与主动调研有着巨大的困难,一方面,主动调研全校学生非常耗费时间,第二,无法主动获知异常的贫困生。
技术实现要素:
本发明所要解决的技术问题在于,提供一种基于校园大数据环境下的精准资助多级认定方法及系统,可提高识别贫困生的准确性。
为了解决上述技术问题,本发明提供了一种基于校园大数据环境下的精准资助多级认定方法,包括:
s1,采集学生的校园行为信息,所述校园行为信息包括消费信息、基本信息及所属地区的gdp信息;
s2,对所述校园行为信息进行清洗处理及关联处理,构建学生信息库;
s3,从学生信息库中提取目标行为信息,并根据目标行为信息计算行为评价指标,再根据行为评价指标构建初始消费分析模型;
s4,根据所述初始消费分析模型及待认定行为信息,构建精准资助多级认定模型。
作为上述方案的改进,所述步骤s3包括:
s31,从学生信息库中提取目标行为信息,所述目标行为信息包括目标平均消费信息、目标合理消费信息、目标基本信息及目标生源地信息;
s32,将所述目标行为信息划分为训练信息及测试信息;
s33,对所述训练信息进行降维处理;
s34,计算降维后的训练信息的证据权重;
s35,根据证据权重的高低顺序依次将训练信息投入分类模型,构建初始消费分析模型。
作为上述方案的改进,所述步骤s3还包括:对所述测试信息进行特征转换处理;将经特征转换处理后的测试信息输入初始消费分析模型,以完善初始消费分析模型。
作为上述方案的改进,所述步骤s33采用主基底方式对所述训练信息进行降维处理。
作为上述方案的改进,所述步骤s31之后还包括:采用基于中位数的异常发现算法对目标行为信息进行清洗处理。
作为上述方案的改进,所述目标平均消费信息包括月均消费次数、月均消费金额、各消费类型月均消费次数及各消费类型月均消费金额。
作为上述方案的改进,所述目标合理消费信息包括消费总额在合理范围内的日均消费金额、消费方差、各消费类型的日均消费金额及各消费类型的消费方差。
相应地,本发明还提供了一种基于校园大数据环境下的精准资助多级认定系统,包括:采集模块,用于采集学生的校园行为信息,所述校园行为信息包括消费信息、基本信息及所属地区的gdp信息;信息库构建模块,用于对所述校园行为信息进行清洗处理及关联处理,构建学生信息库;初始消费分析模型构建模块,用于从学生信息库中提取目标行为信息,并根据目标行为信息计算行为评价指标,再根据行为评价指标构建初始消费分析模型;精准资助多级认定模型构建模块,用于根据所述初始消费分析模型及待认定行为信息,构建精准资助多级认定模型。
作为上述方案的改进,所述初始消费分析模型构建模块包括:提取单元,用于从学生信息库中提取目标行为信息,所述目标行为信息包括目标平均消费信息、目标合理消费信息、目标基本信息及目标生源地信息;划分单元,用于将所述目标行为信息划分为训练信息及测试信息;降维单元,用于对所述训练信息进行降维处理;计算单元,用于计算降维后的训练信息的证据权重;构建单元,用于根据证据权重的高低顺序依次将训练信息投入分类模型,构建初始消费分析模型。
作为上述方案的改进,所述初始消费分析模型构建模块还包括:转换单元,用于对所述测试信息进行特征转换处理;优化单元,用于将经特征转换处理后的测试信息输入初始消费分析模型,以优化初始消费分析模型。
实施本发明,具有如下有益效果:
本发明通过结合学生在校行为表现和学生家庭情况,对学生多维信息进行转换融合及综合分析,建立高校精准资助多级认定的智能决策模型,有效改善传统的主观贫困认定方式的局限性和偏差性,提高识别贫困生的准确性和资助水平。
附图说明
图1是本发明基于校园大数据环境下的精准资助多级认定方法的第一实施例流程图;
图2是本发明基于校园大数据环境下的精准资助多级认定方法的第二实施例流程图;
图3是本发明基于校园大数据环境下的精准资助多级认定方法的第三实施例流程图;
图4是本发明基于校园大数据环境下的精准资助多级认定系统的结构示意图;
图5是本发明中初始消费分析模型构建模块的结构示意图;
图6是本发明中初始消费分析模型构建模块的另一结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。仅此声明,本发明在文中出现或即将出现的上、下、左、右、前、后、内、外等方位用词,仅以本发明的附图为基准,其并不是对本发明的具体限定。
参见图1,图1显示了本发明基于校园大数据环境下的精准资助多级认定方法的第一实施例流程图,其包括:
s101,采集学生的校园行为信息。
所述校园行为信息包括消费信息、基本信息及所属地区的gdp信息,具体地:
消费信息,如校园一卡通消费流水;
基本信息,如户籍,民族,身份证信息
所属地区的gdp信息,是来源于国家统计局的直辖县,地级市,直辖市的人均gdp。
s102,对所述校园行为信息进行清洗处理及关联处理,构建学生信息库。
具体地,可采用基于中位数的异常发现算法(mad)对校园行为信息进行清洗处理,以剔除异常变量。
s103,从学生信息库中提取目标行为信息,并根据目标行为信息计算行为评价指标,再根据行为评价指标构建初始消费分析模型。
需要说明的是,所述行为评价指标是指最能表现学生贫困情况的多个参数,根据行为评价指标,及其相应的权重,即可构建初始消费分析模型。
s104,根据所述初始消费分析模型及待认定行为信息,构建精准资助多级认定模型。
因此,本发明通过结合学生在校行为表现和学生家庭情况,对学生多维信息进行转换融合及综合分析,建立高校精准资助多级认定的智能决策模型,有效改善传统的主观贫困认定方式的局限性和偏差性,提高识别贫困生的准确性和资助水平。
参见图2,图2显示了本发明基于校园大数据环境下的精准资助多级认定方法的第二实施例流程图,其包括:
s201,采集学生的校园行为信息。
所述校园行为信息包括消费信息、基本信息及所属地区的gdp信息。
s202,对所述校园信息进行清洗处理及关联处理,构建学生信息库。
s203,从学生信息库中提取目标行为信息,实现数据的二次抽取。
所述目标行为信息包括以下四方面的信息:
(1)目标平均消费信息
所述目标平均消费信息包括月均消费次数、月均消费金额、各消费类型月均消费次数及各消费类型月均消费金额。即,按总体平均方式抽取月均消费次数、消费金额、以及细分到各类消费类型数据(如,餐饮、超市、水果、热水等)的月均消费次数、月均消费金额。
(2)目标合理消费信息
所述目标合理消费信息包括消费总额在合理范围内的日均消费金额、日均消费方差、各消费类型的日均消费金额及各消费类型的消费方差。具体地,可结合异常值发现算法(mad),对有消费且总消费金额在合理范围内的天进行采样,抽取日均消费金额、消费方差、以及细分到各类消费类型数据(如,早、午、晚的餐饮)的日均消费金额、消费方差。
(3)目标基本信息
抽取民族、户籍信息。其中,民族取汉族为一类,非汉族为一类,户籍取农村为一类,非农为一类,并对其进行编码。
(4)目标生源地信息
切割身份证,获取生源地信息,并按地域划分为华南、华北、华东、华中、西北、西南及华中,并进行独热编码(one-hot-coding)。
进一步,还可采用基于中位数的异常发现算法(mad)对目标行为信息进行清洗处理,以剔除异常变量。
s204,将所述目标行为信息划分为训练信息及测试信息。
s205,对所述训练信息进行降维处理。
由于训练信息中特征非常多,而且其中不乏一些共线严重的变量,所以需要对训练信息进行降维处理。
优选地,本发明采用主基底方式(一种基于最大方差垂直投影的变量筛选方法)对所述训练信息进行降维处理,以保留变量的原有特征。
s206,计算降维后的训练信息的证据权重。
根据目标特征(已认定的贫困生),对降维后的特征变量(即训练信息),计算对于目标特征的证据权重(实际上是“当前分组中非目标样本占所有非目标样本的比例”和“当前分组中目标样本占所有非目标样本的比例”的差异),并用证据权重值替换原数值。最后,根据证据权重计算信息价值,信息价值越大,则该特征对目标特征的识别能力越强。
s207,根据证据权重的高低顺序依次将训练信息投入分类模型,构建初始消费分析模型。
通过逐步添加特征的方式,把特征变量(即训练信息)与目标特征(已认定的贫困生)投入分类器,进行分类器训练。
优选地,可采用支持向量机方法,对学生进行分类。
根据应用场景,困难学生占全校生的比例不足20%,而学校应当尽可能关注到全部贫困学生,所以模型以优化召回率为主,优化准确率为辅,进行svm模型调优,包括惩罚系数,核函数及其参数,样本权重比例等。
s208,根据所述初始消费分析模型及待认定行为信息,构建精准资助多级认定模型。
构建精准资助多级认定模型时,需要将待测信息(即,待认定行为信息)进行特征转换处理,其中,特征转换处理是指,将待测信息根据步骤s205所构建的模式进行降维处理,再根据步骤s206所计算的证据权重对测试信息进行转换处理。随后,将转换处理后的待测信息输入所述初始消费分析模型,最后形成精准资助多级认定模型。
因此,本发明可从已经被认定的学生中寻找普遍特征,并发现离群点,作为异常贫困生;从非贫困生中,发现跟贫困生特性相似的人群,则为学校应主动关爱的学生;可有效提高识别贫困生的准确性。
参见图3,图3显示了本发明基于校园大数据环境下的精准资助多级认定方法的第三实施例流程图,其包括:
s301,采集学生的校园行为信息。
所述校园行为信息包括消费信息、基本信息及所属地区的gdp信息
s302,对所述校园信息进行清洗处理及关联处理,构建学生信息库。
s303,从学生信息库中提取目标行为信息,实现数据的二次抽取。
进一步,还可采用基于中位数的异常发现算法(mad)对目标行为信息进行清洗处理,以剔除异常变量。
s304,将所述目标行为信息划分为训练信息及测试信息。
s305,对所述训练信息进行降维处理。
优选地,本发明采用主基底方式(一种基于最大方差垂直投影的变量筛选方法)对所述训练信息进行降维处理,以保留变量的原有特征。
s306,计算降维后的训练信息的证据权重。
s307,根据证据权重的高低顺序依次将训练信息投入分类模型,构建初始消费分析模型。
优选地,可采用支持向量机方法,对学生进行分类。
s308,对所述测试信息进行特征转换处理。
需要说明的是,对所述测试信息进行特征转换处理是指,将测试信息根据步骤s305所构建的模式进行降维处理,再根据步骤s306所计算的证据权重对测试信息进行转换处理。
s309,将经特征转换处理后的测试信息输入初始消费分析模型,以完善初始消费分析模型。
s310,根据所述初始消费分析模型及待认定行为信息,构建精准资助多级认定模型。
模型对往届学生进行识别,识别结果:贫困生召回率80%,贫困生准确率28%,模型准确率60%。
下面结合实际应用,对本发明作进一步的详细描述:
(1)数据集贫困生占比18%,即如果学校对全校学生进行考核,每6个人需查出一个贫困生。应用本发明的精准资助多级认定模型后,可排除50%的非贫困学生,而学校仅需对剩下的50%的人进行考核,每4个人查出一个贫困生,对于全体考核的工作量,减少了一半。而换一个角度,模型认为这50%的人也具有贫困生的特点,学校也可以重点关注。另一方面,在目前贫困生中,有20%的主动提交申请的学生,被认为是非贫困生,学校可以主动对他们进行二次考核,确保没有虚报的情况。
(2)对于新生,当消费数据累积到一定的时间,同样可以投入分类器进行预分类,为学校给出行为特征的归类结果,方面后期筛查。
(3)对于学校人力资源限制,在通常情况下,考核50%的学生也是一个较大量的工作,模型对每个学生都会生成一个归类概率,当学校资源不足时,可以优先对概率高的学生进行核查。
参见图4,图4显示了本发明基于校园大数据环境下的精准资助多级认定系统100的具体结构,其包括采集模块1、信息库构建模块2、初始消费分析模型构建模块3及精准资助多级认定模型构建模块4,具体地:
采集模块1,用于采集学生的校园行为信息。所述校园行为信息包括消费信息、基本信息及所属地区的gdp信息。其中,消费信息包括校园一卡通消费流水;基本信息包括户籍、民族及身份证信息;所属地区的gdp信息包括来源于国家统计局的直辖县、地级市及直辖市的人均gdp。
信息库构建模块2,用于对所述校园行为信息进行清洗处理及关联处理,构建学生信息库。具体地,可采用基于中位数的异常发现算法(mad)对校园行为信息进行清洗处理,以剔除异常变量。
初始消费分析模型构建模块3,用于从学生信息库中提取目标行为信息,并根据目标行为信息计算行为评价指标,再根据行为评价指标构建初始消费分析模型。需要说明的是,所述行为评价指标是指最能表现学生贫困情况的多个参数,根据行为评价指标,及其相应的权重,即可构建初始消费分析模型。
精准资助多级认定模型构建模块4,用于根据所述初始消费分析模型及待认定行为信息,构建精准资助多级认定模型。
如图5所示,所述初始消费分析模型构建模块3包括:
提取单元31,用于从学生信息库中提取目标行为信息,所述目标行为信息包括目标平均消费信息、目标合理消费信息、目标基本信息及目标生源地信息。其中,所述目标平均消费信息包括月均消费次数、月均消费金额、各消费类型月均消费次数及各消费类型月均消费金额,即,按总体平均方式抽取月均消费次数、消费金额、以及细分到各类消费类型数据(如,餐饮、超市、水果、热水等)的月均消费次数、月均消费金额;所述目标合理消费信息包括消费总额在合理范围内的日均消费金额、日均消费方差、各消费类型的日均消费金额及各消费类型的消费方差,具体地,可结合异常值发现算法(mad),对有消费且总消费金额在合理范围内的天进行采样,抽取日均消费金额、消费方差、以及细分到各类消费类型数据(如,早、午、晚的餐饮)的日均消费金额、消费方差;目标基本信息包括民族及户籍信息,其中,民族取汉族为一类,非汉族为一类,户籍取农村为一类,非农为一类,并对其进行编码;目标生源地信息可按地域划分为华南、华北、华东、华中、西北、西南及华中,并进行独热编码(one-hot-coding)。
划分单元32,用于将所述目标行为信息划分为训练信息及测试信息。
降维单元33,用于对所述训练信息进行降维处理。由于训练信息中特征非常多,而且其中不乏一些共线严重的变量,所以需要对训练信息进行降维处理。优选地,降维单元33采用主基底方式(一种基于最大方差垂直投影的变量筛选方法)对所述训练信息进行降维处理,以保留变量的原有特征。
计算单元34,用于计算降维后的训练信息的证据权重。根据目标特征(已认定的贫困生),对降维后的特征变量(即训练信息),计算对于目标特征的证据权重(实际上是“当前分组中非目标样本占所有非目标样本的比例”和“当前分组中目标样本占所有非目标样本的比例”的差异),并用证据权重值替换原数值。最后,根据证据权重计算信息价值,信息价值越大,则该特征对目标特征的识别能力越强。
构建单元35,用于根据证据权重的高低顺序依次将训练信息投入分类模型,构建初始消费分析模型。通过逐步添加特征的方式,把特征变量(即训练信息)与目标特征(已认定的贫困生)投入分类器,进行分类器训练。优选地,可采用支持向量机方法,对学生进行分类。
因此,本发明可从已经被认定的学生中寻找普遍特征,并发现离群点,作为异常贫困生;从非贫困生中,发现跟贫困生特性相似的人群,则为学校应主动关爱的学生;可有效提高识别贫困生的准确性。
如图6所示,所述初始消费分析模型构建模块3还包括:
转换单元36,用于对所述测试信息进行特征转换处理。需要说明的是,对所述测试信息进行特征转换处理是指,将测试信息根据降维单元33所构建的模式进行降维处理,再根据计算单元34所计算的证据权重对测试信息进行转换处理。
优化单元37,用于将经特征转换处理后的测试信息输入初始消费分析模型,以优化初始消费分析模型。
因此,本发明通过结合学生在校行为表现和学生家庭情况,对学生多维信息进行转换融合及综合分析,建立高校精准资助多级认定的智能决策模型,有效改善传统的主观贫困认定方式的局限性和偏差性,提高识别贫困生的准确性和资助水平。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。