间佣率预测方法、装置、计算机设备及存储介质与流程

文档序号:16694687发布日期:2019-01-22 19:23阅读:420来源:国知局
间佣率预测方法、装置、计算机设备及存储介质与流程

本申请涉及数据处理技术领域,尤其涉及一种间佣率预测方法、装置、计算机设备及存储介质。



背景技术:

目前,对保险行业中的企业员工绩效进行核算时,常见的参数是直接佣金,间接佣金等。目前为了设置较为合理的间接佣金比率(简称间佣率)以分析其对企业运营成本的影响,一般采用参考历史月份数据进行分析和预测,准确度较低。而且间佣率分析影响条件较多,人工很难有效结合每个条件做出准确判断。



技术实现要素:

本申请提供了一种间佣率预测方法、装置、计算机设备及存储介质,旨在解决现有技术中终间接佣金比率采用参考历史月份数据进行分析和预测,准确度较低的问题。

本申请提供了一种间佣率预测方法,其包括:

获取多个员工的历史绩效数据,对所述历史绩效数据进行数据清洗,得到目标数据;其中,每一员工的历史绩效数据中包括间佣率字段和至少一个与间佣率相关的关联字段,目标数据中所包括的关联字段的数值为已补全的数值;

在目标数据中选择间佣率字段未缺失的数据作为训练集,将目标数据中间佣率字段缺失的数据作为测试集,将训练集输入随机森林模型函数,对应得到用于间佣率预测的随机森林模型;

将测试集输入随机森林模型,得到测试集中每一员工的间佣率字段对应的间佣率值。

本申请提供了一种间佣率预测装置,其包括:

数据清洗单元,用于获取多个员工的历史绩效数据,对所述历史绩效数据进行数据清洗,得到目标数据;其中,每一员工的历史绩效数据中包括间佣率字段和至少一个与间佣率相关的关联字段,目标数据中所包括的关联字段的数值为已补全的数值;

模型获取单元,用于在目标数据中选择间佣率字段未缺失的数据作为训练集,将目标数据中间佣率字段缺失的数据作为测试集,将训练集输入随机森林模型函数,对应得到用于间佣率预测的随机森林模型;

预测值获取单元,用于将测试集输入随机森林模型,得到测试集中每一员工的间佣率字段对应的间佣率值。

本申请又提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请提供的任一项所述的间佣率预测方法。

本申请还提供了一种存储介质,其中所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行本申请提供的任一项所述的间佣率预测方法。

本申请提供一种间佣率预测方法、装置、计算机设备及存储介质。该方法通过获取多个员工的历史绩效数据,对所述历史绩效数据进行数据清洗,得到目标数据;其中,每一员工的历史绩效数据中包括间佣率字段和至少一个与间佣率相关的关联字段,目标数据中所包括的关联字段的数值为已补全的数值;在目标数据中选择间佣率字段未缺失的数据作为训练集,将目标数据中间佣率字段缺失的数据作为测试集,将训练集输入随机森林模型函数,对应得到用于间佣率预测的随机森林模型;将测试集输入随机森林模型,得到测试集中每一员工的间佣率字段对应的间佣率值。该方法采用清洗后的多个员工的历史绩效数据作为训练集,输入随机森林模型函数,得到用于间佣率预测的随机森林模型,预测值准确率高,不会产生过拟合现象。

附图说明

为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种间佣率预测方法的示意流程图;

图2为本申请实施例提供的一种间佣率预测方法的子流程示意图;

图3为本申请实施例提供的一种间佣率预测方法的另一示意流程图;

图4为本申请实施例提供的一种间佣率预测方法的另一子流程示意图;

图5为本申请实施例提供的一种间佣率预测方法的另一子流程示意图;

图6为本申请实施例提供的一种间佣率预测装置的示意性框图;

图7为本申请实施例提供的一种间佣率预测装置的子单元示意性框图;

图8为本申请实施例提供的一种间佣率预测装置的另一示意性框图;

图9为本申请实施例提供的一种间佣率预测装置的另一子单元示意性框图;

图10为本申请实施例提供的一种间佣率预测装置的另一子单元示意性框图;

图11为本申请实施例提供的一种计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

请参阅图1,图1是本申请实施例提供的一种间佣率预测方法的示意流程图。该方法应用于台式电脑、手提电脑、平板电脑等终端中,也可以应用于服务器中。如图1所示,该方法包括步骤s101~s103。

s101、获取多个员工的历史绩效数据,对所述历史绩效数据进行数据清洗,得到目标数据;其中,每一员工的历史绩效数据中包括间佣率字段和至少一个与间佣率相关的关联字段,目标数据中所包括的关联字段的数值为已补全的数值。

在本实施例中,存储有员工的绩效数据的服务器端先将多个员工的历史绩效数据导入一指定的数据表格中,再从该数据表格中获取多个员工的历史绩效数据。其中,员工的历史绩效数据中每行是一训练样例(即员工),每列是该样例的特征,可以理解为每一列对应一个特征字段。例如,每一行的训练样例具有以下字段:

员工工号id;

姓名;

性别:male=男性,female=女性;

年龄;

在企业内的直系亲属总人数;

在企业内的旁系亲属总人数;

在企业内的校友总人数;

工资;

职位级别;

直接佣金总额;

直接佣金率;

间佣率;

其中,间佣率对应的是间佣率字段,员工工号id、姓名、性别、年龄、在企业内的直系亲属总人数、在企业内的旁系亲属总人数、在企业内的校友总人数、工资、职位级别、直接佣金总额、直接佣金率对应的是与间佣率相关的关联字段。

在获取了上述多个员工的历史绩效数据,对所述历史绩效数据进行数据清洗,得到目标数据后,间佣率字段对应的缺失值由于是需要预测的值故无需补全,而与间佣率相关的关联字段则需要数据清洗的过程中进行补全,以满足预测过程的数据需求。即多个员工的历史绩效数据可视为未处理的初始数据,其包括间佣率字段和间佣率相关的关联字段,而这些历史绩效数据中的关联字段可能存在未赋值的情况,就需要通过数据清洗的方式进行关联字段的数值的补全。

在一实施例中,如图2所示,步骤s101包括:

s1011、将多个员工的历史绩效数据中每一员工的历史绩效数据均进行完整性检查,若员工的历史绩效数据中的关联字段存在缺失值,根据缺失值所对应字段的平均值对缺失值进行补全,得到完整数据;

s1012、获取完整数据中关联字段与间佣率字段之间的相关系数,保留相关系数位于预设排名值之前的关联字段,得到初次清理后数据;

s1013、获取初次清理后数据的偏态分布,将初次清理后数据中字段对应的偏态值超出预设的偏态系数的字段进行对数运算,得到目标数据。

在本实施例中,对每一员工的历史绩效数据均进行完整性检查,是因为在预测过程中不允许存在缺失值,故需要通过平均值填充的方法对缺失值进行补全,得到完整数据。

假设有100个员工的数据,其中10个缺少在企业内的直系亲属总人数,20个缺少在企业内的校友总人数,7个缺失职位级别;此时,可通过发出提示的方式让用户进行补充,或是平均值进行自动填充。也即上述缺失的数据中,可以根据该字段的平均值对缺失值进行补充,以确保所补全的数据不影响后续的分析和运算。

获取完整数据中关联字段与间佣率字段之间的相关系数,例如获取到直接佣金率字段与间佣率字段的相关系数为0.8,获取到在企业内的校友总人数字段与间佣率字段的相关系数为0.7,上述两个字段与间佣率字段之间的相关系数排名前两位,若预设排名值为3,则可以将完整数据中除了直接佣金率字段、在企业内的校友总人数字段以及间佣率字段之外的所有字段均删除,得到初次清理后数据。

即在初次清理后数据中存在字段对应的偏态值超出了预设的偏态系数,则对该字段对应的每一数值进行取对数运算,以降低该字段的偏态值。如该字段对应的数值为x,则进行对数运算后的调整值为lnx,即以e为底取对数,通过上述调整后,即可是的数据能用于后续的随机森林模型的建立。

s102、将目标数据中间佣率字段未缺失的数据作为训练集,将目标数据中间佣率字段缺失的数据作为测试集,将训练集输入随机森林模型函数,对应得到用于间佣率预测的随机森林模型。

在本实施例中,若针对间佣率字段中的缺失值采用平均值或者随机写入的方法进行补充,会导致其准确率不高,而且会存在过度拟合的情况,导致所生成的间佣率数据应用于企业运营成本分析时,实用价值低。当采用目标数据中选择间佣率字段未缺失的数据作为训练集,将训练集输入随机森林模型函数,对应得到用于间佣率预测的随机森林模型。

例如,将中选择间佣率字段未缺失的数据输入cforest()函数,cforest()函数采用随机森林模型,即:

model<-cforest(间佣率~直接佣金率+在企业内的校友总人数)。

通过上述训练过程,即可得到用于间佣率预测的随机森林模型。

在一实施例中,如图3所示,步骤s102之后还包括:

s102a、根据预设的提取比率在训练集中随机选择对应量的数据作为验证集;

s102b、将验证集输入至随机森林模型进行模型验证,若随机森林模型的验证正确率超出预设的正确率阈值,保存所述随机森林模型。

在本实施例中,为了验证随机森林模型的准确程度,可以将训练集中再次随机挑选对应量的数据作为验证集,若得到的验证结果是随机森林模型的验证正确率超出预设的正确率阈值(预设的正确率阈值为80%),则保存该随机森林模型作为后续使用的预测模型。

在一实施例中,如图4所示,步骤s102包括:

s1021、从训练集中有放回的随机抽取第一数量的样本集,根据样本集构建第一数量的分类回归树;

s1022、将每一分类回归树根据bagging方法进行训练,得到多个决策树,并将决策树组合得到用于间佣率预测的随机森林模型。

在本实施例中,bagging方法是ensemblemethods(即集成方法)中获得用于训练baseestimator(基础估计量)的数据的重要一环。正如其名,bagging方法就是将所有训练数据放进一个黑色的bag(可形象理解为一个黑盒子或黑包裹)中,黑色意味着看不到里面的数据的详细情况,只知道里面有数据集。然后从这个bag中随机抽一部分数据出来用于训练一个baseestimator。抽到的数据用完之后有两种选择,放回或不放回。bagging技术可以有效的减小方差,即减小过拟合程度。

通过bagging技术和决策树,获取了随机森林。将决策树作为baseestimator(基础估计量),然后采用bagging技术训练一大堆小决策树,最后将这些小决策树组合起来,这样就得到了一片森林(随机森林)。

更具体的,由原始样本数据训练得到随机森林模型的过程如下:

1)从原始训练数据集中,应用bootstrap方法(其实统计学中的重采样技术)有放回地随机抽取k个新的自助样本集,并由此构建k棵分类回归树,每次未被抽到的样本组成了k个袋外数据(out-of-bag,简记为bbb);

2)设有n个特征,则在每一棵树的每个节点处随机抽取mtry个特征,通过计算每个特征蕴含的信息量,特征中选择一个最具有分类能力的特征进行节点分裂;

3)每棵树最大限度地生长,不做任何剪裁;

4)将生成的多棵树组成随机森林,用随机森林对新的数据进行分类,分类结果按树分类器投票多少而定。

随机森林顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为那一类。

在建立每一棵决策树的过程中,有两点需要注意-采样与完全分裂。首先是两个随机采样的过程,randomforest对输入的数据要进行行、列的采样。对于行采样,采用有放回的方式,也就是在采样得到的样本集合中,可能有重复的样本。假设输入样本为n个,那么采样的样本也为n个。这样使得在训练的时候,每一棵树的输入样本都不是全部的样本,使得相对不容易出现over-fitting。然后进行列采样,从m个feature中,选择m个(m<<m)。之后就是对采样之后的数据使用完全分裂的方式建立出决策树,这样决策树的某一个叶子节点要么是无法继续分裂的,要么里面的所有样本的都是指向的同一个分类。一般很多的决策树算法都一个重要的步骤-剪枝,但是这里不这样干,由于之前的两个随机采样的过程保证了随机性,所以就算不剪枝,也不会出现over-fitting。

s103、将测试集输入随机森林模型,得到测试集中每一员工的间佣率字段对应的间佣率值。

在本实施例中,将测试集输入随机森林模型,即可得到测试集中每一员工的间佣率字段对应的间佣率值,并将每一得到的间佣率至对应填充至其所对应的缺失位置,以完成间佣率的预测。

在一实施例中,如图5所示,步骤s103包括:

s1031、根据随机森林模型获取关联字段与间佣率字段之间的运算函数;

s1032、将测试集中每一员工的关联字段对应值输入所述运算函数,得到测试集中每一员工的间佣率字段对应的间佣率值。

在本实施例中,在将测试集输入随机森林模型进行训练后,即可得到关联字段与间佣率字段之间的运算函数,例如一次函数(间佣率=1.1*直接佣金率+10*在企业内的校友总人数/企业总人数等),再通过将测试集中每一员工的关联字段对应值输入所述运算函数,得到测试集中每一员工的间佣率字段对应的间佣率值,完成了间佣率的精准预测过程,避免了预测数据的过度拟合。

可见,该方法采用清洗后的多个员工的历史绩效数据作为训练集,输入随机森林模型函数,得到用于间佣率预测的随机森林模型,预测值准确率高,不会产生过拟合现象。

本申请实施例还提供一种间佣率预测装置,该间佣率预测装置用于执行前述间佣率预测方法的任一实施例。具体地,请参阅图6,图6是本申请实施例提供的一种间佣率预测装置的示意性框图。间佣率预测装置100可以配置于台式电脑、平板电脑、手提电脑、等终端中,也可以配置于服务器中。

如图6所示,间佣率预测装置100包括数据清洗单元101、模型获取单元102、预测值获取单元103。

数据清洗单元101,用于获取多个员工的历史绩效数据,对所述历史绩效数据进行数据清洗,得到目标数据;其中,每一员工的历史绩效数据中包括间佣率字段和至少一个与间佣率相关的关联字段,目标数据中所包括的关联字段的数值为已补全的数值。

在本实施例中,存储有员工的绩效数据的服务器端先将多个员工的历史绩效数据导入一指定的数据表格中,再从该数据表格中获取多个员工的历史绩效数据。其中,员工的历史绩效数据中每行是一训练样例(即员工),每列是该样例的特征,可以理解为每一列对应一个特征字段。例如,每一行的训练样例具有以下字段:

员工工号id;

姓名;

性别:male=男性,female=女性;

年龄;

在企业内的直系亲属总人数;

在企业内的旁系亲属总人数;

在企业内的校友总人数;

工资;

职位级别;

直接佣金总额;

直接佣金率;

间佣率;

其中,间佣率对应的是间佣率字段,员工工号id、姓名、性别、年龄、在企业内的直系亲属总人数、在企业内的旁系亲属总人数、在企业内的校友总人数、工资、职位级别、直接佣金总额、直接佣金率对应的是与间佣率相关的关联字段。

在获取了上述多个员工的历史绩效数据,对所述历史绩效数据进行数据清洗,得到目标数据后,间佣率字段对应的缺失值由于是需要预测的值故无需补全,而与间佣率相关的关联字段则需要数据清洗的过程中进行补全,以满足预测过程的数据需求。即多个员工的历史绩效数据可视为未处理的初始数据,其包括间佣率字段和间佣率相关的关联字段,而这些历史绩效数据中的关联字段可能存在未赋值的情况,就需要通过数据清洗的方式进行关联字段的数值的补全。

在一实施例中,如图7所示,数据清洗单元101包括:

缺失值补充单元1011,用于将多个员工的历史绩效数据中每一员工的历史绩效数据均进行完整性检查,若员工的历史绩效数据中的关联字段存在缺失值,根据缺失值所对应字段的平均值对缺失值进行补全,得到完整数据;

相关性判断单元1012,用于获取完整数据中关联字段与间佣率字段之间的相关系数,保留相关系数位于预设排名值之前的关联字段,得到初次清理后数据;

偏态计算单元1013,用于获取初次清理后数据的偏态分布,将初次清理后数据中字段对应的偏态值超出预设的偏态系数的字段进行对数运算,得到目标数据。

在本实施例中,对每一员工的历史绩效数据均进行完整性检查,是因为在预测过程中不允许存在缺失值,故需要通过平均值填充的方法对缺失值进行补全,得到完整数据。

假设有100个员工的数据,其中10个缺少在企业内的直系亲属总人数,20个缺少在企业内的校友总人数,7个缺失职位级别;此时,可通过发出提示的方式让用户进行补充,或是平均值进行自动填充。也即上述缺失的数据中,可以根据该字段的平均值对缺失值进行补充,以确保所补全的数据不影响后续的分析和运算。

获取完整数据中关联字段与间佣率字段之间的相关系数,例如获取到直接佣金率字段与间佣率字段的相关系数为0.8,获取到在企业内的校友总人数字段与间佣率字段的相关系数为0.7,上述两个字段与间佣率字段之间的相关系数排名前两位,若预设排名值为3,则可以将完整数据中除了直接佣金率字段、在企业内的校友总人数字段以及间佣率字段之外的所有字段均删除,得到初次清理后数据。

即在初次清理后数据中存在字段对应的偏态值超出了预设的偏态系数,则对该字段对应的每一数值进行取对数运算,以降低该字段的偏态值。如该字段对应的数值为x,则进行对数运算后的调整值为lnx,即以e为底取对数,通过上述调整后,即可是的数据能用于后续的随机森林模型的建立。

模型获取单元102,用于将目标数据中间佣率字段未缺失的数据作为训练集,将目标数据中间佣率字段缺失的数据作为测试集,将训练集输入随机森林模型函数,对应得到用于间佣率预测的随机森林模型。

在本实施例中,若针对间佣率字段中的缺失值采用平均值或者随机写入的方法进行补充,会导致其准确率不高,而且会存在过度拟合的情况,导致所生成的间佣率数据应用于企业运营成本分析时,实用价值低。当采用目标数据中选择间佣率字段未缺失的数据作为训练集,将训练集输入随机森林模型函数,对应得到用于间佣率预测的随机森林模型。

例如,将中选择间佣率字段未缺失的数据输入cforest()函数,cforest()函数采用随机森林模型,即:

model<-cforest(间佣率~直接佣金率+在企业内的校友总人数)。

通过上述训练过程,即可得到用于间佣率预测的随机森林模型。

在一实施例中,如图8所示,间佣率预测装置100还包括:

验证集选取单元102a,用于根据预设的提取比率在训练集中随机选择对应量的数据作为验证集;

模型验证单元102b,用于将验证集输入至随机森林模型进行模型验证,若随机森林模型的验证正确率超出预设的正确率阈值,保存所述随机森林模型。

在本实施例中,为了验证随机森林模型的准确程度,可以将训练集中再次随机挑选对应量的数据作为验证集,若得到的验证结果是随机森林模型的验证正确率超出预设的正确率阈值(预设的正确率阈值为80%),则保存该随机森林模型作为后续使用的预测模型。

在一实施例中,如图9所示,模型获取单元102包括:

分类回归树获取单元1021,用于从训练集中有放回的随机抽取第一数量的样本集,根据样本集构建第一数量的分类回归树;

决策树组合单元1022,用于将每一分类回归树根据bagging方法进行训练,得到多个决策树,并将决策树组合得到用于间佣率预测的随机森林模型。

在本实施例中,bagging方法是ensemblemethods(即集成方法)中获得用于训练baseestimator(基础估计量)的数据的重要一环。正如其名,bagging方法就是将所有训练数据放进一个黑色的bag(可形象理解为一个黑盒子或黑包裹)中,黑色意味着看不到里面的数据的详细情况,只知道里面有数据集。然后从这个bag中随机抽一部分数据出来用于训练一个baseestimator。抽到的数据用完之后有两种选择,放回或不放回。bagging技术可以有效的减小方差,即减小过拟合程度。

通过bagging技术和决策树,获取了随机森林。将决策树作为baseestimator(基础估计量),然后采用bagging技术训练一大堆小决策树,最后将这些小决策树组合起来,这样就得到了一片森林(随机森林)。

随机森林顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为那一类。

在建立每一棵决策树的过程中,有两点需要注意-采样与完全分裂。首先是两个随机采样的过程,randomforest对输入的数据要进行行、列的采样。对于行采样,采用有放回的方式,也就是在采样得到的样本集合中,可能有重复的样本。假设输入样本为n个,那么采样的样本也为n个。这样使得在训练的时候,每一棵树的输入样本都不是全部的样本,使得相对不容易出现over-fitting。然后进行列采样,从m个feature中,选择m个(m<<m)。之后就是对采样之后的数据使用完全分裂的方式建立出决策树,这样决策树的某一个叶子节点要么是无法继续分裂的,要么里面的所有样本的都是指向的同一个分类。一般很多的决策树算法都一个重要的步骤-剪枝,但是这里不这样干,由于之前的两个随机采样的过程保证了随机性,所以就算不剪枝,也不会出现over-fitting。

预测值获取单元103,用于将测试集输入随机森林模型,得到测试集中每一员工的间佣率字段对应的间佣率值。

在本实施例中,将测试集输入随机森林模型,即可得到测试集中每一员工的间佣率字段对应的间佣率值,并将每一得到的间佣率至对应填充至其所对应的缺失位置,以完成间佣率的预测。

在一实施例中,如图10所示,预测值获取单元103包括:

运算函数获取单元1031,用于预测值获取单元根据随机森林模型获取关联字段与间佣率字段之间的运算函数;

预测值计算单元1032,用于将测试集中每一员工的关联字段对应值输入所述运算函数,得到测试集中每一员工的间佣率字段对应的间佣率值。

在本实施例中,在将测试集输入随机森林模型进行训练后,即可得到关联字段与间佣率字段之间的运算函数,例如一次函数(间佣率=1.1*直接佣金率+10*在企业内的校友总人数/企业总人数等),再通过将测试集中每一员工的关联字段对应值输入所述运算函数,得到测试集中每一员工的间佣率字段对应的间佣率值,完成了间佣率的精准预测过程,避免了预测数据的过度拟合。

可见,该装置采用清洗后的多个员工的历史绩效数据作为训练集,输入随机森林模型函数,得到用于间佣率预测的随机森林模型,预测值准确率高,不会产生过拟合现象。

上述间佣率预测装置可以实现为一种计算机程序的形式,该计算机程序可以在如图11所示的计算机设备上运行。

请参阅图11,图11是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500设备可以是终端,也可以是服务器。该终端可以是平板电脑、笔记本电脑、台式电脑、个人数字助理等电子设备。

参阅图11,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令,该程序指令被执行时,可使得处理器502执行一种间佣率预测方法。

该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种间佣率预测方法。

该网络接口505用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下功能:获取多个员工的历史绩效数据,对所述历史绩效数据进行数据清洗,得到目标数据;其中,每一员工的历史绩效数据中包括间佣率字段和至少一个与间佣率相关的关联字段,目标数据中所包括的关联字段的数值为已补全的数值;将目标数据中间佣率字段未缺失的数据作为训练集,将目标数据中间佣率字段缺失的数据作为测试集,将训练集输入随机森林模型函数,对应得到用于间佣率预测的随机森林模型;将测试集输入随机森林模型,得到测试集中每一员工的间佣率字段对应的间佣率值。

在一实施例中,处理器502还执行如下操作:将多个员工的历史绩效数据中每一员工的历史绩效数据均进行完整性检查,若员工的历史绩效数据中的关联字段存在缺失值,根据缺失值所对应字段的平均值对缺失值进行补全,得到完整数据;获取完整数据中关联字段与间佣率字段之间的相关系数,保留相关系数位于预设排名值之前的关联字段,得到初次清理后数据;获取初次清理后数据的偏态分布,将初次清理后数据中字段对应的偏态值超出预设的偏态系数的字段进行对数运算,得到目标数据。

在一实施例中,处理器502还执行如下操作:根据预设的提取比率在训练集中随机选择对应量的数据作为验证集;将验证集输入至随机森林模型进行模型验证,若随机森林模型的验证正确率超出预设的正确率阈值,保存所述随机森林模型。

在一实施例中,处理器502还执行如下操作:从训练集中有放回的随机抽取第一数量的样本集,根据样本集构建第一数量的分类回归树;将每一分类回归树根据bagging方法进行训练,得到多个决策树,并将决策树组合得到用于间佣率预测的随机森林模型。

在一实施例中,处理器502还执行如下操作:根据随机森林模型获取关联字段与间佣率字段之间的运算函数;将测试集中每一员工的关联字段对应值输入所述运算函数,得到测试集中每一员工的间佣率字段对应的间佣率值。

本领域技术人员可以理解,图11中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图11所示实施例一致,在此不再赘述。

应当理解,在本申请实施例中,处理器502可以是中央处理单元(centralprocessingunit,cpu),该处理器502还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本申请的另一实施例中提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中计算机程序包括程序指令。该程序指令被处理器执行时实现:获取多个员工的历史绩效数据,对所述历史绩效数据进行数据清洗,得到目标数据;其中,每一员工的历史绩效数据中包括间佣率字段和至少一个与间佣率相关的关联字段,目标数据中所包括的关联字段的数值为已补全的数值;将目标数据中间佣率字段未缺失的数据作为训练集,将目标数据中间佣率字段缺失的数据作为测试集,将训练集输入随机森林模型函数,对应得到用于间佣率预测的随机森林模型;将测试集输入随机森林模型,得到测试集中每一员工的间佣率字段对应的间佣率值。

在一实施例中,该程序指令被处理器执行时实现:将多个员工的历史绩效数据中每一员工的历史绩效数据均进行完整性检查,若员工的历史绩效数据中的关联字段存在缺失值,根据缺失值所对应字段的平均值对缺失值进行补全,得到完整数据;获取完整数据中关联字段与间佣率字段之间的相关系数,保留相关系数位于预设排名值之前的的关联字段,得到初次清理后数据;获取初次清理后数据的偏态分布,将初次清理后数据中字段对应的偏态值超出预设的偏态系数的字段进行对数运算,得到目标数据。

在一实施例中,处理器502还执行如下操作:根据预设的提取比率在训练集中随机选择对应量的数据作为验证集;将验证集输入至随机森林模型进行模型验证,若随机森林模型的验证正确率超出预设的正确率阈值,保存所述随机森林模型。

在一实施例中,该程序指令被处理器执行时实现:从训练集中有放回的随机抽取第一数量的样本集,根据样本集构建第一数量的分类回归树;将每一分类回归树根据bagging方法进行训练,得到多个决策树,并将决策树组合得到用于间佣率预测的随机森林模型。

在一实施例中,该程序指令被处理器执行时实现:根据随机森林模型获取关联字段与间佣率字段之间的运算函数;将测试集中每一员工的关联字段对应值输入所述运算函数,得到测试集中每一员工的间佣率字段对应的间佣率值。

在一实施例中,该程序指令被处理器执行时实现:若所述数据发送端终止通讯数据的发送超出预设的时间阈值,将所述共享内存进行释放。

所述存储介质可以是前述设备的内部存储单元,例如设备的硬盘或内存。所述存储介质也可以是所述设备的外部存储设备,例如所述设备上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,所述存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1