员工数据处理方法、装置、计算机设备和存储介质与流程

文档序号：17375916发布日期：2019-04-12 23:18阅读：158来源：国知局

本申请涉及计算机技术领域，特别是涉及一种员工数据处理方法、装置、计算机设备和存储介质。

背景技术：

企业内部通常会进行定期员工评估工作，筛选出存在违规风险的员工以进行提前预警防范。传统方式中，一般先根据预警规则设定相应指标，由预警人员基于个人经验确定指标的阈值后，对高于阈值的员工清单进行抽样调查，通过人工筛选确定违规高风险员工。然而，传统方式中设定的指标及阈值是基于预警人员的个人经验，具有较强的主观性和不稳定性，导致难以准确地确定违规高风险员工。

技术实现要素：

基于此，有必要针对上述技术问题，提供一种能够准确确定违规高风险员工的员工数据处理方法、装置、计算机设备和存储介质。

一种员工数据处理方法，所述方法包括：获取待评估员工的多种待评估数据；获取预设的违规风险模型；所述违规风险模型中包含评估指标；从所述多种待评估数据中提取与所述评估指标相应的指标数据；将所述指标数据输入所述预设的违规风险模型；通过所述违规风险模型对所述指标数据进行计算，得到所述待评估员工的违规风险分数；当所述违规风险分数大于预设分数时，判定所述待评估员工为违规高风险员工。

在其中一个实施例中，在所述获取待评估员工的多种待评估数据之前，还包括：分别获取正常员工的多种建模数据，和违规员工的多种建模数据；确定每种建模数据对应的初始指标；根据每个初始指标对应的建模数据，从初始指标中选取待筛选指标；对每个待筛选指标对应的正常员工的建模数据，和相应待筛选指标对应的违规员工的建模数据进行单因素分析，筛选得到多个评估指标；基于所述多个评估指标建立违规风险模型。

在其中一个实施例中，所述根据每个初始指标的对应的建模数据，从初始指标中选取待筛选指标，包括：分别统计每个初始指标的对应的建模数据的样本数量，以及获取的所述多种建模数据的总体数量；根据所述样本数量和所述总体数量计算每个初始指标的数据缺失率；筛选出所述数据缺失率低于预设缺失率的中间指标；对每个所述中间指标进行聚类分析得到每个所述中间指标的数据异常率；将所述数据异常率低于预设异常率的中间指标作为待筛选指标。

在其中一个实施例中，所述对每个待筛选指标对应的正常员工的建模数据，和相应待筛选指标对应的违规员工的建模数据进行单因素分析，筛选得到多个评估指标，包括：统计每个待筛选指标对应的正常员工的建模数据的第一数量，和相应待筛选指标对应的违规员工的建模数据的第二数量；对每个待筛选指标对应的建模数据进行分组处理；统计每组中正常员工的建模数据的第一子数量和违规员工的建模数据的第二子数量；根据所述第一数量、第二数量、第一子数量和第二子数量计算每个待筛选指标的信息值；当信息值处于预设取值区间时，将所述信息值对应的待筛选指标作为评估指标。

在其中一个实施例中，在所述根据所述第一数量、第二数量、第一子数量和第二子数量计算每个待筛选指标的信息值之后，还包括：当信息值大于所述预设取值区间的上限取值时，对所述信息值对应的待筛选指标对应的建模数据重新进行分组处理，并循环执行所述统计每组中正常员工的建模数据的第一子数量和违规员工的建模数据的第二子数量；根据所述第一数量、第二数量、第一子数量和第二子数量计算每个待筛选指标的信息值的步骤，直至重新计算的信息值处于所述预设取值区间。

在其中一个实施例中，所述基于所述多个评估指标建立违规风险模型，包括：获取初始逻辑回归模型；从所述多个评估指标中逐一选取评估指标加入所述初始逻辑回归模型；计算加入新的评估指标的中间逻辑回归模型的准确率；当中间逻辑回归模型的准确率小于预设准确率时，筛除新加入的评估指标；当中间逻辑回归模型的准确率大于预设准确率时，保留新加入的评估指标；根据保留的评估指标构建违规风险模型。

一种员工数据处理装置，所述装置包括：获取模块，用于获取待评估员工的多种待评估数据；获取预设的违规风险模型；所述违规风险模型中包含评估指标；提取模块，用于从所述多种待评估数据中提取与所述评估指标相应的指标数据；输入模块，用于将所述指标数据输入所述预设的违规风险模型；评估模块，用于通过所述违规风险模型对所述指标数据进行计算，得到所述待评估员工的违规风险分数；当所述违规风险分数大于预设分数时，判定所述待评估员工为违规高风险员工。

在其中一个实施例中，该装置还包括：建模模块，用于分别获取正常员工的多种建模数据，和违规员工的多种建模数据；确定每种建模数据对应的初始指标；根据每个初始指标对应的建模数据，从初始指标中选取待筛选指标；对每个待筛选指标对应的正常员工的建模数据，和相应待筛选指标对应的违规员工的建模数据进行单因素分析，筛选得到多个评估指标；基于所述多个评估指标建立违规风险模型。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述各个实施例中所述的员工数据处理方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述各个实施例中所述的员工数据处理方法的步骤。

上述员工数据处理方法、装置、计算机设备和存储介质，通过提前预设包含评估指标违规风险模型，在获取到待评估员工的多种待评估数据之后，可根据评估指标从多种待评估数据中提取出指标数据。将指标数据输入违规风险模型进行计算，得到待评估员工的违规风险分数。根据违规风险分数可判定待评估员工是否为违规高风险员工。通过具有统一评估指标的违规风险模型对待评估员工打分，使得能够精准客观地确定违规高风险员工。

附图说明

图1为一个实施例中员工数据处理方法的应用场景图；

图2为一个实施例中员工数据处理方法的流程示意图；

图3为另一个实施例中员工数据处理方法的流程示意图；

图4为一个实施例中员工数据处理装置的结构框图；

图5为另一个实施例中员工数据处理装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的员工数据处理方法，可以应用于如图1所示的应用环境中。其中，多个终端102通过网络与服务器104通过网络进行通信。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。服务器104可从多个终端102获取待评估员工的多种待评估数据。服务器104在获取包含评估指标的违规风险模型之后，可从多种待评估数据中提取与评估指标相应的指标数据，并将指标数据输入预设的违规风险模型。服务器104通过违规风险模型对指标数据进行计算，可计算得到待评估员工的违规风险分数，且当违规风险分数大于预设分数时，判定待评估员工为违规高风险员工。

在一个实施例中，如图2所示，提供了一种员工数据处理方法，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：

步骤202，获取待评估员工的多种待评估数据。

待评估数据是指用于评估待评估员工违规风险的相关数据。可获取预设时长内待评估员工的多种待评估数据。待评估数据可以是员工的基础信息和行为信息，还可以是体现待评估员工的能力特点、情绪性格、社交情况等特性的数据。

在一个实施例中，基础信息可包括待评估员工的年龄、性别、学历水平、婚姻状况等其中一种或多种人口信息，还可包括待评估员工的入职时长、当前部门、职级水平、岗位调动、历史奖惩等其中一种或多种岗位信息，或者还可以包括待评估员工的各类资产和负债持有情况等资产信息。行为信息可包括待评估员工在企业系统中的报销行为，比如报销金额、报销频率、报销事项等，还可包括签报审批、邮件拦截、加班频率、打卡考勤情况等，或者还可包括银行贷款申请、保险购买和理赔情况等。体现待评估员工能力特点的数据可包括员工的绩效情况、参训情况、主导项目的情况；体现待评估员工情绪性格的数据则可以来自于定期的心理测评数据以及员工互评标签记录等；体现待评估员工社交情况的数据则可包括员工社交软件登录时长、社交软件使用频次等。通过获取待评估员工多维度的数据，能够全面地对待评估员工进行用户画像。

步骤204，获取预设的违规风险模型；违规风险模型中包含评估指标。

违规风险模型是指由基于正常员工和违规员工的多种建模数据所筛选出的评估指标构建的模型。违规风险模型可根据待评估员工的多种待评估数据对待评估员工的违规风险进行打分。违规风险是指待评估员工在未来一段时间发生违规行为的风险，违规行为可以是费用违规、行为违规等。评估指标是指能预测违规员工的指标。评估指标可以是待评估员工的多种待评估数据中的至少一种待评估数据所对应的指标。预设的违规风险模型可存储与服务器中，也可存储于其他计算机设备中，使得服务器可进行调用。

步骤206，从多种待评估数据中提取与评估指标相应的指标数据。

指标数据是指与评估指标对应的待评估员工的待评估数据。比如说，若待评估数据包括{30岁，男，硕士，已婚}，其中，30对应年龄指标、男对应性别指标、硕士对应学历水平指标、已婚对应婚姻状况指标，当评估指标为性别与学历水平，则指标数据为{男，硕士}。

步骤208，将指标数据输入预设的违规风险模型。

步骤210，通过违规风险模型对指标数据进行计算，得到待评估员工的违规风险分数。

违规风险分数是指用于判定待评估员工的违规风险的数值。

在一个实施例中，违规风险模型可基于输入的指标数据进行计算，输出待评估员工在未来一段时间发生违规行为的概率值。违规风险模型还可将概率值转换为违规风险分数。

比如，当概率值为0.6时，可将概率值转换为百分制的违规风险分数60分。还可以对概率值划分多个取值区间，并对每个取值区间预设对应的违规风险分数或违规风险等级。比如，当概率值处于(0，0.2)区间时，违规风险分数为1分；当概率值处于(0.2，0.4)区间时，违规风险分数为2分；当概率值处于(0.4，0.6)区间时，违规风险分数为3分；当概率值处于(0.6，0.8)区间时，违规风险分数为4分；当概率值处于(0.8，1)区间时，违规风险分数为5分。

步骤212，当违规风险分数大于预设分数时，判定待评估员工为违规高风险员工。

当违规风险分数大于预设分数时，说明该待评估员工的违规风险较大，则可判定大于预设分数的违规风险分数对应的待评估员工为违规高风险员工。

在一个实施例中，可对多个待评估员工通过上述方法进行评估打分，根据判定为违规高风险员工生成预警名单，并将预警名单发送至相关部门进行预警防范。

上述员工数据处理方法中，通过提前预设包含评估指标违规风险模型，在获取到待评估员工的多种待评估数据之后，可根据评估指标从多种待评估数据中提取出指标数据。将指标数据输入违规风险模型进行计算，得到待评估员工的违规风险分数。根据违规风险分数可判定待评估员工是否为违规高风险员工。通过具有统一评估指标的违规风险模型对待评估员工打分，使得能够精准客观地确定违规高风险员工。

在一个实施例中，在获取待评估员工的多种待评估数据之前，还包括：分别获取正常员工的多种建模数据，和违规员工的多种建模数据；确定每种建模数据对应的初始指标；根据每个初始指标对应的建模数据，从初始指标中选取待筛选指标；对每个待筛选指标对应的正常员工的建模数据，和相应待筛选指标对应的违规员工的建模数据进行单因素分析，筛选得到多个评估指标；基于多个评估指标建立违规风险模型。

正常员工是指预设时长内未发生违规行为的员工，违规员工是指预设时长内发生违规行为的员工。建模数据是指员工的相关历史数据，用于构建违规风险模型。相应地，建模数据也可以是员工的基础信息和行为信息，还可以是体现待评估员工的能力特点、情绪性格、社交情况等特性的数据。通过大量员工的多种建模数据可确定每种建模数据对应的初始指标。初始指标中通常比较大量，会涉及到较多的无用指标。无用指标是指不受员工是否发生违规行为影响的指标，无用指标无法用于预测员工的违规风险。因此，首先需要对初始指标进行初步选取，得到待筛选指标。

在一个实施例中，根据每个初始指标的对应的建模数据，从初始指标中选取待筛选指标，包括：分别统计每个初始指标的对应的建模数据的样本数量，以及获取的多种建模数据的总体数量；根据样本数量和总体数量计算每个初始指标的数据缺失率；筛选出数据缺失率低于预设缺失率的中间指标；对每个中间指标进行聚类分析得到每个中间指标的数据异常率；将数据异常率低于预设异常率的中间指标作为待筛选指标。

数据缺失率可通过以下公式计算：数据缺失率＝(总体数量-样本数量)/总体数量。数据异常率可通过k-means聚类算法等对每个初始指标的对应的建模数据进行点群分析，分析建模数据分布中是否存在大量离群点或异常值。通过分析初始指标的数据缺失率和数据异常率，能够剔除数据缺失率高或存在大量离群点或异常值的无用指标，从而得到对应建模数据较为完整的待筛选指标。

在一个实施例中，对每个待筛选指标对应的正常员工的建模数据，和相应待筛选指标对应的违规员工的建模数据进行单因素分析，筛选得到多个评估指标，包括：统计每个待筛选指标对应的正常员工的建模数据的第一数量，和相应待筛选指标对应的违规员工的建模数据的第二数量；对每个待筛选指标对应的建模数据进行分组处理；统计每组中正常员工的建模数据的第一子数量和违规员工的建模数据的第二子数量；根据第一数量、第二数量、第一子数量和第二子数量计算每个待筛选指标的信息值；当信息值处于预设取值区间时，将信息值对应的待筛选指标作为评估指标。

举例来说，将待筛选指标对应的建模数据进行分组处理(分为n组)。比如，对待筛选指标“年龄”进行分组，18-25、25-35、35-45、45-55、55以上各为一组；再比如，对待筛选指标“员工报销金额在特定区间的报销次数”进行分组，0-10、10-20、20以上各为一组。分别统计待筛选指标“年龄”对应的全部建模数据中正常员工的第一数量和违规员工的第二数量，以及每组中正常员工的第一子数量和违规员工的第二子数量。

在一个实施例中，可通过公式计算每个待筛选指标的信息值iv。信息值iv为每个分组的子信息值ivi之和。其中，#bi为第i分组中违规员工的第二子数量，#bt为整体中费用违规员工的第二数量，#gi为第i分组中正常员工的第一子数量，#gt为整体中正常员工的第一数量。信息值反映了每个待筛选指标的每个分组下，违规员工对正常员工占比和总体中违规员工对正常员工占比之间的差异。通过待筛选指标能够更具有针对性地刻画费用违规员工的用户画像，减少不必要因素的干扰。

在一个实施例中，在根据第一数量、第二数量、第一子数量和第二子数量计算每个待筛选指标的信息值之后，还包括：当信息值大于预设取值区间的上限取值时，对信息值对应的待筛选指标对应的建模数据重新进行分组处理，并循环执行统计每组中正常员工的建模数据的第一子数量和违规员工的建模数据的第二子数量；根据第一数量、第二数量、第一子数量和第二子数量计算每个待筛选指标的信息值的步骤，直至重新计算的信息值处于预设取值区间。

当信息值大于预设取值区间的上限取值时，说明可能存在分组不均衡特例情况导致信息值过高的情况。因此需要重新调整分组，使得分组能够更加自由，避免特例情况导致信息值过高的情况，从而使得分析得到的待筛选指标的信息值更加贴合实际情况。当信息值小于预设取值区间的下限取值时，说明对应的待筛选变量并不能够很好的预测违规员工，因此需要将对应信息值过低的待筛选变量剔除。通过对待筛选指标不断的筛选，得到能够用于预测违规员工的评估指标。

在一个实施例中，还可以通过梯度提升决策树算法，计算每个待筛选指标的特征重要性，选取特征重要性较高的待筛选指标作为评估指标。并通过筛选得到的评估指标直接进行建模，得到违规风险模型。

在一个实施例中，基于多个评估指标建立违规风险模型，包括：获取初始逻辑回归模型；从多个评估指标中逐一选取评估指标加入初始逻辑回归模型；计算加入新的评估指标的中间逻辑回归模型的准确率；当中间逻辑回归模型的准确率小于预设准确率时，筛除新加入的评估指标；当中间逻辑回归模型的准确率大于预设准确率时，保留新加入的评估指标；根据保留的评估指标构建违规风险模型。

通过逐步回归方法，逐一选取评估指标加入初始逻辑回归模型，并通过生成加入新的评估指标的中间逻辑回归模型的roc曲线(receiveroperatingcharacteristiccurve，受试者工作特征曲线)或混淆矩阵等，得到中间逻辑回归模型的auc(areaundercurve，roc曲线下的面积)值、准确率、精确率或查全率，对中间逻辑回归模型进行验证。可按照信息值有大到小的顺序，将对应的评估指标逐一加入初始逻辑回归模型。当中间逻辑回归模型的准确率小于预设准确率，则说明新加入的评估指标不适用，则需要将该新加入的评估指标剔除；当中间逻辑回归模型的准确率大于预设准确率，则可将该新加入的评估指标保留并入模。

在一个实施例中，还可针对每个评估变量进行建模，并将多个模型的输出结果进行组合，得到违规风险模型。举例来说，获取初始逻辑回归模型，如下公式所示：待评估员工为违规高风险员工的概率为则待评估员工为正常员工的概率为其中，y＝1表示待评估员工为高风险员工的情况，y＝0表示待评估员工为正常员工的情况。令θ^tx＝g(x)＝β0+β1x+β2x²+...+βkx^k，其中，β0为常量，β1……βk为拟合系数。待评估员工为违规高风险员工和正常员工的概率比为对两边取对数则为线性函数根据选取的评估指标对应的建模数据对线性函数进行拟合训练，得到拟合系数的具体值。根据拟合得到的具体值可以得到拟合后的逻辑回归模型。可将待评估员工的该评估指标对应的待评估数据带入相应的逻辑回归模型，得到针对该评估指标的违规风险概率。得到每个评估指标对应的拟合后的逻辑回归模型之后，可综合每个逻辑回归模型得到违规风险模型。违规风险模型可用于对每个逻辑回归模型计算出的概率进行加权求和，转换为相应的违规风险分数，以此衡量待评估员工的违规风险大小。比如说共有四个评估指标，每个评估指标相应的逻辑回归模型计算出的违规风险概率为p1、p2、p3、p4，及相应的权重为w1、w2、w3、w4，则违规风险分数可为：q＝p1*w1+p2*w2+p3*w3+p4*w4。

在一个实施例中，可绘制每个评估指标对应的逻辑回归模型的roc曲线，计算每个roc曲线对应的auc值，根据auc值确定相应逻辑回归模型的权重。根据auc值衡量逻辑回归模型的准确率和稳定性，使得在考虑多个评估指标的情况下，能够准确地确定每个评估指标的可参考程度，从而提高违规风险模型的评分准确性。

在一个实施例中，如图3所示，提供了一种员工数据处理方法，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：

步骤302，分别获取正常员工的多种建模数据，和违规员工的多种建模数据。

步骤304，确定每种建模数据对应的初始指标。

步骤306，分别统计每个初始指标的对应的建模数据的样本数量，以及获取的多种建模数据的总体数量。

步骤308，根据样本数量和总体数量计算每个初始指标的数据缺失率。

步骤310，筛选出数据缺失率低于预设缺失率的中间指标。

步骤312，对每个中间指标进行聚类分析得到每个中间指标的数据异常率。

步骤314，将数据异常率低于预设异常率的中间指标作为待筛选指标。

步骤316，统计每个待筛选指标对应的正常员工的建模数据的第一数量，和相应待筛选指标对应的违规员工的建模数据的第二数量。

步骤318，对每个待筛选指标对应的建模数据进行分组处理。

步骤320，统计每组中正常员工的建模数据的第一子数量和违规员工的建模数据的第二子数量。

步骤322，根据第一数量、第二数量、第一子数量和第二子数量计算每个待筛选指标的信息值。

步骤324，当信息值处于预设取值区间时，将信息值对应的待筛选指标作为评估指标。

步骤326，当信息值大于预设取值区间的上限取值时，对信息值对应的待筛选指标对应的建模数据重新进行分组处理。

循环执行步骤320和步骤322，直至重新计算的信息值处于预设取值区间。

步骤328，基于多个评估指标建立违规风险模型。

步骤330，获取待评估员工的多种待评估数据。

步骤332，获取预设的违规风险模型；违规风险模型中包含评估指标。

步骤334，从多种待评估数据中提取与评估指标相应的指标数据。

步骤336，将指标数据输入预设的违规风险模型。

步骤338，通过违规风险模型对指标数据进行计算，得到待评估员工的违规风险分数。

步骤340，当违规风险分数大于预设分数时，判定待评估员工为违规高风险员工。

上述员工数据处理方法中，通过正常员工和违规员工的多种建模数据得到多种初始指标。从初始指标中提取出数据缺失率和数据异常率较低的待筛选指标。通过对待筛选指标对应的建模数据进行计算，得到每个待筛选指标的信息值。信息值精准且量化地反映了待筛选指标的可参考性，并再次筛选出可参考性高的评估指标。根据评估指标中的至少一个进行建模，得到违规风险模型。通过提前预设包含评估指标违规风险模型，在获取到待评估员工的多种待评估数据之后，可根据评估指标从多种待评估数据中提取出指标数据。将指标数据输入违规风险模型进行计算，得到待评估员工的违规风险分数。根据违规风险分数可判定待评估员工是否为违规高风险员工。通过具有统一评估指标的违规风险模型对待评估员工打分，使得能够精准客观地确定违规高风险员工。

应该理解的是，虽然图2和3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2和3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种员工数据处理装置400，包括：获取模块402，用于获取待评估员工的多种待评估数据；获取预设的违规风险模型；违规风险模型中包含评估指标；提取模块404，用于从多种待评估数据中提取与评估指标相应的指标数据；输入模块406，用于将指标数据输入预设的违规风险模型；评估模块408，用于通过违规风险模型对指标数据进行计算，得到待评估员工的违规风险分数；当违规风险分数大于预设分数时，判定待评估员工为违规高风险员工。

在一个实施例中，如图5所示，提供了一种员工数据处理装置500，该装置还包括：建模模块502，用于分别获取正常员工的多种建模数据，和违规员工的多种建模数据；确定每种建模数据对应的初始指标；根据每个初始指标对应的建模数据，从初始指标中选取待筛选指标；对每个待筛选指标对应的正常员工的建模数据，和相应待筛选指标对应的违规员工的建模数据进行单因素分析，筛选得到多个评估指标；基于多个评估指标建立违规风险模型。

在一个实施例中，建模模块502还用于分别统计每个初始指标的对应的建模数据的样本数量，以及获取的多种建模数据的总体数量；根据样本数量和总体数量计算每个初始指标的数据缺失率；筛选出数据缺失率低于预设缺失率的中间指标；对每个中间指标进行聚类分析得到每个中间指标的数据异常率；将数据异常率低于预设异常率的中间指标作为待筛选指标。

在一个实施例中，建模模块502还用于统计每个待筛选指标对应的正常员工的建模数据的第一数量，和相应待筛选指标对应的违规员工的建模数据的第二数量；对每个待筛选指标对应的建模数据进行分组处理；统计每组中正常员工的建模数据的第一子数量和违规员工的建模数据的第二子数量；根据第一数量、第二数量、第一子数量和第二子数量计算每个待筛选指标的信息值；当信息值处于预设取值区间时，将信息值对应的待筛选指标作为评估指标。

在一个实施例中，建模模块502还用于当信息值大于预设取值区间的上限取值时，对信息值对应的待筛选指标对应的建模数据重新进行分组处理，并循环执行统计每组中正常员工的建模数据的第一子数量和违规员工的建模数据的第二子数量；根据第一数量、第二数量、第一子数量和第二子数量计算每个待筛选指标的信息值的步骤，直至重新计算的信息值处于预设取值区间。

在一个实施例中，建模模块502还用于获取初始逻辑回归模型；从多个评估指标中逐一选取评估指标加入初始逻辑回归模型；计算加入新的评估指标的中间逻辑回归模型的准确率；当中间逻辑回归模型的准确率小于预设准确率时，筛除新加入的评估指标；当中间逻辑回归模型的准确率大于预设准确率时，保留新加入的评估指标；根据保留的评估指标构建违规风险模型。

关于员工数据处理装置的具体限定可以参见上文中对于员工数据处理方法的限定，在此不再赘述。上述员工数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储违规风险模型。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种员工数据处理方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取待评估员工的多种待评估数据；获取预设的违规风险模型；违规风险模型中包含评估指标；从多种待评估数据中提取与评估指标相应的指标数据；将指标数据输入预设的违规风险模型；通过违规风险模型对指标数据进行计算，得到待评估员工的违规风险分数；当违规风险分数大于预设分数时，判定待评估员工为违规高风险员工。

在一个实施例中，处理器执行计算机程序时，在所实现的获取待评估员工的多种待评估数据的步骤之前，还包括以下步骤：分别获取正常员工的多种建模数据，和违规员工的多种建模数据；确定每种建模数据对应的初始指标；根据每个初始指标对应的建模数据，从初始指标中选取待筛选指标；对每个待筛选指标对应的正常员工的建模数据，和相应待筛选指标对应的违规员工的建模数据进行单因素分析，筛选得到多个评估指标；基于多个评估指标建立违规风险模型。

在一个实施例中，处理器执行计算机程序时，所实现的根据每个初始指标的对应的建模数据，从初始指标中选取待筛选指标的步骤，包括以下步骤：分别统计每个初始指标的对应的建模数据的样本数量，以及获取的多种建模数据的总体数量；根据样本数量和总体数量计算每个初始指标的数据缺失率；筛选出数据缺失率低于预设缺失率的中间指标；对每个中间指标进行聚类分析得到每个中间指标的数据异常率；将数据异常率低于预设异常率的中间指标作为待筛选指标。

在一个实施例中，处理器执行计算机程序时，所实现的对每个待筛选指标对应的正常员工的建模数据，和相应待筛选指标对应的违规员工的建模数据进行单因素分析，筛选得到多个评估指标的步骤，包括以下步骤：统计每个待筛选指标对应的正常员工的建模数据的第一数量，和相应待筛选指标对应的违规员工的建模数据的第二数量；对每个待筛选指标对应的建模数据进行分组处理；统计每组中正常员工的建模数据的第一子数量和违规员工的建模数据的第二子数量；根据第一数量、第二数量、第一子数量和第二子数量计算每个待筛选指标的信息值；当信息值处于预设取值区间时，将信息值对应的待筛选指标作为评估指标。

在一个实施例中，处理器执行计算机程序时，在所实现的根据第一数量、第二数量、第一子数量和第二子数量计算每个待筛选指标的信息值的步骤之后，还包括以下步骤：当信息值大于预设取值区间的上限取值时，对信息值对应的待筛选指标对应的建模数据重新进行分组处理，并循环执行统计每组中正常员工的建模数据的第一子数量和违规员工的建模数据的第二子数量；根据第一数量、第二数量、第一子数量和第二子数量计算每个待筛选指标的信息值的步骤，直至重新计算的信息值处于预设取值区间。

在一个实施例中，处理器执行计算机程序时，所实现的基于多个评估指标建立违规风险模型的步骤，包括以下步骤：获取初始逻辑回归模型；从多个评估指标中逐一选取评估指标加入初始逻辑回归模型；计算加入新的评估指标的中间逻辑回归模型的准确率；当中间逻辑回归模型的准确率小于预设准确率时，筛除新加入的评估指标；当中间逻辑回归模型的准确率大于预设准确率时，保留新加入的评估指标；根据保留的评估指标构建违规风险模型。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取待评估员工的多种待评估数据；获取预设的违规风险模型；违规风险模型中包含评估指标；从多种待评估数据中提取与评估指标相应的指标数据；将指标数据输入预设的违规风险模型；通过违规风险模型对指标数据进行计算，得到待评估员工的违规风险分数；当违规风险分数大于预设分数时，判定待评估员工为违规高风险员工。

在一个实施例中，计算机程序被处理器执行时，在所实现的获取待评估员工的多种待评估数据的步骤之前，还包括以下步骤：分别获取正常员工的多种建模数据，和违规员工的多种建模数据；确定每种建模数据对应的初始指标；根据每个初始指标对应的建模数据，从初始指标中选取待筛选指标；对每个待筛选指标对应的正常员工的建模数据，和相应待筛选指标对应的违规员工的建模数据进行单因素分析，筛选得到多个评估指标；基于多个评估指标建立违规风险模型。

在一个实施例中，计算机程序被处理器执行时，所实现的根据每个初始指标的对应的建模数据，从初始指标中选取待筛选指标的步骤，包括以下步骤：分别统计每个初始指标的对应的建模数据的样本数量，以及获取的多种建模数据的总体数量；根据样本数量和总体数量计算每个初始指标的数据缺失率；筛选出数据缺失率低于预设缺失率的中间指标；对每个中间指标进行聚类分析得到每个中间指标的数据异常率；将数据异常率低于预设异常率的中间指标作为待筛选指标。

在一个实施例中，计算机程序被处理器执行时，所实现的对每个待筛选指标对应的正常员工的建模数据，和相应待筛选指标对应的违规员工的建模数据进行单因素分析，筛选得到多个评估指标的步骤，包括以下步骤：统计每个待筛选指标对应的正常员工的建模数据的第一数量，和相应待筛选指标对应的违规员工的建模数据的第二数量；对每个待筛选指标对应的建模数据进行分组处理；统计每组中正常员工的建模数据的第一子数量和违规员工的建模数据的第二子数量；根据第一数量、第二数量、第一子数量和第二子数量计算每个待筛选指标的信息值；当信息值处于预设取值区间时，将信息值对应的待筛选指标作为评估指标。

在一个实施例中，计算机程序被处理器执行时，在所实现的根据第一数量、第二数量、第一子数量和第二子数量计算每个待筛选指标的信息值的步骤之后，还包括以下步骤：当信息值大于预设取值区间的上限取值时，对信息值对应的待筛选指标对应的建模数据重新进行分组处理，并循环执行统计每组中正常员工的建模数据的第一子数量和违规员工的建模数据的第二子数量；根据第一数量、第二数量、第一子数量和第二子数量计算每个待筛选指标的信息值的步骤，直至重新计算的信息值处于预设取值区间。

在一个实施例中，计算机程序被处理器执行时，所实现的基于多个评估指标建立违规风险模型的步骤，包括以下步骤：获取初始逻辑回归模型；从多个评估指标中逐一选取评估指标加入初始逻辑回归模型；计算加入新的评估指标的中间逻辑回归模型的准确率；当中间逻辑回归模型的准确率小于预设准确率时，筛除新加入的评估指标；当中间逻辑回归模型的准确率大于预设准确率时，保留新加入的评估指标；根据保留的评估指标构建违规风险模型。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘宇晗;廖林方;何威
技术所有人：平安科技（深圳）有限公司
我是此专利的发明人

上一篇：一种带热油箱可回油的航空发动机热管理系统的制作方法
上一篇：一种拆装快捷的多旋翼无人机机臂结构的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。