一种基于磁卡考勤行为的用户数据处理系统及处理方法

文档序号:6550230阅读:250来源:国知局
一种基于磁卡考勤行为的用户数据处理系统及处理方法
【专利摘要】本发明公开了一种基于磁卡考勤行为的用户数据处理系统及处理方法,包括:数据预处理模块;考勤综合评级模块;异常行为检测模块;潜在社交网络发现模块;考勤行为异常预警模块。所述方法利用数据统计方法,针对企事业单位用户考勤数据进行用户考勤行为模式的综合分析,从而对用户进行综合考勤量化评级,发现考勤优秀用户。所述方法利用数据挖掘方法从考勤数据中发现诸如“代刷卡”、“先刷卡后吃饭”等潜在异常行为,从考勤优秀用户中识别伪优秀用户。本发明利用考勤数据的特性,针对用户异常考勤行为进行预警,同时发现用户间的潜在关系网络,最终为人事考核与决策提供支持。
【专利说明】一种基于磁卡考勤行为的用户数据处理系统及处理方法
【技术领域】
[0001]本发明属于计算机应用【技术领域】,涉及一种基于磁卡考勤行为的用户数据处理系统及处理方法
【背景技术】
[0002]随着时代的发展以及市场竞争的加剧,人力资源已经成为近年来各企事业单位的核心竞争力。如何有效地进行人力资源管理(Human Resource Management,HRM),是单位增强核心竞争力、提高效率并降低成本的必要途径。伴随着信息化时代的到来,HRM经历了从20世纪60年代末的第一代HRM系统(简单薪酬统计计算),到20世纪70年代末的第二代HRM系统(基于数据库技术的管理能力),直至21世纪初的第三代HRM系统(基于网络技术的分布式处理);由传统的手工管理,发展到了能够利用计算机强大计算能力进行自动管理的阶段,将HRM人员从大量的体力劳动中解脱出来,极大提高了工作效率。
[0003]人事考勤管理(PersonnelCheck-On-ffork-Attendance Management, PCOffAM)作为HRM的重要组成部分,其管理对象定义为用户(企事业单位员工,以及其他考勤行为的主体)。它能够根据用户考勤行为科学制定用户绩效与薪酬福利,从而调动用户的积极性,发挥用户的潜能,为单位创造价值,给单位带来效益。利用信息化技术快速有效地进行PCOWAM保证了单位目标实现与成员发展的最大化,在HRM信息化中对提高单位的工作效率,展现单位的现代管理风貌具有重要的实际意义。
[0004]PCOWAM根据其考勤方式可以分为磁卡式考勤(例如各种接触式或非接触式的IC卡)以及生物特性识别考勤(例如人脸、指纹、虹膜等)。相应地,考勤系统可分为磁卡考勤系统和生物考勤系统。
[0005]磁卡考勤系统的特点在于用磁卡作为考勤介质进行刷卡式考勤,而不需人的过多干预;同时刷卡数据为结构化,便于计算机存储与处理。所以磁卡考勤系统的优势在于软硬件成本较低,便于大规模推广使用。但是其缺点在于:①无法杜绝代考勤行为(即“代刷卡”)磁卡有易复制性和寿命不长的缺陷,故系统的后期维护成本较高考勤数据一般是结构化或明码保存,保密性能较差。
[0006]生物考勤系统的特点在于其考勤介质为人自身,故具有天然的防伪性,可以彻底杜绝代考勤行为。同样地,由于考勤介质为人自身,故不存在介质丢失问题,所以生物考勤系统的后期维护工作成本较低。但是其存在着明显的缺点:考勤介质的复杂性决定了系统软硬件设施的高成本,例如基于虹膜识别考勤系统的采集硬件与分析识别软件的复杂性要远远高于磁卡式系统。这种高成本导致了该系统无法大规模推广使用。
[0007]除了上述提及的两类考勤系统所存在的固有问题,目前的PCOWAM系统仍然具有如下不足之处:(I)当前系统对于用户考勤行为的评价为简单定性分析,如全勤、半勤或缺勤等粗粒度分析,而没有对考勤行为作细粒度的量化评级,以区分出考勤优秀用户、一般用户和懒散用户;(2)当前系统仅提供简单的考勤数据采集、录入、存储,以及有限的统计分析(例如薪资计算、出勤率统计等),而针对考勤数据的深度挖掘和决策支持功能有待进一步提高。例如,当前系统无法有效地从考勤数据中发现用户的异常考勤行为(例如“代刷卡”、“先刷卡后吃饭”等行为)并对这些异常行为进行预警,从而导致系统的可信度不高,尤其是磁卡考勤系统;(3)当前系统忽视了考勤数据中所体现出来的用户间潜在关系网络。该潜在关系网络由用户的考勤行为产生,能够从另一个侧面反映用户自发的社交关系与群体状态,发现该网络对于用户的科学管理、领导掌握用户群体状态并做出正确的决策能够起到促进作用。

【发明内容】

[0008]本发明的技术解决问题:克服现有技术的不足,提供一种基于磁卡考勤行为的用户数据处理系统及处理方法,充分利用考勤数据的特性,帮助分析与理解用户的整体考勤模式;对用户考勤行为进行量化评级;针对用户异常考勤行为进行快速识别与预警;同时能够发现用户间的潜在关系;最终为人事考核与决策提供支持。
[0009]本发明技术解决方案:一种基于磁卡考勤的用户数据处理系统,包括:考勤数据预处理模块、考勤综合量化评级模块、伪考勤异常行为检测模块、代考勤异常行为检测模块、潜在社交网络发现模块和考勤行为的异常预警模块;其中:
[0010]考勤数据预处理模块,通过正规化以及时序关联识别处理,将输入的原始考勤数据集转化成后续分析所需要的目标数据集,所述目标数据集包括时序流数据集以及时序横行数据集;所述正规化处理将原始考勤数据转化成表格形式的时序流数据集,表格每一行记录称作一条“流”,包含用户名、刷卡时间、刷卡地点、刷卡状态信息;所述时序关联识别处理将时序流数据集转化成CSV(Comma Separated Values:逗号分隔值)文件结构的时序横行数据集,所述横行数据中的每一横行代表一个连续的行为序列,即一个较短时间段内的密集刷卡行为;所述横行记录了连续行为序列所发生的时间或时间戳,以及同时发生的多个流;
[0011]考勤综合量化评级模块,通过统计方法对时序流数据集进行处理,得到用户整体考勤模式以及用户考勤多指标得分;所述用户整体考勤模式分为时序模式和空间模式,即通过时序统计得到用户的整体考勤时序模式,通过空间统计得到用户的整体考勤空间模式;所述多指标得分是指通过统计分析得到用户考勤综合得分,对每个用户的考勤行为进行量化评级,最终得到“考勤优秀用户”;
[0012]考勤异常行为检测模块,所述考勤异常行为检测包括“伪考勤”异常行为检测和“代考勤”异常行为检测,所述“伪考勤”异常行为检测是通过构建伪考勤检测模型,对时序流数据集进行分析,发现用户考勤数据中的伪考勤行为即刷卡之后没有进入工作场所开展正常工作,而是立即离开工作场所;所述“代考勤”异常行为检测是通过频繁模式和关联分析的数据挖掘方法,对时序流数据集以及时序横行数据集进行挖掘分析,发现用户考勤数据中的代考勤行为,即某一用户U1的刷卡考勤行为不是由自己完成,而是由其他用户U2代劳,表现在U1和U2的考勤时间间隔非常短,可以认为是同一个用户的考勤行为;
[0013]潜在社交网络发现模块,通过基于可视化场景图的数据挖掘方法,探测基于考勤行为的用户潜在社交网络;再利用可视化人机交互的方式修正所生成的社交网络,便于从网络中捕获易于人理解的用户间潜在关系;
[0014]考勤行为异常预警模块,通过建立考勤行为多元回归预测模型,对异常考勤行为进行预警,使得决策者能够根据预警及时做出决策响应结果。
[0015]一种基于磁卡考勤行为的用户数据处理方法,实现步骤为:
[0016]1.考勤数据预处理
[0017]该方法通过正规化以及时序关联识别处理,将输入的原始考勤数据集转化成后续分析所需要的目标数据集:时序流数据集以及时序横行数据集。其中处理后的数据集与传统的PCOWAM数据的不同点在于:
[0018]I)与传统数据相比,时序流数据集为表格形式,表格每一行记录称作一条“流”,包含用户名、刷卡时间、刷卡地点、刷卡状态等信息。这种数据结构便于计算机对其进行自动化处理,例如排序、查询、遍历等操作。
[0019]2)与传统数据相比,时序横行数据集包含有用户之间在考勤行为上的时序关联信息,便于方法从中挖掘出异常考勤行为以及发现用户潜在关系网络。
[0020]2.考勤综合量化评级
[0021]该方法通过统计的方法对时序流数据集进行处理,通过对考勤时间的细粒度评价,得到用户整体考勤模式以及用户考勤综合得分,最终得到“考勤优秀用户”。
[0022]该方法基于时空统计方法所获得的用户整体考勤模式分为时序模式以及空间模式,能够从宏观上表达出整体用户所具有的时间上或者空间上的考勤行为特征。
[0023]该方法基于多维指标量化模型所获得的用户考勤综合得分,能够对每个用户的考勤行为进行量化评级,便于科学分析与评价不同用户的考勤质量。
[0024]3.“伪考勤”异常行为检测
[0025]该方法通过构建伪考勤检测模型,能够发现用户考勤数据中的伪考勤行为(即刷卡之后没有进入工作场所开展正常工作,而是立即离开工作场所。例如“先刷卡后吃饭”行为:在考勤时间点之前刷卡,然后离开去吃饭,最后在考勤要求时间点之后再次刷卡进入工作场所)。
[0026]该方法对于节省人力、提高效率、改善管理环境,并提高考勤制度约束力具有促进作用。
[0027]4.“代考勤”异常行为检测
[0028]该方法通过频繁模式挖掘以及关联分析,能够发现用户考勤数据中的代考勤行为(即某一用户U1的刷卡考勤行为不是由自己完成,而是由其他用户U2代劳,表现在U1和U2的考勤时间间隔非常短,可以认为是同一个用户的考勤行为)。
[0029]该方法对于提高考勤可信度与透明化,规范用户考勤行为具有促进作用。
[0030]5.潜在社交网络发现
[0031 ] 该方法通过基于可视化场景图的数据挖掘算法,能够从考勤数据中自动生成用户潜在社交网络,从而反映出用户自发的社交关系与群体状态。
[0032]该方法利用可视化人机交互的方式修正所生成的社交网络,便于从网络中捕获易于人理解的用户间潜在关系。
[0033]该方法对于用户的科学管理、领导掌握用户群体状态并做出正确的决策具有促进作用。
[0034]6.考勤行为的异常预警
[0035]该方法通过建立考勤行为多元回归预测模型,对异常考勤行为进行预警,使得决策者能够根据预警及时做出决策响应。
[0036]该方法对于实时动态管理用户的考勤状态,对用户异常考勤行为做出实时相应并最终指导决策制定具有促进作用。
[0037]与现有技术相比,本发明的积极效果为:
[0038](I)本发明与传统方法相比,能够获得用户的整体考勤模式特征,便于决策者基于该模式特征科学制定考勤制度。
[0039](2)本发明与传统方法相比,能够对用户考勤行为作细粒度的量化评级,使之能够区分出考勤优秀用户、一般用户和懒散用户,便于根据用户评级结果科学制定绩效与薪酬福利,从而调动用户的积极性。
[0040](3)本发明与传统方法相比,利用数据统计与数据挖掘方法,能够从考勤数据中发现用户的伪考勤等异常行为并对这些异常行为进行预警,便于检测伪考勤优秀用户,保证了考勤制度的公正公平与管理透明化。
[0041](4)本发明与传统方法相比,无需借助软硬件成本均较高的生物考勤系统来杜绝代考勤行为。通过数据统计和数据挖掘方法来检测考勤数据中“代刷卡”行为,能够显著降低考勤系统的造价,便于大规模推广使用。
[0042](5)本发明与传统方法相比,借助数据挖掘方法能够构造可视化形式的用户潜在关系网络,该网络能够反映出用户自发的社交关系与群体状态。该网络的发现对于用户的科学管理、领导掌握用户群体状态并做出正确的决策能够起到促进作用。
【专利附图】

【附图说明】
[0043]图1为本发明组成模块框图;
[0044]图2是时序流数据集示意图;
[0045]图3是时序横行数据集示意图;
[0046]图4是用户整体考勤时序模式示意图;
[0047]图5是用户整体考勤空间模式示意图;
[0048]图6是主考核指标量化曲线之上班得分曲线;
[0049]图7是主考核指标量化曲线之下班得分曲线;
[0050]图8是主考核指标量化曲线之晚加班得分曲线;
[0051]图9是考勤优秀用户集示意图,其中:(a)图是考勤优秀用户得分明细表格;(b)图是用户得分整体分布图;
[0052]图10是伪考勤检测模型示意图;
[0053]图11是代考勤检测算法示意图,其中黑点以及“A、B、C、D”等字母代表不同的用户;
[0054]图12是关系聚类构建示意图;
[0055]图13是局部潜在代考勤用户发现示意图,其中E、F、G点为局部潜在代考勤用户,连接这些点的虚线为局部潜在代考勤关系;
[0056]图14是全局潜在代考勤用户发现示意图,其中I点为全局潜在代考勤用户,连接I点的虚线为全局潜在代考勤关系;
[0057]图15是调整频繁关系阈值r并更新关系聚类示意图,其中:[0058](a)图和(b)图是r取值过小导致了聚类数目过少、聚类尺寸过大;(c)图是!取值过大导致了聚类尺寸过小;(d)图是!取值合适使得产生的聚类在大小和数目上均始终,故聚类易于人理解;
[0059]图16是调整局部潜在关系阈值r'并更新U1。以及R1。示意图,其中:
[0060](a)图是r'取值过小导致了局部潜在代考勤用户数目过多,代考勤关系过于复杂;(b)图是r'取值过大导致了局部潜在代考勤用户以及代考勤关系数目过少;(c)图是r/取值合适使得产生的局部潜在代考勤用户以及代考勤关系易于人理解;
[0061]图17是调整全局潜在关系阈值r"并更新Ug。以及Rg。示意图,其中:
[0062](a)图是r"取值过小导致了全局潜在代考勤用户数目过多,代考勤关系过于复杂;(b)图是r"取值过大导致了全局潜在代考勤用户以及代考勤关系数目过少;(c)图是r"取值合适使得产生的全局潜在代考勤用户以及代考勤关系易于人理解;
[0063]图18是考勤行为的异常预警方法示意图,其中:(a)图是回归模型训练示意图,图中自变量为多元属性(工作日以及天气状况),因变量为考勤时间;(b)图异常考勤预警示意图;
[0064]图19是天气状况量化表格(截取一部分)。
【具体实施方式】
[0065]为了使本发明的目的、技术方案和发明优势更加清楚明白,以下对本发明的实施方式做具体介绍。
[0066]名词定义
[0067]用户:企事业单位员工,以及其他考勤行为的主体。
[0068]决策者:领导,以及其他企事业单位管理层人员。
[0069]本本发明基于数据统计、数据挖掘和可视化技术,可以充分利用考勤数据的特性:帮助分析与理解用户的整体考勤模式;对用户考勤行为进行量化评级;针对用户异常考勤行为进行预警;同时能够发现用户间的潜在关系;最终为人事考核与决策提供支持。如图1所示,本发明包括:考勤数据预处理模块、考勤综合量化评级模块、伪考勤异常行为检测模块、代考勤异常行为检测模块、潜在社交网络发现模块和考勤行为的异常预警模块;其中:
[0070]1.考勤数据预处理模块
[0071]通过正规化以及时序关联识别处理,将输入的原始考勤数据集转化成后续分析所需要的目标数据集:时序流数据集以及时序横行数据集,见图2~图3。
[0072]如图2所示,正规化处理将原始考勤数据转化成表格形式的时序流数据集。表格每一行记录称作一条“流”,包含用户名、刷卡时间、刷卡地点、刷卡状态等信息。
[0073]如图3所示,时序关联识别处理将时序流数据集转化成CSV文件结构的时序横行数据集。横行数据中的每一横行代表一个连续的行为序列,即一个较短时间段内的密集刷卡行为。该横行记录了连续行为序列所发生的时间(时间戳),以及同时发生的多个流(每个流以其用户名作为标识符)。该横行的格式为:“时间戳1:用户1,用户2,用户3,…”。时序关联识别处理的具体步骤如下:
[0074](I)将预处理得到的时序流数据集按刷卡时间进行升序排序,得到“有序时序流数据集”。[0075](2)设定一个时间段阈值tmin(例如5秒)用以判断两条流是否同时发生,即两次刷卡处于同一个较短时间段内。同时,设定一个时间戳标志和流数组,用以保存横行的时间戮和每条流。
[0076](3)逐条扫描有序时序流数据集,判断本条流的发生时间与上条流的发生时间之差是否小于tmin。如果满足该条件,将该两条流保存至流数组;并在时间戳标志为空的条件下,将上条流的发生时间保存至时间戳标志(此时,时间戳标志不再为空)。如果不满足该条件,则在时间戳标志不为空的情况下,将时间戳标志和流数组按照横行格式输出至时序横行数据集;同时,清空时时间戳标志和流数组。
[0077](4)反复执行步骤(3),直至时序流数据集扫描完毕,获得时序横行数据集。
[0078]2.考勤综合量化评级模块
[0079]通过统计算法对时序流数据集进行处理,得到用户整体考勤模式以及用户考勤多指标得分。
[0080]在介绍之前,对具体考勤管理制度作如下定义:有效考勤时间分为上班考勤时间Tup和下班考勤时间Td_。其中Tup为上午8点半,Td_下午17点半。
[0081]2.1用户整体考勤模式分析模块
[0082]用户整体考勤模式分为时序模式(图4)和空间模式(图5)。
[0083]获得时序模式的具体方法步骤如下:
[0084]步骤1:设置一个时间窗,窗口宽度为Win (例如60秒)。在时间轴上逐步滑动时间窗(滑动步长等于窗口宽度)。
[0085]步骤2:每滑动一次,循环扫描时序流数据,统计落在该时间窗内的流的数目。
[0086]步骤3:滑动时间窗从O点到23点59分59秒,重复执行步骤2,可获得考勤数据在一天内各个时间段的时序序列。
[0087]步骤4:调整Win大小,并且选择不同时间阔度的时序流数据(例如不同月份的数据),获得不同粒度的时序序列,并通过对该序列进行可视化展示,即可获知用户的整体考勤时序模式。
[0088]获得空间模式的具体方法步骤如下:
[0089]步骤1:扫描时序流数据,统计不同刷卡地点的流的数目,可获得考勤数据的整体空间分布。
[0090]步骤2:通过对该分布进行可视化展示(例如图5所示的柱状图),即可获知用户的整体考勤空间模式。
[0091]2.2用户考勤多指标评分模块
[0092]具体方法步骤如下:
[0093]步骤1:将时序流数据集按“用户名一刷卡时间”进行升序排序,得到“〈用户,时间>有序时序流数据集”。
[0094]步骤2:逐行扫描〈用户,时间 > 有序时序流数据集,将用户相同并且日期相同的多条相邻流进行筛选:只保留首尾两条流,作为与考勤得分相关的有效流数据(如果只有一条流,则复制该流,即认为首尾流相同)。最终得到“考勤相关时序流数据集”。
[0095]步骤3:针对考勤相关时序流数据集,将数据集按用户、按日期进行划分,每个用户每一天的流数据作为一个“划分单元”。[0096]步骤4:针对每一个划分单元,进行考勤得分多维量化评级。最终得到每个用户每一天的考勤得分S。
[0097]步骤5:将每个用户的所有划分单元的得分进行加权平均,得到该用户的考勤综合得分S*。
[0098]步骤6:将所有用户U按照S*进行降序排序,提取前M个用户作为“考勤优秀用户集’’U*(见图9)。
[0099]其中步骤4和步骤5中对于每一个划分单元的得分计算方法,所采用的模型为考勤得分多维量化评级模型。该模型的细节如下:
[0100]步骤4 一 1:设定主考核指标为:上班得分、下班得分、晚加班得分。主考核指标分别依考核权重给定满分分值,例如上班和下班得分满分50分,及格30分;晚加班得分满分50分,及格O分。
[0101]步骤4 一 2:根据前文所定义的考勤管理制度,设定主考核指标量化曲线(见图6~图8)。曲线包括上班得分曲线Cur1、下班得分曲线Cur2以及晚加班得分曲线Cur3。Cur1、Cur2和Cur3均包含3个拐点:T,P,Z。其中T代表满分点,P代表及格分点(考勤管理制度中的“有效考勤时间”,例如Tup-上午8点半;以及Td_-下午5点半),Z代表零分点。以Cur1为例,当考勤时间t小于等于T (可取8点15分)时,得满分;当t大于等于Z (可取8点52分)时,得零分;当t大于T且小于等于P (可取8点半)时,得分为满分到及格分的线性衰减;当t大于P且小于Z时,得分为及格分到零分的二次衰减(对迟到考勤的惩罚)。Cur2在形态上与Cur1呈镜像对称关系。Cur3则在形态上与Cur2 —致,唯一区别在于P点等于Z点,即没有二次衰 减区间。
[0102]步骤4 一 3:参照主考核指标量化曲线Cur1' Cur2和Cur3,可以得到不同用户不同日期的主考核得分S。具体方法为:将每一个划分单元中的第一条流对应Cur1,求出上班得分S1 ;将划分单元中的第二条流对应Cur2和Cur3,求出下班得分S2和晚加班得分S3 ;S =Si+S2+S3o
[0103]步骤5 — 1:将不同用户的主考核得分S除以该用户的考勤日期数目,得到该用户的主考核平均得分S。
[0104]步骤5 — 2:设定补充考核指标为:迟到率1、早退率e、缺勤率a以及非工作日加班率O。其中I为(S1小于上班及格分 > 的天数占考勤总天数的比例;e为<S2小于下班及格分 > 的天数占考勤总天数的比例;a为(SJS2 = 0>的天数占考勤总天数的比例;o为〈Si不小于上班及格分且S2不小于下班及格分 > 的天数占考勤总天数的比例。
[0105]步骤5 — 3:按照如下公式计算得到每个用户的考勤综合得分S*:
[0106]S*: 5.(1-/).(?.?,.).(1 2α).( 2ο).[0107]3.“伪考勤”异常行为检测模块
[0108]该模块通过构建伪考勤检测模型,能够发现用户考勤数据中的伪考勤行为,具体步骤为:
[0109]步骤1:将预处理得到的时序流数据集按“用户名、刷卡时间”进行升序排序。
[0110]步骤2:构建伪考勤检测模型(见图10)。
[0111]该模型包含两个时间段的检测:时间段A和时间段B。时间段A代表考勤时间点之前,例如小于等于上午8点半;时间段B代表考勤时间点之后,例如上午8点半至上午9点之间。
[0112]该模型将考勤地点分为两类:工作地点(例如进入工作场所的门禁)与其他地点。该模型认为在其他地点刷卡仅证明该次刷卡是有效考勤,但只有在工作地点刷卡才是真正进入了工作场所正常工作。
[0113]该模型提供一个频繁度阈值f。如果某一用户在时间段A刷卡签到,同时在同一天的时间段B进入工作场所,则认为具有伪考勤的嫌疑。当用户具有伪考勤嫌疑的次数F(即天数)大于f时,则确认该用户在这些天的考勤为伪考勤。
[0114]步骤3:扫描步骤I得到的有排序时序流数据,同时利用步骤2构建的伪考勤检测模型,针对每一个用户,检测其具有伪考勤嫌疑的次数F。
[0115]步骤4:扫描所有用户,当用户的伪考勤嫌疑次数F>f时,则认为该用户具有频繁的伪考勤行为。
[0116]步骤5:记录所有具有频繁伪考勤行为的用户,将其定义为“伪考勤用户集” Uf。
[0117]步骤6:求得“伪考勤优秀用户集”为Uf H U*。
[0118]4.“代考勤”异常行为检测模块
[0119]通过频繁模式挖掘以及关联分析,能够发现用户考勤数据中的代考勤行为。如图11所示,具体步骤为:
[0120]步骤1:指定“挖掘数据集”为预处理得到的时序横行数据集。
[0121]步骤2:设置一个频率计数器矩阵K,其尺寸等于用户数目N。其中K(i,i)代表用户i在时序横行数据集中的出现频率(即用户i所存在的横行数目),K(i,j)代表用户i和用户j在时序横行数据及中同时出现的频率(即用户i和用户j所同时存在的横行数目)。
[0122]步骤3:设置一个关系矩阵R,其尺寸等于N。其中R(i,j)代表用户i和用户j之间的关系值:关系值越大,代表用户之间的“代刷卡”行为越频繁)。
[0123]步骤4:对挖掘数据集进行逐行扫描。每扫描一行,更新计数器矩阵K。
[0124]步骤5:针对所有用户U,利用用户之间的支持度(support)和置信度(confidence)计算任意用户i和用户j之间的关系值R(i, j)。关系值计算公式如下:
[0125]
【权利要求】
1.一种基于磁卡考勤行为的用户数据处理系统,其特征在于包括:考勤数据预处理模块、考勤综合量化评级模块、伪考勤异常行为检测模块、代考勤异常行为检测模块、潜在社交网络发现模块和考勤行为的异常预警模块;其中: 考勤数据预处理模块,通过正规化以及时序关联识别处理,将输入的原始考勤数据集转化成后续分析所需要的目标数据集,所述目标数据集包括时序流数据集以及时序横行数据集;所述正规化处理将原始考勤数据转化成表格形式的时序流数据集,表格每一行记录称作一条“流”,包含用户名、刷卡时间、刷卡地点、刷卡状态信息;所述时序关联识别处理将时序流数据集转化成CSV(Comma Separated Values:逗号分隔值)文件结构的时序横行数据集,所述横行数据中的每一横行代表一个连续的行为序列,即一个较短时间段内的密集刷卡行为;所述横行记录了连续行为序列所发生的时间或时间戳,以及同时发生的多个流; 考勤综合量化评级模块,通过统计方法对时序流数据集进行处理,得到用户整体考勤模式以及用户考勤多指标得分;所述用户整体考勤模式分为时序模式和空间模式,即通过时序统计得到用户的整体考勤时序模式,通过空间统计得到用户的整体考勤空间模式;所述多指标得分是指通过统计分析得到用户考勤综合得分,对每个用户的考勤行为进行量化评级,最终得到“考勤优秀用户”; 考勤异常行为检测模块,所述考勤异常行为检测包括“伪考勤”异常行为检测和“代考勤”异常行为检测,所述“伪考勤”异常行为检测是通过构建伪考勤检测模型,对时序流数据集进行分析,发现用户考勤数据中的伪考勤行为即刷卡之后没有进入工作场所开展正常工作,而是立即离开工作场所;所述“代考勤”异常行为检测是通过频繁模式和关联分析的数据挖掘方法,对时序流数据集以及时序横行数据集进行挖掘分析,发现用户考勤数据中的代考勤行为,即某一用户U1的刷卡考勤行为不是由自己完成,而是由其他用户U2代劳,表现在仏和U2的考勤时间间隔非常短,可以认为是同一个用户的考勤行为; 潜在社交网络发现模块,通过基于可视化场景图的数据挖掘方法,探测基于考勤行为的用户潜在社交网络;再利用可视化人机交互的方式修正所生成的社交网络,便于从网络中捕获易于人理解的用户间潜在关系; 考勤行为异常预警模块,通过建立考勤行为多元回归预测模型,对异常考勤行为进行预警,使得决策者能够根据预警及时做出决策响应结果。
2.根据权利要求1所述的基于磁卡考勤行为的用户数据处理系统,其特征在于:所述考勤数据预处理模块中时序关联识别处理的具体方法步骤如下: (1)将预处理得到的时序流数据集按刷卡时间进行升序排序,得到“有序时序流数据集”; (2)设定一个时间段阈值tmin用以判断两条流是否同时发生,即两次刷卡处于同一个较短时间段内;同时设定一个时间戳标志和流数组,用以保存横行的时间戳和每条流;
(3)逐条扫描有序时序流数据集,判断本条流的发生时间与上条流的发生时间之差是否小于tmin,如果满足该条件,将该两条流保存至流数组;并在时间戳标志为空的条件下,将上条流的发生时间保存至时间戳标志,此时时间戳标志不再为空;如果不满足该条件,则在时间戳标志不为空的情况下,将时间戳标志和流数组按照横行格式输出至时序横行数据集;同时,清空时间戳标志和流数组;(4)反复执行步骤(3),直至时序流数据集扫描完毕,获得时序横行数据集。
3.根据权利要求1所述的基于磁卡考勤行为的用户数据处理系统,其特征在于:所述通过时序统计能够得到用户的整体考勤时序模式为: (1)设置一个时间窗,窗口宽度为Win,在时间轴上逐步滑动时间窗; (2)每滑动一次,循环扫描时序流数据,统计落在该时间窗内的流的数目; (3)滑动时间窗从O点到23点59分59秒,重复执行步骤(2),获得考勤数据在一天内各个时间段的时序序列; (4)调整Win大小,获得不同粒度的时序序列,并通过对该序列进行可视化展示,即获知用户的整体考勤时序模式。
4.根据权利要求1所述的基于磁卡考勤行为的用户数据处理系统,其特征在于:所述通过空间统计能够得到用户的整体考勤空间模式实现为: (1)扫描时序流数据,统计不同刷卡地点的流的数目,可获得考勤数据的整体空间分 布; (2)通过对该分布进行可视化展示,即获知用户的整体考勤空间模式。
5.根据权利要求1所述的基于磁卡考勤行为的用户数据处理系统,其特征在于:所述通过统计分析得到用户考勤多指标得分实现为: (1)将时序流数据集按“用户名一刷卡时间”进行升序排序,得到“〈用户,时间〉有序时序流数据集”; (2)逐行扫描〈用户,时间〉有序时序流数据集,将用户相同并且日期相同的多条相邻流进行筛选:只保留首尾两条流,作为与考勤得分相关的有效流数据;最终得到“考勤相关时序流数据集”; (3)针对考勤相关时序流数据集,将数据集按用户、按日期进行划分,每个用户每一天的流数据作为一个“划分单元”; (4)针对每一个划分单元,进行考勤得分多维量化评级,最终得到每个用户每一天的考勤得分S ; (5)将每个用户的所有划分单元的得分S进行加权平均,得到该用户的考勤综合得分S氺; (6)将所有用户U按照S*进行降序排序,提取前M个用户作为“考勤优秀用户集”U*。
6.根据权利要求5所述的基于磁卡考勤行为的用户数据处理系统,其特征在于:所述步骤4中考勤得分多维量化评级方法如下: 步骤4 一 1:设定主考核指标为:上班得分、下班得分、晚加班得分;主考核指标分别依考核权重给定满分分值,例如上班和下班得分满分50分,及格30分;晚加班得分满分50分,及格O分; 步骤4 一 2:根据前文所定义的考勤管理制度,设定主考核指标量化曲线,所述曲线包括上班得分曲线Cur1、下班得分曲线Cur2以及晚加班得分曲线CuivCur1Xur2和Cur3均包含3个拐点:T,P,Z,其中T代表满分点,P代表及格分点即考勤管理制度中的“有效考勤时间”,Z代表零分点;Cur2在形态上与Cur1呈镜像对称关系;Cur3则在形态上与Cur2 —致,唯一区别在于P点等于Z点,即没有二次衰减区间; 步骤4 一 3:参照主考核指标量化曲线CUr1、Cur2和Cur3,可以得到不同用户不同日期的主考核得分S,具体实现为:将每一个划分单元中的第一条流对应Cur1,求出上班得分S1 ;将划分单元中的第二条流对应Cur2和Cur3,求出下班得分S2和晚加班得分S3 ;S =Si+S2+S3 ; 步骤5 — 1:将不同用户的主考核得分S除以该用户的考勤日期数目,得到该用户的主考核平均得分、 步骤5 — 2:设定补充考核指标为:迟到率1、早退率e、缺勤率a以及非工作日加班率O,其中I为(S1小于上班及格分 > 的天数占考勤总天数的比例;e为<S2小于下班及格分>的天数占考勤总天数的比例;3为(SJS2 = O〉的天数占考勤总天数的比例;0为(S1不小于上班及格分且S2不小于下班及格分 > 的天数占考勤总天数的比例; 步骤5 — 3:按照如下公式计算得到每个用户的考勤综合得分S*:
7.根据权利要求1所述的基于磁卡考勤行为的用户数据处理系统,其特征在于:所述“伪考勤”异常行为检测具体实现如下: (1)将考勤数据预处理模块预处理得到的时序流数据集按“用户名、刷卡时间”进行升序排序; (2)构建伪考勤检测模型,所述模型包含两个时间段的检测:时间段A和时间段B,时间段A代表考勤时间点之前;时间段B代表考勤时间点之后;将考勤地点分为两类:工作地点与其他地点,在其他地点刷卡仅证明该次刷卡是有效考勤,但只有在工作地点刷卡才是真正进入了工作场所正常工作;该模型提供一个频繁度阈值f,如果某一用户在时间段A刷卡签到,同时在同一天的时间段B进入工作场所,则认为具有伪考勤的嫌疑,当用户具有伪考勤嫌疑的次数F即天数大于f时,则确认该用户在这些天的考勤为伪考勤; (3)扫描步骤(1)得到的有排序时序流数据,利用步骤(2)构建的伪考勤检测模型,针对每一个用户,检测其具有伪考勤嫌疑的次数F ; (4)扫描所有用户,当用户的伪考勤嫌疑次数F>f时,则认为该用户具有频繁的伪考勤行为; (5)记录所有具有频繁伪考勤行为的用户,将其定义为“伪考勤用户集”Uf; (6)求得“伪考勤优秀用户集”为ufn u*,Uf η U*代表“伪考勤用户集”与“考勤优秀用户集”的交集,其中U*代表“考勤优秀用户集”。
8.根据权利要求1所述的基于磁卡考勤行为的用户数据处理系统,其特征在于:所述“代考勤”异常行为检测具体实现如下: (1)指定“挖掘数据集”为权利要求1预处理得到的时序横行数据集; (2)设置一个频率计数器矩阵K,其尺寸等于用户数目N,其中K(i,i)代表用户i在时序横行数据集中的出现频率,即用户i所存在的横行数目,K(i,j)代表用户i和用户j在时序横行数据及中同时出现的频率,即用户i和用户j所同时存在的横行数目; (3)设置一个关系矩阵R,其尺寸等于N,其中R(i,j)代表用户i和用户j之间的关系值:关系值越大,代表用户之间的“代刷卡”行为越频繁; (4)对挖掘数据集进行逐行扫描。每扫描一行,更新计数器矩阵K;(5)针对所有用户U,利用用户之间的支持度(support)和置信度(confidence)计算任意用户i和用户j之间的关系值R (i, j),关系值计算公式如下:
9.根据权利要求1所述的基于磁卡考勤行为的用户数据处理系统,其特征在于:所述潜在社交网络发现模块中通过基于可视化场景图的数据挖掘方法,探测基于考勤行为的用户潜在社交网络的实现为: (1)构建聚类,针对代考勤用户集^,将该用户集中关系值R(i,j)大于关系阈值r的用户对用黑实线连接,形成若干个关系聚类C,每个关系聚类可以看作是一个用户集团,集团内部的用户关系紧密,存在频繁的代考勤现象; (2)从剩余用户(U-Ur)中发现“局部潜在代考勤用户”Uk; 局部潜在代考勤用户代表着这样一类用户u1:虽然和其他任意单个用户u之间没有紧密的关系(R(Ul,u) < r),但是和某一个聚类Ci具有一定的关系
10.根据权利要求1所述的基于磁卡考勤行为的用户数据处理系统,其特征在于:所述潜在社交网络发现模块利用可视化人机交互的方式修正所生成的社交网络实现为: (1)反复调整频繁关系阈值r,并通过生成的聚类的尺寸和数目的变化来更新潜在关系网络G,直至结果易于人理解; (2)反复调整局部潜在关系阈值r',并通过所发现的U1。以及R1。的变化来更新潜在关系网络G,直至结果易于人理解; (3)反复调整全局潜在关系阈值r",并通过所发现的Ug。以及Rg。的变化来更新潜在关系网络G,直至结果易于人理解。
11.根据权利要求1所述的基于磁卡考勤行为的用户数据处理系统,其特征在于:所述考勤行为异常预警模块的具体实现为: (1)指定多元回归预测模型的自变量:工作日、天气; (2)指定预测模型的因变量:考勤时间,包括上班时间和下班时间; (3)针对每一名用户,通过多元线性回归方法,以历史考勤数据作为训练数据,构建考勤时间预测模型;所述模型输出包括上述自变量即当天的工作日和天气,输出包括上述因变量即当天的考勤时间预测值Tp及其均方差σ ; (4)针对每名用户设置一个异常考勤计数器Ca以及一个异常偏离变量A; (5)针对每名用户,每天将上述自变量输入各自的预测模型,并将其输出结果与考勤相关时序流数据集中的真实考勤时间I;作比较,如果I;偏离预测的考勤正常区间[Τρ_σ,Τρ+σ],则 Ca 加 1,A= Tr-Tp ; (6)当某名用户的Ca大于预先设定的阈值Camax时,或者A大于预先设定的阈值Amax时,则发出报警。
12.一种基于磁卡考勤的用户数据处理方法,其特征在于实现步骤如下: (1)通过正规化以及时序关联识别处理,将输入的原始考勤数据集转化成后续分析所需要的目标数据集,所述目标数据集包括时序流数据集以及时序横行数据集;所述正规化处理将原始考勤数据转化成表格形式的时序流数据集,表格每一行记录称作一条“流”,包含用户名、刷卡时间、刷卡地点、刷卡状态信息;所述时序关联识别处理将时序流数据集转化成CSV文件结构的时序横行数据集,所述横行数据中的每一横行代表一个连续的行为序列,即一个较短时间段内的密集刷卡行为;所述横行记录了连续行为序列所发生的时间或时间戳,以及同时发生的多个流; (2)通过统计方法对时序流数据集进行处理,得到用户整体考勤模式以及用户考勤多指标得分;所述用户整体考勤模式分为时序模式和空间模式,即通过时序统计得到用户的整体考勤时序模式,通过空间统计得到用户的整体考勤空间模式;所述多指标得分是指通过统计分析得到用户考勤综合得分,对每个用户的考勤行为进行量化评级,最终得到“考勤优秀用户”; (3)考勤异常行为检测,所述考勤异常行为检测包括“伪考勤”异常行为检测和“代考勤”异常行为检测,所述“伪考勤”异常行为检测是通过构建伪考勤检测模型,对时序流数据集进行分析,发现用户考勤数据中的伪考勤行为即刷卡之后没有进入工作场所开展正常工作,而是立即离开工作场所;所述“代考勤”异常行为检测是通过频繁模式和关联分析的数据挖掘方法,对时序流数据集以及时序横行数据集进行挖掘分析,发现用户考勤数据中的代考勤行为,即某一用户U1的刷卡考勤行为不是由自己完成,而是由其他用户U2代劳,表现在仏和U2的考勤时间间隔非常短,可以认为是同一个用户的考勤行为; (4)通过基于可视化场景图的数据挖掘方法,探测基于考勤行为的用户潜在社交网络;再利用可视化人机交互的方式修正所生成的社交网络,便于从网络中捕获易于人理解的用户间潜在关系; (5)通过建立考勤行为多元回归预测模型,对异常考勤行为进行预警,使得决策者能够根据预警及时做出决策响应结果。
【文档编号】G06Q10/06GK104036360SQ201410277406
【公开日】2014年9月10日 申请日期:2014年6月19日 优先权日:2014年6月19日
【发明者】王浩, 张晨, 徐帆江, 王微, 吕品 申请人:中国科学院软件研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1