违规行为判别方法、装置、计算机设备和存储介质与流程

文档序号:17930027发布日期:2019-06-15 00:45阅读:200来源:国知局
违规行为判别方法、装置、计算机设备和存储介质与流程

本发明涉及计算机技术领域,特别是涉及一种违规行为判别方法、装置、计算机设备和存储介质。



背景技术:

随着云时代的来临,大数据(bigdata)也吸引了越来越多的关注。随着大数据处理技术的日益成熟,产生了越来越多应用分支,如基于大数据分析做违规风险预测。

传统的基于大数据进行违规风险评估方式为:通过数据识别和逻辑分析从海量数据中定位出违规风险信息或者违规行为。这种违规风险预测方式在预测比较复杂的数据且待预测的数据量较大时,风险预测效率非常低。



技术实现要素:

基于此,有必要针对上述技术问题,提供一种能够使违规风险评估效率更高的违规行为判别方法、装置、计算机设备和存储介质。

一种违规行为判别方法,包括:

获取待评估主体的特征信息;

将所述特征信息输入至违规风险评分模型得到违规风险评分;

若所述违规风险评分大于设定阈值,则获取所述待评估主体在设定时间窗口的行为记录;

将所述行为记录输入至规则模型得到违规行为标签。

在一个实施例中,在所述将所述行为记录输入至规则模型得到违规行为标签之后,还包括:

根据预先定义的所述违规行为标签与风险指向关键字的关联关系,得到所述评估主体对应的所述风险指向关键字。

在一个实施例中,所述方法还包括:

获取待评估主体对应的因子树,所述因子树的节点包括描述所述待评估主体特征的因子;

根据待构建的违规风险评分模型的目标变量,从所述因子树中选取因子作为模型的特征变量;

根据确定的所述特征变量和所述目标变量构建违规风险评分模型。

在一个实施例中,在所述因子树中为每个所述因子标注对应的关联数据的数据定位信息和数据处理信息;

所述根据确定的所述特征变量和所述目标变量构建违规风险评分模型,包括:

从所述因子树中获取所述特征变量对应的所述数据定位信息和所述数据处理信息;

根据所述数据定位信息获取所述特征变量对应的关联数据;

根据所述数据处理信息对获取的所述关联数据进行预处理得到训练样本;

将所述训练样本输入至预先选定的模型算法中进行监督学习,得到违规风险评分模型。

在一个实施例中,所述根据待构建的违规风险评分模型的目标变量从所述因子树中选取因子作为模型的特征变量,包括:

计算所述因子树中每个因子对待构建的违规风险评分模型的目标变量的判别能力值;

根据所述判别能力值从所述因子树中选取因子作为模型的特征变量。

一种违规行为判别装置,包括:

特征信息获取模块,用于获取待评估主体的特征信息;

评分模块,用于将所述特征信息输入至违规风险评分模型得到违规风险评分;

行为记录获取模块,用于若所述违规风险评分大于设定阈值,则获取所述待评估主体在设定时间窗口的行为记录;

违规行为标签输出模块,用于将所述行为记录输入至规则模型得到违规行为标签。

在一个实施例中,所述装置还包括:

风险指向关键字映射模块,用于根据预先定义的所述违规行为标签与风险指向关键字的关联关系,得到所述评估主体对应的所述风险指向关键字。

在一个实施例中,所述装置还包括:

因子树获取模块,用于获取待评估主体对应的因子树,所述因子树的节点包括描述所述待评估主体特征的因子;

特征变量选取模块,用于根据待构建的违规风险评分模型的目标变量,从所述因子树中选取因子作为模型的特征变量;

违规风险评分模型构建模块,用于根据确定的所述特征变量和所述目标变量构建违规风险评分模型。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述所述方法的步骤。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的方法的步骤。

上述违规行为判别方法、装置、计算机设备和存储介质,通过违规风险评分模型综合分析待评估主体的特征信息,得到违规风险评分;根据风险评分对众多的待评估主体做筛选,仅对风险程度较高的主体做进一步的对具体的行为记录的风险评估,得到违规行为标签。即由违规风险评分模型做数据筛选,规则模型做具体的违规标签输出,实现了在保证违规风险评估准确性的基础上减少了计算量,提高了违规风险评估效率。

附图说明

图1为一个实施例中违规行为判别方法的应用场景图;

图2为一个实施例中违规行为判别方法的流程示意图;

图3为一个实施例构建违规风险评分模型所涉及的流程示意图;

图4为另一个实施例中构建违规风险评分模型所涉及的流程示意图;

图5为一个实施例中违规行为判别装置的结构框图;

图6为一个实施例中构建违规风险评分模型所涉及的结构框图;

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明提供的违规行为判别方法,可以应用于如图1所示的应用环境中。该应用环境包括终端102和服务器104,其中,终端102和服务器104可通过网络进行通信。终端102向服务器104发送风险评估请求,服务器104接收风险评估请求,提取请求中携带的待评估主体标识以及待评估主体的特征信息。进而服务器104调用与待评估主体标识对应的违规风险评分模型,通过违规风险评分模型对待评估主体的特征信息进行模型分析,得到违规风险评分。服务器进一步筛选出违规风险评分大于设定阈值的待评估主体,仅对通过筛选的待评估主体进行规模模型评估,并输出违规行为标签。

在一个实施例中,如图2所示,提供了一种违规行为判别方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:

步骤202:获取待评估主体的特征信息。

待评估主体为带有设定属性的一类群体,如员工、学生等。获取的待评估主体的特征信息为获取群体中每个待评估的个体的特征信息。如获取员工a的基本特征信息、行为特征信息、能力特征信息、情绪性格特征信息、社交特征信息等。

步骤204:将特征信息输入至违规风险评分模型得到违规风险评分。

违规风险评分模型是根据机器学习算法构建的有监督评分模型。不同的违规风险评分模型对应不同的主体。本实施例中的评分过程为:根据步骤202中的待评估主体标识调用与其对应的违规风险评分模型,获取调用的风险违规模型的输入特征变量,从获取的待评估主体的特征信息中提取与输入特征变量对应的特征信息,将提取的特征信息输入至违规风险评分模型得到该待评估主体的违规风险评分。

步骤206:若违规风险评分大于设定阈值,则获取待评估主体在设定时间窗口的行为记录。

判断违规风险评分模型输出的违规风险评分是否大于设定阈值,若是,则判别待评估主体具有高违规风险属性。服务器获取经模型判断带有高违规风险属性的待评估主体在设定时间窗口的行为记录。其中,可根据实际需求配置获取的行为记录的时间窗口。

若待评估主体为“员工”,违规风险评分模型为员工的报销违规风险评分模型,则预先配置获取数据的路径为员工报销明细存储路径,获取的行为记录即为员工的报销行为记录。再如,若待评估主体为“员工”,违规风险评分模型为员工的出勤风险评分模型,则预先配置获取数据的路径为员工考勤存储路径,获取的行为记录即为员工的考勤记录、请假记录等与考勤相关的行为记录。

在一个实施例中,为每个违规风险评分模型配置关联的行为记录数据获取路径。获取待评估主体的行为记录时,获取违规风险评分模型关联的数据获取路径,根据数据获取路径获取待评估主体的行为记录。

步骤208:将行为记录输入至规则模型得到违规行为标签。

将获取的待评估主体的具体的行为记录输入至预先构建的规则模型中,规则模型根据预先定义好的违规判别条件对输入的行为记录进行违规判别,输出多个违规行为标签。具体为:预先定义每个违规行为标签对应的违规判别条件,若行为记录满足该违规判别条件则输出相应的违规行为标签。

以员工违规报销为例,如违规报销行为为单笔报销金额为5000000,对其输出的违规标签为:报销金额在特定金额(500,000)附近(2%)。如违规行为为报销发票连号,对其输出的违规标签为:多次报销发票连号。

本实施例中,将机器学习模型与传统的规则模型相结合,机器学习模型即违规风险评分模型综合分析待评估主体的多维度特征信息得到广义的违规风险评估结果。然后根据广义的违规风险评估结果去获取细粒化的风险体现数据,运行规则模型针对风险体现数据进行分析得到细粒化的违规风险评估标签。前一个模型做数据筛选,后一个模型做具体的违规标签输出,实现了在保证违规风险评估准确性的基础上减少了计算量,提高了违规风险评估效率。

在一个实施例中,在步骤208:将行为记录输入至规则模型得到违规行为标签之后,还包括:根据预先定义的违规行为标签与风险指向关键字的关联关系,得到评估主体对应的风险指向关键字。

就费用违规报销而言,风险指向关键字可以是“拆单报销”、“虚假发票”、“突击报销”等具有明显的违规风险指向的词组。

违规行为标签实质上是违规行为标准化的表述,而专业领域的违规行为表述一般都比较生涩难懂。本实施例中,预先定义违规行为标签与风险指向关键字之间的关联关系,将违规行为标签映射到风险指向关键字上来,使违规评估结果的风险指向性更加明确,输出结果更加直观易懂。

针对上文实施例中的违规风险评分模型,如图3所示,提供一种违规风险评分模型的方法,具体包括如下步骤:

步骤302:获取待评估主体对应的因子树,该因子树的节点包括描述待评估主体特征的因子。

预先构因子树。在一个实施例中,因子树是由描述待评估主体特性的因子构成的树形结构图,因子树的构建方式可以是:收集用于刻画主体多个维度属性特征的因子,为收集的因子标记所属层级标签。根据所属层级标签连接各个因子生成树形结构图。如因子a的所属层级标签为:第一分支主因子,因子b的所属层级标签为:第一分支从因子、或者从因子下的次因子以及次因子下的分因子等等。此外,层级属性还包含其他分支。

进一步的,因子树的每一个分支对应主体的一个维度的属性。因子树的分支和每个分支的节点无限制增加和拓展。因子树应尽可能全面的展示主体的任一维度的因子构成。

步骤304:根据待构建的违规风险评分模型的目标变量从因子树中选取因子作为模型的特征变量。

确定待构建模型的目标变量,根据目标变量从因子树中选取因子作为模型的特征变量。即从因子树中选取最能够主体在目标变量维度差异的因子作为模型的特征变量。

例如,所构建的模型为费用违规风险评分模型,该模型对应的主体为“员工”,确定的目标变量为员工费用违规风险程度。相应的,从因子树中选取最能够区分出高风险费用违规员工和正常员工的因子作为费用违规风险评分模型的特征变量。

在一个实施例中,可通过单因素分析和相关性分析计算因子树中每个因子对待构建的违规风险评分模型的目标变量的判别能力值;根据判别能力值从因子树中选取因子作为模型的特征变量。

步骤306:根据确定的特征变量和目标变量构建违规风险评分模型。

收集选定的特征变量对应的样本数据,采用有监督学习的方式构建违规风险评分模型。

本实施例中从包含主体所有特征的因子树中选择模型特征变量,能够使构建模型的特征变量更加全面,提高了模型预测的准确性。而且避免了选入相同贡献的冗余模型指标,即基于因子体系使得模型指标的选择有的放矢。

在一个实施例中,在所述因子树中为每个所述因子标注对应的关联数据的数据定位信息和数据处理信息。本实施例中,如图4所示,违规风险评分模型构建方法包括如下步骤:

步骤402:获取待评估主体对应的因子树,从因子树中选取因子作为模型的特征变量。

步骤404:从因子树中获取与模型的特征变量关联的数据定位信息和数据处理信息。

在因子树的各个因子节点下标注该因子对应的关联数据的数据定位信息和数据处理信息。数据定位信息可以是关联数据的存储路径。数据处理信息包括关联数据的预处理算法、加工算法等。

在一个实施例中,还可以标注对应的关联数据的缺失度。在从因子树中选择特征变量时,可以优先选择缺失度较低的因子作为模型的特征变量。

步骤406:根据数据定位信息获取模型的特征变量对应的关联数据。

步骤408:根据数据处理信息对获取的关联数据进行预处理得到训练样本。

步骤410:将训练样本输入至预先选定的模型算法中进行监督学习,得到违规风险评分模型。

根据数据定位信息获取特征变量对应的关联数据,根据数据处理信息对获取的关联数据进行处理得到训练样本,通过训练样本训练得到违规风险评分模型。

需要说明的是,基于因子树可构建与对应主体相关的各种模型,不仅仅限于上述的违规风险评分模型。根据具体构建模型的需要从因子树中选择相应的因子作为特征变量,通过因子树中的数据标注获取训练数据即可构建出需要的模型来。

应该理解的是,虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图5所示,提供了一种违规行为判别装置,包括:

特征信息获取模块502,用于获取待评估主体的特征信息。

评分模块504,用于将特征信息输入至违规风险评分模型得到违规风险评分。

行为记录获取模块506,用于若违规风险评分大于设定阈值,则获取待评估主体在设定时间窗口的行为记录。

违规行为标签输出模块508,用于将行为记录输入至规则模型得到违规行为标签。

在一个实施例中,违规行为判别装置,还包括:

风险指向关键字映射模块,用于根据预先定义的违规行为标签与风险指向关键字的关联关系,得到评估主体对应的风险指向关键字。

在一个实施例中,如图6所示,违规行为判别装置,还包括:

因子树获取模块602,用于获取待评估主体对应的因子树,该因子树的节点包括描述待评估主体特征的因子。

特征变量选取模块604,用于根据待构建的违规风险评分模型的目标变量从因子树中选取因子作为模型的特征变量。

违规风险评分模型构建模块606,用于根据确定的特征变量和目标变量构建违规风险评分模型。

在一个实施例中,在因子树中对每个因子标注其对应的关联数据的数据定位信息和数据处理信息;

违规风险评分模型构建模块606,还用于从因子树中获取与模型的特征变量关联的数据定位信息和数据处理信息;根据数据定位信息获取模型的特征变量对应的关联数据;根据数据处理信息对获取的关联数据进行预处理得到训练样本;将训练样本输入至预先选定的模型算法中进行监督学习,得到违规风险评分模型。

在一个实施例中,特征变量选取模块604,还用于计算因子树中每个因子对待构建的违规风险评分模型的目标变量的判别能力值;根据判别能力值从因子树中选取因子作为模型的特征变量。

关于违规行为判别装置的具体限定可以参见上文中对于违规行为判别方法的限定,在此不再赘述。上述违规行为判别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储与因子树中的因子对应的关联数据。该计算机设备的网络接口用于与终端通过网络连接通信。该计算机程序被处理器执行时以实现一种违规行为判别方法。

本领域技术人员可以理解,图7中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取待评估主体的特征信息;将特征信息输入至违规风险评分模型得到违规风险评分;若违规风险评分大于设定阈值,则获取待评估主体在设定时间窗口的行为记录;将行为记录输入至规则模型得到违规行为标签。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据预先定义的违规行为标签与风险指向关键字的关联关系,得到评估主体对应的风险指向关键字。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取待评估主体对应的因子树,该因子树的节点包括描述待评估主体特征的因子;根据待构建的违规风险评分模型的目标变量从因子树中选取因子作为模型的特征变量;根据确定的特征变量和目标变量构建违规风险评分模型。

在一个实施例中,在因子树中对每个因子标注其对应的关联数据的数据定位信息和数据处理信息;处理器执行计算机程序时还实现以下步骤:

根据确定的特征变量和目标变量构建违规风险评分模型,包括:从因子树中获取与模型的特征变量关联的数据定位信息和数据处理信息;根据数据定位信息获取模型的特征变量对应的关联数据;根据数据处理信息对获取的关联数据进行预处理得到训练样本;将训练样本输入至预先选定的模型算法中进行监督学习,得到违规风险评分模型。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:计算因子树中每个因子对待构建的违规风险评分模型的目标变量的判别能力值;根据判别能力值从因子树中选取因子作为模型的特征变量。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取待评估主体的特征信息;将特征信息输入至违规风险评分模型得到违规风险评分;若违规风险评分大于设定阈值,则获取待评估主体的在设定时间窗口的行为记录;将行为记录输入至规则模型得到一个或多个违规行为标签。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据预先定义的违规行为标签与风险指向关键字的关联关系,得到评估主体对应的风险指向关键字。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取待评估主体对应的因子树,该因子树的节点包括描述待评估主体特征的因子;根据待构建的违规风险评分模型的目标变量从因子树中选取因子作为模型的特征变量;根据确定的特征变量和目标变量构建违规风险评分模型。

在一个实施例中,在因子树中对每个因子标注其对应的关联数据的数据定位信息和数据处理信息;计算机程序被处理器执行时还实现以下步骤:

根据确定的特征变量和目标变量构建违规风险评分模型,包括:从因子树中获取与模型的特征变量关联的数据定位信息和数据处理信息;根据数据定位信息获取模型的特征变量对应的关联数据;根据数据处理信息对获取的关联数据进行预处理得到训练样本;将训练样本输入至预先选定的模型算法中进行监督学习,得到违规风险评分模型。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:计算因子树中每个因子对待构建的违规风险评分模型的目标变量的判别能力值;根据判别能力值从因子树中选取因子作为模型的特征变量。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1