订单行为识别方法、装置、存储介质和处理器与流程

文档序号:19995895发布日期:2020-02-22 02:44阅读:151来源:国知局
订单行为识别方法、装置、存储介质和处理器与流程

本发明涉及计算机领域,具体而言,涉及一种订单行为识别方法、装置、存储介质和处理器。



背景技术:

目前,异常订单行为频繁爆发,在反异常订单行为的过程中,需要在异常萌芽阶段就将有效的规则部署上线,以识别异常订单行为。

但是,往往异常萌芽阶段的异常订单样本较少,正常订单样本的数据非常大,一般的模型不容易获取到有效特征,且容易过拟合;另外,由于数据量很大,在数据导出到算法平台后,经常会因为数据量大而跑不起来;由于正常订单样本的数据非常多,为了实施算法,需要对订单样本的数据进行高浓度抽样,而抽样后往往导致订单样本上的模拟效果和实际效果相差很大,导致对订单行为识别的效率低的技术问题。

针对现有技术中的订单行为识别的效率低的问题,目前尚未提出有效的解决方案。



技术实现要素:

本发明的主要目的在于提供一种订单行为识别方法、装置、存储介质和处理器,以至少解决相关技术中订单行为识别的效率低的技术问题。

为了实现上述目的,根据本发明的一个方面,提供了一种订单行为识别方法。该方法可以包括:获取订单行为的行为数据;基于分类模型对行为数据进行识别,得到订单行为的类型,其中,分类模型包括通过目标阈值对订单变量的目标衍生变量进行分组得到的分类规则,订单变量包括连续订单变量和离散订单变量。

可选地,在基于分类模型对行为数据进行识别,得到订单行为的类型之前,该方法还包括:通过目标阈值对目标衍生变量进行分组,得到分类模型的分类规则包括:通过多个目标阈值对多个目标衍生变量进行分组,得到分类模型的多条分类规则;获取每条分类规则对订单样本进行处理得到的处理结果,其中,处理结果用于指示每条分类规则的性能指标;将指示出性能指标最高的处理结果对应的分类规则,确定为分类模型的分类规则。

可选地,在基于分类模型对行为数据进行识别,得到订单行为的类型之前,该方法还包括:通过连续订单变量的分位数获取连续订单变量的衍生变量;通过离散订单变量的编码值获取离散订单变量的衍生变量;通过连续订单变量的衍生变量和离散订单变量的衍生变量确定目标衍生变量。

可选地,通过连续订单变量的衍生变量和离散订单变量的衍生变量确定目标衍生变量包括:通过连续订单变量的衍生变量确定连续订单变量的信息值;通过离散订单变量的衍生变量确定离散订单变量的信息值;将信息值最大的连续订单变量或离散订单变量确定为目标衍生变量。

可选地,通过连续订单变量的衍生变量确定连续订单变量的信息值包括:通过连续订单变量的衍生变量对应的正常订单样本、异常订单样本和对应的编码值,确定连续订单变量的信息值。

可选地,通过离散订单变量的衍生变量确定离散订单变量的信息值包括:通过离散订单变量的衍生变量对应的正常订单样本、异常订单样本和对应的编码值,确定离散订单变量的信息值。

可选地,订单行为的类型包括以下之一:异常订单类型和正常订单类型。

为了实现上述目的,根据本发明的另一方面,还提供了一种订单行为识别装置。该装置可以包括:获取单元,用于获取订单行为的行为数据;识别单元,用于基于分类模型对行为数据进行识别,得到订单行为的类型,其中,分类模型包括通过目标阈值对订单变量的目标衍生变量进行分组得到的分类规则,订单变量包括连续订单变量和离散订单变量。

为了实现上述目的,根据本发明的另一方面,还提供了一种存储介质。该存储介质可以包括存储的程序,其中,在程序运行时控制存储介质所在设备执行本发明实施例的订单行为识别方法。

为了实现上述目的,根据本发明的另一方面,还提供了一种处理器。该处理器用于运行程序,其中,该程序运行时执行本发明实施例的订单行为识别方法。

在该实施例中,通过获取订单行为的行为数据;基于分类模型对行为数据进行识别,得到订单行为的类型,其中,分类模型包括通过目标阈值对订单变量的目标衍生变量进行分组得到的分类规则,订单变量包括连续订单变量和离散订单变量。也就是说,本申请通过目标阈值对订单变量的目标衍生变量进行分组,自动生成分类规则,以得到分类模型,进而通过该分类模型对订单行为的行为数据进行有效识别,从而解决了订单行为识别的效率低的技术问题,达到了提高对订单行为识别的效率的技术效果。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是根据本发明实施例的一种订单行为识别方法的流程图;以及

图2是根据本发明实施例的一种订单行为识别装置的示意图。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

本发明实施例提供了一种订单行为识别方法。

图1是根据本发明实施例的一种订单行为识别方法的流程图。如图1所示,该方法可以包括以下步骤:

步骤s102,获取订单行为的行为数据。

在本发明上述步骤s102提供的技术方案中,订单行为可以为待识别的订单行为,可以为异常订单行为,也可以为正常订单行为,其中,异常订单行为可以为欺诈订单行为,正常订单行为可以为非欺诈订单行为,订单行为的行为数据可以为用于将订单行为归为异常订单行为或正常订单行为的数据。

步骤s104,基于分类模型对行为数据进行识别,得到订单行为的类型,其中,分类模型包括通过目标阈值对订单变量的目标衍生变量进行分组得到的分类规则,订单变量包括连续订单变量和离散订单变量。

在本发明上述步骤s104提供的技术方案中,分类模型可以为预先构建好的分类器,可以用于对订单行为的行为数据进行识别,以预测订单行为的类型,该订单行为的类型可以包括异常类型和正常类型,其中,异常类型可以为欺诈类型,正常类型可以为非欺诈类型,从而基于分类模型对行为数据进行识别的过程,可以为将订单行为归为欺诈类型或非欺诈类型的过程,其中,欺诈类型的订单行为也即上述欺诈订单行为,正常类型的订单行为也即上述正常订单行为。

在该实施例中,分类模型可以包括通过目标阈值对订单变量的目标衍生变量进行分组得到的简短有效的分类规则,其中,订单变量可以包括连续订单变量和离散订单变量,连续订单变量可以为订单金额,离散订单变量可以为座位等级,目标衍生变量的取值可以为序列号,可以通过shell脚本和hive脚本互动,完成连续订单变量和离散订单变量的衍生变量的生成。

在该实施例中,目标衍生变量可以通过目标阈值进行分组,目标衍生变量取值越小越能区分出异常订单和正常订单,而连续变量的目标衍生变量能区分出欺诈订单的取值也集中在取值的两头,因而对于订单变量,可以统一用目标阈值分为两组,包括大于目标阈值的一组和小于等于目标阈值的一组。在该实施例中,连续变量可以根据目标阈值截取为两段,可以选取欺诈订单占比较多的一段进入分类模型的规则中,离散变量也会选取欺诈订单占比较多的取值进入分类模型的规则中。

可选地,在该实施例中,异常订单和正常订单在一个连续变量的分布上往往差异很大,该实施例可以用异常订单变量的分位数作为连续订单变量的目标阈值,以更好地区分异常订单和正常订单。该实施例的连续订单变量和离散订单变量对应的目标阈值可以均为整数,从而通过目标阈值对订单变量的目标衍生变量进行分组,得到分类规则,以有效减少过拟合的现象进而提高对订单行为进行识别的效率,进而解决订单行为识别的效率低的技术问题。

下面对该实施例的上述步骤进行进一步地说明。

作为一种可选的实施方式,在步骤s104,基于分类模型对行为数据进行识别,得到订单行为的类型之前,该方法还包括:通过多个目标阈值对多个目标衍生变量进行分组,得到分类模型的多条分类规则;获取每条分类规则对订单样本进行处理得到的处理结果,其中,处理结果用于指示每条分类规则的性能指标;将指示出性能指标最高的处理结果对应的分类规则,确定为分类模型的分类规则。

在该实施例中,目标阈值可以为多个,在用异常订单变量的分位数作为连续订单变量的目标阈值的情况下,可以将分位数中的关于订单变量的最小值、20分位数、40分位数、60分位数、80分位数、最大值等,确定为多个目标阈值。该实施例的多个目标阈值还可以为整数{1,2,3,4,5,6,7}。可选地,该实施例的离散订单变量对应的目标阈值可以是整数{1,2,3},从而通过目标阈值对订单变量的目标衍生变量进行分组,得到分类规则,以有效减少过拟合的现象,进而提高对订单行为进行识别的效率。

该实施例的订单变量的目标衍生变量也可以为多个,可以遍历多个目标衍生变量,对每一个目标衍生变量,都能用目标阈值分为两组,比如,{目标衍生变量1<=阈值1,目标衍生变量1>阈值1}、{目标衍生变量2<=阈值2,目标衍生变量2>阈值2}、{目标衍生变量3<=阈值3,目标衍生变量3>阈值3}等,目标衍生变量通过上述方式进行分组,可以有效减少过拟合现象。可选地,该实施例利用shell脚本的for循环,循环遍历多个目标衍生变量,以完成分类规则的自动生成。

在该实施例中,每个目标衍生变量取其中的一组,得到一条分类规则,这样通过遍历每个目标衍生变量就可以得到多条分类规则,可以通过该分类规则对订单样本进行处理,得到用于指示分类规则的性能指标的处理结果,其中,订单样本包括异常订单样本和正常订单样本,异常订单样本也即坏样本,正常订单样本也即好样本,性能指标包括分类规则的准确率和覆盖率。具体以表1进行举例说明。

表1规则与准确率、覆盖率的对应关系表

表1为根据本发明实施例的规则与准确率、覆盖率的对应关系表,如表1所示,分类规则1为目标衍生变量1<=1,目标衍生变量2>2,目标衍生变量3<=2,……,订单样本包括抓取订单量1000,抓取欺诈订单量100,则计算得到的分类规则1的准确率为10%,覆盖率为50%,如果分类规则2为目标衍生变量1<=2,目标衍生变量2>2,目标衍生变量3<=1,……,订单样本包括抓取订单量50,抓取欺诈订单量30,则计算得到的分类规则2的准确率为60%,覆盖率为15%,如果分类规则3为目标衍生变量1<=7,目标衍生变量2>1,目标衍生变量3<=4,……,订单样本包括抓取订单量1000,抓取欺诈订单量1,则计算得到的分类规则2的准确率为0%,覆盖率为1%。

该实施例可以将指示出性能指标最高的处理结果所对应的分类规则,确定为分类模型的分类规则,比如,在准确率一定的情况下,如果分类规则的覆盖率越高,则将其确定为分类模型的分类规则,可选地,在准确率达10%的情况下,如果分类规则的覆盖率越高,则将其确定为分类模型的分类规则,从而达到确定分类模型的分类规则的目的。

作为一种可选的实施方式,在步骤s104,基于分类模型对行为数据进行识别,得到订单行为的类型之前,该方法还包括:通过连续订单变量的分位数获取连续订单变量的衍生变量;通过离散订单变量的编码值获取离散订单变量的衍生变量;通过连续订单变量的衍生变量和离散订单变量的衍生变量确定目标衍生变量。

在该实施例中,在基于分类模型对行为数据进行识别,得到订单行为的类型之前,需要确定连续订单变量的衍生变量和离散订单变量的衍生变量。对于连续订单变量,可以计算异常订单关于变量的最小值、20分位数、40分位数、60分位数、80分位数、最大值,然后对连续订单变量进行分段,如表2所示,表2为根据本发明实施例的连续订单变量的连续字段与衍生变量的对应关系表,其中,小于最小值的连续订单变量的衍生变量可以为1,在最小值与20分位数之间的连续订单变量的衍生变量可以为2,在20分位数与40分位数之间的连续订单变量的衍生变量可以为3,在40分位数与60分位数之间的连续订单变量的衍生变量可以为4,在60分位数与80分位数之间的连续订单变量的衍生变量可以为5,在80分位数与最大值之间的连续订单变量的衍生变量可以为6,大于最大值的连续订单变量的衍生变量可以为7。

表2连续订单变量的连续字段与衍生变量的对应关系表

在该实施例中,对于离散订单变量,该实施例可以通过离散订单变量的编码值获取离散订单变量的衍生变量,可以直接对离散订单变量进行证据权重(weightofevidence,简称为woe)编码,得到编码值(woe值),然后根据woe值对离散订单变量进行倒序排序,得到离散订单变量对应的衍生变量,比如,离散订单变量为座位等级,包括regular、j、c、d、i、h、x、y、m、p、e,分别对其进行woe编码,得到的对应的woe值为5.07、3.59、3.09、1.51、1.19、0.47、0.26、-0.08、-0.46、-0.49、-0.55,对其进行倒序排序后得到的离散订单变量的衍生变量为1、2、3、4、5、6、7、8、9、10、11。

在该实施例中,woe值表示的实际上是“当前分组中异常订单样本占所有异常订单样本的比例”和“当前分组中正常订单样本占所有正常订单样本的比例”的差异。在转化公式以后,也可以理解为当前这个分组中的异常订单样本和正常订单样本的比值,和所有样本中异常订单样本和正常订单样本的比值的差异,这个差异可以通过对上述两个比值之间的比值取对数得到。比如,小于等于1000的订单有40000单,其中,有1单为欺诈订单,39999单为非欺诈订单,1笔欺诈订单占总欺诈订单(38)的比例是2.6%,39999单非欺诈订单占总非欺诈订单113263的比例是35.3%,woe=ln(欺诈订单样本占总欺诈订单样本的占比/非欺诈订单样本占总非欺诈订单样本的占比)=-2.6。

在该实施例中,如果异常订单样本的比例越大,则woe值越大,当前分组的woe值的正负,可以由当前分组的异常订单样本和正常订单样本的比例,与订单样本整体的异常订单样本和正常订单样本的比例的大小关系进行决定,当前分组的异常订单样本和正常订单样本的比例小于订单样本整体的异常订单样本和正常订单样本的比例时,woe值为负,当前分组的异常订单样本和正常订单样本的比例大于订单样本整体的异常订单样本和正常订单样本的比例时,woe值为正,当前分组的异常订单样本和正常订单样本的比例与订单样本整体的异常订单样本和正常订单样本的比例相等时,则woe值为0。该实施例的woe值其实描述了订单变量在当前这个分组,对判断个体是否属于异常订单样本所起到的影响方向和大小。当woe值为正时,变量当前取值对判断个体是否会响应起到的正向的影响,当woe值为负时,起到了负向影响,而woe值的大小,则是这个影响的大小的体现。

在通过连续订单变量的分位数获取连续订单变量的衍生变量,以及通过离散订单变量的编码值获取离散订单变量的衍生变量之后,通过连续订单变量的衍生变量和离散订单变量的衍生变量确定目标衍生变量,也即,确定规则自动化的变量。

下面对该实施例的通过连续订单变量的衍生变量和离散订单变量的衍生变量确定目标衍生变量的方法,进行进一步地介绍。

作为一种可选的实施方式,通过连续订单变量的衍生变量和离散订单变量的衍生变量确定目标衍生变量包括:通过连续订单变量的衍生变量确定连续订单变量的信息值;通过离散订单变量的衍生变量确定离散订单变量的信息值;将信息值最大的连续订单变量或离散订单变量确定为目标衍生变量。

在该实施例中,在实现通过连续订单变量的衍生变量和离散订单变量的衍生变量确定目标衍生变量时,通过连续订单变量的衍生变量确定连续订单变量的信息值,可以通过连续订单变量的衍生变量对应的正常订单样本、异常订单样本和对应的编码值,确定连续订单变量的信息值(informationvalue,简称为iv),其中,连续订单变量的衍生变量对应的异常订单样本可以用于确定分组中的连续订单变量的衍生变量对应的异常订单样本占总的异常订单样本的占比,连续订单变量的衍生变量对应的正常订单样本可以用于确定分组中的连续订单变量的衍生变量对应的正常订单样本占总正常订单样本的占比,进而结合对应的woe值计算得到连续订单变量的信息值,也即,该实施例的连续订单变量的iv值的计算是基于woe值进行的,可以看成对woe值的加权求和,从而iv值和woe值的差别,就在于连续订单变量的iv值在woe值基础上乘以一个权重(py1-py0),该权重为分组中的连续订单变量的衍生变量对应的异常订单样本占总的异常订单样本的占比,与该分组中的连续订单变量的衍生变量对应的正常订单样本占总正常订单样本的占比之间的差。

可选地,表3为根据本发明实施例的连续订单变量的数据关系表,可以根据表3中的欺诈占总欺诈占比、非欺诈占总非欺诈占比、woe值来计算连续订单变量的信息值,比如,通过下式进行:iv=(2.6%-35.3%)*(-2.60)+(18.4%-17.7%)*0.04+(18.4%-35.3%)*(-0.65)+(28.9%-8.8%)*1.19+(18.4%-1.8%)*2.35+(10.5%-0.5%)*3.00+(2.6%-0.6%)*1.45=1.9。其中,欺诈订单样本占总欺诈订单样本的占比对应上述分组中的连续订单变量的衍生变量对应的异常订单样本占总的异常订单样本的占比,非欺诈订单样本占总非欺诈订单样本的占比对应上述分组中的连续订单变量的衍生变量对应的正常订单样本占总正常订单样本的占比。

表3连续订单变量的数据关系表

该实施例还通过离散订单变量的衍生变量确定离散订单变量的信息值时,可以是通过离散订单变量的衍生变量对应的正常订单样本、异常订单样本和对应的编码值,确定离散订单变量的信息值,其中,离散订单变量的衍生变量对应的异常订单样本可以用于确定分组中的离散订单变量的衍生变量对应的异常订单样本占总的异常订单样本的占比,离散订单变量的衍生变量对应的正常订单样本可以用于确定分组中的离散订单变量的衍生变量对应的正常订单样本占总正常订单样本的占比,进而结合对应的woe值计算得到离散订单变量的信息值,也即,该实施例的离散订单变量的iv值的计算是基于woe值进行的,可以看成对woe值的加权求和,从而离散订单变量的iv值和woe值的差别,就在于iv值在woe值基础上乘以一个权重(py1-py0),该权重为分组中的离散订单变量的衍生变量对应的异常订单样本占总的异常订单样本的占比,与该分组中的离散订单变量的衍生变量对应的正常订单样本占总正常订单样本的占比之间的差。

可选地,表4为根据本发明实施例的离散订单变量的数据关系表,该实施例根据表4中的欺诈订单样本占总欺诈订单样本的占比、非欺诈订单样本占总非欺诈订单样本的占比、woe值来计算离散订单变量的信息值。其中,欺诈订单样本占总欺诈订单样本的占比对应上述分组中的离散订单变量的衍生变量对应的异常订单样本占总的异常订单样本的占比,非欺诈订单样本占总非欺诈订单样本的占比对应上述分组中的离散订单变量的衍生变量对应的正常订单样本占总正常订单样本的占比。

表4离散订单变量的数据关系表

在该实施例中,对于离散订单变量,如果离散订单变量的取值越多,则越容易造成过拟合,因此该实施例对于离散订单变量,可以在按照woe倒序得到衍生变量后,在计算iv和规则使用时,都只考虑衍生变量的前三个。这样离散订单变量的信息值可以通过iv=(1.7%-0.0%)*5.07+(42.4%-1.2%)*3.59+(10.2%-0.5%)*3.09=1.86得到,通过该方式计算得到的信息值可以为离散订单变量的优化iv值。

在通过连续订单变量的衍生变量确定连续订单变量的信息值,通过离散订单变量的衍生变量确定离散订单变量的iv值之后,该实施例可以将iv值最大的连续订单变量或离散订单变量确定为目标衍生变量,也即,可以将连续订单变量对应的iv值,离散变量计算优化后的iv放在一起,选取iv值较大的连续订单变量或离散订单变量规则自动化的变量。

在该实施例中,通过目标阈值对订单变量的目标衍生变量进行分组,自动生成分类规则,以得到分类模型,进而通过该分类模型对订单行为的行为数据进行有效识别,解决了订单行为识别的效率低的技术问题,达到了提高对订单行为识别的效率的技术效果。其中,该实施例的确定分类模型的规则的算法简单易懂,可以直接部署在hadoop/hive等分布式平台,实时和包括异常订单样本和正常订单样本的数据集进行互动,不需要抽样,可以保留数据集原本的样子,该实施例的分类规则是对多个目标衍生变量进行遍历得到的,会输出所有有效规则,避免出现过拟合的现象,该实施例的分类规则具有规则有明确的含义,容易理解。

需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

实施例2

下面结合优选的实施方式对本发明实施例的技术方案进行举例说明,具体以异常订单样本为欺诈订单样本,正常订单样本为非欺诈订单样本进行举例说明。

在该实施例中,可以将欺诈订单定义为坏样本,非欺诈订单定义为好样本,识别欺诈行为本质上讲是构造分类器,对订单进行预测,将订单归为欺诈类型或非欺诈类型的过程。

在相关技术中,主流的分类器算法有决策树算法、贝叶斯算法、逻辑回归模型、随机森林等等。由于在反欺诈过程中,需要在欺诈萌芽阶段就把有效规则部署上线,而往往欺诈萌芽阶段的欺诈样本较少,而非欺诈样本的数据非常大,对已有算法,存在以下问题:欺诈样本数据非常少,一般算法非常容易过拟合;数据量很大,数据导出到算法平台后,经常会因为数据量大而跑不起来;非欺诈样本数据非常多,为了实施算法,需要对数据进行高浓度抽样,而抽样后往往导致样本上的模拟效果和实际效果相差很大。

在规则确定的过程中,可以根据变量取值进行截断,比如,金额是否大于1000,卡归属地和乘机人归属地是否一致。在一般情况下,连续订单变量可以根据阈值截取为两段,选取欺诈订单占比较多地一段进入规则,离散订单变量也会选取欺诈占比较多地取值进入规则。在订单量比较大的情况下,需要确定选取哪些订单变量做规则,连续订单变量的阈值如何选取,以及离散订单变量的哪些取值可以进入规则。该实施例针对上述问题提供了一种规则自动生成方案。下面对该实施例的规则自动生成方案进行进一步介绍。

下面对该实施例的连续订单变量分类方法进行介绍。

在该实例中,欺诈订单和非欺诈订单在一个连续变量的分布上往往差异很大,用欺诈订单变量的分位数作为连续订单变量分类的阈值,可以更好地区分非欺诈订单和欺诈订单。

比如,连续订单变量为订单金额,如表3所示,先计算欺诈订单关于变量的最小值、20分位数、40分位数、60分位数、80分位数、最大值。然后对连续变量进行分段,得到表2,其中,小于最小值的连续订单变量的衍生变量可以为1,在最小值与20分位数之间的连续订单变量的衍生变量可以为2,在20分位数与40分位数之间的连续订单变量的衍生变量可以为3,在40分位数与60分位数之间的连续订单变量的衍生变量可以为4,在60分位数与80分位数之间的连续订单变量的衍生变量可以为5,在80分位数与最大值之间的连续订单变量的衍生变量可以为6,大于最大值的连续订单变量的衍生变量可以为7。

在该实施例中,woe值表示的实际上是“当前分组中的欺诈订单样本占所有的欺诈订单样本的比例”和“当前分组中的非欺诈订单样本占所有非欺诈订单样本的比例”的差异。在转化公式以后,也可以理解为当前这个分组中欺诈订单样本和非欺诈订单样本的比值,和所有订单样本中欺诈订单样本和非欺诈订单样本的比值的差异,这个差异可以通过对上述两个比值之间的比值取对数得到。

如表3所示,小于等于1000的订单有40000单,其中,有1单欺诈订单,39999单为非欺诈订单,1笔欺诈订单占总欺诈订单(38)的比例是2.6%,39999单非欺诈订单占总非欺诈订单113262的比例是35.3%,则woe=ln(欺诈订单样本占总欺诈订单样本的占比/非欺诈订单样本占总非欺诈订单样本的占比)=-2.6。

在当前分组中,欺诈订单样本的比例越大,则woe值越大。当前分组的woe值的正负,由当前分组欺诈订单样本和非欺诈订单样本的比例,与订单样本整体的欺诈订单样本和非欺诈订单样本的比例的大小关系决定,如果当前分组欺诈订单样本和非欺诈订单样本的比例小于订单样本整体的欺诈订单样本和非欺诈订单样本的比例,则woe值为负,如果当前分组欺诈订单样本和非欺诈订单样本的比例大于订单样本整体的欺诈订单样本和非欺诈订单样本的比例,则woe值为正,如果当前分组欺诈订单样本和非欺诈订单样本的比例,与订单样本整体的欺诈订单样本和非欺诈订单样本的比例相等时,则woe值为0。

该实施例的woe值其实描述了订单变量当前这个分组,对判断个体是否属于欺诈订单样本所起到影响方向和大小。当woe值为正时,订单变量当前取值对判断个体是否会响应起到正向的影响,当woe值为负时,会起到负向影响。而woe值的大小,则是这个影响的大小的体现。

在该实施例中,iv值的计算基于woe值,可以看成对woe值的加权求和。iv值和woe值的差别,就在于iv值在woe基础上乘以一个权重(py1-py0),这个权重也是变量筛选考虑使用iv值而非woe值去筛选变量的重要依据。

如表3所示,金额离散化字段计算iv=(2.6%-35.3%)*(-2.60)+(18.4%-17.7%)*0.04+(18.4%-35.3%)*(-0.65)+(28.9%-8.8%)*1.19+(18.4%-1.8%)*2.35+(10.5%-0.5%)*3.00+(2.6%-0.6%)*1.45=1.9。

下面对该实施例的离散订单变量分类方法进行介绍。

在该实施例中,对于离散订单变量,可以直接对离散订单变量进行woe编码,然后根据woe倒序排序,得到离散变量对应的衍生变量。

在该实施例中,对于离散订单变量,离散订单变量的取值越多,则越容易造成过弥合,因此,对于离散订单变量,可以在按照woe值倒序得到衍生变量后,在后面计算iv和规则使用时,都只考虑衍生变量的前三个分类。比如,如表4所示,iv=(1.7%-0.0%)*5.07+(42.4%-1.2%)*3.59+(10.2%-0.5%)*3.09=1.86,这里可以把这种iv值的计算方式称为优化后的iv。

下面对该实施例的重要变量进行筛选的过程进行介绍。

在该实施例中,在通过连续订单变量计算iv值,离散订单变量计算优化后的iv之后,可以选取iv值较大的订单变量作为规则自动化的变量。

下面对该实施例的欺诈规则自动生成算法的方法进行介绍。

在该实施例中,连续订单变量和离散订单变量,都能得到取值为序列号的衍生变量,用这种方法得到的衍生变量,衍生变量取值越小越能区分欺诈订单行为。连续订单变量的衍生变量能区分欺诈订单行为的取值也集中在取值的两头,所以对于订单变量,后面统一用阈值分为两组,大于阈值的为一组,小于等于阈值的为一组。

在该实施例中,连续订单变量和离散订单变量的分组只是一个初步的阈值确认的过程,该实施例可以采用阈值循环遍历跑出所有规则组合和其准确率覆盖率,比如,对每一个衍生变量,都能用阈值将订单分成两组,可以为{衍生变量1<=阈值1衍生变量1>阈值1}、{衍生变量2<=阈值2,衍生变量2>阈值2}、{衍生变量3<=阈值3,衍生变量3>阈值3}等,衍生变量通过上述方式进行分组,可以有效减少过拟合的现象。

可选地,该实施例的连续订单变量的衍生变量阈值取值范围可以为{1,2,3,4,5,6,7},离散订单变量的衍生变量的阈值取值范围{1,2,3}。

每一个衍生变量取其中的一组,就会得到一条分类规则,并计算出此分类规则的覆盖率和准确率。

遍历衍生变量,就会得到所有的分类规则组合,并计算出每条分类规则的覆盖率和准确率,如表1所示,分类规则1为目标衍生变量1<=1,目标衍生变量2>2,目标衍生变量3<=2,……,订单样本包括抓取订单量1000,抓取欺诈订单量100,则计算得到的分类规则1的准确率为10%,覆盖率为50%,如果分类规则2为目标衍生变量1<=2,目标衍生变量2>2,目标衍生变量3<=1,……,订单样本包括抓取订单量50,抓取欺诈订单量30,则计算得到的分类规则2的准确率为60%,覆盖率为15%,如果分类规则3为目标衍生变量1<=7,目标衍生变量2>1,目标衍生变量3<=4,……,订单样本包括抓取订单量1000,抓取欺诈订单量1,则计算得到的分类规则2的准确率为0%,覆盖率为1%。

在准确率一定的情况下,如果分类规则的覆盖率越高,则将其确定为分类模型的分类规则。

该实施例实现了连续订单变量的分类变量的方法和离散订单变量的分类变量的方法,筛选重要变量的方法以及欺诈规则自动生成算法,算法简单易懂,可以直接部署在hadoop/hive等分布式平台,实时和含有好坏样本的数据集互动,不需要抽样,从而保留数据原本的样子,规则是循环变量组合产生的,会输出所有有效规则,不会出现过拟合的现象,规则有明确的含义,容易理解。

该实施例可以在携程hadoop平台,利用shell脚本和hive脚本跑通,能自动输出规则,规则所使用的数据集可以保存在hive数据集中,通过对已有数据集进行整理,可以获得包括欺诈订单样本和非欺诈订单样本的数据集。该实施例的shell脚本和hive脚本互动,完成连续订单变量和离散订单变量的衍生变量的生成,可以利用shell脚本的for循环,完成欺诈规则的自动生成。

实施例3

本发明实施例还提供了一种订单行为识别装置。需要说明的是,该实施例的订单行为识别装置可以用于执行本发明实施例的订单行为识别方法。

图2是根据本发明实施例的一种订单行为识别装置的示意图。如图2所示,该订单行为识别装置20可以包括:获取单元21和识别单元22。

获取单元21,用于获取订单行为的行为数据。

识别单元22,用于基于分类模型对行为数据进行识别,得到订单行为的类型,其中,分类模型包括通过目标阈值对订单变量的目标衍生变量进行分组得到的分类规则,订单变量包括连续订单变量和离散订单变量。

可选地,该装置还包括:分组单元,用于在基于分类模型对行为数据进行识别,得到订单行为的类型之前,通过多个目标阈值对多个目标衍生变量进行分组,得到分类模型的多条分类规则;第一获取单元,用于获取每条分类规则对订单样本进行处理得到的处理结果,其中,处理结果用于指示每条分类规则的性能指标;第一确定单元,用于将指示出性能指标最高的处理结果对应的分类规则,确定为分类模型的分类规则。

可选地,该装置还包括:第二获取单元,用于在基于分类模型对行为数据进行识别,得到订单行为的类型之前,通过连续订单变量的分位数获取连续订单变量的衍生变量;第三获取单元,用于通过离散订单变量的编码值获取离散订单变量的衍生变量;第二确定单元,用于通过连续订单变量的衍生变量和离散订单变量的衍生变量确定目标衍生变量。

可选地,第二确定单元包括:第一确定模块,用于通过连续订单变量的衍生变量确定连续订单变量的信息值;第二确定模块,用于通过离散订单变量的衍生变量确定离散订单变量的信息值;第三确定模块,用于将信息值最大的连续订单变量或离散订单变量确定为目标衍生变量。

可选地,第一确定模块用于通过以下步骤来实现通过连续订单变量的衍生变量确定连续订单变量的信息值:通过连续订单变量的衍生变量对应的正常订单样本、异常订单样本和对应的编码值,确定连续订单变量的信息值。

可选地,第二确定模块用于通过以下步骤来实现通过离散订单变量的衍生变量确定离散订单变量的信息值:通过离散订单变量的衍生变量对应的正常订单样本、异常订单样本和对应的编码值,确定离散订单变量的信息值。

可选地,订单行为的类型包括以下之一:异常订单类型和正常订单类型。

该实施例通过获取单元21获取订单行为的行为数据,通过识别单元22基于分类模型对行为数据进行识别,得到订单行为的类型,其中,分类模型包括通过目标阈值对订单变量的目标衍生变量进行分组得到的分类规则,订单变量包括连续订单变量和离散订单变量。也就是说,本申请通过目标阈值对订单变量的目标衍生变量进行分组,自动生成分类规则,以得到分类模型,进而通过该分类模型对订单行为的行为数据进行有效识别,从而解决了订单行为识别的效率低的技术问题,达到了提高对订单行为识别的效率的技术效果。

实施例4

本发明实施例还提供了一种存储介质。该存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行本发明实施例中的订单行为识别方法。

实施例5

本发明实施例还提供了一种存储介质。该储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行本发明实施例的订单行为识别方法。

显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1