风控策略的生成方法、装置、服务器及可读存储介质与流程

文档序号:16694793发布日期:2019-01-22 19:25阅读:172来源:国知局
风控策略的生成方法、装置、服务器及可读存储介质与流程

本说明书实施例涉及风险识别技术领域,尤其涉及一种风控策略的生成方法、装置、服务器及可读存储介质。



背景技术:

网络社会中,为了能及时的识别出涉及欺诈等问题的高风险用户或高风险交易,往往需要设置风险控制策略,主要是设置一些关键的风控阈值来及时的识别出风险用户或风险交易。但存在风控阈值设置缺乏全局性的问题。



技术实现要素:

本说明书实施例提供及一种风控策略的生成方法、装置、服务器及可读存储介质。

第一方面,本说明书实施例提供一种风控策略的生成方法,包括:

以交易数据作为训练样本集,训练获取训练数据集;所述训练数据集的元素为风控阈值组和采用所述风控阈值组在所述训练样本集中命中的样本量;所述风控阈值组为控制风险的风控参数组的试验阈值;根据所述训练数据集,确定阈值预测模型;基于所述阈值预测模型,获得全局风控阈值组,所述全局阈值组包括所述风控参数组的确定阈值。

第二方面,本说明书实施例提供一种风控策略的生成装置,包括:

训练模块,用于以交易数据作为训练样本集,训练获取训练数据集;所述训练数据集的元素为风控阈值组和采用所述风控阈值组在所述训练样本集中命中的样本量;所述风控阈值组为控制风险的风控参数组的试验阈值;确定模块,用于根据所述训练数据集,确定阈值预测模型;获得模块,用于基于所述阈值预测模型,获得全局风控阈值组,所述全局阈值组包括所述风控参数组的确定阈值。

第三方面,本说明书实施例提供一种服务器,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项所述风控策略的生成方法的步骤。

第四方面,本说明书实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述风控策略的生成方法的步骤。

本说明书实施例有益效果如下:

通过本说明书实施例提供的风控策略的生成方法,获取训练数据集,并根据训练数据集确定阈值预测模型,以获得全局风控阈值组,其全局风控阈值组是综合了阈值组与命中的样本量的关系后获得的,不是只单独考虑阈值组中的某一个阈值与命中样本量的关系,故本说明书获得的全局风控阈值组中每个阈值是相互关联来影响命中样本量的,这样获得的风控策略更具全局性。

附图说明

图1为本说明书实施例风控策略的生成方法所应用场景的示意图;

图2本说明书实施例第一方面提供的风控策略的生成方法的流程图;

图3本说明书实施例第二方面提供的风控策略的生成装置的结构示意图;

图4本说明书实施例第三方面提供的服务器结构示意图。

具体实施方式

为了更好的理解上述技术方案,下面通过附图以及具体实施例对本说明书实施例的技术方案做详细的说明,应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细的说明,而不是对本说明书技术方案的限定,在不冲突的情况下,本说明书实施例以及实施例中的技术特征可以相互组合。

参见图1,为本说明书实施例风控策略的生成方法所应用场景的示意图。服务器100从多个用户端200收集历史交易数据作为训练样本。服务器100中的风控策略生成系统101用于生成风控策略。服务器100中的风控系统102用于根据风控策略生成系统101生成的风控策略,结合监控获取的用户端200的当前交易数据,来对有风险的交易或用户进行识别和处理。

以对欺诈案件进行风险控制为例,现有的风控策略往往是按照历史数据来单独确定每条阈值,然而,阈值与阈值之间往往是有相互影响的,即阈值a的设置对样本命中量的影响是与阈值b的取值关联的。实际操作中更重要的是风控阈值组整体的风险控制效果,如现有风控策略往往单独设置每个风控阈值,仅考虑每条阈值单独的风控效果来设置出整个风控阈值组,风控阈值之间的相关性不能体现,比较片面,缺乏全局性,没有考虑各阈值之间的关系,往往不能获得风控效果最优的风控阈值组。

本说明书实施例,根据风控阈值组整体与对应的命中样本量的数据来确定阈值预测模型,获得的全局风控阈值组具有最优的整体风险控制效果。采用所述全局风控阈值组的风控策略全局性更优,风控效果也更佳。

第一方面,本说明书实施例提供一种风控策略的生成方法。用于获取全局整体风控效果更优的全局风控阈值组。

请参考图2,上述方法包括s201-s203。

步骤s201:以交易数据作为训练样本集,训练获取训练数据集;训练数据集的元素为风控阈值组和采用风控阈值组在训练样本集中命中的样本量,该风控阈值组为控制风险的风控参数组的试验阈值。

在本实施例中,该交易数据的收集期限范围根据计算量或需要的风控策略的精确度等因素来选择,可以是近一年的交易数、近一月的交易数据或所有的交易数据,在此不作限制。

在训练获取训练数据集之前,先对交易数据进行打标。一种方案为,仅标记出交易数据中的风险样本;另一种方案为,采用不同标记来标记出交易数据中的风险样本和非风险样本。风险样本的定义可以根据需要确定,例如,可以设置风险样本为接收过报案的交易数据、被投诉过的交易数据或被处罚过的交易数据,等等。

训练获取训练数据集的过程包括:随机生成多组风控阈值组,根据该多组风控阈值组从训练样本集中筛选风险样本,统计每组风控阈值组及其对应筛选的样本量,以一组风控阈值组和其对应的样本量作为训练数据集中的一条数据元素,从而获得训练数据集。

随机生成的多组风控阈值组中每组风控阈值组可以包括以下任一种或多种的组合:用户交易次数阈值、用户交易金额阈值、设备切换账户次数或设备切换用户身份识别卡的次数,等等。

在本实施例中,根据样本量的不同,训练数据集包括的类型也不相同。

在一种可选的实施例中,该训练数据集包括风险训练数据集和打扰训练数据集,对应的,该样本量包括命中的风险样本量和命中的全部样本量。

风险训练数据集的获取是利用随机生成的多组风控阈值组在训练样本集中进行风险样本筛选,统计出根据各组风控阈值组在训练样本集中对应筛选出的标记为风险样本的风险样本量,以一组风控阈值组和其对应的风险样本量作为风险训练数据集的一条数据元素,多条该类数据元素组成风险训练数据集;

打扰训练数据集的获取是利用随机生成的多组风控阈值组在训练样本集中进行风险样本筛选,统计出根据各组风控阈值组在训练样本集中对应筛选出的总样本量,以一组风控阈值组和其对应的总样本量作为打扰训练数据集的一条数据元素,多条该类数据元素组成打扰训练数据集。

其中,风险训练数据集能表征风控阈值组整体与筛选出的风险样本量的关系,打扰训练数据集能表征风控阈值组整体与筛选的总样本量的关系,其还能表征风控阈值组整体与筛选计算量的关系。而结合风险训练数据集和打扰训练数据,还能表征风控阈值组整体的筛选准确率(筛选出的风险样本量与筛选出的总样本量的比例)、打扰率(筛选出的非风险样本量与筛选出的总样本量的比例)等指标。

举例来讲,随机生成n组风控阈值组,分别为:(a1,b1,c1,d1)、(a2,b2,c2,d2)、(a3,b3,c3,d3)……(an,bn,cn,dn)。利用该n组风控阈值组分别在训练样本集中进行风险样本筛选。

统计各组风控阈值组对应筛选出的风险样本量为:(a1,b1,c1,d1):f1、(a2,b2,c2,d2):f2、(a3,b3,c3,d3):f3……(an,bn,cn,dn):fn。其中,f1为采用(a1,b1,c1,d1)阈值组在训练样本集中筛选出的风险样本量、f2为采用(a2,b2,c2,d2)阈值组在训练样本集中筛选出的风险样本量、f3为采用(a3,b3,c3,d3)阈值组在训练样本集中筛选出的风险样本量……fn为采用(an,bn,cn,dn)阈值组在训练样本集中筛选出的风险样本量。则风险训练数据集包括:(a1,b1,c1,d1)及其对应的f1、(a2,b2,c2,d2)及其对应的f2、(a3,b3,c3,d3)及其对应的f3……(an,bn,cn,dn)及其对应的fn。每个阈值组和其对应的风险样本量为风险训练数据集中的一条数据,即一个元素,例如,(a1,b1,c1,d1)及其对应的f1为风险训练数据集中的一条数据。

统计各组风控阈值组对应筛选出的总样本量为:(a1,b1,c1,d1):z1、(a2,b2,c2,d2):z2、(a3,b3,c3,d3):z3……(an,bn,cn,dn):zn。其中,z1为采用(a1,b1,c1,d1)阈值组在训练样本集中筛选出的总样本量、z2为采用(a2,b2,c2,d2)阈值组在训练样本集中筛选出的总样本量、z3为采用(a3,b3,c3,d3)阈值组在训练样本集中筛选出的总样本量……zn为采用(an,bn,cn,dn)阈值组在训练样本集中筛选出的总样本量。则打扰训练数据集包括:(a1,b1,c1,d1)及其对应的z1、(a2,b2,c2,d2)及其对应的z2、(a3,b3,c3,d3)及其对应的z3……(an,bn,cn,dn)及其对应的zn。每个阈值组和其对应的总样本量为打扰训练数据集中的一条数据,即一个元素,例如,(a1,b1,c1,d1)及其对应的z1为打扰训练数据集中的一条数据。

在另一种可选的实施例中,该训练数据集包括风险训练数据集和误打扰训练数据集,对应的,该样本量包括命中的风险样本量和命中的非风险样本量。

风险训练数据集的获取如前所述;

误打扰训练数据集的获取是利用随机生成的多组风控阈值组在训练样本集中进行风险样本筛选,统计出根据各组风控阈值组在训练样本集中对应筛选出的没有标记为风险样本的非风险样本量,以一组风控阈值组和其对应的非风险样本量作为误打扰训练数据集的一条数据元素,多条该类数据元素组成误打扰训练数据集。

其中,误打扰训练数据集能表征风控阈值组整体与错误筛选的非风险样本量的关系。而结合风险训练数据集和误打扰训练数据,也表征风控阈值组整体的筛选准确率、打扰率等指标。

当然,在具体实施过程中,还可以设置其他的训练数据集类型,不限于上述两种,在此不作累述。

步骤s202:根据训练数据集,确定阈值预测模型。

在本实施例中,可以采用线性拟合方式(例如,多元线性回归或线性最小二乘法等)或非线性拟合方式(例如,非线性回归或非线性最小二乘法等)对所述训练数据集进行拟合,以拟合出的结果作为阈值预测模型。具体可以拟合为风控阈值组取值与样本量(命中的风险样本量及命中的全部样本量)的曲线关系模型或者方程关系模型等。

一种可选的实施方式为,对阈值预测模型进行验证,在验证通过后再执行步骤s203来获得全局风控阈值组。如果验证不通过,则在扩大或改变训练样本集的范围后,重新执行步骤s201~s202。

验证阈值预测模型的方法可以有多种,下面列举两种为例:

第一种,以不同范围的交易数据作为验证样本集,训练获取验证数据集,其中,不同范围可以是不同时间范围,也可以是不同地域范围,还可以是不同交易平台范围等,在此不作限制。再根据验证数据集,拟合确定验证预测模型。然后,判断验证预测模型与阈值预测模型之间的差异是否满足预设差异要求,如果满足则确认阈值预测模型验证通过,如果不满足则确认阈值预测模型验证不通过,其中,预设差异要求可以是对拟合出的曲线关系模型的曲线变化趋势相似度要求,也可以是对拟合出的方程关系模型的方程变量系数的差值要求,在此不作限制。

第二种,以不同范围的交易数据作为验证样本集,采用阈值预测模型获取验证阈值组。再根据验证阈值组对不同范围的验证样本集进行风险样本筛选,判断验证阈值组对不同范围的验证样本集进行风险样本筛选的筛选准确率和打扰率等指标是否均在预设的范围内,如果在预设的范围内则确认阈值预测模型验证通过。

当然,在具体实施过程中,验证阈值预测模型的方法不限于上述两种,在此不作限制。

当然,也可以不对阈值预测模型进行验证,直接执行步骤s203,在此不作限制。

步骤s203:基于阈值预测模型,获得全局风控阈值组,该全局阈值组包括所述风控参数组的确定阈值。

阈值预测模型的输入参数为阈值约束条件和目标函数,输出为全局风控阈值组。该全局风控阈值组包括以下任一种或多种的组合:用户交易次数阈值、用户交易金额阈值、设备切换账户次数或设备切换用户身份识别卡的次数。还可以设置全局风控阈值组包括不同的时间或区域阈值。

在本实施例中,阈值约束条件和目标函数由工作人员根据需要达到的风控效果和对阈值组中部分或全部阈值参数的经验限定等因素来设置。

阈值约束条件可以包括以下一种或多种的组合:全局风控阈值组的取值范围、样本量的取值范围(例如,筛选准确率的取值范围或打扰率的取值范围等)。

举例来讲,假设全局风控阈值组包括:1日内设备切换用户身份识别卡的次数阈值,和7日内设备切换用户身份识别卡的次数阈值等等。可以设置阈值约束条件为:1日内设备切换用户身份识别卡的次数小于3,7日内设备切换用户身份识别卡的次数小于5,1日内设备切换用户身份识别卡的次数小于等于7日内设备切换用户身份识别卡的次数,或打扰率小于等于0.5%等。

目标函数可以包括:从初筛风控阈值组集合中确定全局风控阈值组的计算规则,初筛风控阈值组集合为根据阈值预测模型计算出的符合阈值约束条件的风控阈值组的集合。

举例来讲,目标函数可以设为:最小化命中的总样本量,即在阈值预测模型确定的所有满足阈值约束条件的初筛风控阈值组中,以命中的总样本量最小的阈值组作为全局风控阈值组。

在本实施例中,当阈值预测模型为关系曲线模型时,可以通过遍历拟合出的关系曲线,确定出符合阈值约束条件和目标函数的阈值组作为全局风控阈值组。当阈值预测模型为关系方程模型时,可以带入阈值约束条件和目标函数来解方程,确定出全局风控阈值组。

进一步,考虑到风控策略即全局风控阈值组的持续优化,还可以设置在收集了更多的新的数据后,更新交易数据,并以更新的交易数据作为训练样本集来训练获取更新的训练数据集。由于更新的训练数据集来源于更全面的数量更大的训练样本集,故根据更新的训练数据集拟合出的阈值预测模型及获得的全局风控阈值组也会更优化。这样持续周期性或触发性的更新全局风控阈值组,并根据更新的阈值预测全局风控阈值组来进行风控,就能高效的实现风控策略的自动更新改进。

可见,通过本说明书实施例提供的风控策略的生成方法,其全局风控阈值组是综合了阈值组与命中样本量的关系后获得的,不是只单独考虑阈值组中的某一个阈值与命中样本量的关系,其获得的全局风控阈值组中每个阈值是相互关联来影响命中样本量的,这样获得的风控策略更具全局性。

进一步,在需要设置大量风控策略时,采用机器训练和拟合算法来计算获得全局风控阈值组,不需要人工对各阈值作单独设置,能简化策略的制定难度,提高效率。且只要更新交易数据,就能快速自动更新全局风控阈值组,还简化了策略的管理和优化的难度。

以一个具体应用场景作整体说明,例如:

在对欺诈案件进行风险控制时,服务器收集历史交易数据,并对历史交易数据中的欺诈案件进行标记。

然后,利用随机生成多组风控阈值组在训练样本集中进行风险样本筛选,统计出根据各组风控阈值组在训练样本集中对应筛选出的标记为风险样本的风险样本量,生成风险训练数据集;根据各组风控阈值组在训练样本集中对应筛选出的总样本量,生成打扰训练数据集。

通过多元线性回归对风险训练数据集和打扰训练样本集进行拟合,获取风控阈值组与命中的风险样本量的关系方程,假设为y1=a1*k1+a2*k2+a3*k3,其中,y1为命中的风险样本量,a1至a3为常数,k1至k3为风控阈值组的三个阈值。并获取风控阈值组与命中的总样本量的关系方程,假设为y2=b1*k1+b2*k2+b3*k3,其中,y2为命中的总样本量,b1至b3为常数,k1至k3为风控阈值组的三个阈值。上述两关系方程作为阈值预测模型。

输入预设的约束条件和目标函数至阈值预测模型进行求解,从而计算出k1至k3的一组取值,以该组取值作为全局风控阈值组。

第二方面,基于同一发明构思,本说明书实施例提供一种风控策略的生成装置,参加图3,该风控策略的生成装置包括:

训练模块301,用于以交易数据作为训练样本集,训练获取训练数据集;所述训练数据集的元素为风控阈值组和采用所述风控阈值组在所述训练样本集中命中的样本量;所述风控阈值组为控制风险的风控参数组的试验阈值;

确定模块302,用于根据所述训练数据集,确定阈值预测模型;

获得模块303,用于基于所述阈值预测模型,获得全局风控阈值组,所述全局阈值组包括所述风控参数组的确定阈值。

在一种可选的方式中,所述训练数据集包括:风险训练数据集和打扰训练数据集,其中,所述风险训练数据集的元素为风控阈值组和采用所述风控阈值组在所述训练样本集中命中的风险样本量,所述打扰训练数据集的元素为风控阈值组和采用所述风控阈值组在所述训练样本集中命中的全部样本量。

在一种可选的方式中,所述训练模块301还用于:利用随机生成的多组风控阈值组和标记过风险样本的所述训练样本集,统计出根据每组所述风控阈值组在所述训练样本集中筛选出的标记为风险样本的风险样本量,从而获取所述打扰训练数据集;利用随机生成的多组风控阈值组和标记过风险样本的所述训练样本集,统计出根据每组所述风控阈值组在所述训练样本集中筛选出的全部样本量,从而获取所述打扰训练数据集。

在一种可选的方式中,所述确定模块302还用于:对所述训练数据集进行线性拟合或非线性拟合,确定所述阈值预测模型。

在一种可选的方式中,所述获得模块303还用于:基于预设的阈值约束条件和目标函数,根据所述阈值预测模型,获得全局风控阈值组;其中,所述阈值约束条件包括以下一种或多种的组合:所述全局风控阈值组的取值范围、所述样本量的取值范围;所述目标函数包括:从初筛风控阈值组集合中确定全局风控阈值组的计算规则,所述初筛风控阈值组集合为根据所述阈值预测模型计算出的符合所述阈值约束条件的风控阈值组的集合。

在一种可选的方式中,所述获得模块303还用于:验证所述阈值预测模型,并在所述阈值预测模型验证通过后,基于所述阈值预测模型,获得全局风控阈值组。

在一种可选的方式中,所述获得模块303还用于:以不同范围的交易数据作为验证样本集,训练获取验证数据集;根据所述验证数据集,确定验证预测模型;判断所述验证预测模型与所述阈值预测模型之间的差异是否满足预设差异要求,如果满足则确认所述阈值预测模型验证通过。

在一种可选的方式中,所述装置还包括更新模块,用于:获取更新的交易数据,并根据所述更新的交易数据获取更新的训练数据集;根据所述更新的训练数据集,更新所述阈值预测模型。

在一种可选的方式中,所述全局风控阈值组包括以下任一种或多种的组合:

用户交易次数阈值、用户交易金额阈值、设备切换账户次数或设备切换用户身份识别卡的次数。

第三方面,基于与前述实施例中风控策略的生成方法同样的发明构思,本说明书还提供一种服务器,如图4所示,包括存储器404、处理器402及存储在存储器404上并可在处理器402上运行的计算机程序,所述处理器402执行所述程序时实现前文所述风控策略生成方法的任一方法的步骤。

其中,在图4中,总线架构(用总线400来代表),总线400可以包括任意数量的互联的总线和桥,总线400将包括由处理器402代表的一个或多个处理器和存储器404代表的存储器的各种电路链接在一起。总线400还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口406在总线400和接收器401和发送器403之间提供接口。接收器401和发送器403可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器402负责管理总线400和通常的处理,而存储器404可以被用于存储处理器402在执行操作时所使用的数据。

第四方面,基于与前述实施例中风控策略的生成方法的发明构思,本说明书还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文所述风控策略生成方法的任一方法的步骤。

本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品,该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本说明书的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本说明书范围的所有变更和修改。

显然,本领域的技术人员可以对本说明书进行各种改动和变型而不脱离本说明书的精神和范围。这样,倘若本说明书的这些修改和变型属于本说明书权利要求及其等同技术的范围之内,则本说明书也意图包含这些改动和变型在内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1