一种基于多次融合构建欺诈识别模型的方法与流程

文档序号:23421402发布日期:2020-12-25 11:45阅读:100来源:国知局
一种基于多次融合构建欺诈识别模型的方法与流程

本发明涉及人工智能及互联网防欺诈技术领域,具体涉及一种基于多次融合构建欺诈识别模型的方法。



背景技术:

随着社会经济和互联网技术的发展,金融领域逐渐将业务拓展至互联网金融方面。互联网金融由于其便捷性迅速得到大众的认可,但是由于互联网环境的复杂性,对于通过互联网交易的双方无法准确评估交易产生的欺诈风险,经常出现因身份盗用、设备丢失等情况导致的欺诈问题,因此针对互联网金融反欺诈工作尤为重要。

互联网金融信贷行业调查发现黑产技术手段不断升级,信贷欺诈案件日益增多,如何更有效识别线上欺诈已成为互联网信贷行业的防控重点。目前防控欺诈案件的手段主要依托于专家经验规则、黑名单体系、欺诈识别模型等。现有反欺诈领域对于欺诈客户的识别主要依赖于专家经验规则策略,少量的欺诈识别模型也主要依赖于单模型,主要的弊端有:1、在训练集上表现效果佳,但在线上效果较差;2、单一模型无法平衡覆盖率和准确率的问题;3、有效性较短。

模型融合指的是将多个基准模型以一定的算法融合成一个模型。当前的模型融合算法包括:

1、投票。假设对于一个二分类问题,有n个基础模型,那么就采取投票制的方法,投票多者确定为最终的分类。该方法简单,但需假设所有模型地位一致,无法应用各模型优点。

2、加权。对于回归问题,一个简单直接的思路是取平均。稍稍改进的方法是进行加权平均。但是权重的确定是一个难题。

由于欺诈样本较少且欺诈手段层出不穷变化极快,如何构建一个稳定且精准的欺诈识别模型成为了业内的难题。



技术实现要素:

针对现有技术中单模型无法平衡覆盖率和准确率、在线上效果较差,现有融合模型无法稳定且精准识别欺诈行为,扩展性不高的问题,本发明提供一种基于多次融合构建欺诈识别模型的方法,其目的在于:构建一种基于多次融合提升欺诈识别模型准确性及稳健性的方法。

本发明采用的技术方案如下:

步骤s1.数据获取:采集欺诈行为的相关数据,生成原始的数据集;

步骤s2.数据预处理:对原始的数据集进行缺失值处理、异常值处理和变量类型处理后,进行分组处理;

步骤s3.特征加工、排序:在数据预处理后,对数据集的欺诈行为特征进行特征加工,根据iv和gbdt对加工后的特征进行重要性排序,得到基于iv排序的特征集和基于gbdt排序的特征集;

iv:全称informationvalue,信息价值或信息量,iv用来衡量自变量的预测能力;

gbdt:梯度提升树,一种迭代的决策树算法;

步骤s4.特征选择:对基于iv排序的特征集和基于gbdt排序的特征集,通过选择计算形成m个iv特征集和m个gbdt特征集,m为自然数;

步骤s5.数据采样:将步骤s2预处理后的数据集分为两部分,模型样本集和时点外验证集;模型样本集分为训练集和验证集,通过分层随机抽样的方法,对模型样本集进行m次随机采样,形成m个数据集,m为自然数;

步骤s6.数据建模:步骤s4中m个iv特征集、m个gbdt特征集、步骤s5中的m个数据集,以lr、xgboost、lightgbm、gbdt为基准模型,构建单模型,每个基准模型构建的单模型有m个,m为自然数,使用步骤s5中验证集验证单模型对欺诈行为的识别效果;

lr:全称logisticregression,逻辑回归;

xgboost:一套提升树可扩展性的机器学习系统;

lightgbm:基于决策树的分布式梯度提升框架;

步骤s7.同类模型融合:将步骤s6中以相同基准模型构建的m个单模型通过排序进行模型融合,形成同类模型,最终形成不同基准模型的不同类模型;

步骤s8.混合模型融合:通过auc和f1将步骤s7中不同类模型进行融合,得到欺诈识别模型,使用步骤s5中时点外验证集验证欺诈识别模型对欺诈行为的识别效果。

auc:roc曲线下的面积大小;

f1:统计学中用来衡量二分类模型精确度的一种指标;

不同类别的模型,结合auc和f1进行融合,极大的提升了模型准确性和稳健性。

进一步的,步骤s3中所述特征加工包括统计类特征加工、交叉类特征加工、描述性特征加工、交叉类特征加工、模型生成类特征加工。

统计类特征加工,如:占比情况、出现次数等;

交叉类特征加工,不同特征之间进行四则运算;

描述性特征加工,主要指数值型特征的最大值、最小值、均值、标准差、四分位数等特征,同时对某些数值类特征取对数,或对某些数值特征取指数;

模型生成类特征加工,主要指基于树的模型方法,如决策树、随机森林、gbdt等方法,生成一系列叶子节点,每一个叶子节点都可构造成一个新的特征;

进一步的,步骤s4中所述选择计算,具体为:对基于iv排序的特征集,选择排序后iv值排在前n个的特征集,n为自然数,并通过不放回随机抽样选取其中n个特征后随机选取m组,形成m个iv特征集,m为自然数;基于gbdt排序的特征集,选择排序后gbdt值排在前n个的特征集,通过不放回随机抽样选取其中n个特征,n为自然数,随机选取m组,形成m个gbdt特征集,m为自然数。

进一步的,步骤s6包括:

步骤s6.1:步骤s4中的m个iv特征集、步骤s5中的m个数据集以lr为基准模型,构建m个基于lr的单模型;

步骤s6.2:步骤s4中m个gbdt特征集、步骤s5中的m个数据集分别以xgboost、lightgbm、gbdt为基准模型,构建m个基于xgboost的单模型、m个基于lightgbm的单模型、m个基于gbdt的单模型。

进一步的,步骤s7包括:

步骤s7.1:通过auc排序将步骤s6.1中m个基于lr的单模型进行模型融合,形成lr类模型;

步骤s7.2:通过auc排序将步骤s6.2中m个基于xgboost的单模型进行模型融合,形成xgboost类模型;

步骤s7.3:通过pre排序将步骤s6.2中m个基于lightgbm的单模型进行模型融合,形成lightgbm类模型;

步骤s7.4:通过recall排序将步骤s6.2中m个基于gbdt的单模型进行模型融合,形成gbdt类模型。

pre:全称precision,精确率,机器学习常用评价指标;

recall:召回率,机器学习常用评价指标;

同类别的模型,基于不同的指标,进行指标排序模型融合;同类别的模型结合了该类模型独有的特性和评价指标,有利于模型的稳定性及准确性。

本发明一种基于多次融合构建欺诈识别模型的方法,依托于逻辑回归、梯度提升树等模型的特性,并巧妙的通过auc、pre、recall、f1等指标进行排序融合,构建了一种基于多次融合提升欺诈识别模型准确性及稳健性的方法。本发明通过将同类别模型基于不同指标进行融合,结合了同类模型独有的特性和评价指标,有利于提高模型的稳定性及准确性;同时,不同类别的模型集合auc和f1排序进行融合,也提高了模型准确性及稳健性;最终得到的欺诈识别模型在模型训练集及验证集上表现极佳,且在线上验证稳定性和准确性得到了保障,并具有良好的扩展性。

附图说明

图1为本发明一种基于多次融合构建欺诈识别模型的方法的流程图。

具体实施方式

以下结合实施例的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。在不脱离本发明上述技术思想情况下,根据本领域普通技术知识和惯用手段做出的各种替换或变更,均应包括在本发明的范围内。

如图1所示本发明一种基于多次融合构建欺诈识别模型的方法,该过程以及建模过程均在数据分析环境sas中实现,包括:

步骤s1.数据获取:采集欺诈行为的相关数据,生成原始的数据集;

步骤s2.数据预处理:对原始的数据集进行缺失值处理、异常值处理和变量类型处理后,进行分组处理;

步骤s3.特征加工、排序:在数据预处理后,对数据集的欺诈行为特征进行特征加工,根据iv和gbdt对加工后的特征进行重要性排序,得到基于iv排序的特征集和基于gbdt排序的特征集;

所述特征加工包括统计类特征加工、交叉类特征加工、描述性特征加工、交叉类特征加工、模型生成类特征加工;

步骤s4.特征选择:对基于iv排序的特征集和基于gbdt排序的特征集,通过选择计算形成m个iv特征集和m个gbdt特征集,m为自然数;

所述选择计算,具体为:对基于iv排序的特征集,选择排序后iv值排在前n个的特征集,n为自然数,并通过不放回随机抽样选取其中n个特征后随机选取m组,形成m个iv特征集,m为自然数;基于gbdt排序的特征集,选择排序后gbdt值排在前n个的特征集,通过不放回随机抽样选取其中n个特征,n为自然数,随机选取m组,形成m个gbdt特征集,m为自然数;

将m个iv特征集命名为:v1,v2,…,vm;

将m个特征集命名为:t1,t2,…,tm;

步骤s5.数据采样:将步骤s2预处理后的数据集分为两部分,模型样本集和时点外验证集;模型样本集分为训练集和验证集,通过分层随机抽样的方法,对模型样本集进行m次随机采样,形成m个数据集,m为自然数;

将m个数据集命名为:dataset1,dataset2,…,datasetm;

步骤s6.数据建模:步骤s4中m个iv特征集、m个gbdt特征集、步骤s5中的m个数据集,以lr、xgboost、lightgbm、gbdt为基准模型,构建单模型,每个基准模型构建的单模型有m个,m为自然数,使用步骤s5中验证集验证单模型对欺诈行为的识别效果;

其中,步骤s6包括:

步骤s6.1:步骤s4中的v1,v2,…,vm特征集、步骤s5中的dataset1,dataset2,…,datasetm数据集以lr为基准模型,构建m个基于lr的单模型lr_1,lr_2,…,lr_m;

步骤s6.2:步骤s4中t1,t2,…,tm特征集、步骤s5中的dataset1,dataset2,…,datasetm数据集分别以xgboost、lightgbm、gbdt为基准模型,构建m个基于xgboost的单模型xgboost_1,xgboost_2,…,xgboost_m;m个基于lightgbm的单模型lightgbm_1,lightgbm_2,…,lightgbm_m;m个基于gbdt的单模型gbdt_1,gbdt_2,…,gbdt_m;

步骤s7.同类模型融合:将步骤s6中以相同基准模型构建的m个单模型通过排序进行模型融合,形成同类模型,最终形成不同基准模型的不同类模型;

其中,步骤s7包括:

步骤s7.1:通过auc排序将步骤s6.1中m个基于lr的单模型lr_1,lr_2,…,lr_m进行模型融合,形成lr类模型,即:

lr_mode=sum((m-auc_rank(lr_i)+1)^2*predict(lr_i))

步骤s7.2:通过auc排序将步骤s6.2中m个基于xgboost的单模型xgboost_1,xgboost_2,…,xgboost_m进行模型融合,形成xgboost类模型,即:

xgboost_mode=sum((m-auc_rank(xgboost_i)+1)^2*predict(xgboost_i))

步骤s7.3:通过pre排序将步骤s6.2中m个基于lightgbm的单模型lightgbm_1,lightgbm_2,…,lightgbm_m进行模型融合,形成lightgbm类模型,即:

lightgbm_mode=sum((m-pre_rank(lightgbm_i)+1)^2*predict(lightgbm_i))

步骤s7.4:通过recall排序将步骤s6.2中m个基于gbdt的单模型gbdt_1,gbdt_2,…,gbdt_m进行模型融合,形成gbdt类模型,即:

gbdt_mode=sum((m-recall_rank(gbdt_i)+1)^2*predict(gbdt_i))

步骤s8.混合模型融合:通过auc和f1将步骤s7中不同类模型进行融合,得到欺诈识别模型,使用步骤s5中时点外验证集验证欺诈识别模型对欺诈行为的识别效果,即:

以上所述实施例仅表达了本申请的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请技术方案构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1