一种基于时空集中性的网贷欺诈团伙识别与预警方法与流程

文档序号:17996284发布日期:2019-06-22 01:14阅读:551来源:国知局
一种基于时空集中性的网贷欺诈团伙识别与预警方法与流程

本发明属于计算机技术领域,涉及一种基于时空集中性的网贷欺诈团伙识别与预警方法,旨在解决突发的、有组织的欺诈团伙识别。



背景技术:

随着互联网的快速发展,网贷作为一种新兴的贷款方式改变着人们的生活。不同于西方国家,我国信贷体系起步晚,覆盖率不高。这导致很多人难以方便、快捷地获取急需的贷款。但我国的手机、互联网覆盖率很高,因此网贷这一互联网+的产物孕育而生。网贷较传统贷款具有手续简便、形式灵活、交易成本极少、可供贷款的金额充裕等优势,所以我国网贷产业近年来日益发展。据统计,2018年仅p2p网贷交易量已达到19,366.33亿元。但由于网贷服务较传统贷款,是面向没有任何担保,也没有在传统的信贷服务覆盖下的借款人,所以在没有全面风险控制的情况下,会给网贷公司带来严重的损失。

一些研究者从不同的研究角度采用不同的研究方法来验证他们的结论。就研究角度而言,dorfleitner和priberny分析了借款人的描述性文本信息对违约率的影响,h.liu等人发现手机的使用与网贷违约率之间存在相关性。不同的机器学习方法也被用来预测违约的可能性,如随机森林分类、逻辑回归、神经网络。但这些都是针对个人欺诈识别,没有考虑到团伙欺诈识别。

因为网贷欺诈以网贷借款者在还款期内未还款来表现,所以欺诈用户的欺诈行为很难立即捕捉,当发现大量贷款在非常相近的时间逾期,为时已晚。欺诈者通过不停地测试风控系统的漏洞,得到可以通过风控体系的评分。此时,欺诈者便会申请大量类似的贷款,给网贷机构带来损失。但在这种风控体系(模型)与欺诈者激烈的对抗中,得到较高评分的贷款成本需要很强的信息完备性,成本会很高,通过风控体系的欺诈用户贷款的评分不高。下调模型预测欺诈的阈值,可以得到对坏账的较高覆盖率,本发明可以细化地对贷款进行团伙欺诈识别,再进行个人欺诈识别,因而也不失精确度。结合我们提出来的新指标knearestneighborindex(knni),将knni运用到一个较小的观察窗口,低于一定阈值就可判断该笔贷款具有时空集中性。该笔贷款同时具有高欺诈可疑与时空集中性,可以判断其为团伙欺诈贷款。若不具备时空集中性,对高欺诈可疑用户再次筛选得出个人欺诈贷款。



技术实现要素:

本发明的目的是针对现有技术只考虑个人欺诈风控而忽略团伙欺诈风控的不足,提供一种基于时空集中性的网贷欺诈团伙识别与预警方法,该方法为结合个人欺诈与团伙欺诈识别的较为全面反欺诈方法。

步骤1.数据获取与特征提取:

1.1.数据获取:通过嵌入在手机app中的sdk(软件开发工具包),在贷款申请人授权的情况下,收集借款申请人的数据,将该数据被处理成结构化数据模式以便数据分析;

1.2.特征提取:所述特征包括基本特征、地理特征、行为特征;

所述的基本特征包括贷款申请人的年龄、性别、贷款金额、信用级别、是否为首次贷款;

所述的地理特征包括贷款申请人的申请贷款时的gps位置,该gps对应的省份、城市,身份证所在的省份、城市,根据贷款申请人申请时的所在的城市与身份证所在的城市是否一致确定该申请人是否为外地人;

所述的行为特征包括提取贷款申请人的贷款需要经历注册、认证、申请三个阶段性的行为,相应的申请人存在注册-认证时间差、认证-申请时间差的行为特征;正常用户在贷款时需要仔细斟酌,所以这两个时间差较大,而欺诈用户的这两个时间差较小。

步骤2.初步欺诈预测:

将以上提取的特征,运用lightgbm算法训练历史数据得到预测模型,lightgbm算法为一种梯度提升树算法,是一种成熟的算法(模型),于2017年由微软开源的一个实现gbdt算法的框架;利用训练后的模型预测得到实时单笔贷款可能为欺诈的概率;设置阈值threshold1,将贷款分为高风险贷款和低风险贷款,0.1≤threshold1≤0.3;对于概率小于等于阈值threshold1的,判断为低风险贷款,处理为安全贷款,实施放贷;对于概率大于阈值threshold1的,判断为高风险贷款,对不同地区贷款密度而高风险贷款需要再次欺诈识别。

步骤3.团伙欺诈识别:

以下分别从空间集中性、时间集中性两个方面论述:

3.1.空间集中性

网贷欺诈具有空间集中的特征。空间上的集中,对于欺诈者更有益于协助,共享设备,节省交流成本。仅对高风险贷款考虑团伙欺诈,采用一种考虑空间点邻近聚集的空间集中性指标knni(knearestneighborindex)。knni是受全局距离指标最近邻指数(nni)灵感,nni反映的是平均的最近点距离与随机平均距离的比值,反应的是全局的聚集情况。knni是针对观察点与最近k个点的平均距离与随机平均距离的比值,反映的是观察点的聚集情况。计算时间t内的knni具体方法如下:

步骤(1).计算一笔高风险贷款与gps距离最近的k笔高风险贷款距离平均值d:

k表示选取地理位置上距离该笔贷款最近的k笔高风险贷款,di表示地理位置上距离该笔贷款最近的第i笔高风险贷款的距离。

步骤(2).计算随机情况下所有高风险贷款的平均距离e:

n为高风险贷款的总笔数,a为所有高风险贷款gps位置形成的包络面面积;

步骤(3).计算该笔高风险贷款的knni值:knni=d/e;knni值体现的是该笔贷款的邻近空间聚集与随机情况的邻近空间聚集的比值,比值为1,为随机状态,比值越小,该笔贷款的邻近空间越聚集;

3.2.时间集中性:

网贷欺诈具有时间集中的特性,在发现风控系统漏洞后,利用漏洞,在短时间内使其利益最大化。综合考虑准确率与覆盖率,设置观察窗口t1~5天,计算一笔贷款相应的knni值;在收到贷款申请后,如该贷款被判定位高风险贷款,观察收到贷款申请时前面t时间区间内的高风险贷款的gps位置作为周边点,该笔贷款的gps作为观察点,计算该笔高风险贷款的knni值;若该笔高风险贷款的knni值小于设定的阈值threshold2,则判定该贷款为团伙欺诈贷款,0.1≤threshold2≤0.25。

步骤4.高风险贷款未判定为团伙欺诈的贷款进一步筛选,若在步骤2中计算所得的该贷款欺诈概率大于设定的阈值threshold3,则判定该贷款为个人欺诈贷款,0.5≤threshold3≤0.75。

本发明方法结合团伙与个人的方法更全面地实施风控,并且能得到较高精确度(正常用户错杀少),较高覆盖率(欺诈用户抓取多)。本发明方法结合团伙欺诈与个人欺诈两个角度,更全面地考虑欺诈者的欺诈行为。本发明提出了knni指标,在较小的观察窗口内得到较小的knni值显示出贷款的时空集中性。在离线实验中,本发明方法较传统的只采用机器学习模型(如lightgbm模型)预测,在相同的精确度(抓取欺诈用户在抓取贷款用户的占比),具有更高覆盖率(抓取欺诈用户在所有的欺诈用户的占比)。

附图说明

图1为本发明方法的流程图。

具体实施方式

下面结合附图,进一步说明本发明的技术方案。

如图1,一种基于时空集中性的网贷欺诈团伙识别与预警方法,其风控流程分为“数据获取”、“特征提取框架”、“集成预测算法”、“团伙欺诈识别”、“个人欺诈识别”五大模块。另外,本发明存在三个阈值需要调控。具体步骤如下:

步骤1.数据获取与特征提取:

1.1.数据获取:如图的“数据获取”模块,通过嵌入在手机app中的sdk(软件开发工具包),在贷款申请人授权的情况下,收集借款申请人的数据,将该数据被处理成结构化数据模式以便数据分析。

1.2.特征提取:如图的“特征提取框架”模块,根据领域专家的建议,提取的特征分为基本特征、地理特征、行为特征。

基本特征包括贷款申请人的年龄、性别、贷款金额、信用级别、是否为首次贷款;

地理特征包括贷款申请人的申请贷款时的gps位置,该gps对应的省份、城市,身份证所在的省份、城市,根据贷款申请人申请时的所在的城市与身份证所在的城市是否一致确定该申请人是否为外地人;

行为特征包括提取贷款申请人的贷款需要经历注册、认证、申请三个阶段性的行为,相应的申请人存在注册-认证时间差、认证-申请时间差的行为特征;正常用户在贷款时需要仔细斟酌,所以这两个时间差较大,而欺诈用户的这两个时间差较小。

步骤2.初步欺诈预测:

如图的“集成预测算法”模块,到这一步为止也是传统的个人风险系统。将以上所提取的特征,运用lightgbm算法训练历史数据得到预测模型,lightgbm算法为一种梯度提升树算法,是一种成熟的算法(模型)。利用训练后的模型预测得到实时单笔贷款可能为欺诈的概率;设置阈值threshold1,将贷款分为高风险贷款和低风险贷款,0.1≤threshold1≤0.3;对于概率小于等于阈值threshold1的,判断为低风险贷款,处理为安全贷款,实施放贷;对于概率大于阈值threshold1的,判断为高风险贷款,对不同地区贷款密度而高风险贷款需要再次欺诈识别。

步骤3.团伙欺诈识别:

以下分别从空间集中性、时间集中性两个方面论述:

3.1.空间集中性

网贷欺诈具有空间集中的特征。空间上的集中,对于欺诈者更有益于协助,共享设备,节省交流成本。仅对高风险贷款考虑团伙欺诈,采用一种考虑空间点邻近聚集的空间集中性指标knni(knearestneighborindex)。knni是受全局距离指标最近邻指数(nni)灵感,nni反映的是平均的最近点距离与随机平均距离的比值,反应的是全局的聚集情况。knni是针对观察点与最近k个点的平均距离与随机平均距离的比值,反映的是观察点的聚集情况。计算时间t内的knni具体方法如下:

步骤(1).计算一笔高风险贷款与gps距离最近的k笔高风险贷款距离平均值d:

k表示选取地理位置上距离该笔贷款最近的k笔高风险贷款,di表示地理位置上距离该笔贷款最近的第i笔高风险贷款的距离。

步骤(2).计算随机情况下所有高风险贷款的平均距离e:

n为高风险贷款的总笔数,a为所有高风险贷款gps位置形成的包络面面积;

步骤(3).计算该笔高风险贷款的knni值:knni=d/e;knni值体现的是该笔贷款的邻近空间聚集与随机情况的邻近空间聚集的比值,比值为1,为随机状态,比值越小,该笔贷款的邻近空间越聚集;

3.2.时间集中性:

网贷欺诈具有时间集中的特性,在发现风控系统漏洞后,利用漏洞,在短时间内使其利益最大化。设置观察窗口t1~5天,计算一笔贷款相应的knni值。综合考虑准确率与覆盖率,设置时间窗口(比如2天),若在2018年12月20日12时30分反作弊系统收到贷款申请,且该贷款被判定位高风险贷款,观察窗口取2天,具体观察时间区间为2018年12月18日12点30分到2018年12月20日12时30分。如图的“团伙欺诈识别”模块,在收到贷款申请后,如该贷款被判定位高风险贷款,观察收到贷款申请时前面t时间区间内的高风险贷款的gps位置作为周边点,该笔贷款的gps作为观察点,计算该笔高风险贷款的knni值;若该笔高风险贷款的knni值小于设定的阈值threshold2,则判定该贷款为团伙欺诈贷款,0.1≤threshold2≤0.25。

步骤4.个人欺诈判定:

如图的“个人欺诈识别”模块,高风险贷款未判定为团伙欺诈的贷款进一步筛选,若在步骤2中计算所得的该贷款欺诈概率大于设定的阈值threshold3,则判定该贷款为个人欺诈贷款,0.5≤threshold3≤0.75。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1