一种基于稀疏特征嵌入的违约用户概率预测方法与流程

文档序号:17995476发布日期:2019-06-22 01:10阅读:258来源:国知局
一种基于稀疏特征嵌入的违约用户概率预测方法与流程

本发明一种基于稀疏特征嵌入的违约用户概率预测方法,涉及金融领域的用户信用风险评估技术,具体涉及一种面向资产管理公司消费金融领域的违约用户概率预测方法。



背景技术:

近年来,以p2p借贷、消费金融等为主体业务的互联网金融公司不断涌现,在传统金融行业无法涉及的领域建立了一个庞大的新兴产业。但同时各种负面新闻也接踵而至,给这些互联网金融企业的前途蒙上一层阴影。在其中,风控能力一直是这些新兴科技金融公司的命门,只有拥有良好的风控技术,才可能在这股浪潮中健康发展。传统风控手段依赖于央行征信系统,也存在一定缺陷和问题。从客群角度来看,p2p借贷平台、消费金融公司面向的对象大多不是银行零售业务的目标客群,因而央行征信系统中也缺乏这类客户的信用信息;此外,央行征信系统也依赖于银行系统上传的历史数据,而这类数据缺乏时效性,对于客户当前信用风险的评估也就略显不足。

随着当前机器学习、深度学习等技术和理论的快速发展和应用,它能从多维度数据(购物、通信、出行等)出发来反映用户行为,刻画用户画像,从而辅助判断用户的信用风险。在如今,国内知名互联网公司都依托于其丰富的数据积累,挖掘其背后隐藏的丰富信息,从而能完成对用户的信用评分。例如蚂蚁金服依托于用户在淘宝、天猫等平台的购物数据,推出芝麻信用分,类似的第三方也推出个人信用分;此外中国移动、中国联通等基于用户通信行为数据给用户进行信用评分。这种基于多维度信息的信用评估方法,也为互联网金融公司风控提供了一种新思路。在用户授权下通过抓取用户在第三方平台的数据(包含购物、通信、出行等),结合其本身的积累的历史数据,完成风控建模。但是这些方法对稀疏数据的处理效果都不是很理想。

基于以上问题,本发明提出一种基于稀疏特征嵌入的违约用户概率预测方法,从用户在第三方平台上的认证、购物等数据信息入手,首先经过数据清洗对数据进行预处理,然后在处理多类别变量过程中,基于提出的稀疏特征嵌入方法,通过将无连续信息的多类别变量转为稀疏矩阵,并通过机器学习模型学习稀疏矩阵的信息,最终将稀疏矩阵通过机器学习模型映射成稠密概率信息,来进行违约用户预测。



技术实现要素:

本发明的目的在于提出一种稀疏特征嵌入的违约用户概率预测方法,将机器学习技术应用到信用评估方法上,以技术推动业务发展,通过多维度的信息分析、过滤、交叉验证和汇总形成一张全面的用户数据画像,辅助业务人员审核判断用户的信用风险,极大地提高审核的效率和准确性,从而替代大量的人工成本和落后的手工技术。

为了实现上述目的,本发明一种基于稀疏特征嵌入的违约用户概率预测方法,采用如下技术方案:

本发明首先将用户的原始数据转换为变量特征,然后将变量特征中的多类别变量映射到一个稀疏矩阵中(类似于one-hot处理);在此基础上,通过基础决策树模型将该稀疏矩阵映射到概率,再将该概率作为特征增加到模型中,来进行违约用户预测。本发明主要包括对原始数据的数据清洗、基于机器学习的特征工程两部分,具体如下:

一、数据清洗

该部分将用户在第三方平台的原始数据(包含购物、通信、出行等)转化为不同维度下的变量特征,除了传统的基于最近消费时间,最近的消费金融,最近的消费频率等变量之外,根据提供的数据将数据整体划分为行为数据、消费数据、基本信息数据等维度,通过对这些数据进行分析,转换,最终形成多维度多变量的特征。

同时原始数据可能存在存储不规范、字段不统一、中英文混合、数据缺失、多类别变量等问题,针对这些问题,采用数据清洗将原始数据转化为规整数据,具体技术方案如下:

1.1不规范字段处理

原始数据可能存在部分乱码数据和不规范数据。对于乱码数据,采用删除处理;对于存储不规范的数据,将其非标准化的数据转换为统一的标准形式。

1.2缺失数据处理

原始数据中可能存在大量缺失字段,针对不同的缺失情况存在不同的数据清洗方式。比如对于缺失比例不大的字段,可以采用填充均数、众数、中位数等方法“补齐”该字段;而对于数据项大量缺失的字段,可统计每一个用户缺失字段个数作为一个特征,这样不仅一定程度上保留了缺失的信息,还保证了数据分布的稳定性。

1.3类别变量处理

此外,原始数据中还存在大量类别变量,例如用户信息表中的客户性别(男,女)、会员等级(普通、铜牌、银牌、金牌、钻石会员)、银行卡类型(储蓄卡、信用卡)等,可通过映射的方式将类别变量转化。本发明针对不同的类别采用不同方法,对于不同取值没有具体优劣之分的类别采用one-hot编码方法,比如客户性别;对于不同取值存在明显差异的类别采用数值型编码方法,比如会员等级。其中one-hot编码,又称一位有效编码,其方法是使用n位状态寄存器来对n个状态进行编码,每个状态都有各自独立的寄存器位,并且在任意时候,其中只有一位有效。数值型编码则是直接用一个数字来对应出现的类别。例如对于颜色中的各个类别变量如“红色”,“绿色”和“黄色”,采用one-hot编码后得到分别是[1,0,0]、[0,1,0]、[0,0,1]三个向量,而采用数值型编码得到的是1,2,3三个数字。

二、基于机器学习的特征工程

该部分将原始的变量特征通过特征工程加工转换为模型的训练数据。本发明的基于机器学习的特征工程分为两部分,分别是传统特征工程和所提出的决策树算法的多类别变量处理方法。原始特征经过传统特征工程加工后会生成新特征,但是部分新特征是稀疏特征,不能直接作为模型的训练数据,因此通过本发明提出基于机器学习的多类别变量方法,将稀疏特征转换为一维特征,从而可直接作为模型的训练数据。具体技术方案如下:

2.1传统特征工程

将原始特征中的变量按照时间类、金额类、地址类、电话号码类分别进行特征提取、变量衍生工作。具体过程如下:

2.1.1时间类字段:

原始特征中包含大量的时间类字段,这些时间类字段可以反映用户在特定时间内的活跃周期情况。因此基于时间变量进行合理的特征衍生,可以从时间维度来刻画用户行为,从而辅助判断用户信用优劣。将用户的时间类字段按照一定的时间间隔进行划分,统计该时间间隔内用户的行为,来辅助刻画用户画像。比如将用户认证时间分别按照年、月、日、周进行统计划分,并计算其认证时间和贷款申请时间差值,一般来说认证时间越早该用户越可信。

2.1.2金额类字段

金额类字段在建模中是最能直接反应用户经济能力的信息。金额类字段直接反映了用户的消费水平,比如用户的购物金额,一般来说其购物金额越大,该贷款用户经济能力也越强,其违约概率也越低。

2.1.3地址类字段

地址信息同样能帮助审核人员从另一个角度来描述用户。将地址类信息进行划分,可以得到该用户的地址类用户画像。例如一个常规用户其居住地址会比较稳定,其购物的收货地址也较为稳定,分布于工作地点和居住地点。而对于部分无业人员,其没有稳定的居住地址,或者频繁更换工作,从收货地址来看其更换频率也大于其他用户。

2.1.4电话号码类字段

电话号码信息也反映了用户的部分信息。电话号码有不同的运营商,而且电话号码的个数、使用频率等都会影响一个用户的信用违约风险。比如电话号码使用频率过低,说明该用户可能不稳定,更容易产生违约行为。

2.2基于决策树算法的多类别变量处理方法

上述传统类别变量多采用直接数字编码的形式放入机器学习模型进行处理,但是该方法存在变量引入噪声等问题,通过将变量映射到高维空间,采用寄存器占位的方式进行变量处理会将变量的排序噪声去除,但是高维的稀疏矩阵存在讯息困难的问题,因此结合两方面的原因,在将原始数据经过上述特征工程后会转换为新特征。针对这些多类别变量的稀疏特征,本发明提出一种处理多维度变量的方法,即基于决策树算法的多类别变量处理方法,将稀疏特征转换为一维特征,具体过程如下:首先将多类别变量ω进行one-hot编码,得到一个稀疏矩阵h,其维度等于原数据中ω的不同类别数量。然后将该稀疏矩阵h和标签信息y即用户的违约信息结合后,使用决策树模型f进行拟合,将模型输出的概率值p作为新特征放入后续模型f’中,通过这一步即将稀疏矩阵h映射为了一维变量p,并将其作为特征增加到模型中。这样不仅保留了这种多类别信息,而且又降低了该变量维度。该方法通过机器学习模型对稀疏矩阵进行重构,通过模型将稀疏矩阵降维的同时降低了最终的特征维度,进一步降低了整个机器学习模型学习到的映射的复杂度,有效降低了过拟合的风险。

one-hot编码:

one-hot编码又称一位有效编码,其方法是使用n位状态寄存器来对n个状态进行编码,每一个寄存器都有独立的寄存器位,同时在任意时候,只有一位有效。

针对机器学习任务而言,输入特征变量包含连续性变量,类别型变量,one-hot编码主要针对类别型变量。通过将类别型变量映射到数据变量便于机器学习算法进行处理。

以职业为例:教师、学生、工程师

单纯类别编码:1、2、3

one-hot编码:[001],[010],[100]

因原始类别编码本身不具备连续变量的属性,但是直接编码使得算法对该变量以连续变量进行处理,引入了本不存在的递增信息。改为one-hot变量则将原有的引入的噪音信息转变为是否信息,有效地降低了噪声,但同时特征维度提升,使得学习难度提升。

决策树算法:

决策树模型采用cart生成算法,模型输入是训练数据集和停止计算的条件,输出是cart决策树。算法根据训练数据集,从根结点开始,递归地对每个结点进行以下操作,构建二叉决策树:

(1)设节点的训练数据集为d,计算现有特征对该训练数据集的基尼指数。假设有k个类,样本点属于第k类的概率为pk,则概率分布的基尼指数定义为

对于给定的训练数据集合d,其基尼指数为

(2)此时,对每一个特征a,对其可能取的每个切分点a,根据样本点对a=a的测试为“是”或“否”将d分割成d1和d2两部分,利用如下公式计算a=a时的基尼指数。

(3)在所有可能的特征a以及它们所有可能的切分点a中,选择基尼指数最小的特征及其对应的切分点作为最优特征与最优切分点。依据最优特征与最优切分点,从现结点生成两个子结点,将训练数据集依据特征分配到两个子结点中去。

(4)对两个子结点递归调用上述步骤(1),(2),(3),直至满足停止条件。

(5)生成cart决策树。

决策树算法停止的条件是结点中的样本个数小于预定阈值,该阈值默认设置为0.5,或样本集的基尼指数小于预定阈值(样本基本属于同一类),或者没有更多特征。

本发明一种基于稀疏特征嵌入的违约用户概率预测方法,与现有技术相比,其优点在于:有效提高了类别编码的处理能力,同时在后续机器学习的流程中有效降低了特征空间的维度,有利于机器学习模型的学习和处理。

附图说明

图1本发明基于稀疏特征嵌入的用户违约概率预测方法示意图。

图2基于机器学习的多类别变量处理方法示意图。

具体实施方式

下面结合附图和具体实施例,对本发明的技术方案做进一步的说明。

基于用户在第三方平台上的认证、购物等原始数据进行验证。

如图1所示,一种基于稀疏特征嵌入的违约用户概率预测方法,步骤如下:

一、数据清洗

所用数据是贷款用户的脱敏的行为与基本信息等,用户标签表是用户贷款的违约情况,1表示违约用户,0表示正常用户。本次数据集共包含120929条贷款用户数据,时间窗口从2016年3月至2017年4月。其中违约用户3388个,正常用户117541个,正负样本比大约在1:34.7,样本违约率为2.8%。

由于原始数据存在存储不规范、数据缺失、类别变量过多等问题,因此首先要对数据进行清洗工作。针对存储不规范的问题,采用将非标准化数据转换为标准数据的方法,比如将用户出生日期“90后”转换为标准形式“1990-01-01”;将中英文混合字段,例如“中国工商银行”、“icbc”等统一替换为中文字段。针对数据缺失的问题,对于存在数据项大量缺失的字段,则统计每一个用户缺失的字段个数作为一个特征,一定程度上可保留缺失的信息。针对类别变量过多的问题,根据不同的类别采用不同的编码方法。对于性别、银行卡类型等字段,其不同取值之间没有具体优劣之分,因而可采用one-hot编码方法,而对于会员等级其不同等级之间存在明显差异的类别,则通过枚举型的0,1,2,3,4进行映射,这样既能保留差异信息,也能减少特征数量(若使用one-hot编码,则会衍生一个5维矩阵)。

二、基于机器学习的特征工程

该部分将第一步经过数据清洗得到的原始特征经过特征工程的加工转换为模型的训练数据。首先将原始特征通过传统的特征工程方法转换为新特征,然后将新特征中的部分稀疏特征通过本发明提出的多类别变量方法转换为一维变量,该变量可直接作为模型的训练数据。具体实施方式如下:

2.1特征工程

将原始特征中的变量按照时间类、金额类、地址类、电话号码类分别进行特征提取、变量衍生工作。时间类字段包括认证时间、贷款时间、购物时间等,比如将购物订单时间按照每一天中的上午(6:00-12:00)、下午(12:00-18:00)、晚上(18:00-24:00)和凌晨(00:00-6:00)划分,并统计在这四个时间段内的订单数量和比例,以及工作日、周末订单数量和比例,这里通过其购物时间分布来辅助刻画用户购物行为。例如某一个用户其在工作日或者凌晨进行购物比例较高,则其时间较为空闲,更可能是无业人员,因而该用户贷款后的违约概率也更高。

金额类字段主要包括用户每次的购物金额以及用户在第三方平台上白条额度、使用额度,从这几个特征,可以看到用户当前经济能力,例如某用户其第三方白条使用额度比例越高,则其收入可能无法支持其正常开销,也就越可能造成违约。

地址类字段主要包括用户不同收货地址的个数、是否更换地址特征、不同收货人的个数和不同省份的违约比例。通过统计不同省份违约比例,可筛选出违约比例最高的5个省份作为统计特征,例如a省违约率最高,则增加一个特征表示该用户是否是a省。这里只统计前5个,也是为了避免这种方法产生过大的稀疏矩阵,通过经验和后续模型验证得到前5个比较合适。

电话号码类字段主要包括运营商信息、订单信息中不同预留电话个数、收货地址信息中不同手机号码个数以及固定电话个数。比如对于固定电话填写来说,填写了固定号码的客户,比不填写该字段的用户,其居住地址是更加稳定,更不容易产生违约行为。

经过上述特征工程后,共得到54维衍生变量来进行后续建模。

2.2基于稀疏特征嵌入的类别变量处理方法

但是经过上述特征工程后,生成的变量中存在多类别变量,比如银行类别。原始数据中存在超过80种的银行类型,直接使用one-hot编码后会衍生得到一个100维以上的庞大稀疏矩阵(其余特征也不超过80维),这种稀疏矩阵也会给后续模型训练带来很大的噪声干扰。而不同银行类别之间不存在类似会员等级这样的优劣差异,也不能按照数值型方法进行映射。因此采用本发明提出的多类别变量处理方法,将多类别变量转换为一维变量,方便后续建模。如图2所示。

首先将原始银行类别进行one-hot编码,得到一个稀疏矩阵h,其维度等于原数据中银行类别数量。然后将该稀疏矩阵h和标签信息y结合后,使用决策树模型f进行拟合,将模型输出的概率值p作为新特征放入后续模型f’中,经过这一步后即将稀疏矩阵h映射到了一维变量p。

经过上述步骤,将原始的银行类别变量映射为[0,1]之间的数值变量。但同时在上述过程中,已经使用了一次标签信息y,因而使用该特征会在后续建模中容易造成模型过拟合。所以在后续处理过程中,采用决策树模型,且控制了树的深度不超过4层,在一定程度上缓解过拟合现象。

经过上述多类别变量方法后,得到银行类别的一维变量。加上传统特征工程得到的54维变量,总共得到55维衍生变量可进行后续建模。

2.3基于lightgbm的模型训练处理方法

将步骤2.1衍生的基础特征与步骤2.2新增的稀疏变量嵌入特征合并为特征矩阵,采用基于改进的梯度提升决策树模型进行训练,通过上述的特征处理方法获得了决策树算法学习的特征空间,在该特征空间中进行参数寻优和模型迭代,最终得到用于预测的学习器。

以上所述,仅为本发明的较佳实施样例,并非对本发明的技术范围做任何限制,故凡是依据本发明的技术实质对以上实施样例所做的任何细微修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1