一种用户信用评级方法、计算机设备及可读介质与流程

文档序号:16434445发布日期:2018-12-28 20:23阅读:332来源:国知局
一种用户信用评级方法、计算机设备及可读介质与流程

本发明涉及计算机应用领域。更具体地,涉及一种用户信用评级方法、计算机设备及可读介质。

背景技术

信用评级又称"资信评级"或"信誉评估",是建立社会信用体系的重要内容和基础。按照通常的定义,信用评级是信用评级服务机构以第三方的客现、公正立场,根据规范的评估指标体系,运用科学的评估方法,履行严格的评估程序,对企业、金融机构、债券发行者和社会组织等市场参与主体的信用记录、企业素质、管理能力、经营水平、外部环境、财务状况、发展前景等进行全面了解、考察调研、分析研究后,就其在未来一段时间履行承诺的能力、可能出现的各种风险所做的综合评价,并以一定的符号表示其优劣并公布于社会公众的一种经济活动。信用评级通过对贷款申请人的债务偿还风险进行评价,以便于银行等金融机构对贷款申请人进行审批授信。

现有技术中,申请号201710197889.0的发明专利申请公开了一种基于机器学习的贷款用户信用评级方法及系统。具体公开了:获取建模的原始数据,建模的原始数据包括征信报告和逾期商户名单;对征信报告进行提取和指标细分,得到信用额度、近期行为、信用时长、账户数量和还款历史这五个维度的预测变量及其权重;根据逾期商户名单、得到的预测变量及权重采用机器学习的方法进行建模,得到响应变量与预测变量的测试模型;根据得到的测试模型对新贷款用户进行预测,得到新贷款用户的违约概率;根据新贷款用户的违约概率计算信贷用户的信用评分。该专利公开文件的信用评级方法采用机器学习的方法进行建模,较传统的专家卡更加能适应用户数据的快速变更需求,增设了对征信报告进行提取和指标细分的步骤,使得用户信息更加全面,模型效果更加精确和有效。

但是,该信用评级方法还存在一定的问题:第一,企业对征信报告的提取并不是一件容易的事情,其带来的人力、物力和财力成本可能不是大部分公司可以负担的起;第二,该技术将预测变量主要划分为信用额度、近期行为、信用时长、账户数量和还款历史这5个维度、143个预测变量,但最终只筛选出正在使用贷记卡评价授信额度、最近一次还款的贷记卡距今的时间、最近24个月查询次数、最近一次贷记卡距现在的时间、最早贷记卡距现在的时间、最近3个月查询次数和最近6个月查询次数这7个预测变量,这7个变量并没有很好的覆盖之前所述的5个维度,而且变量之间的相关性较强,对模型预测效果可能会产生不好的影响。



技术实现要素:

本发明的一个目的在于提供一种用户信用评级方法,丰富用于形成测试模型的建模数据来源和相关性,提高预测准确度,降低成本。本发明的另一个目的在于提供一种计算机设备。本发明还有一个目的在于提供一种可读介质。

为达到上述目的,本发明采用下述技术方案:

本发明一方面公开了一种用户信用评级方法,包括

获取无需用户授权的建模数据和用户逾期情况;

对所述建模数据进行预处理,选出所述建模数据中的优化数据;

根据所述优化数据进行建模得到测试模型;

根据用户数据通过所述测试模型对用户信用评级。

优选地,所述无需用户授权的建模数据包括腾讯分、新颜申请分和相关字段以及聚信立灰度分。

优选地,所述新颜申请分和相关字段包括申请准入分、申请准入置信度、查询机构数、查询消费金融类机构数、查询网络贷款类机构数、总查询次数、近1个月总查询次数、近3个月总查询次数、近6个月总查询次数和最近查询距申请时间的天数。

优选地,所述用户逾期情况包括首次逾期天数是否大于30天、当前最大逾期天数是否大于30天、历史最大逾期天数是否大于30天和放款后的前4个月内是否存在逾期大于30天。

优选地,所述对所述建模数据进行预处理,选出所述建模数据中的优化数据具体包括:

对所述建模数据的异常值和缺失值进行检测和处理得到第一预测数据;

计算所述第一预测数据的权重指标值;

根据预设权重指标值筛选所述第一预测数据得到第二预测数据;

对所述第二预测数据进行变量分箱得到最优分箱数据;

对所述最优分箱数据进行证据权重转换得到第三预测数据;

对所述第三预测数据进行相关性分析并处理得到所述优化数据。

优选地,所述方法进一步包括在对所述建模数据的异常值和缺失值进行检测和处理得到第一预测数据之前对所述建模数据进行统计指标分析。

优选地,对所述测试模型进行评估的指标为测试模型的ks、auc、混淆矩阵和/或提升图。

优选地,得到所述测试模型的方法为机器学习或逻辑回归方法。

本发明还公开了一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,

所述处理器执行所述程序时实现如上所述方法。

本发明还公开了一种计算机可读介质,其上存储有计算机程序,

该程序被处理器执行时实现如上所述方法。

本发明的有益效果如下:

本发明的用户信用评级方法获取的建模数据无需用户授权,避免用户由于申请过程复杂或因授权太多信息而放弃申请,增加了申请用户数。同时,通过对接外部数据,更加丰富了数据来源和信用评分方法,可以更充分的了解用户。同时,对建模数据进行预处理,在建模之前就剔除一些无关变量,可以避免由于无效变量或者变量之间的相关性减弱模型效果,从而提高信用评级预测的准确度。本发明的信用评级方法中获取无需用户授权的建模数据并进行处理和筛选得到测试模型,可降低人工成本,提高效率和效益,降低测试模型的复杂度。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的说明。

图1示出本发明一种用户信用评级方法一个具体实施例的流程图。

图2示出本发明一种用户信用评级方法一个具体实施例对所述建模数据进行预处理的流程图。

图3示出本发明一种用户信用评级方法一个具体实施例对所述测试模型进行评估的流程图。

图4示出了适用于用来实现本发明实施例的计算机设备的结构示意图。

具体实施方式

为了更清楚地说明本发明,下面结合优选实施例和附图对本发明做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解,下面所具体描述的内容是说明性的而非限制性的,不应以此限制本发明的保护范围。

如图1所示,根据本发明的一个方面,本实施例公开了一种用户信用评级方法,该方法包括:

s1:获取无需用户授权的建模数据和用户逾期情况。其中,所述无需用户授权的建模数据只需用户的个人三要素即可获取,个人三要素包括用户的姓名、身份证号和手机号,无需用户进行更多授权操作,避免用户由于申请过程复杂而放弃申请。在其他实施方式中,建模数据也可以为用户授权数据,如借记卡数据、信用卡数据和运营商数据等,这些数据与无需用户授权的外部数据相比,准确性更好。选择的预测变量无需用户授权,避免用户由于申请过程复杂或因授权太多信息而放弃申请,增加了申请用户数。同时,通过对接外部数据,更加丰富了数据来源和信用评分方法,可以更充分的了解用户。

可包括腾讯分、新颜申请分和相关字段以及聚信立灰度分三个维度。其中,所述新颜申请分和相关字段维度可包括申请准入分、申请准入置信度、查询机构数、查询消费金融类机构数、查询网络贷款类机构数、总查询次数、近1个月总查询次数、近3个月总查询次数、近6个月总查询次数和最近查询距申请时间的天数等字段。本实施例中,优选地,无需用户授权的建模数据的维度、各个维度的字段名以及每个字段的编号的对应关系如表1:

表1建模数据

所述用户逾期情况可通过对应用的金融产品中的用户逾期数据进行采集得到,所述用户逾期情况可包括用户首次逾期天数是否大于30天、当前最大逾期天数是否大于30天、历史最大逾期天数是否大于30天和放款后的前4个月内是否存在逾期大于30天等字段,通常可采用0和1表示是或否,以便进行分析计算,当然,在实际应用时,也可采用其他标记,本发明对此并不作限定。

s2:对所述建模数据进行预处理,选出所述建模数据中的优化数据。对获得的建模数据进行预处理,包括数据清洗和变量初筛。本实施例中,优选地,将表1中的建模数据进行数据预处理,从中选取合适的优化数据进入模型进行分析计算。

具体的,所述s2可包括:

s21:对所述建模数据的异常值和缺失值进行检测和处理得到第一预测数据。优选地,对于缺失值,可采用两种方法进行处理。第一种:对于腾讯分类别,由于腾讯分缺失会导致风险上升,且腾讯分本身缺失率较低,因此腾讯分的缺失值默认为例如98分的危险分值,表示该用户风险较高。第二种:对于其他变量,缺失值意味着未能正常获得该用户的变量情况,因此将其缺失值作为单独一类进行计算评估,对于缺失率过高的变量可直接删除。例如,可预设缺失率预值,当用户的建模数据中缺失的字段达到缺失率预值对应的字段数量,则认为缺失率过高,可直接将该条建模数据删除。

在其他实施方式中,可将获得的原始的建模数据划分为测试集和训练集。具体的,可按照一定比例将原始的建模数据划分为训练集和测试集,将训练集的数据作为建模数据,用于建立测试模型,而测试集可用于模型测试,评估模型的用户信用评价能力。

s22:计算所述第一预测数据的权重指标值。优选地,权重指标值可为iv(informationvalue,信息值)或ks(kolmogorov-smirnov,柯尔莫哥洛夫-斯米尔诺夫检验)等权重指标值。本实施例中,计算得到各字段的权重指标值如表2所示:

表2

s23:根据预设权重指标值筛选所述第一预测数据得到第二预测数据。优选地,本实施例中,所述预设权重指标值可设置iv=0.01,筛选所述第一预测数据中iv值大于0.01所有字段的数据得到第二预测数据。当然,在其他实施方式中,也可根据实际情况采用其他权重指标值对第一预测数据筛选。

s24:对所述第二预测数据进行变量分箱得到最优分箱数据。对字符型、数值型变量分别进行最优分箱。优选地,本实施例中,第二预测数据中的9个变量字段均为数值型连续变量,需要将其进行最优分箱:首先将连续变量分为初始宽度相等的7个箱(具体箱子数量可根据实际情况进行确定),通过调整、合并相邻箱子,使得分箱后的变量保持一定规律(例如递增、递减或u型分布),即达到最优分箱,得到最优分箱数据。

s25:对所述最优分箱数据进行证据权重(weightofevidence,woe)转换得到第三预测数据。

s26:对所述第三预测数据进行相关性分析并处理得到所述优化数据。对转换后的第三预测数据进行相关性分析,若第三预测数据中两个字段变量之间的相关性较强,则剔除iv较小的变量,最终得到用于建模的优化数据。数据预处理过程中进行变量初筛,在建模之前就剔除一些无关变量,可以避免由于无效变量或者变量之间的相关性减弱模型效果。过多的变量,反而有可能会导致模型过于复杂,不一定是好的。本实施例中,通过相关性分析得到包括7个变量的优化数据,如表3所示:

表3

通过本发明的数据预处理得到7个变量的优化数据,很好的覆盖了腾讯分、新颜申请分和相关字段、聚信立灰度分这三个维度,数据利用也较为充分。

在优选地实施方式中,所述s2进一步还可包括在对所述建模数据的异常值和缺失值进行检测和处理得到第一预测数据之前对所述建模数据进行统计指标分析的步骤,对建模数据进行描述性统计。通过查看建模数据的统计指标,如最小值、最大值、均值、中位数等,对建模数据的大体分布有所了解。同时,可结合用户的逾期情况,简要判断建模数据对好坏用户的区分效果是否明显,以选择区分效果明显的建模数据进行建模。

s3:根据所述优化数据进行建模得到测试模型。在优选地实施方式中,可采用机器学习进行建模,还可采用逻辑回归方法进行建模,进一步可将结果转化为更易于理解的评分卡,降低了人工成本,提高效率和收益。根据优化数据和用户逾期情况,采用机器学习或逻辑回归的方法进行建模,得到响应变量和优化数据之间的测试模型,其中,响应变量即为反映用户逾期情况的变量。

在优选地实施方式中,所述s3还可包括:

s31:对测试模型进行评估确定最优测试模型作为测试模型对用户信用进行评级。建立好测试模型之后,需要对模型效果进行评估和比较,常用的模型重点指标有ks(kolmogorov-smirnov,柯尔莫哥洛夫-斯米尔诺夫检验)、auc(areaundercurve,roc曲线下的面积;roc,receiveroperatingcharacteristic,受试者工作特征)等,同时也可结合混淆矩阵和/或提升图进行分析。ks值越大、auc值越大,表示模型能够将用户区分开来的程度越大。如果有多个模型,可以通过综合比较模型的指标值,选出最优的模型作为最终的测试模型。当测试模型不合格时,更改筛选原则,例如修改预设权重指标值,然后重新生成测试模型,直至测试模型符合要求得到最优测试模型,可用于信用评价。

s4:根据用户数据通过所述测试模型对用户信用评级。即输入新用户对应的优化数据,并采用测试模型计算用户信用评极,评估用户的还款逾期可能性。本发明的评价方法不仅可以用于信贷申请,对于理财用户、信用卡用户等评级也都适用,同时也可用于精准营销、催收用户分类等场景。

进一步的,本发明的一些具体实施例提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的由客户端执行的方法,或者,所述处理器执行所述程序时实现如上所述的由服务器执行的方法。

下面参考图4,其示出了适于用来实现本申请实施例的终端设备或服务器的计算机设备400的结构示意图。

如图4所示,计算机设备400包括中央处理单元(cpu)401,其可以根据存储在只读存储器(rom)402中的程序或者从存储部分408加载到随机访问存储器(ram))403中的程序而执行各种适当的工作和处理。在ram403中,还存储有系统400操作所需的各种程序和数据。cpu401、rom402、以及ram403通过总线404彼此相连。输入/输出(i/o)接口405也连接至总线404。

以下部件连接至i/o接口405:包括键盘、鼠标等的输入部分406;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如lan卡,调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至i/o接口406。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装如存储部分408。

特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包括用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。

附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发送。例如两个接连地表示的方框实际上可以基本并行地执行,他们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定,对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1