一种基于行为模型的贷中监测评分方法以及系统与流程

文档序号:16583698发布日期:2019-01-14 18:12阅读:476来源:国知局
一种基于行为模型的贷中监测评分方法以及系统与流程

本发明涉及金融信贷领域,特别是涉及一种基于行为模型的贷中监测评分方法以及系统。



背景技术:

信用评级又称“贷信评级”或信誉评估,是建立社会信用体系的重要内容和基础,按照通常的定义,信用评级是信用评级服务机构以第三方的客观、公正立场,根据规范的评估指标体系,运用科学的评估方法啊,履行严格的评估程序,对企业、金融机构、债券发行者和社会组织等市场参与主体的信用记录、企业素质、管理能力、经营水平、外部环境、财务情况、发展前景等进行全面了解,考察调研、分析研究后,就其在未来一段时间履行承诺的能力,可能出现的各种风险所做的综合评价,并以一定的符合标识其优劣并公布于社会公众的一种经济活动,信用评级通过对贷款申请人的债务偿还风险进行评价,以便于银行等金融机构对贷款申请人进行审批授信。

传统的信用评级方法大多基于专家法则或评分卡模型,即预先根据专家经验制定一套评分规则,再根据用户的实际数据,套用此套规则进行信用评分,然而,这种信用评级方式是基于历史已有经验进行的评分,其评分具有一定的滞后性,不能反应新形势下的新用户情况,且其评分规则的指定和修改都需要经过严格的专家论证,制定和修改的周期一般比较长,数据变更速度慢。



技术实现要素:

本发明的目的在于提供一种能够增加数据变更速度、提高适用性以及泛化性、对账户进行精准的行为评分的基于行为模型的贷中监测评分方法以及系统。

为达到上述目的,本发明第一方面提出一种基于行为模型的贷中监测评分方法,,包括以下步骤:

获取观察期内的账户原始数据;

对所述账户原始数据进行特征提取得到预测变量;

根据所述预测变量采用机器学习算法进行建模,得到响应变量与预测变量的预测模型;

根据所述预测模型对有还款表现的账户进行预测,得到账户预测期内的违约概率;

根据所述账户预测期内的违约概率,计算账户的行为评分。

优选地,所述账户原始数据包括账户信用评级数据以及账户实际还款情况数据。

优选地,所述对所述账户原始数据进行特征提取得到预测变量的步骤包括:

根据所述账户原始数据得到账户初始信用评级数据、信用额度使用状况数据、近期还款行为数据以及近期逾期行为数据这四个维度数据的变量数据;

对所述变量数据进行数据预处理得到所述预测变量。

优选地,所述对所述变量数据进行数据预处理得到所述预测变量的步骤包括:

对所述变量数据进行缺失值处理以及异常值处理;

计算经过缺失值处理以及异常值处理的变量数据的重点指标值;

将所述变量数据的重点指标值与预设阈值进行比较,根据比较结果对所述变量数据进行初步筛选;

将经过初步筛选后的变量数据进行分组处理;

将经过分组处理后的变量数据进行woe证据权重转化;

将经过woe证据权重转化的变量数据进行相关性分析,根据分析结果对经过woe证据权重转化的变量数据进行二次筛选,得到预测变量。

优选地,所述变量数据的名称如下表所示:

优选地,所述根据所述预测模型对有还款表现的账户进行实时预测,得到账户预测期内的违约概率的步骤包括:

从所述预测变量中筛选出预测指标;

将所述预测指标带入所述预测模型中得到账户预测期内的违约概率;

其中,所述预测指标包括:

总的逾期期数、

历史最大逾期天数、

最近一次还款距今时长

可用额度

历史最近一次逾期至观察日时长_最大、

总的借款本金占授信额度比率、

火眼分1.1、

剩余应还本金/总的借款本金、以及

当前彩虹评级。

优选地,还包括有通过评估方法对预测模型进行评估的步骤,其中,所述评估方法包括:洛伦兹曲线、roc曲线、以及ks曲线中的一种或多种。

优选地,所述机器学习算法包括逻辑回归算法、随机森林算法或梯度提升决策树算法中的一种或多种。

本发明第二方面提出一种基于行为模型的贷中监测评分系统,包括:

获取模块,用于获取观察期内的账户原始数据;

特征提取模块,对所述账户原始数据进行特征提取得到预测变量;

建模模块,根据所述预测变量进行建模,得到响应变量与预测变量的预测模型;

预测模块,根据所述预测模型对有还款表现的账户进行预测,得到账户预测期内的违约概率;

评分模块,根据所述账户未来时间段内的违约概率,计算账户的行为评分。

优选地,还包括:

评估模块,用于对所述预测模块进行评估。

本发明第三方面提出一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的方法。

本发明第四方面提出一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述计算机可读存储介质在计算机上运行时,使得所述计算机执行所述的方法。

本发明的有益效果如下:

本发明针对目前现有信用评级方式的滞后性、不能反应新形势下的新用户情况,且其评分规则的指定和修改都需要经过严格的专家论证,制定和修改的周期一般比较长,数据变更速度慢的问题,制定了一种基于行为模型的贷中监测评分方法,通过机器学习算法进行建模,能够根据数据的迭代更新进行重新建模。增加了数据变更速度,提高了适用性以及泛化性,在另一方面,本发明将账户信用评级数据以及账户实际还款情况数据来作为账户原始数据,能够提高数据的获取速度,提高了工作效率,能够对账户进行精准的行为评分,有利于公司做贷中政策管理工作,有效降低了金融机构的信贷风险。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的说明。

图1示出本发明的一个实施例所述的一种基于行为模型的贷中监测评分方法的流程示意图;

图2示出本发明的一个实施例所述的对所述账户原始数据进行特征提取得到预测变量的流程示意图;

图3示出本发明的一个实施例所述的对变量数据进行数据预处理得到所述预测变量的流程示意图;

图4示出本发明的一个实施例所述的根据预测模型对有还款表现的账户进行预测,得到账户预测期内的违约概率的流程示意图;

图5示出本发明的一个实施例所述的一种基于行为模型的贷中监测评分系统的流程示意图;

图6示出本发明的一个实施例所述的一种计算机设备的结构示意图。

具体实施方式

为了更清楚地说明本发明,下面结合优选实施例和附图对本发明做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解,下面所具体描述的内容是说明性的而非限制性的,不应以此限制本发明的保护范围。

信用评级又称“贷信评级”或信誉评估,是建立社会信用体系的重要内容和基础,按照通常的定义,信用评级是信用评级服务机构以第三方的客观、公正立场,根据规范的评估指标体系,运用科学的评估方法,履行严格的评估程序,对企业、金融机构、债券发行者和社会组织等市场参与主体的信用记录、企业素质、管理能力、经营水平、外部环境、财务情况、发展前景等进行全面了解,考察调研、分析研究后,就其在未来一段时间履行承诺的能力,可能出现的各种风险所做的综合评价,并以一定的符合标识其优劣并公布于社会公众的一种经济活动,信用评级通过对贷款申请人的债务偿还风险进行评价,以便于银行等金融机构对贷款申请人进行审批授信。

图1为本发明的一个实施例提出的一种基于行为模型的贷中监测评分方法,如图1所示,所述方法包括以下步骤:

s100、获取观察期内的账户原始数据。

在这里观察期应当被理解为获取账户原始数据的时间范围,例如我们将观察期选择为过去两个月,也就是选取用户过去两个月内的账户原始数据作为样本。在本实施例的具体实施中,账户原始数据主要包括用户的账户信用评级数据以及账户实际还款情况数据,获取的账户原始数据可以是外界实时输入的,也可以是在预设的数据库中查找进行得到的,这里所说的数据库是存储账户原始数据的数据库。

通过将账户信用评级数据以及账户实际还款情况数据作为样本数据能够减少数据获取时间,提高工作效率。

进一步的,如果将用户的账户在同业内的交易数据作为样本数据,也可以对账户做行为评分模型的预测。

s200、对所述账户原始数据进行特征提取得到预测变量。

在本实施例的具体实施例中,如图2所示,s200主要包括以下步骤:

s210、根据所述账户原始数据得到账户初始信用评级数据、信用额度使用状况数据、近期还款行为数据以及近期逾期行为数据这四个维度数据的变量数据。

通过获取的账户原始数据来衍生出账户初始信用评级数据、信用额度使用状况数据、近期还款行为数据以及近期逾期行为数据这四个维度数据的变量数据。需要说明的是,在本实施例的具体实施中,这四个维度数据的变量数据数量为86个,其具体名称如下表所示:

s220、对所述变量数据进行数据预处理得到所述预测变量。

根据上述的四个维度数据的变量数据来进行数据预处理,从而得到预测变量。

在本实施例的具体实施例中,如图3所示,s220主要包括以下步骤:

s221、对所述变量数据进行缺失值处理以及异常值处理。

其中,对变量数据进行异常值处理时,首先对四个维度中的变量数据进行数据探索,也就是对变量数据进行描述性数据分布统计,通过查看变量数据的统计指标,例如最大值、最小值、均值、中位数等来对变量数据的分布进行了解,根据变量数据的描述性数据分布统计来对变量数据进行异常值处理;在对变量数据进行缺失值处理时,主要是将缺失率过高的变量进行删除。

s222、计算经过缺失值处理以及异常值处理的变量数据的重点指标值。

我们将每个账号所对应具有账号历史信贷情况建立用户标签,将信用好的账号定义为好用户,将信用坏的账号定义为坏用户,同时,可以根据用户的逾期情况来简要的判断变量数据对好坏用户的区分效果是否明显,在这里,重点指标值是用来衡量样本数据中的变量数据对好坏用户区分能力的一个指标,也就是说变量数据的重点指标值越大,其预测力也就越大,我们可以选用变量数据的iv值来作为重点指标值,iv值的全称是informationvalue,中文就是信息量或信息值,主要主要就是对变量数据进行筛选。

在本实施例的具体实施中,四个维度中的变量数据的iv值例如下表所示:

需要说明的是,本发明中的重点指标值不仅限于iv值,类似的重点指标值还有信息增益值、基尼系数、概率比等。

s223、将所述变量数据的重点指标值与预设阈值进行比较,根据比较结果对所述变量数据进行初步筛选。

通过步骤s222,我们可以得到变量数据的重点指标值,由于样本数据过多,不同账号的具有不同的还款表现,而每个变量数据拥有不同的重点指标值,通过将变量数据的重点指标值与预设阈值进行比较,来筛选预测力较高的变量数据,预设阈值可以根据用户需求进行设定,例如预设阈值可以为0.02,在进行初步筛选时,首先将变量数据的重点指标值与预设阈值进行比较,当变量数据的重点指标值小于预设阈值时,说明该变量数据的预测力过小,需要进行剔除,而当变量数据的重点指标值大于或等于预设阈值时,说明该变量数据的预测力达标,这样,能够减少计算量,从而提高工作效率。

s224、将经过初步筛选后的变量数据进行分组处理。

对变量数据进行分组处理是将变量数据中的一些类别合并降低其基数并将变量数据按照一定的规律进行分组排列,即达到分组处理,例如按照变量数据的重点指标值从小到大、从大到小、u型分布或其他规律进行排列。

s225、将经过分组处理后的变量数据进行woe证据权重转化。

需要知道的是,在这里变量数据的woe值越低,则代表了该变量数据所在的分组内的用户是坏用户的风险越高。

s226、将经过woe证据权重转化的变量数据进行相关性分析,根据分析结果对经过woe证据权重转化的变量数据进行二次筛选,得到预测变量。

在这里,首先将经过woe证据权重转化的变量数据进行相关性分析,如果两个变量数据之间的相关性较强,则将重点指标值较小的变量数据进行剔除,也就是说将预测力不高的变量数据进行了二次的筛选,从而得到最终的预测变量,减少了计算量,提高了工作效率。

s300、根据预测变量采用机器学习算法进行建模,得到响应变量与预测变量的预测模型。

在对预测模型进行建立时,可采用机器学习算法进行建模,在这里响应变量可以根据用户需要进行设定,例如可以将响应变量设定为账户是否逾期,需要说明的是,我们这里采用的机器学习算法可以包括逻辑回归算法、随机森林算法或梯度提升决策树算法中的一种或多种。

s400、根据所述预测模型对有还款表现的账户进行预测,得到账户预测期内的违约概率。

在s300步骤中,在具体进行预测时,我们将对有还款表现的账户的预测变量输入到预测模型内来进行实时的预测,从而得到账户的违约概率,这里的预测期可以理解为未来一段时间内。

在本实施例的具体实施中,如图4所示,s400主要包括以下步骤:

s410、从所述预测变量中筛选出预测指标。

在这里,为了进一步的减少运算量以及提升预测的速度,所以我们可以将在预测变量中筛选出预测指标,示例性的,预测指标的名称可由下表所示:

s420、将所述预测指标带入所述预测模型中得到账户预测期内的违约概率。

通过将筛选出来的预测指标带入到建立好的预测模型内以后从而可以得到账户预测期内的违约概率。

s500、根据所述账户预测期内的违约概率,计算账户的行为评分。

示例性的,我们可以将账户的行为评分以100分满分为标准,在s400步骤中得到账户的违约概率以后,可以通过转化公式将违约概率转化为行为评分,其转化公式具体为:

p=100(1-c)

其中,p为行为评分,c为违约概率。

通过上述转化公式我们得到账户的行为评分,在本发明的具体实施中,通过机器学习算法来进行建模,相较于传统的专家法则或评分卡模型能够快速的对预测模型进行重新训练、对预测模型中的变量数据进行快速的迭代更新,快速的对账户的行为评分进行预测并输出,加大了工作效率,本发明采用账户信用评级数据以及账户实际还款情况数据作为样本数据,加快了数据获取速度,可以对每个账户的每时每刻的每笔交易进行实时预测,增强了预测模型的适用和泛化能力,另一方面,账户原始数据中包括账户实际的信贷平台还款行为数据,其预测准确定性高,有利于公司做贷中政策管理工作,有效降低了金融机构的信贷风险,并且本发明将建立模型以及初始评级纳入其中,能够获得账户还款行为之前评定账户的行为评分,提高了预测效果。

在本实施例的具体实施中,所述方法还包括有通过评估方法对预测模型进行评估的步骤,其中,所述评估方法包括:洛伦兹曲线、roc曲线、auc统计量以及ks曲线中的一种或多种。

在上述预测模型构建以后,必要要对其准确性进行评估,常用的评估方法包括洛伦兹曲线、roc曲线(受试者工作特征曲线)、以及ks曲线(柯尔莫可洛夫-斯米洛夫检验)等,同时可以结合混淆矩阵、提升图进行分析,需要说明的是,对于roc曲线,roc曲线下方的面积称为auc统计量,auc值越大,说明模型的分辨效果越好,而在ks曲线中,ks值越大,说明预测御魔的预测效果越好,如果有多个预测模型,可以通过综合比较多个预测模型的评估分值来选择评估分值最优的预测模型。

需要说明的是,我们在根据预测变量进行建模时,通常将账户原始数据按照一定比例划分为训练集以及测试集,在这里,训练集主要用于进行建模,测试集主要用于对构建好的预测模型进行评估,示例性的,我们可以按照7比3的比例将账户原始数据划分为训练集以及测试集。

图5示出本发明的另一个实施例提出的一种基于行为模型的贷中监测评分系统,如图5所示,所述系统包括:

获取模块,用于获取观察期内的账户原始数据;

特征提取模块,对所述账户原始数据进行特征提取得到预测变量;

建模模块,根据预测变量进行建模,得到响应变量与预测变量的预测模型;

预测模块,根据所述预测模型对有还款表现的账户进行预测,得到账户预测期内的违约概率;

评分模块,根据所述账户未来时间段内的违约概率,计算账户的行为评分。

在本实施例的具体实施中,所述系统还包括:评估模块,用于对所述预测模块进行评估。

本发明的再一个实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述基于行为模型的贷中监测评分方法。如图6示,适于用来实现本实施例提供的服务器的计算机系统,包括中央处理单元(cpu),其可以根据存储在只读存储器(rom)中的程序或者从存储部分加载到随机访问存储器(ram)中的程序而执行各种适当的动作和处理。在ram中,还存储有计算机系统操作所需的各种程序和数据。cpu、rom以及ram通过总线被此相连。输入/输入(i/o)接口也连接至总线。

以下部件连接至i/o接口:包括键盘、鼠标等的输入部分;包括诸如液晶显示器(lcd)等以及扬声器等的输出部分;包括硬盘等的存储部分;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至i/o接口。可拆卸介质,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器上,以便于从其上读出的计算机程序根据需要被安装入存储部分。

特别地,提据本实施例,上文流程图描述的过程可以被实现为计算机软件程序。例如,本实施例包括一种计算机程序产品,其包括有形地包含在计算机可读介质上的计算机程序,上述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。

附图中的流程图和示意图,图示了本实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或示意图中的每个方框可以代表一个模块、程序段或代码的一部分,上述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,示意图和/或流程图中的每个方框、以及示意和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取模块、计算模块、检测模块等。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。例如,计算模块还可以被描述为“预测模块”。

作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入终端中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本发明的基于行为模型的贷中监测评分方法。

显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定,对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1