基于仿真的数据风控价值评估方法、装置、设备、介质与流程

文档序号:20690295发布日期:2020-05-08 19:22阅读:281来源:国知局
基于仿真的数据风控价值评估方法、装置、设备、介质与流程

本发明涉及大数据风控领域,尤其涉及一种基于仿真的数据风控价值评估方法、装置、设备、介质。



背景技术:

目前在个人信贷审批很多都基于大数据风控,除了头部流量公司其他公司都需要调用第三方数据,但目前第三方数据市场良莠不齐,很多公司缺乏系统性的方法鉴别单个第三方数据在风控系统中创造的价值;无论在数据入围前和入围后都缺乏系统性的评估方法对单个数据源创造价值进行评估。进而存在以下问题:

1.针对第三方数据源,公司在入围前不知道该数据能对风控产生什么价值;

2.在入围后也不知道该数据与其他数据组合后单个数据所发挥的价值;

3.在入围后如果数据质量变差或者结合该数据的风控策略效果变差公司不能及时知晓。



技术实现要素:

本发明的目的在于提供一种基于仿真的数据风控价值评估方法、装置、设备、介质,解决目前第三方数据质量缺乏系统性评估方案的问题。

为实现上述发明目的,本发明提供一种基于仿真的数据风控价值评估方法,包括:

s1.建立信贷审批仿真系统,以及针对待评估数据源建立相应的风控策略;

s2.采用所述信贷审批仿真系统和实际的大数据风控系统分别基于所述风控策略对所述待评估数据源进行历史数据回溯,并获取第一仿真结果和第一实际结果;

s3.根据所述第一仿真结果和第一实际结果判断所述待评估数据源是否入围,若是,则执行步骤s4;

s4.采用所述信贷审批仿真系统并基于所述风控策略对所述待评估数据源的数据源均值进行线上评估,并获取第二仿真结果,采用实际的大数据风控系统并基于所述风控策略对所述待评估数据源进行线上评估,获取第二实际结果;

s5.根据所述第二仿真结果和第二实际结果判断所述待评估数据源是否继续调用、数据是否进行二次议价。

根据本发明的方案,步骤s1中,所述信贷审批仿真系统具有与所述大数据风控系统相同的功能,且所述信贷审批仿真系统具有可改变输入数据的接入端口。

步骤s3中,根据所述第一仿真结果和所述第一实际结果获取所述待评估数据源的第一数据调用价值,根据所述第一数据调用价值判断所述待评估数据源是否入围。

根据本发明的方案,根据所述第一仿真结果和所述第一实际结果获取所述待评估数据源的第一数据调用价值的步骤中,包括:

s31.根据所述第一仿真结果是否通过,以及所述第一实际结果是否通过获取所述待评估数据源的第一数据价值总和;其中,若所述第一仿真结果和所述第一实际结果均通过,则数据价值记为零;

若所述第一仿真结果和所述第一实际结果均不通过,则数据价值记为零;

若所述第一仿真结果不通过且所述第一实际结果通过,则根据产生该数据的用户的信贷表现进行价值判断,若所述用户的信贷表现为不良则数据价值即为正,若所述用户的信贷表现为良则数据价值即为负;

若所述第一仿真结果通过且所述第一实际结果不通过,则根据价值链模型进行价值判断,若所述价值链模型判断为正,则数据价值即为正,若所述价值链模型判断为负,则数据价值即为负;

汇总所述数据价值获取所述第一数据价值总和;

s32.计算所述第一数据价值总和与所述待评估数据源的调用条数的比值获取所述第一数据调用价值。

根据本发明的方案,步骤s5中,根据所述第二仿真结果和所述第二实际结果获取所述待评估数据源的第二数据调用价值,根据所述第二数据调用价值判断所述待评估数据源是否继续调用、数据是否进行二次议价。

根据本发明的方案,根据所述第二仿真结果和所述第二实际结果获取所述待评估数据源的第二数据调用价值的步骤中,包括:

s51.根据所述第二仿真结果是否通过,以及所述第二实际结果是否通过获取所述待评估数据源的第二数据价值总和;其中,若所述第二仿真结果和所述第二实际结果均通过,则数据价值记为零;

若所述第二仿真结果和所述第二实际结果均不通过,则数据价值记为零;

若所述第二仿真结果不通过且所述第二实际结果通过,则根据产生该数据的用户的信贷表现进行价值判断,若所述用户的信贷表现为不良则数据价值即为负,若所述用户的信贷表现为良则数据价值即为正;

若所述第二仿真结果通过且所述第二实际结果不通过,则根据价值链模型进行价值判断,若所述价值链模型判断为正,则数据价值即为负,若所述价值链模型判断为负,则数据价值即为正;

汇总所述数据价值获取所述第二数据价值总和;

s52.计算所述第二数据价值总和与所述待评估数据源的调用条数的比值获取所述第二数据调用价值。

根据本发明的方案,根据所述第一数据调用价值判断所述待评估数据源是否入围的步骤中,若所述第一数据调用价值大于其调用成本,则所述待评估数据源入围;

根据所述第二数据调用价值判断所述待评估数据源是否继续调用、数据是否进行二次议价的步骤中,若所述第二数据调用价值大于其调用成本,则所述待评估数据源继续调用,若所述第二数据调用价值出现下降或小于其调用成本,则数据进行二次议价。

根据本发明的方案,所述价值链模型用于申请授信被拒绝的用户进行价值判断,其生成步骤包括:

s01.对信贷人群行为特征进行数据分析;

s02.获取用户申请前被拒绝次数与用户流失率成负相关与再申请率成正相关的关系,以及通过前被多次拒绝用户通过后不良率与拒绝次数成正相关关系,构建以用户申请前被拒绝次数为坐标轴的链状结构;

s03.根据所述链状结构上每个位置估算每次被拒绝的用户所具有的价值,获取所述价值链模型。

根据本发明的另一个方案是一种数据风控价值评估装置,所述装置包括:

仿真系统模块,用于建立信贷审批仿真系统并基于风控策略对所述待评估数据源进行历史数据回溯和线上评估;

大数据风控系统模块,用于实际的大数据风控系统并基于风控策略对所述待评估数据源进行历史数据回溯和线上评估;

计算模块,用于对所述仿真系统模块和所述大数据风控系统模块的计算结果进行处理;

输出模块,用于输出所述计算模块的处理结果。

根据本发明的再一个方案是一种数据风控价值评估设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当所述数据风控价值评估设备运行时,所述处理器与所述存储介质之间通过所述总线通信,所述处理器执行所述机器可读指令,以执行前述的数据风控价值评估方法的步骤。

根据本发明的再一个方案是一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行前述的数据风控价值评估方法的步骤。

通过以上方案,本发明实现了系统性的数据入围前和入围后的价值评估,为大数据风控的数据源选择、数据源效果评估以及部分数据的淘汰替换和二次议价提供了依据,有效实现了风控效果和数据成本控制双向优化

通过以上方案,数据价值核算到单条调用价值,只要与成本对比就可以作出数据是否入围,是否需要议价以及是否需要淘汰的决断。

通过以上方案,该方法存在鼓励厂商在入围前提供数据进行测试,测试方法也保证了与实际风控系统的高度一致,只要测试效果比较好有理由相信后续数据能在风控中发挥大于成本的价值。

通过以上方案,数据接入后效果定量监测,如数据接入后只要根据该系统衡量价值大于其单次调用成本,则有理由认为该数据依然发挥价值。如果出现价值下降甚至低于成本,则需要检查是否出现数据质量变差,风控策略失效,指导公司开展二次议价或者数据源的更替使用

附图说明

图1用于表示本发明的数据风控价值评估方法的步骤框图。

图2是用于本发明的数据风控价值评估方法的数据源入围前评估流程图。

图3是用于本发明的数据风控价值评估方法的数据源入围后评估流程图。

图4是用于本发明的大数据风控系统的作业流程图。

图5是用于本发明的信贷审批仿真系统的作业流程图。

图6是用于示意性表示用户在申请授信过程中的价值链。

图7是用于示意性表示用户在申请授信过程中申请与通过率的关系图。

图8是用于示意性表示用户在申请授信过程中被拒绝次数与流失率的关系图

图9是用于表示获批授信前被拒绝次数与不良率的关系图。

图10用于示意性表示被拒绝用户授信通过的期望收益。

图11用于示意性表示被拒绝用户虚拟价值链上的期望收益。

图12用于示意性表示虚拟价值链上的整条价值链的流失价值。

具体实施方式

下面结合附图和具体实施方式对本发明作详细地描述,实施方式不能在此一一赘述,但本发明的实施方式并不因此限定于以下实施方式。

图1用于表示本发明的数据风控价值评估方法的步骤框图如图1所示,本发明的一种基于仿真的数据风控价值评估方法,包括:

s1.建立信贷审批仿真系统,以及针对待评估数据源建立相应的风控策略;

s2.采用信贷审批仿真系统和实际的大数据风控系统分别基于风控策略对待评估数据源进行历史数据回溯,并获取第一仿真结果和第一实际结果;

s3.根据第一仿真结果和第一实际结果判断待评估数据源是否入围,若是,则执行步骤s4;

s4.采用信贷审批仿真系统并基于风控策略对待评估数据源的数据源均值进行线上评估,并获取第二仿真结果,采用实际的大数据风控系统并基于风控策略对待评估数据源进行线上评估,获取第二实际结果;

s5.根据第二仿真结果和第二实际结果判断待评估数据源是否继续调用、数据是否进行二次议价。

步骤s1中,信贷审批仿真系统与实际使用的信贷审批系统在功能上相同,且该信贷审批仿真系统具有可改变输入数据的接入端口,通过该接入端口能够改变输入数据,返回在同样风控策略下仿真授信判定结果(ab测试)。

图2是用于本发明的数据风控价值评估方法的数据源入围前评估流程图。如图2所示,通过历史数据回溯的方式对待测试数据源入围前的数据调用价值进行测试。在步骤s2中,分别向信贷审批仿真系统和实际的大数据风控系统引入根据待测试数据源建立的风控策略。而后通过信贷审批仿真系统和实际的大数据风控系统分别回溯历史数据(数据厂商提供调用接口和一定条数的数据用户效果测试),进而信贷审批仿真系统返回仿真结果(即第一仿真结果),大数据风控系统输出实际结果(即第一实际结果)。

步骤s3中,根据第一仿真结果和第一实际结果获取待评估数据源的第一数据调用价值,根据第一数据调用价值判断待评估数据源是否入围。如图2所示,在本实施方式中,根据第一仿真结果和第一实际结果获取待评估数据源的第一数据调用价值的步骤中,包括:

s31.根据第一仿真结果是否通过,以及第一实际结果是否通过获取待评估数据源的第一数据价值总和;

s32.计算第一数据价值总和与待评估数据源的调用条数的比值获取第一数据调用价值。

具体地,在步骤s31中,对于信贷审批仿真系统与大数据风控系统判定相同的情况,说明数据对于最终没起作用,数据价值为0;即若第一仿真结果和第一实际结果均通过,则数据价值记为零;若第一仿真结果和第一实际结果均不通过,则数据价值记为零。对于仿真与实际判定不同的情况,主要有仿真通过、实际判定不通过和仿真不通过、实际通过两种情况。其中,若第一仿真结果不通过且第一实际结果通过,数据价值较好判断,因为这部分用户有信贷表现,则根据产生该数据的用户的信贷表现进行价值判断,若用户的信贷表现为不良,数据入围前评估意味着新增数据拒绝不良用户,则数据价值即为正,若用户的信贷表现为良,入围前评估以为新增数据拒绝了良好用户,则数据价值即为负;若第一仿真结果通过且第一实际结果不通过,则根据价值链模型进行价值判断,若价值链模型判断为正,则数据价值即为正,若价值链模型判断为负,则数据价值即为负。在本实施方式中,通过汇总上述数据价值的正负和零值,即可获取第一数据价值总和。

图3是用于本发明的数据风控价值评估方法的数据源入围后评估流程图。如图3所示,通过线上同时运行的方式对待测试数据源入围后的数据调用价值进行测试。在步骤s4中,分别向信贷审批仿真系统和实际的大数据风控系统引入根据待测试数据源建立的风控策略。而后通过信贷审批仿真系统和实际的大数据风控系统同时进行线上评估,进而信贷审批仿真系统返回仿真结果(即第二仿真结果),大数据风控系统输出实际结果(即第二实际结果)。在本实施方式中,在数据源入围后的评估过程中,在信贷审批仿真系统中输入的是该数据源均值。

在步骤s5中,根据第二仿真结果和第二实际结果获取待评估数据源的第二数据调用价值,根据第二数据调用价值判断待评估数据源是否继续调用、数据是否进行二次议价。如图3所示,在本实施方式中,根据第二仿真结果和第二实际结果获取待评估数据源的第二数据调用价值的步骤中,包括:

s51.根据第二仿真结果是否通过,以及第二实际结果是否通过获取待评估数据源的第二数据价值总和;

s52.计算第二数据价值总和与待评估数据源的调用条数的比值获取第二数据调用价值。

具体地,在步骤s51中,对于仿真系统与实际风控系统判定相同的情况,说明数据对于最终没起作用,数据价值为0;即若第二仿真结果和第二实际结果均通过,则数据价值记为零;若第二仿真结果和第二实际结果均不通过,则数据价值记为零。对于仿真与实际判定不同的情况,主要有仿真通过/实际判定不通过和仿真不通过/实际通过两种情况。其中,若第二仿真结果不通过且所述第二实际结果通过,数据价值较好判断,则根据产生该数据的用户的信贷表现进行价值判断,若用户的信贷表现为不良,而对于入围后评估意味着新增数据放过了不良用户,价值判定为负,若用户的信贷表现为良,入围后评估意味着新增数据通过了原本被拒绝的良好用户,价值为正。若第二仿真结果通过且第二实际结果不通过,则根据价值链模型进行价值判断,若价值链模型判断为正,则数据价值即为负,若价值链模型判断为负,则数据价值即为正。在本实施方式中,通过汇总上述数据价值的正负及零值,获取第二数据价值总和。

根据本发明,在前述步骤中,根据第一数据调用价值(即为单条数据调用所创造的价值)判断待评估数据源是否入围的步骤中,若第一数据调用价值大于其调用成本,则待评估数据源入围;

在前述步骤中,根据第二数据调用价值(即为单条数据调用所创造的价值)判断待评估数据源是否继续调用、数据是否进行二次议价的步骤中,若第二数据调用价值大于其调用成本且表现稳定,则待评估数据源继续调用,若第二数据调用价值出现下降或小于其调用成本,则对数据使用方式进行调整或对数据进行二次议价。

根据本发明,在前述步骤中所采用的价值链模型用于申请授信被拒绝的用户进行价值判断,其生成步骤包括:

通过对信贷人群行为特征进行数据分析,发现用户申请前被拒绝次数与用户流失率成负相关与再申请率成正相关的关系,以及通过前被多次拒绝用户通过后不良率与拒绝次数成正相关关系,构建以用户申请前被拒绝次数为x轴的链状结构,大体结构为用户信贷申请->被通过或被拒绝->被拒绝后流失或再申请->再申请后通过或者拒绝->….结合每个位置上通过后不良率与拒绝次数关系即可估算每次被拒绝流失用户所具有的价值(如果未流失,其价值总能在价值链上体现)。

根据本发明的另一个方案是一种数据风控价值评估装置,装置包括:

仿真系统模块,用于建立信贷审批仿真系统并基于风控策略对待评估数据源进行历史数据回溯和线上评估;

大数据风控系统模块,用于实际的大数据风控系统并基于风控策略对待评估数据源进行历史数据回溯和线上评估;

计算模块,用于对仿真系统模块和大数据风控系统模块的计算结果进行处理;

输出模块,用于输出计算模块的处理结果。

根据本发明的再一个方案是一种数据风控价值评估设备,包括:处理器、存储介质和总线,存储介质存储有所述处理器可执行的机器可读指令,当数据风控价值评估设备运行时,处理器与存储介质之间通过总线通信,处理器执行机器可读指令,以执行前述的数据风控价值评估方法的步骤。

根据本发明的再一个方案是一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行前述的数据风控价值评估方法的步骤。

为进一步说明本发明,结合以下实施例对本发明作进一步阐述。

本发明在中信百信银行构建了用于本发明的数据风控价值评估方法的数据风控价值评估系统,该系统支持历史数据回溯用于评估数据入围前价值和用户申请触发用于数据入围后评估,评估逻辑见技术方案描述;

图4是用于本发明的大数据风控系统的作业流程图。如图4所示,用户申请授信或用信可触发大数据风控系统调用多个外部或者内部数据源,这部分数据为系统的输入,此后这些数据通过或串联或并联的风控策略并返回用户的最终授信判定结果。

图5是用于本发明的信贷审批仿真系统的作业流程图。如图5所示,在本实施方式中,信贷审批仿真系统能够控制单个数据源输入,如在数据源入围后的评估过程中,仅仅把数据源1的均值作为输入,通过同样的风控策略,返回仿真授信结果。如此我们就得到了真实/仿真授信结果。

根据本发明的方法,采用前述步骤,通过信贷审批仿真系统和大数据风控系统进行入围前评估所获得的第一仿真结果是否为通过和第一实际结果是否为通过,可汇总为如下几种情况,参见表1所示:

表1

参见表1所示,其中仿真授信通过表示第一仿真结果为通过,仿真授信未通过表示第一仿真结果未通过,实际授信通过表示第一实际结果为通过,实际授信未通过表示第一实际结果未通过。进而根据表1可获取不同情况下的数据价值。

根据本发明的方法,采用前述步骤,通过信贷审批仿真系统和大数据风控系统进行入围后评估所获得的第二仿真结果是否为通过和第二实际结果是否为通过,可汇总为如下几种情况,参见表2所示:

参见表2所示,其中仿真授信通过表示第二仿真结果为通过,仿真授信未通过表示第二仿真结果未通过,实际授信通过表示第二实际结果为通过,实际授信未通过表示第二实际结果未通过。进而根据表2可获取不同情况下的数据价值。

通过前述步骤可知,在仿真授信通过且实际授信未通过的情况下需要通过价值链模型判断被拒绝用户价值。

在本实施方式中,通过对用户被拒绝后行为观测研究得到一定规律产生价值链模型,构建了评估被拒绝用户价值评定的标准:

图6是用于示意性表示用户在申请授信过程中的价值链。参见图6所示,用户在首次申请被拒绝的用户还存在二次申请,三次申请等多次申请,且这部分用户可能在后续申请中被通过并用信;由此产生了一个申请,通过或不通过,流失或者再次申请,通过或者不通过的链,由于不同位置用户预期价值不同,进而构成用户在申请授信过程中的价值链。

在该价值链中,定义:

因此,根据上述公式可知,在该价值链中,从价值链的头部走向尾端,其申请通过率成指数下降,而流失率也成指数下降;例如一个第10次申请被拒的用户相比于首次申请的用户,其几乎有大于90%概率会申请第11次,而首次申请用户只有39%概率再次申请,而其几乎不太可能在第11次申请获得授信通过;说明随着价值链往后,用户几乎都是具有强信贷需求确得不到满足的劣质用户,这一点也从多次申请获得通过的用户群体中得到印证,参见图7和图8。图9是用于表示获批授信前被拒绝次数与不良率的关系图。如图9所示,多次申请被拒绝后获得通过的用户其“危险性”远高于在前几次申请的用户,部分申请超过20次才获得通过的用户其不良率高于10%。

由上可知,对于位于价值链不同位置的用户,其价值是递减的。被拒绝用户价值评估基于以下假设:

1.被拒绝用户与通过用户的用信额度在统计意义上一致,即这部分用户用信额度可按平均用信额度估计;

2.被拒绝用户的价值取决于其在价值链上位置,即越往后,其风险性越高,价值越低。

在本实施方式中,根据上述假设定义拒绝用户价值为:

拒绝用户价值=平均用信额度x预计收益率

预计收益率=(1-不良率)x贷款利率-不良率x不良贷款预计损失率-资金成本-营业成本

因此,对于在价值链上不同位置的用户,可以通过以上公式计算其在如果申请获得通过对公司而言的收益率。

图10用于示意性表示被拒绝用户授信通过的期望收益。如图10所示,信贷业务是具有“厚尾效应(heavy-tail)”,相比于价值链后端的用户带来的破坏,前端所带来的收益微不足道。

进而,通过前述内容可知,用户在价值链上不同位置如果获得通过其产生的信贷价值,但实际观测对于每个被拒绝用户,只知道其流失前在价值链上位置,而不知道如果其再次申请是否会通过,如果再次申请被拒绝其会流失还是再次申请,其再次申请被拒绝后再次申请是否会获得通过,……,如果n-1次申请被拒绝其会流失还是进行第n次申请,其第n次申请是否会获得通过,依次类被拒绝用户的申请和拒绝过程就产生了一条虚拟价值链;基于以下假设:

在价值链上同一位置流失用户与再次申请用户在统计意义上属性相同,即对于价值链上同一位置,流失用户如果再次申请应该和实际再次申请用户拥有一样的申请通过率,一样的不良率,如果被拒绝应该有一样的再次申请通过率等循环过程。

如此我们对于价值链上的每个位置的流失用户,需要构建延伸到末尾的价值链,这部分用户的价值通过虚拟价值链上的期望收益体现,如图11所示。

根据虚拟价值链计算不同位置拒绝流失用户的价值如图12所示,可以发现不同与不同价值链位置通过用户相比,流失用户价值经历快速下降后又收敛到0,主要是因为在价值链后端虽然用户风险极具上升,但这部分用户几乎不会被通过,因此其“破坏力”收敛;由此给出根据用户在价值链上位置计算被拒绝流失用户价值的方法。

下面给出部分价值判定实例(对于数据源a的入围前评估)

被拒绝用户(实际未通过/仿真通过)

实际通过/仿真未通过(正常)

实际通过/仿真未通过(不良)

通过对上述所有仿真价值判断加总除数据调用条数即得到单条数据预估价值,本次测试入围数据源a预估价值为3.8元/条,高于其实际调用成本,因此考虑入围并按测试策略添加入风控系统中。

上述内容仅为本发明的具体方案的例子,对于其中未详尽描述的设备和结构,应当理解为采取本领域已有的通用设备及通用方法来予以实施。

以上所述仅为本发明的一个方案而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1