一种评分卡模型的后台数据监控方法及系统与流程

文档序号:37126628发布日期:2024-02-22 21:39阅读:24来源:国知局
一种评分卡模型的后台数据监控方法及系统与流程

本发明涉及数据信息监控,特别涉及一种评分卡模型的后台数据监控方法及系统。


背景技术:

1、评分卡模型是一种风控模型,在业务系统的决策流程中,风控模型能为业务决策者提供有效的数据支撑和决策依据,可以对潜在的业务风险进行前瞻性的识别、分类和预警,多维度地自动评估和智能量化业务对象的风险明细和等级,并能进一步统计和分析风险的变化趋势,从而最大程度降低企业的风险成本。基于大数据的风控模型的流程一般为:从业务对象各方面的历史特征数据出发,先经过数据处理和特征工程,再利用机器学习算法进行风险标签的二分类建模。最后,以评分卡的形式输出业务对象各个特征项的评分明细和整体评分等级。

2、随着各个行业对大数据的认识不断加深,大数据的战略意义及重要性也在不断的展现,而战略的完成度则大大的依赖于产品的稳定性。随着产品的多元化逐渐体现,传统的数据库监控将无法及时发现系统运行过程中潜在的问题,容易造成数据库数据丢失,给企业带来影响,而且数据复杂和多元增加了运维人员的工作,导致监控不全面,效率低下等问题。

3、现有技术一,cn202011378824.4基于模型的小微企业信贷评估方法、设备及存储介质,该方法通过根据已知逻辑关系和各行业情况,基于预设的决策配置结构,建立定量模型和定性模型,从而实现对小微企业的信贷评估,提高了对小微企业的信贷评估的效率,能够最终为小微信贷的申请企业输出信贷是否通过、利率及额度的建议信息。

4、现有技术二,cn202010750308.3信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备,包括:利用预先训练的基分类器节点最大深度为1的gbdt模型确定对信贷业务对象的原始属性数据进行特征工程处理;基于所述特征工程处理后的数据训练生成lr评分卡模型,将所述lr评分卡模型作为信贷风控模型。根据最大树深限制为1的梯度提升树会退化为线性模型的特点,实现了lr评分卡模型自动化、端到端的训练,并达到了显著优于启发式规则的特征筛选和连续变量分箱的预测性能,从而实现了线性、可解释、高性能机器学习分类模型的自动化、端到端训练。

5、现有技术三,cn201810810972.5一种分布式自动特征组合的纳税人信用评估方法,步骤包括:1)利用训练样本采用mapreduce分布式计算框架进行随机森林模型的训练,得到一分布式随机森林模型;2)将训练样本输入该分布式随机森林模型,生成输入的每一训练样本的多个组合特征;3)将生成的组合特征与对应纳税人的特征信息进行合并;4)利用合并后的特征训练评分卡模型;5)对于一待信用评估的纳税人,利用该分布式随机森林模型生成该纳税人的组合特征并与该纳税人的特征信息进行合并,然后将该纳税人合并后的特征输入训练好的评分卡模型,预测该纳税人的信用评分。能够进行纳税人的精准信用评估。

6、目前现有技术一、现有技术二和现有技术三存在后台数据监控无法及时发现系统运行过程中潜在的问题,容易造成数据库数据丢失;而且数据复杂和多元增加了运维人员的工作强度,导致监控不全面,效率低下,因而,本发明为了更好地巩固产品的稳定性,需要将相关业务数据导入可视化的监控系统,通过不同的指标和数据得出相应的结论,从而在可控的时间范围内,超前的找出问题并解决问题。


技术实现思路

1、为了解决上述技术问题,本发明提供了一种评分卡模型的后台数据监控方法及系统,包括以下步骤:

2、采集第三方数据平台变量信息;

3、对采集的子数据源的特殊子分以及子数据源变量进行映射处理;

4、通过计算评分科尔莫戈罗夫检验、接受者操作特征曲线、变量的证据权重、信息量、各分箱的占比以及评分群体稳定性指标六大维度指标;

5、使用静态画面软件对六大维度指标进行可视化处理,以方便查找问题;

6、精准监控各个第三方数据平台在不同时间段对于不同客户使用不同产品的子数据源变化,以便精准定位数据生产故障。

7、可选的,变量信息为客户机构、评分产品、模型版本和时点信息所对应的子数据源以及各数据源。

8、可选的,特殊子分为累计坏占比曲线和接受者操作特征曲线,根据子数据源的累计坏占比曲线和接受者操作特征曲线的数值是否出现异常,以及变量随月份的波动,从底层分析出评分卡模型异常的原因。

9、可选的,六大维度指标的计算方法分别为:

10、科尔莫戈罗夫检验值ks:衡量评分卡模型对好坏客户的区分度,公式如下:

11、ks=max{|cum(badrate)-cum(goodrate)|}

12、其中badrate表示评分卡模型的坏客户,goodrate示评分卡模型的好客户,cum(badrate)表示累计坏客户占总坏客户的比值,cum(goodrate)表示累计好客户占总好客户的比值,|cum(badrate)-cum(goodrate)|表示累计坏客户占总坏客户的比值与累计好客户占总好客户的比值差值的绝对值,max表示绝对值的最大值;

13、接受者操作特征曲线:描述在一定累计好客户比例下的累计坏客户的比例;

14、信息量iv:计算出变量的信息价值,信息量iv的计算公式如下所示:

15、

16、其中,i为变量的分组,badi表示第i组坏客户的价值,badt表示坏客户的价值总量,goodi表示第i组好客户的价值,goodt表示好客户的价值总量,ln表示求对数。

17、可选的,变量的证据权重woe:计算出变量各分箱的好坏占比woei,计算公式如下所示:

18、

19、评分群体稳定性指标psi:计算公式:

20、

21、其中,development为预期群体评分,validation为实际群体评分;

22、各分箱占比:计算个变量分箱占总权重的比例。

23、可选的,对六大维度指标进行可视化处理,具体包括两部分:

24、第一部分为可视化图例;

25、第二部分为可视化报表;

26、可视化图例展示使用选中评分卡模型在各家客户机构的科尔莫戈罗夫检验值与接受者操作特征曲线的情况,使用到颜色rbg色号从上到下依次为242,142,43、78,161,167;使用选中评分卡模型在各家客户机构上评分群体稳定性指标的折线图,使用到颜色rbg色号从上到下依次为242,142,43、78,161,167、225,87,89、120,182,178;

27、可视化报表展示使用选中子数据源变量在各家客户机构上的信息量与评分群体稳定性指标的折线图,使用到颜色rbg色号从上到下依次为242,142,43、78,161,167、225,87,89、120,182,178;展示使用选中子数据源变量的各分享占比随月份变化情况,使用到颜色rbg色号从上到下依次为78,121,167、242,142,43、225,88,87、118,183,178、89,161,79、237,200,66、176,122,161;展示使用选中子数据源变量的分数变化,使用到颜色rbg色号从左到右依次为255,0,0、85,170,0;展示使用选中子数据源变量的各客户机构的woe趋势,使用到颜色rbg色号从上到下依次为0,85,0、170,0,0。

28、可选的,筛选器采用时间单位、第三方数据平台单位、产品服务编码单位、产品版本单位及客户机构单位调用量单位进行筛选,以精准监控各个第三方数据平台在不同时间段对于不同客户使用不同产品的子数据源变化,以便精准定位数据生产故障。

29、可选的,精准定位数据生产故障采用调节筛选器精准监控各个评分卡模型的变化,在不同时间段对于不同客户使用不同产品的子数据源以及子分变量。

30、可选的,对六大维度指标进行可视化处理,具体包括:

31、接收评分卡模型的后台监控的可视化请求,将六大维度指标转换为可视化图例和可视化报表;

32、将可视化图例和可视化报表在显示装置上进行显示;

33、通过对管理人员手势的识别,实现可视化图例和可视化报表的放大、缩小、平移和旋转,得到适合管理人员最佳的视角观察六大维度指标。

34、本发明提供的评分卡模型的后台数据监控系统,包括:

35、数据源模块,采集第三方数据平台变量信息;

36、数据预处理模块,对采集的子数据源的特殊子分以及子数据源变量进行映射处理;

37、六大维度指标计算模块,通过计算评分科尔莫戈罗夫检验、接受者操作特征曲线、变量的证据权重、信息量、各分箱的占比,以及评分群体稳定性指标六大维度指标,对第三方数据信息进行用各维度进行实时监控;

38、可视化模块,使用静态画面软件对六大维度指标进行可视化处理,以方便查找问题;

39、精准定位模块,筛选器采用时间单位、第三方数据平台单位、产品服务编码单位、产品版本单位及客户机构单位调用量单位进行筛选,以精准监控各个第三方数据平台在不同时间段对于不同客户使用不同产品的子数据源变化,以便精准定位数据生产故障。

40、由于金融机构的决策依赖于外采的第三方数据信息,若第三方数据信息发生生产故障则会对调用机构的实时决策产生影响,洞察数据源返回信息的差异和变化对于业务发展至关重要。本发明的第三方数据平台的后台数据监控方法,通过对第三方数据信息六大维度实时监控,可以区分不同的细分和数据版本对第三方数据调用的技术指标,并进行全方位、多角度和跨时间的监控,得以及时了解数据源生产调用的变化,保障各条业务线正常且稳定的运行。本发明通过对第三方数据信息各维度实时监控,主要针对评分模型上线所需的变量进行分析,从而区分不同的细分和数据版本对第三方数据调用的技术指标,并进行全方位、多角度、跨时间的监控,得以及时了解数据源生产调用的变化,保障各条业务线正常且稳定的运行。最终能在可控的时间范围内,发现数据生产事故并采取相应措施,保障评分卡模型产品得以在各个客户机构上正常且稳定的运行,并且能极大的提高监控管理人员的效率。通过对评分卡模型进行用各维度进行实时监控,为了及时发现数据生产事故并采取相应措施,以保障评分卡模型产品得以在各个客户机构上正常且稳定的运行。

41、本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

42、下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1