一种多源数据的自动化建模方法及系统与流程

文档序号:35994856发布日期:2023-11-16 05:35阅读:59来源:国知局
一种多源数据的自动化建模方法及系统与流程

本发明涉及金融风控模型建模的,特别涉及一种适用于多源数据环境下的自动化建模方法及系统。


背景技术:

1、为了防控地方性金融风险,需要对待评分机构的原始金融数据进行系统化、规范化的按指标分权重进行评分。但是,传统的风险控制方法一般是按照从上往下进行计算评分,从待评分机构的原始金融数据中随机选择指标输入至预先定制的评分卡模型中进行计算评分。由于是对随机选择的指标进行计算评分,导致传统方法不仅难于全面覆盖所有指标,而且对于同一待评分机构,随机选择出的指标所对应的评分结果也可能具有随机性,无法保证评分卡模型的可信度。此外,对于不同的待评分机构,其所选择的指标可能也不相同,导致传统的检测方法在出现指标调整后(例如存在指标逻辑调整等),可能会让预先定制的评分卡模型存在翻倍的计算工作量。

2、具体来说,传统的金融风控过程一般分以下几步:第一步,数据建模:建模人员从数据库中取数,进行数据清洗,准备建模工作;第二步,将模型部署到系统:开发人员将变量规则、模型规则、监控规则编写部署到系统上,进行测试;第三步,数据源和系统连接;第四步,建模人员进行上线数据测试,保证数据逻辑、模型逻辑、监控规则正确无误。

3、传统的金融风控存在以下缺点:一、传统的风控模型特征工程中采用woe转换,再得用logistic模型进行拟合构建特征工程的方法已经跟不上大数据、互联网、机器学习发展的速度;二、传统的金融风控中,模型部署需要建模人员将变量规则、模型规则、监控规则编写成书面材料,交于开发人员,由开发人员将这些部署到系统上,并由开发人员和模型人员沟通,测试。这种方式不仅增加了沟通所需的成本,后续也可能由于沟通不到位导致测试时出现很多问题,且由于测试也需要开发人员配合测试,也耗费了人力、时间,增加了项目的成本。

4、本领域技术词汇解释:

5、woe转换:即把变量先分箱,然后用每箱的woe值替代原始值,然后把woe转换之后的变量拿来拟合逻辑回归。woe(weight of evidence)即证据权重,可以将logistic回归模型转化为标准评分卡格式,是对原始自变量的一种编码形式,要对一个变量进行woe编码,需要首先把变量进行分组处理(也叫离散化、分箱)。

6、logistic回归模型:又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。

7、哑变量编码:在统计学中,把一个分类变量用数值来表示的编码方法。一般常用0、1二值来表示每个分类变量,通常将0表示没有对应属性,而1则表示有该属性。哑变量编码也被称之为指示编码或二值化变量。

8、vif:方差膨胀系数,用于衡量多元线性回归模型中复(多重)共线性的严重程度。

9、ks值:在模型中用于区分正负样本分隔程度的评价指标。ks值越大,表明正负样本区分的程度越好,但并非所有情况都是ks越高越好。

10、psi值:指群体稳定性指标(population stability index)。psi值是通过对比历史样本分布和当前样本分布的波动,来衡量数据的稳定性。通常包括特征psi和模型psi。特征psi关注特征的取值是否随时间推移发生大的波动,可用于模型训练和上线前特征选择、变量监控等。模型psi关注训练集和验证集,以及模型上线部署后,模型的分布是否稳定。

11、vintage曲线:在信贷领域,vintage曲线是指贷款组合在给定时间点上的风险分布。vintage曲线可以用来监控、预测和分析资产质量的好坏,是风险量化和精细化管理的重要指标。

12、swift :一种类型安全的语言,具有自动引用计数(arc)来管理内存,并且支持函数式编程和面向对象编程。

13、hdfs: hadoop分布式文件系统,是指被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统(distributed file system)。

14、hive表:是用于存储和组织数据的对象,是hadoop生态系统中的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类sql查询功能(hql)。hive表的设计包括表的名称、列的定义和其他属性。hive表中的数据都存储在hdfs中,没有专门的数据存储格式,只需要在创建表的时候告诉hive数据中的列分隔符和行分隔符,hive就可以解析数据。

15、过拟合:过拟合(overfitting,或称拟合过度)是指过于紧密或精确地匹配特定数据集,以致于无法良好地拟合其他数据或预测未来的观察结果的现象。过拟合模型指的是相较有限的数据而言,参数过多或者结构过于复杂的统计模型。发生过拟合时,模型的偏差小而方差大。过拟合的本质是训练算法从统计噪声中不自觉获取了信息并表达在了模型结构的参数当中。机器学习算法在已知数据上很精确但在新数据上不精确的情形,可以称之为过拟合。


技术实现思路

1、基于此,本发明提供一种多源数据的自动化建模方法,其包括如下步骤:

2、s1:获取样本,包括获取模型样本和获取模型样本的数据维度,所述模型样本包括通过数据接口获取的模型样本,并根据网贷数据和催收数据确定模型样本的正或者负;

3、s2:数据加工,包括数据清洗,对在步骤s1中获取的样本进行缺失值处理和异常值处理,并调配样本比例和权重;

4、s3:生成数据表,将在步骤s2中清洗后的样本生成数据表;

5、s4:划分数据,对所述数据表中的样本进行划分,获取训练集、验证集以及跨时间验证样本;

6、s5:特征工程,包括特征构建和特征筛选;

7、s6:建立模型,包括模型训练和模型评估;

8、s7:模型配置,包括特征配置和监控配置,用于配置模型中的变量衍生规则并进行单条变量规则的测试。

9、优选地,在步骤s5中所述特征构建包括以下步骤:

10、s501:在步骤s4划分数据结束后,将样本中的每个变量进行woe转换;

11、s502:确定变化函数,形成连续变量;

12、s503:对每个变量进行哑变量编码;

13、s504:对多个连续变量进行加减乘除法运算后,再分别进行步骤s501、s502 和s503,得出不同类型的变量;

14、s505:对不同类型的变量进行交叉组合;

15、s506:保留变量:将变量的原值作为特征变量。

16、优选地,在步骤s5中所述特征筛选包括计算每个所述特征变量的信息增益和所述特征变量之间的相关系数,根据所述信息增益和所述相关系数来筛选变量,在所述相关系数强的变量之间,包括所述信息增益较大的那个所述特征变量。

17、优选地,在步骤s6中所述模型训练包括以下步骤:

18、s601:以特征筛选后获得的特征变量作为基础构建模型,并运用逻辑回归算法,进行模型拟合;

19、s602:对拟合后的变量系数进行检查,删掉符号相反的变量后,再次进行模型拟合;

20、s603:重复循环步骤s601和s602,直至变量系数全部正确;

21、s604:对vif比较高的变量,通过删除特征变量,使vif达到正常水平,排除变量之间的多重共线性。

22、优选地,在步骤s6中所述模型评估包括以下步骤:

23、在所述模型训练完成后,通过模型的ks值、排序能力、psi值以及模型在验证数据集和跨时间验证样本集上的表现,评估风控模型的质量。

24、优选地,在获取样本后,对样本进行前期分析和样本定义,所述前期分析计算样本的vintage值,选择vintage曲线中的拐点或者平缓区作为合适的表现期长度;所述样本定义为分析样本的好坏样本分布情况,并划分出训练集和验证集以供后续建立模型使用;在定义样本好坏表现时,采用计算滚动率来定义,选择坏样本稳定的时间长度作为坏样本的标签定义时间窗口。

25、优选地,包括数据策略回溯,为对历史样本进行特征回溯以及规则回溯;

26、对于规则回溯包括以下步骤:

27、s1101:发起规则回溯,调用数据准备接口,上送特征回溯结果swift地址;

28、s1102:调用小批量样本数据规则回溯,输出小批量样本数据规则回溯;

29、s1103:调用全部样本数据规则回溯,输出全量样本数据规则回溯;

30、s1104:回溯完成,回溯结果上传swift,形成规则回溯结果文件;

31、s1105:下载swift,读取回溯结果文件,并将回溯结果文件上传至hdfs,创建hive表,形成策略回溯结果表。

32、优选地,在进行步骤s5前,先对数据进行清洗,再按用户要求进行缺失值填充,包括分别对数值型和类别型变量进行缺失值填充,填充类型包括均值、中位数、众数或自定义数值;缺失值填充完成后,根据参数中的sql脚本查询数据集并进行分箱,训练分箱方式包括等频分箱、等距分箱、决策树分箱和卡方分箱。

33、优选地,还包括模型对比步骤,所述模型对比对建立的不同的模型结果进行汇总,对比选择出效果最优的模型并生产最终的模型报告,所述模型对比的对比内容包括模型稳定性对比和变量稳定性对比。

34、本发明还提供一种多源数据的自动化建模系统,其用于应用如上述任一项所述的多源数据的自动化建模方法,包括:

35、样本获取模块,用于获取模型样本和获取模型样本的数据维度;

36、数据处理模块:用于数据加工并生成数据表,根据生成的数据表划分数据;

37、特征工程模块:用于特征构建和特征筛选;

38、建立模型模块:用于根据特征工程,建立多个模型。

39、本发明的有益效果:可解决现有技术中模型精度低、开发成本高的技术问题;本发明在现有的特征构建技术上,将多种特征构建的方式结合在了一起,而不是只用一种构建特征变量的方式,并且增加了变量交叉组合运算这种方式,全面挖掘了变量之间的组合关系,提升模型精度;同时,在特征筛选时,在传统的特征筛选的基础上,增加了变量之间的相关性检验,一方面,可以防止进入模型变量过多,增加计算成本;另一方面,可以防止模型过拟合,为训练模型节省时间;最后在模型配置过程可由模型人员在线上全部操作,节省开发、沟通成本,另外还可以将项目、特征变量、模型、角色统一管理。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1