用于构建风险识别模型的方法、装置、存储介质及处理器与流程

文档序号:37641512发布日期:2024-04-18 18:04阅读:16来源:国知局
用于构建风险识别模型的方法、装置、存储介质及处理器与流程

本技术涉及数据处理,具体地涉及一种用于构建风险识别模型的方法、装置、存储介质及处理器。


背景技术:

1、目前,通常建立规则或模型将交易行为划分为高风险和低风险等多个级别,以实现信贷风险识别,从而达到预警的作用。而在构建模型实现信贷风险识别时,其采集客户数据之后即划分为对应的训练样本,并以该训练样本训练模型,以得到信贷风险识别模型。

2、通过上述方式,训练模型所采用的训练样本的质量较低,导致训练完成的信贷风险识别模型的可靠性低下,且在采用其对后续信贷风险进行识别时,也会大大降低模型的预测精准度。


技术实现思路

1、本技术实施例的目的是提供一种用于构建风险识别模型的方法、装置、存储介质及处理器,用以解决现有技术中风险识别模型的可靠性低下的问题。

2、为了实现上述目的,本技术第一方面提供一种用于构建风险识别模型的方法,包括:

3、获取多个训练样本集,每个训练样本集包括多个第一信贷样本,每个第一信贷样本包括多个第一信贷特征,其中,第一信贷样本是根据用户的历史信贷信息生成的;

4、针对每个训练样本集,将训练样本集中的每个第一信贷样本输入至信贷风险识别模型,以得到每个第一信贷样本的信贷风险预测值;

5、针对每个第一信贷样本,将第一信贷样本和对应的信贷风险预测值输入至可解释机器学习模型,以得到第一信贷样本中每个第一信贷特征对应的特征归因值;

6、针对多个第一信贷样本中的同一信贷特征,根据全部的同一信贷特征的特征归因值判断训练样本集中是否存在需要更新的第二信贷特征;

7、在存在第二信贷特征的情况下,针对每个第二信贷特征,根据第二信贷特征的特征预设值和对应的特征归因值确定第二信贷特征的预测区分度;

8、针对每个训练样本集,根据训练样本集对应的多个预测区分度更新训练样本集中的第一信贷样本;

9、针对每个训练样本集,在对训练样本集中的第一信贷样本更新完成的情况下,回到将训练样本集中的每个第一信贷样本输入至信贷风险识别模型的步骤,并根据全部第一信贷样本的信贷风险预测值确定风险识别模型的训练完成度;

10、在训练完成度达到预设阈值的情况下,确定得到训练完成的风险识别模型。

11、在本技术实施例中,针对每个训练样本集,根据训练样本集对应的多个预测区分度更新训练样本集中的第一信贷样本包括:针对每个训练样本集中的每个第二信贷特征,在第二信贷特征的预测区分度小于第一预设数值的情况下,将第二信贷特征确定为待剔除信贷特征;针对每个训练样本集中的每个第二信贷特征,在第二信贷特征的预测区分度大于或等于第二预设数值的情况下,将第二信贷特征确定为待保留信贷特征;在全部的待保留信贷特征中存在特征标识为第一预设标识的待拆分信贷特征的情况下,根据待拆分信贷特征确定针对每个第一信贷样本的待增加信贷特征;根据每个第一信贷样本的待剔除信贷特征、待保留信贷特征以及待增加信贷特征更新训练样本集中的第一信贷样本。

12、在本技术实施例中,根据待拆分信贷特征确定针对每个第一信贷样本的待增加信贷特征包括:从全部的待保留信贷特征中选取特征标识为第二预设标识的信贷特征作为待匹配信贷特征;确定待匹配信贷特征所对应的特征分布区间,并按照特征分布区间对待拆分信贷特征进行分箱操作,以得到对应的多个信贷分类特征;将每个信贷分类特征与待匹配信贷特征进行组合,以得到针对每个第一信贷样本的多个待增加信贷特征。

13、在本技术实施例中,针对多个第一信贷样本中的同一信贷特征,根据全部的同一信贷特征的特征归因值判断训练样本集中是否存在需要更新的第二信贷特征包括:针对多个第一信贷样本中的同一信贷特征,确定与全部的同一信贷特征的特征归因值对应的取值分布结果;将取值分布结果与同一信贷特征在信贷风险预测值下的历史分布结果对比;在取值分布结果与历史分布结果不一致的情况下,确定训练样本集中存在需要更新的第二信贷特征,并将同一信贷特征确定为第二信贷特征。

14、在本技术实施例中,获取多个训练样本集包括:获取多个历史信贷样本,其中,每个历史信贷样本中包括多个历史信贷特征;针对多个历史信贷特征,判断每个历史信贷特征的信贷预设值是否处于对应的预设范围;在多个历史信贷特征的信贷预设值均处于对应的预设范围的情况下,将与多个历史信贷特征对应的历史信贷样本确定为第一历史样本;对多个第一历史样本分别进行预处理,以得到多个第一信贷样本;将多个第一信贷样本进行划分,以得到多个训练样本集。

15、在本技术实施例中,对多个第一历史样本分别进行预处理,以得到多个第一信贷样本包括:针对多个第一历史样本中的第一相同信贷特征,将存在第一相同信贷特征的信贷预设值缺失的第一历史样本确定为异常样本;根据异常样本的数量和多个第一历史样本中除异常样本外的正常样本的数量确定针对第一相同信贷特征的信贷预设值的缺失比例;在缺失比例小于预设比例的情况下,确定正常样本中针对第一相同信贷特征的信贷预设值的特征平均值;根据特征平均值更新每个异常样本中的第一相同信贷特征的信贷预设值,并将正常样本和更新后的异常样本作为第二历史样本;针对全部第二历史样本中的第二相同信贷特征,根据全部的第二相同信贷特征的信贷预设值确定第二相同信贷特征的距离相关系数;针对每个距离相关系数,在距离相关系数大于预设系数的情况下,将与距离相关系数对应的第二相同信贷特征确定为有效信贷特征;根据有效信贷特征更新每个第二历史样本,并将更新后的每个第二历史样本确定为第三历史样本;基于smote过采样算法对每个第三历史样本进行类别不平衡处理,并将类别不平衡处理后的每个第三历史样本确定为第一信贷样本。

16、在本技术实施例中,方法还包括:在存在第二信贷特征的情况下,根据第二信贷特征的取值分布结果调整对应的历史信贷特征所处的预设范围,其中,取值分布结果是根据多个第一信贷样本中的同一信贷特征的特征归因值确定的。

17、在本技术实施例中,方法还包括:获取用户发送的任意一个信贷申请请求,信贷申请请求携带多个当前信贷特征,其中,每个当前信贷特征根据用户的当前信贷信息生成的;将多个当前信贷特征输入训练完成的风险识别模型,以使训练完成的风险识别模型输出用户的信贷风险值。

18、本技术第二方面提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令在被处理器执行时使得处理器被配置成执行上述的用于构建风险识别模型的方法。

19、本技术第三方面提供一种处理器,被配置成执行上述的用于构建风险识别模型的方法。

20、本技术第四方面提供一种用于构建风险识别模型的装置,包括:

21、存储器,被配置成存储指令;以及

22、上述的处理器。

23、通过上述技术方案,获取多个训练样本集,将训练样本集中的每个第一信贷样本输入至信贷风险识别模型,以得到每个第一信贷样本的信贷风险预测值,针对每个第一信贷样本,将第一信贷样本和对应的信贷风险预测值输入至可解释机器学习模型,以得到第一信贷样本中每个第一信贷特征对应的特征归因值,从而通过可解释机器学习模型不断更新优化信贷风险识别模型的训练样本,使得训练完成的风险识别模型的可靠性更高,也进一步提高风险识别模型后续的识别准确性。

24、本技术实施例的其他特征和优点将在随后的具体实施方式部分予以详细说明。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1