一种基于CART算法的多维度策略自动化、批量化挖掘方法与流程

文档序号：33740976发布日期：2023-04-06 09:56阅读：143来源：国知局

本发明涉及计算机，具体涉及一种基于cart算法的多维度策略自动化、批量化挖掘方法。

背景技术：

1、在金融风控领域，贷前授信申请场景中的风控策略分为单维度策略和多维度策略两种，风控策略是由一条条风控规则组成，策略属于宏观概念，规则属于微观概念；进行多维度策略挖掘的时候，经常使用cart算法分析成千上万个变量，基于分析结果筛选效果好且有业务解释性的多维度规则上线进行风险拦截；然而现有技术中，在进行多维度策略挖掘的时候面临着以下五个难题：1、在使用cart算法对成千上万个变量进行多维度策略挖掘时，构建一棵决策树通常只会使用效果最好的少数几个或几十个变量，还有数以万计的变量未使用，造成了信息的大量浪费；2、在使用cart算法构建完成决策树后，通常是基于决策树结构人为抽取和解析符合要求的多维度规则，效率低；3、无法确定基于训练数据构建决策树并抽取了效果好的多维度规则是否有效；4、无法确定基于cart算法最终筛选的多条效果好的待上线规则同时上线后的效果；5、在基于cart算法进行多维度策略挖掘的过程中，产生的所有分析结果不能实现整合并自动化输出为标准化的分析文档。

2、因此，亟需一种方法解决现有技术中的五大难题，提高多维度策略挖掘效率。

技术实现思路

1、本发明意在提供一种基于cart算法的多维度策略自动化、批量化挖掘方法，以实现多维度策略自动化、批量化挖掘，同时自动输出标准化的分析报告，提高多维度策略挖掘效率。

2、为达到上述目的，本发明采用如下技术方案：一种基于cart算法的多维度策略自动化、批量化挖掘方法，包括：

3、数据准备步骤，准备分析所需原始变量；

4、多维度策略分析变量池构建步骤，基于缺失率、众数占比、变量间的相关性分析对原始变量进行分析和筛选，确定最终进行多维度策略分析和挖掘的变量池；

5、决策树预构建步骤，在变量池中采用变量组合加均匀分布随机数的方式自动化、批量化抽取组合变量并决定是否生成决策树；

6、决策树构建步骤，基于抽取的组合变量自动化生成决策树；

7、决策树规则抽取和解析步骤，对决策树的规则进行自动抽取，并解析出每条规则包含的叶节点数、叶节点数占建模样本的比例、叶节点对应的坏样本率；

8、规则筛选步骤，按照评估标准根据规则对应的叶节点数、叶节点占建模样本的比例和lift值筛选效果好的多维度规则；

9、多维度规则泛化步骤，对筛选的效果好的多维度规则跨时间段进行泛化，筛选效果好且在不同时间段上表现稳定的规则，得到分析结果，将分析结果准备上线进行风险管控。

10、本方案的原理及优点是：一种基于cart算法的多维度策略自动化、批量化挖掘方法应用于金融风控领域，在多维度策略挖掘的时候，使用cart算法分析成千上万个变量，基于分析结果筛选效果好且有业务解释性的多维度规则上线进行风险拦截；实际应用时，先准备分析所需的原始数据，基于缺失率、众数占比、变量间的相关性分析对原始变量进行分析和筛选，确定最终进行多维度策略分析和挖掘的变量池；

11、在变量池中采用变量组合加均匀分布随机数的方式自动化、批量化抽取组合变量并决定是否生成决策树；基于抽取的组合变量自动化生成决策树；能够确保变量池中所有的变量信息被充分利用，而不会造成信息资源的浪费；在每次完成变量组合后采用均匀分布随机数的方法，能够控制决策树生成数量，避免变量池中变量较多，随机组合生成决策树会造成信息多次重复使用导致计算复杂度增加；然后对决策树的规则进行自动抽取，并解析出每条规则包含的叶节点数、叶节点数占建模样本的比例、叶节点对应的坏样本率；

12、在完成多维度规则解析后需要分析规则效果，筛选效果好的规则便于后续泛化处理，根据规则对应的叶节点数、叶节点占建模样本的比例和lift值从解析后的规则中筛选效果好的多维度规则；

13、最后对筛选的效果好的多维度规则跨时间段进行泛化，筛选效果好且在不同时间段上表现稳定的规则准备上线进行风险管控，引入多维度规则泛化环节，能够更加全面的证明多维度规则的有效性。

14、优选的，作为一种改进，所述原始数据包括因变量、自变量、标签变量和数据字典。

15、技术效果：基于标签变量能够区分测算样本、泛化样本，基于准备的数据字典，在后续分析时为每个变量自动匹配中文名称，提高分析结果可读性。

16、优选的，作为一种改进，所述决策树预构建步骤，包括：

17、对比值设定步骤，设置进行决策树生成的对比值b；

18、随机数生成与判断步骤，生成一个“0~1”均匀分布随机数值a，控制a与对比值b进行比较，当a>b时进行决策树生成，否则不生成。

19、技术效果：通过控制a与对比值b进行比较，能够控制决策树生成数量；通过控制对比值b的取值，能够控制决策树的生成数量。

20、优选的，作为一种改进，所述评估标准包括：规则对应的叶节点数不少于30个，叶节点占建模样本的比例在0.5%~5%之间且lift值较大。

21、技术效果：按照评估规则能够从解析后的规则中筛选效果好的多维度规则。

22、优选的，作为一种改进，所述多维度规则泛化步骤还包括标准化步骤，基于预设的分析模板对分析结果自动整合、格式调整、美化并自动生成标准化分析报告。

23、技术效果：整理和汇总分析结果文档，避免每次分析完成后都要将分散各处的分析结果进行整合，格式调整和美化，减小工作量，提升工作效率。

24、优选的，作为一种改进，所述多维度规则泛化步骤包括：

25、跨样本集泛化步骤，将多维度规则转换成新的单个变量，根据触碰规则为变量取值，变量取值为0和1，1表示触碰规则，0表示未触碰规则；根据分析指标分析规则在不同时间段的效果和触碰情况；

26、分析报告输出步骤，自动化输出多维度规则泛化分析报告。

27、技术效果：多维度规则由多个变量构成，将多维度规则转换成一个新的变量能够方便泛化，提升工作效率。

28、优选的，作为一种改进，还包括合并泛化步骤，对泛化效果好的多条待上线规则合并泛化。

29、技术效果：能够评估多条规则同时上线后对通过率和风险的影响，便于管理人员及时进行策略调整。

技术特征：

1.一种基于cart算法的多维度策略自动化、批量化挖掘方法，其特征在于，包括：

2.根据权利要求1所述的一种基于cart算法的多维度策略自动化、批量化挖掘方法，其特征在于：所述原始数据包括因变量、自变量、标签变量和数据字典。

3.根据权利要求1所述的一种基于cart算法的多维度策略自动化、批量化挖掘方法，其特征在于，所述决策树预构建步骤，包括：

4.根据权利要求1所述的一种基于cart算法的多维度策略自动化、批量化挖掘方法，其特征在于，所述评估标准包括：规则对应的叶节点数不少于30个，叶节点占建模样本的比例在0.5％～5％之间且lift值较大。

5.根据权利要求1所述的一种基于cart算法的多维度策略自动化、批量化挖掘方法，其特征在于：所述多维度规则泛化步骤还包括标准化步骤，基于预设的分析模板对分析结果自动整合、格式调整、美化并自动生成标准化分析报告。

6.根据权利要求1所述的一种基于cart算法的多维度策略自动化、批量化挖掘方法，其特征在于，所述多维度规则泛化步骤包括：

7.根据权利要求1所述的一种基于cart算法的多维度策略自动化、批量化挖掘方法，其特征在于：还包括合并泛化步骤，对泛化效果好的多条待上线规则合并泛化。

技术总结
本发明涉及计算机技术领域，公开了一种基于CART算法的多维度策略自动化、批量化挖掘方法，包括：数据准备步骤准备分析所需原始变量；多维度策略分析变量池构建步骤确定最终进行多维度策略分析和挖掘的变量池；决策树预构建步骤采用变量组合加均匀分布随机数的方式抽取组合变量并决定是否生成决策树；决策树构建步骤基于抽取的组合变量自动化生成决策树；决策树规则抽取和解析步骤对决策树的规则进行自动抽取并解析；规则筛选步骤从解析后的规则中筛选效果好的多维度规则；多维度规则泛化步骤对筛选的效果好的规则跨时间段进行泛化并筛选效果好的规则上线进行决策；本申请实现了多维度策略自动化、批量化挖掘，提高了多维度策略挖掘效率。

技术研发人员：冯占鹏
受保护的技术使用者：重庆富民银行股份有限公司
技术研发日：
技术公布日：2024/1/12

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：冯占鹏
技术所有人：重庆富民银行股份有限公司
我是此专利的发明人

上一篇：涡轮转子整盘叶片安装装置及其安装方法与流程
上一篇：清洗废水循环再利用及收集系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。