可输出解释性信息的风控建模方法、装置、设备及介质与流程

文档序号：31542719发布日期：2022-09-17 00:18阅读：57来源：国知局

1.本技术涉及人工智能的机器学习技术领域，尤其涉及一种可输出解释性信息的风控建模方法、装置、设备及介质。

背景技术：

2.目前，在很多领域（如科技金融领域）对合法合规取得的用户数据进行用户风险确定时，往往用得较多的方式是基于风控模型获取用户数据对应的风控等级。若基于风控模型对用户数据的风控等级进行分析时，一般只能得到风控模型输出的最终预测结果，并不输出该最终预测结果的可解释性结果，导致了当前的大数据风控模型预测结果的可解释性非常差。

技术实现要素：

3.本技术实施例提供了一种可输出解释性信息的风控建模方法、装置、计算机设备及存储介质，旨在解决现有技术中基于风控模型对用户数据的风控等级进行分析时只输出最终预测结果，并不输出该最终预测结果的可解释性结果，导致了当前的大数据风控模型预测结果的可解释性非常差的问题。
4.第一方面，本技术实施例提供了一种可输出解释性信息的风控建模方法，其包括：根据业务类型从多个样本特征中确定初始样本特征集；重复预设次数从所述初始样本特征集中随机获取样本特征组以得到预设次数个样本特征组所组成的样本特征组集合，其中，所述各样本特征组具有预设第一个数的样本特征；获取与所述样本特征组集合中各样本特征组分别匹配的目标已训练决策树模型，组成决策树集成模型；获取待预测用户样本，将所述待预测用户样本输入至所述决策树集成模型进行样本预测，得到所述决策树集成模型中各已训练决策树模型分别输出的预测结果及预测过程遍历节点轨迹；基于所述决策树集成模型中各已训练决策树模型分别输出的预测过程遍历节点轨迹，确定并生成所述决策树集成模型中所有样本特征分别对应的可解释性结果；输出所述决策树集成模型，所述决策树集成模型中各已训练决策树模型分别输出的预测结果，及所述决策树集成模型中所有样本特征分别对应的可解释性结果。
5.第二方面，本技术实施例提供了一种可输出解释性信息的风控建模装置，其包括：初始样本特征集确定单元，用于根据业务类型从多个样本特征中确定初始样本特征集；样本特征组集合获取单元，用于重复预设次数从所述初始样本特征集中随机获取样本特征组以得到预设次数个样本特征组所组成的样本特征组集合，其中，所述各样本特征组具有预设第一个数的样本特征；
决策树集成模型获取单元，用于获取与所述样本特征组集合中各样本特征组分别匹配的目标已训练决策树模型，组成决策树集成模型；预测结果输出单元，用于获取待预测用户样本，将所述待预测用户样本输入至所述决策树集成模型进行样本预测，得到所述决策树集成模型中各已训练决策树模型分别输出的预测结果及预测过程遍历节点轨迹；可解释性结果获取单元，用于基于所述决策树集成模型中各已训练决策树模型分别输出的预测过程遍历节点轨迹，确定并生成所述决策树集成模型中所有样本特征分别对应的可解释性结果；综合输出单元，用于输出所述决策树集成模型，所述决策树集成模型中各已训练决策树模型分别输出的预测结果，及所述决策树集成模型中所有样本特征分别对应的可解释性结果。
6.第三方面，本技术实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的可输出解释性信息的风控建模方法。
7.第四方面，本技术实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的可输出解释性信息的风控建模方法。
8.本技术实施例提供了一种可输出解释性信息的风控建模方法、装置、设备及介质，是先基于业务类型从多个样本特征选定样本特征并筛选而得到对应的已训练决策树模型组成决策树集成模型，然后将待预测用户样本输入至决策树集成模型得到各已训练决策树模型分别输出的预测结果及预测过程遍历节点轨迹，并基于预测过程遍历节点轨迹确定并生成决策树集成模型中所有样本特征分别对应的可解释性结果。实现了基于业务类型对应的初始样本特征集自动确定决策树集成模型，而且在具体应用决策树集成模型进行预测时不仅可以输出预测结果，还可以输出模型对应的可解释性结果，便于用户直观的获取预测结果及其相关的可解释性结果而获取更多模型相关信息。
附图说明
9.为了更清楚地说明本技术实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
10.图1为本技术实施例提供的可输出解释性信息的风控建模方法的应用场景示意图；图2为本技术实施例提供的可输出解释性信息的风控建模方法的流程示意图；图3a为本技术实施例提供的可输出解释性信息的风控建模方法中第1个已训练决策树模型的模型示意图；图3b为本技术实施例提供的可输出解释性信息的风控建模方法中第2个已训练决策树模型的模型示意图；图3c为本技术实施例提供的可输出解释性信息的风控建模方法中第3个已训练决策树模型的模型示意图；
图3d为本技术实施例提供的可输出解释性信息的风控建模方法中第4个已训练决策树模型的模型示意图；图4为本技术实施例提供的可输出解释性信息的风控建模装置的示意性框图；图5为本技术实施例提供的计算机设备的示意性框图。
具体实施方式
11.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
12.应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和
ꢀ“
包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
13.还应当理解，在此本技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本技术。如在本技术说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。
14.还应当进一步理解，在本技术说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。
15.请参阅图1和图2，图1为本技术实施例提供的可输出解释性信息的风控建模方法的应用场景示意图；图2为本技术实施例提供的可输出解释性信息的风控建模方法的流程示意图，该可输出解释性信息的风控建模方法应用于服务器中，该方法通过安装于服务器中的应用软件进行执行。
16.如图2所示，该方法包括步骤s101~s106。
17.s101、根据业务类型从多个样本特征中确定初始样本特征集。
18.在本实施例中，是以服务器为执行主体来描述技术方案。在服务器中不是任意筛选样本特征，而是需要先确定业务类型具体针对何种业务场景，然后再从服务器的预设数据库中（如用户样本特征库）已预先存储的多个样本特征筛选出符合当前业务场景的样本特征，从而最终组成初始样本特征集。可见，通过筛选出符合当前业务类型的样本特征，可以更有针对性的筛选目标样本特征以满足后续使用需求。而且，如图1所示，服务器除了可以存储预设数据库以用于基于业务类型确定初始样本特征集，还可以接收用户端上传的用户数据，以基于服务器中的预测模型（如后续步骤中得到的决策树集成模型）对用户数据进行可解释性的预测。
19.在一实施例中，步骤s101包括：若确定所述业务类型为用户金融风险等级确定场景，则从多个样本特征中筛选出与所述用户金融风险等级确定场景对应的样本特征，组成初始样本特征集。
20.在本实施例中，当需在服务器中构建适用于业务类型的风控模型时，如风控模型为决策树集成模型且对应业务类型为用户金融风险等级确定场景时，则需要先基于所述业务类型从服务器本地的预设数据库中获取对应的初始样本特征集。例如仍参照所述业务类型为用户金融风险等级确定场景，则可从所述预设数据中筛选出年龄、学历、社保购买情况
等样本特征，从而由上述筛选得到样本特征组成初始样本特征集。具体实施时，所述业务类型并不局限于用户金融风险等级确定场景，还可以是其他场景的业务类型。
21.更具体的，例如基于用户金融风险等级确定场景从多个样本特征中选定了样本特征a（简记为特征a）、样本特征b（简记为特征b）、样本特征c（简记为特征c）、样本特征d（简记为特征d）、样本特征e（简记为特征e）和样本特征f（简记为特征f），则由特征a-特征f组成初始样本特征集。可见，基于业务类型可以快速筛选出适用于当前业务场景的样本特征。
22.s102、重复预设次数从所述初始样本特征集中随机获取样本特征组以得到预设次数个样本特征组所组成的样本特征组集合。
23.其中，所述各样本特征组具有预设第一个数的样本特征。
24.在本实施例中，若预设第一个数为3个，且预设次数为4次，仍参考上述示例中初始样本特征集包括特征a-特征f，则每一次从初始样本特征集中任意获取3个特征以组成一组样本特征组。例如第一次从初始样本特征集中获取了特征a、特征b和特征c组成第1组样本特征组，第二次从初始样本特征集中获取了特征d、特征a和特征b组成第2组样本特征组，第三次从初始样本特征集中获取了特征e、特征b和特征f组成第3组样本特征组，第四次从初始样本特征集中获取了特征a、特征e和特征f组成第4组样本特征组。可见，多次从初始样本特征集中任意获取具有预设第一个数的样本特征，可以随机组合出多种样本特征组，而非指定特征组合出样本特征组，使得样本特征组更具客观随机性。
25.在一实施例中，步骤s102包括：获取所述预设次数并记为n1，且获取所述预设第一个数并记为n2；其中，n1和n2均为正整数；从所述初始样本特征集中第i次任意获取n2个样本特征，组成第i组样本特征组；其中，i的初始值为1，且i的取值范围是[1,n1]；将i自增1以更新i的取值；若确定i小于或等于n1，则返回执行从所述初始样本特征集中第i次任意获取n2个样本特征，组成第i组样本特征组的步骤；若确定i大于n1，则获取第1组样本特征组至第n1组样本特征组并组成样本特征组集合。
[0026]
在本实施例中，为了获取n1组样本特征组并组成样本特征组集合，可以采取轮询获取的方式来实现。即先第1次从初始样本特征集中获取n2个样本特征，组成第1组样本特征组，从而完成了第1轮轮询获取第1组样本特征组。第1次从初始样本特征集中获取n2个样本特征并不会从初始样本特征集中删除，而是继续保留在初始样本特征集中。完成了第1轮轮询获取第1组样本特征组之后，再第2从初始样本特征集中获取n2个样本特征，组成第2组样本特征组，从而完成了第2轮轮询获取第2组样本特征组。而且与第1次从初始样本特征集中获取n2个样本特征并不会从初始样本特征集中删除一样，第2次从初始样本特征集中获取n2个样本特征也不会从初始样本特征集中删除。依次类推，当经过n1轮轮询一共获取了n1组样本特征组，从而组成了样本特征组集合。可见，基于上述每一轮从初始样本特征集中取出n2个样本特征并且不删除的方式，可以快速确定样本特征组集合。
[0027]
在一实施例中，步骤s102之后还包括：将所述样本特征组集合中的相同样本特征组进行合并，以更新所述样本特征组集
合。
[0028]
在本实施例中，由于在获取所述样本特征组集合中各样本特征组时，均是从初始样本特征集中获取n2个样本特征，有可能会存在有两组或者多组样本特征组包括完全相同的样本特征（更具体是两组或者多组样本特征组是完全相同的样本特征组），这就说明存在了重复的样本特征组。对于所述样本特征组集合中重复的样本特征组，可以进行合并和去重处理，仅保留相同样本特征组中的其中一组样本特征组即可。可见，基于上述去重处理，可以确保所述样本特征组集合各组样本特征组之间的差异性。
[0029]
s103、获取与所述样本特征组集合中各样本特征组分别匹配的目标已训练决策树模型，组成决策树集成模型。
[0030]
在本实施例中，由于在服务器中还预先存储了多个已训练决策树模型，而每一个已训练决策树模型对应的决策树中所包括的样本特征是已知的，这样即可将所述样本特征组集合中各样本特征组包括的样本特征分别与各已训练决策树模型进行比对。若有样本特征组包括的样本特征与已训练决策树模型中包括的样本特征完全相同，则视为该样本特征组与该已训练决策树模型相对应。可见，基于上述比对方式，可以快速确定所述样本特征组集合中各样本特征组分别对应的已训练决策树模型。而且，将多个已训练决策树模型组合后形成决策树集成模型，相较于单个已训练决策树模型预测能力很弱且预测精度也比较低的特点，决策树集成模型能更准确的对用户数据进行结果预测。
[0031]
在一实施例中，步骤s103包括：获取已存储的多个已训练决策树模型，并获取各已训练决策树模型中包括的样本特征；获取所述样本特征组集合中第j组样本特征组；其中，j的初始取值为1，且j的取值范围是[1,n1]；获取所述第j组样本特征组中包括的样本特征；将所述第j组样本特征组中包括的样本特征与各已训练决策树模型中包括的样本特征进行比对；若确定第j组样本特征组中包括的所有样本特征与其中一个已训练决策树模型中包括的所有样本特征相同，则将对应的已训练决策树模型作为所述第j组样本特征组对应的第j目标已训练决策树模型；将j自增1以更新j的取值；若确定j小于或等于n1，则返回执行所述获取所述样本特征组集合中第j组样本特征组的步骤；若确定j大于n1，获取第1目标已训练决策树模型至第n1目标已训练决策树模型，组成决策树集成模型。
[0032]
在本实施例中，例如在服务器中存储的均是深度为3的已训练决策树模型，更具体如第1个已训练决策树模型中包括特征a、特征b和特征c，其形成的第1已训练决策树模型如图3a所示；第2个已训练决策树模型中包括特征d、特征a和特征b，其形成的第2已训练决策树模型如图3b所示；第3个已训练决策树模型中包括特征e、特征b和特征f，其形成的第3已训练决策树模型如图3c所示；第4个已训练决策树模型中包括中特征a、特征e和特征f，其形成的第4已训练决策树模型如图3d所示。当然，服务器中存储的已训练决策树模型并不局限
于上述列举的4个已训练决策树模型，还包括多个其他已训练决策树模型。
[0033]
继续参考上述示例中第1组样本特征组包括特征a、特征b和特征c，第2组样本特征组包括特征d、特征a和特征b，第3组样本特征组包括特征e、特征b和特征f，第4组样本特征组包括特征a、特征e和特征f；则第1组样本特征组中所有样本特征与第1个已训练决策树模型中的所有样本特征相同，第1个已训练决策树模型作为所述第1组样本特征组对应的第1目标已训练决策树模型；第2组样本特征组中所有样本特征与第2个已训练决策树模型中的所有样本特征相同，第2个已训练决策树模型作为所述第2组样本特征组对应的第2目标已训练决策树模型；第3组样本特征组中所有样本特征与第3个已训练决策树模型中的所有样本特征相同，第3个已训练决策树模型作为所述第3组样本特征组对应的第3目标已训练决策树模型；第4组样本特征组中所有样本特征与第4个已训练决策树模型中的所有样本特征相同，第4个已训练决策树模型作为所述第4组样本特征组对应的第4目标已训练决策树模型。依次类推，当获取了所述样本特征组集合中各样本特征组分别对应的已训练决策树模型，即可组成决策树集成模型。所得到的决策树集成模型可以理解为其中包括了多个已训练决策树模型，基于每一个已训练决策树模型对用户数据的待预测结果后，多个已训练决策树模型输出的预测结果可以进行一个综合分析处理，得到预测精度更高的综合预测结果。
[0034]
s104、获取待预测用户样本，将所述待预测用户样本输入至所述决策树集成模型进行样本预测，得到所述决策树集成模型中各已训练决策树模型分别输出的预测结果及预测过程遍历节点轨迹。
[0035]
在本实施例中，当得到了决策树集成模型，其可具体应用于对待预测用户样本进行样本预测。例如图3a中的第1个已训练决策树模型中，特征a对应用户年龄、特征b对应用户学历且特征c对应用户社保缴纳情况，且在第1个已训练决策树模型中当用户年龄小于22岁时则对应流向特征b，当用户年龄大于或等于22岁时则对应流向特征c；若由特征a流向特征b时进一步判定特征b对应用户是大学生（也即用户具有专科及专科以上学历）则对应得到输出结果score0，若由特征a流向特征b时进一步判定特征b对应用户不是大学生则对应得到输出结果score1；若由特征a流向特征c时进一步判定特征c对应用户是有社保则对应得到输出结果score2，若由特征a流向特征c时进一步判定特征c对应用户是无社保则对应得到输出结果score3。若所获取的待预测用户样本为用户年龄为30、用户学历为本科学历、用户社保缴纳情况为有社保、用户为男性、用户手机号码为xxxx1，则将所述待预测用户样本输入至决策树集成模型中第1个已训练决策树模型中进行预测，得到的第1个预测结果为score2，且第1个预测过程遍历节点轨迹为特征a
→
特征c
→
score2。
[0036]
同样的，将所述待预测用户样本输入至所述决策树集成模型中其他已训练决策树模型中进行预测，可以得到分别与其他各已训练决策树模型一一对应数据的预测结果及预测过程遍历节点轨迹。例如，将所述待预测用户样本输入至如图3b中第2个已训练决策树模型中进行预测，得到的第2个预测结果为score5，且第2个预测过程遍历节点轨迹为特征d
→
特征a
→
score5；将所述待预测用户样本输入至如图3c中第3个已训练决策树模型中进行预测，得到的第3个预测结果为score8，且第3个预测过程遍历节点轨迹为特征e
→
特征b
→
score8；将所述待预测用户样本输入至如图3d中第4个已训练决策树模型中进行预测，得到的第4个预测结果为score12，且第4个预测过程遍历节点轨迹为特征a
→
特征e
→
score12。
[0037]
s105、基于所述决策树集成模型中各已训练决策树模型分别输出的预测过程遍历节点轨迹，确定并生成所述决策树集成模型中所有样本特征分别对应的可解释性结果。
[0038]
在本实施例中，当已知了所述决策树集成模型中各已训练决策树模型分别输出的预测过程遍历节点轨迹后，可以统计各预测过程遍历节点轨迹中包括的样本特征以及每一样本特征对应的影响力分数，从而可以由每一样本特征对应的影响力分数组成与所述决策树集成模型对应的可解释性结果。可见，基于预测过程遍历节点轨迹，可以快速确定对预测结果产生影响的样本特征及各样本特征对应的影响力分数。
[0039]
在一实施例中，步骤s105包括：获取与所述决策树集成模型中第k目标已训练决策树模型对应的第k个预测过程遍历节点轨迹；其中，所述k的初始取值为1，其k的取值范围是[1,n1]；获取第k个预测过程遍历节点轨迹中包括的所有样本特征；基于第k目标已训练决策树模型对应的预测结果对第k个预测过程遍历节点轨迹中包括的所有样本特征分别进行影响分数赋值，得到与第k目标已训练决策树模型对应的第k组可解释性子结果；将k自增1以更新k的取值；若确定k小于或等于n1，则返回所述获取与所述决策树集成模型中第k目标已训练决策树模型对应的第k个预测过程遍历节点轨迹的步骤；若确定k大于n1，获取第1组可解释性子结果至第n1组可解释性子结果，将第1组可解释性子结果至第n1组可解释性子结果中各相同样本特征对应的取值求和，得到所述决策树集成模型中各样本特征分别对应的可解释性结果。
[0040]
在本实施例中，例如以所述决策树集成模型中第1目标已训练决策树模型对应的第1个预测过程遍历节点轨迹为例，第1个预测过程遍历节点轨迹仍参考上述示例为特征a
→
特征c
→
score2且第1个预测结果为score2，则可知第1个预测过程遍历节点轨迹中包括的所有样本特征为特征a和特征c，可以将特征a对应以score2赋值且将特征c对应以score2赋值，这样即得到了第1组可解释性子结果。依此类推，参照第1组可解释性子结果的获取过程，分别获取第2组可解释性子结果至第n1组可解释性子结果。例如n1=4，则第2组可解释性子结果是特征a对应以score5赋值且将特征d对应以score5赋值；第3组可解释性子结果是特征e对应以score8赋值且将特征b对应以score8赋值；第4组可解释性子结果是特征a对应以score12赋值且将特征e对应以score12赋值。
[0041]
在得到了第1组可解释性子结果至第n1组可解释性子结果后，将第1组可解释性子结果至第n1组可解释性子结果中各相同样本特征对应的取值求和，得到所述决策树集成模型中各样本特征分别对应的可解释性结果。例如，第1组可解释性子结果是特征a对应以score2赋值且将特征c对应以score2赋值，第2组可解释性子结果是特征a对应以score5赋值且将特征d对应以score5赋值；第3组可解释性子结果是特征e对应以score8赋值且将特征b对应以score8赋值；第4组可解释性子结果是特征a对应以score12赋值且将特征e对应以score12赋值。上述4组可解释性子结果中，特征a对应有score2、score5和score12这3个取值，将上述3个取值求和之后，得到特征a对应的可解释性结果为score2+score5+score12；特征b对应有score8，将上述1个取值求和之后，得到特征b对应的可解释性结果为score8；特征c对应有score2和score8这2个取值，将上述2个取值求和之后，得到特征c对应
的可解释性结果为score2+score8；特征d对应有score5，将上述1个取值求和之后，得到特征d对应的可解释性结果为score5；特征e对应有score12，将上述1个取值求和之后，得到特征e对应的可解释性结果为score12；特征f并不存在于第1个预测过程遍历节点轨迹至第n1个预测过程遍历节点轨迹中，故特征f对应的可解释性结果为特征f是无关样本特征。可以，基于上述方式确定了各样本特征量化后的可解释性结果，然后基于各本特征量化后的可解释性结果可以直观解释各样本特征的影响分数。
[0042]
在一实施例中，所述若确定k大于n1，获取第1组可解释性子结果至第n1组可解释性子结果，将第1组可解释性子结果至第n1组可解释性子结果中各相同样本特征对应的取值求和，得到所述决策树集成模型中各样本特征分别对应的可解释性结果之后，还包括：将所述决策树集成模型中各样本特征分别对应的可解释性结果基于取值进行降序排序，得到样本特征重要性排序结果。
[0043]
在本实施例中，当得到了所述决策树集成模型中各样本特征分别对应的可解释性结果后，即确定了各样本特征分别对应的影响分数，如特征a对应的影响分数为score2+score5+score12，特征b对应的影响分数为score8，特征c对应的影响分数为score2+score8，特征d对应的影响分数果为score5，特征e对应的影响分数为score12，将上述5个特征分别对应的影响分数果基于取值进行降序排序，得到样本特征重要性排序结果。其中，样本特征重要性排序结果中排序越靠前的样本特征则在所述决策树集成模型中越重要，样本特征重要性排序结果中排序越靠后的样本特征则在所述决策树集成模型中越不重要。
[0044]
s106、输出所述决策树集成模型，所述决策树集成模型中各已训练决策树模型分别输出的预测结果，及所述决策树集成模型中所有样本特征分别对应的可解释性结果。
[0045]
在本实施例中，当获取了所述决策树集成模型中所有样本特征分别对应的可解释性结果，可以与之前已获取的所述决策树集成模型及所述决策树集成模型中各已训练决策树模型分别输出的预测结果共同输出，从而组成一个具有可解释性结果的决策树集成模型。可见，基于上述输出方式，可以输出一个包括多维度信息的综合输出结果，以便于直观的获取更多关于决策树集成模型的模型信息。
[0046]
该方法实现了基于业务类型对应的初始样本特征集自动确定决策树集成模型，而且在具体应用决策树集成模型进行预测时不仅可以输出预测结果，还可以输出模型对应的可解释性结果，便于用户直观的获取预测结果及其相关的可解释性结果而获取更多模型相关信息。
[0047]
本技术实施例还提供一种可输出解释性信息的风控建模装置，该可输出解释性信息的风控建模装置用于执行前述可输出解释性信息的风控建模方法的任一实施例。具体地，请参阅图4，图4是本技术实施例提供的可输出解释性信息的风控建模装置100的示意性框图。
[0048]
其中，如图4所示，可输出解释性信息的风控建模装置100包括初始样本特征集确定单元101、样本特征组集合获取单元102、决策树集成模型获取单元103、预测结果输出单元104、可解释性结果获取单元105及综合输出单元106。
[0049]
初始样本特征集确定单元101，用于根据业务类型从多个样本特征中确定初始样本特征集。
[0050]
在本实施例中，是以服务器为执行主体来描述技术方案。由于在服务器中不是任
意筛选样本特征，而是需要先确定业务类型具体针对何种业务场景，然后再从服务器的预设数据库中（如用户样本特征库）已预先存储的多个样本特征筛选出符合当前业务场景的样本特征，从而最终组成初始样本特征集。可见，通过筛选出符合当前业务类型的样本特征，可以更有针对性的筛选目标样本特征以满足后续使用需求。而且，如图1所示，服务器除了可以存储预设数据库以用于基于业务类型确定初始样本特征集，还可以接收用户端上传的用户数据，以基于服务器中的预测模型（如后续步骤中得到的决策树集成模型）对用户数据进行可解释性的预测。
[0051]
在一实施例中，初始样本特征集确定单元101具体用于：若确定所述业务类型为用户金融风险等级确定场景，则从多个样本特征中筛选出与所述用户金融风险等级确定场景对应的样本特征，组成初始样本特征集。
[0052]
在本实施例中，当需在服务器中构建适用于业务类型的风控模型时，如风控模型为决策树集成模型且对应业务类型为用户金融风险等级确定场景时，则需要先基于所述业务类型从服务器本地的预设数据库中获取对应的初始样本特征集。例如仍参照所述业务类型为用户金融风险等级确定场景，则可从所述预设数据中筛选出年龄、学历、社保购买情况等样本特征，从而由上述筛选得到样本特征组成初始样本特征集。具体实施时，所述业务类型并不局限于用户金融风险等级确定场景，还可以是其他场景的业务类型。
[0053]
更具体的，例如基于用户金融风险等级确定场景从多个样本特征中选定了样本特征a（简记为特征a）、样本特征b（简记为特征b）、样本特征c（简记为特征c）、样本特征d（简记为特征d）、样本特征e（简记为特征e）和样本特征f（简记为特征f），则由特征a-特征f组成初始样本特征集。可见，基于业务类型可以快速筛选出适用于当前业务场景的样本特征。
[0054]
样本特征组集合获取单元102，用于重复预设次数从所述初始样本特征集中随机获取样本特征组以得到预设次数个样本特征组所组成的样本特征组集合，其中，所述各样本特征组具有预设第一个数的样本特征。
[0055]
在本实施例中，若预设第一个数为3个，且预设次数为4次，仍参考上述示例中初始样本特征集包括特征a-特征f，则每一次从初始样本特征集中任意获取3个特征以组成一组样本特征组。例如第一次从初始样本特征集中获取了特征a、特征b和特征c组成第1组样本特征组，第二次从初始样本特征集中获取了特征d、特征a和特征b组成第2组样本特征组，第三次从初始样本特征集中获取了特征e、特征b和特征f组成第3组样本特征组，第四次从初始样本特征集中获取了特征a、特征e和特征f组成第4组样本特征组。可见，多次从初始样本特征集中任意获取具有预设第一个数的样本特征，可以随机组合出多种样本特征组，而非指定特征组合出样本特征组，使得样本特征组更具客观随机性。
[0056]
在一实施例中，样本特征组集合获取单元102具体用于：获取所述预设次数并记为n1，且获取所述预设第一个数并记为n2；其中，n1和n2均为正整数；从所述初始样本特征集中第i次任意获取n2个样本特征，组成第i组样本特征组；其中，i的初始值为1，且i的取值范围是[1,n1]；将i自增1以更新i的取值；若确定i小于或等于n1，则返回执行从所述初始样本特征集中第i次任意获取n2个样本特征，组成第i组样本特征组的步骤；
若确定i大于n1，则获取第1组样本特征组至第n1组样本特征组并组成样本特征组集合。
[0057]
在本实施例中，为了获取n1组样本特征组并组成样本特征组集合，可以采取轮询获取的方式来实现。即先第1次从初始样本特征集中获取n2个样本特征，组成第1组样本特征组，从而完成了第1轮轮询获取第1组样本特征组。第1次从初始样本特征集中获取n2个样本特征并不会从初始样本特征集中删除，而是继续保留在初始样本特征集中。完成了第1轮轮询获取第1组样本特征组之后，再第2从初始样本特征集中获取n2个样本特征，组成第2组样本特征组，从而完成了第2轮轮询获取第2组样本特征组。而且与第1次从初始样本特征集中获取n2个样本特征并不会从初始样本特征集中删除一样，第2次从初始样本特征集中获取n2个样本特征也不会从初始样本特征集中删除。依次类推，当经过n1轮轮询一共获取了n1组样本特征组，从而组成了样本特征组集合。可见，基于上述每一轮从初始样本特征集中取出n2个样本特征并且不删除的方式，可以快速确定样本特征组集合。
[0058]
在一实施例中，可输出解释性信息的风控建模装置100还包括：样本特征组去重单元，用于将所述样本特征组集合中的相同样本特征组进行合并，以更新所述样本特征组集合。
[0059]
在本实施例中，由于在获取所述样本特征组集合中各样本特征组时，均是从初始样本特征集中获取n2个样本特征，有可能会存在有两组或者多组样本特征组包括完全相同的样本特征（更具体是两组或者多组样本特征组是完全相同的样本特征组），这就说明存在了重复的样本特征组。对于所述样本特征组集合中重复的样本特征组，可以进行合并和去重处理，仅保留相同样本特征组中的其中一组样本特征组即可。可见，基于上述去重处理，可以确保所述样本特征组集合各组样本特征组之间的差异性。
[0060]
决策树集成模型获取单元103，用于获取与所述样本特征组集合中各样本特征组分别匹配的目标已训练决策树模型，组成决策树集成模型。
[0061]
在本实施例中，由于在服务器中还预先存储了多个已训练决策树模型，而每一个已训练决策树模型对应的决策树中所包括的样本特征是已知的，这样即可将所述样本特征组集合中各样本特征组包括的样本特征分别与各已训练决策树模型进行比对。若有样本特征组包括的样本特征与已训练决策树模型中包括的样本特征完全相同，则视为该样本特征组与该已训练决策树模型相对应。可见，基于上述比对方式，可以快速确定所述样本特征组集合中各样本特征组分别对应的已训练决策树模型。而且，将多个已训练决策树模型组合后形成决策树集成模型，相较于单个已训练决策树模型预测能力很弱且预测精度也比较低的特点，决策树集成模型能更准确的对用户数据进行结果预测。
[0062]
在一实施例中，决策树集成模型获取单元103具体用于：获取已存储的多个已训练决策树模型，并获取各已训练决策树模型中包括的样本特征；获取所述样本特征组集合中第j组样本特征组；其中，j的初始取值为1，且j的取值范围是[1,n1]；获取所述第j组样本特征组中包括的样本特征；将所述第j组样本特征组中包括的样本特征与各已训练决策树模型中包括的样本特征进行比对；
若确定第j组样本特征组中包括的所有样本特征与其中一个已训练决策树模型中包括的所有样本特征相同，则将对应的已训练决策树模型作为所述第j组样本特征组对应的第j目标已训练决策树模型；将j自增1以更新j的取值；若确定j小于或等于n1，则返回执行所述获取所述样本特征组集合中第j组样本特征组的步骤；若确定j大于n1，获取第1目标已训练决策树模型至第n1目标已训练决策树模型，组成决策树集成模型。
[0063]
在本实施例中，例如在服务器中存储的均是深度为3的已训练决策树模型，更具体如第1个已训练决策树模型中包括特征a、特征b和特征c，其形成的第1已训练决策树模型如图3a所示；第2个已训练决策树模型中包括特征d、特征a和特征b，其形成的第2已训练决策树模型如图3b所示；第3个已训练决策树模型中包括特征e、特征b和特征f，其形成的第3已训练决策树模型如图3c所示；第4个已训练决策树模型中包括中特征a、特征e和特征f，其形成的第4已训练决策树模型如图3d所示。当然，服务器中存储的已训练决策树模型并不局限于上述列举的4个已训练决策树模型，还包括多个其他已训练决策树模型。
[0064]
继续参考上述示例中第1组样本特征组包括特征a、特征b和特征c，第2组样本特征组包括特征d、特征a和特征b，第3组样本特征组包括特征e、特征b和特征f，第4组样本特征组包括特征a、特征e和特征f；则第1组样本特征组中所有样本特征与第1个已训练决策树模型中的所有样本特征相同，第1个已训练决策树模型作为所述第1组样本特征组对应的第1目标已训练决策树模型；第2组样本特征组中所有样本特征与第2个已训练决策树模型中的所有样本特征相同，第2个已训练决策树模型作为所述第2组样本特征组对应的第2目标已训练决策树模型；第3组样本特征组中所有样本特征与第3个已训练决策树模型中的所有样本特征相同，第3个已训练决策树模型作为所述第3组样本特征组对应的第3目标已训练决策树模型；第4组样本特征组中所有样本特征与第4个已训练决策树模型中的所有样本特征相同，第4个已训练决策树模型作为所述第4组样本特征组对应的第4目标已训练决策树模型。依次类推，当获取了所述样本特征组集合中各样本特征组分别对应的已训练决策树模型，即可组成决策树集成模型。所得到的决策树集成模型可以理解为其中包括了多个已训练决策树模型，基于每一个已训练决策树模型对用户数据的待预测结果后，多个已训练决策树模型输出的预测结果可以进行一个综合分析处理，得到预测精度更高的综合预测结果。
[0065]
预测结果输出单元104，用于获取待预测用户样本，将所述待预测用户样本输入至所述决策树集成模型进行样本预测，得到所述决策树集成模型中各已训练决策树模型分别输出的预测结果及预测过程遍历节点轨迹。
[0066]
在本实施例中，当得到了决策树集成模型，其可具体应用于对待预测用户样本进行样本预测。例如图3a中的第1个已训练决策树模型中，特征a对应用户年龄、特征b对应用户学历且特征c对应用户社保缴纳情况，且在第1个已训练决策树模型中当用户年龄小于22岁时则对应流向特征b，当用户年龄大于或等于22岁时则对应流向特征c；若由特征a流向特征b时进一步判定特征b对应用户是大学生（也即用户具有专科及专科以上学历）则对应得到输出结果score0，若由特征a流向特征b时进一步判定特征b对应用户不是大学生则对应
得到输出结果score1；若由特征a流向特征c时进一步判定特征c对应用户是有社保则对应得到输出结果score2，若由特征a流向特征c时进一步判定特征c对应用户是无社保则对应得到输出结果score3。若所获取的待预测用户样本为用户年龄为30、用户学历为本科学历、用户社保缴纳情况为有社保、用户为男性、用户手机号码为xxxx1，则将所述待预测用户样本输入至决策树集成模型中第1个已训练决策树模型中进行预测，得到的第1个预测结果为score2，且第1个预测过程遍历节点轨迹为特征a
→
特征c
→
score2。
[0067]
同样的，将所述待预测用户样本输入至所述决策树集成模型中其他已训练决策树模型中进行预测，可以得到分别与其他各已训练决策树模型一一对应数据的预测结果及预测过程遍历节点轨迹。例如，将所述待预测用户样本输入至如图3b中第2个已训练决策树模型中进行预测，得到的第2个预测结果为score5，且第2个预测过程遍历节点轨迹为特征d
→
特征a
→
score5；将所述待预测用户样本输入至如图3c中第3个已训练决策树模型中进行预测，得到的第3个预测结果为score8，且第3个预测过程遍历节点轨迹为特征e
→
特征b
→
score8；将所述待预测用户样本输入至如图3d中第4个已训练决策树模型中进行预测，得到的第4个预测结果为score12，且第4个预测过程遍历节点轨迹为特征a
→
特征e
→
score12。
[0068]
可解释性结果获取单元105，用于基于所述决策树集成模型中各已训练决策树模型分别输出的预测过程遍历节点轨迹，确定并生成所述决策树集成模型中所有样本特征分别对应的可解释性结果。
[0069]
在本实施例中，当已知了所述决策树集成模型中各已训练决策树模型分别输出的预测过程遍历节点轨迹后，可以统计各预测过程遍历节点轨迹中包括的样本特征以及每一样本特征对应的影响力分数，从而可以由每一样本特征对应的影响力分数组成与所述决策树集成模型对应的可解释性结果。可见，基于预测过程遍历节点轨迹，可以快速确定对预测结果产生影响的样本特征及各样本特征对应的影响力分数。
[0070]
在一实施例中，可解释性结果获取单元105具体用于：获取与所述决策树集成模型中第k目标已训练决策树模型对应的第k个预测过程遍历节点轨迹；其中，所述k的初始取值为1，其k的取值范围是[1,n1]；获取第k个预测过程遍历节点轨迹中包括的所有样本特征；基于第k目标已训练决策树模型对应的预测结果对第k个预测过程遍历节点轨迹中包括的所有样本特征分别进行影响分数赋值，得到与第k目标已训练决策树模型对应的第k组可解释性子结果；将k自增1以更新k的取值；若确定k小于或等于n1，则返回所述获取与所述决策树集成模型中第k目标已训练决策树模型对应的第k个预测过程遍历节点轨迹的步骤；若确定k大于n1，获取第1组可解释性子结果至第n1组可解释性子结果，将第1组可解释性子结果至第n1组可解释性子结果中各相同样本特征对应的取值求和，得到所述决策树集成模型中各样本特征分别对应的可解释性结果。
[0071]
在本实施例中，例如以所述决策树集成模型中第1目标已训练决策树模型对应的第1个预测过程遍历节点轨迹为例，第1个预测过程遍历节点轨迹仍参考上述示例为特征a
→
特征c
→
score2且第1个预测结果为score2，则可知第1个预测过程遍历节点轨迹中包括的所有样本特征为特征a和特征c，可以将特征a对应以score2赋值且将特征c对应以score2
赋值，这样即得到了第1组可解释性子结果。依此类推，参照第1组可解释性子结果的获取过程，分别获取第2组可解释性子结果至第n1组可解释性子结果。例如n1=4，则第2组可解释性子结果是特征a对应以score5赋值且将特征d对应以score5赋值；第3组可解释性子结果是特征e对应以score8赋值且将特征b对应以score8赋值；第4组可解释性子结果是特征a对应以score12赋值且将特征e对应以score12赋值。
[0072]
在得到了第1组可解释性子结果至第n1组可解释性子结果后，将第1组可解释性子结果至第n1组可解释性子结果中各相同样本特征对应的取值求和，得到所述决策树集成模型中各样本特征分别对应的可解释性结果。例如，第1组可解释性子结果是特征a对应以score2赋值且将特征c对应以score2赋值，第2组可解释性子结果是特征a对应以score5赋值且将特征d对应以score5赋值；第3组可解释性子结果是特征e对应以score8赋值且将特征b对应以score8赋值；第4组可解释性子结果是特征a对应以score12赋值且将特征e对应以score12赋值。上述4组可解释性子结果中，特征a对应有score2、score5和score12这3个取值，将上述3个取值求和之后，得到特征a对应的可解释性结果为score2+score5+score12；特征b对应有score8，将上述1个取值求和之后，得到特征b对应的可解释性结果为score8；特征c对应有score2和score8这2个取值，将上述2个取值求和之后，得到特征c对应的可解释性结果为score2+score8；特征d对应有score5，将上述1个取值求和之后，得到特征d对应的可解释性结果为score5；特征e对应有score12，将上述1个取值求和之后，得到特征e对应的可解释性结果为score12；特征f并不存在于第1个预测过程遍历节点轨迹至第n1个预测过程遍历节点轨迹中，故特征f对应的可解释性结果为特征f是无关样本特征。可以，基于上述方式确定了各样本特征量化后的可解释性结果，然后基于各本特征量化后的可解释性结果可以直观解释各样本特征的影响分数。
[0073]
在一实施例中，所述若确定k大于n1，获取第1组可解释性子结果至第n1组可解释性子结果，将第1组可解释性子结果至第n1组可解释性子结果中各相同样本特征对应的取值求和，得到所述决策树集成模型中各样本特征分别对应的可解释性结果之后，还包括：将所述决策树集成模型中各样本特征分别对应的可解释性结果基于取值进行降序排序，得到样本特征重要性排序结果。
[0074]
在本实施例中，当得到了所述决策树集成模型中各样本特征分别对应的可解释性结果后，即确定了各样本特征分别对应的影响分数，如特征a对应的影响分数为score2+score5+score12，特征b对应的影响分数为score8，特征c对应的影响分数为score2+score8，特征d对应的影响分数果为score5，特征e对应的影响分数为score12，将上述5个特征分别对应的影响分数果基于取值进行降序排序，得到样本特征重要性排序结果。其中，样本特征重要性排序结果中排序越靠前的样本特征则在所述决策树集成模型中越重要，样本特征重要性排序结果中排序越靠后的样本特征则在所述决策树集成模型中越不重要。
[0075]
综合输出单元106，用于输出所述决策树集成模型，所述决策树集成模型中各已训练决策树模型分别输出的预测结果，及所述决策树集成模型中所有样本特征分别对应的可解释性结果。
[0076]
在本实施例中，当获取了所述决策树集成模型中所有样本特征分别对应的可解释性结果，可以与之前已获取的所述决策树集成模型及所述决策树集成模型中各已训练决策树模型分别输出的预测结果共同输出，从而组成一个具有可解释性结果的决策树集成模
型。可见，基于上述输出方式，可以输出一个包括多维度信息的综合输出结果，以便于直观的获取更多关于决策树集成模型的模型信息。
[0077]
该装置实现了基于业务类型对应的初始样本特征集自动确定决策树集成模型，而且在具体应用决策树集成模型进行预测时不仅可以输出预测结果，还可以输出模型对应的可解释性结果，便于用户直观的获取预测结果及其相关的可解释性结果而获取更多模型相关信息。
[0078]
上述可输出解释性信息的风控建模装置可以实现为计算机程序的形式，该计算机程序可以在如图5所示的计算机设备上运行。
[0079]
请参阅图5，图5是本技术实施例提供的计算机设备的示意性框图。该计算机设备500是服务器，也可以是服务器集群。服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
[0080]
参阅图5，该计算机设备500包括通过装置总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括存储介质503和内存储器504。
[0081]
该存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行可输出解释性信息的风控建模方法。
[0082]
该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。
[0083]
该内存储器504为存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行可输出解释性信息的风控建模方法。
[0084]
该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图5中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
[0085]
其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现本技术实施例公开的可输出解释性信息的风控建模方法。
[0086]
本领域技术人员可以理解，图5中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图5所示实施例一致，在此不再赘述。
[0087]
应当理解，在本技术实施例中，处理器502可以是中央处理单元 (central processing unit，cpu)，该处理器502还可以是其他通用处理器、数字信号处理器 (digital signal processor，dsp)、专用集成电路 (application specific integrated circuit，asic)、现成可编程门阵列 (field-programmable gate array，fpga) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0088]
在本技术的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质，也可以为易失性的计算机可读存储介质。该计算机可
读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本技术实施例公开的可输出解释性信息的风控建模方法。
[0089]
所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
[0090]
在本技术所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。
[0091]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本技术实施例方案的目的。
[0092]
另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0093]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备 ( 可以是个人计算机，后台服务器，或者网络设备等 ) 执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u 盘、移动硬盘、只读存储器 (rom，read-only memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0094]
以上所述，仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张军涛
技术所有人：深圳前海环融联易信息科技服务有限公司
我是此专利的发明人

上一篇：一种用于地铁通信机箱的数据接口装置及使用方法与流程
上一篇：半导体功率模块的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。