一种随机森林模型的可视化方法、装置及存储介质与流程

文档序号:22547744发布日期:2020-10-17 02:19阅读:211来源:国知局
一种随机森林模型的可视化方法、装置及存储介质与流程

本发明涉及机器学习技术领域,特别涉及一种随机森林模型的可视化方法、装置及存储介质。



背景技术:

随机森林算法是利用集成学习的思想将多棵决策树集成的一种算法,通过生成若干弱分类器——决策树,并采用随机选择变量与样本的袋装算法,将弱分类器的投票结果作为最终的预测结果进行输出,从而能得到更合理的分类决策边界,减少整体错误,实现更好的分类效果,现广泛应用于金融风控等领域,具有较强的预测稳定性、抗过拟合性。

在实现本发明过程中,发明人发现现有技术中至少存在如下问题:

由于随机森林算法是将弱分类器进行集成袋装,在一定程度上类似于黑箱算法,从而导致在结果输出时的可解释性大大降低,目前暂无相关的技术方案可以将随机森林的分类结果通过可视化手段进行展现,这进一步导致用户(例如,风控人员)难以理解模型,并且在多变量情况下,难以识别哪些变量在决策中起到了何种作用,也无法使随机森林模型的决策过程向相关受众进行展现。



技术实现要素:

为了解决相关技术中存在的问题,本发明实施例提供了一种随机森林模型的可视化方法、装置及存储介质,能够将随机森林模型的决策过程进行可视化展现,提升模型的可解释性。

本发明实施例提供的具体技术方案如下:

第一方面,提供了一种随机森林模型的可视化方法,所述方法包括:

从随机森林模型的每个决策树对应的训练样本集中筛选出满足预设条件的目标训练样本,以形成用于构建分类树的目标训练样本集;

获取每一所述决策树中的每个特征变量的变量重要度,并对所有所述特征变量按变量重要度进行降序排序;

根据所述目标训练样本集和降序排序后的所有所述特征变量,从所述分类树的根节点开始,以基尼系数作为分裂规则依次确定出所述分类树中的各个节点对应的最优特征变量以及最优分割值,以构建得到所述分类树;

生成所述分类树对应的树形可视化图并输出。

进一步地,所述从随机森林模型的每个决策树对应的训练样本集中筛选出满足预设条件的目标训练样本,以形成用于构建分类树的目标训练样本集,包括:

在所述随机森林模型的训练过程中,记录每个所述决策树对对应的每一个训练样本的样本类别进行分类投票的投票结果;

根据所述记录的投票结果,确定每个所述训练样本的票数最高的样本类别;

针对每个所述训练样本,判断所述训练样本的票数最高的样本类别所对应的得票率是否超过第一阈值,若是,则将所述训练样本确定为所述目标训练样本;

形成包含多个所述目标训练样本的所述目标训练样本集。

进一步地,所述获取每一所述决策树中的每个特征变量的变量重要度,包括:

按照各个所述决策树中的基尼系数,在各个所述决策树的袋外样本上计算各个所述决策树中的每个特征变量的变量重要度。

进一步地,所述根节点对应的样本集为所述目标训练样本集,所述根据所述目标训练样本集和降序排序后的所有所述特征变量,从所述分类树的根节点开始,以基尼系数作为分裂规则依次确定出所述分类树中的各个节点对应的最优特征变量以及最优分割值,以构建得到所述分类树,包括:

s1,以所述分类树的根节点作为当前节点,并以降序排序在首位的所述特征变量作为当前特征变量;

s2,判断所述当前特征变量是否具有用以划分所述当前节点的当前特征值,以使得所述当前节点对应的基尼系数的减少量不低于第二阈值,若是,则执行步骤s3,否则,则执行步骤s4;

s3,以所述当前特征变量以及所述当前特征值作为所述当前节点对应的最优特征变量以及最优分割值,对所述当前节点对应的样本集进行划分生成所述当前节点对应的下一级节点,并执行步骤s5;

s4,以所述当前特征变量之后的下一个特征变量作为所述当前特征变量,返回执行步骤s2;

s5,以所述当前特征变量之后的下一个特征变量作为所述当前特征变量,并以所述当前节点对应的下一级节点作为所述当前节点,递归执行步骤s2,直至到达叶子节点。

进一步地,所述方法还包括:

根据所述树形可视化图的结果反馈信息,生成针对所述随机森林模型中的模型参数和/或变量参数进行调整的提示信息。

第二方面,提供了一种随机森林模型的可视化装置,所述装置包括:

筛选模块,用于从随机森林模型的每个决策树对应的训练样本集中筛选出满足预设条件的目标训练样本,以形成用于构建分类树的目标训练样本集;

获取模块,用于获取每一所述决策树中的每个特征变量的变量重要度,并对所有所述特征变量按变量重要度进行降序排序;

构建模块,用于根据所述目标训练样本集和降序排序后的所有所述特征变量,从所述分类树的根节点开始,以基尼系数作为分裂规则依次确定出所述分类树中的各个节点对应的最优特征变量以及最优分割值,以构建得到所述分类树;

可视化模块,用于生成所述分类树对应的树形可视化图并输出。

进一步地,所述筛选模块具体用于:

在所述随机森林模型的训练过程中,记录每个所述决策树对对应的每一个训练样本的样本类别进行分类投票的投票结果;

根据所述记录的投票结果,确定每个所述训练样本的票数最高的样本类别;

针对每个所述训练样本,判断所述训练样本的票数最高的样本类别所对应的得票率是否超过第一阈值,若是,则将所述训练样本确定为所述目标训练样本;

形成包含多个所述目标训练样本的所述目标训练样本集。

进一步地,所述获取模块具体用于:

按照各个所述决策树中的基尼系数,在各个所述决策树的袋外样本上计算各个所述决策树中的每个特征变量的变量重要度。

进一步地,所述根节点对应的样本集为所述目标训练样本集,所述构建模块具体用于执行如下步骤:

s1,以所述分类树的根节点作为当前节点,并以降序排序在首位的所述特征变量作为当前特征变量;

s2,判断所述当前特征变量是否具有用以划分所述当前节点的当前特征值,以使得所述当前节点对应的基尼系数的减少量不低于第二阈值,若是,则执行步骤s3,否则,则执行步骤s4;

s3,以所述当前特征变量以及所述当前特征值作为所述当前节点对应的最优特征变量以及最优分割值,对所述当前节点对应的样本集进行划分生成所述当前节点对应的下一级节点,并执行步骤s5;

s4,以所述当前特征变量之后的下一个特征变量作为所述当前特征变量,返回执行步骤s2;

s5,以所述当前特征变量之后的下一个特征变量作为所述当前特征变量,并以所述当前节点对应的下一级节点作为所述当前节点,递归执行步骤s2,直至到达叶子节点。

进一步地,所述装置还包括:

提示模块,用于根据所述树形可视化图的结果反馈信息,生成针对所述随机森林模型中的模型参数和/或变量参数进行调整的提示信息。

第三方面,提供了一种随机森林模型的可视化装置,所述装置包括:

一个或者多个处理器;

存储器;

所述存储在所述存储器中的程序,当被所述一个或者多个处理器执行时,所述程序使所述处理器执行如上述第一方面任意一项所述的随机森林模型的可视化方法的步骤。

第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有程序,当所述程序被处理器执行时,使得所述处理器执行如上述第一方面任意一项所述的随机森林模型的可视化方法的步骤。

本发明实施例提供一种随机森林模型的可视化方法、装置及计算机可读存储介质,通过从随机森林模型的每个决策树对应的训练样本集中筛选出满足预设条件的目标训练样本,以形成用于构建分类树的目标训练样本集;获取每一决策树中的每个特征变量的变量重要度,并对所有特征变量按变量重要度进行降序排序;如此,按变量重要度进行降序排序的特征变量可以很好的代替整体数据集的信息,并实现了特征变量的降维;根据目标训练样本集和降序排序后的所有特征变量,从分类树的根节点开始,以基尼系数作为分裂规则依次确定出分类树中的各个节点对应的最优特征变量以及最优分割值,以构建得到分类树;最终生成分类树对应的树形可视化图并输出,由此实现将随机森林的分类过程在信息损失较小的情况下最大程度地对模型决策过程进行视觉化的展现,提升了模型的可解释性,从而帮助开发者以及模型的其他受众更好地理解模型的决策情况,也便于帮助模型的使用者理解模型的运行逻辑,从而更有针对性地使用模型;此外,模型开发者可进一步根据树形可视化图的反馈,对随机森林模型中的模型参数以及变量参数进行调整优化,从而输出更好的模型效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的随机森林模型的可视化方法的流程示意图;

图2为图1中所示步骤101的流程示意图;

图3为图1中所示步骤103的流程示意图;

图4a~4c为本发明实施例提供的随机森林模型的可视化过程示意图;

图5为本发明实施例提供的随机森林模型的可视化装置的结构示意图;

图6为本发明实施例提供的计算机设备的内部结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。

此外,在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。

图1为本发明实施例提供的随机森林模型的可视化方法的流程示意图。本发明实施例以该随机森林模型的可视化方法被配置于随机森林模型的可视化装置中来举例说明,该装置可以应用于任一计算机设备中,以使该计算机设备可以执行随机森林模型的可视化方法。其中,计算机设备可以配置为各种终端,例如服务器,服务器可以采用一个独立的服务或服务器集群来实现。

参照图1所示,本发明实施例提供一种随机森林模型的可视化方法,该方法可以包括如下步骤:

101,从随机森林模型的每个决策树对应的训练样本集中筛选出满足预设条件的目标训练样本,以形成用于构建分类树的目标训练样本集。

其中,随机森林模型是一个包含多个弱分类器的强分类器,可以通过自助法(bootstrap)重采样技术,从原始训练样本集n中有放回地重复随机抽取n个样本生成训练样本集来训练一个决策树,然后按以上步骤生成k个决策树组成随机森林,随机森林的每一棵决策树之间是没有关联的,在得到随机森林模型之后,待测数据的分类结果是使用多棵决策树的投票结果来确定。例如,利用样本用户的多个维度的特征数据来训练生成随机森林模型,来预测用户行为。

上述的弱分类器可以是利用cart算法或c4.5、id3等决策树算法生成的决策树分类器,可以根据训练样本的特征变量对输出结果进行学习并预测分类。

上述的训练样本集为用于训练决策树的样本集,包含对应多个维度的特征变量的多个样本。

具体地,可以根据实际需求选定参数,基于每个决策树对对应的每一个训练样本的样本类别进行分类投票的投票结果,按照选定的参数从每个决策树对应的训练样本集中分别筛选出目标训练样本,生成目标训练样本集,以用以参与构建可视化的分类树,这里,待构建的分类树可以称为“类决策树”。

102,获取每一决策树中的每个特征变量的变量重要度,并对所有特征变量按变量重要度进行降序排序。

其中,可以利用id3算法中的信息增益、c4.5算法中的信息增益率或者cart算法中的基尼系数计算每一决策树中的每个特征变量的变量重要度。

具体地,可以按照各个决策树中的基尼系数,在各个决策树的袋外样本上计算各个决策树中的每个特征变量的变量重要度。这里,某一棵决策树的袋外样本是指该棵决策树抽取样本之后剩余的样本,即在原始训练样本集合中该棵决策树没有抽取到的样本。

示例性地,可以在建立随机森林模型的过程中,通过排列算法计算变量重要度,即对任一个弱分类器包含变量x1,x2,x3,…,xj的决策树ti,针对任一变量xj,求得其袋外样本的预测结果

上述预测结果对应的基尼系数为的计算方法为:

其中,pk为第k个类别的概率。

将xj所对应的数据随机排列,并用将数据放入同一决策树ti,预测得到结果则其对应的基尼系数为

则xj的变量重要度为:

在得到所有的特征变量的变量重要度之后,可以对所有特征变量按照变量重要度从大到小的顺序进行排序,并进行存储。

需要说明的是,本发明实施例对步骤101与步骤102的执行先后顺序不作具体限定。

103,根据目标训练样本集和降序排序后的所有特征变量,从分类树的根节点开始,以基尼系数作为分裂规则依次确定出分类树中的各个节点对应的最优特征变量以及最优分割值,以构建得到分类树。

其中,分类树是表示基于特征对目标训练样本集进行分类的树形结构。

具体地,根据筛选出的目标训练样本集和所有特征变量的降序排序,从分类树的根节点开始,递归地选择划分各个节点的最优特征变量以及最优分割值,并根据各个节点的最优特征变量以及最优分割值对应地将各个节点进行分割,使得划分得到的各个子集有一个最好的分类的过程,进而构建得到分类树。

104,生成分类树对应的树形可视化图并输出。

具体地,可视化装置将分类树对应的树形可视化图展示在终端界面上,以使模型使用者(例如,风控人员)可以在终端界面上输入针对树形可视化图的反馈信息,进而可视化装置可以根据树形可视化图结果反馈信息,生成相应的调整提示信息以提示模型开发人员对模型进行调整。

本发明实施例提供了一种随机森林模型的可视化方法,通过从随机森林模型的每个决策树对应的训练样本集中筛选出满足预设条件的目标训练样本,以形成用于构建分类树的目标训练样本集;获取每一决策树中的每个特征变量的变量重要度,并对所有特征变量按变量重要度进行降序排序;如此,按变量重要度进行降序排序的特征变量可以很好的代替整体数据集的信息,并实现了特征变量的降维;根据目标训练样本集和降序排序后的所有特征变量,从分类树的根节点开始,以基尼系数作为分裂规则依次确定出分类树中的各个节点对应的最优特征变量以及最优分割值,以构建得到分类树;最终生成分类树对应的树形可视化图并输出,由此实现将随机森林的分类过程在信息损失较小的情况下最大程度地对模型决策过程进行视觉化的展现,提升了模型的可解释性,从而帮助开发者以及模型的其他受众更好地理解模型的决策情况,也便于帮助模型的使用者理解模型的运行逻辑,从而更有针对性地使用模型;此外,模型开发者可进一步根据树形可视化图的反馈,对随机森林模型中的模型参数以及变量参数进行调整优化,从而输出更好的模型效果。

在一个实施例中,如图2所示,上述步骤101的实现过程可以包括步骤:

1011,在随机森林模型的训练过程中,记录每个决策树对对应的每一个训练样本的样本类别进行分类投票的投票结果。

具体地,可以以字典形式记录每个决策树对对应的每一个训练样本的样本类别进行分类投票的投票结果。

1012,根据记录的投票结果,确定每个训练样本的票数最高的样本类别。

具体地,针对参与训练随机森林模型的任一训练样本,对随机森林模型中的各个决策树对该训练样本的投票结果进行统计,确定出该训练样本的票数最高的样本类别。

1013,针对每个训练样本,判断该训练样本的票数最高的样本类别所对应的得票率是否超过第一阈值,若是,则将该训练样本确定为目标训练样本。

其中,可以根据实际需要设定第一阈值p,p∈(0,1),第一阈值p为决策树投票占比进行筛选的阈值,即仅保留所有样本中对某一分类结果得票概率大于p的样本集,该p值决定最终的树形可视化图的光滑程度,p值越高,则树形可视化图将越简洁明了,相应丢失的模型信息也就越多;相应地,p值越低,则树形可视化图将越复杂,可解释性降低,相应丢失的模型信息也就越少。

示例性地,假设随机森林模型中有7棵决策树:决策树a~g,样本s是决策树a~e的训练样本,并且该样本s是决策树f、g的袋外样本,若决策树a~e对训练样本s的投票结果分别是:p类、p类、p类、p类、n类,那么可以确定训练样本s的票数最高的样本类别是p类,进而计算出训练样本s属于p类对应的得票率为0.8,若第一阈值p设定为0.75,则训练样本属于p类对应的得票率大于第一阈值,那么可以将训练样本s确定为目标训练样本。

1014,形成包含多个目标训练样本的目标训练样本集。

本实施例中,通过从各个决策树对应的训练样本集中筛选出票数最高的样本类别所对应的得票率超过第一阈值的目标训练样本,形成目标训练样本集,有利于提高样本的纯度,同时也有利于降低后续构建的分类树的分类误差率。

在一个实施例中,如图3所示,上述步骤103的实现过程可以包括:

s1,以分类树的根节点作为当前节点,并以降序排序在首位的特征变量作为当前特征变量,其中,根节点对应的样本集为目标训练样本集。

s2,判断当前特征变量是否具有用以划分当前节点的当前特征值,以使得当前节点对应的基尼系数的减少量不低于第二阈值,若是,则执行步骤s3,否则,则执行步骤s4。

s3,以当前特征变量以及当前特征值作为当前节点对应的最优特征变量以及最优分割值,对当前节点对应的样本集进行划分生成当前节点对应的下一级节点,并执行步骤s5。

s4,以当前特征变量之后的下一个特征变量作为当前特征变量,返回执行步骤s2。

s5,以当前特征变量之后的下一个特征变量作为当前特征变量,并以当前节点对应的下一级节点作为当前节点,递归执行步骤s2,直至到达叶子节点。

本实施例中,使用基尼系数作为分裂规则,即比较当前节点分裂前的gini系数和分裂后的gini系数减少了多少,当减少量超过第二阈值s用时,则选取该分裂规则对当前节点进行分割。其中,第二阈值s用于作为控制分类树精度的参数,s∈(0,1),s值决定最终的树形可视化图的简洁程度,s值可以根据实际需要进行设定,s值越大则最终的树形可视化图越简洁,反之则越复杂。

其中,当前节点对应的基尼系数的减少量可以通过如下方式进行计算得到:

设有变量x1,x2,x3,…,xj,…,xj,则当变量xj,在构造分类树节点d1j,d2j,…,dij,…,dij时,都有分割点a1j,a2j,…,aij,…,aij符合如下的目标函数:

其中,pmk代表第m个区域的训练集中第k类所占比例,aij为分割点。

则每一次分割都存在新的分割点aij,对于一个被aij分割的数据集节点dij,其分割后的则存在d1ij,d2ij两个数据子集,被分割后的节点dij存在gini系数:

则关于xj的gini系数减值为:

δgini(xj,dij,aij)=gini(xj,dij)-gini(xj,dij)′;

示例性地,假设x1,x2,x3,…,xj是按变量重要度降序排序的,即x1有最大的重要性,xj有最小的变量重要性。则从特征变量x1开始,对x1单一变量生成分类树t,针对分类树t的各末端节点,若存在某分割值a可以对末端节点k进行分割,使得δgini(x1,k,a)>s,则记录该末端节点k的分割阈值a,并以特征变量x1以及分割阈值a作为该末端节点k对应的最优特征变量以及最优分割值,对该末端节点k对应的样本集进行划分生成该末端节点k对应的下一级节点;若特征变量x1不存在可以对末端节点k进行分割以使得δgini(x1,k,a)>s的分割值a,则从第一个末端节点开始对从特征变量x2执行上述节点分割判断的过程,以此类推,进而构建得到分类树。

为便于本领域技术人员更清楚本发明技术方案,下面对前述方法中各个步骤结合附图4a~4c进行示例性说明。

如图4a所示,以数据集iris为例,该数据集有3个类virginica、versicolor和setosa,每类50个样本;每个样本是一个4维的特征变量:萼片长、萼片宽、花瓣长、花瓣宽。以iris数据集的species作为预测目标,建立随机森林模型。以gini系数作为标准,对随机森林模型中各个决策树中的每个特征变量(petal.length、petal.width、sepal.length、sepal.width)计算变量重要度并进行排序,其中图4b示出了上述4个变量分别对应的以gini系数作为标准的变量重要度。在筛选目标训练样本时,将样本筛选阈值p设为0.9,并从原始数据的150个样本中筛选出135个符合最高票输出结果得票比率超过p=0.9的样本,形成目标训练样本集。对筛选出的目标训练样本集和降序排序后的所有特征变量,从分类树的根节点开始,基于基尼系数的减少量不低于第二阈值(这里的第二阈值可以设置为0.5)的分裂规则,依次确定出分类树中的各个节点对应的最优特征变量以及最优分割值,构建得到分类树,生成该分类树对应的树形可视化图并输出,分类树对应的树形可视化图可以参照图4c所示。

在一个实施例中,方法还包括:

根据树形可视化图的结果反馈信息,生成针对随机森林模型中的模型参数和/或变量参数进行调整的提示信息。

其中,树形可视化图的结果反馈信息可以是模型使用者(例如,风控人员)在终端界面上输入的针对树形可视化图的反馈信息。

本实施例中,可视化装置可以根据树形可视化图结果反馈信息,生成相应的调整提示信息以提示模型开发人员对模型进行调整。

上述的模型调整可以包括如下至少之一:

1.如果树形可视化图展现出过拟合特征:即树形图层级较多;分叉较多;变量参与循环次数较多等,应调整随机森林模型参数:使终节点的包含的样本数量减少或调整决策树最大深度,将决策树最大深度降低;或调整决策树节点生成阈值,使纯度阈值更低;

2.如果树形可视化图展现决策流有违业务原理:如果在树形可视化图中出现明显有违基本业务逻辑的决策结构,则考虑重新检验变量相关数据的准确性;

3.某些变量在模型中没有起到决策作用:如果树形可视化图中某些变量的决策参与度较低,则考虑在随机森林模型中增加该变量所涉及的权重,增加其权重比例;

4.某些变量在模型中过多地起到决策作用:如果树形可视化图中某些变量的决策参与度过高,则考虑在随机森林模型中降低该变量所涉及的权重,降低其权重比例。

本实施例中,模型开发者可以根据对树形可视化图结果的反馈信息,对随机森林模型尤其是涉及到变量的具体情况进行优化,从而输出更好的模型效果。

在一个实施例中,提供了一种随机森林模型的可视化装置,如图5所示,该随机森林模型的可视化装置可以包括:

筛选模块51,用于从随机森林模型的每个决策树对应的训练样本集中筛选出满足预设条件的目标训练样本,以形成用于构建分类树的目标训练样本集;

获取模块52,用于获取每一决策树中的每个特征变量的变量重要度,并对所有特征变量按变量重要度进行降序排序;

构建模块53,用于根据目标训练样本集和降序排序后的所有特征变量,从分类树的根节点开始,以基尼系数作为分裂规则依次确定出分类树中的各个节点对应的最优特征变量以及最优分割值,以构建得到分类树;

可视化模块54,用于生成分类树对应的树形可视化图并输出。

在一个实施例中,筛选模块51具体用于:

在随机森林模型的训练过程中,记录每个决策树对对应的每一个训练样本的样本类别进行分类投票的投票结果;

根据记录的投票结果,确定每个训练样本的票数最高的样本类别;

针对每个训练样本,判断训练样本的票数最高的样本类别所对应的得票率是否超过第一阈值,若是,则将训练样本确定为目标训练样本;

形成包含多个目标训练样本的目标训练样本集。

在一个实施例中,获取模块52具体用于:

按照各个决策树中的基尼系数,在各个决策树的袋外样本上计算各个决策树中的每个特征变量的变量重要度。

在一个实施例中,根节点对应的样本集为目标训练样本集,构建模块53具体用于执行如下步骤:

s1,以分类树的根节点作为当前节点,并以降序排序在首位的特征变量作为当前特征变量;

s2,判断当前特征变量是否具有用以划分当前节点的当前特征值,以使得当前节点对应的基尼系数的减少量不低于第二阈值,若是,则执行步骤s3,否则,则执行步骤s4;

s3,以当前特征变量以及当前特征值作为当前节点对应的最优特征变量以及最优分割值,对当前节点对应的样本集进行划分生成当前节点对应的下一级节点,并执行步骤s5;

s4,以当前特征变量之后的下一个特征变量作为当前特征变量,返回执行步骤s2;

s5,以当前特征变量之后的下一个特征变量作为当前特征变量,并以当前节点对应的下一级节点作为当前节点,递归执行步骤s2,直至到达叶子节点。

在一个实施例中,装置还包括:

提示模块,用于根据树形可视化图的结果反馈信息,生成针对随机森林模型中的模型参数和/或变量参数进行调整的提示信息。

本发明实施例提供一种随机森林模型的可视化装置,与本发明实施例所提供的随机森林模型的可视化方法属于同一发明构思,可执行本发明实施例所提供的随机森林模型的可视化方法,具备执行随机森林模型的可视化方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例提供的随机森林模型的可视化方法,此处不再加以赘述。

图6为本发明实施例提供的计算机设备的内部结构图。该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种随机森林模型的可视化方法。

本领域技术人员可以理解,图6中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:

从随机森林模型的每个决策树对应的训练样本集中筛选出满足预设条件的目标训练样本,以形成用于构建分类树的目标训练样本集;

获取每一决策树中的每个特征变量的变量重要度,并对所有特征变量按变量重要度进行降序排序;

根据目标训练样本集和降序排序后的所有特征变量,从分类树的根节点开始,以基尼系数作为分裂规则依次确定出分类树中的各个节点对应的最优特征变量以及最优分割值,以构建得到分类树;

生成分类树对应的树形可视化图并输出。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

从随机森林模型的每个决策树对应的训练样本集中筛选出满足预设条件的目标训练样本,以形成用于构建分类树的目标训练样本集;

获取每一决策树中的每个特征变量的变量重要度,并对所有特征变量按变量重要度进行降序排序;

根据目标训练样本集和降序排序后的所有特征变量,从分类树的根节点开始,以基尼系数作为分裂规则依次确定出分类树中的各个节点对应的最优特征变量以及最优分割值,以构建得到分类树;

生成分类树对应的树形可视化图并输出。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1