一种特征选择方法、装置及设备与流程

文档序号:16506163发布日期:2019-01-05 09:02阅读:165来源:国知局
一种特征选择方法、装置及设备与流程

本申请涉及大数据领域,尤其涉及一种特征选择方法、装置及设备。



背景技术:

特征选择(featureselection,fs),也称特征子集选择(featuresubsetselection,fss),或属性选择(attributeselection,as),是指从多个特征(feature)中选出部分具有代表性的特征,以降低特征的维度,减少后续进行机器学习的计算量。

目前通常采用决策树来进行特征选择,即首先将待选择特征及其对应的数据输入到决策树模型中,生成一个包括多层节点的决策树,其中的节点为待选择特征,然后根据待选择特征在决策树中所处的层级来对待选择特征进行筛选。

这种通过决策树来进行特征选择的方式依赖于待选择特征在决策树中所处位置确定的准确性,如果待选择特征在决策树中的位置确定不准确,则会影响到特征选择的准确性。此外,特征选择的准确性还依赖于决策树的平衡性,如果决策树不平衡,也会造成特征选择的准确性较低。



技术实现要素:

为了解决现有技术中通过一个决策树来进行特征选择准确性低的问题,本申请实施例提供了一种特征选择方法、装置及设备,用于提高特征选择的准确性。

本申请提供的一种特征选择方法,包括:

获取多个待选择特征和所述多个待选择特征分别对应的数据,并将所述多个待选择特征以及所述多个待选择特征对应的数据输入随机森林模型进行训练,得到多个不同的决策树,其中,所述多个待选择特征中的各个待选择特征在所述决策树中具有对应的权重;

根据所述多个待选择特征中每个待选择特征分别在所述多个决策树中对应的权重,得到所述每个待选择特征的重要指数,所述重要指数反映所述待选择特征的重要程度;

基于所述每个待选择特征的重要指数,对所述多个待选择特征进行筛选。

可选的,在同一个所述决策树中,位于同一层的待选择特征的权重相同。

可选的,在同一个所述决策树中,相邻层之间的待选择特征的权重比值为常数。

可选的,所述方法还包括:

根据所述待选择特征在所述决策树中对应的目标变量实例数量,以及所述待选择特征在所述决策树中所处层级对应的权重,确定所述待选择特征在所述决策树中对应的权重。

可选的,所述根据所述待选择特征在所述决策树中对应的目标变量实例数量,以及所述待选择特征在所述决策树中所处层级对应的权重,确定所述待选择特征在所述决策树中对应的权重包括:

根据所述待选择特征在所述决策树中对应的目标变量实例数量、所述待选择特征在所述决策树中所处层级对应的权重,以及所述待选择特征的决定系数,确定所述待选择特征在所述决策树中对应的权重,所述决定系数反映所述待选择特征的分类精准度。

可选的,所述待选择特征在所述决策树中所处层级对应的权重根据所述决策树中第一层级的权重得到。

可选的,所述第一层级的权重根据所述决策树输出结果的正确率得到。

可选的,根据如下公式确定待选择特征在所述决策树中对应的权重:

其中,所述wij是指所述决策树中第i层第j个待选择特征对应的权重,所述coff是指第i层第j个待选择特征在所述决策树中对应的决定系数,所述numij为第i层第j个待选择特征在所述决策树中对应的目标变量实例数量,所述sum为所述决策树对应的目标变量实例总数量,所述w1为所述决策树中第一层级的权重,所述c为常数。

可选的,所述待选择特征的决定系数至少包括以下其中一种:

基尼系数和信息增益。

本申请实施例提供的一种特征选择装置,包括:

决策树获取单元,用于获取多个待选择特征和所述多个待选择特征分别对应的数据,并将所述多个待选择特征以及所述多个待选择特征对应的数据输入随机森林模型进行训练,得到多个不同的决策树,其中,所述多个待选择特征中的各个待选择特征在所述决策树中具有对应的权重;

重要指数获取单元,用于根据所述多个待选择特征中每个待选择特征分别在所述多个决策树中对应的权重,得到所述每个待选择特征的重要指数,所述重要指数反映所述待选择特征的重要程度;

筛选单元,用于基于所述每个待选择特征的重要指数,对所述多个待选择特征进行筛选。

可选的,在同一个所述决策树中,位于同一层的待选择特征的权重相同。

可选的,在同一个所述决策树中,相邻层之间的待选择特征的权重比值为常数。

可选的,所述装置还包括:

权重确定单元,用于根据所述待选择特征在所述决策树中对应的目标变量实例数量,以及所述待选择特征在所述决策树中所处层级对应的权重,确定所述待选择特征在所述决策树中对应的权重。

可选的,所述权重确定单元具体用于:

根据所述待选择特征在所述决策树中对应的目标变量实例数量、所述待选择特征在所述决策树中所处层级对应的权重,以及所述待选择特征的决定系数,确定所述待选择特征在所述决策树中对应的权重,所述决定系数反映所述待选择特征的分类精准度。

可选的,所述待选择特征在所述决策树中所处层级对应的权重根据所述决策树中第一层级的权重得到。

可选的,所述第一层级的权重根据所述决策树输出结果的正确率得到。

可选的,根据如下公式确定待选择特征在所述决策树中对应的权重:

其中,所述wij是指所述决策树中第i层第j个待选择特征对应的权重,所述coff是指第i层第j个待选择特征在所述决策树中对应的决定系数,所述numij为第i层第j个待选择特征在所述决策树中对应的目标变量实例数量,所述sum为所述决策树对应的目标变量实例总数量,所述w1为所述决策树中第一层级的权重,所述c为常数。

可选的,所述待选择特征的决定系数至少包括以下其中一种:

基尼系数和信息增益。

本申请实施例还提供了一种特征选择设备,所述设备包括:处理器和存储器;

所述存储器,用于存储指令;

所述处理器,用于执行所述存储器中的指令,执行本申请实施例提供的一种特征选择方法。

本申请实施例还提供了一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行本申请实施例提供的一种特征选择方法。

本申请实施例提供的一种特征选择方法、装置及设备,通过先获取多个待选择特征和这多个待选择特征分别对应的数据,将获取的多个待选择特征以及多个待选择特征对应的数据输入随机森林模型进行训练,得到多个不同的决策树。本领域技术人员应当知晓,决策树中不同层级的待选择特征对应的权重不同。而本申请实施例中,由于通过随机森林模型的训练,可以得到多个决策树,这意味着待选择特征在各个决策树中所处的层级不都相同,对应的权重也不相同。

再根据待选择特征在各个决策树中的权重,综合得到体现待选择特征重要程度的重要指数,从而根据重要指数来对待选择特征进行筛选。也就是说,相比较于现有技术而言,本申请实施例不依赖于待选择特征在单个决策树中所处的层级,弱化了单个决策树中待选择特征位置的确定对待选择特征的筛选的影响,提高了待选择特征的筛选准确性。同时,由于各个决策树的发展状态不同,平衡性也不同,根据多个决策树中待选择特征的权重对待选择特征进行筛选,可以降低由于单个决策树的不平衡性对待选择特征的筛选的影响,进而可以提高待选择特征的筛选准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的一种特征选择方法的流程图;

图2为本申请实施例提供的一种决策树示意图;

图3为本申请实施例提供的另一种决策树示意图;

图4为本申请实施例提供的一种特征选择装置的结构框图;

图5为本申请实施例提供的一种特征选择设备的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

特征选择指从多个特征中选出部分具有代表性的特征,以降低特征的维度。现有技术中,通常用决策树来进行特征选择,决策树是一种监督型学习算法,可以用于分类和回归,也可以通过学习用于对待选择特征进行筛选。通过决策树进行特征选择可以具体为,将待选择特征及其对应的数据输入到决策树模型中,生成一个包括多层节点的决策树,其中的节点为待选择特征,根据待选择特征在决策树中所处的层级来对待选择特征进行筛选。一般情况下,决策树中可以包括一个根节点和多个子节点,位于根节点的待选择特征最为重要,距离根节点越近的节点对应的待选择特征越重要,因此,对待选择特征进行筛选的结果,通常筛选除决策树中的根节点和与根节点距离较近的子节点。

然而这种通过一个决策树来进行特征选择的方式往往依赖于待选择特征在决策树中所处位置的确定准确性,例如根节点对应的待选择特征的确定准确性和子节点对应的待选择特征的位置确定准确性。具体来说,将不同的待选择特征作为根节点,可以导致不同的特征选择结果,若根节点对应的待选择特征选取有所偏差,则特征选择的结果也会不够准确,同样,在根节点相同的情况下,子节点对应的待选择特征的位置也会影响特征选择的准确性,例如子节点的待选择特征的位置确定不准确,则特征选择的结果也会不够准确。此外,由于对待选择特征的筛选是根据待选择特征在决策树中所处的层级来进行的,若决策树在训练过程中发展不平衡,则发展较为茂盛的分支将显得更重要,对待选择特征的筛选会偏向发展茂盛的分支,同样会降低特征选择的准确性。

为了解决上述技术问题,本申请实施例提供的一种特征选择方法、装置及设备,通过先获取多个待选择特征和这多个待选择特征分别对应的数据,将获取的多个待选择特征以及多个待选择特征对应的数据输入随机森林模型进行训练,得到多个不同的决策树。本领域技术人员应当知晓,决策树中不同层级的待选择特征对应的权重不同。而本申请实施例中,由于通过随机森林模型的训练,可以得到多个决策树,这意味着待选择特征在各个决策树中所处的层级不都相同,对应的权重也不相同。再根据待选择特征在各个决策树中的权重,综合得到体现待选择特征重要程度的重要指数,从而根据重要指数来对待选择特征进行筛选。也就是说,相比较于现有技术而言,本申请实施例不依赖于待选择特征在单个决策树中所处的层级,弱化了单个决策树中待选择特征位置的确定对待选择特征的筛选的影响,提高了待选择特征的筛选准确性。同时,由于各个决策树的发展状态不同,平衡性也不同,根据多个决策树中待选择特征的权重对待选择特征进行筛选,可以降低由于单个决策树的不平衡性对待选择特征的筛选的影响,进而可以提高待选择特征的筛选准确性。

参考图1所示为本申请实施例提供的一种特征选择方法的流程图,该方法可以包括以下步骤。

s101,获取多个待选择特征和多个待选择特征分别对应的数据,并将多个待选择特征以及多个待选择特征对应的数据输入随机森林模型进行训练,得到多个不同的决策树。

待选择特征可以包括较重要的特征和不重要的特征,对待选择特征进行筛选,通常是指将待选择特征中较重要的特征筛选出来。

获取多个待选择特征和多个待选择特征分别对应的数据,在具体实现时,可以通过接收用户输入的待选择特征和待选择特征对应的数据,也可以从预先存储的数据集中自动获取。

获取的待选择特征例如可以是天气状况、是否有风和湿度状态等,相应的,天气状况对应的数据可以是“晴”、“多云”和“下雨”等,是否有风对应的数据可以是“有风”和“无风”等,湿度状态对应的数据可以是具体的湿度值,也可以是湿度值是否超过预设值的判断结果。

将多个待选择特征以及多个待选择特征对应的数据输入随机森林模型进行训练,得到多个不同的决策树。具体的,可以先确定目标变量,根据目标变量对多个待选择特征以及多个待选择特征对应的数据进行训练,得到多个决策树。其中,目标变量是待选择特征中可以作为最终结果的特征,除目标变量外的其他待选择特征的数据变化会影响目标变量的数据,例如是否打篮球的待选择特征可以作为目标变量,目标变量对应的数据可以为“是”或“否”,而天气状态、是否有风和湿度状态的数据变化,均可以影响是否打篮球的数据。

根据目标变量对多个待选择特征以及多个待选择特征对应的数据进行训练,得到多个决策树,具体的,可以先确定根节点,再根据根节点确定根节点下的子节点。

举例来说,可以将是否打篮球的待选择特征作为目标变量,根据目标变量对多个待选择特征以及多个待选择特征对应的数据进行训练,得到多个决策树。参考图2所示,为训练得到的其中一个决策树,该决策树中包括的实例总数为14个,其中,目标变量的数据为“是”,即打篮球,实例为9个,目标变量的数据为“否”,即不打篮球,实例为4个。在该决策树中,天气状况作为根节点,天气状况对应的数据可以为“晴”、“多云”和“下雨”。

在天气的数据为“晴”时,天气的子节点可以为湿度,湿度的数据可以为“大于70%”和“小于或等于70%”,对应于湿度数据为“大于70%”,打篮球的实例为2个,不打篮球的实例为0个;对应于湿度的数据为“小于或等于70%”,打篮球的实例为0个,不打篮球的实例为3个。在天气的数据为“多云”时,打篮球的实例为4个,不打篮球的实例为0个。在天气的数据为“下雨”时,天气的子节点可以为是否有风,是否有风的数据可以为“是”或“否”,对应是否有风的数据为“是”,打篮球的实例为0个,不打篮球的实例为2个;对应是否有风的数据为“否”,打篮球的实例为3个,不打篮球的实例为0个。

在本申请实施例中,训练得到的每个决策树中的待选择特征是与该决策树相关的待选择特征,可以包括全部的待选择特征,也可以只包括部分待选择特征。多个决策树中的根节点可以都相同,也可以都不相同,还可以不都相同,其中,具有相同根节点的决策树中的子节点不同。

得到的决策树中的各个待选择特征均具有对应的权重,其中,决策树中的待选择特征的权重可以表示待选择特征在该决策树中的重要程度,一般来说,待选择特征的权重与其在决策树中所处层级相关,例如,决策树中的根节点的最为重要,其对应的权重值也最大。

待选择特征的权重的确定方式可参见后述说明。

s102,根据多个待选择特征中每个待选择特征分别在多个决策树中对应的权重,得到每个待选择特征的重要指数。

由于待选择特征可以存在于多个决策树中,每个待选择特征在多个决策树中均可以有对应的权重,可以根据待选择特征在多个决策树中对应的权重,确定待选择特征的重要指数,其中,待选择特征的重要指数可以反映待选择特征的重要程度。这是因为待选择特征在决策树中的权重可以表示待选择特征在该决策树中的重要程度,因此,可根据待选择特征在各个决策树中的重要程度,确定待选择特征本身的重要程度。

根据该待选择特征在多个决策树中对应的权重,确定该待选择特征的重要指数,可以具体为,将待选择特征在多个决策树中的权重相加,得到待选择特征的重要指数。

参考图3所示,为本申请实施例提供的两个决策树示意图。其中,图3(a)所示为第一决策树的示意图,第一决策树以待选择特征a为根节点,待选择特征a的子节点为待选择特征b和c,待选择特征b的子节点为待选择特征d和e,待选择特征c的子节点为待选择特征f和g;图3(b)所示为第二决策树的示意图,第二决策树以待选择特征b为根节点,待选择特征b的子节点为待选择特征e和f,待选择特征e的子节点为待选择特征a和c,待选择特征f的子节点为待选择特征d和g。

作为一种实例,可以将位于第一层的待选择特征的权重设置为1,将位于第二层的待选择特征的权重设置为将位于第三层的待选择特征的权重设置为1/2,由此可知,在第一决策树中,待选择特征a的权重为1,待选择特征b和c的权重为待选择特征d、e、f和g的权重为1/2;在第二决策树中,待选择特征b的权重为1,待选择特征e和f的权重为待选择特征a、c、d和g的权重为1/2。

将待选择特征a在第一决策树中的权重和第二决策树中的权重相加,可以得到待选择特征a的重要指数为3/2,同理,可以得到待选择特征b的重要指数为待选择特征c、e和f的重要指数为待选择特征d和g的重要指数为1。

根据待选择特征在多个决策树中对应的权重,确定该待选择特征的重要指数,还可以有其他方式,例如可以将待选择特征在多个决策树中对应的权重加权相加等,在此不做举例说明。

s103,基于每个待选择特征的重要指数,对多个待选择特征进行筛选。

由于待选择特征的重要指数可以反映待选择特征的重要程度,因此,可以基于每个待选择特征的重要指数,对多个待选择特征进行筛选,具体的,可以根据每个待选择特征的重要指数,将多个待选择特征中较为重要的待选择特征筛选出来。具体实施时,可以将多个待选择特征按照待选择特征的重要指数进行排序,将前n个待选择特征作为重要的待选择特征筛选出来,也可以将重要指数大于或等于预设值的待选择特征作为重要的待选择特征筛选出来。

以上述第一决策树和第二决策树为例,可以按照待选择特征的重要指数进行排序,重要指数从高往低,可以为b、a、c(e和f)、d(g),此时,可以选择前两个待选择特征作为重要的待选择特征筛选出来,即将待选择特征b和a作为重要的待选择特征筛选出来,也可以将重要指数大于或等于的待选择特征作为重要的待选择特征筛选,即将待选择特征b和a为重要的待选择特征筛选出来。

本申请实施例提供的一种特征选择方法中,通过先获取多个待选择特征和这多个待选择特征分别对应的数据,将获取的多个待选择特征以及多个待选择特征对应的数据输入随机森林模型进行训练,得到多个不同的决策树。本领域技术人员应当知晓,决策树中不同层级的待选择特征对应的权重不同。而本申请实施例中,由于通过随机森林模型的训练,可以得到多个决策树,这意味着待选择特征在各个决策树中所处的层级不都相同,对应的权重也不相同。

再根据待选择特征在各个决策树中的权重,综合得到体现待选择特征重要程度的重要指数,从而根据重要指数来对待选择特征进行筛选。也就是说,相比较于现有技术而言,本申请实施例不依赖于待选择特征在单个决策树中所处的层级,弱化了单个决策树中待选择特征位置的确定对待选择特征的筛选的影响,提高了待选择特征的筛选准确性。同时,由于各个决策树的发展状态不同,平衡性也不同,根据多个决策树中待选择特征的权重对待选择特征进行筛选,可以降低由于单个决策树的不平衡性对待选择特征的筛选的影响,进而可以提高待选择特征的筛选准确性。

为了更清楚的介绍本申请实施例提供的一种特征选择方法,下面对如何确定决策树中待选择特征的权重进行具体说明。

作为一种可能的实施方式,可以预先设置决策树中不同位置的待选择特征的权重,即待选择特征的权重与其在决策树中所处位置具有对应关系。其中,同一个决策树中,位于同一层的待选择特征的权重可以相同,也可以不同。举例来说,可以预先设定:位于第一层的待选择特征的权重均为a,位于第二层的待选择特征的权重均为b,或者可以预先设定:位于第一层的待选择特征的权重均为a,位于第二层的第一个待选择特征的权重为b1,位于第二层的第二个待选择特征的权重为b2。

作为另一种可能的实施方式,可以根据位于第一层的待选择特征的权重,以及预先设定的决策树中位于不同层级的待选择特征的权重的关联关系,确定待选择特征的权重。

该实施方式中,位于第一层级的待选择特征的权重可以是预先设定的,例如预先设定根节点的待选择特征的权重为1。该实施方式中,位于第一层级的待选择特征的权重也可以根据决策树输出结果的正确率得到,例如可以将作为训练样本的多个待选择特征及多个待选择特征对应的数据输入训练得到的多个决策树中,输出每个决策树对应的目标变量的数据,根据决策树输出结果的正确率,确定该决策树中位于第一层级的待选择特征的权重,例如某一决策树输出结果的正确率为80%,则可以将该决策树中位于第一层级的待选择特征的权重确定为0.8。

决策树中位于不同层级的待选择特征的关联关系,可以是决策树中相邻层的待选择特征的权重关联关系,也可以是决策树中不相邻层的待选择特征的权重的关联关系。

举例来说,在同一个决策树中,相邻层的待选择特征的权重的比值可以为常数,此时,位于第i层的待选择特征的权重可以根据以下公式确定:wi=c*wi-1=ci-1*w1,

其中,i为待选择特征在决策树中所处的层数,i为大于1且小于或等于决策树的总层数的正整数,wi为位于第i层的待选择特征的权重,wi-1为位于第i-1层的待选择特征的权重,c为常数。具体实施时,常数c例如可以是则位于第一层的待选择特征的权重与位于第二层的待选择特征的权重的比值为位于第二层的待选择特征的权重与位于第三层的待选择特征的权重的比值为

举例来说,在同一个决策树中,不相邻层的待选择特征的权重的比值可以是常数,此时,位于第m层的待选择特征的权重wm和位于第n层的待选择特征的权重wn的关系可以根据下式确定:

wm=d*wn,

其中,d为常数,m和n为大于或等于1,且小于或等于决策树的总层数的正整数,其中,m与n不相等,且第m层和第n层不相邻。

作为又一种可能的实施方式,可以根据待选择特征在决策树中对应的目标变量实例数量,以及待选择特征在决策树中所处层级对应的权重,确定待选择特征在决策树中对应的权重。具体实施时,可以根据下述公式进行待选择特征在决策树中对应的权重的确定:

以图2所示的决策树为例,在待选择特征中,以天气为根节点,对应的目标变量实例为14个,所处层级为第一层,所处层级的权重可以为1,则天气在决策树中对应权重可以为1;湿度为子节点,对应的目标变量实例为5个,所处层级为第二层,所处层级的权重可以为是否有风为子节点,对应的目标变量实例为5个,所处层级为第二层,所处层级的权重可以为

该方法中,还可以根据待选择特征的决定系数对确定的待选择特征在决策树中对应的权重进行修正,即可以根据待选择特征在决策树中对应的目标变量实例数量、待选择特征在决策树中所处层级对应的权重,以及待选择特征的决定系数,确定待选择特征在决策树中对应的权重。

其中,待选择特征的决定系数可以反映待选择特征的分类精准度,待选择特征的决定系数是由决策树的特性确定的,待选择特征在决策树中对应的决定系数与其在决策树中所处的位置相关,具体的,决策树的决定系数可以包括决策树的基尼系数和信息增益中的至少一种。

具体的,可以通过以下公式表示:

其中,wij是指决策树中第i层第j个待选择特征对应的权重,coff是指第i层第j个待选择特征在决策树中对应的决定系数,numij为第i层第j个待选择特征在决策树中对应的目标变量实例数量,sum为决策树对应的目标变量实例总数量,w1为决策树中第一层级的权重,c为常数,通常来说,c可以是位于第i层的待选择特征的层级权重与位于第i-1层的待选择特征的层级权重的比值。

例如c可以为可以表示位于第一层的待选择特征的层级权重与位于第二层的待选择特征的层级权重的比值为位于第二层的待选择特征的层级权重与位于第三层的待选择特征的层级权重的比值为以此类推。则上述公式为:

通过上述方式确定决策树中待选择特征的权重,可以使待选择特征的权重更加准确,从而提高待选择特征的筛选准确性。

基于以上实施例提供的一种特征选择方法,本申请实施例还提供了一种特征选择装置,下面结合附图来详细说明其工作原理。

参见图4,该图为本申请实施例提供的一种特征选择装置的结构框图,该装置包括:

决策树获取单元110,用于获取多个待选择特征和所述多个待选择特征分别对应的数据,并将所述多个待选择特征以及所述多个待选择特征对应的数据输入随机森林模型进行训练,得到多个不同的决策树,其中,所述多个待选择特征中的各个待选择特征在所述决策树中具有对应的权重;

重要指数获取单元120,用于根据所述多个待选择特征中每个待选择特征分别在所述多个决策树中对应的权重,得到所述每个待选择特征的重要指数,所述重要指数反映所述待选择特征的重要程度;

筛选单元130,用于基于所述每个待选择特征的重要指数,对所述多个待选择特征进行筛选。

可选的,在同一个所述决策树中,位于同一层的待选择特征的权重相同。

可选的,在同一个所述决策树中,相邻层之间的待选择特征的权重比值为常数。

可选的,所述装置还包括:

权重确定单元,用于根据所述待选择特征在所述决策树中对应的目标变量实例数量,以及所述待选择特征在所述决策树中所处层级对应的权重,确定所述待选择特征在所述决策树中对应的权重。

可选的,所述权重确定单元具体用于:

根据所述待选择特征在所述决策树中对应的目标变量实例数量、所述待选择特征在所述决策树中所处层级对应的权重,以及所述待选择特征的决定系数,确定所述待选择特征在所述决策树中对应的权重,所述决定系数反映所述待选择特征的分类精准度。

可选的,所述待选择特征在所述决策树中所处层级对应的权重根据所述决策树中第一层级的权重得到。

可选的,所述第一层级的权重根据所述决策树输出结果的正确率得到。

可选的,根据如下公式确定待选择特征在所述决策树中对应的权重:

其中,所述wij是指所述决策树中第i层第j个待选择特征对应的权重,所述coff是指第i层第j个待选择特征在所述决策树中对应的决定系数,所述numij为第i层第j个待选择特征在所述决策树中对应的目标变量实例数量,所述sum为所述决策树对应的目标变量实例总数量,所述w1为所述决策树中第一层级的权重,所述c为常数。

可选的,所述待选择特征的决定系数至少包括以下其中一种:

基尼系数和信息增益。

本申请实施例提供的一种特征选择装置,先获取多个待选择特征和这多个待选择特征分别对应的数据,将获取的多个待选择特征以及多个待选择特征对应的数据输入随机森林模型进行训练,得到多个不同的决策树。本领域技术人员应当知晓,决策树中不同层级的待选择特征对应的权重不同。而本申请实施例中,由于通过随机森林模型的训练,可以得到多个决策树,这意味着待选择特征在各个决策树中所处的层级不都相同,对应的权重也不相同。

再根据待选择特征在各个决策树中的权重,综合得到体现待选择特征重要程度的重要指数,从而根据重要指数来对待选择特征进行筛选。也就是说,相比较于现有技术而言,本申请实施例不依赖于待选择特征在单个决策树中所处的层级,弱化了单个决策树中待选择特征位置的确定对待选择特征的筛选的影响,提高了待选择特征的筛选准确性。同时,由于各个决策树的发展状态不同,平衡性也不同,根据多个决策树中待选择特征的权重对待选择特征进行筛选,可以降低由于单个决策树的不平衡性对待选择特征的筛选的影响,进而可以提高待选择特征的筛选准确性。

基于以上特征选择方法,本申请实施例还提供了一种特征选择设备,如图5所示,所述设备包括:处理器和存储器;

其中,所述存储器用于存储指令,

所述处理器用于执行所述存储器中的指令,执行上述提供的特征选择方法。

本申请实施例还提供了一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述提供的特征选择方法。

当介绍本申请的各种实施例的元件时,冠词“一”、“一个”、“这个”和“所述”都意图表示有一个或多个元件。词语“包括”、“包含”和“具有”都是包括性的并意味着除了列出的元件之外,还可以有其它元件。

需要说明的是,本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)或随机存储记忆体(randomaccessmemory,ram)等。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外,还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

以上所述仅是本申请的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1