特征选择方法、装置、存储介质及电子设备与流程

文档序号:17625280发布日期:2019-05-10 23:35阅读:146来源:国知局
特征选择方法、装置、存储介质及电子设备与流程
本公开涉及机器学习领域,具体地,涉及一种特征选择方法、装置、存储介质及电子设备。
背景技术
:在机器学习中,训练样本的特征往往会非常多,容易造成维度灾难,即当特征维度超过一定界限后,训练模型的性能随着特征维度的增加反而下降,而且维度越高,训练模型的时间开销越大。其中,导致训练模型下降的原因往往是因为这些高维度特征中含有无关特征和冗余特征。因此,如何在大量的特征中快速、有效地筛选出较优的特征,以便得到效果较好的训练模型,成为机器学习领域的研究重点。相关技术中,通常以单一特征为处理单元进行特征筛选,该方式的效率低、收敛速度慢。技术实现要素:为了克服相关技术中存在的问题,本公开提供一种特征选择方法、装置、存储介质及电子设备。为了实现上述目的,本公开第一方面提供一种特征选择方法,包括:获取候选特征子集集合;根据关联分析算法对所述候选特征子集集合进行处理,得到至少一个频繁项集;依次对每一频繁项集,执行特征选择操作:若已选特征集合中未包含该频繁项集中的所有特征,则确定该频繁项集与所述已选特征集合的并集对应的评价指标;若该评价指标优于所述已选特征集合对应的评价指标,则将所述并集作为新的已选特征集合;其中,所述已选特征集合初始为空集,每次得到的所述新的已选特征集合作为针对下一频繁项集执行所述特征选择操作中的所述已选特征集合。可选地,所述获取候选特征子集集合,包括:从原始特征集合中选取出多个特征子集并确定每一特征子集对应的评价指标;按照评价指标由高到低的顺序,从所述多个特征子集集合中选取预设数量的特征子集作为候选特征子集,得到所述候选特征子集集合。可选地,所述根据关联分析算法对所述候选特征子集集合进行处理,得到至少一个频繁项集,包括:获取所述候选特征子集集合中各个特征的支持度;选取支持度大于或等于预设最小支持度的特征并对选取出的特征按照支持度降序排列,建立项头表,所述项头表包括至少一个特征和各个特征的支持度;根据所述项头表和所述候选特征子集集合,建立fp树,所述fp树包括根节点和至少一个叶子节点,其中,所述根节点为无效值,每一叶子节点对应所述项头表中的一个特征和该特征的支持度;逆序遍历项头表,根据所述fp树查找所述项头表中的各特征对应的条件模式基,并根据各特征的条件模式基建立该特征的条件fp树;对各个条件fp树进行递归挖掘,得到至少一个频繁项集。可选地,所述根据关联分析算法对所述候选特征子集集合进行处理,得到至少一个频繁项集,还包括:获取所述至少一个频繁项集中各特征的支持度,并再次执行所述选取支持度大于或等于预设最小支持度的特征并对选取出的特征按照支持度降序排列,建立项头表的步骤至所述对各个条件fp树进行递归挖掘,得到至少一个频繁项集的步骤。可选地,所述依次对每一频繁项集,执行特征选择操作,包括:获取所述至少一个频繁项集中每个频繁项集的支持度;按照支持度由高到低的顺序,依次对每一频繁项集执行所述特征选择操作。可选地,在所述按照支持度由高到低的顺序,依次对每一频繁项集执行所述特征选择操作之前,所述依次对每一频繁项集,执行特征选择操作,还包括:针对每个频繁项集,根据以下公式对该频繁项集的支持度进行修正:ci'=ci+αni其中,ci'为频繁项集i的修正后的支持度;ci为获取到的频繁项集i的支持度;ni为频繁项集i包含的特征数量;α为预设平衡权重。可选地,所述特征选择操作还包括:若该评价指标劣于所述已选特征集合对应的评价指标,则降低该频繁项集的支持度。可选地,所述方法还包括:在每对一个频繁项集执行所述特征选择操作后,若该频繁项集与所述已选特征集合的并集对应的评价指标收敛或者当前所述特征选择操作的执行次数达到预设最大次数,则停止对下一个频繁项集执行所述特征选取操作。可选地,所述方法还包括:分别获取所述候选特征子集集合中各个候选特征子集对应的评价指标,得到多个评价指标;在每次对一个频繁项集执行所述特征选择操作之后,获取该频繁项集对应的评价指标;若该频繁项集对应的评价指标大于所述多个评价指标的最小值,则使用该频繁项集替换所述候选特征子集集合中所述最小值对应的候选特征子集。本公开第二方面提供一种特征选择装置,包括:第一获取模块,用于获取候选特征子集集合;关联分析模块,用于根据关联分析算法对所述候选特征子集集合进行处理,得到至少一个频繁项集;特征选择模块,用于依次对每一频繁项集,执行特征选择操作:若所述已选特征集合中未包含该频繁项集中的所有特征,则确定该频繁项集与所述已选特征集合的并集对应的评价指标;若该评价指标优于所述已选特征集合对应的评价指标,则将所述并集作为新的已选特征集合;其中,所述已选特征集合初始为空集,每次得到的所述新的已选特征集合作为针对下一频繁项集执行所述特征选择操作中的所述已选特征集合。可选地,所述第一获取模块包括:第一确定子模块,用于从原始特征集合中选取出多个特征子集并确定每一特征子集对应的评价指标;第一选取子模块,用于按照评价指标由高到低的顺序,从所述多个特征子集集合中选取预设数量的特征子集作为候选特征子集,得到所述候选特征子集集合。可选地,所述关联分析模块包括:第一获取子模块,用于获取所述候选特征子集集合中各个特征的支持度;第二选取子模块,用于选取支持度大于或等于预设最小支持度的特征并对选取出的特征按照支持度降序排列,建立项头表,所述项头表包括至少一个特征和各个特征的支持度;第一建立子模块,用于根据所述项头表和所述候选特征子集集合,建立fp树,所述fp树包括根节点和至少一个叶子节点,其中,所述根节点为无效值,每一叶子节点对应所述项头表中的一个特征和该特征的支持度;第二建立子模块,用于逆序遍历项头表,根据所述fp树查找所述项头表中的各特征对应的条件模式基,并根据各特征的条件模式基建立该特征的条件fp树;挖掘子模块,用于对各个条件fp树进行递归挖掘,得到至少一个频繁项集。可选地,所述关联分析模块还包括:循环控制子模块,用于获取所述至少一个频繁项集中各特征的支持度,并调用所述第二选取子模块、所述第一建立子模块、所述第二建立子模块以及所述挖掘子模块,以再次执行所述选取支持度大于或等于预设最小支持度的特征并对选取出的特征按照支持度降序排列,建立项头表的步骤至所述对各个条件fp树进行递归挖掘,得到至少一个频繁项集的步骤。可选地,所述特征选择模块包括:第二获取子模块,用于获取所述至少一个频繁项集中每个频繁项集的支持度;特征选择子模块,用于按照支持度由高到低的顺序,依次对每一频繁项集执行所述特征选择操作。可选地,所述特征选择模块还包括:修正子模块,用于在按照支持度由高到低的顺序,依次对每一频繁项集执行所述特征选择操作之前,针对每个频繁项集,根据以下公式对该频繁项集的支持度进行修正:ci'=ci+αni其中,ci'为频繁项集i的修正后的支持度;ci为获取到的频繁项集i的支持度;ni为频繁项集i包含的特征数量;α为预设平衡权重。可选地,所述特征选择模块还包括:调整子模块,用于在该评价指标劣于所述已选特征集合对应的评价指标时,降低该频繁项集的支持度。可选地,所述装置还包括:停止选取模块,用于在每对一个频繁项集执行所述特征选择操作后,若该频繁项集与所述已选特征集合的并集对应的评价指标收敛或者当前所述特征选择操作的执行次数达到预设最大次数,则停止对下一个频繁项集执行所述特征选取操作。可选地,所述装置还包括:第二获取模块,用于分别获取所述候选特征子集集合中各个候选特征子集对应的评价指标,得到多个评价指标;第三获取模块,用于在每次对一个频繁项集执行所述特征选择操作之后,获取该频繁项集对应的评价指标;替换模块,用于在该频繁项集对应的评价指标大于所述多个评价指标的最小值时,使用该频繁项集替换所述候选特征子集集合中所述最小值对应的候选特征子集。本公开第三方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开第一方面提供的特征选择方法的步骤。本公开第四方面提供一种电子设备,包括:存储器,其上存储有计算机程序;处理器,用于执行所述存储器中的所述计算机程序,以实现本公开第一方面提供的特征选择方法的步骤。本公开提供的技术方案可以包括以下有益效果:通过预设关联分析算法对获取到的候选特征子集集合进行关联分析,得到频繁项集,并以频繁项集为单位进行特征选择,将特征之间的互补性纳入考虑,相比于现有技术中以单一特征为单位进行特征选择,可以达到快速、有效地筛选较优特征的效果。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。附图说明附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:图1是本公开实施例提供的一种特征选择方法的流程图;图2是本公开实施例提供的一种建立fp树的示意图;图3是本公开实施例提供的一种建立fp树的示意图;图4是本公开实施例提供的一种建立条件fp树的示意图;图5是本公开实施例提供的一种递归挖掘条件fp树的示意图;图6是本公开实施例提供的另一种特征选择方法的流程图;图7是本公开实施例提供的另一种特征选择方法的流程图;图8是本公开实施例提供的一种特征选择装置的框图;图9是本公开实施例提供的另一种特征选择装置的框图;图10是本公开实施例提供的一种电子设备的框图。具体实施方式以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。值得说明的是,本公开的说明书和权利要求书以及附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必理解为特定的顺序或先后次序。本公开实施例提供一种特征选择方法,如图1所示,该方法包括:在步骤s11中,获取候选特征子集集合。在一种可能的实现方式中,可从原始特征集合中选取出多个特征子集并确定每一特征子集对应的评价指标,并按照评价指标由高到低的顺序,从多个特征子集集合中选取预设数量的特征子集作为候选特征子集,得到候选特征子集集合。示例地,每次可从原始特征集合x中随机选取一个特征子集xi,并使用该特征子集xi在训练集上构建相应的模型,并在验证集上进行评估,得到该特征子集xi的评价指标fi。重复k次上述操作,得到k个特征子集及其对应的评价指标,并按照评价指标由高到低的顺序,选取前n个特征子集作为候选特征子集,得到候选特征子集集合q。其中,k和n可根据需要自定义设置。为了保证选取出的候选特征子集集合的效果较好,通常可设置k≥3n。值得说明的是,针对不同的模型,评估得到的评价指标类型不同,示例地,若该模型为线性回归模型,则各特征子集的评价指标为决定系数r2;若该模型为逻辑回归模型,则各特征子集的评价指标为准确率。此外,上述使用各特征子集在训练集上构建相应的模型并在评估集上进行评估以得到评价指标的具体方式,属于本领域技术人员公知的,在此不再赘述。在步骤s12中,根据关联分析算法对候选特征子集集合进行处理,得到至少一个频繁项集。由于获取到的候选特征子集集合中的各个候选特征子集均包含若干无用特征且各个候选特征子集间有大量的冗余,无法进行直接融合,因而还需要进一步根据关联分析算法对候选特征子集集合进行处理,将这些候选特征子集细化为有效的特征组合,得到至少一个频繁项集。其中,频繁项集为经常一起出现的特征的集合。在本公开的实施例中,关联分析算法可以是fp-grow算法或者apriori算法。由于fp-grow算法的性能更优,在一种可能的实现方式中,采用fp-grow算法,相应地,上述步骤s12的具体过程如下:首先,可通过对获取到的候选特征子集集合进行扫描,获取候选特征子集集合中各个特征的支持度,即各个特征的出现次数。接着,选取支持度大于或等于预设最小支持度的特征并对选取出的特征按照支持度降序排序,建立项头表,其中,项头表包括至少一个特征和各个特征的支持度。进一步地,根据项头表和候选特征子集集合,建立fp树,fp树包括根节点和至少一个叶子节点,其中,所述根节点为无效值,每一叶子节点对应项头表中的一个特征和该特征的支持度。具体地,针对每个候选特征子集,根据项头表对该候选特征子集中的各特征进行重新排序,并将重新排序后的各个候选特征子集依次插入fp树中,直到所有的候选特征子集都插入到fp树中,即完成对fp树的建立,如图2所示。其中,针对每个候选特征子集,按照其所包含的各特征的排列顺序将依次各特征插入到fp树中,在每插入一个特征时,若当前的fp树中不存在该特征,则向当前的fp树添加一个对应该特征的叶子节点且若有共用的节点,则共用节点的支持度加1。示例地,以图2所示的候选特征子集集合和对应的项头表为例,根据项头表对候选特征子集集合q中各候选特征子集的特征进行重新排序,排序后特征子集集合如表1所示。接着,如图3所示,初始时,fp树仅包含根节点null,选取第一个候选特征子集{i2,i1,i5},从根节点null开始,将该候选特征子集中的各特征依次插入到fp树中,形成叶子节点并记录各叶子节点的支持度。然后,选取第二个候选特征子集{i2,i4},从根节点null开始,将其中的各特征依次插入到fp树中。对于候选特征子集{i2,i4},由于fp树中已存在与根节点null连接的特征i2对应的叶子节点,则将该特征i2对应的叶子节点的支持度加1,而fp树不存在与特征i2对应的叶子节点连接的对应该特征i4的叶子节点,则在与特征i2对应的叶子节点下增加一对应该特征i4的叶子节点并记录该叶子节点的支持度。以此类推,依次将剩下的候选特征子集插入到fp树中,由此可得到如图2所示的fp树。表1最后,逆序遍历项头表,根据fp树查找项头表中的各特征对应的条件模式基,并根据各特征的条件模式基建立该特征的条件fp树,且对各个条件fp树进行递归挖掘,得到至少一个频繁项集。其中,针对每个特征,该特征对应的条件模式基为从fp树的根节点出发、以该特征对应的叶子节点为结尾的前缀路径集合,一条前缀路径为介于该叶子节点与根节点之间的所有叶子节点对应的特征与该叶子节点的支持度的并集。具体地,在对条件fp树进行递归挖掘的过程中,对于项头表中的任一特征,若在fp树中从根节点到该特征对应的叶子节点之间仅存在一条路径,则将该路径上除该特征对应的叶子节点以外的其余叶子节点和该叶子节点的支持度的并集作为一个频繁项集;若挖掘得到的fp树为空集,则停止递归挖掘。其次,在该过程中,支持度低于预设最小支持度的频繁项集将被过滤掉。示例地,以图2所示的fp树示意,首先选取位于项头表末位的特征i5,查询fp树中以根节点null为起点、以特征i5对应的叶子节点为终点的前缀路径共两条,即{i2,i1}:1和{i2,i1,i3}:1。同样地,可依次得到项头表中各特征对应的前缀路径,进而得到各特征对应的条件模式基,如表2所示。表2特征条件模式基i5{i2,i1}:1,{i2,i1,i3}:1i4{i2}:1,{i2,i1}:1i3{i2,i1}:2,{i2}:2,{i1}:2i1{i2}:4,{}:2i2{}:7以特征i5为例,如图4所示,按照上述构建fp树的方法,从根节点null开始,将其对应的条件模式基依次插入以形成条件fp树。接着,如图5所示,重复上述寻找条件模式基和构建条件fp树的步骤,直到构建的fp树仅包含根节点null为止,该过程即为对条件fp树进行递归挖掘的过程。由此,可得到特征i5对应的频繁项集{i5,i3}、{i5,i3,i1}、{i5,i3,i1,i2}、{i5,i1}、{i5,i1,i2}以及{i5,i2}。同样地,可得到其他特征对应的频繁项集。在另一种可能的实现方式中,为了提取特征间更高层的关联关系且同时加快特征选择的速度,还可以对上述得到的频繁项集再次进行频繁项集的提取,具体地,可获取上述得到的至少一个频繁项集中每个频繁项集的支持度,并再次执行上述选取支持度大于或等于预设最小支持度的特征并对选取出的特征按照支持度降序排列,建立项头表的步骤至上述对各个条件fp树进行递归挖掘的步骤,以得到频繁项集。在步骤s13中,依次对每一频繁项集,执行特征选择操作:若已选特征集合中未包含该频繁项集中的所有特征,则确定该频繁项集与所述已选特征集合的并集对应的评价指标;若该评价指标优于已选特征集合对应的评价指标,则将该并集作为新的已选特征集合。其中,已选特征集合初始为空集,且每次得到的新的已选特征集合作为下一频繁项集执行上述特征选择操作中的已选特征集合。示例地,使用频繁项集与已选特征集合的并集在训练集上构建相应的模型,并在验证集上进行评估,可得到该并集对应的评价指标。值得说明的是,针对不同的模型,评估得到的评价指标类型不同,示例地,若该模型为线性回归模型,则该并集对应的评价指标为决定系数r2;若该模型为逻辑回归模型,则该并集对应的评价指标为准确率。此外,上述使用繁项集与已选特征集合的并集在训练集上构建相应的模型并在评估集上进行评估以得到评价指标的具体方式,属于本领域技术人员公知的,在此不再赘述。在一种可能的实现方式中,由于频繁项集的支持度(即频繁项集的出现次数)越高,表明该频繁项集越有效,为了加快收敛速度,可以获取得到的至少一个频繁项集中每个频繁项集的支持度,按照支持度由高到低的顺序,依次对每一频繁项集执行上述特征选择操作。进一步地,考虑到特征子集样本的构造过程中,特征数量越多的频繁项集出现的几率越低,因而可在对频繁项集进行排序前,根据特征数量对每个频繁项集的支持度进行修正,如公式(1)所示。c′i=ci+αni(1)其中,c′i为频繁项集i的修正后的支持度;ci为获取到的频繁项集i的支持度;ni为频繁项集i包含的特征数量;α为预设平衡权重。进一步地,为了避免支持度较高的频繁项集被频繁选择,在每次执行特征选取操作时,若该频繁项集与已选特征集合的并集对应的评价指标劣于已选特征集合对应的评价指标,则降低该频繁项集的支持度,并对各频繁项集按照新的支持度由高到低的顺序重新排序,并根据新的排序结果选取一频繁项集再次执行特征选择操作。由此,可以进一步加快收敛速度。在本公开的另一个实施例中,如图6所示,上述特征选择方法还包括:在步骤s14中,在每对一个频繁项集执行完上述特征选择操作后,若该频繁项集与已选择特征集合的并集对应的评价指标收敛或者当前特征选择操作的执行次数达到预设最大次数,则停止对下一个频繁项集执行上述特征选择操作。其中,评价指标收敛是指该评价指标相对于已选择特征集合对应的评价指标而言,不再提升或者提升幅度较低。采用上述特征选择方法,通过预设关联分析算法对获取到的候选特征子集集合进行关联分析,得到频繁项集,并以频繁项集为单位进行特征选择,将特征之间的互补性纳入考虑,相比于现有技术中以单一特征为单位进行特征选择,可以达到快速、有效地筛选较优特征的效果。在本公开的另一个实施例中,考虑到诸如机器学习等特征选择的应用场景通常是一个不断迭代的过程,在不断迭代运算中逐步提升性能,而且在性能达到某个指标时停止迭代,因而特征选择作为其中重要的一环,也可以支持迭代运算,即能够迭代输出特征选择结果。具体地,如图7所示,上述特征选择方法还包括:在步骤s15中,分别获取候选特征子集集合中各个候选特征子集对应的评价指标,得到多个评价指标。其中,获取各候选特征子集对应的评价指标的具体方式可参见上述步骤s11的详细描述,此处不再赘述。在步骤s16中,在每次对一个频繁项集执行上述特征选择操作之后,获取该频繁项集对应的评价指标。示例地,对于任一个频繁项,可使用该频繁项在训练集上构建相应的模型,并在验证集上进行评估,得到该频繁项对应的评价指标。值得说明的是,对于上述方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开并不受所描述的动作顺序的限制。例如,上述步骤s15和上述步骤s16可以同时进行,也可以先执行步骤s15,再执行步骤s16。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本公开所必须的。在步骤s17中,若该频繁项集对应的评价指标大于所述多个评价指标中的最小值,则使用该频繁项集替换候选特征子集集合中该最小值对应的候选特征子集。相应地,可根据更新后的候选特征子集集合,重复执行上述特征选择方法,进而可以持续对之前输出的特征选择结果进行更新,实现在任意时刻输出当前最优的选择结果,以直接进行下一步运算。可见,在每个迭代过程中,不需要重新执行整个特征选择流程,进而大大提升了运行效率。并且,每次迭代输出的特征可直接用于进行后续的模型训练,相比于现有技术中需得到全部特征后才能进行后续模型训练,避免了阻塞。本公开实施例还提供一种特征选择装置,如图8所示,该装置800包括:第一获取模块801,用于获取候选特征子集集合;关联分析模块802,用于根据关联分析算法对所述候选特征子集集合进行处理,得到至少一个频繁项集;特征选择模块803,用于依次对每一频繁项集,执行特征选择操作:若所述已选特征集合中未包含该频繁项集中的所有特征,则确定该频繁项集与所述已选特征集合的并集对应的评价指标;若该评价指标优于所述已选特征集合对应的评价指标,则将所述并集作为新的已选特征集合;其中,所述已选特征集合初始为空集,每次得到的所述新的已选特征集合作为针对下一频繁项集执行所述特征选择操作中的所述已选特征集合。可选地,如图9所示,所述第一获取模块801包括:第一确定子模块811,用于从原始特征集合中选取出多个特征子集并确定每一特征子集对应的评价指标;第一选取子模块812,用于按照评价指标由高到低的顺序,从所述多个特征子集集合中选取预设数量的特征子集作为候选特征子集,得到所述候选特征子集集合。可选地,如图9所示,所述关联分析模块802包括:第一获取子模块821,用于获取所述候选特征子集集合中各个特征的支持度;第二选取子模块822,用于选取支持度大于或等于预设最小支持度的特征并对选取出的特征按照支持度降序排列,建立项头表,所述项头表包括至少一个特征和各个特征的支持度;第一建立子模块823,用于根据所述项头表和所述候选特征子集集合,建立fp树,所述fp树包括根节点和至少一个叶子节点,其中,所述根节点为无效值,每一叶子节点对应所述项头表中的一个特征和该特征的支持度;第二建立子模块824,用于逆序遍历项头表,根据所述fp树查找所述项头表中的各特征对应的条件模式基,并根据各特征的条件模式基建立该特征的条件fp树;挖掘子模块825,用于对各个条件fp树进行递归挖掘,得到至少一个频繁项集。可选地,如图9所示,所述关联分析模块802还包括:循环控制子模块826,用于获取所述至少一个频繁项集中各特征的支持度,并调用所述第二选取子模块、所述第一建立子模块、所述第二建立子模块以及所述挖掘子模块,以再次执行所述选取支持度大于或等于预设最小支持度的特征并对选取出的特征按照支持度降序排列,建立项头表的步骤至所述对各个条件fp树进行递归挖掘,得到至少一个频繁项集的步骤。可选地,如图9所示,所述特征选择模块803包括:第二获取子模块831,用于获取所述至少一个频繁项集中每个频繁项集的支持度;特征选择子模块832,用于按照支持度由高到低的顺序,依次对每一频繁项集执行所述特征选择操作。可选地,如图9所示,所述特征选择模块803还包括:修正子模块833,用于在按照支持度由高到低的顺序,依次对每一频繁项集执行所述特征选择操作之前,针对每个频繁项集,根据以下公式对该频繁项集的支持度进行修正:c′i=ci+αni其中,c′i为频繁项集i的修正后的支持度;ci为获取到的频繁项集i的支持度;ni为频繁项集i包含的特征数量;α为预设平衡权重。可选地,如图9所示,所述特征选择模块803还包括:调整子模块834,用于在该评价指标劣于所述已选特征集合对应的评价指标时,降低该频繁项集的支持度。可选地,如图9所示,所述装置800还包括:停止选取模块804,用于在每对一个频繁项集执行所述特征选择操作后,若该频繁项集与所述已选特征集合的并集对应的评价指标收敛或者当前所述特征选择操作的执行次数达到预设最大次数,则停止对下一个频繁项集执行所述特征选取操作。可选地,如图9所示,所述装置800还包括:第二获取模块805,用于分别获取所述候选特征子集集合中各个候选特征子集对应的评价指标,得到多个评价指标;第三获取模块806,用于在每次对一个频繁项集执行所述特征选择操作之后,获取该频繁项集对应的评价指标;替换模块807,用于在该频繁项集对应的评价指标大于所述多个评价指标的最小值时,使用该频繁项集替换所述候选特征子集集合中所述最小值对应的候选特征子集。关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。采用上述特征选择装置,通过预设关联分析算法对获取到的候选特征子集集合进行关联分析,得到频繁项集,并以频繁项集为单位进行特征选择,将特征之间的互补性纳入考虑,相比于现有技术中以单一特征为单位进行特征选择,可以达到快速、有效地筛选较优特征的效果。图10是根据一示例性实施例示出的一种电子设备1000的框图。如图10所示,该电子设备1000可以包括:处理器1001,存储器1002。该电子设备1000还可以包括多媒体组件1003,输入/输出(i/o)接口1004,以及通信组件1005中的一者或多者。其中,处理器1001用于控制该电子设备1000的整体操作,以完成上述的特征选择方法中的全部或部分步骤。存储器1002用于存储各种类型的数据以支持在该电子设备1000的操作,这些数据例如可以包括用于在该电子设备1000上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器1002可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(staticrandomaccessmemory,简称sram),电可擦除可编程只读存储器(electricallyerasableprogrammableread-onlymemory,简称eeprom),可擦除可编程只读存储器(erasableprogrammableread-onlymemory,简称eprom),可编程只读存储器(programmableread-onlymemory,简称prom),只读存储器(read-onlymemory,简称rom),磁存储器,快闪存储器,磁盘或光盘。多媒体组件1003可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1002或通过通信组件1005发送。音频组件还包括至少一个扬声器,用于输出音频信号。i/o接口1004为处理器1001和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件1005用于该电子设备1000与其他设备之间进行有线或无线通信。无线通信,例如wi-fi,蓝牙,近场通信(nearfieldcommunication,简称nfc),2g、3g或4g,或它们中的一种或几种的组合,因此相应的该通信组件1005可以包括:wi-fi模块,蓝牙模块,nfc模块。在一示例性实施例中,电子设备1000可以被一个或多个应用专用集成电路(applicationspecificintegratedcircuit,简称asic)、数字信号处理器(digitalsignalprocessor,简称dsp)、数字信号处理设备(digitalsignalprocessingdevice,简称dspd)、可编程逻辑器件(programmablelogicdevice,简称pld)、现场可编程门阵列(fieldprogrammablegatearray,简称fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的特征选择方法。在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的特征选择方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器1002,上述程序指令可由电子设备1000的处理器1001执行以完成上述的特征选择方法。以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1