一种特征选择方法及装置的制造方法

文档序号:8259608阅读:267来源:国知局
一种特征选择方法及装置的制造方法
【技术领域】
[0001] 本发明涉及计算机领域,尤其涉及一种特征选择方法及装置。
【背景技术】
[0002] 当前基于大数据分析平台的应用如信息检索、挖掘用户的消费倾向、消费模式等 不断涌现,这些数据不但数目庞大,且描述样本数据的特征维数高。特征是从样本数据中提 取出的能够描述样本数据的有用的属性信息,每个样本数据都具有很多特征,但未必每个 特征都对数据的分析有用处,因此需要从大量特征中选择少量的有效特征。选择好的特征 不仅可以减小计算复杂度,提高预测精度,从而减少特征集的特征的个数,减少系统运行的 时间。
[0003] 现有的特征选择方法是先构造一个特征集F1,该特征集F1为空集。之后,每次从 特征候选集F2中提取出一个特征,将该特征放入特征集F1,并利用预设的评估方法对输入 了该特征的特征集F1进行评估。若输入该特征后的特征集F1的评估结果优于输入该特征 之前的特征集F1的评估结果,则认为该特征对于特征集F1是有用的特征,并更新特征集 F1,反之则将该特征从特征集F1中剔除,重新从特征候选集F2中提取出一个新的特征并重 复上述的评估步骤。
[0004] 然而,由于上述方法的特征集F1的初始状态是空集,因此忽略了对上一周期挑选 的关键特征的保留。关键特征往往是经过精挑细选的特征,一旦放弃意味着需要在特征候 选集的众多特征中重新寻找关键特征。此外,在评估所有输入的特征时均按照相同的评估 方法进行评估,而不能对不同的特征进行区别评估。因此,采用相同的评估方法进行评估会 导致评估结果出现较大的误差。

【发明内容】

[0005] 本发明提供一种特征选择方法及装置,能实现特征选择的最优化。
[0006] 本发明第一方面提供一种特征选择方法,包括:
[0007] 从样本数据中提取所述样本数据的特征,根据提取的特征生成特征集;
[0008] 将所述特征集划分为第一特征子集和第二特征子集,所述第一特征子集包括当前 周期的上一周期保留的至少一个优选特征,所述第二特征子集包括至少一个候选特征;
[0009] 从所述第一特征子集中选取出满足第一预设指标的优选特征;
[0010] 从所述第二特征子集中选取出满足第二预设指标的候选特征;
[0011] 根据所述满足第一预设指标的优选特征以及所述满足第二预设指标的候选特征 生成第三特征子集。
[0012] 结合本发明第一方面的实现方式,在本发明第一方面的第一种可能的实现方式 中,所述生成第三特征子集之前,所述方法还包括:
[0013] 根据所述第一特征子集内优选特征的数量确定所述第三特征子集内包括的所述 优选特征以及所述候选特征的数量,其中,生成的所述第三特征子集包括确定数量的优选 特征以及候选特征。
[0014] 结合本发明第一方面的实现方式,在本发明第一方面的第二种可能的实现方式 中,所述第一预设指标为所述优选特征的敏感变化率大于或等于预设敏感变化率,则所述 从所述第一特征子集中选取出满足第一预设指标的优选特征,具体包括:
[0015] 计算所述第一特征子集中的各个优选特征的所述上一周期的敏感性以及所述当 前周期的敏感性;
[0016] 根据所述各个优选特征的所述上一周期的敏感性以及所述当前周期的敏感性,得 到所述各个优选特征的敏感变化率;
[0017] 选取出满足第一预设指标的第一优选特征,所述第一优选特征为敏感变化率大于 或等于所述预设敏感变化率的优选特征。
[0018] 结合本发明第一方面的第二种可能的实现方式,在本发明第一方面的第三种可能 的实现方式中,所述选取出满足第一预设指标的第一优选特征之后,所述方法还包括:
[0019] 根据所述第一优选特征生成第四特征子集。
[0020] 结合本发明第一方面的第三种可能的实现方式,在本发明第一方面的第四种可能 的实现方式中,所述第二预设指标为所述候选特征的当前周期的敏感性大于或等于第二优 选特征的当前周期的敏感性的平均值,所述第二优选特征为敏感变化率小于所述预设敏感 变化率的优选特征,则所述从所述第二特征子集中选取出满足第二预设指标的候选特征, 具体包括:
[0021] 确定敏感变化率小于所述预设敏感变化率的优选特征为所述第二优选特征;
[0022] 获取所述第二优选特征的当前周期的敏感性;
[0023] 根据所述第二优选特征的当前周期的敏感性计算所述平均值;
[0024] 计算各个候选特征的当前周期的敏感性;
[0025] 选取出所述当前周期的敏感性大于或等于所述平均值的候选特征。
[0026] 结合本发明第一方面的第四种可能的实现方式,在本发明第一方面的第五种可能 的实现方式中,所述选取出所述当前周期的敏感性大于或等于所述平均值的候选特征之 后,所述方法还包括:
[0027] 根据所述当前周期的敏感性大于或等于所述平均值的候选特征生成第五特征子 集。
[0028] 结合本发明第一方面的第五种可能的实现方式,在本发明第一方面的第六种可能 的实现方式中,所述根据所述满足第一预设指标的优选特征以及所述满足第二预设指标的 候选特征生成第三特征子集,具体包括:
[0029] 根据所述第四特征子集以及所述第五特征子集生成所述第三特征子集。
[0030] 结合本发明第一方面的实现方式,在本发明第一方面的第七种可能的实现方式 中,所述方法还包括:
[0031] 根据所述第三特征子集包括的所述优选特征以及所述候选特征训练分类器,以使 所述分类器根据所述第三特征子集包括的所述优选特征以及所述候选特征识别所述样本 数据。
[0032] 本发明第二方面提供一种特征选择装置,包括:
[0033] 提取模块,用于从样本数据中提取所述样本数据的特征,根据提取的特征生成特 征集;
[0034] 划分模块,用于将所述提取模块生成的特征集划分为第一特征子集和第二特征子 集,所述第一特征子集包括当前周期的上一周期保留的至少一个优选特征,所述第二特征 子集包括至少一个候选特征;
[0035] 第一选取模块,用于从所述划分模块划分出的第一特征子集中选取出满足第一预 设指标的优选特征;
[0036] 第二选取模块,用于从所述划分模块划分出的第二特征子集中选取出满足第二预 设指标的候选特征;
[0037] 第一生成模块,用于根据所述第一选取模块选取的满足第一预设指标的优选特征 以及所述第二选取模块选取的满足第二预设指标的候选特征生成第三特征子集。
[0038] 结合本发明第二方面的实现方式,在本发明第二方面的第一种可能的实现方式 中,所述特征选择装置还包括:
[0039] 确定模块,用于根据所述第一特征子集内优选特征的数量确定所述第三特征子集 内包括的所述优选特征以及所述候选特征的数量,其中,生成的所述第三特征子集包括确 定数量的优选特征以及候选特征。
[0040] 结合本发明第二方面的实现方式,在本发明第二方面的第二种可能的实现方式 中,所述第一预设指标为所述优选特征的敏感变化率大于或等于预设敏感变化率,则所述 第一选取模块包括:
[0041] 计算单元,用于计算所述第一特征子集中的各个优选特征的所述上一周期的敏感 性以及所述当前周期的敏感性;
[0042] 得到单元,用于根据所述计算单元计算的各个优选特征的所述上一周期的敏感性 以及所述当前周期的敏感性,得到所述各个优选特征的敏感变化率;
[0043] 选取单元,用于选取出满足第一预设指标的第一优选特征,所述第一优选特征为 敏感变化率大于或等于所述预设敏感变化率的优选特征。
[0044] 结合本发明第二方面的第二种可能的实现方式,在本发明第二方面的第三种可能 的实现方式中,所述特征选择装置还包括:
[0045] 第二生成模块,用于根据所述选取单元选取的第一优选特征生成第四特征子集。
[0046] 结合本发明第二方面的第三种可能的实现方式,在本发明第二方面的第四种可能 的实现方式中,所述第二预设指标为所述候选特征的当前周期的敏感性大于或等于第二优 选特征的当前周期的敏感性的平均值,所述第二优选特征为敏感变化率小于所述预设敏感 变化率的优选特征,则所述第二选取模块包括:
[0047] 确定单元,用于确定敏感变化率小于所述预设敏感变化率的优选特征为所述第二 优选特征;
[0048] 获取单元,用于获取所述确定单元确定的第二优选特征的当前周期的敏感性;
[0049] 第一计算单元,用于根据所述获取单元获取的第二优选特征的当前周期的敏感性 计算所述平均值;
[0050] 第二计算单元,用于计算各个候选特征的当前周期的敏感性;
[0051] 选取单元,用于选取出所述当前周期的敏感性大于或等于所述平均值的候选特 征。
[0052] 结合本发明第二方面的第四种可能的实现方式,在本发明第二方面的第五种可能 的实现方式中,所述特征选择装置还包括:
[0053] 第三生成模块,用于根据所述选取单元选取的当前周期的敏感性大于或等于所述 平均值的候选特征生成第五特征子集。
[0054] 结合本发明第二方面的第五种可能的实现方式,在本发明第二方面的第六种可能 的实现方式中,所述第一生成模块,具体用于:
[0055] 根据所述第二生成模块生成的第四特征子集以及所述第三生成模块生成的第五 特征子集生成所述第三特征子集。
[0056] 结合本发明第二方面的实现方式,在本发明第二方面的第七种可能的实现方式 中,所述特征选择装置还包括:
[0057] 训练模块,用于根据所述第一生成模块生成的第三特征子集包括的所述优选特征 以及所述候选特征训练分类器,以使所述分类器根据所述第三特征子集包括的所述优选特 征以及所述候选特征识别所述样本数据。
[0058] 采用本发明,可从样本数据中提取样本数据的特征,根据提取的特征生成特征集, 将特征集划分为第一特征子集和第二特征子集,第一特征子集包括当前周期的上一周期保 留的至少一个优选特征,第二特征子集包括至少一个候选特征,从第一特征子集中选取出 满足第一预设指标的优选特征,从第二特征子集中选取出满足第二预设指标的候选特征, 根据满足第一预设指标的优选特征以及满足第二预设指标的候选特征生成第三特征子集, 可在选择特征时对上一周期选出的优选特征有选择性地保留,提高特征选择的效率。此外, 对于优选特征以及候选特征采用不同的评估方法进行评估,能够减小评估结果的误差,实 现特征选择的最优化。
【附图说明】
[0059] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用 的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域 普通技术人员
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1