一种特征选择方法及装置的制造方法

文档序号:9506180阅读:160来源:国知局
一种特征选择方法及装置的制造方法
【技术领域】
[0001] 本发明涉及数据挖掘技术领域,尤其涉及一种特征选择方法及装置。
【背景技术】
[0002] 高维数据,如航天遥感数据、生物数据、网络数据以及金融市场交易数据等,数据 的数量和维数呈现指数级的数量膨胀,这不仅可以给人们带来"维数福音",即高维数据中 蕴藏的丰富信息中可产生解决问题的新的可能性;而且,也会给人们带来"维数灾难(curse of dimensionality) ",即高维空间中点与点间的欧式距离几乎相同,使得高维数据中模式 识别和规则发现带来极大困难;因此,为了避免"维数灾难",需要对高维数据进行特征选择 (Feature Selection)〇
[0003] 图1为现有技术中特征选择的基本流程示意图,如图1所示,包括以下步骤:SlOL 从原始数据集中随机产生一组特征子集;S102.利用评价函数对所述特征子集进行评价; S103.将评价结果与停止准则进行比较,判断评价结果是否好于停止准则,若是,则执行步 骤S104 ;若否,则重复步骤S101-S103 ;S104.若是,则验证所述特征子集的有效性,确定所 述特征子集为最优特征子集;由于,在特征选择的基本过程中,从数据集中产生的初始特征 子集的好坏直接影响整个过程的迭代次数,尤其是随机产生的特征子集会使得迭代运算收 敛比较慢;同时,结果特征子集评价标准难以确定,容易造成将不够准确的结果评价为最优 特征子集;因此,现有技术通用的特征选择运算效率低且选出的最优特征子集不够准确。

【发明内容】

[0004] 本发明实施例提供一种特征选择方法及装置,解决了如何从原始特征子集中选出 比较准确的最优特征子集的问题,提高了高维数据特征选择的有效性及运算效率。
[0005] 为达到上述目的,本发明采用的技术方案是,
[0006] 第一方面,本发明实施例提供一种特征选择方法,包括:
[0007] 计算原始数据集中各特征变量之间的相关性,以及,所述原始数据集中各特征变 量与预测目标特征变量之间的相关性;其中,所述原始数据集包含N维特征变量,所述N维 特征变量包含N-I维所述特征变量和所述预测目标特征变量,所述N为正整数;
[0008] 根据所述原始数据集中各特征变量之间的相关性,和,所述原始数据集中各特征 变量与预测目标特征变量之间的相关性,获取强相关特征子集和弱相关特征子集;其中,所 述强相关子集中包含的特征变量为所述原始数据集中,与所述预测目标特征变量直接相关 的特征变量;所述弱相关子集中包含的特征变量为所述原始数据集中,与所述预测目标特 征变量间接相关的特征变量;
[0009] 将所述强相关特征子集中包含的所有特征变量,以及,所述弱相关特征子集中,与 所述强相关特征子集中的特征变量直接相关的特征变量的集合确定为所述预测目标特征 变量的最优特征子集。
[0010] 在第一方面的第一种可能的实现方式中,结合第一方面,所述原始数据集还包含M 组数据,所述M组数据包含训练数据集,其中,每组数据中包含在同一时刻采集的所述N维 特征变量对应的数据,所述M为正整数;
[0011] 相应的,所述计算原始数据集中各特征变量之间的相关性,以及,所述原始数据集 中各特征变量与预测目标特征变量之间的相关性,包括:
[0012] 根据所述训练数据集中的数据计算所述原始数据集中各特征变量之间的相关性, 以及,所述原始数据集中各特征变量与预测目标特征变量之间的相关性。
[0013] 在第一方面的第二种可能的实现方式中,结合第一方面的第一种可能的实现方 式,所述M组数据还包含评估数据集和测试数据集;
[0014] 相应的,所述根据所述原始数据集中各特征变量之间的相关性,和,所述原始数据 集中各特征变量与预测目标特征变量之间的相关性,获取强相关特征子集和弱相关特征子 集,包括:
[0015] 根据所述原始数据集中各特征变量之间的相关性,所述原始数据集中各特征变量 与预测目标特征变量之间的相关性,以及,所述评估数据集和所述测试数据集获取分类模 型;
[0016] 根据所述分类模型获取所述强相关特征子集和所述弱相关特征子集。
[0017] 在第一方面的第三种可能的实现方式中,结合第一方面的第二种可能的实现方 式,所述根据所述原始数据集中各特征变量之间的相关性、所述原始数据集中各特征变量 与预测目标特征变量之间的相关性、所述评估数据集、以及所述测试数据集获取分类模型, 包括:
[0018] 根据所述原始数据集中各特征变量之间的相关性,和,所述原始数据集中各特征 变量与预测目标特征变量之间的相关性建立初始的贝叶斯网络模型;其中,所述初始的贝 叶斯网络模型包含节点和有向边,所述节点表示特征变量,所述有向边表示与所述有向边 连接的两个节点之间的相关性;
[0019] 利用所述评估数据集迭代训练所述初始的贝叶斯网络模型,获得稳定的贝叶斯网 络模型;其中,所述稳定的贝叶斯网络为包含不可逆的有向边的贝叶斯网络模型;
[0020] 利用所述测试数据集测试所述稳定的贝叶斯网络模型,若所述稳定的贝叶斯网络 模型的拓扑结构保持不变,则将所述稳定的贝叶斯网络模型确定为分类模型。
[0021] 在第一方面的第四种可能的实现方式中,结合第一方面至第一方面的第三种可能 的实现方式中的任一种实现方式,所述将所述强相关特征子集中包含的所有特征变量,以 及,所述弱相关特征子集中,与所述强相关特征子集中的特征变量直接相关的特征变量的 集合确定为所述预测目标特征变量的最优特征子集,包括:
[0022] 在所述弱相关特征子集中,选择第一特征变量,将所述第一特征变量加入当前预 测模型,判断加入所述第一特征变量后的所述当前预测模型的预测精度是否大于所述当前 预测模型的预测精度,其中,所述第一特征变量为所述弱相关特征子集中,与所述预测目标 特征变量的相关性最大的特征变量,所述当前预测模型为初始预测模型或更新后的所述初 始预测模型,所述初始预测模型为以所述强相关特征子集中的特征变量为输入端建立的预 测模型;
[0023] 若是,则更新所述当前预测模型,并将所述第一特征变量从所述弱相关特征子集 中删除,加入第一集合;
[0024] 若否,则不更新所述当前预测模型,并将所述第一特征变量从所述弱相关特征子 集中删除;
[0025] 重复上述过程,直至所述弱相关特征子集中不存在特征变量;
[0026] 将所述强相关特征子集中的特征变量和所述第一集合中的特征变量的集合确定 为所述预测目标特征变量的最优特征子集。
[0027] 在第一方面的第五种可能的实现方式中,结合第一方面的第四种可能的实现方 式,所述预测型为神经网络模型;
[0028] 相应的,所述以所述强相关特征子集中的特征变量为输入端建立预测模型,包 括:
[0029] 以强相关特征子集中包含的特征变量为输入元构建神经网络模型;其中,所述神 经网络模型包含输入层,隐含层,以及,输出层;所述输入层和隐含层之间,以及,所述隐含 层与所述输出层之间通过连接权函数连接。
[0030] 第二方面,本发明实施例提供一种特征选择装置,包括:
[0031] 计算模块,用于计算原始数据集中各特征变量之间的相关性,以及,所述原始数据 集中各特征变量与预测目标特征变量之间的相关性;其中,所述原始数据集包含N维特征 变量,所述N维特征变量包含N-I维所述特征变量和所述预测目标特征变量,所述N为正整 数;
[0032] 获取模块,用于根据所述计算模块计算出的所述原始数据集中各特征变量之间的 相关性,和,所述原始数据集中各特征变量与预测目标特征变量之间的相关性,获取强相关 特征子集和弱相关特征子集;其中,所述强相关子集中包含的特征变量为所述原始数据集 中,与所述预测目标特征变量直接相关的特征变量;所述弱相关子集中包含的特征变量为 所述原始数据集中,与所述预测目标特征变量间接相关的特征变量;
[0033] 确定模块,用于将所述获取模块获取的所述强相关特征子集中包含的所有特征变 量,以及,所述弱相关特征子集中,与所述强相关特征子集中的特征变量直接相关的特征变 量的集合确定为所述预测目标特征变量的最优特征子集。
[0034] 在第二方面的第一种可能的实现方式中,结合第二方面,所述原始数据集还包含M 组数据,所述M组数据包含训练数据集,其中,每组数据中包含在同一时刻采集的所述N维 特征变量对应的数据,所述M为正整数;
[0035] 相应的,所述计算模块,具体用于:
[0036] 根据所述训练数据集中的数据计算所述原始数据集中各特征变量之间的相关性, 以及,所述原始数据集中各特征变量与预测目标特征变量之间的相关性。
[0037] 在第二方面的第二种可能的实现方式中,结合第二方面的第一种可能的实现方 式,所述M组数据还包含评估数据集和测试数据集;
[0038] 相应的,所述获取模块,具体用于:
[0039] 根据所述原始数据集中各特征变量之间的相关性、所述原始数据集中各特征变 量与预测目标特征变量之间的相关性、所述评估数据集、以及所述测试数据集获取分类模 型;
[0040] 根据所述分类模型获取所述强相关特征子集和所述弱相关特征子集。
[0041] 在第二方面的第三种可能的实现方式中,结合第二方面的第二种可能的实现方 式,所述获取模块,具体用于:
[0042] 根据所述原始数据集中各特征变量之间的相关性,和,所述原始数据集中各特征 变量与预测目标特征变量之间的相关性建立初始的贝叶斯网络模型;其中,所述初始的贝 叶斯网络模型包含节点和有向边,所述节点表示特征变量,所述有向边表示与所述有向边 连接的两个节点之间的相关性;
[0043] 利用所述评估数据集迭代训练所述初始的贝叶斯网络模型,获得稳定的贝叶斯网 络模型;其中,所述稳定的贝叶斯网络为包含不可逆的有向边的贝叶斯网络模型;
[0044] 利用所述测试数据集测试所述稳定的贝叶斯网络模型,若所述稳定的贝叶斯网络 模型的拓扑结构保持不变,则将所述稳定的贝叶斯网络模型确定为分类模型。
[0045] 在第二方面的第四种可能的实现方式中,结合第二方面至第二方面的第三种可能 的实现方式中的任一种实现方式,所述确定模块,具体用于:
[0046] 在所述弱相关特征子集中,选择第一特征变量,将所述第一特征变量加入当前预 测模型,判断加入所述第一特征变量后的所述当前预测模型的预测精度是否大于所述当前 预测模型的预测精度,其中,所述第一特征变量为所述弱相关特征子集中,与所述预测目标 特征变量的相关性最大的特征变量,所述当前预测模型为初始预测模型或更新后的所述初 始预测模型,所述初始预测模型为以所述强相关特征子集中的特征变量为输入端建立的预 测模型;
[0047] 若是,则更新所述当前预测模型,并将所述第一特征变量从所述弱相关特征子集 中删除,加入第一集合;
[0048] 若否,则不更新所述当前预测模型,并将所述第一特征变量从所述弱相关特征子 集中删除;
[0049] 重复上述过程,直至所述弱相关特征子集中不存在特征变量;
[0050] 将所述强相关特征子集中的特征变量和所述第一集合中的特征变量的集合确定 为所述预测目标特征变量的最优特征子集。
[0051] 在第二方面的第五种可能的实现方式中,结合第二方面的第四种可能的实现方 式,所述预测模型为神经网络模型;
[0052] 相应的,所述确定模块,具体用于:
[0053] 以强相关特征子集中包含的
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1