一种特征选择方法及装置的制造方法

文档序号：9506180阅读：160来源：国知局

一种特征选择方法及装置的制造方法
【技术领域】
[0001] 本发明涉及数据挖掘技术领域，尤其涉及一种特征选择方法及装置。
【背景技术】
[0002] 高维数据，如航天遥感数据、生物数据、网络数据以及金融市场交易数据等，数据的数量和维数呈现指数级的数量膨胀，这不仅可以给人们带来"维数福音"，即高维数据中蕴藏的丰富信息中可产生解决问题的新的可能性；而且，也会给人们带来"维数灾难（curse of dimensionality) "，即高维空间中点与点间的欧式距离几乎相同，使得高维数据中模式识别和规则发现带来极大困难；因此，为了避免"维数灾难"，需要对高维数据进行特征选择 (Feature Selection)〇
[0003] 图1为现有技术中特征选择的基本流程示意图，如图1所示，包括以下步骤：SlOL 从原始数据集中随机产生一组特征子集；S102.利用评价函数对所述特征子集进行评价； S103.将评价结果与停止准则进行比较，判断评价结果是否好于停止准则，若是，则执行步骤S104 ;若否，则重复步骤S101-S103 ;S104.若是，则验证所述特征子集的有效性，确定所述特征子集为最优特征子集；由于，在特征选择的基本过程中，从数据集中产生的初始特征子集的好坏直接影响整个过程的迭代次数，尤其是随机产生的特征子集会使得迭代运算收敛比较慢；同时，结果特征子集评价标准难以确定，容易造成将不够准确的结果评价为最优特征子集；因此，现有技术通用的特征选择运算效率低且选出的最优特征子集不够准确。

【发明内容】

[0004] 本发明实施例提供一种特征选择方法及装置，解决了如何从原始特征子集中选出比较准确的最优特征子集的问题，提高了高维数据特征选择的有效性及运算效率。
[0005] 为达到上述目的，本发明采用的技术方案是，
[0006] 第一方面，本发明实施例提供一种特征选择方法，包括：
[0007] 计算原始数据集中各特征变量之间的相关性，以及，所述原始数据集中各特征变量与预测目标特征变量之间的相关性；其中，所述原始数据集包含N维特征变量，所述N维特征变量包含N-I维所述特征变量和所述预测目标特征变量，所述N为正整数；
[0008] 根据所述原始数据集中各特征变量之间的相关性，和，所述原始数据集中各特征变量与预测目标特征变量之间的相关性，获取强相关特征子集和弱相关特征子集；其中，所述强相关子集中包含的特征变量为所述原始数据集中，与所述预测目标特征变量直接相关的特征变量；所述弱相关子集中包含的特征变量为所述原始数据集中，与所述预测目标特征变量间接相关的特征变量；
[0009] 将所述强相关特征子集中包含的所有特征变量，以及，所述弱相关特征子集中，与所述强相关特征子集中的特征变量直接相关的特征变量的集合确定为所述预测目标特征变量的最优特征子集。
[0010] 在第一方面的第一种可能的实现方式中，结合第一方面，所述原始数据集还包含M 组数据，所述M组数据包含训练数据集，其中，每组数据中包含在同一时刻采集的所述N维特征变量对应的数据，所述M为正整数；
[0011] 相应的，所述计算原始数据集中各特征变量之间的相关性，以及，所述原始数据集中各特征变量与预测目标特征变量之间的相关性，包括：
[0012] 根据所述训练数据集中的数据计算所述原始数据集中各特征变量之间的相关性，以及，所述原始数据集中各特征变量与预测目标特征变量之间的相关性。
[0013] 在第一方面的第二种可能的实现方式中，结合第一方面的第一种可能的实现方式，所述M组数据还包含评估数据集和测试数据集；
[0014] 相应的，所述根据所述原始数据集中各特征变量之间的相关性，和，所述原始数据集中各特征变量与预测目标特征变量之间的相关性，获取强相关特征子集和弱相关特征子集，包括：
[0015] 根据所述原始数据集中各特征变量之间的相关性，所述原始数据集中各特征变量与预测目标特征变量之间的相关性，以及，所述评估数据集和所述测试数据集获取分类模型；
[0016] 根据所述分类模型获取所述强相关特征子集和所述弱相关特征子集。
[0017] 在第一方面的第三种可能的实现方式中，结合第一方面的第二种可能的实现方式，所述根据所述原始数据集中各特征变量之间的相关性、所述原始数据集中各特征变量与预测目标特征变量之间的相关性、所述评估数据集、以及所述测试数据集获取分类模型，包括：
[0018] 根据所述原始数据集中各特征变量之间的相关性，和，所述原始数据集中各特征变量与预测目标特征变量之间的相关性建立初始的贝叶斯网络模型；其中，所述初始的贝叶斯网络模型包含节点和有向边，所述节点表示特征变量，所述有向边表示与所述有向边连接的两个节点之间的相关性；
[0019] 利用所述评估数据集迭代训练所述初始的贝叶斯网络模型，获得稳定的贝叶斯网络模型；其中，所述稳定的贝叶斯网络为包含不可逆的有向边的贝叶斯网络模型；
[0020] 利用所述测试数据集测试所述稳定的贝叶斯网络模型，若所述稳定的贝叶斯网络模型的拓扑结构保持不变，则将所述稳定的贝叶斯网络模型确定为分类模型。
[0021] 在第一方面的第四种可能的实现方式中，结合第一方面至第一方面的第三种可能的实现方式中的任一种实现方式，所述将所述强相关特征子集中包含的所有特征变量，以及，所述弱相关特征子集中，与所述强相关特征子集中的特征变量直接相关的特征变量的集合确定为所述预测目标特征变量的最优特征子集，包括：
[0022] 在所述弱相关特征子集中，选择第一特征变量，将所述第一特征变量加入当前预测模型，判断加入所述第一特征变量后的所述当前预测模型的预测精度是否大于所述当前预测模型的预测精度，其中，所述第一特征变量为所述弱相关特征子集中，与所述预测目标特征变量的相关性最大的特征变量，所述当前预测模型为初始预测模型或更新后的所述初始预测模型，所述初始预测模型为以所述强相关特征子集中的特征变量为输入端建立的预测模型；
[0023] 若是，则更新所述当前预测模型，并将所述第一特征变量从所述弱相关特征子集中删除，加入第一集合；
[0024] 若否，则不更新所述当前预测模型，并将所述第一特征变量从所述弱相关特征子集中删除；
[0025] 重复上述过程，直至所述弱相关特征子集中不存在特征变量；
[0026] 将所述强相关特征子集中的特征变量和所述第一集合中的特征变量的集合确定为所述预测目标特征变量的最优特征子集。
[0027] 在第一方面的第五种可能的实现方式中，结合第一方面的第四种可能的实现方式，所述预测型为神经网络模型；
[0028] 相应的，所述以所述强相关特征子集中的特征变量为输入端建立预测模型，包括：
[0029] 以强相关特征子集中包含的特征变量为输入元构建神经网络模型；其中，所述神经网络模型包含输入层，隐含层，以及，输出层；所述输入层和隐含层之间，以及，所述隐含层与所述输出层之间通过连接权函数连接。
[0030] 第二方面，本发明实施例提供一种特征选择装置，包括：
[0031] 计算模块，用于计算原始数据集中各特征变量之间的相关性，以及，所述原始数据集中各特征变量与预测目标特征变量之间的相关性；其中，所述原始数据集包含N维特征变量，所述N维特征变量包含N-I维所述特征变量和所述预测目标特征变量，所述N为正整数；
[0032] 获取模块，用于根据所述计算模块计算出的所述原始数据集中各特征变量之间的相关性，和，所述原始数据集中各特征变量与预测目标特征变量之间的相关性，获取强相关特征子集和弱相关特征子集；其中，所述强相关子集中包含的特征变量为所述原始数据集中，与所述预测目标特征变量直接相关的特征变量；所述弱相关子集中包含的特征变量为所述原始数据集中，与所述预测目标特征变量间接相关的特征变量；
[0033] 确定模块，用于将所述获取模块获取的所述强相关特征子集中包含的所有特征变量，以及，所述弱相关特征子集中，与所述强相关特征子集中的特征变量直接相关的特征变量的集合确定为所述预测目标特征变量的最优特征子集。
[0034] 在第二方面的第一种可能的实现方式中，结合第二方面，所述原始数据集还包含M 组数据，所述M组数据包含训练数据集，其中，每组数据中包含在同一时刻采集的所述N维特征变量对应的数据，所述M为正整数；
[0035] 相应的，所述计算模块，具体用于：
[0036] 根据所述训练数据集中的数据计算所述原始数据集中各特征变量之间的相关性，以及，所述原始数据集中各特征变量与预测目标特征变量之间的相关性。
[0037] 在第二方面的第二种可能的实现方式中，结合第二方面的第一种可能的实现方式，所述M组数据还包含评估数据集和测试数据集；
[0038] 相应的，所述获取模块，具体用于：
[0039] 根据所述原始数据集中各特征变量之间的相关性、所述原始数据集中各特征变量与预测目标特征变量之间的相关性、所述评估数据集、以及所述测试数据集获取分类模型；
[0040] 根据所述分类模型获取所述强相关特征子集和所述弱相关特征子集。
[0041] 在第二方面的第三种可能的实现方式中，结合第二方面的第二种可能的实现方式，所述获取模块，具体用于：
[0042] 根据所述原始数据集中各特征变量之间的相关性，和，所述原始数据集中各特征变量与预测目标特征变量之间的相关性建立初始的贝叶斯网络模型；其中，所述初始的贝叶斯网络模型包含节点和有向边，所述节点表示特征变量，所述有向边表示与所述有向边连接的两个节点之间的相关性；
[0043] 利用所述评估数据集迭代训练所述初始的贝叶斯网络模型，获得稳定的贝叶斯网络模型；其中，所述稳定的贝叶斯网络为包含不可逆的有向边的贝叶斯网络模型；
[0044] 利用所述测试数据集测试所述稳定的贝叶斯网络模型，若所述稳定的贝叶斯网络模型的拓扑结构保持不变，则将所述稳定的贝叶斯网络模型确定为分类模型。
[0045] 在第二方面的第四种可能的实现方式中，结合第二方面至第二方面的第三种可能的实现方式中的任一种实现方式，所述确定模块，具体用于：
[0046] 在所述弱相关特征子集中，选择第一特征变量，将所述第一特征变量加入当前预测模型，判断加入所述第一特征变量后的所述当前预测模型的预测精度是否大于所述当前预测模型的预测精度，其中，所述第一特征变量为所述弱相关特征子集中，与所述预测目标特征变量的相关性最大的特征变量，所述当前预测模型为初始预测模型或更新后的所述初始预测模型，所述初始预测模型为以所述强相关特征子集中的特征变量为输入端建立的预测模型；
[0047] 若是，则更新所述当前预测模型，并将所述第一特征变量从所述弱相关特征子集中删除，加入第一集合；
[0048] 若否，则不更新所述当前预测模型，并将所述第一特征变量从所述弱相关特征子集中删除；
[0049] 重复上述过程，直至所述弱相关特征子集中不存在特征变量；
[0050] 将所述强相关特征子集中的特征变量和所述第一集合中的特征变量的集合确定为所述预测目标特征变量的最优特征子集。
[0051] 在第二方面的第五种可能的实现方式中，结合第二方面的第四种可能的实现方式，所述预测模型为神经网络模型；
[0052] 相应的，所述确定模块，具体用于：
[0053] 以强相关特征子集中包含的

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张世明;袁明轩;曾嘉;
技术所有人：华为技术有限公司;
我是此专利的发明人

上一篇：基于实时数据库统计任意时间段能耗的方法
上一篇：一种二维码信息获取方法、装置及终端的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。