一种基于多分类器融合的动态数据分级方法

文档序号：8319305阅读：252来源：国知局

一种基于多分类器融合的动态数据分级方法
【技术领域】
[0001] 本发明公开一种动态数据分级方法，属于计算机存储技术领域，具体地说是一种基于多分类器融合的动态数据分级方法。
【背景技术】
[0002] 随着大数据、云存储时代的到来，云数据中心得到了飞速发展，使得高性能、低成本的智能数据管理成为研宄热点。由于复杂的应用环境导致数据具有时效性和空间性、数据访问和处理复杂性、存储访问需求多样性等特征，所以需要对各种动态数据进行分级、分层处理，以实现应用需求和存储资源之间的合理映射，提高存储设备的性价比。例如，通过数据分级模型将数据分为热点数据与冷数据，将热点数据放置到性能更加优异的存储设备上，提升访问性能，将不被经常访问的冷数据放置到低速设备上，降低存储成本。随着数据中心规模的扩大，数据种类越来越多，应用场景也越来越复杂，基于单一分类器的动态数据分级模式已不能适应新的需求。针对此问题，本发明提出了一种基于多分类器融合的智能动态数据分级方法，提高复杂应用环境中数据分级的准确性，更合理的表述多应用多类型数据的存储层次，在提高数据分级的准确性的同时，进一步提升存储性能。而且，由于多个分类器通常都选择简单模型，可并行处理，因此，基于多分类器融合的动态数据分级方法还可提高数据分级的处理速度，提升存储效率。

【发明内容】

[0003] 本发明针对随着数据中心规模的扩大，数据种类越来越多，应用场景也越来越复杂，基于单一分类器的动态数据分级模式已不能适应新的需求的问题，提供一种基于多分类器融合的动态数据分级方法，实现了提高复杂应用环境中数据分级的准确性，更合理的表述多应用多类型数据的存储层次。
[0004] 本发明提出的具体方案是：一种基于多分类器融合的动态数据分级方法，具体步骤为： ① 对训练集数据进行数据特征提取，形成初始数据特征集合； ② 对初始数据特征集合，进行数据特征预处理，筛选出最优特征子集； ③ 对最优特征子集，进行多分类器训练，得出不同分类模型； ④ 将不同分类模型经分类器融合形成动态数据分级模型，利用动态数据分级模型对动态数据进行分级。
[0005] 所述的数据特征提取利用人工或机器进行，用映射或变换的方法将原始特征降维，变换为与原始特征相比数量较少的新特征，形成初始数据特征集合。
[0006] 对所述的初始数据特征集合，选择最有分类信息的特征，使用PCA、维度变换、粗糙集属性约简中的一种或几种方法进行筛选，筛选出最优特征子集。
[0007] 根据应用场景和数据类型选择多个分类器进行训练，得到若干分类器模型，选择有监督分类器，以及相对简单的半监督或无监督分类器模型。
[0008] 不同分类模型的数据类别进行决策融合，根据各分类器的贡献度，可得到融合分类器模型如下：
【主权项】
1. 一种基于多分类器融合的动态数据分级方法，其特征是具体步骤为： ① 对训练集数据进行数据特征提取，形成初始数据特征集合； ② 对初始数据特征集合，进行数据特征预处理，筛选出最优特征子集； ③ 对最优特征子集，进行多分类器训练，得出不同分类模型； ④ 将不同分类模型经分类器融合形成动态数据分级模型，利用动态数据分级模型对动态数据进行分级。
2. 根据权利要求1所述的一种基于多分类器融合的动态数据分级方法，其特征是所述的数据特征提取利用人工或机器进行，用映射或变换的方法将原始特征降维，变换为与原始特征相比数量较少的新特征，形成初始数据特征集合。
3. 根据权利要求1或2所述的一种基于多分类器融合的动态数据分级方法，其特征是对所述的初始数据特征集合，选择最有分类信息的特征，使用PCA、维度变换、粗糙集属性约简中的一种或几种方法进行筛选，筛选出最优特征子集。
4. 根据权利要求3所述的一种基于多分类器融合的动态数据分级方法，其特征是根据应用场景和数据类型选择多个分类器进行训练，得到若干分类器模型，选择有监督分类器，以及相对简单的半监督或无监督分类器模型。
5. 根据权利要求4所述的一种基于多分类器融合的动态数据分级方法，其特征是不同分类模型的数据类别进行决策融合，根据各分类器的贡献度，可得到融合分类器模型如下：
其中，Wij是分类器i对类别j的贡献度，C u是分类器i判断数据属于类别j的置信度。
6. 根据权利要求5所述的一种基于多分类器融合的动态数据分级方法，其特征是使用的所述的决策融合方法有投票选举法、遗传算法、模糊积分融合中的一种或几种。
7. 根据权利要求6所述的一种基于多分类器融合的动态数据分级方法，其特征是利用所述的动态数据分级模型对动态数据进行分级过程为：计算待处理数据的分类特征，将其与各分类器模型进行匹配，各分类器的分类并行处理，得到各分类器的决策结果C ij，利用生成的动态数据分级模型进行计算，得到待处理数据的最终判别类别，完成与其余存储层次的映射。
【专利摘要】本发明公开一种基于多分类器融合的动态数据分级方法，属于计算机存储技术领域，具体步骤为：①对训练集数据进行数据特征提取，形成初始数据特征集合；②对初始数据特征集合，进行数据特征预处理，筛选出最优特征子集；③对最优特征子集，进行多分类器训练，得出不同分类模型；④将不同分类模型经分类器融合形成动态数据分级模型，利用动态数据分级模型对动态数据进行分级；本发明的方法提高复杂应用环境中数据分级的准确性,更合理的表述多应用多类型数据的存储层次,在提高数据分级的准确性的同时，进一步提升存储性能。
【IPC分类】G06K9-62, G06F17-30
【公开号】CN104636493
【申请号】CN201510095551
【发明人】赵雅倩, 陈继承
【申请人】浪潮电子信息产业股份有限公司
【公开日】2015年5月20日
【申请日】2015年3月4日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵雅倩;陈继承;
技术所有人：浪潮电子信息产业股份有限公司;
我是此专利的发明人

上一篇：一种基于Spark大数据平台的日志审计倒查系统的制作方法
上一篇：一种基于模糊积分特征融合的动态数据分级方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。