一种基于多分类器融合的动态数据分级方法

文档序号:8319305阅读:252来源:国知局
一种基于多分类器融合的动态数据分级方法
【技术领域】
[0001] 本发明公开一种动态数据分级方法,属于计算机存储技术领域,具体地说是一种 基于多分类器融合的动态数据分级方法。
【背景技术】
[0002] 随着大数据、云存储时代的到来,云数据中心得到了飞速发展,使得高性能、低成 本的智能数据管理成为研宄热点。由于复杂的应用环境导致数据具有时效性和空间性、数 据访问和处理复杂性、存储访问需求多样性等特征,所以需要对各种动态数据进行分级、分 层处理,以实现应用需求和存储资源之间的合理映射,提高存储设备的性价比。例如,通过 数据分级模型将数据分为热点数据与冷数据,将热点数据放置到性能更加优异的存储设备 上,提升访问性能,将不被经常访问的冷数据放置到低速设备上,降低存储成本。随着数据 中心规模的扩大,数据种类越来越多,应用场景也越来越复杂,基于单一分类器的动态数据 分级模式已不能适应新的需求。针对此问题,本发明提出了一种基于多分类器融合的智能 动态数据分级方法,提高复杂应用环境中数据分级的准确性,更合理的表述多应用多类型 数据的存储层次,在提高数据分级的准确性的同时,进一步提升存储性能。而且,由于多个 分类器通常都选择简单模型,可并行处理,因此,基于多分类器融合的动态数据分级方法还 可提高数据分级的处理速度,提升存储效率。

【发明内容】

[0003] 本发明针对随着数据中心规模的扩大,数据种类越来越多,应用场景也越来越复 杂,基于单一分类器的动态数据分级模式已不能适应新的需求的问题,提供一种基于多分 类器融合的动态数据分级方法,实现了提高复杂应用环境中数据分级的准确性,更合理的 表述多应用多类型数据的存储层次。
[0004] 本发明提出的具体方案是: 一种基于多分类器融合的动态数据分级方法,具体步骤为: ① 对训练集数据进行数据特征提取,形成初始数据特征集合; ② 对初始数据特征集合,进行数据特征预处理,筛选出最优特征子集; ③ 对最优特征子集,进行多分类器训练,得出不同分类模型; ④ 将不同分类模型经分类器融合形成动态数据分级模型,利用动态数据分级模型对动 态数据进行分级。
[0005] 所述的数据特征提取利用人工或机器进行,用映射或变换的方法将原始特征降 维,变换为与原始特征相比数量较少的新特征,形成初始数据特征集合。
[0006] 对所述的初始数据特征集合,选择最有分类信息的特征,使用PCA、维度变换、粗糙 集属性约简中的一种或几种方法进行筛选,筛选出最优特征子集。
[0007] 根据应用场景和数据类型选择多个分类器进行训练,得到若干分类器模型,选择 有监督分类器,以及相对简单的半监督或无监督分类器模型。
[0008] 不同分类模型的数据类别进行决策融合,根据各分类器的贡献度,可得到融合分 类器模型如下:
【主权项】
1. 一种基于多分类器融合的动态数据分级方法,其特征是具体步骤为: ① 对训练集数据进行数据特征提取,形成初始数据特征集合; ② 对初始数据特征集合,进行数据特征预处理,筛选出最优特征子集; ③ 对最优特征子集,进行多分类器训练,得出不同分类模型; ④ 将不同分类模型经分类器融合形成动态数据分级模型,利用动态数据分级模型对动 态数据进行分级。
2. 根据权利要求1所述的一种基于多分类器融合的动态数据分级方法,其特征是所述 的数据特征提取利用人工或机器进行,用映射或变换的方法将原始特征降维,变换为与原 始特征相比数量较少的新特征,形成初始数据特征集合。
3. 根据权利要求1或2所述的一种基于多分类器融合的动态数据分级方法,其特征是 对所述的初始数据特征集合,选择最有分类信息的特征,使用PCA、维度变换、粗糙集属性约 简中的一种或几种方法进行筛选,筛选出最优特征子集。
4. 根据权利要求3所述的一种基于多分类器融合的动态数据分级方法,其特征是根据 应用场景和数据类型选择多个分类器进行训练,得到若干分类器模型,选择有监督分类器, 以及相对简单的半监督或无监督分类器模型。
5. 根据权利要求4所述的一种基于多分类器融合的动态数据分级方法,其特征是不 同分类模型的数据类别进行决策融合,根据各分类器的贡献度,可得到融合分类器模型如 下:
其中,Wij是分类器i对类别j的贡献度,C u是分类器i判 断数据属于类别j的置信度。
6. 根据权利要求5所述的一种基于多分类器融合的动态数据分级方法,其特征是使用 的所述的决策融合方法有投票选举法、遗传算法、模糊积分融合中的一种或几种。
7. 根据权利要求6所述的一种基于多分类器融合的动态数据分级方法,其特征是利用 所述的动态数据分级模型对动态数据进行分级过程为:计算待处理数据的分类特征,将其 与各分类器模型进行匹配,各分类器的分类并行处理,得到各分类器的决策结果C ij,利用生 成的动态数据分级模型进行计算,得到待处理数据的最终判别类别,完成与其余存储层次 的映射。
【专利摘要】本发明公开一种基于多分类器融合的动态数据分级方法,属于计算机存储技术领域,具体步骤为:①对训练集数据进行数据特征提取,形成初始数据特征集合;②对初始数据特征集合,进行数据特征预处理,筛选出最优特征子集;③对最优特征子集,进行多分类器训练,得出不同分类模型;④将不同分类模型经分类器融合形成动态数据分级模型,利用动态数据分级模型对动态数据进行分级;本发明的方法提高复杂应用环境中数据分级的准确性,更合理的表述多应用多类型数据的存储层次,在提高数据分级的准确性的同时,进一步提升存储性能。
【IPC分类】G06K9-62, G06F17-30
【公开号】CN104636493
【申请号】CN201510095551
【发明人】赵雅倩, 陈继承
【申请人】浪潮电子信息产业股份有限公司
【公开日】2015年5月20日
【申请日】2015年3月4日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1