一种数据分类方法及装置的制造方法

文档序号:8299215阅读:114来源:国知局
一种数据分类方法及装置的制造方法
【技术领域】
[0001] 本申请涉及数据处理技术领域,尤其是一种数据分类方法及装置。
【背景技术】
[0002] 随着机器学习技术的发展,其已经被广泛地应用到各种数据分析工作中,以提高 数据分析的效率。其中的一种具体应用为医学领域,对病例数据进行分析,以确定该病例为 良性或恶性。
[0003]目前,对病例数据分类时采用粗糙集理论,对病例数据的属性进行去冗余操作,以 减少训练过程的复杂度,但是该种分类方式,通过最小化属性个数和最大化区别矩阵区别 个数进行约简,分类准确率较低。

【发明内容】

[0004] 有鉴于此,本发明提供了一种数据分类方法及装置,用以实现数据分类的准确性。 为实现所述目的,本发明提供的技术方案如下:
[0005] 一种数据分类方法,包括:
[0006] 获取包含多条初始属性的初始属性集;其中,所述初始属性表示待分类的数据,所 述初始属性包含多个子属性;
[0007] 利用遗传算法,对所述初始属性集进行约简,获得约简属性集;其中,所述遗传算 法为基于最小化属性个数、条件属性对决策属性的依赖度和区别矩阵的遗传算法,且所述 约简属性集中包括多个约简属性;
[0008] 利用所述约简属性集,构建训练样本集和测试样本集;其中,所述测试样本集中包 括多个测试样本;
[0009] 对所述训练样本集进行训练,获得多个分类模型;
[0010] 将各个所述测试样本输入至每个所述分类模型中,获得分类结果值;
[0011] 依据每个所述测试样本的分类结果值,确定每个所述测试样本的分类属性。
[0012] 可选地,上述的数据分类方法,所述利用遗传算法,对所述初始属性集进行约简, 获得约简属性集包括:
[0013] 利用适用度函数,确定每条所述初始属性的适应度函数值;
[0014] 在所述初始属性集中,选取适应度函数值较大的多条初始属性,获得约简属性集。
[0015] 可选地,上述的数据分类方法,所述遗传算法的选择算子为轮盘赌选择算子;且所 述遗传算法的适应度函数为:
【主权项】
1. 一种数据分类方法,其特征在于,包括: 获取包含多条初始属性的初始属性集;其中,所述初始属性表示待分类的数据,所述初 始属性包含多个子属性; 利用遗传算法,对所述初始属性集进行约简,获得约简属性集;其中,所述遗传算法为 基于最小化属性个数、条件属性对决策属性的依赖度和区别矩阵的遗传算法,且所述约简 属性集中包括多个约简属性; 利用所述约简属性集,构建训练样本集和测试样本集;其中,所述测试样本集中包括多 个测试样本; 对所述训练样本集进行训练,获得多个分类模型; 将各个所述测试样本输入至每个所述分类模型中,获得分类结果值; 依据每个所述测试样本的分类结果值,确定每个所述测试样本的分类属性。
2. 根据权利要求1所述的数据分类方法,其特征在于,所述利用遗传算法,对所述初始 属性集进行约简,获得约简属性集包括: 利用适用度函数,确定每条所述初始属性的适应度函数值; 在所述初始属性集中,选取适应度函数值较大的多条初始属性,获得约简属性集。
3. 根据权利要求2所述的数据分类方法,其特征在于,所述遗传算法的选择算子为轮 盘赌选择算子;且所述遗传算法的适应度函数为:
其中:所述H(r)为适应度函数值,所述r为初始属性,(;为初始属性约简后的约简属 性,D为决策属性,|U|为初始属性的论域中实例的总数,N为初始属性中包含的子属性个 数,L是初始属性中第一类型的子属性的个数,(^为约简后的属性集与区分矩阵中元素合 取后不为〇的元素个数,M为区分矩阵中的元素个数。
4. 根据权利要求1所述的数据分类方法,其特征在于,所述子属性使用二进制表示,初 始属性使用二进制串表示。
5. 根据权利要求1所述的数据分类方法,其特征在于,所述对所述训练样本集进行训 练,获得多个分类模型包括: 对所述训练样本集进行支持向量机训练,获得多个分类模型。
6. 根据权利要求1所述的数据分类方法,其特征在于,所述依据每个所述测试样本的 分类结果值,确定每个所述测试样本的分类属性包括: 对所述测试样本的每个所述分类结果值进行投票运算,获得投票概率值; 若所述投票概率值小于预设值,确定所述测试样本的分类属性为第一属性; 若所述投票概率值大于所述预设值,确定所述测试样本的分类属性为第二属性。
7.-种数据分类装置,其特征在于,包括: 属性集获取模块,用于获取包含多条初始属性的初始属性集;其中,所述初始属性表示 待分类的数据,所述初始属性包含多个子属性; 属性约简模块,用于利用遗传算法,对所述初始属性集进行约简,获得约简属性集;其 中,所述遗传算法为基于最小化属性个数、条件属性对决策属性的依赖度和区别矩阵的遗 传算法,所述约简属性集中包括多个约简属性; 样本构建模块,用于利用所述约简属性集,构建训练样本集和测试样本集;其中,所述 测试样本集中包括多个测试样本; 模型训练模块,用于对所述训练样本集进行训练,获得多个分类模型; 模型分类模块,用于将各个所述测试样本输入至每个所述分类模型中,获得分类结果 值; 属性确定模块,用于依据每个所述测试样本的分类结果值,确定每个所述测试样本的 分类属性。
8. 根据权利要求7所述的数据分类装置,其特征在于,所述属性约简模块包括: 适用度值确定子模块,用于利用适用度函数,确定每条所述初始属性的适应度函数 值; 约简集生成子模块,用于在所述初始属性集中,选取适应度函数值较大的多条初始属 性,获得约简属性集。
9. 根据权利要求8所述的数据分类装置,其特征在于,所述适用度值确定子模块使用 的遗传算法的选择算子为轮盘赌选择算子;且所述遗传算法的适应度函数为:
其中:所述H(r)为适应度函数值,所述r为初始属性,(;为初始属性约简后的约简属 性,D为决策属性,|U|为初始属性的论域中实例的总数,N为初始属性中包含的子属性个 数,L是初始属性中第一类型的子属性的个数,(^为约简后的属性集与区分矩阵中元素合 取后不为〇的元素个数,M为区分矩阵中的元素个数。
10. 根据权利要求7所述的数据分类装置,其特征在于,所述属性确定模块包括: 概率值获得子模块,用于对所述测试样本的每个所述分类结果值进行投票运算,获得 投票概率值;若所述投票概率值小于预设值,触发第一分类子模块;若所述投票概率值大 于所述预设值,触发第二分类子模块; 第一分类子模块,用于确定所述测试样本的分类属性为第一属性; 第二分类子模块,用于确定所述测试样本的分类属性为第二属性。
【专利摘要】本申请提供了一种数据分类方法及装置,该方法在对初始属性进行约简时,使用的是基于最小化属性个数、条件属性对决策属性的依赖度和区别矩阵的遗传算法,具有该种特征的遗传算法相较于通过最小化属性个数和最大化区别矩阵个数进行约简的算法而言,考虑到了条件属性对决策属性的依赖度,避免不相关属性的存在,从而提高了分类准确度。
【IPC分类】G06F17-30, G06K9-66
【公开号】CN104615789
【申请号】CN201510101131
【发明人】张莉, 卢星凝, 王邦军, 张召, 李凡长, 杨季文
【申请人】苏州大学
【公开日】2015年5月13日
【申请日】2015年3月6日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1