一种多分类器构建方法和系统的制作方法

文档序号:8412899阅读:608来源:国知局
一种多分类器构建方法和系统的制作方法
【技术领域】
[0001] 本发明属于支持向量机(SVM,Support Vector Machine)的多分类技术领域,尤其 涉及一种多分类器构建方法和系统。
【背景技术】
[0002] 在多分类问题中,某些数据,如DNA(Deoxyribonucleic acid,脱氧核糖核酸)微 阵列数据分析中的基因表达数据具有维数高,样本小,非线性等特点,从而在对此类数据进 行分类时,对数据的特征选择处理非常关键。
[0003] 目前,支持向量机的多分类器,譬如,Shieh等人在文章 "Multiclass SVM-RFE for product form feature selection" 中提出的 MSVM_RFE(multiclass SVM-Recursive Feature Elimination,多类SVM-递归特征消除)算法,考虑的是所有子分类器的权重融合 (即将特征在各类上的权重平方和作为特征挑选的衡量准则),而构成多分类器的各子分 类器自身不具备挑选特征的能力,最终导致类别诊断的准确率较低。

【发明内容】

[0004] 有鉴于此,本发明的目的在于提供一种多分类器构建方法和系统,旨在解决现有 的支持向量机多分类器因其各子分类器自身不具备挑选特征的能力,而导致分类准确率较 低的问题。
[0005] 为此,本发明公开如下技术方案:
[0006] 一种多分类器构建方法,包括:
[0007] 将包含1类样本数据的第一训练样本集处理为1个两类数据集合;所述两类数据 集合中包括的两类数据为:依据预设分类方法对所述1类样本数据重新进行两类类别划分 后所得的两类数据,1为大于1的自然数;
[0008] 依据预设的特征选择方法对每个所述两类数据集合进行特征选择,得到相应的特 征索引子集;
[0009] 合并各特征索引子集,得到特征索引集合;
[0010] 利用支持向量机SVM模型对第二训练样本集进行建模,得到目标多分类器;所述 第二训练样本集为对所述第一训练样本集进行特征选择后所得的样本集合,第二训练样本 集的样本特征与所述特征索引集合包含的特征相对应。
[0011] 上述方法,优选的,所述预设分类方法为一对多OVA方法,所述预设的特征选择方 法为支持向量机-递归特征消除SVM-RFE方法。
[0012] 上述方法,优选的,所述第一训练样本集为X = KaKI1,其中:
[0013] Xi为样本数据,X i e RD,R为实数空间;
[0014] 71是、的类别标签,7#{1,2,...,1},1是类别的数目;
[0015] N是训练样本的总个数;
[0016] D是样本的维数。
[0017] 上述方法,优选的,所述两类数据集合为
【主权项】
1. 一种多分类器构建方法,其特征在于,包括: 将包含1类样本数据的第一训练样本集处理为1个两类数据集合;所述两类数据集合 中包括的两类数据为:依据预设分类方法对所述1类样本数据重新进行两类类别划分后所 得的两类数据,1为大于1的自然数; 依据预设的特征选择方法对每个所述两类数据集合进行特征选择,得到相应的特征索 引子集; 合并各特征索引子集,得到特征索引集合; 利用支持向量机SVM模型对第二训练样本集进行建模,得到目标多分类器;所述第二 训练样本集为对所述第一训练样本集进行特征选择后所得的样本集合,第二训练样本集的 样本特征与所述特征索引集合包含的特征相对应。
2. 根据权利要求1所述的方法,其特征在于,所述预设分类方法为一对多OVA方法,所 述预设的特征选择方法为支持向量机-递归特征消除SVM-RFE方法。
3. 根据权利要求2所述的方法,其特征在于,所述第一训练样本集为X = (V.Vi匕,其 中: Xi为样本数据,X f RD,R为实数空间; 71是、的类别标签,7#{1,2,...,1},1是类别的数目; N是训练样本的总个数; D是样本的维数。
4. 根据权利要求3所述的方法,其特征在于,所述两类数据集合为 v/ =1=1' 所述特征索引子集为F,e{l,…;所述特征索引集合 Sf=LU ;其中: j = 1,…,1。
5. 根据权利要求4所述的方法,其特征在于,所述第二训练样本集为X' = ,其 中,? i为进行特征选择后的样本数据,? ieR|F|。
6. 根据权利要求1-5任意一项所述的方法,其特征在于,还包括: 利用所述特征索引集合对第一测试样本进行特征选择,得到第二测试样本; 利用所述目标多分类器对所述第二测试样本进行类别诊断。
7. -种多分类器构建系统,其特征在于,包括: 处理模块,用于将包含1类样本数据的第一训练样本集处理为1个两类数据集合;所述 两类数据集合中包括的两类数据为:依据预设分类方法对所述1类样本数据重新进行两类 类别划分后所得的两类数据,1为大于1的自然数; 第一特征选择模块,用于依据预设的特征选择方法对每个所述两类数据集合进行特征 选择,得到相应的特征索引子集; 合并模块,用于合并各特征索引子集,得到特征索引集合; 建模模块,用于利用支持向量机SVM分类器对第二训练样本集进行建模,得到目标多 分类器;所述第二训练样本集为对所述第一训练样本集进行特征选择后所得的样本集合, 第二训练样本集的样本特征与所述特征索引集合包含的特征相对应。
8.根据权利要求7所述的系统,其特征在于,还包括: 第二特征选择模块,用于利用所述特征索引集合对第一测试样本进行特征选择,得到 第二测试样本; 类别诊断模块,用于利用所述目标多分类器对所述第二测试样本进行类别诊断。
【专利摘要】本发明的多分类器构建方法和装置,将包含多类样本数据的训练样本集处理为多个两类数据集合;且对每个两类数据集合进行特征选择,得到相应的特征索引子集;并合并多个特征索引子集得到一特征索引集合;之后对特征选择后的训练样本集进行建模,得到目标多分类器。可见,本发明通过把多类问题分解为多个两类问题,并对每个两类问题进行冗余特征剔除,使每个子分类器(可简单理解为每个特征索引子集对应一子分类器)具备了特征挑选能力;从而后续进行类别诊断时,可预先基于各子分类器的特征挑选能力对待测数据进行特征挑选(本申请具体利用各特征子集融合后所得的特征索引集合进行特征选择)。可见本申请解决了现有技术的问题,提升了诊断准确率。
【IPC分类】G06K9-62
【公开号】CN104732242
【申请号】CN201510163171
【发明人】张莉, 黄晓娟, 王邦军, 张召, 杨季文, 李凡长
【申请人】苏州大学
【公开日】2015年6月24日
【申请日】2015年4月8日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1