一种多分类器构建方法和系统的制作方法

文档序号:8412898阅读:254来源:国知局
一种多分类器构建方法和系统的制作方法
【技术领域】
[0001] 本发明属于支持向量机(SVM,Support Vector Machine)的多分类技术领域,尤其 涉及一种多分类器构建方法和系统。
【背景技术】
[0002] 在多分类问题中,某些数据,如DNA(Deoxyribonucleic acid,脱氧核糖核酸)微 阵列数据分析中的基因表达数据具有维数高,样本小,非线性等特点,从而在对此类数据进 行分类时,对数据的特征选择处理非常关键。
[0003] 目前,支持向量机的多分类器,譬如,Shieh等人在文章 "Multiclass SVM-RFE for product form feature selection" 中提出的 MSVM_RFE(multiclass SVM-Recursive Feature Elimination,多类SVM-递归特征消除)算法,考虑的是所有子分类器的权重融合 (即将特征在各类上的权重平方和作为特征挑选的衡量准则),而构成多分类器的各子分 类器自身不具备挑选特征的能力,最终导致类别诊断的准确率较低。

【发明内容】

[0004] 有鉴于此,本发明的目的在于提供一种多分类器构建方法和系统,旨在解决现有 的支持向量机多分类器因其各子分类器自身不具备挑选特征的能力,而导致分类准确率较 低的问题。
[0005] 为此,本发明公开如下技术方案:
[0006] -种多分类器构建方法,包括:
[0007] 将包含1类样本数据的训练样本集处理为1个两类数据集合;所述两类数据集合 中包括的两类数据为:依据预设分类方法对所述1类样本数据重新进行两类类别划分后所 得的两类数据,1为大于1的自然数;
[0008] 依据预设的特征选择方法对每个所述两类数据集合进行特征选择,得到相应的训 练样本子集;
[0009] 利用支持向量机SVM模型分别对每个所述训练样本子集进行建模,得到1个子分 类器。
[0010] 上述方法,优选的,所述预设分类方法为一对多OVA方法,所述预设的特征选择方 法为支持向量机-递归特征消除SVM-RFE方法。
[0011] 上述方法,优选的,所述训练样本集为X = {X,.,.VjjI1,其中:
[0012] Xi为样本数据,XiE RD,R为实数空间;
[0013] 71是、的类别标签,7#{1,2,...,1},1是类别的数目;
[0014] N是训练样本的总个数;
[0015] D是样本的维数。
[0016] 上述方法,优选的,所述两类数据集合为
【主权项】
1. 一种多分类器构建方法,其特征在于,包括: 将包含1类样本数据的训练样本集处理为1个两类数据集合;所述两类数据集合中包 括的两类数据为:依据预设分类方法对所述1类样本数据重新进行两类类别划分后所得的 两类数据,1为大于1的自然数; 依据预设的特征选择方法对每个所述两类数据集合进行特征选择,得到相应的训练样 本子集; 利用支持向量机SVM模型分别对每个所述训练样本子集进行建模,得到1个子分类器。
2. 根据权利要求1所述的方法,其特征在于,所述预设分类方法为一对多OVA方法,所 述预设的特征选择方法为支持向量机-递归特征消除SVM-RFE方法。
3. 根据权利要求2所述的方法,其特征在于,所述训练样本集为X = {X,.,.VjfI1,其中: Xi为样本数据,X f RD,R为实数空间; 71是、的类别标签,7#{1,2,...,1},1是类别的数目; N是训练样本的总个数; D是样本的维数。
4. 根据权利要求3所述的方法,其特征在于,所述两类数据集合为;,
5. 根据权利要求4所述的方法,其特征在于,所述训练样本子集为< ,
中,X' i为进行特征选择后的样本数据,,ni/,i |ρ」〈0,」_ = 1,···,1。 X , e R y 5
6. 根据权利要求5所述的方法,其特征在于,还包括: 利用特征索引子集h对第一测试样本X进行特征选择,得到相应的第二测试样 本W j;其中,特征索引子集Fj为训练样本子集r j的特征集合,…,£?},j = 1,…,1 ; 利用子分类器对所述第二测试样本X' 行类别诊断,得到相应的诊断结果 fj(x' P ;所述子分类器q为与所述特征索引子集h相对应的分类器; 对1个所述诊断结果A Ge' J进行预设处理,得到所述第一测试样本X最终的类别诊 断结果y。
7. 根据权利要求6所述的方法,其特征在于,所述对1个所述诊断结果L(x' p进行 预设处理,得到所述第一测试样本X所属的类别y为: 基于式Y= Hax,./) 获取第一测试样本X的类别诊断结果y。
8. -种多分类器构建系统,其特征在于,包括: 第一处理模块,用于将包含1类样本数据的训练样本集处理为1个两类数据集合;所述 两类数据集合中包括的两类数据为:依据预设分类方法对所述1类样本数据重新进行两类 类别划分后所得的两类数据,1为大于1的自然数; 第一特征选择模块,用于依据预设的特征选择方法对每个所述两类数据集合进行特征 选择,得到相应的训练样本子集; 建模模块,用于利用支持向量机SVM模型分别对每个所述训练样本子集进行建模,得 到1个子分类器。
9. 根据权利要求8所述的系统,其特征在于,还包括: 第二特征选择模块,用于利用特征索引子集h对第一测试样本X进行特征选择,得 到相应的第二测试样本X' f其中,特征索引子集h为训练样本子集X' j勺特征集合, F,e{l,…,£)},j = 1,…,1 ; 诊断模块,用于利用子分类器G对所述第二测试样本X' ^进行类别诊断,得到相应的 诊断结果A (X' P ;所述子分类器&为与所述特征索引子集Fj相对应的分类器; 第二处理模块,用于对if所述诊断结果L(x' P进行预设处理,得到所述第一测试样 本X最终的类别诊断结果y。
10. 根据权利要求9所述的系统,其特征在于,所述第二处理模块为: 获取单元,用于基于式>'=f<l·获取第一测试样本X的类别诊断结果y。
【专利摘要】本发明的多分类器构建方法和系统,本发明将包含多类样本数据的训练样本集处理为多个两类数据集合;并对每个两类数据集合进行特征选择,得到相应的训练样本子集;之后对每个训练样本子集进行建模,得到相应的子分类器。可见,本发明通过把多类问题分解为多个两类问题,并对每个两类问题进行冗余特征剔除,使每个子分类器具备了特征挑选能力;从而后续进行类别诊断时,可预先基于各子分类器的特征挑选能力对待测数据进行特征挑选,通过利用各子分类器剔除待测数据中的冗余特征,为最终得到较高准确率的类别诊断结果提供了支持。
【IPC分类】G06K9-62
【公开号】CN104732241
【申请号】CN201510163098
【发明人】张莉, 黄晓娟, 王邦军, 张召, 杨季文, 李凡长
【申请人】苏州大学
【公开日】2015年6月24日
【申请日】2015年4月8日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1