支持向量机分类器的构造方法及装置、分类方法及装置制造方法

文档序号:6518659阅读:388来源:国知局
支持向量机分类器的构造方法及装置、分类方法及装置制造方法
【专利摘要】本发明提供了一种支持向量机分类器的构造方法及装置、分类方法及装置,包括:确定非线性的单变量带权核函数;基于单变量带权核函数确定非凸Lp分式范数罚目标函数;利用非凸Lp分式范数罚目标函数构造支持向量机分类器。本发明与现有技术中对高维小样本数据进行分类时需要遍历所有特征维的组合来寻找所需的特征的技术方案相比,构造的支持向量机分类器用于对高维小样本数据进行分类,产生更稀疏的模型,更准确的实现任意结构的特征选择,得到更好的预测准确度,大幅度地降低了计算复杂度,避免了数据灾难。
【专利说明】支持向量机分类器的构造方法及装置、分类方法及装置
【技术领域】
[0001]本发明涉及智能信息处理【技术领域】,特别涉及一种支持向量机(Support VectorMachine,简称为SVM)分类器的构造方法及装置、分类方法及装置。
技术背景
[0002]在计算机视觉例如:脑核磁共振三维成像、生物信息学、癌症微阵列基因诊断和商业网站客户关系分析等领域,大量存在着高维小样本数据,高维小样本数据的特点是样例为高维数据,样例维数高达几千维到几万维。高维小样本数据样例的类标签获取比较困难,如果采用人工标注的方式代价比较高,从而导致有类标签的样例比较少,样例-类标签对的个数也比较少,通常只有几十个或几百个。
[0003]基于这种情况,就要求设计出不但有准确的预测性能,而且能够找出与预测输出最相关的输入样例向量的分量的分类器,即实现特征选择,例如找出与预测的疾病最相关的基因,以便于生物学的研究及医学的诊断。通常的L2范数正则化SVM需要遍历所有特征维的组合来寻找所需的特征,从而导致计算复杂度很高,也容易造成数据灾难。

【发明内容】

[0004]本发明实施例提供了一种SVM分类器的构造方法及装置、分类方法及装置,用于对高维小样本数据进行分类,产生更稀疏的模型,更准确的实现任意结构的特征选择,得到更好的预测准确度,大幅度地降低了计算复杂度,避免了数据灾难。
[0005]本发明实施例提供了一种SVM分类器的构造方法,包括:确定非线性的单变量带权核函数;基于单变量带权核函数确定非凸Lp分式范数罚目标函数;利用非凸Lp分式范数罚目标函数构造SVM分类器。
[0006]在一个实施例中,单变量带权核函数包括以下至少之一:
[0007]阶次为q的单变量带权多项式核函数:klv(xn, Xj1) = ( (VkkXil)T (V11Xj1)+c)q ;
[0008]单变量带权径向基核函数:
【权利要求】
1.一种支持向量机分类器的构造方法,其特征在于,包括: 确定非线性的单变量带权核函数; 基于单变量带权核函数确定非凸Lp分式范数罚目标函数; 利用非凸Lp分式范数罚目标函数构造支持向量机SVM分类器。
2.如权利要求1所述的方法,其特征在于,单变量带权核函数包括以下至少之一: 阶次为q的单变量带权多项式核函数
3.如权利要求2所述的方法,其特征在于,基于单变量带权核函数确定非凸Lp分式范数罚目标函数为:

4.如权利要求3所述的方法,其特征在于,利用非凸Lp分式范数罚目标函数构造SVM分类器,包括: 在
5.如权利要求4所述的方法,其特征在于: 所述构造辅助凸函数g (V,0),用8(丨Θ)来替代目标函数中的Ω2 (V),得到替代目标函数,包括: 采用局部二次变分近似法,或者局部线性变分近似法构造g(v,Θ)得到替代目标函数; 所述求解替代目标函数的最优解,包括:将给定的训练样例,作为初始样本集; 对初始样本集进行归一化处理; 将归一化处理后的初始样本集分为训练样本集和测试样本集; 在训练样本集上,采用网格搜索法求解所述替代目标函数的最优模型参数值; 固定C、P和核参数在最优模型参数值上,在测试样本集上,使用轮转变量寻优算法求解替代目标函数得到最优解。
6.如权利要求5所述的方法,其特征在于,采用局部二次变分近似法得到的替代目标函数为:
7.如权利要求5所述的方法,其特征在于,采用局部线性变分近似法得到的替代目标函数为:
8.如权利要求5所述的方法,其特征在于,在训练样本集上,采用网格搜索法求解所述替代目标函数的最优模型参数值,包括: 在所述训练样本集上,通过粗搜索和细搜索两级结构的网格搜索法输出替代目标函数的模型向量W、权对角矩阵V,以及权衡参数C、正则化阶次P和核参数的最优值。
9.如权利要求8所述的方法,其特征在于,在所述训练样本集上,通过粗搜索和细搜索两级结构的网络搜索法输出替代目标函数的模型向量W、权对角矩阵V,以及权衡参数C、正则化阶次P和核参数的最优值,包括: 在C、p、q、0、k、δ的取值区间上选取粗搜索的离散值,形成六个模型参数值的离散值; 将六个模型参数值的各种离散值的组合组成六维网格点; 在所述六维网格点的每一个网格点上,固定C、p、q、o、k、δ的值; 将所述训练样本集分成Cn个大小相同的子集,其中,Cn表示每个网格点上使用的交叉校验的倍数; 循环执行以下步骤Cn次,直至所有的Cn个子集都作为交叉校验的预测样本集被预测一遍:用Cn个大小相同的子集中的Cn-1个子集得到模型向量w ;计算判别函数,用该判别函数预测Cn个大小相同的子集中除所述Cn-1个子集之外的子集的预测准确率; 取Cn次预测所得准确率的平均值作为该网格节点的预测准确率值; 选取预测准确率值最大的网格点作为粗搜索确定的模型参数值; 缩小搜索区间和搜索步长,在选取的预测准确率值最大的网格点附近使用Cn倍交叉校验过程进行细搜索得到替代目标函数的最优模型参数值。
10.如权利要求5所述的方法,其特征在于,固定C、P和核参数在最优参数值上,使用轮转变量寻优算法求解替代目标函数得到最优解,包括: 设置最大迭代次数T ;设置Θ、《和¥的初始值; 重复执行以下步骤,直至满足预设的终止条件或者重复次数大于T次:将当前Θ和w的值作为已知值,求解替代目标函数中V的最优值,将求得的V的最优值和当前Θ的值作为已知值,求解替代目标函数中w的最优值,将求得的w和V的最优值作为已知值,求解替代目标函数中Θ的最优值; 将求得的Θ、《和乂的最优值作为替代目标函数的最优解。
11.一种对高维小样本数据进行分类的方法,其特征在于,包括: 根据权利要求1至10中任一项所述的支持向量机SVM分类器的构造方法,构造SVM分类器; 利用构造的SVM分类器,对高维小样本数据进行分类。
12.—种支持向量机分类器的构造装置,其特征在于,包括: 核函数确定模块,用于确定非线性的单变量带权核函数; 目标函数确定模块,用于基于单变量带权核函数确定非凸Lp分式范数罚目标函数; 构造模块,用于利用非凸Lp分式范数罚目标函数构造支持向量机SVM分类器。
13.如权利要求12所述的装置,其特征在于,单变量带权核函数包括以下至少之一: 阶次为q的单变量带权多项式核函数:
14.如权利要求13所述的装置,其特征在于,所述目标函数确定模块确定的非凸Lp分式范数罚目标函数为:

15.如权利要求14所述的装置,其特征在于,所述构造模块包括: 替代目标函数构造单元,用于在Ω2(ν)中引入辅助变量Θ,构造辅助凸函数g(V,Θ),用g(V,Θ)来替代目标函数中的Ω2 (V),得到替代目标函数:
16.如权利要求15所述的装置,其特征在于: 替代目标函数构造单元具体用于采用局部二次变分近似法,或者局部线性变分近似法构造g(V,Θ )得到替代目标函数; 所述分类器构造单元包括: 初始化子单元,用于将给定的训练样例,作为初始样本集; 归一化处理子单元,用于对初始样本集进行归一化处理; 划分子单元,用于将归一化处理后的初始样本集分为训练样本集和测试样本集; 模型参数值确定子单元,用于在训练样本集上,采用网格搜索法求解所述替代目标函数的最优模型参数值; 最优解确定子单元,用于固定C、P和核参数在最优模型参数值上,在测试样本集上,使用轮转变量寻优算法求解替代目标函数得到最优解。
17.如权利要求16所述的装置,其特征在于,采用局部二次变分近似法得到的替代目标函数为:
18.如权利要求16所述的装置,其特征在于,采用局部线性变分近似法得到的替代目标函数为:
19.如权利要求16所述的装置,其特征在于,所述模型参数值确定子单元具体用于在所述训练样本集上,通过粗搜索和细搜索两级结构的网格搜索法输出替代目标函数的模型向量W、权对角矩阵V,以及权衡参数C、正则化阶次P和核参数的最优值。
20.如权利要求19所述的装置,其特征在于,所述模型参数值确定子单元具体用于: 在C、p、q、o、k、δ的取值区间上选取粗搜索的离散值,形成六个模型参数值的离散值; 将六个模型参数值的各种离散值的组合组成六维网格点; 在所述六维网格点的每一个网格点上,固定C、p、q、o、k、δ的值; 将所述训练样本集分成Cn个大小相同的子集,其中,Cn表示每个网格点上使用的交叉校验的倍数; 循环执行以下步骤Cn次,直至所有的Cn个子集都作为交叉校验的预测样本集被预测一遍:用Cn个大小相同的子集中的Cn-1个子集得到模型向量w ;计算判别函数,用该判别函数预测Cn个大小相同的子集中除所述Cn-1个子集之外的子集的预测准确率;取Cn次预测所得准确率的平均值作为该网格节点的预测准确率值; 选取预测准确率值最大的网格点作为粗搜索确定的模型参数值; 缩小搜索区间和搜索步长,在选取的预测准确率值最大的网格点附近使用Cn倍交叉校验过程进行细搜索得到替代目标函数的最优模型参数值。
21.如权利要求16所述的装置,其特征在于,所述最优解确定子单元具体用于: 设置最大迭代次数T ; 设置θ、w和V的初始值; 重复执行以下步骤,直至满足预设的终止条件或者重复次数大于T次:将当前θ和w的值作为已知值,求解替代目标函数中V的最优值,将求得的V的最优值和当前θ的值作为已知值,求解替代目标函数中w的最优值,将求得的w和V的最优值作为已知值,求解替代目标函数中θ的最优值; 将求得的θ、w和v的最优值作为替代目标函数的最优解。
22.—种对高维小样本数据进行分类的装置,其特征在于,包括: 构造模块,用于根据权利要求12至21中任一项所述的支持向量机SVM分类器的构造装置,构造SVM分类器; 分类模块,用于利用构造的SVM分类器,对高维小样本数据进行分类。
【文档编号】G06F17/30GK103605711SQ201310559826
【公开日】2014年2月26日 申请日期:2013年11月12日 优先权日:2013年11月12日
【发明者】刘建伟, 刘媛, 罗雄麟 申请人:中国石油大学(北京)
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1