支持向量机分类器的构造方法及装置、分类方法及装置制造方法

文档序号:6518654阅读:227来源:国知局
支持向量机分类器的构造方法及装置、分类方法及装置制造方法
【专利摘要】本发明提供了一种支持向量机分类器的构造方法及装置、分类方法及装置,其中,该方法包括:确定非线性的带权核函数;基于带权核函数确定非凸Lp分式范数罚目标函数;利用非凸Lp分式范数罚目标函数构造支持向量机分类器。本发明与现有技术中对高维小样本数据进行分类时需要遍历所有特征维的组合来寻找所需的特征的技术方案相比,使得构造的支持向量机分类器能实现非线性核映射后样例原空间的特征选择功能,能用于对高维小样本数据进行分类,产生更稀疏的模型,实现更准确的特征选择,得到更好的预测准确度,大幅度地降低了计算复杂度,避免了数据灾难。
【专利说明】支持向量机分类器的构造方法及装置、分类方法及装置
【技术领域】
[0001]本发明涉及智能信息处理【技术领域】,尤其涉及一种支持向量机(Support VectorMachine, SVM)分类器的构造方法及装置、分类方法及装置。
【背景技术】
[0002]在计算机视觉例如:脑核磁共振三维成像、生物信息学、癌症微阵列基因诊断和商业网站客户关系分析等领域,存在着大量的高维小样本数据。高维小样本数据的特点是样例为高维数据,样例的类标签获取比较困难,如果采用人工标注的方式代价高。基于以上原因导致了有类标签的样例比较少,然而,分类预测的目标不但要求算法有准确的预测性能,还希望算法能够找出与该输出最相关的输入特征,例如:需要输出与预测的疾病最相关的基因,以便于生物学研究及医学诊断治疗,因此确定样例的类标签就显得更为重要。
[0003]目前,常用的分类器是L2范数正则化SVM分类器,这种分类器难以满足上述在保证预测准确性的前提下,对样本进行准确分类。目前的L1、LO范数SVM分类器依靠遍历所有特征维的组合来寻找所需的特征,这样就导致得到的模型向量不是稀疏向量,靠人工选取数值最大的分量作为所选特征。如果采用这种L1、L0范数SVM分类器对高维小样本数据进行分类的话,计算量太大,而且目前的L1、L0、L2范数正则化SVM分类器通常不能实现样例原空间特征选择,不能实现非线性核映射后原空间的特征选择功能分类器设计。

【发明内容】

[0004]本发明实施例提供了一 种支持向量机分类器的构造方法及装置、分类方法及装置,用以实现非线性核映射分类器设计,并具有原空间样例特征选择功能,降低计算复杂度。
[0005]本发明实施例提供了一种支持向量机SVM分类器的构造方法,包括:确定非线性的带权核函数;基于带权核函数确定非凸Lp分式范数罚目标函数;利用非凸Lp分式范数罚目标函数构造SVM分类器。
[0006]在一个实施例中,带权核函数包括以下至少之一:
[0007]阶次为q的多项式带权核函数:kw (Xi, χ^?ΧΨχ^'Ψχ」)+^ ;
[0008]径向基带权核函数:~(X,.,X7) = exp (- ((ψχ,) — (ψχ, )||;丨σ1、'
[0009]带权神经元的非线性作用核函数:1?ψ (Xi, XjktanhQiWxi^WXj)-δ );
[0010]其中,kw (.,.)表示带权核函数;i和j表示样例下标;(Xi, Xj)表示样例标签对,Xi和Xj表示样例和k表示常数,c>0 ;ψ表示权对角矩阵,ψ e Rmxm, O ^ ψπ ^ I ;q、O、k和δ表示核参数,σ >0。
[0011]在一个实施例中,基于带权核函数确定的非凸Lp分式范数罚目标函数为:
[0012]in"CL(w,人(χ..),.ν) + Ω, (λν) + Ω: (Ψ)[0013]其中,w表示模型向量;C表示L(wTkw (X,.),y)与Ω 2 (Ψ)之间的权衡参数,C≥O ;P表示正则化阶次,0〈p≤2 ;L(wTkw(x,.), y)表示损失函数,kw(x,.)表示以x作为自变量的带权核函数,另一个参数为一确定值;wT表示求w的转置;Q1(W)表示正则化项;Ω2(Ψ)表示样例特征权矩阵正则化项。
[0014]在一个实施例中吗,利用非凸Lp分式范数罚目标函数构造SVM分类器,包括:
[0015]在02($)中引入辅助变量Θ,构造辅助凸函数g(W,Θ),用g(W,Θ)来替代目标函数中的Ω2(Ψ),得到替代目标函数:
[0016]
【权利要求】
1.一种支持向量机分类器的构造方法,其特征在于,包括: 确定非线性的带权核函数; 基于带权核函数确定非凸Lp分式范数罚目标函数; 利用非凸Lp分式范数罚目标函数构造支持向量机SVM分类器。
2.如权利要求1所述的方法,其特征在于,带权核函数包括以下至少之一: 阶次为q的多项式带权核函数:kw (Xi, χ?.) = ((Ψχ?)τ(Ψχ?.)+ο)<1 ;径向基带权核函数:;
3.如权利要求2所述的方法,其特征在于,基于带权核函数确定的非凸Lp分式范数罚目标函数为:

4.如权利要求3所述的方法,其特征在于,利用非凸Lp分式范数罚目标函数构造SVM分类器,包括: 在Ω2(Ψ)中引入辅助变量Θ,构造辅助凸函数g(W,Θ),用g(W,Θ)来替代目标函数中的Ω2(Ψ),得到替代目标函数:

5.如权利要求4所述的方法,其特征在于: 所述构造辅助凸函数g(w,Θ),用g(w,Θ)来替代目标函数中的Ω2(Ψ),得到替代目标函数,包括: 采用局部二次变分近似法,或者局部线性变分近似法构造g(w,Θ)得到替代目标函数; 所述求解替代目标函数的最优解,包括: 重复执行以下操作直至轮转变量寻优算法的输出结果经计算后的测试误差与前一次计算得到的测试误差相同为止:采用进化算法求解所述替代目标函数当前的最优模型参数值,其中,模型参数包括:C、P和核参数;固定模型参数在当前的最优模型参数值上;使用轮转变量寻优算法求解替代目标函数得到最优解; 将最终得到的最优解作为所述替代目标函数的最优解。
6.如权利要求5所述的方法,其特征在于,采用进化算法求解所述替代目标函数当前的最优模型参数值,包括: 将模型参数的值作为表现型形式; 利用预定的编码机制,将模型参数转换为基因型染色体编码; 按照非线性的带权核函数的核函数类型,将基因染色体编码叠加组成核染色体编码;输入核染色体编码作为基因进化计算过程的输入,进行基因进化计算,产生更新种群编码序列; 对更新种群编码序列进行译码转换为表现型形式; 将表现型形式作为替代目标函数当前的最优模型参数值。
7.如权利要求6所述的方法,其特征在于,进行基因进化计算,产生更新种群编码序列,包括: 产生由初始编码序列表示的初始种群; 将轮转变量寻优算法的输出结果经计算后的测试误差,作为适应度评价函数,对所述初始种群中的个体进行适应度评价; 按照适应度评价的结果对组合染色体进行选择,产生子代个体,其中,适应度越高的个体被选中的概率越大; 将初始种群作为父代染色体编码; 对父代染色体编码按小概率扰动产生变化,得到子代个体染色体编码; 对子代个体染色体编码进行变异交叉操作,产生更新种群编码序列。
8.如权利要求5所述的方法,其特征在于,采用局部二次变分近似法得到的替代目标函数为:
9.如权利要求5所述的方法,其特征在于,采用局部线性变分近似法得到的替代目标函数为:
10.如权利要求5所述的方法,其特征在于,固定C、p和核参数在当前的最优参数值上,使用轮转变量寻优算法求解替代目标函数得到最优解,包括: 设置最大迭代次数T ; 设置θ、w和Ψ的初始值; 重复执行以下步骤,直至满足预设的终止条件或者重复次数大于T次:将当前Θ和w的值作为已知值,求解替代目标函数中Ψ的最优值,将求得的Ψ的最优值和当前Θ的值作为已知值,求解替代目标函数中w的最优值,将求得的w和Ψ的最优值作为已知值,求解替代目标函数中Θ的最优值; 将求得的Θ、《和Ψ的最优值作为替代目标函数的最优解。
11.一种对高维小样本数据进行分类的方法,其特征在于,包括: 根据权利要求1至10中任一项所述的支持向量机SVM分类器的构造方法,构造SVM分类器; 利用构造的SVM分类器,对高维小样本数据进行分类。
12.—种支持向量机分类器的构造装置,其特征在于,包括: 核函数确定模块,用于确定非线性的带权核函数; 目标函数确定模块,用于基于带权核函数确定非凸Lp分式范数罚目标函数; 构造模块,用于利用非凸Lp分式范数罚目标函数构造支持向量机SVM分类器。
13.如权利要求12所述的装置,其特征在于,带权核函数包括以下至少之一:
14.如权利要求13所述的装置,其特征在于,所述目标函数确定模块确定的非凸Lp分式范数罚目标函数为:
15.如权利要求14所述的装置,其特征在于,所述构造模块包括: 替代目标函数构造单元,用于在Ω2(Ψ)中引入辅助变量Θ,构造辅助凸函数δ(Ψ, 9),用8($,Θ)来替代目标函数中的Ω2(Ψ),得到替代目标函数:
16.如权利要求15所述的装置,其特征在于: 所述替代目标函数构造单元具体用于采用局部二次变分近似法,或者局部线性变分近似法构造g(W,Θ)得到替代目标函数;所述分类器构造单元包括: 迭代子单元,用于重复执行以下操作直至轮转变量寻优算法的输出结果经计算后的测试误差与前一次计算得到的测试误差相同为止:采用进化算法求解所述替代目标函数当前的最优模型参数值,其中,模型参数包括:c、P和核参数;固定模型参数在当前的最优模型参数值上;使用轮转变量寻优算法求解替代目标函数得到最优解; 求解子单元,用于将最终得到的最优解作为所述替代目标函数的最优解。
17.如权利要求16所述的装置,其特征在于,所述迭代子单元包括: 第一转换子单元。用于将模型参数的值作为表现型形式,利用预定的编码机制,将模型参数转换为基因型染色体编码; 叠加子单元,用于按照非线性的带权核函数的核函数类型,将基因染色体编码叠加组成核染色体编码; 计算子单元,用于输入核染色体编码作为基因进化计算过程的输入,进行基因进化计算,产生更新种群编码序列; 第二转换子单元,用于对更新种群编码序列进行译码转换为表现型形式,并将表现型形式作为替代目标函数当前的最优模型参数值。
18.如权利要求17所述的装置,其特征在于,所述计算子单元包括: 构建子单元,用于产生由初始编码序列表示的初始种群; 评价子单元,用于将轮转变量寻优算法的输出结果经计算后的测试误差,作为适应度评价函数,对所述初始种群中的个体进行适应度评价; 选择子单元,用于按照适应度评价的结果对组合染色体进行选择,产生子代个体,其中,适应度越高的个体被选中的概率越大; 扰动子单元,用于将初始种群作为父代染色体编码,对父代染色体编码按小概率扰动产生变化,得到子代个体染色体编码; 编译子单元,用于对子代个体染色体编码进行变异交叉操作,产生更新种群编码序列。
19.如权利要求16所述的装置,其特征在于,所述凸函数构造单元采用局部二次变分近似法得到的替代目标函数为:
20.如权利要求16所述的装置,其特征在于,所述凸函数构造单元采用局部线性变分近似法得到的替代目标函数为:
21.如权利要求16所述的装置,其特征在于,所述迭代子单元具体用于按照以下方式使用轮转变量寻优算法求解替代目标函数得到最优解: 设置最大迭代次数T ; 设置Θ、w和Ψ的初始值;重复执行以下步骤,直至满足预设的终止条件或者重复次数大于T次:将当前Θ和W的值作为已知值,求解替代目标函数中Ψ的最优值,将求得的Ψ的最优值和当前Θ的值作为已知值,求解替代目标函数中W的最优值,将求得的W和Ψ的最优值作为已知值,求解替代目标函数中Θ的最优值; 将求得的Θ、¥和Ψ的最优值作为替代目标函数的最优解。
22.—种对高维小样本数据进行分类的装置,其特征在于,包括: 构造单元,用于利用权利要求12至21中任一项所述的支持向量机分类器的构造装置,构造支持向量机SVM分类器; 分类单元,用于利用构造的SVM分类器,对高维小样本数据进行分类。
【文档编号】G06F17/30GK103559294SQ201310559733
【公开日】2014年2月5日 申请日期:2013年11月12日 优先权日:2013年11月12日
【发明者】刘建伟, 刘媛, 罗雄麟 申请人:中国石油大学(北京)
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1