一种基于支持向量机的分类方法及装置的制造方法

文档序号:8544247阅读:287来源:国知局
一种基于支持向量机的分类方法及装置的制造方法
【技术领域】
[0001] 本申请设及电子信息领域,尤其设及一种基于支持向量机的分类方法及装置。
【背景技术】
[0002] 在信用等级的分类过程中,虽然实际中通常使用基于逻辑回归的分类方法,但是 有研究已经表明,基于支持向量机的分类方法更为有效。
[0003] 通常情况下,用于信用评分的变量的数量较多,且随着实际需求,用于信用评分的 变量会越来越多,而导致支持向量机出现维度灾难的问题,所谓维度灾难是指当变量的数 目不断增加时,越来越多的变量将具有多重共线性,即它们之间的相关系数变大,但在高维 空间中,采样点的分布会变得稀疏,从而影响分类效果的一种现象。
[0004] 可见,如何避免支持向量机的维度灾难,从而提高分类准确性,成为目前亟待解决 的问题。

【发明内容】

[0005] 本申请提供了一种基于支持向量机的分类方法及装置,目的在于解决如何避免支 持向量机的维度灾难,从而提高分类准确性的问题。
[0006] 为了实现上述目的,本申请提供了W下技术方案:
[0007] 一种基于支持向量机的分类方法,包括:
[0008] 获取标准化的分类样本X。X2,…,X。;
[0009] 将所述分类样本进行正交化处理,得到正交分类样本Zi,Z2'''z,,s《n,其中,Zi =Xi,Z2'''Z,依据W下方式获取;使用规则j分别对Xj.…Xji行变换,得到第i组中间变量 将所述第i组中间变量中方差值最大的变量作为Zj,j= 2,…,S,i= 2,…,S-1 ;
[0010] 将所述正交分类样本作为支持向量机的输入变量,使用所述支持向量机计算所述 分类样本的分类结果。
[0011] 可选地,在s<n的情况下,S的确定过程包括;
[001引依据W下方式获取Zw'''z。;使用规则P分别对Xp…X。进行变换,得到第m组中 间变量ZpU…Z。-,将所述第m组中间变量中方差值最大的变量作为Zp,P=S+1,…,n,m= s,…,n-1 ;
[0013] 计算Zi…Zn的方差总和;
[0014] 从Zi开始按照Z1…Z。的顺序每次累加一个正交样本,如果Z1+Z2+…+Zy的方差总 和与Zi,Z2…Z。的方差总和之比大于预设阔值,则确定S的值为y,其中,1《^s。
[0015] 可选地,所述正交变量z/…z/中任意一个正交变量的方差的计算过程包括:
[0016] 使用
【主权项】
1. 一种基于支持向量机的分类方法,其特征在于,包括: 获取标准化的分类样本X1, χ2,…,Xn; 将所述分类样本进行正交化处理,得到正交分类样本Z1, ZfZs, s < n,其中,Z1= X P z2~23依据以下方式获取:使用规则j分别对X彡·· Xn?行变换,得到第i组中间变量z/… ζΛ将所述第i组中间变量中方差值最大的变量作为ζ」,j = 2,…,s,i = 2,…,s-1 ; 将所述正交分类样本作为支持向量机的输入变量,使用所述支持向量机计算所述分类 样本的分类结果。
2. 根据权利要求1所述的方法,其特征在于,在s〈n的情况下,s的确定过程包括: 依据以下方式获取zs+1··· \:使用规则p分别对X Xn?行变换,得到第m组中间变量 zpm~znm,将所述第m组中间变量中方差值最大的变量作为z p,p = S+1,…,n,m = S,…,n-1 ; 计算Zl~zn的方差总和; 从始按照Z i··· Zn的顺序每次累加一个正交样本,如果Z i+Zf···+Zy的方差总和与 Z1, Zf 方差总和之比大于预设阈值,则确定s的值为y,其中,1彡y〈s。
3. 根据权利要求2所述的方法,其特征在于,所述正交变量z /··· z/中任意一个正交变 量的方差的i+笪?寸包栝, 使用
计算正交变量Zj1-Zs 1中任意一个正交变量的方差, 其中,r表示所述变量之间的相关系数,k的取值为所述标准化的分类样本的个数。
4. 根据权利要求2或3所述的方法,其特征在于,所述规则j包括:
5. 根据权利要求1所述的方法,其特征在于,所述将所述正交分类样本作为支持向量 机的输入变量,使用所述支持向量机计算所述分类样本的分类结果包括: 计算如下二次规划问题:
6. 根据权利要求1所述的方法,其特征在于,在所述将所述分类样本进行正交化处理, 得到正交分类样本Zl,Z s之前,还包括: 将所述标准化的分类样本Xl,X2,…,\进行排序,使得其中方差最大的样本作为X i。
7. -种基于支持向量机的分类装置,其特征在于,包括: 样本获取模块,用于获取标准化的分类样本Xl,X2,…,xn; 正交化模块,用于将所述分类样本进行正交化处理,得到正交分类样本Zl,z2··· zs, s彡n,其中,Z1= X p Zf Zs^据以下方式获取:使用规则j分别对X j…xn?行变换,得到 第1组中间变量2/-^丄将所述第1组中间变量中方差值最大的变量作为\,」=2,~,8, i = 2,…,s-1 ; 分类模块,用于将所述正交分类样本作为支持向量机的输入变量,使用所述支持向量 机计算所述分类样本的分类结果。
8. 根据权利要求7所述的装置,其特征在于,所述正交化模块还用于: 在s〈n的情况下,按照以下过程确定s : 依据以下方式获取zs+1··· \:使用规则p分别对X Xn?行变换,得到第m组中间变量 zpm~znm,将所述第m组中间变量中方差值最大的变量作为z p,p = S+1,…,n,m = S,…,η-I ; 计算Zl~zn的方差总和; 从始按照Z i··· Zn的顺序每次累加一个正交样本,如果Z i+Zf···+Zy的方差总和与 Z1, Zf 方差总和之比大于预设阈值,则确定s的值为y,其中,1彡y〈s。
9. 根据权利要求8所述的装置,其特征在于,所述正交化模块还用于: 按照以下过程,计算所述正交变量z/…z/中任意一个正交变量的方差: 使用
计算正交变量z/…z/中任意一个正交变量的方差,其 中,r表示所述变量之间的相关系数,k的取值为所述标准化的分类样本的个数。
10. 根据权利要求8或9所述的装置,其特征在于,所述正交化模块用于使用规则j分 别对X/·· Xn进行变换包括: 所述正交化模块具体用于,使用规则j分别对χ/··χη?行变换,所述规则j包括:
所述正交化模块用于使用规则P分别对X,· Xn进行变换包括: 所述正交化模块具体用于,使用规则P分别对Xp~\进行变换,所述规则P包括:
11. 根据权利要求7所述的装置,其特征在于,所述分类模块用于将所述正交分类样本 作为支持向量机的输入变量,使用所述支持向量机计算所述分类样本的分类结果包括: 所述分类模块具体用于,计算如下二次规划问题:
12. 根据权利要求7所述的装置,其特征在于,还包括: 排序模块,用于在所述将所述分类样本进行正交化处理,得到正交分类样本Zl,z2··· Zs 之前,将所述标准化的分类样本Xl,X2,…,\进行排序,使得其中方差最大的样本作为X i。
【专利摘要】本申请提供了一种基于支持向量机的分类方法及装置,获取样本的正交化变量,将正交样本作为支持向量机的输入变量,因为原始样本中具有相关性的样本在经过正交变化后会变成零向量,因此,能够减小样本的维度,从而避免在使用支持向量机进行分类过程中产生维度灾难,实现提高分类准确性的目的。
【IPC分类】G06Q40-00
【公开号】CN104867051
【申请号】CN201510337466
【发明人】韩璐, 赵宏伟
【申请人】韩璐
【公开日】2015年8月26日
【申请日】2015年6月17日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1