一种获取传导分类知识的可拓支持向量机方法

文档序号:10570421阅读:256来源:国知局
一种获取传导分类知识的可拓支持向量机方法
【专利摘要】本发明公开了一种获取传导分类知识的可拓支持向量机方法。本方法以获取决策活动的传导知识为背景,从分类的角度出发,利用决策实施前后的数据以及已有分类知识,分析该决策对其所涉及对象(特征和类别)所产生的传导作用,从而为未来决策提供依据。该方法基于可拓集合的动态分类思想,根据已有分类规则建立关联函数;建立对象变化前后的特征值之间的支持向量机模型,并通过施加基于关联函数的非线性约束来确保模型的准确性;通过定义关联函数值非零的训练对象的关联半径,将原有非线性约束近似地解耦为一系列线性自约束,从而将原支持向量机模型解成一系列子模型;每个支持向量机子模型均采用基于关联半径的非凸损失函数,并运用CCCP方法进行求解。
【专利说明】
一种获取传导分类知识的可拓支持向量机方法
技术领域
[0001] 本发明涉及数据挖掘领域,特指一种获取传导分类知识的可拓支持向量机方法。
【背景技术】
[0002] 在很多行业中,为了合理地进行决策,决策者往往需要了解某些历史决策活动在 实施之后会产生怎样的传导作用。能否从数据库积累的大量数据中找到与这些决策活动有 关的知识,来辅助今后的决策?从分类的角度出发,若能利用某项决策活动实施前后的数 据,以及已有的分类知识,分析该决策对其所涉及的对象(特征和类别)所产生的传导作用, 则可为未来的决策活动提供重要依据。例如,就某种疾病而言,医生可能会考虑采用多种治 疗手段来治愈病人,若能从历史数据中获取关于每种治疗手段对病人身体指标及患病状态 的作用效果的知识,则可以根据每个病人的具体情况为其选择合理有效的治疗手段。又如, 商业决策者则希望了解某一次营销策略的调整如何影响客户的购买行为,进而引进价值客 户群的改变;从客户数据中获取这些知识可为未来的商业决策提供重要依据。因此,找到一 种有效的方法来获取传导分类知识尤为重要。
[0003] 支持向量机方法,作为一种强有力的统计学习工具,目前已被广泛应用于求解数 据挖掘领域中的很多问题。为此,本发明提出一种获取传导分类知识的可拓支持向量机方 法。

【发明内容】

[0004] 本发明的主要目的在于提供一种能用于获取传导分类知识的可拓支持向量机方 法,基于可拓集合的动态分类思想,建立对象在变化前后的特征值之间的数学模型;根据已 有分类规则,建立关联函数;并通过施加基于关联函数的非线性约束来确保所构建模型的 准确性。
[0005] 为了达到上述目的,本发明采用以下技术方案:
[0006] 本发明一种获取传导分类知识的可拓支持向量机的方法,包括下述步骤:
[0007] 步骤1,前处理:获取对象的分类规则,并根据分类规则建立关联函数;
[0008] 步骤2,确定训练集;
[0009] 步骤3,计算每个关联函数值非零的训练对象的关联半径;
[0010] 步骤4,建立每个支持向量机子模型;
[0011] 步骤5,分别对每个支持向量机子模型进行求解。
[0012] 作为优选的技术方案,所述步骤1中,采用传统支持向量机方法来获取如下分类规 贝1J: /(^=sgn|#r由+ ;根据分类规则建立关联函数= + L其中d (x)>0表示x属于正类;d(x)<0表示x属于负类;d(x)=0表示x在零界上;|d(x) |表示x属于 其类的程度。
[0013]作为优选的技术方案,所述传统支持向量机的方法包括C-SVM Ramp Loss SVM或 NPSVM方法。
[0014]作为优选的技术方案,步骤2中,确定训练对象集如下: _] S=Kx(l),x,⑴),(x⑵,x,⑵),." (X(N),X,(N))}
[0016] 其中,x(1)为第i个训练对象的变化前的特征向量;x/(1)为第i个训练样本的变化后 的特征;对于i G {1,2,,"L} Mx'(1))辛0;对于i G {L+l,."N} Mx'(1)) = 0。
[0017] 作为优选的技术方案,步骤3中,计算每个关联函数值非零的训练对象关联半径的 方法是:
[0018] 通过公式(1(以^1)))(1(^^))>0,1£{1,~1}推导出其充分条件 /;(x('))-x" ,关联半径
[0019] 作为优选的技术方案,步骤4中,每个支持向量机的子模型为:
[0021 ]其中,损失函数厶(z) = |l I |___丨1 : 'ie {1,2, ? ? .L} ;Li(z) = |z|,iG {L+1,? ? .N}。
[0022]作为优选的技术方案,步骤5中,将每个支持向量机模型作了如下凸-凹分解:
/: x f〇, |z| < r
[0024]其中,糧=ih' iz卜/
[0025] 作为优选的技术方案,步骤5中,采用concave-convex programming求解每个支持 向量机子模型,其计算方法如下:
[0026] (5.1)初始化 t = l,=(0,0,_..0)%
[0027] (5.2)求解下列二次规划:
N
[0029] s.t. [("K) = 0
[0030] =
[0031] 0<?;; <C, / = /. + !,...J?
[0032] 〇<(i.!<C. i = \,...N
[0033] 并结合 KKT 条件,可得/;(:^)=^必(1)+6;=土(《;;-4)尤卜(/).#) + 6;;
[0034] (5.3)计算: '-c, f^i])-xf] <-rt
[0035] Vi =< 0, < fj <}) C /;(x(i))-xf >/;.
[0036] 得到 V; =()^1,F;2"..!^)r:;
[0037] (5.4)若1^=1^-1,则得到最终的子模型,否则令七=七+1并返回步骤(5.2)。
[0038] 本发明与现有技术相比,具有如下优点和有益效果:
[0039] 1、基于可拓集合的动态分类思想,提出一种可用于获取传导分类知识的挖掘模 式;
[0040] 2、本发明通过引入关联函数值非零的训练对象的关联半径,将公式d(f(x(1)))d (x/(1))>〇的非线性约束近似解耦为一系列与子模型一一对应的线性子约束,从而实现所 有子模型的独立化,可大大降低建模和求解的复杂度,提升该方法的实用性。
[0041] 3、本发明所采用的基于关联半径的非凸损失函数可在一定程度上过滤训练数据 中的噪声。
【附图说明】
[0042]图1是本发明提出的可拓支持向量机的构建模式。
[0043] 图2是本发明所采用的基于关联半径的非凸损失函数示意图。
[0044] 图3是300位客户的关联函数值在变化前后的分布情况。
[0045] 图4(a)-图4(b)是对训练对象和另外40个测试对象分别进行评价的结果。
【具体实施方式】
[0046] 下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限 于此。
[0047] 实施例
[0048]本实施例一种能用于获取传导分类知识的可拓支持向量机方法,包括下述步骤: [0049] (1)前处理。采用已有的分类支持向量机方法(如C-SVM,Ramp Loss SVM,NPSVM等) 获取分类规则:+ y ;根据分类规则建立关联函数:
[0050] x) = wr<i>(x) + /) (1)
[0051] 其中,d(x)>0表示x属于正类;d(x)<0表示x属于负类;d(x) = 0表示x在零界上; d(x)|表示x属于其类的程度;
[0052] (2)确定训练对象集。
[0053] S={(X(1),X/(1)),(X (2),X/(2)),...(X(N), X/(N))} (2)
[0054]其中,x(1)为第i个训练对象的变化前的特征向量;x/(1)为第i个训练样本的变化后 的特征;对于i G {1,2, ."L} jU'(1))乒0;对于i G {L+l,."N} jU'(1)) =0;
[0055] (3)计算每个关联函数值非零的训练对象关联半径。构建一系列支持向量机子模 型fj(x)=w/C> (x)+bj( j = l,2,…n)对x/ (j = l,2,…n)分别进行预测,如图1所示。为了确 保所构建模型能够准确地预测训练样本在变化后的类别,对每个关联函数值非零的训练对 象(l<i<L)施加以下约束:
[0056] d(f(x(i)))d(x/(i))>0 (3)
[0057] 结合(2)式,可推导出(3)式的一个充分条件:
(4) (5)
[0060] 其中,ri为第i个(l<i<L)训练对象的关联半径;泛为获取分类规则时所采用的高 斯核函数中的核参数;eQ是一个很小的正数。
[0061] (4)建立每个支持向量机子模型。
lb)
[0063] 其中,?)为第i个训练对象所对应的损失函数。根据式(4),对于关联函数值非 零的训练对象,本发明提出一种基于关联半径的非凸损失函数(如图2所示):
[0064] A'⑷:|丨斗丨十' (7)
[}h \z\>ri
[0065]这样,损失函数值降低当且仅当式(4)成立。当iG {L+l,…N}时,Li(z) = I z I。
[0066] (5)求解,事实上,式(7)中的损失函数可以写成:
[0067] Li(z) = | z | -Li7 (z) (8)
[0068] 其中
[0069] = | 扣 (9)
[0070] 这样每个子模型的优化函数(6)都可以分解为一个凸部分和一个凹部分的和:
(10) L〇〇72」 本友明米用concave-convex programming(CCCP)万法来求解式(10)中的非凸优 化,步骤如下:
[0073] 5.1)初始化七=1,<=(1^,1%...1^)'=(0儿"0广;
[0074] 5.2)求解下列二次规划: (11)
[0076] 并结合KKT 条件,可得/J(x(,>)=w;.?(x)+七 f;(?X)[(X('),x⑴)+办;; /r=.l.
[0077] 5.3)计算: -C, /;:(x(,))-.v;(,)<-r
[0078] V), =< 0, -r</7(x(;))-.Tf</;. (12) C
[0079] 得到 ¥;=(仏匕...〇%
[0080] 5.4)若乂=弋'则得到最终的子模型,否则令〖=〖+1并返回步骤5.2);
[0081] 下面,本实施例具体以某通信公司的客户行为模式变化分类挖掘问题为例进行进 一步的说明书。
[0082] 例:从300位客户在某次促销活动前后的行为数据中获取关于此次促销活动对客 户的传导分类知识。取"月通话时长","月3G流量","月WLAN流量"作为三个特征,每个特征 的特征值分别取变化之前和变化之后三个月的平均值;取"是否为活跃客户"作为类别;则 客户数据集合可表示为:
[0083] T={(x⑴,y⑴,X'⑴,y'⑴)|x⑴,X'⑴ GR3,y⑴,y'⑴ G {-1,1},1彡i彡300} (13)
[0084] S1、前处理。为了便于计算,将所有特征值按下式正则化:
[0087] 分类规则/(x) = sgn(W泰(x) + S)基于以下训练集获取: (14) (15)
[0088] {(eyo),…(16)
[0089] 根据分类规则建立关联函数:#4 =兵''杰+ 。
[0090] S2、确定训练对象集。图3为300位客户的关联函数值在变化前后的分布情况,其中 16位客户从不活跃变为活跃,132位客户保持活跃;152位客户保持不活跃。
[0091] S3、按照上述内容中的步骤(3)-(5),建立可拓支持向量机的优化模型并进行求 解。
[0092] S4、为了评价所建立模型的预测性能,本发明定义了如下两个评价指标:
[0093] S4.1、变化后类别预测准确率(CAR):
(17)
[0095] 34.2、均方误差(1^£):
(18)
[0097] 图4(a)-图4(b)和表1为对训练样本和另外40个测试样本分别进行评价的结果。
[0098] 表 1
[0100]上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的 限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化, 均应为等效的置换方式,都包含在本发明的保护范围之内。
【主权项】
1. 一种获取传导分类知识的可拓支持向量机的方法,其特征在于,包括下述步骤: 步骤1,前处理:获取对象分类规则,并根据分类规则建立关联函数; 步骤2,确定训练集; 步骤3,计算每个关联函数值非零的训练对象的关联半径; 步骤4,建立每个支持向量机子模型; 步骤5,分别对每个支持向量机子模型进行求解。2. 根据权利要求1所述的获取传导分类知识的可拓支持向量机的方法,其特征在于,所 述步骤1中,采用传统支持向量机的方法来获取如下分类规则: 根据分类规则建立关联函数,其中d(x)>0表示X属于正类;d(x)<0表 示X属于负类;d(x) =O表示X在零界上;|d(x) I表示X属于其类的程度。3. 根据权利要求2所述的获取传导分类知识的可拓支持向量机的方法,其特征在于,所 述传统支持向量机的方法包括C-SVM Ramp Loss SVM或NPSVM方法。4. 根据权利要求1所述的获取传导分类知识的可拓支持向量机的方法,其特征在于,步 骤2中,采用如下公式确定训练集: S=Kx ⑴,X ⑴),(χ ⑵,X ⑵),···(χ(Ν),χ W)} 其中,x(1)为第i个训练样本的变化前的特征;x(1)为第i个训练样本的变化后的特征;对 于;[£{1,2,..丄},(1(叉(1))辛0;对于;[£{1^+1,...1^},(1(叉(1))=0。5. 根据权利要求1所述的获取传导分类知识的可拓支持向量机的方法,其特征在于,步 骤3中,计算每个关联函数值非零的训练对象关联半径的方法是: 通过公式d(f(x(1)))d(x "))>0推导出其充分条件 联6. 根据权利要求1所述的获取传导分类知识的可拓支持向量机的方法,其特征在于,步 骤4中,每个支持向量机的子模型为:7. 根据权利要求1所述的获取传导分类知识的可拓支持向量机的方法,其特征在于,步 骤5中,将每个支持向量机模型作了如下凸-凹分解:8.根据权利要求1或7所述的获取传导分类知识的可拓支持向量机的方法,其特征在 于,步骤5中,采用concave-convex programming求解每个支持向量机子模型,其计算方法 如下:(5.4)若V;二f1,则得到最终的子模型,否则令t = t+l并返回步骤(5.2)。
【文档编号】G06K9/62GK105930869SQ201610248093
【公开日】2016年9月7日
【申请日】2016年4月19日
【发明人】汤龙, 杨春燕
【申请人】广东工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1