基于支持向量机的企业预合作伙伴分类方法

文档序号:10512867阅读:228来源:国知局
基于支持向量机的企业预合作伙伴分类方法
【专利摘要】本发明涉及模式识别技术领域,提供一种基于支持向量机的企业预合作伙伴分类方法,包括:步骤100,建立样本集;步骤200,构建企业预合作伙伴的分类器;步骤300,利用训练样本对企业预合作伙伴的分类器进行训练;步骤400,利用测试样本,对训练完的企业预合作伙伴的分类器进行性能评估;步骤500,利用训练完的企业预合作伙伴的分类器,对企业预合作伙伴数据进行分类。本发明的方法实现简单,特别适合于在企业信息中判断候选伙伴是否适合合作,能有效降低人工决策的时间,提高决策的智能性。
【专利说明】
基于支持向量机的企业预合作伙伴分类方法
技术领域
[0001] 本发明涉及模式识别技术领域,尤其涉及一种基于支持向量机的企业预合作伙伴 分类方法。
【背景技术】
[0002] 目前,合作伙伴是帮助企业增加全球市场竞争力的一个策略,缺乏对合作伙伴评 估是合作失败的主要原因,由于影响伙伴选择的因素很多,它们相互关联、相互制约,使得 判断伙伴是否适合合作需要进行大量的运算。同时,在伙伴搜索阶段,通过搜索工具得到的 伙伴数量可能非常庞大,不可能完全由人工来进行筛选,因此,非常有必要考虑利用计算机 作为辅助工具,对企业伙伴决策问题进行必要的智能辅助决策,从而为决策者提供有益的 决策支持。

【发明内容】

[0003] 本发明主要解决现有技术中采用人工筛选企业预合作伙伴,而缺少高效、科学的 企业预合作伙伴分类工具,不能为企业伙伴的决策提供科学依据的技术问题,提出一种基 于支持向量机的企业预合作伙伴分类方法,以达到企业伙伴决策问题的智能辅助决策,为 决策者提供有益的决策支持的目的。
[0004] 本发明提供了一种基于支持向量机的企业预合作伙伴分类方法,包括:
[0005] 步骤100,建立样本集,其中,所述样本集是将η个企业典型特征的特征值作为输 入,将企业合作伙伴的分类结果作为输出,所述样本集中抽出一部分作为训练样本,其余部 分作为测试样本;
[0006] 步骤200,构建企业预合作伙伴的分类器,包括以下过程:
[0007] 步骤201,构造支持向量机的超平面方程如下:
[0008] f (x)=wTx+b (1)
[0009] 其中,w=[wi,W2,…,wn]T,w表示超平面的法线权重向量,b表示超平面的截距,x表 示企业特征向量,f(x)表示用于划分分类结果的最大超平面方程;
[0010]步骤202,根据支持向量机的超平面方程,得到软间隔支持向量机分类器,包括以 下过程:
[0011]确定使合作样本和淘汰样本间隔最大的超平面所对应的分类器如下:
[0013]构造软间隔支持向量机分类器如下:
[0016]其中,ξ表示间隔计算中出现的误差,|=[|1,|2,一,|11]7,(:表示调整误差允许范围 的参数,〇0;
[0017]步骤203,利用拉格朗日对偶方法,确定软间隔支持向量机最大超平面方程如下:
[00?9]其中,兔向量的系数,Xi表示特征向量,yi表示分类结果,b表示截距;
[0020]步骤204,根据高斯核函数和软间隔支持向量机最大超平面方程,得到企业预合作 伙伴的分类器如下:
[0022]步骤300,利用训练样本对企业预合作伙伴的分类器进行训练;
[0023]步骤400,利用测试样本,对训练完的企业预合作伙伴的分类器进行性能评估; [0024]步骤500,利用训练完的企业预合作伙伴的分类器,对企业预合作伙伴数据进行分 类。
[0025] 进一步的,所述企业典型特征包括企业生产规模、企业当前生产量、企业生产效 率、企业生产能力、企业包装能力、企业质量认证、企业技术工人数量、企业可供货种类、企 业成功交货率、企业质检合格率、企业客户等级、企业交货期限、企业供货价格、运输方式、 运输距离、运输成本、企业流动资金、企业注册资金、企业缴税统计和企业银行信誉。
[0026]进一步的,步骤300,利用训练样本对企业预合作伙伴的分类器进行训练,包括以 下子步骤:
[0027] 步骤301,对训练样本进行特征提取,得到典型特征的特征值向量;
[0028]步骤302,给定训练集,通过训练得到企业预合作伙伴的分类器的方程:
[0030]进一步的,在步骤400中,利用测试样本,对训练完的企业预合作伙伴的分类器进 行性能评估,包括以下子步骤:
[0031] 步骤401,将测试样本随机分割成10部分;
[0032] 步骤402,对第i个部分,将分类器与测试样本剩余9个部分相拟合,并计算拟合模 型在预测第i部分数据时的预测误差;
[0033] 步骤403,对? = 1,2,···,10进行以上步骤,并将所得的10个预测的分类错误率平均 处理,得到一个企业预合作伙伴分类器的分类错误率。
[0034] 进一步的,企业合作伙伴的分类结果包括合作和淘汰,当分类结果为合作时,yi = 1;当分类结果为淘汰时,yi = -l。
[0035] 本发明提供的一种基于支持向量机的企业预合作伙伴分类方法,构建了基于高斯 核函数的软间隔支持向量机对企业预合作伙伴的合作/淘汰分类,通过提取企业样本的20 类典型特征,对构建的企业伙伴合作/淘汰分类器进行训练,采用基于10折交叉验证法对分 类器进行性能评估。利用拉格朗日对偶问题的支持向量机分类器的求解方法更为高效,软 间隔支持向量机分类器可以增强对异常样本的鲁棒性,高斯核函数保证了对于未知企业样 本的良好泛化能力而不会出现过学习现象。本发明的方法实现简单,特别适合于在企业信 息中判断候选伙伴是否适合合作,能有效降低人工决策的时间,提高决策的智能性和准确 性。
【附图说明】
[0036] 图1是本发明提供的基于支持向量机的企业预合作伙伴分类方法的实现流程图;
[0037] 图2是本发明提供的基于支持向量机的企业预合作伙伴分类方法的示意图;
[0038] 图3为利用支持向量机构造的超平面方程的示意图;
[0039] 图4为硬间隔支持向量机分类器的示意图;
[0040] 图5为软间隔支持向量机分类器的示意图。
【具体实施方式】
[0041] 为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面 结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施 例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图 中仅示出了与本发明相关的部分而非全部内容。
[0042] 图1是本发明提供的基于支持向量机的企业预合作伙伴分类方法的实现流程图。 图2是本发明提供的基于支持向量机的企业预合作伙伴分类方法的示意图。如图1、2所示, 本发明实施例提供的基于支持向量机的企业预合作伙伴分类方法包括:
[0043] 步骤100,建立样本集。
[0044]所述样本集是将η个企业典型特征的特征值作为输入,将企业合作伙伴的分类结 果作为输出,所述样本集中抽出9/10作为训练样本,其余1/10作为测试样本。在本实施例中 η取20,所述企业典型特征包括企业生产规模、企业当前生产量、企业生产效率、企业生产能 力、企业包装能力、企业质量认证、企业技术工人数量、企业可供货种类、企业成功交货率、 企业质检合格率、企业客户等级、企业交货期限、企业供货价格、运输方式、运输距离、运输 成本、企业流动资金、企业注册资金、企业缴税统计和企业银行信誉。企业合作伙伴的分类 结果包括合作和淘汰。
[0045]另外,给定一个样本集{(私为)}^,X e β e {-1,1},样本集中当分类结 果为合作时,yi = l,为合作样本;当分类结果为淘汰时,yi = -l,为淘汰样本。从样本中提取 多个企业典型特征的特征值,将每一特征值归一化在[1,10]之间,把归一化的特征值作为 样本的数据。
[0046]步骤200,构建企业预合作伙伴的分类器,包括以下过程:
[0047]步骤201,构造支持向量机的超平面方程。
[0048]由于支持向量机基于间隔最大化原理,所以本发明利用支持向量机寻找最优超平 面,能够使得合作样本和淘汰样本中最近的样本之间距离最大,达到比其他方法更优的分 类结果。图3为利用支持向量机构造的超平面方程的示意图。参照图3,在本实施例中,构造 支持向量机的超平面方程如下:
[0049] f(x)=wTx+b (1)
[0050] 其中,w=[wi,W2,…,wn]T,w表示超平面的法线权重向量,即将合作样本与淘汰样本 隔离开的超平面的法线权重向量,b表示超平面的截距(超平面到原点的距离),x表示企业 特征向量,f(x)表示用于划分分类结果的最大超平面方程,图3中方框和圆圈分别代表两种 不同样本,直线代表f( x)。
[0051] 步骤202,根据支持向量机的超平面方程,得到软间隔支持向量机分类器。
[0052] 本发明选取最能充裕地把合作样本和淘汰样本进行分离的超平面作为最优解。这 个最充裕的概念,是正则化后的间隔mi = (WTXi + b)yi/ I I w|的最小值相对应的,即
为两个超平面wTXi+b=l和wTXi+b=_l的间 距的一半。使这个间隔最大(即间隔的倒数的平法最小)的超平面所对应的分类器为硬间隔 支持向量机分类器,见式(2):
[0054]图4为硬间隔支持向量机分类器的示意图。参照图4,硬间隔支持向量机分类器f (x)=wTx+b为最大超平面,使得正负样本间距离最大,
[0055]由于硬间隔支持向量机分类器不允许在间隔的计算中出现少许误差,而软间隔支 持向量机分类器允许在间隔的计算中出现少许误差,所以本发明继续构造软间隔支持向量 机分类器如下:
[0058]其中,ξ表示间隔计算中出现的误差,…,|n]T,C表示调整误差允许范围 的参数,00。图5为软间隔支持向量机分类器的示意图。如图5所示,软件间隔支持向量机分 类器f(x)=wTx+b为最大超平面,使得间隔的计算中出现少许误差样本,图5中实心圆点和实 心方块表不误差样本。
[0059]步骤203,利用拉格朗日对偶方法,确定软间隔支持向量机最大超平面方程。
[0060]使用拉格朗日待定因子人=[\1,\2,~,\]7和拉格朗日函数以1人)=以〇+人\(〇,
[0061 ]进而,利用拉格朗日对偶方法求解软间隔支持向量机分类器,导入拉格朗日变量, 构造拉格朗日函数求解:
[0069] 引入变量α,把w以W = ΣΓ=?α?Υ?χ?的形式表示,引入变量1使得ai+h = C。然后, 把ai+0i = C带入拉格朗日函数,把松弛变量ξ消去。
[0070] 综合以上步骤,支持向量机分类器最优化求解问题就可以用下式表示:
[0074]截距的解&,使用满足条件〇 <沒< C的Xi表示,如下式:
[0076]得到最大超平面方程的参数W ^Σ「=ι龟yiXi,6为Fi - Σκ〇〇利用得 到的参数w和b,获得软间隔支持向量机最大超平面方程如下:
[0078] 其中,與向量的系数,xi表示特征向量,yi表示分类结果,b表示截距。
[0079] 步骤204,根据高斯核函数和软间隔支持向量机最大超平面方程,得到企业预合作 伙伴的分类器。
[0080] 带入核函数求解非线性支持向量机方程,具体的过程:非线性的支持向量机分类 器中,
代入公式(7)得到企业预合作伙伴的分类 器如下:
[0082]步骤300,利用训练样本对企业预合作伙伴的分类器进行训练。
[0083]对训练样本进行特征提取:将训练样本中提取的20个企业典型特征作为分类器的 输入,将企业合作伙伴的分类结果作为输出,对企业预合作伙伴的分类器进行训练。企业典 型特征的特征值范围1-10。在本实施例中,训练样本的企业典型特征和分类结果可参考表 1〇
[0084] 表1企业典型特征的特征向量表
[0085]

[0087]利用训练样本对企业预合作伙伴的分类器进行训练:给定一个训练集,通过训练 得到企业预合作伙伴的分类器方程为:
[0088]步骤400,利用测试样本,对训练完的企业预合作伙伴的分类器进行性能评估。
[0089] 本发明采用交叉验证的方法对训练完的企业预合作伙伴的分类器进行性能评估。 交叉验证的结果作为对算法精度的估计,不同样本集会得到不同的参数,交叉验证为了证 明算法的稳定性,而不依赖样本集。将样本集分成10份,将其中9份作为训练数据,1份作为 测试数据,进行试验。每次试验都会得出相应的正确率(或差错率)。1〇次的结果的正确率 (或差错率)的平均值作为对算法精度的估计,一般还需要进行多次10折交叉验证(例如10 次10折交叉验证),再求其均值,作为对算法准确性的估计。具体如下:
[0090] 步骤401,将测试样本随机分割成10部分。
[0091] 步骤402,对第i个部分,将分类器与测试样本剩余9个部分相拟合,并计算拟合模 型在预测第i部分数据时的预测误差。
[0092] 步骤403,对? = 1,2,···,10进行以上步骤,并将所得的10个预测的分类错误率平均 处理,得出一个企业预合作伙伴分类器的分类错误率。
[0093]步骤500,利用训练完的企业预合作伙伴的分类器,对企业预合作伙伴数据进行分 类。
[0094] 首先对企业预合作伙伴作为样本进行特征提取,获得特征向量X,输入最优的企业
,如果输出值f(x) >〇,则说明此企业预合作伙伴样本的分类结果为合作,yi = i,建议作为合作伙伴。如果f (χ)<〇,则说明此企业预合作伙伴样本的分类结果为淘汰,yi=-l,建议不要作为合作伙伴。
[0095] 本发明基于支持向量机的企业预合作伙伴分类方法,利用拉格朗日对偶问题的支 持向量机分类器的求解方法更为高效,软间隔支持向量机分类器可以增强对异常样本的鲁 棒性,高斯核函数保证了对于未知企业样本的良好泛化能力而不会出现过学习现象。构建 企业预合作伙伴的分类器,能够对企业伙伴样本进行分类,从而判断企业伙伴是否适合合 作,对企业伙伴决策问题进行必要的智能辅助决策。本发明实现简单,特别适合于在企业信 息中判断候选伙伴是否适合合作,能有效降低人工决策的时间,提高决策的智能性,并将支 持向量机方法应用于虚拟企业伙伴决策问题,从学习样本中提取了 20个典型特征作为分类 器的输入,通过构造软间隔支持向量机,引入高斯核函数对企业预合作伙伴进行合作/淘汰 的分类。
[0096] 最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽 管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其对 前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替 换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
【主权项】
1. 一种基于支持向量机的企业预合作伙伴分类方法,其特征在于,包括: 步骤100,建立样本集,其中,所述样本集是将η个企业典型特征的特征值作为输入,将 企业合作伙伴的分类结果作为输出,所述样本集中抽出一部分作为训练样本,其余部分作 为测试样本; 步骤200,构建企业预合作伙伴的分类器,包括以下过程: 步骤201,构造支持向量机的超平面方程如下: f (x) =wTx+b (1) 其中,w= [W1,W2,···,wn]T,w表示超平面的法线权重向量,b表示超平面的截距,x表示企 业特征向量,f(x)表示用于划分分类结果的最大超平面方程; 步骤202,根据支持向量机的超平面方程,得到软间隔支持向量机分类器,包括以下过 程: 确定使合作样本和淘汰样本间隔最大的超平面所对应的分类器如下:句束条件(2):构造软 间隔支持向量机分类器如下:约束条件:(νν?χ + b)yi 21-ξ?,ξ? 2 0, Vi = 1,…(3) 其中,ξ表示间隔计算中出现的误差,ξ= [ξι,ξ2,…,ln]T,C表示调整误差允许范围的参 数,〇0; 步骤203,利用拉格朗日对偶方法,确定软间隔支持向量机最大超平面方程如下:(7) 其中,S.i向量的系数,Xi表示特征向量,yi表示分类结果,b表示截距; 步骤204,根据高斯核函数和软间隔支持向量机最大超平面方程,得到企业预合作伙伴 的分类器如下:(8) 步骤300,利用训练样本对企业预合作伙伴的分类器进行训练; 步骤400,利用测试样本,对训练完的企业预合作伙伴的分类器进行性能评估; 步骤500,利用训练完的企业预合作伙伴的分类器,对企业预合作伙伴数据进行分类。2. 根据权利要求1所述的基于支持向量机的企业预合作伙伴分类方法,其特征在于,所 述企业典型特征包括企业生产规模、企业当前生产量、企业生产效率、企业生产能力、企业 包装能力、企业质量认证、企业技术工人数量、企业可供货种类、企业成功交货率、企业质检 合格率、企业客户等级、企业交货期限、企业供货价格、运输方式、运输距离、运输成本、企业 流动资金、企业注册资金、企业缴税统计和企业银行信誉。3. 根据权利要求1所述的基于支持向量机的企业预合作伙伴分类方法,其特征在于,步 骤300,利用训练样本对企业预合作伙伴的分类器进行训练,包括以下子步骤: 步骤301,对训练样本进行特征提取,得到典型特征的特征值向量; 步骤302,给定训练集,通过训练得到企业预合作伙伴的分类器的方程: (8)。4. 根据权利要求1所述的基于支持向量机的企业预合作伙伴分类方法,其特征在于,在 步骤400中,利用测试样本,对训练完的企业预合作伙伴的分类器进行性能评估,包括以下 子步骤: 步骤401,将测试样本随机分割成10部分; 步骤402,对第i个部分,将分类器与测试样本剩余9个部分相拟合,并计算拟合模型在 预测第i部分数据时的预测误差; 步骤403,对i = l,2,···,10进行以上步骤,并将所得的10个预测的分类错误率平均处 理,得到一个企业预合作伙伴分类器的分类错误率。5. 根据权利要求1所述的基于支持向量机的企业预合作伙伴分类方法,其特征在于,企 业合作伙伴的分类结果包括合作和淘汰,当分类结果为合作时, yi= 1;当分类结果为淘汰 时,yi = -l〇
【文档编号】G06Q10/06GK105868900SQ201610178867
【公开日】2016年8月17日
【申请日】2016年3月28日
【发明人】梁冰
【申请人】大连理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1