一种基于小样本效率表现的聚类方法与流程

文档序号:15447728发布日期:2018-09-14 23:34阅读:2109来源:国知局
本发明涉及一种基于小样本效率表现的聚类方法。
背景技术
:聚类分析是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。以上传统的聚类分析方法存在以下两方面问题:一、上述方法主要通过构建函数的方式来对样本进行聚类,但对多输出类型样本进行聚类显然是不可行的;二、使用这些方法需要对大量样本进行统计分析,当样本较少时,上述方法会出现较大的偏差。然而在实际生活中经常会遇到参考样本较少或输出指标多个时对新样本进行判别的情况,因此这方面的研究是急需和迫切的。dea方法是著名运筹学家charnes、cooper和rhodes三位学者根据多指标投入和多指标产出对相同类型的单位进行相对有效性或效益评价的一种的系统分析方法,是一种评价一组多投入多产出同质决策单元效率的非参数规划方法。由于其在处理多投入多产出小样本系统方面表现的优势得到了广泛的应用和发展,其中理论方面代表性的成果有bcc模型,superefficiencydea模型,sbm(slacks-basedmeasure)模型等。其中超效率dea模型作为dea的一种重要分支,受到了众多学者的关注。传统dea模型,bcc模型和ccr模型,在可以对决策单元的有效性和非有效性进行明确的判定,并可依据效率值对非有效性决策单元进行排序,但是对有效单元却不能进一步的排序。为此,anderson提出了超效率dea模型用于对有效决策单元排序,该方法在评价某决策单元时将自己排除在生产可能集之外,以自己到生产可能集的距离来得出超效率值。因此,该方法不会改变非有效决策单元的效率值,而有效单元以超效率值的大小(大于等于1)可以得到进一步的排序。然而,当某决策单元的产出大于所有其他决策单元的产出(投入型超效率模型)或投入小于所有其他决策单元的投入(产出型超效率模型)时,相应的超效率模型就会出现无解的情况。技术实现要素:本发明的目的在于提供一种基于小样本效率表现的聚类方法,该方法既具有无需处理量纲的优点,同时又能获得比较合理的聚类结果。本发明解决其技术问题所采用的技术方案是:一种基于小样本效率表现的聚类方法,包括以下步骤:s1、建立基于最优前沿面的超效率模型mineff=θ+mδθ≥0,δ≥0,λj≥0,j=1,2,...,n,j≠j0建立基于最劣前沿面的超效率模型maxeff′=mθ+δθ≥0,δ≥0,λj≥0,j=1,2,...,n,j≠j0模型(1)与(2)的效率值等于1+θ+1/(1-δ);s2、对决策单元采用离差平方和法进行归类,具体为:s21、将五个样品各自分成一类,此时类内离差平方和s=0;计算任意个样本合并得出两两距离,计算所增加的离差平方和d(0);s22、确定d(0)的非对角线最小元素dpq,将gp和gq合并成一个新类,记为gr,即gr={gp,gq};s23、根据公式计算新类与其它类的距离:将d(0)中第p、q行及p、q列用公式(3)并成一个新行新列,新行新列对应gr,所得到的矩阵记为d(1);s24、对d(1)重复上述对d(0)的s22、s23两步得d(2);如此重复执行,直至所有的元素并成一类为止。本发明的有益效果是,利用在超效率dea效率值对决策单元进行聚类分析,继承了数据包络分析无需处理量纲的优点,同时能获得比较合理的聚类结果。附图说明下面结合附图和实施例对本发明进一步说明:图1是本发明实施例的样本聚类图。具体实施方式假设有n个评价对象,每一对象记为dmuj(j=1,2,...,n)。每一个决策单元有m种投入和s种产出。dmuj输入为xj=(x1j,x2j,...,xmj)t,输出为yj=(y1j,y2j,...,ysj)t,xj≥0,yj≥0,j=1,2,...,n.即其分量非负且至少有一个是正的。charnes、cooper和rhodes于1978年提出第一个dea模型——ccr模型,banker等人在ccr基础上建立了bcc模型,bcc模型与ccr模型不同之处在于ccr模型假设规模效率不变而bcc模型假设规模效率可变。之后,anderson提出了超效率模型。一般情况下,基于规模报酬可变的超效率模型如下:minθλj≥0,j=1,2,...,n,j≠j0但当某决策单元的产出大于所有其他决策单元的产出时,上述模型就会出现无解的情况,此时利用该模型则无法获得样本的效率表现情况,因此也无法获得进一步的聚类。为此,本发明提供一种基于小样本效率表现的聚类方法,包括以下步骤:s1、建立基于最优前沿面的超效率模型mineff=θ+mδθ≥0,δ≥0,λj≥0,j=1,2,...,n,j≠j0对于模型(1a)有解的决策单元,模型(1)得出的效率值等于模型(1a)的最优值;对于模型(1a)无解的决策单元,那么由模型(1)可以获得其最优解,效率值等于1+θ+1/(1-δ);目前,基于最劣前沿面的传统超效率模型如下:maxθλj≥0,j=1,2,...,n,j≠j0建立基于最劣前沿面的超效率模型maxeff′=mθ+δθ≥0,δ≥0,λj≥0,j=1,2,...,n,j≠j0对于模型(2a)有解的决策单元,其效率值等于模型(2a)的最优值;对于模型(2a)无解的决策单元,那么由模型(2)可以获得其最优解,效率值等于1+θ+1/(1-δ);s2、根据最优前沿面和最劣前沿面的构成可知,若某一决策单元的eff越大,eff′越小时,该决策单元的效率表现就越好;基于这一特征,对决策单元采用离差平方和法进行归类;先将n个样品各自成一类,然后每次缩小一类,每缩小一类离差平方和就要增大,选择使s增加最小的两类合并,因为如果分类正确,同类样品的离差平方和应当较小,直到所有的样品归为一类为止;假设有n个样品需要分成k类:g1,g2,…,gk,用表示gt中的第i个样品,是p维向量,nt表示gt中的样品个数,是gt的重心,则gt中样品的离差平方和为:k个类的类内离差平方和为:将gp与gq的距离定义为:(其中gr=gp∪gq)那么ward法合并类的距离公式为:具体算法步骤如下:s21、将五个样品各自分成一类,此时类内离差平方和s=0;计算任意个样本合并得出两两距离,计算所增加的离差平方和d(0);s22、确定d(0)的非对角线最小元素dpq,将gp和gq合并成一个新类,记为gr,即gr={gp,gq};s23、根据公式计算新类与其它类的距离:将d(0)中第p、q行及p、q列用公式(3)并成一个新行新列,新行新列对应gr,所得到的矩阵记为d(1);s24、对d(1)重复上述对d(0)的s22、s23两步得d(2);如此重复执行,直至所有的元素并成一类为止。下面将列举出一个小样本数例来阐述上文基于dea的聚类分析方法。此小样本数据是来自《internationaljournalofproductionresearch》<46(14),3875-3885,2008)>中的《performancerankingofasianleadframefirms:aslack-basedmethodindataenvelopmentanalysis》,作者为chang,s.y.,&chen,t.h,如表1所示,共10个样本,每个样本有两个投入:工具的账面价值和销售的产品成本;有两个产出:销售利润和平均收益率。表1小样本原始数据首先通过模型(1a)、模型(1)、模型(2a)和模型(2)对上述样本进行效率测算,分别得到基于最优前沿面的传统超效率值、基于最优前沿面的新超效率值、基于最优前沿面的传统超效率值和基于最劣前沿面的新超效率值,结果如表2所示:dmu模型1a模型1模型2a模型2126.978326.9783无可行解3.06352无可行解2844.2270.06820.068231.10661.10660.05410.054141.07131.07130.44730.447350.85270.8527无可行解3.54926无可行解19.36353.9893.989747.681247.68122.08062.080681.36161.3616无可行解3.814492.91572.91571.5131.513101.96481.96480.40260.4026表2四种模型的超效率值从表2可以看出,但有传统的超效率模型对决策单元进行计算时会出现无解的情况,如模型(1a)计算决策单元9时会出现无可行解;模型(2a)计算决策单元1和3时会出现无解的情况。模型(1)和模型(2)可以避免这种情况的出现。而且我们发现并不是基于最优前沿面的效率值越大相应的基于最劣前沿面的效率值就越小,这两者存在很大的相关性但并不绝对。比如根据模型(2a)获得的决策单元2效率值,相对其他决策单元效率值很大;而通过模型(2a)获得的决策单元2效率值为1.0962,并不是很小。由此可知,通过这两种效率比只选一个更具合理性。下面我们利用所提出的算法对上述决策单元进行聚类研究。首先,将十个样品各自分成一类,这时类内离差平方和s=0。接着将一切可能的任意两列合并,计算所增加的离差平方和,见表3。表3离差平方和表3中非对角线最小元素是0.02,说明将g2、g3合并为g11增加的s最少,计算g11与其它类的距离得表4:表4距离公式为其中n1=n2=...=n4=n10=1,n11=2。由表4可知,非对角线最小元素是0.046,说明将g7、g10合并为g12增加的s最少,所以将这两类合并。依次类推,可得全部分类过程,相应的聚类图见图1。对于小样本的聚类问题一直是统计学中的一个重要课题,由于样本量少的原因,大多统计方法并不能合理的对样本进行有效聚类。本发明在回顾dea中超效率文献的基础上提出了基于最劣前沿面的超效率模型,结合之前的基于最优前沿面模型,可以获得决策单元的两种效率值。根据实施例,传统的超效率在计算过程中存在模型无解的情况,因为大多样本中的某个决策单元产出会出现一个大于所有其他决策单元该类指标值,因此传统超效率模型出现无解情况几乎无法避免。通过模型的超效率模型可以很好的避免无解情况的发生。另外,通过算例我们可以发现基于最优和最劣前沿面的超效率值并不是总是此涨彼伏的关系,这从一定上说明通过两个效率值反应决策单元效率表现的必要性。通过本发明的模型,获得样本的效率表现;然后,我们运用最小离差平方和的系统聚类法对样本进行聚类。本发明通过一个小样本算例演示了本文方法的具体运用过程,结果验证了本文方法的有效性。以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制;任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同替换、等效变化及修饰,均仍属于本发明技术方案保护的范围内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1