基于直觉模糊集成的数据分类方法与系统的制作方法

文档序号:6434893阅读:171来源:国知局
专利名称:基于直觉模糊集成的数据分类方法与系统的制作方法
技术领域
本发明是针对数据的分类方法的研究,涉及模式识别领域,特别是涉及一种基于直觉模糊集成的非平衡数据分类方法与基于该方法的系统。
背景技术
在医疗诊断过程中,医生通过对一系列检查得到检查者的若干个指标的客观数据,并以此为依据结合医学知识或临床经验做出最主要的诊断决策患病或正常。此时医生面临的一个问题就是如何科学的将检查者的这些数据分为“患病”或者“正常”中的某一类, 其中历史的正确的诊断数据是一项有力的参考依据。这里医生面临的分类问题具有以下特点(1)历史数据中“患病”或者“正常”的样本数差别较大,即非平衡的,因为大多数人都是 “正常”的;O) “患病”比“正常”更受关注,因为将一个正常人误判为病人固然带来一定的负面效果,然而将一个病人误判为正常人的后果显然严重得多。分类技术作为数据挖掘的一项关键技术,在金融业、零售业、电信业等领域都有广泛的应用。一些现有的机器学习的分类方法已经相对成熟,用来对平衡的数据进行分类能获得较好的性能。然而,现有的分类方法大多基于类内和类间分布大致平衡这个基本假设, 也就是认为各类所含的样本数基本相当,在此前提下通过统计或其他方法学习分类函数。 然而在许多现实问题中,这一假设是不成立的;相反,某个类别中的样本数可能会远远小于其他类别,而这个少数类别恰好是应用中最重要的类别。例如医疗诊断等问题中,少数类的识别率更为重要。在这类问题中,传统的分类方法没有办法兼顾或者重视少数类的识别率, 因此不适合用在对这种类分布不平衡的数据进行分类。对非平衡的数据分类的困难首先在于缺少足够的少数类样本数据。在应用中,少数类(P0S类)样本与多数类(NEG类)样本的比例可达1 1000甚至更大。另一方面,经典的分类评价准则不能有效的评价非平衡数据分类的性能。现有的少数适用于非平衡的数据分类的研究主要集中于(1)通过过采样或者欠采样技术改变数据的分布,使之接近平衡的分布。(2)设计适用于非平衡数据集的分类方法,如代价敏感型分类方法和集成学习方法。现有的研究在以下方面有待改进(1)欠采样技术通过减少多数类样本来改善数据的不平衡状况,但不可避免的要放弃一些样本,也就可能抛弃了一些对分类有用的信息。而过采样技术通过复制或人工生成少数类样本来改变数据分布,也很容易造成过适应。同时如何根据少数类样本的初始分布来进行人工数据的生成也有待研究。( 集成学习方法能很好的改善单分类器的不稳定性,提高整体的分类性能。但传统的集成学习方法只简单的考虑分类器对样本属于类别的支持程度,忽视了分类器输出同时还包含着样本不属于类别的程度,没有定量地考虑分类器输出的模糊的或概率的不确定性。这就导致了集成分类方法有时并没有很大程度地改善分类性能
发明内容
为了解决上述问题,提高非平衡数据环境下对POS类样本的辨识率,并为医疗诊断等应用提供更有效的决策支持,本发明公开了一种新的适用于非平衡数据的分类方法及基于该方法的系统,该方法主要利用POS类样本在类中的位置分布来产生人工样本,再通过直觉模糊理论集成多个模糊分类器的分类结果,进而做出最终决策。为了实现上述发明目的,本发明采用的技术方案如下基于直觉模糊集成的数据分类方法,包括以下步骤步骤101 清洗原始数据集,并将原始POS类样本按其类内位置分类;步骤102 生成POS类人工样本,准备训练数据集;步骤103 为每个基分类器准备类间近似平衡的分类样本,并训练基分类器;步骤104 用基分类器对待分类样本分类,将分类输出等效用转化为直觉模糊矩阵;步骤105 结合分类器权重融合待分类样本属于POS类、NEG类的隶属度和非隶属度,并作出分类决策。本发明还提供了一种基于上述数据分类方法的系统,包括数据交换接口和基于直觉模糊集成的数据分类模块M ;系统运行的平台通过所述数据交换接口向所述数据分类模块M提供用于训练的历史样本集和待分类的样本;同时所述数据分类模块M将分类结果返回给系统平台。其中基于直觉模糊集成的数据分类模块M包括a)数据准备模块Ml 清洗原始数据集中的NEG类样本的噪声,根据POS类样本的类内位置生成人工数据,并形成训练数据集。包含NEG类数据清洗单元Ull、POS类人工数据生成单元U12 ;训练数据合成模块U13 ;b)分类器训练模块M2 利用随机抽样方法为每个基分类器准备训练数据,训练基分类器的模型,同时计算基分类器的权重。包含训练数据准备单元U21、分类器训练单元 U22 ;c)分类模块M3 用分类器训练单元U22中训练的分类器模型对待分类样本分类, 其输出汇总为分类器输出矩阵,将分类器输出矩阵等效用地转换为直觉模糊矩阵,结合分类器权重融合直觉模糊信息并作出分类决策。包含基分类器调用单元U31、等效用转换单元 U32、直觉模糊融合单元U33和分类决策单元U34 ;其中数据准备模块Ml、分类器训练模块M2和分类模块M3依次串行连接。相比本领域的现有技术,本发明的适用于非平衡数据的分类方法具有以下优点 (1)本发明在改善原始数据集中的非平衡的状况时综合欠采样技术和过采样技术;同时本发明设计的过采样技术并不是简单的重复采样,而是根据样本离类边界的程度按一定的比例生成人工数据,避免了过学习现象的发生。( 本发明在训练多分类器系统时,每个基分类器使用不同的数据训练,保证了基分类器之间的差异性,从而提高了系统的集成学习性能。(3)由于本发明对具体的基分类器不作限制,所以在具体实施的时候具有很大的灵活性和可扩展性。在对分类精度要求较高、对时间不敏感的场合,可以采用分类精度高的一种或几种分类器作为基分类器;在对时间要求非常高的场合,可以采用训练和分类速度快但分类精度稍弱的分类器。(4)本发明技术在融合多分类器的输出时采用直觉模糊集的加权融合方法,该方法同时考虑了待分类样本属于某类别的隶属度和非隶属度,量化了分类器的不确定性,并融入分类器的融合过程中,降低了系统的不确定性,提高集成学习的效率。


图1是本发明基于直觉模糊集成的数据分类方法的流程图。图2是本发明分类方法中数据清洗与POS类数据预处理的流程图。图3是本发明分类方法中生成训练数据集的流程图。图4是本发明分类方法中多分类器系统训练的流程图。图5是本发明分类方法中分类器输出转换与融合的流程图。图6是基于本发明分类方法的医疗诊断决策支持系统的结构图。图7是实现本发明分类方法的模块的结构图。
具体实施例方式以下结合附图和具体实施例对本发明作具体说明。本发明的适用于非平衡数据的分类方法如图1所示,包括以下步骤步骤101 清洗原始数据集,并将原始POS类样本按其类内位置分类;步骤102 生成POS类人工样本,准备训练数据集;步骤103 为每个基分类器准备类间近似平衡的分类样本,并训练基分类器;步骤104 用基分类器对待分类样本分类,将分类输出等效用转化为直觉模糊矩阵;步骤105 结合分类器权重融合待分类样本属于POS类、NEG类的隶属度和非隶属度,并作出分类决策。以下进一步详细的说明本发明实施例中的各个细节问题。本发明假设原始数据集中包含两个类(P0S类、NEG类)的样本。样本记为(χ ;y) 或X,其中Χ是一个向量,包含样本所有属性的数据。当χ属于POS类,y = 1,否则y = -1。1、数据清洗与POS类数据预处理本发明首先对原始数据集中的数据进行预处理,包括清洗NEG类的噪音样本、将 POS类样本按类内位置预分类。如图2所示,包含如下步骤步骤201 初始化NEG类训练样本集合N和POS类的边界样本集合BORDER、邻近边界样本集合NEAR_BD、非边界样本集合N0N_BD为空集;步骤202 对于每个NEG类样本(Xi ;_1),选择其m个最近邻,计算m个最近邻中 NEG类样本的比例r。若r < rnoise,则认为该样本为噪音,从原始数据集中删除,否则N = NUKxi ;1)}。其中rn。ise为噪音样本的本类近邻比例阀值。步骤203 对于每个POS类样本(Xi ; 1),选择其m个最近邻,计算m个最近邻中POS 类样本的比例r;若r 彡 rborder,则该样本为边界样本,BORDER = B0RDERU {(Xi ;1)};若< r 彡 rnearbd,则该样本为邻近边界样本,NEAR_BD = NEAR_BDU {(Xi ; 1)};若r〉rnearbd,则该样本为非边界样本,N0N_BD = N0N_BDU {(Xi ; 1)};其中rb dCT、rnearbd分别为边界样本的本类近邻比例阀值、邻近边界样本的本类近邻比例阀值。
2、训练数据集生成本发明根据POS类样本构造一定数量的人工样本,改善原始数据的不平衡状况。 由于越靠近类边界的样本越可能被错误的识别,本发明产生人工样本的基本思想为样本越靠近类边界,根据其产生的人工样本比例就越大。如图3所示,包含如下步骤步骤301 初始化POS类人工数据集合NEW为空集;步骤302 对于每个边界样本集合BORDER中的样本(Xi ; 1),执行(1)从POS类样本中选择(Xi ;1)的k个最近邻;(2)随机产生一个0到k之间的整数S1,从k个最近邻中随机的选择S1个。(3)对于每个选中的最近邻(Xj ;1),产生一个新的POS类人工数据(X^l),其中x(/° = rdm. (x; -Xi) + x;, j = 1,2,L ,这里rdm为(0,1)上的随机数。(4)NEW = iYEfFU{(x(/°;l)}。步骤303 对于每个邻近边界样本集合NEAR_BD中的样本(Xi ; 1),执行(1)从POS类样本中选择(Xi ;1)的k/p个最近邻,其中ρ为边界样本与邻近边界样本在过采样过程中的相对重要性,取大于1的数;(2)随机产生一个0到k/p之间的整数s2,从k/p个最近邻中随机的选择&个。(3)对于每个选中的最近邻(Xj ;1),产生一个新的POS类人工数据(X^l),其中 x(/° = rdm. (x; _ Xi) + χ广 j = 1,2,L , ^2这里rdm为(0,1)上的随机数。(4)NEW = iYEfFU{(x(/°;l)}。步骤304 训练分类器用的POS类样本P为P = borderunear_bdunon_bdunew,训练数据集为PUN。产生人工数据是为了改善类间数据不平衡的状况。对于具体的数据集,设置恰当的k,ρ的值,使得POS类样本数尽可能接近或等于NEG类样本数。3、多分类器系统训练本发明重点在于非平衡数据的采样和多分类器的融合,因此不涉及具体的分类器。任意可以将输出解释为隶属度或者等效用转化为隶属度的分类算法都可以用在本发明中。本发明的多分类器系统中的基分类器可以是同质的也可以是异质的,并且每个基分类器使用不同的数据训练。如图4所示,训练算法如下步骤401 将POS类训练数据集P、NEG类训练数据集N分别随机地均分为η。个子集记SPi ^P Ni (i = l,2,L,n。),其中η。为基分类器的个数;步骤402 对于第i(i = 1,2,1, nc)个分类器,执行(1)用数据PiUNi训练第i个基分类器;(2)取交叉验证的平均分类精度作为第i个基分类器的权重Wi。其中步骤402可以并行执行,以提高训练速度。4、分类决策区别于传统的多分类器系统,本发明首先将分类器的输出统一的等效用转化为直觉模糊数的形式,再结合分类器权重融合这些直觉模糊数。这一过程不仅综合考虑了样本属于某类别的程度,同时也考虑了样本不属于某类别的程度,从而定量的描述了单个分类器的不确定性,提高了分类性能。如图5所示,包含以下步骤
步骤501 将待分类样本(χ ;y)输入到η。个基分类器,输出汇总成矩阵 f
权利要求
1.基于直觉模糊集成的数据分类方法,其特征在于,所述方法包括 步骤101 清洗原始数据集,并将原始POS类样本按其类内位置分类; 步骤102 生成POS类人工样本,准备训练数据集;步骤103 为每个基分类器准备类间近似平衡的分类样本,并训练基分类器; 步骤104 用基分类器对待分类样本分类,将分类输出等效用转化为直觉模糊矩阵; 步骤105:结合分类器权重融合待分类样本属于POS类、NEG类的隶属度和非隶属度,并作出分类决策。
2.如权利要求1所述的基于直觉模糊集成的数据分类方法,其特征在于,所述步骤101 包括如下步骤步骤201 初始化NEG类训练样本集合N和POS类的边界样本集合BORDER、邻近边界样本集合NEAR_BD、非边界样本集合N0N_BD为空集;步骤202 对于每个NEG类样本(Xi ;-1),选择其m个最近邻,计算m个最近邻中NEG类样本的比例r ;若r彡rn。ise,则认为该样本为噪音,从原始数据集中删除,否则N = NUKxi ; 1)},其中rn。ise为噪音样本的本类近邻比例阀值;步骤203 对于每个POS类样本(Xi ;-1),选择其m个最近邻,计算m个最近邻中POS类样本的比例r;若r彡rborder,则该样本为边界样本,BORDER = BORDERUKxi ;1)}; 若 <r ^ rnearbd,则该样本为邻近边界样本,NEAR_BD = NEAR_BDU{ (Xi ;1)}; 若r〉rnembd,则该样本为非边界样本,N0N_BD = N0N_BDU{(Xi ;1)};其中 rb(ffdCT、rnearbd 分别为边界样本的本类近邻比例阀值、邻近边界样本的本类近邻比例阀值。
3.如权利要求1所述的基于直觉模糊集成的数据分类方法,其特征在于,所述步骤102 包括如下步骤步骤301 初始化POS类人工数据集合NEW为空集;步骤302 对于每个边界样本集合BORDER中的样本(Xi ;_1),执行(1)从POS类样本中选择(Xi;-1)的k个最近邻;(2)随机产生一个0到k之间的整数S1,从k个最近邻中随机的选择S1个;(3)对于每个选中的最近邻Uj;1),产生一个新的POS类人工数据(xf^l),其中 x『)=rdm · (xy. _ χ,) + xy, y = l,2,L ,^1这里rdm为(0,1)上的随机数;(4) ΝΕΨ = ΝΕΨυ{(χ{ρ·\)}·,步骤303 对于每个邻近边界样本集合NEAR_BD中的样本(Xi ;_1),执行(1)从POS类样本中选择(Xi;-1)的k/p个最近邻,其中ρ为边界样本与邻近边界样本在过采样过程中的相对重要性,取大于1的数;(2)随机产生一个0到k/p之间的整数s2,从k/p个最近邻中随机的选择S2个;(3)对于每个选中的最近邻Uj;1),产生一个新的POS类人工数据(xf^l),其中 x『)=rdm · (xy. _ χ,) + xy, y=l,2,L ,^2,这里rdm为(0,1)上的随机数;
4.如权利要求1所述的基于直觉模糊集成的数据分类方法,其特征在于,所述步骤103 包含如下步骤步骤401 将POS类训练数据集P、NEG类训练数据集N分别随机地均分为η。个子集 记为Pi和NiG = l,2,L,n。),其中η。为基分类器的个数; 步骤402 对于第i (i = 1,2,L,nc)个分类器,执行(1)用数据PiUNi训练第i个基分类器;(2)取交叉验证的平均分类精度作为第i个基分类器的权重&。
5.如权利要求1所述的基于直觉模糊集成的数据分类方法,其特征在于,所述步骤104 包括如下步骤步骤501 将待分类样本(χ ;y)输入到η。个基分类器,其输出汇总成矩阵
6.如权利要求1所述的基于直觉模糊集成的数据分类方法,其特征在于,所述步骤105 包括如下步骤步骤503 计算待分类样本属于POS类的隶属度μ pos和非隶属度vp。s,以及待分类样本属于NEG类隶属度μ neg和非隶属度Vneg
7.一种基于如权利要求1所述的数据分类方法的系统,其特征在于,所述系统包括数据交换接口和基于直觉模糊集成的数据分类模块M ;系统运行的平台通过所述数据交换接口向所述数据分类模块M提供用于训练的历史样本集和待分类的样本;同时所述数据分类模块M将分类结果返回给系统平台。
8.如权利要求7所述的系统,其特征在于,所述数据分类模块M包括数据准备模块Ml 完成对原始数据的清洗,并生成一定量的人工样本,构成类间近似平衡的训练数据集;分类器训练模块M2 为每个基分类器准备类间近似平衡的训练样本,训练基分类器, 同时计算基分类器的权重;分类模块M3:调用训练好的基分类器对待分类样本分类,将分类器输出汇总并等效用地转换为直觉模糊矩阵,利用直觉模糊推理方法融合该矩阵并作出分类决策; 其中数据准备模块Ml、分类器训练模块M2和分类模块M3依次串行连接。
9.如权利要求8所述的系统,其特征在于,所述数据准备模块Ml包括 NEG类数据清洗单元Ull 用于删除NEG类噪音样本;POS类人工数据生成单元U12 将POS类样本按类内位置分类,再将POS类的边界样本、 邻近边界样本按不同比例生成人工数据;训练数据合成模块U13 利用NEG类清洗后样本、POS类原始样本、POS类人工样本构成训练数据集;其中NEG类数据清洗单元Ul 1,POS类人工数据生成单元U12,训练数据合成模块U13依次串行连接。
10.如权利要求8所述的系统,其特征在于,所述分类器训练模块M2包括基分类器训练数据准备单元U21 利用随机抽样方法为每个基分类器准备类间近似平衡的训练样本;分类器训练单元U22 提供与分类算法兼容的接口,调用分类器,利用训练样本训练基分类模型并利用交叉验证技术计算该分类器的权重;其中基分类器训练数据准备单元U21、分类器训练单元U22依次串行连接。
11.如权利要求8所述的系统,其特征在于,所述分类模块M3包括基分类器调用单元U31 并行地调用训练好的分类模型对待分类样本分类,汇总各个基分类器的输出;等效用转换单元U32 将基分类器的输出等效用地转换为直觉模糊矩阵; 直觉模糊融合单元U33 结合基分类器权重将直觉模糊矩阵融合为两个直觉模糊数, 表示待分类样本属于以及不属于POS类、NEG类的程度;分类决策单元U34 根据这两个直觉模糊数中的信息给出分类决策; 其中基分类器调用单元U31、等效用转换单元U32、直觉模糊融合单元U33、分类决策单元U34依次串行连接。
全文摘要
本发明涉及模式识别领域,公开了一种适用于非平衡数据的基于直觉模糊集成的分类方法和基于该方法的系统。包括a)清洗原始数据,将原始POS类样本按其类内位置分类,生成POS类人工样本;b)用类间近似平衡的不同样本集训练基分类器;c)将基分类器分类输出等效用转化为直觉模糊矩阵,d)结合基分类器权重集成待分类样本属于POS类、NEG类的隶属度和非隶属度,做出分类决策。本发明具有以下优点综合过采样和欠采样,避免过学习;基分类器的训练样本不同,保证其差异性;对基分类器不做具体限制,具有良好的扩展性;直觉模糊推理方法定量的描述了分类中的不确定性,提高了集成学习的性能,因而基于该方法的系统能更好地支持医疗诊断决策等。
文档编号G06K9/62GK102402690SQ201110301869
公开日2012年4月4日 申请日期2011年9月28日 优先权日2011年9月28日
发明者王海, 郑雄燕, 钱钢, 黄为民 申请人:南京师范大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1