一种基于相互约束的模糊数据分类方法

文档序号:6525086阅读:129来源:国知局
一种基于相互约束的模糊数据分类方法
【专利摘要】本发明公开了一种基于相互约束的模糊数据分类方法,用于信息类别模式的建立和数据类别分析,其关键点在于:利用基于弹性理论的4点中心边界算法构造类别规则(五元组模式),利用基于约束规则的模式微调和基于自学习的分类规则优化进行类别规则(五元组)的优化和调整。该算法具备特殊样本(当前未知类别)检测能力,适合于普适数据的分类分析挖掘,对于离群点、类别拓扑不规则和“尖锐边界”问题有较好的适应力,同时,适用于数据量大、不能一次性读入内存的数据集进行分类分析,具有类别自主调整和标识功能。同现有的算法相比较,算法平均识别率达99.47%,平均误报率仅为5.2%,算法运行速度略低于传统算法。
【专利说明】一种基于相互约束的模糊数据分类方法
【技术领域】
[0001]本发明涉及计算机信息【技术领域】,特别涉及一种基于相互约束的模糊数据分类方法。
【背景技术】
[0002]模糊分类分析是当前非常重要的研究和应用课题,在工程技术和经济领域有着广泛的应用。
[0003]模糊分类分析是基于模糊理论对已知类别信息的数据进行学习,获取相应类别的模式规则,然后再通过模式规则对新来数据进行类别判定。模糊分类分析的关键是检测准确度、对新数据的识别能力和一定的泛化处理能力,其核心是泛化处理能力。
[0004]许多学者对模糊分类器的泛化能力进行了研究,从拓扑角度分,目前常见的有三种模糊分类器结构:超矩形、多面体型和椭圆型,但由于建立的基础限制了它们的检测效率和较大的模式库规模。也有学者从遗传算法、神经网络和相互约束的角度给出了模糊分类算法,增强了算法的普适性,降低了模式库的规模,但存在对训练集数据要求高、训练时间长、处理速度慢、结果不易解读的问题。
[0005]同时,在样本数据分布较复杂的情况下,异类样本所形成的集合图型往往会出现相互重叠、图形上存在较大拐点(如拓扑图形棒槌状)或者发现传统的两类数据在概念上可以作为同一类出现等情况,因 此需要进行模式的合并更新,将原始模式删除、更新,以增加模式的代表性、自学习能力、降低模式库规模、提高检测速度和准确度。
[0006]如针对图2,可能会发生如下误分情况:①B类数据被误分入A类数据;@A类数据中包含B类数据;@ A类数据被误分入B类;④B类数据中包含A类数据A类数据被误分入C类;⑥C类数据中包含A类数据?’⑦C类数据被误分入A类;⑧A类数据中包含C类数据。
[0007]因此,对相关难点问题进行进一步的分析和缓解具有重要意义。

【发明内容】

[0008]为了克服【背景技术】中的不足,提出一种基于相互约束的模糊数据分类方法,用于提高模糊分类算法的泛化分类能力,解决数据分布较复杂情况下异类样本所形成集合的重叠、较大拐点以及数据合并的问题,提高模糊分类算法的准确性、适应性和自学习能力。
[0009]为解决上述技术问题,本发明提供了如下技术方案:
[0010]一种基于相互约束的模糊数据分类方法,该算法至少包括以下的步骤:
[0011]I)录入带有分类标识的数据集,并给出模式合并阈值入i ;
[0012]2)针对每类数据集,分别利用基于弹性约束的四点中心边界方法EFCBA挖掘模式规则,最终建立模式库;
[0013]3)进行未知类型数据的类型检测,根据基于约束的类别归属算法EDCA进行数据分类,给出分类标识信息;[0014]4)针对分类结果,使用自学习调节模型进行模式库模式更新;针对需要模式合并的模式,给出合并建议,由用户进行结果的认定,若接受结果则进入步骤5 ;否则进入步骤6 ;
[0015]5)更新模式库,并针对合并规则标识子分类信息,进行类别层级的划分和标识;
[0016]6)完成模式库模式类别的标识,给出最终结果信息。
[0017]优选的是,所述基于弹性约束的模糊分类算法是基于虚拟数字实体化观点来思考模式库的建立、数据的分类和模式更新。
[0018]优选的是,所述在进行模式规则挖掘时,通过五元组{A、B、C、D、Differences}来表示类别模式。
[0019]优选的是,所述五元组{A、B、C、D、Differences}通过基于弹性理论的4点中心边界算法 EFCBA (Elasticity based four-point center and border line algorithmillustration)进行获取。
[0020]优选的是,当进行类型检测时,检测过程是利用模式库中挖掘的模式记录来约束给定记录,判断相互之间的差异程度,给出相互间的比较等级step、等级相似程度simulation和是否为该类的类别标识ismember (O是,I否)。
[0021]在完成类别检测后,结果集合ArryRes {kind, ismember, step, simulation}表明了未知数据对每个现有数据类的相似性,通过基于约束的类别归属算法EDCA进行最终类别的判定。
[0022]优选的是,所述比较等级step指记录与给定聚集相互比较所达到的层次,根据虚拟数字实体化观点,把比较等级分为5级;所述等级相似程度simulation指在当前比较等级下,记录与给定类别间的相似程度,用距离比来表示等级相似程度,不同等级距离的取值方法也有所不同,根据虚拟数字实体化观点各级等级相似程度进行求解;
[0023]所述相似程度指某个记录与给定类别相似的程度,通过比较等级和等级相似程度来表示。
[0024]优选的是,分类完成的结果能够进行基于自学习的调节,自学习调节模型由基于约束规则的分类器微调和基于自学习的分类规则优化更新算法组成。
[0025]优选的是,所述基于约束规则的分类器微调CIC (Constraint-based InchingClassification Algorithm)是以约束理论为基础,利用特殊数据实现对五元组微调;
[0026]所述基于自学习的分类规则优化更新OCRS (Optimized Classification RuleAlgorithm Base on Self-training)过程如下:利用阈值λ i判定两模式是否能够进行合并;对于要合并的模式,首先查找其原属类别,将这两个类别数据合并到一起,然后调用模式生成算法EFCBA重新生成该模式,并将新的模式命名为原来两个模式名的合名,并设定子分类表示,最后提示模式改进完成。
[0027]由上述方案可看出,本发明的关键在于:基于虚拟数字实体化观点的数据类别表示方法(五元组),通过相互约束进行普适性数据的模糊分类规则建立;通过基于约束规则的分类器微调和基于自学习的分类规则优化更新算法进行模糊分类规则的调整和优化;实现对普适性数据的识别和类别判定。
[0028]与现有技术对比,本发明具有以下特点和优点:
[0029]1、能够更好地处理普适性数据的分类及分类判定问题,类别判定准确性、识别率提升;
[0030]2、能够实现已知类别数据的再整理,判断数据类别间的相似度,进行数据类别的合并,最终自动实现多层类别目录;便于进行更广的商业应用;
[0031]3、虽然通过五元组表示类别规则,规则学习的时间有所增加,但实际应用中规则学习一般是离线状态下进行,因此对类别检测过程并没有太大影响,因此对检测速度影响极小;
[0032]4、由于规则建立是逐步进行,因此对数据集规模并没有严格限制,因此适合于大规模数据的分类分析。
【专利附图】

【附图说明】
[0033]图1为虚拟数字实体化观点;
[0034]图2为二维平面中的三类样本;
【具体实施方式】
[0035]以下参照附图并结合【具体实施方式】来进一步描述本发明,以令本领域技术人员参照说明书文字能够据以实施,本发明保护范围并不受限于本发明的【具体实施方式】。
[0036]一种基于相互约束的模糊数据分类方法,该方法至少包括以下的步骤:
[0037]I)录入带有分类标识的数据集,并给出模式合并阈值λ i (默认为0.001);
[0038]2)针对每类数据集,分别利用基于弹性约束的四点中心边界方法EFCBA挖掘模式规则,最终建立模式(五元组)库;
[0039]3)进行未知类型数据的类型检测,根据基于约束的类别归属算法EDCA进行数据分类,给出分类标识信息;
[0040]4)针对分类结果,使用自学习调节模型进行模式库模式更新;针对需要模式合并的模式,给出合并建议,由用户进行结果的认定,若接受结果则进入步骤5 ;否则进入步骤6 ;
[0041]5)更新模式库,并针对合并规则标识子分类信息,进行类别层级的划分和标识;
[0042]6)完成模式库模式类别的标识,给出最终结果信息。
[0043]所述方法基于虚拟数字实体化观点来思考模式库的建立、数据的分类和模式更新;
[0044]根据几何学和集合论观点,每种数据集合都会有一个几何图形与其相对应;在此,我们进一步将集合看作是一个由若干个同质粒子和一个质核组成的有机实体,每个粒子都包含坐标、质量等一系列属性,因此各个粒子间以及与质核间都存在相互作用,如引力和斥力;依据万有引力定律和弹性理论,对于在一个实体内部的粒子,它会受到质核的引力而趋向于自己的种类,同时由于其它粒子对其的引力和斥力会影响它的具体位置和实体外型,其中存在一些起主要作用的粒子.不属于集合的粒子会被排斥在外,即当一粒子属于该实体时,质核会将其吸引在自己附近,其它粒子会决定它的具体位置;这就是基于虚拟数字实体化观点;利用上述思维我们可以建立一种新的代表数据构建方法,实现对实体表示和粒子归类检测。前提是默认每个实体一开始都是确定的,所有粒子都是确定存在的。
[0045]如图1所示,在进行模式规则挖掘时,通过五元组{A、B、C、D、Differences}来表示类别模式,即,一个中心点D、三个边界点(A、B、C)和6个差异度参数,最终达到提高模式规则的代表性和对新数据分类能力的目的。A、B、C、D这4个点结合起来表示该数据集合中最具代表性的点,Differences由AD |、AB |、BD |、CA|、CB |、CD这6个差异度参数表示约束。
[0046]差异度可由下式求得:
[0047]I epj I = 1—Sim=I—( μ Sim(s)+ η Sim(n))
[0048]其中,ei;表示数据记录;
[0049]Sim(ei_ej),表示两个数据记录间的相似度,可采用现在方法;
[0050]Sim(s) (e1-ej),表示品质型数据相似度的计算方法;
[0051]Sim(n) (ei_ej),表示数值型数据相似度的计算方法;
[0052]μ, n,分别表示品质型变量和数值型变量各占总变量数目的比例;
[0053]中心D点通过求解所有记录的每个属性的平均值来获取,即
[0054] D={X1,X2,...XN}[0055]式中:n,数据的属性个数;
[0056]f可用下式求得,
【权利要求】
1.一种基于相互约束的模糊数据分类方法,其特征在于:该方法至少包括以下的步骤: 1)录入带有分类标识的数据集,并给出模式合并阈值λi ; 2)针对每类数据集,分别利用基于弹性约束的四点中心边界方法EFCBA挖掘模式规则,最终建立模式库; 3)进行未知类型数据的类型检测,根据基于约束的类别归属算法EDCA进行数据分类,给出分类标识信息; 4)针对分类结果,使用自学习调节模型进行模式库模式更新;针对需要模式合并的模式,给出合并建议,由用户进行结果的认定,若接受结果则进入步骤5 ;否则进入步骤6 ; 5)更新模式库,并针对合并规则标识子分类信息,进行类别层级的划分和标识; 6)完成模式库模式类别的标识,给出最终结果信息。
2.根据权利要求1所述的基于相互约束的模糊数据分类方法,其特征在于:所述基于弹性约束的模糊分类算法是基于虚拟数字实体化观点来思考模式库的建立、数据的分类和模式更新。
3.根据权利要求1所述的基于相互约束的模糊数据分类方法,其特征在于:所述在进行模式规则挖掘时,通过五元组{A、B、C、D、Differences}来表示类别模式。
4.根据权利要求3所述的基于相互约束的模糊数据分类方法,其特征在于:所述五元组{A、B、C、D、Differences}通`过基于弹性理论的4点中心边界算法EFCBA (Elasticitybased four-point center and border line algorithm illustration)进行获取。
5.根据权利要求1所述的基于相互约束的模糊数据分类方法,其特征在于:当进行类型检测时,检测过程是利用模式库中挖掘的模式记录来约束给定记录,判断相互之间的差异程度,给出相互间的比较等级step、等级相似程度simulation和是否为该类的类别标识ismember。
6.根据权利要求1所述的基于相互约束的模糊数据分类方法,其特征在于:在完成类别检测后,结果集合ArryRes {kind, ismember, step, simulation}表明了未知数据对每个现有数据类的相似性,通过基于约束的类别归属算法EDCA进行最终类别的判定。
7.根据权利要求5所述的基于相互约束的模糊数据分类方法,其特征在于:所述比较等级step指记录与给定聚集相互比较所达到的层次,根据虚拟数字实体化观点,把比较等级分为5级;所述等级相似程度simulation指在当前比较等级下,记录与给定类别间的相似程度,用距离比来表示等级相似程度,不同等级距离的取值方法也有所不同,根据虚拟数字实体化观点各级等级相似程度进行求解; 所述相似程度指某个记录与给定类别相似的程度,通过比较等级和等级相似程度来表/Jn ο
8.根据权利要求1所述的基于相互约束的模糊数据分类方法,其特征在于:分类完成的结果能够进行基于自学习的调节,自学习调节模型由基于约束规则的分类器微调和基于自学习的分类规则优化更新算法组成。
9.根据权利要求8所述的基于相互约束的模糊数据分类方法,其特征在于:所述基于约束规则的分类器微调 CIC (Constraint-based Inching Classification Algorithm)是以约束理论为基础,利用特殊数据实现对五元组微调;所述基于自学习的分类规则优化更新OCRS (Optimized Classification RuleAlgorithm Base on Self-training)过程如下: 利用阈值λ 1判定两模式是否能够进行合并;对于要合并的模式,首先查找其原属类另O,将这两个类别数据合并到一起,然后调用模式生成算法EFCBA重新生成该模式,并将新的模式命名 为原来两个模式名的合名,并设定子分类表示,最后提示模式改进完成。
【文档编号】G06F17/30GK103886007SQ201310715125
【公开日】2014年6月25日 申请日期:2013年12月20日 优先权日:2013年12月20日
【发明者】令狐大智, 李陶深, 庞大莲, 梁戈夫, 武新丽, 汪涛, 梁淑红 申请人:广西大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1