一种基于模糊粗糙模型的分类规则提取方法

文档序号：6583495阅读：1131来源：国知局

专利名称：一种基于模糊粗糙模型的分类规则提取方法
技术领域：
本发明属智能决策支持系统中的数据挖掘技术，涉及一种模型的分类规则提取方法，具体是指一种基于模糊粗糙模型的分类规则提取方法。
背景技术：
粗糙集理论是一种分析数据的数学工具，其特点是不需要预先给定某些特征或属性的数量描述，而是直接从给定问题的描述集合出发，找出该问题中的内在规律。它具有知识提取完全由数据驱动而不需要人为假设、简化输入信息的表达空间、算法简单且易于操作等优点。但是，粗糙集的数学基础是集合论，对信息表中连续属性的处理能力非常有限。目前针对具有连续属性的信息表的数据挖掘问题，最普遍的方法是对连续数据进行离散化，由于对连续属性的值进行离散化划分具有不同种方法，现有实验已经证明所有可能划分状态的最优离散化方法是一种NP-hard问题。目前对连续属性离散化的方法目前有三种分类其一，有监督的离散化和无监督的离散化；其二，全局离散化与局部离散化；其三，静态离散化与动态离散化。$ US i 白勺 1 禾呈(Unsupervised discretization procedures) ^iJ 分一个连续变量时仅考虑这个属性数据的分布特性，而有监督的离散化过程 (Superviseddiscretization procedures)除此之外还需考虑每一个对象的分类信息。常用的无监督的离散化过程包括1、等宽区间法(equal-width-intervals) ；2、等频区间法 (equal-freguency-intervals) ；3、串分析方法。有监督的离散化是为了使被离散化属性与分类属性之间的某种关系测度最大化，例如可利用熵测度或信息增益测度(for example Quinlan 1993 ；Catlett 1991 ；Fayyad & Irani 1993)。无监督的离散化算法运行速度快，而有监督的离散化算法由于考虑了分类标识因而可产生精度较高的离散树。全局离散化(GlcAal Discretization Method)是指在同一时刻对决策表中全部连续条件属性的属性值进行划分的方法，而局部离散化(Local DiscretizationMethod)则是指在同一时刻仅对一个连续属性的属性值进行划分的方法。则全局离散化在全部连续属性的离散化过程中只能产生一组离散划分值，而局部离散化针对同一个连续属性都可产生不同种划分。对于全局离散方法主要有以下几种策略归并方法和划分方法，划分法又分为动态型和静态型；动态划分主要与决策树有关，它是一边生成决策树，一边进行连续值区间的划分；静态划分方法又称为预处理型，即在训练例子集合之前就把连续属性预先都离散化了，从而在机器学习时可大大提高学习效率。使用有监督离散化方法的系统大部分使用全局离散化。静态离散化方法如捆绑法(Binning)和基于熵的方法都是针对不同的属性％可产生不同个数的离散化间隔数ki;而动态离散化方法则是在所有属性上仅可产生同一个离散间隔数k。目前文献记载的离散化方法均属于静态离散化方法，动态离散化是学者正在研究的目标。然而无论哪一种类型的连续属性离散化方法，对于离散归一化的结果都应满足下列三点1、连续属性离散化后的空间维数尽量小，也就是每一个离散归一化后的属性值的种类尽量少；2、属性值被离散归一化后的信息丢失尽量少；3、对于小样本，离散化后应保持决策系统的相容性；对于大样本，可给出离散化后的决策系统不相容性水平。因此，综上所述，目前连续属性离散化方法的不足之处是由于将连续属性值的模糊边界没有考虑到，因而在离散化过程中，若离散区间太多则后续的数据挖掘过程太复杂导致挖掘规则不精炼准确；若离散区间太少则会丢失重要数据信息。

发明内容
本发明要解决的技术问题是提供一种基于模糊粗糙模型的分类规则提取方法，该方法在模糊集合论的连续属性模糊化过程，从新的角度将精确和模糊联系在一起，为处理不确定的信息提供了一种新的方法，通过隶属函数来刻划模糊概念，能有效地解决粗糙集中模糊边界问题，从而使得数据挖掘规则精炼准确，避免丢失重要数据信息。为解决上述技术问题，本发明采用的技术方案为一种基于模糊粗糙模型的分类规则提取方法，包括以下步骤首先利用模糊集中的隶属函数对信息表中的连续属性进行属性模糊化，这样既可防止数据的损失，又能表示出各属性值的差别，从而构造具有模糊属性值的决策系统；再应用模糊相似关系中的粗糙集提出逼近精度近似度量、粗糙逼近精度近似度量、逼近精度分类质量测度、逼近精度相对分类测度等参数，从而建立基于逼近精度的模糊-粗糙集的约减算法来求取分类规则。上述基于模糊-粗糙约减算法包括1、参数说明及定义设决策系统中条件属性集合C中有m个属性=C1, C2, A，Cffl,决策属性集合为D，由 D决定的划分为{Υ1;Υ2，Λ，Yk}，对每个条件属性Ci计算以下k+4个参数 (。)'CCci (L^， yCi(L) cpCi{L) PCi{L) ^ φ i = IAffljj = IAk0令、和分别为这k+4个参数的算数均值
和几何均值；在每个条件属性Ci的k+4个参数中同时考虑了条件属性与决策属性的绝对分类和相对分类，使条件属性对决策的分类重要性更有具全面性和合理性；2、属性Ci的重要性定义为=QT1Tci +QT2ATciα工和α 2分别为用户指定的算数均值和几何均值的重要性参数，当所有k+4个参数都非0时，表明该属性对划分的各子集都有影响，因而增加几何均值&,是为了将这种重要性影响体现出现。上述算法包括以下步骤(1)计算条件属性集合的Yc(L)；(2)对于任意条件属性计算Z = {ZCf}；(3)初始化 C° = Φ ；(4) C0=C0+ {C, I V/,取 Ci 使石,最大}；
(5)判断/c/ <&(幻,若满足则继续下一步，否则返回上一步；(6) C°即为一个最小约减。本发明相对于现有技术，通过利用基于逼近精度参数的算法将各连续属性按重要性由大到小依次加入到属性约减集中，直到满足约减条件为止，算法具有简单易实现的特点，尤其在条件属性较多时，能较快地求出属性约减。

图1是输入数据模式。的隶属度函数π函数分布图。
具体实施例方式一种基于模糊粗糙模型的分类规则提取方法，包括以下步骤首先利用模糊集中的隶属函数对信息表中的连续属性进行属性模糊化，这样既可防止数据的损失，又能表示出各属性值的差别，从而构造具有模糊属性值的决策系统；再应用模糊相似关系中的粗糙集提出逼近精度近似度量、粗糙逼近精度近似度量、逼近精度分类质量测度、逼近精度相对分类测度等参数，从而建立基于逼近精度的模糊-粗糙约减算法来求取分类规则。上述基于模糊-粗糙约减算法包括1、参数说明及定义设决策系统中条件属性集合C中有m个属性=C1, C2, A，Cffl,决策属性集合为D，由 D决定的划分为{Υ1; Υ2，Λ，YJ，对每个条件属性Ci计算以下k+4个参数凡,(Fj) (Z)， A CQ，，凡00，其中i = IAm, j = IAk;令、和\分别为这k+4个参数的算数均值和几何均值；在每个条件属性Ci的k+4个参数中同时考虑了条件属性与决策属性的绝对分类和相对分类，使条件属性对决策的分类重要性更有具全面性和合理性。2、属性Ci的重要性定义为^c, =CClTci +a2KCiα工和α 2分别为用户指定的算数均值和几何均值的重要性参数，当所有k+4个参数都非0时，表明该属性对划分的各子集都有影响，因而增加几何均值\是为了将这种重要性影响体现出现。上述算法包括如下步骤(1)计算条件属性集合的Yc(L)；(2)对于任意条件属性计算Z = {Zc, }；(3)初始化 C0 = Φ ；(4) C0=C0+ {C, I V/，取 Ci 使&最大}；(5)判断R/ <斤(幻,若满足则继续下一步，否则返回上一步；(6) C°即为一个最小约减。实施例一种基于模糊粗糙模型的分类规则提取方法，包括1、连续属性模糊化(1)连续属性值的决策系统
设有一个决策系统(U，Q，V，f)，其中U = Ix1, x2, A，xj为非空的有限论域，表示对象；Q为非空的属性集，Q = CY{d}，C = {Ql, q2, A，qj是一个非空、有限的条件属性集， {d}为决策属性集，d:U- {1,2, A,g} ；V为属性值，V = VcYVd, Vc = {Vq :q e C}是条件属性值集，Vd是决策属性值集，并且第i个对象在第j个条件属性下的属性值 (1 = IA η, j = IAm)为连续属性值；f :UXQ —V是一个信息映射函数，显然这是一个属性值连续的决策系统。(2)属性模糊化在实际应用中，对连续属性进行模糊化的关键是确定隶属度函数，利用π函数对属性进行模糊划分。在模糊集合中模糊成员值用三个参数表示即Iow(L)，Hiedium(M), high (H)，则任意一个η维的数据模式Fj = [Fjl, Fj2，Λ，Fjn]可以用一个3η维的向量表示Fj = [m1ow(Fji) (Fj )，Λ，MhigKFjn) (Fj)]其中μ值表示对应于模糊JI集三个参数Iow(L) ,medium (M)，high (H)的隶属函
数值。当输入数据模式h是连续值时，其隶属度μ在一维空间中表示为
权利要求
1.一种基于模糊粗糙模型的分类规则提取方法，包括以下步骤首先利用模糊集中的隶属函数对信息表中的连续属性进行属性模糊化，构造具有模糊属性值的决策系统；再应用模糊相似关系中的粗糙集提出逼近精度近似度量、粗糙逼近精度近似度量、逼近精度分类质量测度、逼近精度相对分类测度等参数，从而建立基于逼近精度的模糊-粗糙集约减算法来求取分类规则。
2.根据权利要求1所述的一种基于模糊粗糙模型的分类规则提取方法，其特征在于所述模糊-粗糙约减算法包括(1)参数说明及定义设决策系统中条件属性集合C中有m个属性C1，C2，Λ，Cm，决策属性集合为D，由D决定的划分为{Y1; Y2, Λ，Yk}，对每个条件属性(；计算以下k+4个参数 ^c1
3.根据权利要求1或2所述的一种基于模糊粗糙模型的分类规则提取方法，其特征在于所述模糊-粗糙约减算法上述算法包括以下步骤(1)计算条件属性集合的Yc(L)；(2)对于任意条件属性计算Z=(3)初始化C°= Φ ；(4)C0 = C0 +[Ci I ViMCi^ZcMM ；(5)判断;^/</cCQ，若满足则继续下一步，否则返回上一步；(6)C0即为一个最小约减。
全文摘要
本发明涉及一种基于模糊粗糙模型的分类规则提取方法。目前连续属性离散化方法由于将连续属性值的模糊边界没有考虑到，因而在离散化过程中，使得数据挖掘规则不够精炼准确，容易丢失重要数据信息。本发明的分类规则提取方法，首先利用模糊集中的隶属函数对信息表中的连续属性进行属性模糊化，再应用模糊相似关系中的粗糙集提出逼近精度近似度量、粗糙逼近精度近似度量、逼近精度分类质量测度、逼近精度相对分类测度等参数，从而建立基于逼近精度的模糊-粗糙集约减算法来求取分类规则。本发明利用将各连续属性按重要性由大到小依次加入到属性约减集中，直到满足约减条件为止，尤其在条件属性较多时，能较快地求出属性约减。
文档编号G06F17/30GK102096672SQ20091021937
公开日2011年6月15日申请日期2009年12月9日优先权日2009年12月9日
发明者张文宇申请人:西安邮电学院

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张文宇
技术所有人：西安邮电学院
我是此专利的发明人

上一篇：一种精确设计制作ArcGIS符号库的方法
上一篇：并行CRC算法Verilog HDL代码自动生成器及其方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。