基于模糊粗糙集条件熵属性约简的数据分析方法

文档序号:6520983阅读:290来源:国知局
基于模糊粗糙集条件熵属性约简的数据分析方法
【专利摘要】本发明公开了基于模糊粗糙集条件熵属性约简的数据分析方法,属于数据分析领域,包括以下步骤,将数据的属性构造为一个模糊粗糙集,同时确定数据的模糊决策表本发明的有益效果如下:基于模糊粗糙集的条件熵,并对传统的信息熵和条件熵进行了重新定义,根据要求获得条件熵最小时的属性,从而得到一个新的属性约简方法,应用到人体健康数据的属性约简分类中,而根据约简之后的健康数据属性,可以快速而准确地完成健康数据的分析,由于该种方法约简的结果,能较好的保留原来连续属性值之间的差异性及过渡性,从而保留了原来属性的特征,根据这些约简后的数据就可以较快地判定人体的健康情况。
【专利说明】基于模糊粗糙集条件熵属性约简的数据分析方法
【技术领域】
[0001]本发明涉及数据分析领域,具体涉及基于模糊粗糙集条件熵属性约简的数据分析方法。
【背景技术】
[0002]进入21世界以来,人们的生活水平随科技的发展而逐步提高,越来越多的人开始关注自身的健康问题,而医学上会根据测量得到的人体健康数据进行健康情况的判定。由于所获得的众多数据会出现属性一样、类别相同的数据,这些数据对于判断整体健康数据来说没有太多帮助,因此如何从众多的数据属性当中获得有效的数据是本领域的重要内容。
[0003]属性约简是粗糙集和模糊粗糙集应用于医学领域的重要技术。在生物医学中,使用到模糊粗糙集的属性约简,可以大大提高人类健康数据分析的效率。生物医学领域当中会根据对人体检测获得的健康数据进行分析,从而根据分析的结果来判定该实体的健康情况,但是一个实体的健康数据会有很多,真正有决策意义的数据却并没有测得的数据那样多,这就涉及到属性约简的方法,采用基于模糊粗糙集条件熵属性约简可以对获得的人体健康数据进行属性归类,从众多数据中获得需要的有用健康信息。
[0004]属性约简当中涉及到模糊粗糙集,模糊粗糙集是D.Dubios和H.Prad在1992年提出的,他们将模糊集和粗糙集结合,对粗糙集理论进行了扩展,从而得到了模糊粗糙集。模糊粗糙集相对经典粗糙集的优势就在于引入了模糊集理论,该理论是用模糊集合及隶属度来描述一个对象,使得模糊粗糙集不需要进行经典粗糙集的离散化过程,只需要进行的是模糊化过程,即求解对象隶属度值的过程。相比离散化,模糊化能够较好的保留原来健康数据连续属性值之间的差异性及过渡性。

【发明内容】

[0005]本发明的目的是为了提高数据分析的效率而提出的一种基于模糊粗糙集条件熵属性约简的数据分析方法。
[0006]为了实现以上发明目的,本发明采取的技术方案如下:一种基于模糊粗糙集条件熵属性约简的数据分析方法,包括以下步骤:
[0007]S1:将数据的属性构造为一个模糊粗糙集,同时确定数据的模糊决策表DT= (1.:, X = CuD.V.f),其中u是论域,A是由对象的基本属性构成的集合,C为条件属性,D为决策属性,V代表信息函数f的值域;
[0008]S2:取一个集合T,并规定它为空集,令这个集合T的最优依赖函数Hbest为0,A的个数i=l ;
[0009]S3:在每一次判断时,都使得集合T为前一次执行时符合条件的集合T,并使得期望的依赖函数Hpra为最优依赖函数值Hbejst ;[0010]S4:对于每一个a∈ c-r,其中R是等价关系的集合,计算获得决策属性D和属性的条件熵并判断它与条件熵H(D|T)的大小关系;如果前者小
于后者,那么就令集合T为新的集合;如果前者大于后者,那么就需要寻找新的更加符合条件的属性集合;
[0011]S5:当判断〃 是否为新的数据属性集合时,要判断i个子集A是否已经全部
覆盖了集合C-R,如果还没有覆盖完全,即i〈基数I C-Rl,则让i=i+l,同时重复S4 ;如果此时i为C-R的基数I C-RI,则进行S6 ;
[0012]S6:当i为C-R的基数|C-R|后,令最优依赖函数Hbest为条件熵H(D|T);
[0013]S7:比较期望的依赖函数Hpm与最优依赖函数Hbest的差值是否在规定的误差阈值n范围之内,如果在规定的范围之内则输出约简结果;如果不在规定的范围之内则返回S3重新进行约简。
[0014]进一步的,SI具体步骤如下:输入数据属性模糊决策表DT=0(;,^ = CuD?V,f);
[0015]其中,四元组(U,A, V,f)表示一个信息系统,
[0016]U:U={x1, X2, --? xn)为论域,由所要研究的对象构成,且U#0 ;
[0017]A:A={a j I a j G A}是由对象的基本属性构成的集合;
[0018]V:V= U Vj (I ^ j ^ m)代表信息函数f的值域,Vj为属性a j的值域;
[0019]f:f={fj I fJ:U- VjI是信息系统的信息函数,为对象Xi赋予相应的值。
[0020]进一步的,SI具体还包括:对于一个决策系统DT=(U,C U D, V, f),VPeC,VQeD, C为条件属性,D为决策属性,则定义
[0021]Y p (Q) =k= I posp (Q) |/|U (I)
[0022]为属性Q依赖于属性P的程度;其中互(0为属性Q的P正域,所述的正
域所包含的对象是指被划分到Q的等价类中去的P的等价类里的对象;|U|表示集合U的基数。
[0023]进一步的,S2具体如下:重新定义数据的模糊属性?和划分论域U结果^X=U/P={XpX2,-,X?}, Y=U/Q={YpY2,-,Ym},为了与原定义的模糊等价类集合X1, X2,…,乂?进行区分,将原集合定义为&,各2,…,,同理YpYv Y根据模糊粗糙集中引入的模糊集隶属度函数,对于Xk E U,它属于模糊等价类各,ex的隶属度也可以表示为属于该等价类的概率,那么X出现的概率Al)就可以通过各对象的隶属度决定,也就是
【权利要求】
1.一种基于模糊粗糙集条件熵属性约简的数据分析方法,其特征在于:包括以下步骤:S1:将数据的属性构造为一个模糊粗糙集,同时确定数据的模糊决策表DT= (I;, = CuD.V.r),其中U是论域,A是由对象的基本属性构成的集合,C为条件属性,D为决策属性,V代表信息函数f的值域;S2:取一个集合T,并规定它为空集,令这个集合T的最优依赖函数Hbest为O,A的个数i=l ; S3:在每一次判断时,都使得集合T为前一次执行时符合条件的集合T,并使得期望的依赖函数Hpra为最优依赖函数值Hbest ;S4:对于每一个A丨e C-/?,其中R是等价关系的集合,计算获得决策属性D和属性的条件熵并判断它与条件熵H(D|T)的大小关系;如果前者小于后者,那么就令集合T为新的集合如果前者大于后者,那么就需要寻找新的更加符合条件的属性集合;S5:当判断是否为新的数据属性集合时,要判断i个子集A是否已经全部覆盖了集合C-R,如果还没有覆盖完全,即i〈基数|C-R|,则让i=i+l,同时重复S4 ;如果此时i为C-R的基数I C-R |,则进行S6 ; S6:当i为C-R的基数|C-R|后,令最优依赖函数Hbest为条件熵H(D|T); S7:比较期望的依赖函数Hrm与最优依赖函数Hbest的差值是否在规定的误差阈值n范围之内,如果在规定的范围之内则输出约简结果;如果不在规定的范围之内则返回S3重新进行约简。
2.根据权利要求1所述的方法,其特征在于:S1具体步骤如下:输入数据属性模糊决策表DT=(U, ^ = CuD5V,f); 其中,四元组(U,A,V,f)表示一个信息系统, U:U= (X1, X2,…X1J为论域,由所要研究的对象构成,且U式0; A:A={aj a j G A}是由对象的基本属性构成的集合; V:V= U Vj (I≤j≤m)代表信息函数f的值域,Vj为属性a」的值域; f:f={fj I fj:U- VjI是信息系统的信息函数,为对象Xi赋予相应的值。
3.根据权利要求2所述的方法,其特征在于,SI具体还包括:对于一个决策系统DT=(U,C U D,V,f),VP gC, VQgD , C为条件属性,D为决策属性,则定义 YP(Q) =k=Iposp(Q) |/|U(I)为属性Q依赖于属性P的程度;其中/心>(0=釗0为属性Q的P正域,所述的正域所包含的对象是指被划分到Q的等价类中去的P的等价类里的对象;|U|表示集合U的基数。
4.根据权利要求3所述的方法,其特征在于:S2具体如下:重新定义数据的模糊属11P和9,划分论域U结果为X=U/?U,32,…么},Y=U/9={YpY2,…U,为了与原定义的模糊等价类集合X1,x2,…,乂?进行区分,将原集合定义为X,各2,…,各?,同理YpY2,…,Y?,根据模糊粗糙集中引入的模糊集隶属度函数,对于Xk G U,它属于模糊等价类的隶属度也可以表示为属于该等价类的概率,那么¥,出现的概率/>(¥,)就可以通过各对象的隶属度决定,也就是
【文档编号】G06F19/00GK103632051SQ201310616310
【公开日】2014年3月12日 申请日期:2013年11月27日 优先权日:2013年11月27日
【发明者】贾海涛, 张伟, 唐建杨, 莫祖忠, 杨锋 申请人:电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1