一种基于典型相关性分析的计算机数据属性约简方法

文档序号:10577399阅读:237来源:国知局
一种基于典型相关性分析的计算机数据属性约简方法
【专利摘要】本发明公开了一种基于典型相关性分析的计算机数据属性约简方法,包括:(1)通过均分的思路将信息表中的原始属性集合分割成多个子属性集合,将每个子属性集合分别看做原属性集合的一个子视图;(2)通过对这些视图进行典型相关性分析得出视图特征之间的相关性情况;(3)按照相关性由大到小的顺序合并属性,将子视图再次合并到一个视图中,得到新的属性集合;(4)对新属性集合计算每个属性的属性重要度并按照从大到小排序;(5)选择属性重要度大的属性加入到约简集合中;(6)计算约简集合的依赖度,如果依赖度与原属性集合的依赖度相近,则输出约简集合;否则转至步骤5。
【专利说明】
一种基于典型相关性分析的计算机数据属性约简方法
技术领域
[0001] 本发明属于数据处理技术领域,具体涉及一种基于典型相关性分析的计算机数据 属性约简方法。
【背景技术】
[0002] 粗糙集是数据挖掘中解决不精确性和不确定性问题的有效工具。属性约简方法是 粗糙集中用来对数据进行处理的一个重要手段,其目的在于从原始属性集合中选择出一些 最有效的属性以去除冗余属性,降低数据集维度,提高学习算法的性能。现实世界中,互联 网等产生的数据往往不能直接运用到数据挖掘过程,需要对这些"脏数据"进行特定的去噪 和化简处理,即数据预处理。据统计,数据预处理在数据挖掘整体过程中大约占到60%以 上。粗糙集属性约简方法即是数据预处理的一种有力工具,在解决数据挖掘基本问题时有 着广泛应用。
[0003] 经典的属性约简算法只是针对信息表中条件属性与决策属性的关系,而没有考虑 到条件属性本身之间的相关性,因此约简的效果不是很理想。特征融合技术是一种通过研 究多视图特征之间的相关性程度,将目标的多种视图的特征表示融合到一个目标的子空间 中,从而尽量在不损失多视图信息的同时,减少维度。典型相关性分析方法是特征融合的常 用方法。如果考虑条件属性之间的相关性,利用典型相关性分析方法将相关性较大的属性 进行降维处理,得到初步约简集,再在此约简集上利用粗糙集约简算法进行进一步约简,得 到的最终约简集将更具价值。

【发明内容】

[0004] 发明目的:本发明的目的是针对现有的属性约简方法没有考虑信息表中条件属性 之间相关性的问题,提出一种基于典型相关性分析(Canonical Correlation Analysis, CCA)的计算机数据属性约简方法。该方法能够有效提高粗糙集属性约简方法的约简效果。
[0005] 为实现上述目的,本发明采用如下的技术方案:
[0006] 本发明将典型相关性分析方法应用于粗糙集属性约简方法中,该方法包括以下步 骤:
[0007] 步骤1,典型相关性分析:采集需要进行约简的计算机数据,基于均分方法将数据 信息表中的原始属性集合分割成两个子属性集合,每个子属性集合看成是原始属性集合的 子视图;通过典型相关性分析得出两个子视图的特征之间的相关性;按照相关性由大到小 的顺序合并属性得到新的属性集合,将子视图再次合并到一个视图中;所述计算机数据包 括数据信息表,数据信息表包括数据的原始属性集合;
[0008] 步骤2,粗糙集属性约简:利用粗糙集中基于重要性的约简算法对新的属性集合进 行约简得到最后的约简集合。
[0009] 其中,步骤1包括如下步骤:
[0010] 步骤1-1,采集需要进行约简的计算机数据,将数据信息表中的原始属性集合均分 成两个子集合Ai和A2,假设子集合维度为W,子集合Ai和A2对应的米样数据样本分别为X和Y, X和Y的大小相等;
[0011]步骤1-2,分别求出X的方差矩阵Sign和Y的方差矩阵Sig22;再求出X与Y的协方差 矩阵Sig12以及Y与X的协方差矩阵Sig21;
[0012] 步骤1-3,根据步骤1-2得到的方差矩阵和协方差矩阵求得综合矩阵F和综合矩阵G 的值;
[0013] 步骤1-4,通过如下公式分别求出综合矩阵F的特征向量矩阵F'和综合矩阵G的特 征向量矩阵G7 :
[0014] |Α-λΕ|=0,
[0015] ΑΗ=λΗ,
[0016] 其中,A表示综合矩阵,λ是A的特征值矩阵,H是特征向量矩阵,E是单位矩阵;
[0017] 步骤1-5,更新采样数据样本X = K X,样本Y = V Y,回到步骤1-2,执行步骤1-2至步 骤1-5W次;
[0018] 步骤1-6,将更新后的采样数据样本按照属性相关性由大到小进行排序,假设属性 融合粒度大小是n,n取值为自然数且n〈W,对更新后的采样数据样本X和Y最相关的前η维数 据二者选其一,即保留X的前η维或者保留Y的前η维,将剩余属性合并,得到新的属性集合, 维度为2W-n。
[0019] 步骤1-1中所述数据信息表定义为:
[0020] S=(U,CUD,V,f),
[0021] 其中U是采集的数据的非空有限集合,C是条件属性集合,D是决策属性集合(这是 粗糙集中的定义,在粗糙集中属性包括条件属性和决策属性,条件属性即是特征;决策属性 是类标),V= U ae(GUD)Va,示属性a G C U D的值域,U ae(GUD)Va表示所有属性在数据信息 表中值域的并集,f表示U X (C U D) -V的一个映射,称为信息函数。
[0022] 步骤1-2中采用如下公式计算方差矩阵和协方差矩阵:
[0023] Sign = Et (Χ-μχ)(Χ-μχ)],
[0024] Sig22 = Et (Υ-μγ)(Υ-μγ)],
[0025] Sigi2 = Et (Χ-μχ)(Υ-μγ)],
[0026] Sig2I = Et (Υ-μγ)(Χ-μχ)],
[0027] 其中μχ和μγ分别代表采样数据样本X的均值和采样数据样本Y的均值。
[0028] 步骤1-3中采用如下公式计算综合矩阵F和综合矩阵G:
[0029] F = Sigrj1Sigj2SiggSig21,
[0030] C- = Sig^1 Sig21Sigi11Sig1^o
[0031] 步骤2包括以下步骤:
[0032] 步骤2-1,计算每个条件属性Mi的属性重要度,Mi表示第i个条件属性,Mi eM, M Q C ·将结果存放在向量SigArray中;
[0033] 步骤2-2,使用快速排序算法对向量SigArray中的属性按照属性重要度由大到小 排序,结果存放在向量SortedArray中,定义约简集合RedAiray = 0:
[0034]步骤2-3,计算条件属性集合M关于决策属性集合D的属性依赖度M(D);
[0035] 步骤2-4,从向量SortedArray中选择当前属性m,加入到约简集合RedArray中,同 时将属性m从向量SortedArray中去除;
[0036]步骤2-5,计算约简集合RedArray中的属性关于决策属性的属性依赖度ktemp,如果 ktemp! = rM(D),回到步骤2-4;否则返回约简集合RedArray。
[0037] 步骤2-1中采用如下公式计算条件属性的属性重要度5'?_5Μ,:
[0038]
[0039]
[0040]
[0041]
[0042] 其中5??表示第i个条件属性姐的属性重要度,P是条件属性集合,P S C;Q是决策 属性集合,Q ?Ξ D; * I代表个数;rP(Q)是条件属性集合P对决策属性集合Q的属性依赖度 rp-mi丨(Q)表示去掉属性Mi后的剩余条件属性集合对决策属性集合Q的属性依赖度;POSp(Q) 是条件属性集合P关于决策属性集合Q的正域;PJX)是采样数据样本集合X关于条件属性集 合P的下近似;[b] P是采集的数据的非空有限集合U关于条件属性集合P的等价类。
[0043]步骤2-3中采用如下公式计算属性依赖度M(D):
[0044] M(D)= IPOSm(D) I/|U|,
[0045]其中,POSm(D)是条件属性集合M关于决策属性集合D的正域。
[0046] 有益效果:
[0047]本发明将典型相关性分析步骤加入粗糙集属性约简过程中,能有效分析条件属性 之间的关系,将相关性大的条件属性进行初步约简,接着采用粗糙集属性约简方法对预处 理过后的数据集进行约简,不仅能提高约简的速度,同时也能提高约简效果以及算法的分 类性能。本发明能约简冗余度高的属性,有效降低特征维度,并提高原数据的分类精度。
【附图说明】
[0048]下面结合附图和【具体实施方式】对本发明做更进一步的具体说明,本发明的上述 和/或其他方面的优点将会变得更加清楚。
[0049] 图1是本发明方法的总体结构图。
[0050] 图2是本发明方法的流程图。
[0051 ]图3是本发明中典型相关性分析过程图。
[0052]图4是本发明中属性约简方法过程图。
【具体实施方式】
[0053]如图1所示,本发明方法包含2个基本部分:首先利用典型相关性分析方法分析信 息表中条件属性之间的相关性,对相关性大的属性进行融合,得到初步融合后的新的属性 集合;接着利用属性约简方法对新属性集合进行约简得到最后的约简集合。
[0054]本发明方法流程如图2所示,下面详细说明:
[0055] 步骤(1)典型相关性分析阶段,过程如图3所示:
[0056] (11)将信息表S = (U,C U D,V,f)中原属性集合均分成两个子集合AjPA2,假设子集 合维度为W。保证AjPA2对应的数据样本数量相等,分别为X和Y。
[0057] (12)对于X和Υ,分别求出各自的方差矩阵Sign和Sig22;再求出X与Y以及Y与X的协 方差矩阵 Sig1:^PSig21。
[0058] (13)求得综合矩阵F和综合矩阵G的值。
[0059] (14)分别求出F和G的特征向量矩阵F7和G7。
[0060] (15)更新X=FU=VY,回到步骤(12),执行这个循环W次。
[0061] (16)将更新后的采样数据样本按照属性相关性由大到小进行排序,假设属性融合 粒度大小是n,n取值为自然数且n〈W,对更新后的采样数据样本X和Y最相关的前η维数据二 者选其一,即保留X的前η维或者保留Y的前η维,将剩余属性合并,得到新的属性集合,维度 为2W-n〇
[0062] 步骤(2)属性约简阶段,过程如图4所示:
[0063] (21)对于新信息表中的条件属性,计算每个条件属性M1GM的属性重要度,结果存 放在向量S i gArray中。
[0064] (22)使用快速排序算法对向量SigArray中的属性按照属性重要度由大到小排序, 结果存放在SortedArray中;定义约简集合RedAiray = 0?
[0065] (23)计算条件属性M关于决策属性D的属性依赖度M(D)。
[0066] (24)从SortedArray中选择当前属性m,加入到RedArray中,同时将属性a从 SortedArray 中去除。
[0067] (25)计算RedArray关于决策属性D的属性依赖度ktemp。如果ktemp! =M(D),回到步 骤(24);否则返回约简子集RedArray。
[0068] 实施例1
[0069] 下面根据实施例说明本发明的各个步骤。本发明方法基本适用于所有用来做分类 处理的数据。本实施例以常用的文本数据举例。豆瓣网会将大量的图书进行分类以便向用 户推荐某一类别的图书。如果手动对这些图书进行分类几乎不太现实,因此根据图书的文 本内容对图书进行自动类别划分将具有很大的现实意义。但是文本处理最大的问题是文本 数据包含大量的词汇,造成文本的维度很高,有的甚至达到上万维。同时,这上万维的数据 里通常包含了很多无用数据,不仅对分类准确率造成干扰,同时也非常耗时。因此就需要对 这类数据进行属性约简,降低文本维度,提高分类准确率。这里,构造一个简单的文本数据, 用来说明本发明方法的实施步骤,之后会将该发明方法应用于真实的数据中。
[0070] 表1信息表
[0072] 该文本数据包含5本书分别从BI到B5,总共包含8个单词,表中的数值代表该单词 在文本中出现的次数,d是对文本的分类。将该文本抽象成信息表,因此共有8个条件属性分 别从ai到as,d是决策属性,Xi到X5是样本。
[0073] 对于步骤(11),先将条件属性平均分成两部分,得到两个属性子集A1=Iaha^a3, ad和A2= {a5,a6,a7,as}。此时维
[0074] 对于步骤(12),根据公式分别求出X和Y的方差矩阵和协方差矩阵。其中μχ和μγ代表 矩阵X和矩阵Y的均值。
[0075] Sigii = E[ (Χ-μχ) (Χ-μχ)]
[0076] Sig22 = E[ (Υ_μγ) (Υ_μγ)]
[0077] Sigi2 = E[ (Χ-μχ) (Υ-μγ)]
[0078] Sig2I = Et (Υ-μγ) (Χ-μχ)]
[0079] 对于步骤(13),根据公式求得综合矩阵F和G的值。
[0080]
[0081]
[0082] 对于步骤(14),求得综合矩阵F和G的特征向量矩阵F7和G7。先计算F和G的特征值 矩阵,再根据特征值求得特征向量矩阵。A表示矩阵,λ是A的特征值矩阵,H是特征向量矩阵, E是单位矩阵。
[0083] Α-λΕ| =0
[0084] ΑΗ=λΗ
[0085] 对于步骤(15),根据公式更新X和Υ,再次回到步骤(12),循环4次。
[0086] X=F7X
[0087] Y=G7Y
[0088] 对于步骤(16),假设融合粒度η为2,根据以上步骤,得出矩阵X中的属性{ai,a3}与 矩阵Y中的属性{a 6,a7}相关性最大,因此可以保留两组属性中的任意一组,这里保留{ai, a3}。将该组属性与剩余属性合并,开彡成初步约简结果集合{ai,a2,a3,a4,as,as},该集合的维 度为6,相比于初始属性集合的维度减少了 2维。
[0089] 对于步骤(21),根据公式计算每个条件属性的重要度,存放在向量SigArray中。这 里可得 SigArray ={0.7,0.5,0.8,0.3,0.2,0.6}。
[0090]
[0091]
[0092]
[0093]
[0094] 其中表示第i个条件属性1的属性重要度,P是条件属性集合,P £ C:;Q是决策 属性集合,Q £ D; I * I代表个数;rp(Q)是条件属性集合P对决策属性集合Q的属性依赖度 rp-丨Mj(Q)表示去掉属性Mi后的剩余条件属性集合对决策属性集合Q的属性依赖度;POSp(Q) 是条件属性集合P关于决策属性集合Q的正域;PJX)是采样数据样本集合X关于条件属性集 合P的下近似;[b] P是采集的数据的非空有限集合U关于条件属性集合P的等价类。
[0095] 对于步骤(22),利用快速排序算法对属性集合{ai,a2,a3,a4,as,as}按照属性重要 度从大到小排序,将结果存放在SortedArray中。因此SortedArray = {a3,ai,a8,a2,a4,a5}。 并且定义约简集合Red Array = 0。:
[0096] 对于步骤(23),根据依赖度计算公式计算所有属性{31,32,33,34,35,38}对决策属 性d的依赖度rM(D)。这里rM(D)=0.99。
[0097] 对于步骤(24),从SortedArray中选择当前属性加入到RedArray中,同时将 SortedArray中的当前属性去除,因此RedArray = {a3},SortedArray= { ai,a8,a2,a4,as} 〇 [0098]对于步骤(25),根据依赖度计算公式计算属性集合RedArray= {a3}对决策属性d 的依赖度ktemp。这里ktemp = 0.8。因为ktemp ! =M(D),因此回到步骤(24),直到ktemp = rM(D)停 止。
[00"]最后得到约简集合RedArray = {a3,ai,as}。
[0?00]因此可以将原先的文本数据变成只包含math ,guitar和picture 3个单词组成的 数据,将那些无意义的类似于haha,oh等单词删除,这不仅能降低数据量,提高分类的时间 性能,同时剔除一些干扰词汇后,也能提高分类的准确度。
[0101]为了进一步说明本发明方法的准确性和有效性,将该方法应用于两个真实的数据 中。
[0102] 第一个数据来自于UCI库中的YearPredictionMSD,是哥伦比亚大学LabROSA实验 室和回音网The Echo Nest合作的百万歌曲数据集(Million Song Dataset)中的一部分数 据。每一条数据包含一首流行歌曲的声音特征和一些元数据。声音特征并不是指真实的声 音,而是从这些声音中提取出来的特征数据,例如声音的哈希值,声音的响度,每一段的最 大响度,音乐的打击时间等等。元数据包括歌手的信息例如歌手名称,歌手在回音网拥有的 标签等。根据这些特征来预测歌曲的发布年份。该数据集总共包含90维条件属性特征。
[0103] 对于步骤(1)典型相关性分析阶段,首先将数据集平均划分成两份,每份数据包含 45个条件属性;然后利用典型相关性分析方法计算两份数据子集中条件属性的相关性程 度,对相关性较大的属性进行融合。分别设置融合粒度η为5,10,15,20,25,30。如表1所不, 给出在不同融合粒度后,初步约简结果,以及利用SVM分类器进行分类的分类精度。从结果 可以看出,原始属性集合的分类精度只能保持在70.8%左右,说明数据集中含有大量的冗 余和噪声属性。进行典型相关性属性融合后,不仅属性个数降低了,同时分类的准确率也得 到大幅度提升。
[0104] 表2数据集1下不同融合粒度下的分类精度 数据集名 训练数据 测试数据 属性个数 分类正确率(%) origin 3000 1000 90 70.8 CC A5 3000 1000 85 87,2 CCAIO 3000 1000 80 90.3
[0105] CCA15 3000 1000 15 92.2 CCA20 3000 1000 70 93.8 CCA25 3000 1000 65 91.3 CCA30 3000 1000 60 91,2
[0106] 对于步骤(2)属性约简阶段,对于上述产生的新的数据集,计算每个属性的重要 性,并按照属性重要性从大到小进行排列,选择重要性大的属性加入约简集合,直到约简集 合的属性依赖度与原属性集合的依赖度基本相近为止。如表2所示,对融合后的属性集合进 行属性约简后,利用SVM分类器进行分类。从结果可以看出,对原数据集进行约简后的属性 个数为23,同时分类精度为73.8%,分类精度略低。对融合后的属性集合进行属性约简,属 性个数得到明显的降低,同时分类精度也得到大幅度提升。证明本发明方法是正确而有效 的。
[0107] 表3数据集1下融合与属性约简后的分类精度 数据集名 训练数据测试数据属性个数约简后属性分类正确率 个数 (%): origin 3000 1000 90 23 73.8 CCA5 3000 1000 85 19 85.5
[0108] CCAiO 3000 1000 80 14 83..3 CCA15 3000 1000 75 15 87.2 CCA20 3000 1000 70 11 91,0 CCA25 3000 1000 65 12 89,1 CCA30 3000 1000 60 10 87.2
[0109] 实施例2
[0110] 第二个数据集来源于两家医疗机构。该数据集包含正常人和病人的诊断信息,目 的是根据这些数据区分正常人诊断数据和病人诊断数据。所有的数据是通过SELDI技术提 取的质谱数据,之后对该质谱数据进行处理,得到10000维特征。但是这10000维特征中包含 很多冗余信息,直接对其进行区分,分类效果不会太好,因此需要先对其进行降维处理。
[0111] 对于步骤(1)典型相关性分析阶段,同样将数据属性集合划分成两个子集合,每个 集合的属性维度为5000。之后对其进行属性相关性分析,因为属性维度较大,这里将融合粒 度设置稍大一些,为100,300,500,700,1000,依然采用SVM分类器对融合前后的数据集进行 分类。表4是融合后的分类结果。从结果可以看出,相比于没有进行融合的原属性集合,SVM 分类器在融合后的数据集上得到了更好的分类效果。
[0112] 表4数据集2下不同融合粒度下的分类精度 数据集名 训练数据 测试数据 属性个数 分类正确率(%) origin 2000 1000 10000 70 CCA5 2000 1卿0 9900 84.5
[0113] CCAlO 2000 1000 9700 8、 CCA15 2000 1000 9500 Sl CCA20 2000 1000 9300 85
[0114] CCA25 2000 1000 9000 84
[0115] 对于步骤(2)属性约简阶段,依然采用相同的方法对上述新产生的数据集的每个 属性计算其重要度,然后对这些属性按照重要度大小排序。每次往约简结果集中加入重要 性最大的属性,直到约简集的依赖度与原属性集合依赖度相当为止。对约简产生的最终结 果,同样采用SVM算法对其分类。表5为经过融合以及属性约简之后的SVM分类效果。从结果 上可以看出,经过属性约简之后,属性个数由初始的10000个属性降低为最少22个,属性压 缩比例接近99%。同时也发现分类的准确率也有所提升。
[0116] 表5数据集1下融合与属性约简后的分类精度 数据集名 训练数据 测试数据 属性个数 分类正确率(%) origin 2000 1000 10000 7〇 CCA5 2000 1000 22 85 5
[0117] CCAlO 2000 1000 25 86.5 CCA15 2000 1000 30 84.5 CCA20 2000 1000 45 87,5 CCA25 2000 1000 48 86
[0118] 从两个真实的数据集上的测试效果表明,本发明方法不仅能有效降低数据中的属 性维度,同时也能将冗余的无意义的脏数据剔除,从而提高分类的质量。
[0119] 本发明提供了一种基于典型相关性分析的计算机数据属性约简方法,具体实现该 技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术 领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这 些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技 术加以实现。
【主权项】
1. 一种基于典型相关性分析的计算机数据属性约简方法,其特征在于,包括W下步骤: 步骤1,典型相关性分析:采集需要进行约简的计算机数据,基于均分方法将数据信息 表中的原始属性集合分割成两个子属性集合,每个子属性集合看成是原始属性集合的子视 图;通过典型相关性分析得出两个子视图的特征之间的相关性;按照相关性由大到小的顺 序合并属性得到新的属性集合,将子视图再次合并到一个视图中;所述计算机数据包括数 据信息表,数据信息表包括数据的原始属性集合; 步骤2,粗糖集属性约简:利用粗糖集中基于重要性的约简算法对新的属性集合进行约 简得到最后的约简集合。2. 根据权利要求1所述的方法,其特征在于,步骤1包括如下步骤: 步骤1-1,采集需要进行约简的计算机数据,将数据信息表中的原始属性集合均分成两 个子集合Ai和A2,假设子集合维度为W,子集合Ai和A2对应的采样数据样本分别为X和Υ,Χ和Y 的大小相等; 步骤1-2,分别求出X的方差矩阵Sign和Υ的方差矩阵Sig22;再求出X与Υ的协方差矩阵 Sigl2 W及Y与X的协方差矩阵Sig21; 步骤1-3,根据步骤1-2得到的方差矩阵和协方差矩阵求得综合矩阵F和综合矩阵G的 值; 步骤1-4,通过如下公式分别求出综合矩阵F的特征向量矩阵F/和综合矩阵G的特征向 量矩阵护: Α-λΕ| =0, ΑΗ=λΗ, 其中,A表示综合矩阵,λ是A的特征值矩阵,Η是特征向量矩阵,Ε是单位矩阵; 步骤1-5,更新采样数据样本X = F^X,样本Y = G/y,回到步骤1-2,执行步骤1-2至步骤1- 抓次; 步骤1-6,将更新后的采样数据样本按照属性相关性由大到小进行排序,假设属性融合 粒度大小是n,n取值为自然数且n<W,对更新后的采样数据样本X和Y最相关的前η维数据二 者选其一,即保留X的前η维或者保留Υ的前η维,将剩余属性合并,得到新的属性集合,维度 为2W-n。3. 根据权利要求2所述的方法,其特征在于,步骤1-1中所述数据信息表定义为: S=化,CUD,V,f), 其中U是采集的数据的非空有限集合,C是条件属性集合,D是决策属性集合,V = U ae(CUD)Va,Va表不属性aGCU D的值域,U ae(CUD)Va表不所有属性在数据信息表中值域的并 集,f表示U X (C U D) 的一个映射,称为信息函数。4. 根据权利要求3所述的方法,其特征在于,步骤1-2中采用如下公式计算方差矩阵和 协方差矩阵: Sigii = E[(X-yx)(X-yx)], Sig22 = E[(Y-yY)(Y-yY)], Sigi2 = E[(X-yx)(Y-yY)], Sig2i = E[(Y-yY)(X-yx)], 其中μχ和μγ分别代表采样数据样本X的均值和采样数据样本Υ的均值。5. 根据权利要求4所述的方法,其特征在于,步骤1-3中采用如下公式计算综合矩阵F和 综合矩阵G:6. 根据权利要求5所述的方法,其特征在于,步骤2包括W下步骤: 步骤2-1,计算每个条件属性Mi的属性重要度,Mi表示第i个条件属性,MiGM,M fr= C,将 结果存放在向量SigArray中; 步骤2-2,使用快速排序算法对向量SigArray中的属性按照属性重要度由大到小排序, 结果存放在向量So;rtedArray中,定义约简集合RedAiTay = 0: 步骤2-3,计算条件属性集合Μ关于决策属性集合D的属性依赖度η化); 步骤2-4,从向量So;rtedA;rray中选择当前属性m,加入到约简集合RedArray中,同时将 属性m从向量SortedArray中去除; 步骤2-5,计算约简集合RedArray中的属性关于决策属性的属性依赖度ktemp,如果ktemp! = n(D),回到步骤2-4;否则返回约简集合RedArray。7. 根据权利要求6中所述的方法,其特征在于,步骤2-1中采用如下公式计算条件属性 的属性重要度S苗Mi = 打(q)=|P0Sf<q)|/|u|,其中S苗Mi表示第i个条件属性Ml的属性重要度,P是条件属性集合,p c: C诚是决策属性 集合,Q CD; *1代表个数;rp(Q)是条件属性集合P对决策属性集合Q的属性依赖度 表示去掉属性Ml后的剩余条件属性集合对决策属性集合Q的属性依赖度;POSp(Q) 是条件属性集合P关于决策属性集合Q的正域;P_(X)是采样数据样本集合X关于条件属性集 合P的下近似;[b]P是采集的数据的非空有限集合U关于条件属性集合P的等价类。8. 根据权利要求7中所述的方法,其特征在于,步骤2-3中采用如下公式计算属性依赖 度rM(D): γμ(0)= |P0Sm(D) |/|u|, 其中,POSm化)是条件属性集合Μ关于决策属性集合D的正域。
【文档编号】G06K9/62GK105938561SQ201610228398
【公开日】2016年9月14日
【申请日】2016年4月13日
【发明人】商琳, 李萍, 吴建阳
【申请人】南京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1