一种数据挖掘用粗糙近似表示系统构建方法

文档序号:10577327阅读:279来源:国知局
一种数据挖掘用粗糙近似表示系统构建方法
【专利摘要】本发明公开了一种数据挖掘用粗糙近似表示系统构建方法,包括构建向量数据组,构建数据覆盖,构建粗糙近似表示系统及数据处理等四步。本发明较传统的智能信息识别计算方式,基于多种聚类方法结果,在包容聚类结论差异性的前提下,建立了知识系统。基于以知识系统用近似表示刻画系统内无法精确刻画的集合。实现了在现有知识体系下,对任意信息的识别,从而极大提高了信息识别的适应性。
【专利说明】
一种数据挖掘用粗糙近似表示系统构建方法
技术领域
[0001] 本发明属于智能数据辨识处理技术领域,具体涉及一种数据挖掘用粗糙近似表示 系统构建方法。
【背景技术】
[0002] 目前在搜索引擎、邮件分类等数据分类过程中,人们会使用多种判别方法将其所 得数据进行分类整理。这种分类的形成就是数据挖掘出来知识,使用这种知识,人们可以探 索,如Google使用其搜索引擎探索量子计算机构建的可能性等。在人工智能领域知识构建 方式多种多样,如深度学习中的神经网络、模糊控制器中经验阈值等。粗糙集理论是一种处 理不精确、不确定和模糊知识的数学工具,它已被广泛应用于数据挖掘、人工智能、模式识 别与智能信息处理等领域。使用拟单层覆盖粗糙集理论构建的知识表示系统可用于存储整 理分类知识,并其分类知识应用于识别未知信息。针对这一需要,迫切需要研发一种新型的 数据处理运算方法,以满足实际使用的需要。

【发明内容】

[0003] 本发明目的就在于克服上述不足,提供一种数据挖掘用粗糙近似表示系统构建方 法。
[0004] 为实现上述目的,本发明是通过以下技术方案来实现: 一种数据挖掘用粗糙近似表示系统构建方法,包括如下步骤: 第一步,构建向量数据组,从数据源中提取数据特征,生成多维空间,其中每一个维度 代表一个特征,一条数据转换为特征值向量,形成多维向量数据; 第二步,构建数据覆盖,将第一步的构建的向量数据在各维度上进行分类标一一并形 成数据集覆盖; 第三步,构建粗糙近似表示系统,将第二步形成数据集覆盖的各类数据按照分类进行 汇总,从而形成数据集粗糙近似表示系统; 第四步,数据处理,在第三步形成的数据集粗糙近似表示系统中,根据需要刻画集合生 成其DE近似表示和DA近似表示; 进一步的,所述的第二步中,向量数据使用多种聚类方法,形成数据聚类矩阵,然后通 过判断数据对象是否在多种聚类方法结果中同属一类,从而判断数据属于核心位置还是边 缘位置,并最终通过对所有数据的判断形成数据集覆盖。
[0005] 进一步的,所述的数据聚类矩阵M为夂XtmXfi对称矩阵,其中n为系统中对象的数 量,矩阵中元素为N维0,1向量,其中N为引入聚类算法数量,若对象构^与V·'.中第k种聚类方 法中为同一类别,则数据聚类矩阵中第i行第j列中第k维值为1,否则该值为0。
[0006] 进一步的,所述的数据多种聚类计算方法包括: 生成每个聚类方法结果,根据数据聚类矩阵M中向量,通过将同一维度k上值为1元素形 成聚类方法k的分类结果墨。~>私悉.…备],其中_是分类数量。
[0007] 第一个聚类标记名称,对于1?%中分类犠__标记名称猶隽,L =' I S ?, J , J ?^' i' = 1 5 .2, ., , , ? ^ .其它聚类标记名称,对其它聚类结身_ . _ ...... _ ..示记名
称为 name: name、 生成数据集覆_ _氧的核心元I 进一步的,所述的近似表示空间每对象与覆盖集存在多对多映射,即一个对象属于至 少一个覆盖,一个覆盖包含至少一个对象。
[0008] 进一步的,所述的第四步中DE近似表示和DA近似表示计算方法为: 1)在近似表示空间中,对象雜对应的覆盖集合为興沐#場1=魏¥ 2 )对于:? Ss,若所有K都满足承_纖.汽:1.餐:孩,则的避做表泰 瓦'€.1的.賊上近似表示,若技;^仅满足存在覆盖,:球宠:爱:#::艮.萍賢多^ xeX的泥上近似表示;若所有K者满足_迄:1 :|el,则 寥的:.祕卞遊似象示 X eX的DA下近似表示,若,K仅满足存在覆盖K s X S £>:,则:? £}{的DE上近丨以表示 X ex的DS上近似表示; 3) 遍历近似表示空间中所有元素 X,使用其对应覆盖集編巧,即可生成X的DA上下近似 表示及DE上下近似表示; 4) X的DA上下近似表示即为X的DA近似表示,X的DE上下近似表示即为X的DE近似表示。
[0009] 本发明较传统的智能信息识别计算方式,。基于多种聚类方法结果,在包容聚类结 论差异性的前提下,建立了知识系统。基于以知识系统用近似表示刻画系统内无法精确刻 画的集合。实现了在现有知识体系下,对任意信息的识别,从而极大提高了信息识别的适应 性。
【附图说明】
[0010] 图1是本发明系统总体设计图; 图2是本发明中覆盖生成模块示意图; 图3是本发明中DA、DE近似表示生模块示意图。
【具体实施方式】
[0011] 下面将结合本发明的附图及具体实施例,对本发明的技术方案进行清楚、完整地 描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发 明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施 例,都属于本发明保护的范围。
[0012] 如图1、2和3所述,并以收集并整理出某类红酒数据10组,形成向量化数据 >:1>:(2一...:41(^:1,3!:2,,.,,:?1{)为数据处理基础, 一种数据挖掘用粗糙近似表示系统构建方法,包括如下步骤: 第一步,构建向量数据组,从数据源中提取数据特征,生成多维空间,其中每一个维度 代表一个特征,一条数据转换为特征值向量,形成向量数据; 第二步,构建数据覆盖,将第一步的构建的向量数据进行分类标记并形成数据集覆盖; 第三步,构建粗糙近似表示系统,将第二步形成数据集覆盖的各类数据按照分类进行 汇总,从而形成数据集粗糙近似表示系统; 第四步,数据处理,在第三步形成的数据集粗糙近似表示系统中,根据需要刻画集合的 生成其DE近似表示和DA近似表示; 本实施例中,所述的第二步中,向量数据使用多种聚类方法,形成数据聚类矩阵,然后 通过判断数据对象是否在多种聚类方法结果中同属一类,从而判断数据属于核心位置还是 边缘位置,并最终通过对所有数据的判断形成数据集覆盖,所形成的向量化数据为: 形成向量化数据&$:._〖,¥ :<:;錄_1^|..1._-.、、_?发· xl =(14.23, 1.71, 2.78) x2=( 13.2, 1.78, 2.14) x3=(13.16, 2.36, 2.67) x4=(14.37, 1.95, 2.5) x5=(13.24, 2.59, 2.87) x6=(14.2, 1.76, 2.45) x7=(14.39, 1.87, 2.45) x8=(14.06, 2.65, 2.61) x9=(14.83, 1.64, 2.17) xl0=(13.86, 1.35, 2.27) 本实施例中,所述的数据聚类矩阵M为对称矩阵,其中n为系统中对象的数 量,矩阵中元素为N维0,1向量,其中N为引入聚类算法数量,若对象中第k种聚类方 法中为同一类别,则数据聚类矩阵中第i行第j列中第k维值为1,否则该值为0。
[0013] 本实施例中,所述的数据多种聚类计算方法包括: 生成每个聚类方法结果,根据数据聚类矩阵M中向量,通过将同一维度k上值为1元素形 成聚类方法k的分类结果^ = …..f .?.動),其中·是分类数量。
[0014] 第一个聚类标记名称,对于_ %中分类标记名称 其它聚类标记名称,对其它聚类结果__(|: = %.:_事|=%<.^)中·^
称为 narneparne;·, 生成数据集覆I 和的核心元S 具体计算时: 选择两种不同聚类方法,如区间均分法与KNN分类法,分类数量为2,分别对于数据每一 列进行分类得到数据聚类矩阵M,其中M为对称矩阵,左上部分未标明位置值为(0,0)。 :x2 xS x4 jii: js:6 jsIO xi .::1) 麻银 % 切 或 Cis I) ?:ι; |): CU) 微 ? 适 ο,?) α, :〇 mi) Jil C:i/# β,屬 惑 (IiI) (0?:::1) 邁 (i:f B ca::i) :.忒: (M) (Ui) ;ta:i) 痛 α,:?) tu) (Li :κ9 (?, ?) (?Λ:〇) si Q (1;,: I)
[0015] 形成覆盖集 本实施例中,所述的第四步中DE近似表示和DA近似表示计算方法为: 其中:較:=::1?:?:??於'择:故令泰%的核心兀素为各知_.辛.::|1辦龄&_ 4?;句,輯紙 霞2 齡凝浼的核心元素为 为_&:秀:__興3&每。__辭1为縣Ki与職的边界,I
[0016] 若此时,若资,则, X的DA下近似为31X的DA上近似表示为1知顧驛兵υ E3 = P3A8A1咏 X的DE下近似为:發@,Χ的DE上近似表示为_公_ = 義 ^2?. =_、:33義:7,8沒·_; 若?[蛘_義这琪与孤餐爲乃,则, X的DA下近似为路夺觀口 Ii論餘亂X的DA上近似表示为祖· _s 綱絲 X的DE下近似为·;姿·_,Χ的DE上近似表示为?α。K2 = {iJ =:£14 賊 J;M_。
[0017] 本发明较传统的智能信息识别计算方式,基于多种聚类方法结果,在包容聚类结 论差异性的前提下,建立了知识系统。基于以知识系统用近似表示刻画系统内无法精确刻 画的集合。实现了在现有知识体系下,对任意信息的识别,从而极大提高了信息识别的适应 性。
[0018]以上所述,仅为本发明的【具体实施方式】,但本发明的保护范围并不局限于此,任何 熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵 盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
【主权项】
1. 一种数据挖掘用粗糖近似表示系统构建方法,其特征在于:所述的数据挖掘用粗糖 近似表示系统构建方法包括如下步骤: 第一步,构建向量数据组,从数据源中提取数据特征,生成多维空间,其中每一个维度 代表一个特征,一条数据转换为特征值向量,形成多维向量数据; 第二步,构建数据覆盖,将第一步的构建的向量数据在各维度上进行分类标记,并形成 数据集覆盖; 第Ξ步,构建粗糖近似表示系统,将第二步形成数据集覆盖的各类数据按照分类进行 汇总,从而形成数据集粗糖近似表示系统; 第四步,数据处理,在第Ξ步形成的数据集粗糖近似表示系统中,根据需要刻画集合生 成其DE近似表示和DA近似表示。2. 根据权利要求1所述的一种数据挖掘用粗糖近似表示系统构建方法,其特征在于:所 述的第二步中,向量数据使用多种聚类方法,形成数据聚类矩阵,然后通过判断数据对象是 否在多种聚类方法结果中同属一类,从而判断数据属于核屯、位置还是边缘位置,并最终通 过对所有数据的判断形成数据集覆盖。3. 根据权利要求2所述的一种数据挖掘用粗糖近似表示系统构建方法,其特征在于:所 述的数据聚类矩阵Μ为nnx 对称矩阵,其中η为系统中对象的数量,矩阵中元素为N维0, 1向量,其中Ν为引入聚类算法数量,若对象亭S与辦沖第k种聚类方法中为同一类别,则数 据聚类矩阵中第i行第j列中第k维值为1,否则该值为0。4. 根据权利要求3所述的一种数据挖掘用粗糖近似表示系统构建方法,其特征在于:所 述的数据多种聚类计算方法包括: 生成每个聚类方法结果,根据数据聚类矩阵Μ中向量,通过将同一维度k上值为1元素形 成聚类方法k的分类结果t;巧I彭赵髮,…廣涕诲沪.…餐苗,其中祭堤分类数量。 第一个聚类标记名称,对于輸:?中分类鶴满粒标记名称驗親辕磯!難^;二物讓齡;,謹 玉,占.,…,g. 其它聚类标记名称,对其它聚类结果難%1=%巧潑f =也-:.,雨 称为纏麵i孩疑描薪,运里? 幽;甘舞!'二圭.系·。。,;聋. 生成数据集覆盖浪辟》狼:,:.岡琴^ =:縱屈托.,馬},其中 :轉:苗泌践;耗电技骇萬,秘都为巧思Ε码读:='表志键 緩鶴的核必元素馬 &。二。起;.S C,,松皂称都为-城巧6山;二至>么.…巧'!。5. 根据权利要求3所述的一种数据挖掘用粗糖近似表示系统构建方法,其特征在于,所 述的近似表示空间每对象与覆盖集存在多对多映射,即一个对象属于至少一个覆盖,一个 覆盖包含至少一个对象。6. 根据权利要求1所述的一种数据挖掘用粗糖近似表示系统构建方法,其特征在于,所 述的第四步中DE近似表示和DA近似表示计算方法为: 1)在近似表示空间中,对象轉对应的覆盖集合为鼓沪撰物卷湯技产繼话環; 2 )对于Κ, Κχ,若所有Κ都满足狡貌懲栽參彰:貧料;孩,则立电滚说編鑑概崇泰 X e X的DA上近做表示,若詞秘仅满足存在覆盖難津黎旁窃货玲濃摩導,则託或祗線主近极兼泰 seS的跪上近机荣示;若所有K都满足聽拉衰装SI,则:κ《:1肋I撫节適慨寨亲 X e X的貼下近做表子,若裝,輪仅满足存在覆盖接岩ims器,则&运篡始:線止遼憐兼荒 X F X的跑上近似表于; 3)遍历近似表示空间中所有元素 X,使用其对应覆盖集類粗,即可生成X的DA上下近似表 示及DE上下近似表示; 4. X的DA上下近似表示即为X的DA近似表示,X的DE上下近似表示即为X的DE近似表示。
【文档编号】G06F17/30GK105938488SQ201610232523
【公开日】2016年9月14日
【申请日】2016年4月15日
【发明人】吴正江, 王岩, 张江丽
【申请人】河南理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1