一种基于概念格的信息提取方法

文档序号:10471227阅读:636来源:国知局
一种基于概念格的信息提取方法
【专利摘要】本发明提供了一种基于概念格的信息提取方法。本发明所提供的方法,通过将原始信息背景进行预处理,得到净化后的信息背景并生成属性拓扑图;之后为属性拓扑图添加一节点η,得到新的属性拓扑图;对新的属性拓扑图进行权值净化;再对净化后的属性拓扑图进行属性分层,并提取概念信息;接着检验概念信息是否齐全,若不齐全,则继续搜索直至齐全;最后恢复原始信息背景的概念信息,得到信息背景的全部概念信息。本发明所提供的方法具有可视化性能好、计算复杂度相对较低且不受信息背景规模限制的优点。
【专利说明】
-种基于概念格的信息提取方法
技术领域
[0001] 本发明设及计算机信息处理领域,具体地说是一种基于概念格的信息提取方法。
【背景技术】
[0002] 信息系统是一个具有对象、属性及其关系的数据库,是现实生活中某些事物的客 观反映,并为人们认识知识与获取知识提供了主要的基础信息。
[0003] 信息背景是形式概念分析的核屯、,是一种特殊的信息系统。此信息系统依据信息 背景提供的信息,W及对象和属性之间内在的、本质的关系,通过其中的概念得W刻画。其 中概念是人类进行信息表达的一种手段,具有两个逻辑特征,即内涵和外延。概念的外延为 符合此概念的对象组成的集合,而内涵则为外延所具有的共同属性。
[0004] 概念之间的层次结构称为概念格(concept lattice)(也称伽罗瓦格(Galois lattice)),是一种处理信息背景的数学工具。概念格是由概念组成的,概念是人类进行信 息表达的一种手段,信息发现的过程就是将信息背景中蕴含的信息形式化为有用概念的过 程。事实上,运一过程是将信息按照相关的要求进行匹配。
[0005] 目前,有关基于概念格的概念信息提取方法,主要有:
[0006] ①、从格论的角度依据概念格的格结构,对信息背景进行概念信息的提取。
[0007] ②、依据信息背景中对象与对象之间、属性与属性之间、属性与对象之间的各类关 联规则,进行概念信息的提取。
[000引③、将信息背景置于图的平台上,利用图的一些性质,提取概念信息。
[0009] 基于概念格的概念信息提取方法中,具有代表性的成果中有张涛等人于2014年提 出的利用信息背景的属性拓扑图进行可视化提取概念的方法。具体操作如下:
[0010] 第一步:净化信息背景,构造信息背景的属性拓扑图。具体过程包括:
[0011] 1.净化信息背景:
[0012] 所谓全局对象,是指具有背景中全部属性的对象。全局属性是指背景中全部的对 象都包含的属性。依据格理论可知,全局对象和全局属性不会对概念格的结构产生影响,即 对于概念格而言,全局对象和全局属性均为可约简的。
[0013] 空对象不拥有任何属性,空属性不拥有任何对象。由于空对象和空属性对概念的 捜索过程不产生影响,因此,在捜索概念的过程中空对象与空属性可直接忽略。
[0014] 等价对象是指在信息背景下,两个对象各自拥有的属性相同。同样,等价属性是指 在信息背景下,两个属性所拥有的对象相等。依据概念格理论,等价对象中各对象(等价属 性中各属性)对概念格的贡献是一样的,所W捜索概念的过程中为减少存储空间和运行时 间,可考虑等价对象中的一个对象W及等价属性中的一个属性。
[001引2.构造信息背景的属性拓扑图:
[0016] 在信息背景(F,M,I)中,定义(w(Vi,Vj)),i,j = l,2,…,|M|为属性拓扑邻接矩阵, 如下:
[0017]
[0018] 其中,|M|为属性集Μ中所含属性的个数。
[0019] 定义护(Vi,Vj)为属性拓扑关联矩阵,如下:
[0020]
[0021] 净化背景后,可通过邻接矩阵,构造出属性拓扑图,其方法为:
[0022] 当献化'/>辟<"!,·),且占'("!/)巧("!,·咐,用双向箭头连接mi和叫,并在连线上标注其共有 的对象集合{gl,g2,···,gm}。
[002;3]当抓!;)谷>'("!/),且g (mj) η g (mi) = {gi,g2,· · ·,gm}时,用单向箭头连接两个属性,箭 头指向mi,并在连线上标注其共有的对象集合{gl,g2,···,gm}。
[0024] 属性拓扑图中与属性mi直接相连的边均为单向指出或双向边,称ΠΗ为顶层属性。
[0025] 属性拓扑图中,属性mt与属性mj直接关联,是指mtE ImpI化与mj有边相连接,P,j =1,2,…,|m| }。
[0026] 第二步,利用属性拓扑图捜索概念信息,具体操作如下:
[0027] S1、假设与顶层属性ΠΗ直接关联的其中一个属性为mt,存储(g(mimt),)。
[002引S2、若捜索路径中存在属性集合使得g(numt)=g(numtK),则将上 一步所存储的(g(mimt),)替换为(g(mimt),UK)。
[0029] 83、若存在属性(1居(1-恤,1]1*}),且有欢《跳如复(奶撕.,(/片0,则在上一步存储不改变 的情况下,再存储(g(numtq),{mi,mt,q})。
[0030] S4、若任意pe ),都有g(H!,."w)= 0,则不做存储。返回到S3。
[0031] S5、完成上面的S1-S4四步捜索后,返回到S1,进行下一个的与顶层属性mi直接关 联的属性mr遍历。
[0032] S6、完成S1-S5之后,选择下一个顶层属性,继续进行S1-S5。
[0033] 完成S1-S6六步,可W得到该属性拓扑图中除(f,0)和(0,M)的所有概念。
[0034] 张涛等人的方法具体流程参见图6。
[0035] 目前,对于信息背景中概念信息提取方法的应用与推广,主要受W下因素影响: 一、信息背景的规模;二、概念信息提取可视化程度;Ξ、提取概念信息的复杂度。
[0036] 虽然,目前基于概念格的信息提取方法有很多,但是由于受到W上Ξ点因素的影 响,现有的概念信息提取方法,仍存在W下不足:
[0037] 第一,对于方法①,由于格结构是一种抽象的数学结构,当信息规模较小时,信息 背景还具有可视性,但当信息规模较大时,依据抽象的格结构对概念信息进行提取已不再 具有可视性。故而方法①受到信息规模的限制。
[0038] 第二,对于方法②,由于寻找关联规则的难度不低于信息背景中概念信息的寻找, 又由于"关联规则"本身不具有可视性,所W运类方法的应用与推广受到一些限制。
[0039] 第Ξ,方法③中具有代表性的是张涛等人在依据信息背景建立的属性拓扑一一种 图的平台上,提取概念信息的方法。实际上,张涛等人用到的属性拓扑图是一种有向加权 图。然而,由图论中拓扑图的定义可知,一个拓扑图可W是有向的,也可W是无向的。当拓扑 图中的节点集为某个信息背景的属性集时,可W称其为属性拓扑图。但由于张涛等人的方 法复杂度为指数级,因此受到信息背景规模的限制。

【发明内容】

[0040] 本发明的目的就是提供一种基于概念格的信息提取方法,W解决现有的方法受信 息背景规模的限制、可视化程度低及提取信息复杂度高等的问题。
[0041] 本发明是运样实现的:一种基于概念格的信息提取方法,包括如下步骤:
[0042] a、将原始信息背景(F,M,I)进行预处理,得到净化后的信息背景(的,1〇,1〇),并将 此净化后的信息背景转化为一属性拓扑图的邻接矩阵;此邻接矩阵对应属性拓扑图Go=(Vo (Go),Eo(Go)),其中,Vo(Go)=Mo,Eo(Go) = {e(x,y)|x,yeMo,且x,y拥有公共的对象};
[0043] b、为属性拓扑图Go添加一节点属性η,得到一个新的属性拓扑图Go+{ri};
[0044] C、对新的属性拓扑图Go+h}的权值进行净化,即:在每一边的权值(xi,xj)中去 掉不属于η拥有的对象集中的对象;其中每一边的权值为相邻两节点所拥有的公共对象集; 净化后的权值用w(Xi,Xj)表示,Xi,Xj eMo U {η},i,j = 1,2,…,I Mo I +1;
[0045] d、利用净化后的属性拓扑图的权值之间的关系将各属性进行分层,得到分层图, 并提取概念信息;
[0046] e、检验所有概念信息是否齐全,若未齐全,继续寻找概念信息,直到概念信息齐 全;
[0047] f、删除(Fo,Mo U h},1〇)中所有概念内涵中的n,得到(Fo,Mo,1〇)的全部概念信息, 将步骤a中净化掉的属性与对象重新恢复为(Fo,Mo,Io)的信息,从而得到原始信息背景(F, M,I)的全部概念信息。
[0048] 本发明的效果可W通过W下Ξ方面得到体现:
[0049] 1 )、概念信息提取过程可视化性能好。
[0050] 由于本发明W属性拓扑图为平台进行概念信息提取,因此与W抽象的格结构或关 联规则为基础的概念信息提取方法相比,具有较好的可视性,可完全反映出信息背景中任 意两个属性是否拥有公共对象的性质。
[0051] 2)、减少"冗余"概念的产生,降低计算的复杂度。
[0052] 张涛等人的方法是对属性拓扑图的全路径遍历,在进行概念信息的提取过程中, 会产生"冗余"概念。采用本发明进行概念信息提取过程中,减少"冗余"概念,因此,本发明 具有更好的适用性。
[0化3]对于信息背景(F,M,I),若|F|=m,|M|=n,现有技术中张涛等人的概念信息提取 方法,其复杂度为〇(2"Χη)。
[0054] 本发明中步骤a的复杂度为0(n2+m2+4mn);步骤b的复杂度为0(n);步骤C的复杂度 为0(n2m2);步骤d的复杂度为0(化V);步骤e的复杂度为步骤f与步骤a的复 杂度相同为〇(n2+m2+4mn)。
[0055] 若(F,M,I)的规模s = mXn,则张涛等人的方法复杂度为0(2s),而本发明的复杂度 分两种情况,分析如下:
[0056] I、当所提取的概念信息齐全,不需要继续捜寻概念时,本发明方法的复杂度为步 骤曰、步骤13、步骤(3、步骤(1、步骤巧勺复杂度相加,即20(]12+1]12+4皿)+0(]1)+0(]1 21]12)+0(化41]12), 由于0(n2+m2+4mn)、0(n)、0(nV)的复杂度小于OUnV),因此此情况下本发明的复杂度为0 (s6)。
[0057] II、当所提取的概念信息不齐全,需要继续捜索概念时,本发明方法的复杂度为步 骤a、步骤b、步骤C、步骤d、步骤e、步骤f的复杂度相加,即2(')(;Γ、7片-4/打/?)十 ()(")+ ()("2";2)+ 刊十()("'化^........-'''i);
[005引 i、当η < 6时,由于0(n2+m2+4mn)、0(n)、0(n2m2)、0(,严。的复杂度小于0 (化V2),此时本发明方法的复杂度为0(s6)。
[0化9] 1;[、当]1>6时,由于0(]12+1112 + 41]1]1)、0(]1)、0(]121112)、0(3]141112)的复杂度小于 口( ""1-bg: Μ ),此时本发明方法的复杂度为〇(戸心Wl-lDg: 6)])。
[0060] 由上面的分析可知,张涛等人的方法的复杂度为指数级,而本发明方法的复杂度 不是指数级,因此本发明复杂度大大降低。
[0061] 3)、本发明中概念信息的提取,不受信息背景规模的限制。
【附图说明】
[0062] 图1是本发明的方法流程图。
[0063] 图2是本发明实施例1中邻接矩阵对应的属性拓扑图。
[0064] 图3是本发明实施例1中添加节点η后所得到的新图Go+h}。
[0065] 图4是本发明实施例1中Wb为中屯、净化后的属性拓扑图。
[0066] 图5是本发明实施例1的捜索结果示意图。
[0067] 图6是采用张涛等人的方法对属性拓扑图进行概念信息提取的流程图。
[0068] 图7是采用张涛等人的方法对属性拓扑的全路径捜索过程示意图。
[0069] 图8是本发明实施例2对应的属性拓扑图。
[0070] 图9是根据表12所得的样本数不超过26时,本发明方法与张涛等人的方法复杂度 相比较的曲线示意图。
[0071] 图10是根据表12所得的样本数超过26时,本发明方法与张涛等人的方法复杂度相 比较的曲线示意图。
【具体实施方式】
[0072] 如图1所示,本发明所提供的一种基于概念格的信息提取方法,包括如下步骤:
[0073] a、将原始信息背景(F,M,I)进行预处理,得到净化后的信息背景(的,1〇,1〇),并将 此信息背景转化为一属性拓扑图的邻接矩阵形式。此邻接矩阵对应属性拓扑图Go= (Vo (Go),Eo(Go)),其中,Vo(Go)=Mo,Eo(Go) = {e(x,y)|x,yeMo,且x,y拥有公共的对象}。所用属 性拓扑图事实上为属性间关系的加权图表示。
[0074] b、为Go添加一节点属性η,得到一个新的属性拓扑图Go+{ri}。
[0075] C、对Go+h}的权值进行净化,即去掉不属于η拥有的对象集的对象。其中每一边的 权值为相邻两节点(即两个属性)所拥有的公共对象集。
[0076] d、利用净化后的属性拓扑图的权值之间的关系将各属性进行分层,得到分层图, 并提取概念信息。
[0077] e、检验所有概念信息是否齐全,若未齐全,则继续寻找概念信息,直到概念信息齐 全。
[007引 f、删除(Fo,Mo U {η},10)中所有概念内涵中的η,得到(Fo,Mo,10)的全部概念信息, 将步骤a中净化掉的属性与对象重新恢复为(Fo,Mo,Io)的信息,从而得到原始信息背景(F, M,I)的全部概念信息。
[0079] 下面对各步骤进行详细说明。
[0080] 步骤a中采用基于概念格的信息提取方法,将原始信息背景(F,M,I)进行预处理, 包括如下过程:
[0081] 给定信息背景(F,M,I),其中F为信息背景中所有对象的集合,即F={gi,g2,..., gn},gi(i = l,2,. . .,n)为第i个对象;Μ为所有属性的集合,即M= {xi,X2,. . .,Xm},xi(i = l, 2,...,m)为第i个属性;I为属性集和对象集的二元关系,即/?; FxiV/r
[0082] al、对原始的信息背景(F,M,I)进行预处理,得到净化后的信息背景(Fo,Mo,Io)。主 要目的是通过删除信息背景中全局属性、全局对象、空属性、空对象,保留等价属性中的一 个属性,其他的属性删除,保留等价对象中的一个对象,其他的对象删除,降低后期计算的 复杂度。具体步骤如下:
[0083] al.l、对于在(F,M,I)中拥有对象集为F的属性,即全局属性,进行删除处理。
[0084] al.2、对于在(F,M,I)中拥有属性集为Μ的对象,即全局对象,进行删除处理。
[0085] al.3、对于不拥有任何对象的属性,即空属性,进行删除处理。
[0086] al.4、对于不拥有任何属性的对象,即空对象,进行删除处理。
[0087] al.5、对于两个或两个W上拥有相同对象的属性,即等价属性,则只保留运些属性 中的一个,将其他的几个属性进行删除处理。
[0088] al.6、对于两个或两个W上拥有相同属性的对象,即等价对象,则只保留运些对象 中的一个,将其他的几个对象进行删除处理。
[0089] a2、定义(Fo,Mo,Io)如下:
[0090] Fo = F-({geF|g为全局对象} U {gEF|g为空对象} U {g£F|g是在步骤al.6中被 删除的对象});
[0091] 1〇 = 1-(^£1^为全局属性)^^£1^为空属性)^^£1^是在步骤31.5中被 删除的属性});
[0092] I〇=in (FoXMo)o
[OOW] a3、根据晰燕,1〇),给出属性拓扑图的邻接矩阵
[0094]
[0095] 其中,w' (xi,xj) = {A| A为属性Xi与Xj的公共对象,i,j = 1,2,...,|Mo I,i 辛 j},|Mo 为属性集Mo中所含属性个数。为了描述方便,当i = j时,令U''(Λ> .;7)=0.此矩阵对应属性拓 扑图 Go=(Vo(Go),Eo(Go)),其中,Vo(Go)=Mo,Eo(Go) = {e(x,y)|x,yeMo,且x,y拥有公共的对 象}。
[0096] 步骤b采用基于概念格的信息提取方法,对Go添加一个拥有对象集为Fo的节点属性 n,得到一个图Go+h似及信息背景(Fo,Mo U h},In)。
[0097] bl、添加节点属性η。
[009引若信息背景(Fo,Mo,Ιο)只含有一个属性α,则(Fo,Mo,Ιο)的概念信息的全体为 {(巧,,0),(0,{α})}。当|Μο|含2时,若任意选择一个属性作为起始点,则最后会造成(Fo, Μο,Ιο)中概念信息的缺失或产生过多的"冗余"。
[0099] 为了避免上述问题的产生,需添加一个特殊属性II,且属性η的添加不会影响(Fo, Mo,10)中的概念信息W及概念格的格结构组成。
[0100] b2、给出η所拥有的对象集。
[0101] 根据概念格结构可知,具备上述特点的η有两种可能性:一种是为属性集Μο,此 时η所拥有的对象集为巧;另一种是{^.=0,此时η所拥有的对象集为Fo。
[0102] 因为任一个概念格为完备格,运样(Fo,Mo, Ιο)的概念信息全体构成的概念格为一 个完备格。根据格论中的对偶性(或称De Morgan's Law)可知,若利用.!(巧),0)!.作为捜索概 念信息的方法,完全可W对偶地产生由贫0,M) }捜索概念信息的方法;若利用{(0,Mo)} 作为捜索概念信息的方法,完全可W对偶地产生由{(巧),0)}捜索概念信息的方法。本发明 采用i(F〇,0))作为捜索概念信息的方法,即选取的!=0,此时,η所拥有的对象集为Fo。
[0103] b3、得到新图 G(V,E,w')。
[0104] b3.1、在Go上添加一个特殊节点η,η拥有的对象集为Fo。
[0105] b3.2、连接η与图G日中各节点,得I Mo I条边,且每边权值为W' (η,Xi),Xi ΕΜο,i = 1, 2,…,|Μο| ;最终得到新图Go+{ri}=G(V,E,w/ ),其中,V为节点集,V = MoU {ri};E为边集, £=(e〇.,',-切单0' 尤巧?',户'1',' '2', ...,|''M〇l+l}。
[0106] b4、得到信息背景(Fo,Mo U h},In),其中 /危尸??χ (Μ,υ; 口;.)。
[0107] 获取信息背景(Fo,MoU{rl},In)的过程如下:对于任意的geFo,yeMoU{rl};
[010引当yEMo时,若gloy,则giny;即:若对象g在(Fo,Mo,Io)中拥有属性y,则g在(Fo,MoU In},In)中也拥有属性y;
[0109] 当y = n时,有giny成立。
[0110] 步骤C采用基于概念格的信息提取方法,对属性拓扑图G(V,E,w/)的权值进行净 化,具体过程如下:
[0111] 依次对G(V,E,w')中的每一个权值W' (Xi,Xj),Xi,XjeMoU {rl},i,j = l,2,…,|Mo| + 1与η所拥有的对象集Fo作比较。若(Xi,Xj)中有不属于Fo的对象,则将此对象从(Xi,Xj), i,j = 1,2,…,I Mo I +1中去掉,最后完成对G(V,E)中每边上的权值的净化,得到新的属性 拓扑图G(V,E,w),其中,V(G(V,E,w))=V(G(V,E,w'));E(G(V,E,w))=E(G(V,E,w'));w(xi, xj)为W' Ui,xj)净化后的权值,xi,xjEM〇U {η},1,j = i,2,...,|m〇|+i。
[0112]具体描述为:对每个gEw'(xi,xj),
[0113]如果gg巧),那么净化后的权值为w(xi,xj)=w' (xi,xj)-{g}。
[0114]如果gEFo,那么净化后的权值与原权值相等,即w(xi,xj)=w/ (xi,xj)。
[0115] 步骤d采用基于概念格的信息提取方法,将G(V,E,w)中的属性进行分层,得到分层 图,并对概念信息进行提取,具体过程如下:
[0116] 已知G (V,E,W)是(F0,Μ0 U {η},Iη)的属性拓扑图,给出η的拓扑邻域/:.、'(所={.VI _veM(>u{W.,II. u(w, .1'片0,沾站 Η〇7,.r)cr"'(W;=Mi,"切,.!')=0表示属性η和y之间没 有公共对象。其中w(ri)为属性η所拥有的对象集。事实上,TN(ri)在G(V,E,W)中表示与η直接 相连的属性的集合。如果|Μ〇|=1,运时(F〇,M〇,I〇)的全部概念信息为{(0,Μ〇),仍,0)}。 若I Mo I > 2,则对(Fo,Μο,1〇)的概念信息寻找进行如下操作:dl、采用基于概念格的信息提取 方法,定义分层图的第一层^
[0117] Ll = {({ri},TN(ri),w(n))}。
[0118] 其中,w(ri)为η拥有的对象集。显然^为单点集,此集合第一个元素(其实是唯一元 素)为Ξ维向量({rl},TN(rl),w(rl)),此向量蕴涵Ξ种信息:rl为第一层属性,rl的拓扑邻域TN (η)及η拥有的对象集w(ri)。由于此向量与η密切相关,为便于表达,本发明称其为属性η的关 键元。
[0119] d2、采用基于概念格信息提取方法,基于分层图第一层寻找分层图的第二层L2:
[0120] /一:=;({,7,Λ-。'h ),uO?,Λ-:,,')) I Λ-:,'巨《^7),7.2 二 ' '2《I 飾)! l·.
[0121] 在第二层L2中包含t2个({q,Xz;:},7Τν(λ。:),w切,X。:))运样的S维向量,每一 向量({取馬&},rW(XK),<巧,与其内属性集{巧,屯&}中的属性相2密切相关, 为便于表达,称向量(0?,-V:,:. !·,7W(x:, ),"〇/,x:,J)为属性而点的关键元。在第二层L2中 每一个S维向量({?/,x;/ },"切,A,:))内包含一个属性集{口.,X:,:},属性集 《口,馬^}称为第二层中的第j2个属性集。在第二层中每一个属性集内包含两个属性,其中 一个属性为第一层中的属性n,另一个属性X破排在η后面,称属性X瑞为第二层中第j2个属 性集中的第二个属性(或称最后一个属性)。
[012^ 1(11)表示Wn为中屯、所选择的下一层属性集合,即/(口(口),对任 ,总 ve(7W(W-.! Λ·:,' I),抽:Λ? ir(",Λ':,,倍H(y,如:./: =1,2編! ^ W η为中屯、所选择的属性%的拓扑邻域,即)={>.'|沪€巧\切),直, .1,)责0,满足 Η(λ'2,、,v)[ W(口,石=1,2 ..,?,,?]《I M〇i }。
[0123] 捜寻过程具体如下:
[0124] d2.1、基于第一层属性II,寻找Wn为中屯、的下一层属性集合1(η):
[0125] 任取xeTN(ri),ysETN(ri)-{x},将w(ri,x)与w(ri,ys)进行比较,判断w(ri,x)是否包 含于w(ri,ys);若否,则xel(n);若是,则.巧/〇?)
[01%]具体符号描述如下:初始定义Κη)为空集,即1(η) = {},χΕΤΝ(ιι),
[0127]对每一个 yseTN(ri)-{x};
[012引如果如巧,.V)扣'如切,那么Κη): =l(n) U {x},即:将属性X赋值给集合Κη);否 则,1 (η): = 1 (η),即:1 (η)保持不变。
[0129] (12.2、基于第一层属性11,对于每一1-:,:€/(读,寻找^站的拓扑邻域了賊^:,:·):
[0130]任取 xETNU),且 ,.r 片0,验证 馬,;):是否真包含 w'(x:,:,Jf)。如果 Μ'(λ.],:,Λ-)口<巧,乂巧),那么化 2W(x;,.:)姻果w(.Y^:,λ.)狂W(口,X巧),那么.柏TWC.Y巧)。
[01;31]由于,刊=0,说明属性和和X之间没有公共对象,此时无需比较w〇?,馬&)和 7 -V)(
[0132] 具体描述如下:初始定义:)=!!,-Vj,,
[0133] 对每一个χeTN(rl),且、K'?,.v片0;
[0134] 若w(a-.句cw(矿 乂-2占)*则了):= 诚)U{妹;否则,ΓΛ/(γ]占)::=打ν(χ:,:)。
[0135] d2.3、寻找第二层中第j2个属性集中最后一个属性&&的关键元,并进行概念信息 的提取。
[0136] 完成步骤d2.1~d2.2之后,可得第二层中第j2个属性集! 口,-v:J,属性馬&的拓扑 邻域W及权重,.κ:;从而可得第二层中第j 2个属性集中最后一个属性γ_'的 关键元:至Π 石Η.! 口,,J.~W口,
[0137] 且提取概念为:(扣化!二("'(口,.r:,> ! 口,、-:, !)
[013引d2.4、对1 (η)中每一属性完成步骤d2.2~d2.3后,得到分层图的第二层L2:
[0139]
[0142] d3、根据步骤dl~d2可得分层图的第(i-1)层,i为整数,且i>2;
[0143] 假定分层图的第(i-1)层已经获得,即
[0144]
第j(i-i)个属性集。在第(i-1)层中每一个属性集内包含(i-1)个属性,其中前(i-2)个属性构 成的集合{巧,X:,':,,而-2心,}为第(i-2)层中第j(i-2)个属性集,第(i-1)个属性 ?^(一>,_,,排在最后,称而匈,.。为第。-1)层中第如-1)个属性集中的最后一个属性(也是第。- 1)个属性)。
[0146] 下面根据已获得的分层图的第(i-1)层,寻找分层图的第1。>2)层以:
[0147]
^,《|柏〇|}。其中,而.表示第很中第^'1个属性集中的最后一个属性;/的-1心,)表示^而-1)/,,_,, 为中屯、所选择的下一层属性集合,即
W而-11为中屯、所选择的X。;的拓扑邻域,即
[0149]
[0150] 操作过程具体如下:
[0151] d3.1、选取第(i-1)层中每一属性集{巧,'.?) ..·*,. 的最后一个属 性而-助,,寻找第i层中包含属性巧,&南,馬/3,...,嘴-1)布的所有属性集;其中,j2^t2,j3< t3,...,j(i-l) = l,2...,t(i-l),且t2,t3,...,t(i-l)<|Mo|。
[0152] (13.1.1、^嘴-0如为中屯、净化原始邻接矩阵,得新邻接矩阵W={w(Xi,Xj) |w(Xi, xj)为(xi,刮)净化后的权值,xi,刮e V},具体过程如下:
[0153] 依次对G(V,E,w')中的每一个权值 W' (Xi,Xj)(i,j = l,2,...,|Mo|+l,Xi,XjeMoU 4})与属性集如乂",姑,...,而_,,,,,_,,}共同拥有的对象集5("(口,斯,扼,.",.丫(,_1咕_。)=公) 作比较。若(xi,xj)中有不属于B的对象,则将此对象从(xi,xj)中去掉,最后完成对G(V, EV )的权值的净化,得到化馬-为中屯、净化权值后的属性拓扑图巧.Vww, Η户E,蛛, 其中,巧G(-Viu.,,_,^c 巧巧F,玄,W')),巧巧.V化-,,))c巧巧Κ 尼,w')),w(xi,xj^w' (Xi,Xj)净化后的权值,Xi,XjEMoU{η},i,j = l,2,…,|Mo|+l。
[0154] 具体描述为:
[0155] 对每个gEw'(xi,xj),
[0156] 如果妍方,那么净化后的权值为w(Xi,Xj)=w' (Xi,Xj)-{g}。
[0157] 如果gEB,那么净化后的权值与原权值相等,即w(Xi,Xj)=w/ (Xi,Xj)。
[015引d 3 . 1 . 2、针对净化后的G(而_^,,,),寻找w而-化',,_,,为中屯、的下一层属性集合 /(-Vi心,)。注意分层图的第(i-U层已经获得,'Vw,,,,为第(i-U层中第j(i-i)个属性集 巧,X巧.,%-;1)知。}中的最后一个属性,且布-I)的关键元为 ({口,-T],:,和,。·,Vw,:,, },}<口,而:' A,,,。·,-Vi此
[0159] 任取化頭%_,心,),於' e (rWVi心,)-W)'将H(.Vw…' .Y)与M(.Vi心,'於)进 行比较,判断MtV,心,,对是否包含于M(而_叫,,,,'細。若否,即当H%-|)如_。, 向。'於)时,化/(.Vw,…);若是,即当 W.Vi心,,'乃£ ^.ν?υ,ι-' 於)时, 巧《而-1咕_,,)。最后得到/(而-11山_,,)叫荷'化,…,乂毎}巧引Mol。
[0160] 具体描述如下:初始定义《%-1;如,,.-)=〇,
[0161] 对每一个:TE JW(而-1心,),
[016^ 每一个护e(rw(相咕:,H4),如果J但,於),那么 )uM巧则/(.Vll心,):=《 Vi",一,)。
[01创 (13.1.3、通过步骤(13.1.2得《而-化_,,)=柏,化,...,而},口引10|,本步骤主要寻 找W (X,,; ),乂 =1,2···,ρ,且P引Mol。注意现在是寻找第i层中的第ji个属性集中最后一个 属性%的拓扑邻域,前面第(i-1)层中属性·νι心,的拓扑邻域已经获得,且其在第(i-1)层 的关键兀为({巧,丫2,:.^/'.'.、,.而)1山_1|!''巧作而1。|,_1,)'"{口,了2_/:'与,3''.'.,.)<,'1。|,_,:'))。 [0164]针对净化后的G(.Vi心,任取T(,_w, 1,),且Μ'(Λ&,对韵;验证M('Vi心,,,对 是否真包含于Μ而一心,,而)。如果是,即如果作X(Miv-y(M从_。,X& ),那么 化);反之,如果咕,对孙(Vi咕,,'而)'那么.柏巧ν(-\)。
[01化]具体符号描述如下:初始定义ΓΜχ。;)={},和,€ /(而),
[0166] 对每一个1'£譜(而―化',>),且w( 3?,句絶5:;:
[0167] 若,Xy,),则:Γ^(λ;,., ):= rwu", )u的;否则,):= )。
[0168] d3.1.4、寻找第i层中第ji个属性集中最后一个属性嘴:的关键元,并进行概念信息 的提取。
[0169] 完成步骤d3.1.1~d3.1.3之后,得到第i层中第ji个属性集切,%&,馬自,…, XX,,),属性%的拓扑邻域^的似及权重M<?7,y];:,X;,,,…,·\!-ι心,,γ,,>其 中 1^口' ,馬占,…'而-1咕-1,,x,7,)="切'14(而_,,山,,'而)。现在寻 找第i层中第ji个属性集中最后一个属性^的关键元,并提取概念信息。
[0170] d3.1.4.1、若第i层中的前(ji-1)个属性构成的集合均与目前属性集(巧,兩,:。, 、,,,···,而-?υ;,_,,,\ ?不同,则得到第i层中的第ji个属性集中最后一个属性%的关键元 为石 U}=(iW' ?;,:' A,,' …,而一…,,,,' τ"> riV(^),w(巧,?],:,乂3力,.'.,而-1扣_。' 否则判定第i层中属性%的关键元不存在。
[0171 ] d3.1.4.2、根据步骤d3.1.4.1找到的关键元提取概念。
[01巧如果关键元l^iUi}存在,即么'UK{W,相,呜占,..,,而-1)电V嘴},7W(x。,), W切,和:,馬右,冷))
[0173] 则提取第i层中的第 ji个概念坏,U.! =(|'KW,-V:,.:,Λ·;。,...,.Y.,: I,,;, .,,Λ-,, ),I 口, &.占,兩7'3 .%-1 化X",})。
[0174] 如果关键元不存在,则无概念可提取。
[0175] d3.2、重复步骤d3.1,W求得第i层中所有属性集,并进行概念信息提取,具体操作 为:
[0176] 重复步骤d3.1,可得到第i层中所有的关键元:
[0177]
[0180] d3.3、如果第(i-1)层中每一属性集{矿.,X;,,,·...',的最后一个属 性-Vi>,的拓扑邻域均为空集,则该属性的下一层属性也均为空集,即心=0,此时分层结 束,否则重复d3. l-d3.2直到分层结束。
[0181] d3.4、分层结束后(F〇,M〇U hMn)的所有概念信息为
其中n〇为属性 分层的总层数。
[0182] 步骤e采用基于概念格的信息提取方法,检验所有概念信息是否齐全,若未齐全, 寻找概念,直到概念信息齐全。
[0183] el、完成步骤d3,判断是否继续捜寻概念。
[0184] el. 1、如果图Go+h}是加权无环图,则不需要继续捜寻概念。
[0185] el. 2、如果图Go+h}是加权有环图,但不含有Ξ条边且各边权值均相等的环,则不 需要继续捜寻概念。
[0186] el.3、若图Go+h}不是步骤el. 1和步骤el.2所指类型,则需要继续捜寻概念。
[0187] e2、初步得到剩余概念Cpei。
[0188] 根据步骤曰,净化后的(Fo,Mo,Io)中各个属性所拥有的对象集一定不同,再由步骤 b,构造出图Go U In}中的权值W' (n,Xi)辛W' (n,Xj),Xi,XjEMo,(i,j = 1,2,......,|m〇 I,i 辛 j)。运样,按照步骤d2捜索到的第二层概念一定为真正的概念,且不会有丢失的概念。因此, 本发明中需要对第Ξ层的概念进行捜索检验。而如果对第Ξ层之后的层次再进行捜索检 验,会造成概念的大量重复,因此对第Ξ层进行捜索检验后无需再对第Ξ层之后的层次进 行捜索检验。
[0189] 由步骤d3可得第Ξ层概念Γ/ν=Κ"切,r,口,句:,./, = 1, 2,…,為;心,《3《1舶〇1},令CP3{ j } = (X{ j },Υ{ j }),其中挪-}={巧,义巧:,馬占}, 义1/}=蛛(妹义化,^.,.;)。由步骤(11可得1則11),不妨设巧'^(口)= {口1,口2,...,'口|"。!}'帖3{川=邮, 下面对第Ξ层进行捜寻。
[0190] e2.1、对第Ξ层中的任意两个概念的对象集求交集,并将交集非空的两个概念组 合为另外一个不同的概念。具体如下:
[0191] e2.1.1、依次取第Ξ层中的每一概念Cp3{i},i = 1,2,. . .,m3,W及该概念之后的每 一概念Cp3 {j},i < j < 邮。
[0192] e2.1.2、若义识 Π 义{j·} * 0,则组合为概念Cpij = (X{i} η X{j},Υ{ i} U Υ{j}),否则 不组合概念。
[0193] e2.2、重复步骤e2.1,可将第Ξ层中任意两对象集相交非空的概念,组合为新概 念,从而得到组合后的全部概念,记为
[0194] Cpci={Cpu|Cpu = (X{i} nX{j},Y{i} UY{j}),i = l,2,...,邮,i<j< 邮}。
[01巧]e2.3、去除Cpci中的伪概念,具体如下:
[0196] e2.3.1、依据对象集,将Cpei中所有概念进行分类,每一类概念具有相同对象集。
[0197] e2.3.2、将每一类中所有概念的属性进行合并,对象集不变,组合为一个概念
其中Pk为第k类概念中所有概念的个数,Ykq为第k类概念中第q个概念的 属性集(即内涵),Xk为第k类概念的共同对象集(即外延)。
[019引 e2.3.2、最后得概念集Cpdi={CpdiA} |k=l, . . . ,pk}。
[0199] e2.4、初步得到部分剩余概念Cpei,具体如下:
[0200] 令Cpei = Cpdi-Cpq,其中Cpq为步骤d3.4得到的概念,则Cpe功步骤d未捜寻到的部分 概念。
[0201] e3、得到其余剩余概念。给定初始值i = l,具体操作如下:
[0202] e3.1、对Cpei(注意i的初始值为1,即首先讨论步骤e2.4中的Cpei)中任意两个概念 进行比较,若两个概念的对象集交集非空,则将运两个概念组合为一个概念,组合规则按步 骤e2.1.2进行;最后得概念集Cpe( W)。
[0203] e3.2、依据步骤e2.3去除Cpc(w)中的伪概念,得到概念Cpd(w)。
[0204] e 3.3、得到部分剩余概念 Cpe (i+:L) = Cpd (i+i) -Cpei。
[02化]e3.4、令i = i+l,重复步骤e. 3.1到e. 3.3,直到任意两个概念对象集交集为空,捜 寻结束;最后得到所有剩余概念为
1'。
[0206] e4、最后去除Cpe中的伪概念:对于对象集相同的概念,保留属性集最大的概念,其 余去掉。
[0207] e5、到此为止,得到(FqiMqU hMo)的全部概念信息Cp = CpqUCpe。
[0208] 步骤f采用基于概念格的信息提取方法,删除(Fo,MoU{rl},In)中所有概念内涵中 的η,得到(Fo,Mo,Io)的全部概念信息;并将步骤a中净化掉的属性与对象重新恢复为(Fo,Mo, Ιο)的信息,最终得到原始信息背景(F,M,I)的全部概念信息。
[0209] η、删除所有概念内涵中的η。假设(Fo,MoU{rl},In)的第i个概念为CpU} = (X(i), Y(i)),其中X(i)为第i个概念的外延,Y(i)为第i个概念的内涵。删除Cp{i}内涵中的η后,得 CpO{i} = (X(i)J(i)-{ri}),i = l,2,. . .,Πρ,其中Πρ= |Cp|。从而得到化,]/[日,1日)的所有概念 信息{坏00'},M,…,",,}υ?(0,爲叫口})!·。本发明中用CpOU}表示去除节点η后的第i 个概念,用Cpl{i}表示恢复属性或对象后的第i个概念。
[0210] f2、原始背景的概念信息恢复。获得(F,M,I)的所有概念信息。
[0211] f2.1、对步骤al.l中净化掉的每一全局属性X,重新恢复为CpO{i}内涵中的元素, 得Cpl{i} = (X(i),(Y(i)-{rl})U{x}),i = l,2,...,np,其中np=|Cp|。
[0212] f2.2、对步骤al.2中净化掉的每一全局对象g,重新恢复为CpO{i}的外延中的元 素,得Cpl{i} = (X(i) U {g} J(i)-{ri}),i = l,2,. . .,Πρ,其中Πρ= |Cp|。
[0213] f2.3、对于步骤al. 3中的每一空属性X,重新恢复为(0,M〇)的内涵中的元素,得 胸^)。的)。:
[0214] f 2.4、对于步骤a 1.4中的每一空对象g,重新恢复为奶,0)外延中的元素,得 CFoU姑,0)。
[0215] f2.5、对于步骤al. 5中的等价属性,若属性X与属性y等价,则将CpOU}的内涵中含 X的内涵替换为{x,y},得Cpl{i} = ((X(i),(Y(i)-{n,x}) U {x,y}),i = l,2,. ..,Πρ,其中Πρ =ICp I 〇
[0216] f 2.6、对于步骤al. 6中的等价对象,若对象gi与对象g2等价,则将CpO{i}的外延中 含gi的外延替换为{gi,g2},得Cpl{i} = ((X(i)-{gi}) U {gi,g2},Y(i)-{n}),i = l,2,..., Πρ,其中Πρ= |Cp|。
[0217] 本发明受到国家自然科学基金项目资助(项目号:61572011),还受到河北省自然 科学基金的资助(项目号:A2013201119)。
[0218] 下面结合具体实施例对本发明作进一步详细说明。本发明在相同的运行环境下, 使用嫩化48 20136进行实验。
[0219] 实施例1,给定原始信息背景(F,M,I),此信息背景包括11个属性,9个对象,其中F 为信息背景中所有对象的集合,即。={1,2,3,4,5,6,7,8,9};1为所有属性的集合,即1 = (a,b,c,d,e,f,g,h,i, j,k} ;1为属性集和对象集的二元关系,如表1所示。
[0220] 根据步骤a采用基于概念格的信息提取方法,将原始信息背景(F,M,I)进行预处 理,包括如下过程:
[0221] 根据步骤al对原始的信息背景(F,M,I)进行预处理,得到净化后的信息背景(Fo, Mo, Ιο)。主要目的是为了删除背景中全局属性、全局对象、空属性、空对象、等价属性、等价对 象,降低后期计算的复杂度。具体步骤如下:
[0222] 根据步骤al.l,对于在(F,M,I)中拥有的对象集为F的属性,即全局属性k,进行删 除处理。
[0223] 根据步骤al.3,对于不拥有任何对象的属性,即空属性a,进行删除处理。
[0224] 根据步骤al.5,d和j在(F,M,I)中各自拥有的对象相同,为等价属性,为了描述方 便,在此,保留d,删除j。
[0225] 根据步骤al.6,5和9在(F,M,I)中各自拥有的属性相同,为等价对象,为了描述方 便,在此,保留5,删除9。
[0226] 采用步骤al完成对(F,M,I)的净化,得到净化后的信息背景(Ρο,Μο,Ιο)。如表2所 /J、- 〇
[0。7] 根据步骤a2,定义(Ρο,Μο,Ιο)如下:
[022引Fo = F-({xeF|x为全局对象} U {xEFlx为空对象} U {xEF|x是在al.6中被删除 的对象}),即F0={l,2,3,4,5,6,7,8};
[0229] Μο = Μ-({χΕΜ|χ为全局属性} U {χΕΜ|χ为空属性} U {χΕΜ|χ是在al.5中被删除 的属性}),即Mo= {b,c,d,e,f,g,h,i};
[0230] Ιο如表2所示。
[0234] 此邻接矩阵对应属性拓扑图Go= (Vo(Go),Eo(Go)),如图2所示。
[0235] 根据步骤b,采用基于概念格的信息提取方法,对Go添加一个拥有对象集为Fo的节 点n,得到图Go+h},如图3所示,W及信息背景(Fo,MoU{ri},In)。
[0236] 根据步骤bl,添加节点η。在信息背景(Fo,Mo,Io)中|Mo| > 2,添加一个特殊属性II。
[0237] 根据步骤b2,给出η所拥有的对象集。本发明实施例中,η所拥有的对象集为Fo = {1,2,3,4,5,6,7,8}。
[023引根据步骤b3,得到新图G(V,EV )。
[0239] 根据步骤b3.1,在Go上添加一个特殊节点η,η拥有的对象集为Fo。
[0240] 根据步骤b3.2,连接η与图Go各节点,得8条边,且每边权值为(η,XI),XI ΕΜο,i = 1,2, ...,8,即w' (ri,b) = α,2,3,5,6},w' (ri,c) = {3,4,6,7,8},w' (ri,d) = {5,6,7,8},w' (η, e) = {7},w' (ri,f) = {5,6,8},w' (ri,g) = {l,2,3,4},w' (ri,h) = {2,3,4},w' (ri,i) = {4}。最 终得新图G〇+U}=G(V,E,w'),其中,节点集V = M〇U U};边集怎={如', .、7)|u''(.V,.,Λ','片0,Λ',',Λ.,'Ε 的心!口|,/,./=1,2,9}。
[0241] 根据步骤b4,得到信息背景(Fo,Mo U h},In)。
[0242] 获取信息背景(Fo,MoU{rl},In)的过程如下:对于任意的geFo,yeMoU{rl},
[02创当yEMo时,若gloy,则giny;当y = n时,有giny成立。
[0244] 根据步骤C采用基于概念格的信息提取方法,对属性拓扑图G(V,E,w〇的权值进行 净化,具体过程如下:
[0245] 依次对G(V,E,w')中的每一个权值W' (Xi,Xj),Xi,XjeMo U {η},i,j = 1,2,…,9与η 所拥有的对象集Fo作比较。若(xi,xj)中有不属于Fo的对象,则将此对象从(xi,xj),i,j =1,2,…,9中去掉,最后完成对G(V,E,w^ )中每边上的权值的净化,得到新的拓扑图G(V,E, W),其中,¥(6(¥,6,讯))=¥(6(¥,6,讯'));6(6(¥,6,讯))=6(6(¥,6,讯'));讯(义1,刮)为讯'(又1, xj)净化后的权值,xi,xj EMo U h},i,j = 1,2,. · ·,9。
[0246] 具体描述为:对每个gEw'(Xi,Xj),
[0247] 如果各芭所,.那么净化后的权值为w(Xi,Xj)=w/ (Xi,Xj)-{g};
[024引如果!>'E f("那么净化后的权值与原权值相等,即W(Xi,Xj) = (Xi,Xj)。
[0249]因为η拥有的对象集为Fo,任意gEw' (Xi,Xj),都满足gEFo,所Ww(Xi,Xj) =w' (Xi, Xj)。净化后的邻接矩阵为:
[0巧0]
[0251]步骤d采用基于概念格的信息提取方法,将G(V,E,w)中的属性进行分层,得到分层 图,并对概念信息进行提取,具体过程如下:
[0巧2] 令TN(ri)=Mo,即了的11)=化,(3,(1,6山邑山1},|1〇|>2,对化燕,1〇)的概念信息寻 找进行如下操作:
[0253] 根据步骤dl,采用基于概念格的信息提取方法,定义分层图的第一层。
[0254] l^i={({ri},{b,c,d,e,f,g,h,i},{l,2,3,4,5,6,7,8})}。
[0255] 根据步骤d2,采用基于概念格的信息提取方法,基于分层图的第一层寻找分层图 的第二层L2,捜寻过程具体如下:
[0256] 根据步骤d2.i,基于第一层属性n,寻找Wn为中屯、的下一层属性集合?(η):
[0257] 本发明实施例中TN(rl) = {b,c,d,e,f,,g,h,i},初始定义l(rl) = {},
[0巧引 对6£了^10,0,(1,6^,邑,}1,1£了^11)-化},满足1徊,6)骑如如州'口,/,)骑(化刮, H'(y, /,)g"切,(.'),u(", Ζ,)g"切,./),"切,/,)空"07,到,iv(w, /)) gu(,/,/!},々)&1(口,/). 口J· 简写为:M(化 6) gw(?7, c),w(ri,d),w(ri,e),w(ri,f),w(n,g),w(n,h),w(n,i),得l(n): = lb}。 [0 巧 9]对 〇£了的11),6,(1,6^,邑山1£了的11)-{:。},满足"〇?,£'>&1'(口',')),讯(11,(1),讯(11,6),¥ (n,f),w(n,g),w(n,h),w(ri,i),得Κη): = {Μ u k} = {b,c}。
[0260]对(1£了的11),6,〇,6^,邑,}14£了的11)-{(1},满足14<口,旬空。'(7,/)),"(11,。),"(11,6)," (n,f),w(n,g),w(n,h),w(ri,i),得l(n): = {b,c} U {d} = {b,c,d}。
[026。 对6£了則11),6,。,0^,邑山1£了則11)-{6},因为化知反)巨许的,亡'),所則(11):=化, c,d} ο 惦62 ]对f e TN (η),b,C,d,e,g,h,i e TN (η) - {f},因为 ii'( 'A. /'hi; h〇m/),所 W1 (η): = {b, c,d} o
[0263] 对geTN(ri),b,c,d,e,f,h,ieTN(ri)-{g},因为w切,容)g w(巧,約,w(n,c),w(ri,d), w(ri,e),w(ri,f),w(n,h),w(ri,i),所WKn): = {b,c,d,g}。
[0264] 对11£了則11),6,(3,(1,6^,邑4£了則11)-化},因为"'(口、/'!)弓1切幻,所^1(11)=化, c,d,g}。
[0265] 对记了則11),6,〇,(1,6山邑,}1£了則11)-化},因为此7,'')口初,到,所^1(11)=化,(3, d,g}。
[0%6]最后得 l(ri) = {b,c,d,g}。
[0267]根据步骤d 2 . 2,基于第一层属性n,对于每一 .?? e/(如,寻找皆2的拓扑邻域 物巧);
[026引本发明实施例,初始定义TN(b) = {},be Κη),
[0269]对 beTN(ri)且 w(6,6)=0,因此不与 w(ri,b)进行比较,得 TN(b): = {};
[0^0]对ceTN(ri)且"你'片0,H(/),(')。1'〇7, /-,),得TN(b): = k};
[0Z71 ]对deTN(ri)且h'(A,(啦0,"",,(/) '。巾7, 6),得TN(b): = k,d};
[0Z7^ 对eeTN(ri)且w'化 e)=0,因此不与w(ri,b)进行比较,得TN(b): = k,d};
[0的;3]对f eTN(ri)且冶,u(/,/) [u07, /)),得TN(b): = {:c,d,f};
[0274]对geTN(ri)且、雌,g)卓0,Η'(々若)亡"(化 /)),得TN(b): = k,d,f,g};
[027引对heTN(ri)且".(/),/?片0,η?/λ/?) cTH07,々),得TN(b): = k,d,f,g,h};
[0Z76]对iETN(ri)且W炸,0=0旧此不与w(n,b)进行比较,得TN(b) : = k,d,f,g,h};
[0277]最后得到 TN(b) = k,d,f,g,h}。
[0278] 同理,可W得到TN(c) = {b,d,e,f,g,h,i},TN(d) = {b,c,e,f},TN(g) = {b,c,h, i} 〇
[0279] 根据步骤d2.3,捜寻第二层中的每一个属性集中最后一个属性的关键元,并进行 概念信息的提取。
[0280] 完成步骤d2.1~d2.2之后,可得第二层中的第一个属性集{ri,b},b的拓扑邻域TN (b),W及权重w(ri,b),bEl(ri)。将第二层中的第一个属性集中属性b的关键元记为
[0281] L2{l} = ({n,b},TN(b),w(n,b));
[0282] 同理,可得第二层中属性c,d,g的关键元:L2{2} = ({ri,c},TN(c),w(ri,c));
[0283] L2{3} = ({ri,d},TN(d),w(ri,d));L2{4} = ({ri,g},TN(g),w(ri,g))。
[0284] 且提取概念为
[0285] Cp2{l} = (w(n,b),{n,b});Cp2{2} = (w(n,c),{n,c});
[0%6] Cp2{3} = (w(ri,d),{ri,d}) ;Cp2{4} = (w(ri,g),{n,g})。
[0287] 根据步骤d2.4,对l(ri)中每一属性完成步骤d2.2~d2.3后,得到分层图的第二层 L2:L2={({n,b},TN(b),w(n,b)),({n,c},TN(c),w(n,c)),({n,d},TN(d),w(n,d)),({n,g}, TN(g),w(n,g))}〇
[0288] 进而提取第二层概念为:
[0289] Cp2={(w(n,b),{n,b}),(w(n,c),{n,c}),(w(n,d),{n,d}),(w(n,g),{n,g})}〇
[0290] 根据步骤d3,分层图的第二层已经获得,即
[0291] L2={({n,b},TN(b),w(n,b)),({n,c},TN(c),w(n,c)),({n,d},TN(d),w(n,d)), ({n,g},TN(g),w(n,g))}〇
[0292] 采用基于概念格的信息提取方法,寻找分层图的第Ξ层L3,操作过程具体如下:
[0293] 根据步骤d3.1,依次选取第二层的属性b,c,d,g,即选取第二层属性集{ri,b}、{ri, (:}、{11,(1}、{11,邑}中的最后一个属性,寻找第^层的所有属性。下面^属性6为例进行说明。
[0294] 根据步骤d3.1.1,Wb为中屯、净化原始邻接矩阵r,得新邻接矩阵W= |w(xi,xj) IW (又1,刮)为"'佔,刮)净化后的权值,化,刮£]?日11{11}},具体过程如下:
[02M]依次对G(V,E,W')中的每一个权值W' (xi,xj)(i,j = l,2,···,9)与w(rl,b)所拥有的 对象集{1,2,3,5,6}作比较。若w/(xi,xj)中有不属于{1,2,3,5,6}的对象,则将此对象从 (xi,xj) (i,j = 1,2,…,9)中去掉,最后完成对G(V,E,)的权值的净化,得到Wb为中屯、净化 权值后的属性拓扑图G ( b ) = ( V,E,W ),如图4所示,其中,巧巧6))c巧巧Γ, 必,材/)),巧巧城仁巧(?化玄,:悚〇)州佔,刊)为"'佔,刊)净化后的权值,町响居1日^11},1〇 =1,2,…,9。得到新的邻接矩阵为:
[0296]
[0297]根据步骤d3.1.2,针对净化后的G(b),寻找Wb为中屯、的下一层属性集合1(b)。注 意现在寻找第Ξ层属性,前面两层属性都已经得到。即({ri,b},TN(b),w(ri,b))eL2。
[029引对每一个属性 xETN(b),令 w(b,x)与 w(b,ys)进行比较,其中 yseTN(b)-{x},s<9。 判断w(b,x)是否包含于w(b,ys),若H'(Z),.r化Η化.V,),则xel(b);反之,则挑膊);最后得1 化)。
[0299] 初始定义 l(b) = {},TN(b) = {:c,d,f,g,h},
[0300] 对ceTN(b),d,f,g,heTN(b)-k},满足"(/,,(')i/),w(b,f),w(b,g),w(b,h), 得 1(b): = k};
[0301 ]对deTN(b),c,f,g,heTN(b)-{d},满足w(b,d) =w(b,f),得1(b): = k};
[0302] 对f eTN(b),c,d,g,heTN(b)-{f},满足w(b,f) =w(b,d),得 1(b): = k};
[0303] 对 geTN(b),c,d,f,heTN(b)-{g},满足u的,,幻&Γ(/),('),w(b,d),w(b,f),w(b,h), 得 1(b): = {;c,g};
[0304] 对heTN(b),c,d,g,f ETN(b)-化},满足"的,Η"),到,得 1(b): = k,g};
[0305] 最后可得 l(b) = k,g}。
[0306] 根据步骤d3.1.3,通过上面所求得的l(b) = レ,g},本步骤主要寻找TN(c)和TN (g)。注意现在是寻找第Ξ层中属性C和g的拓扑邻域,前面两层属性的拓扑邻域都已经获 得,即(h,b},TN(b),w(n,b))eL2。
[0307] 针对净化后的G(b),任取义£了則13)且>^<£;, X卢0,cE 1(b),验证w(c,x)是否真包含 于W (b,C)。如果 w(c, x)cW化C),那么 X e TN (C);如果 w(c,对 CW化C),那么 X € 77V(c)。
[0308] 初始定义TN(c) = {},cel(b),TN(b) = k,d,f,g,h};
[0309] 对cETN(b)且c)=0,不进行比较,得TN(c): = {};
[0310] 对deTN(b)且?/户0,</)。,如,<:'),得1的。):={(1};
[0311] 对f ETN(b)且 1啦,./片0,、'啦,/)。抑,('),得TN(c): = {d,f};
[0312] 对gETN(b)且 1啦,各片0,1啦',到口.柳,('),得TN(c): = {d,f,g};
[0313] 对hETN(b)且、/啦0,"((..,/?仁Η"),('),得TN(c): = {d,f,g,M。
[0314] 最后得到TN(c) = {d,f,g,h}。
[0315] 同理,可得 TN(g) = k,h}。
[0316] 根据步骤d3.1.4,寻找第Ξ层中Wb为中屯、的关键元并进行概念信息的提取。
[0317] 完成步骤d3.1.1~d3.1.3之后,得到第Ξ层中的属性集h,b,C}及此属性集最后 一个属性 C 的拓扑邻域 TN(c)W 及权重 w(ri,b,c),其中 w(ri,b,c)=w(ri,b)nw(b,c)。
[031引根据步骤d3.1.4.1,因为没有与{rl,b,c}相同的属性集,所WL3{l} = ({rl,b,c},TN (C),w(ri,b,c))。提取第Ξ层中的第一个概念Cp3{l} = (w(ri,b,c),{ri,b,c})。
[0319] 完成步骤d3.1.1~d3.1.3之后,还可得到第Ξ层中的属性集{ri,b,g}及此属性集 最后一个属性g的拓扑邻域TN(g)W及权重w(ri,b,g),其中w(ri,b,g)=w(ri,b)nw(b,g)。
[0320] 根据步骤d3.1.4.1,因为没有与{ri,b,g}相同的属性集,所WL3{2} = ({ri,b,g},TN (邑),巧(11,13,邑))。提取第^层中的第二个概念〔口3{2} = (*(11,13,邑),{11,13,邑})。
[0321] 根据步骤d3.2,即依次选取C,d,g,重复步骤d3.1,可W得到
[0322] 1(。)= {13,(1}及了的13) = {(1^,,邑,11},了的(1) = {13,6,;〇;
[0323] 1((1) = {;(3,門及1的(3) = {13,6,;〇,了的;〇 = {13,(3};
[0324] i(g) = {b,h}及TN(b) = k,h},TN化)= {b,c,i}。
[0325] 在第Ξ层中寻找Wc为中屯、的关键元时,由于{ri,c,b}与前面{ri,b,c}属性集相同, 故此时不再寻找属性集h,c,b}最后一个属性b的关键元。同理,对其他属性集做同样的处 理。
[0326] 最终得到:
[0327] L3{3} = ({n,c,d},TN(d),w(n,c,d));L3{4} = ({n,d,f},TN(f),w(n,d,f));
[032引 L3{5} = ({ri,g,h},TN(h),w(ri,d,h))。
[0329] 并可提取概念:
[0330] Cp3{3} = (w(n,c,d), {n,c ,d}) ;Cp3{4} = (w(n,d,f), {n,d,f});
[0331] Cp3{5} = (w(ri,g,h),{ri,g,h})。
[0332] 完成上面步骤后,可得到第Ξ层所有属性集中最后一个属性的关键元:
[0333] L3={({n,b,c},TN(c),w(n,b,c)),({n,b,g},TN(g),w(n,b,g)),({n,c,d},TN (d),w(n,c,d)),({n,d,f},TN(f),w(n,d,f)),({n,g,h},TN(h),w(n,g,h))}o
[0334] 进而提取第Ξ层概念为:
[0335] Cp3={(w(n,b,c),{n,b,c}),(w(n,b,g),{n,b,g}),(w(n,c,d),{n,c,d}),(w(n, d,f),{n,d,f}),(w(n,g,h),{n,g,h})}o
[0336] 参照图5,根据步骤d3.3,重复d3. l-d3.2直到某层每个属性的拓扑邻域均为空集, 则该属性的下一层属性也均为空集。本发明实施例,知=0,此时分层结束,得到(Fo,MoU (11},1〇的除!(0,飾)^{听)}的全部概念信息。
[0337] 根据步骤d3.4,分层结束后(Fo,MoU h},In)的所有概念信息见表3。
[033引表3本发明方法完成步骤d3.4后所得(Fo,Mo U h},In)的所有概念信息
[0339]
[0340] 根据步骤e采用基于概念格的信息提取方法,检验所有概念信息是否齐全。 '
[0%1]根据步骤el. 2,由于图Go+h}是加权有环图,但不含有Ξ边且各边权值均相等的 环,因此不需要继续捜寻概念。
[0342]根据步骤f采用基于概念格的信息提取方法,将(Fo,MoU{rl},In)的所有概念内涵 的η进行删除,得到(Fo,M〇,1〇)的全部概念信息。
[0;3创根据步骤η,删除所有概念内涵中的II,得到(F0,M0,I0)的所有概念信息见表4。 [0344]表4本发明方法完成步骤η后所得(F〇,M〇,I〇)的所有概念信息
[0345]
[0346] 根据步骤f2,得到(F,M,I)的所有概念信息见表5。
[0347] 表5本发明方法完成步骤f2后所得(F,M,I)的所有概念信息 [0;34 引
[0349] 参照张涛等人的方法流程图如图6所示,对整个属性拓扑图进行概念信息提取。对 概念的捜索过程如图7所示。从属性拓扑图中选择一点为起点,进行概念信息的捜索,每步 最先捜索到的为顶层属性,如图7(1)所示。顶层属性d后省略的部分如图7(2)所示,顶层属 性g后省略的部分如图7(3)所示,顶层属性b后省略的部分如图7(4)所示。图7(1),图7(2)和 图7(3)中的虚线表示捜索到的概念为伪概念,如({5,6},{b,d})为伪概念,({5,6},{b,d, f})为真正的概念信息。
[0350] 采用张涛等人的方法,捜索结束后得到(F〇,M〇,I〇)的概念信息见表6。
[0351] 表6张涛等人方法所得(F〇,M〇,I〇)的所有概念信息
[0352]
[0353] 实施例2,为了进一步说明本发明的实用性,本发明使用UCI机器学习数据库(UCI Machine Learning Repository)中的I3L0GGER数据集进行测试。此数据集是对100个对象分 别从学历、政治立场、博客主题、是否被当地媒体转载、地方,政治和社会空间、该博主是否 为临博主6个方面进行调查得到的。本发明对此数据集提取了 14个属性和100个对象,运些 属性和对象的关系包括了信息背景中可能出现的所有关系。由于净化后的背景直观明确, 本发明首先净化此数据集,进而进行概念信息提取。表7为净化后的信息背景(Fi,Mi,Ii),包 括14个属性,41个对象。
[0354]表7净化后的信息背景化,Ml,ω [0355]

[0356] 注:表7中各字母代表的含义分别如下:
[0357] a:博主为高学历;b:博主为中等学历;C:博主学历较低;d:政治立场为左派;e:政 治立场为中立;f:政治立场为右派;g:博客主题为感想;h:博客主题为政治;i :博客主题为 旅游;j博客主题为新闻;k:博客主题为科学;1:博客被当地媒体转载;m:地方,政治和社会 空间;η:该博主为临博主。
[0358] 根据步骤b得到实施例2的邻接矩阵W/,见说明书第30页。
[0359] 其对应的属性拓扑图如图8所示(若与某节点相连接的边中,既有单向指向该节点 的边,又有单向指出边或双向边,则与该节点相连接的边,在图中用虚线表示)。
[0360] 采用本发明的方法,得到化,Ml, Ii)的概念信息见表8。
[0361] 表8本发明方法所得化,Ml, Ii)的所有概念信息
[0362]
「Π 3Α31
[0364] 实施例3,为了快速比较本发明方法与张涛等人的方法的复杂度,本实施例选取较 简单的信息背景。信息背景(F2,M2,l2)见表9,,其净化后的信息背景化,Μ3,?3)见表10。采用 本发明方法,得到信息背景(F3,M3,l3)的全部概念信息见表11。本发明从实施例3的信息背 景中提取数据进行实验,从程序的循环次数和执行时间两方面,与张涛等人的方法进行比 较,所得数据见表12。
[0365] 结合本发明实施例和实验分析,得到结论:
[0366] I、本发明采用一种基于概念格的信息提取方法,与使用张涛等人的全路径遍历方 法,所得到的概念信息相同,都能够获得信息背景全部的概念信息。
[0367] II、由图9得η <21时,本发明方法比张涛等人的方法复杂度要高。
[0368] III、由图10得η>21时,本发明方法复杂度比张涛等人的方法复杂度低。并且随着 样本数目的增大,本发明方法复杂度会越来越低于张涛等人的方法复杂度。
[0369] IV、由表12得出对于大数据信息背景,由于本发明方法远远优越于张涛等人的方 法,选择本发明的方法获取信息概念更为适宜。
[0370]
[037。 表10(F2,M2,l2)净化后的信息背景化,M3,l3)
[0372]
[0375]表12本发明方法与张涛等人的方法复杂度对比
[0376]
[0377] 注释:循环次数:程序循环体中语句的最多执行次数,是用来刻画时间复杂度;时 间:程序执行时间。将表12中数据绘制成曲线图,所得结果如图9和图10所示。
[037引
【主权项】
1. 一种基于概念格的信息提取方法,其特征是,包括如下步骤: a、 将原始信息背景(F,M,I)进行预处理,得到净化后的信息背景(Fo,Mo,Io),并将此净 化后的信息背景转化为一属性拓扑图的邻接矩阵;此邻接矩阵对应属性拓扑图Go= (Vo (60)而(6〇)),其中,¥()(6())=1()而(6()) = {6(叉,7)4,#1(),且1,7拥有公共的对象}; b、 为属性拓扑图Go添加一节点属性ri,得到一个新的属性拓扑图Go+h}; C、对新的属性拓扑图Go+ {η}的权值进行净化,即:在每一边的权值W' (Xi,Xj)中去掉不 属于η拥有的对象集中的对象;其中每一边的权值为相邻两节点所拥有的公共对象集;净化 后的权值用w(xi,Xj)表示,Xi,Xj EMo U {q},i,j = 1,2,…,I Mo I +1; d、 利用净化后的属性拓扑图的权值之间的关系将各属性进行分层,得到分层图,并提 取概念信息; e、 检验所有概念信息是否齐全,若未齐全,继续寻找概念信息,直到概念信息齐全; f、 删除(F ο,Μ 0 U {η},I 〇)中所有概念内涵中的η,得到(F ο,Μ ο,10)的全部概念信息,将步 骤a中净化掉的属性与对象重新恢复为(Fo,MQ,I())的信息,从而得到原始信息背景(F,M,I) 的全部概念信息。2. 根据权利要求1所述的基于概念格的信息提取方法,其特征是,步骤a中将原始信息 背景(F,M,I)进行预处理,具体是:删除原始信息背景中的全局属性、全局对象、空属性、空 对象;同时保留等价属性中的一个,将其他的属性进行删除;保留等价对象中的一个,将其 他的对象进行删除;最后得到净化后的信息背景(Fo,Mo,I 0)。3. 根据权利要求1所述的基于概念格的信息提取方法,其特征是,步骤b中所添加的节 点属性η满足{η} = Mo或{?/}=0。4. 根据权利要求3所述的基于概念格的信息提取方法,其特征是,步骤b具体包括如下 步骤: 匕1、选取属性11,且11满足_!巾=0;^所拥有的对象集为?〇; b2、在属性拓扑图Go上添加属性II作为一节点,连接节点II与图Go中各节点,得|Mo|条边, 且每边权值为,(η,Xi),Xi ΕΜο,i = 1,2,…,I Mo I ;最终得到新的属性拓扑图Go+h},且Go+ {n} =G(V,E,W'),其中,V为节点集,V = M〇 U {q} ;E为边集,dK.v,., Xj)^0, Χ?, XjeM〇u{^f, i, j=l, 2, ..., |M〇|+l}; b3、获取信息背景(Fq,Mq U {q},In),其中 /,€ ~<( 获取信息背景的屬1^11}山)的具体过程为: 对于任意的geF(),yeM()U{n}; 当y eMo时,若gloy,则glny;即:若对象g在(Fo,Mo,Io)中拥有属性y,则对象g在(Fo,Mo U h},In)中也拥有属性y; 当y=n时,有glny成立。5. 根据权利要求1所述的基于概念格的信息提取方法,其特征是,步骤d具体包括如下 步骤: dl、定义分层图的第一层Li Li={({n},TN(n),w(n))} 其中,Li为单点集;{n}为第一层的属性集,TN(n)为属性n的拓扑邻域,w(n)为属性n所拥 有的对象集;({n},TN(n),w(n))为属性η的关键元; d2、基于分层图的第一层u,寻找分层图的第二层l2 ; \Ζι !, 7:¥(λ·:/ ), η\η, Α':( ))| λ%e/(//)> ,/2 = 1,2..,,/, , Λ-??? Μ〇! | ; 其中,?(η)表示以η为中心所选择的下一层属性集合,?(η)满足如下条件: /(/》={ I εΓΛτ(亦对仟意.ve(TW(?7)-{χ2/、丨 >,满足 η切,χ2λ )落 7), 乂 = l,2.,.,r2, )表示以ri为中心所选择的属性%&的拓扑邻域,x2,: e /(/7)^(? )满足如下条 件:并提取第二层的概念信息Cp2:d3、根据步骤dl~d2可得分层图的第(i-Ι)层,i为整数,且i>2; 假设分层图的第(i_l)层L(inl)已经获得,即:根据分层图的第(i-Ι)层L(inl)寻找分层图的第i层L1;其中,巧表示第i层中第上个属性集中的最后一个属性; /(?Vuk)表示以为中心所选择的下一层属性集合,4VI,)满足如下条件:)表示以为中心所选择的%的拓扑邻域,? Ε/(·ν_1υ_))满足如 下条件:并提取第i层的概念信息Cp1:d4、如果第(i-1)层中每一属性集{符,_ \,_ ,…,_ 的最后一个属性 的拓扑邻域均为空集,则该属性的下一层属性也均为空集,即1,=0,此时分层结束, 否则重复步骤d3直到分层结束; d5、分层结束后(F〇,M〇 U {η},Ιη)的所有概念信息为,_其中η〇为属性分层的 总层数。6. 根据权利要求5所述的基于概念格的信息提取方法,其特征是,步骤d3中在根据分层 图的第(i-Ι)层L(1〇寻找分层图的第i层1^时,首先要以%似^为中心净化步骤b中属性拓 扑图g〇+ {η}对应的邻接矩阵,即:将属性拓扑图g〇+ {η}中的每一边的权值V (xi,X」)与属性 集{;/,x2,: x3/3,…,χ(Μ)"}共同拥有的对象集8作比较,若w'( Xi,Xj)中有不属于B的对象, 则将此对象从W (Xl,&)中去掉,最后完成对属性拓扑图Go+W}的权值的净化,得到以 i-iuu为中心净化权值后的属性拓扑图及相应的邻接矩阵; 之后根据得到的以%,《为中心净化权值后的属性拓扑图及相应的邻接矩阵,寻找以 为中心的下一层属性集合/(·ν^,),并寻找中相应属性的拓扑邻域; 最终寻找到分层图的第1层1^,并提取到第i层的概念信息CPl。7. 根据权利要求5所述的基于概念格的信息提取方法,其特征是,步骤d3中在寻找分层 图的第i层1^时,若第i层中的前(jfl)个属性构成的集合均与目前属性集!小 χ(?-?υ',Μ, * -? }不同,则得到第i层中的第上个属性集中最后一个属性~的关键元为否则判定第i层中属性々的关键元不存在; 如果关键元Li{ji}存在,则提取第i层中的第ji个概念&A:,...> Vuv,>,x",),I",气,;,·Υ3Λ,.:.*, .Vi",μ,,λ>」); 如果关键元不存在,则无概念可提取; 最终得到第i层中所有的关键元:并提取第i层中所有的概念:8. 根据权利要求5所述的基于概念格的信息提取方法,其特征是,步骤e中,判断概念信 息是否齐全具体是: 判断步骤b中属性拓扑图Go+h}是否为加权无环图,若是,则表明概念信息齐全,不需要 继续寻找概念信息;若否,则再判断属性拓扑图Go+h}是否为加权有环图,且不含有三条边 且各边权值均相等的环,若是,则表明概念信息齐全,不需要继续寻找概念信息,若否,则表 明概念信息不齐全,需要继续寻找概念信息。9. 根据权利要求8所述的基于概念格的信息提取方法,其特征是,步骤e中,当概念信息 不齐全需要继续寻找概念信息时,具体寻找过程如下: el、对根据步骤d3所得到的第三层中的任意两个概念的对象集求交集,并将交集非空 的两个概念组合为另一个不同的概念;具体如下: el. 1、依次取第三层中的每一概念Cp3{i},i = 1,2,. . .,η?3,以及该概念之后的每一概念 Cp3 {j}, i < j < m3 ; 61.2、若1;/丨「认;」>0.则组合为概念〇?。= 0{丨}川{儿¥{丨}价{川,否则不组合 概念; e2、重复步骤el,将第三层中任意两对象集相交非空的概念,组合为新概念,从而得到 组合后的全部概念,记为 Cpci = {Cpij | Cpij= (X{i} nX{j},Y{i}UY{j}),i = l,2,...,m3,i<j《m3}; e3、去除Cpcl中的伪概念,具体如下: e3.1、依据对象集,将Cpu中的所有概念进行分类,每一类概念具有相同的对象集; e 3 . 2、将每一类中所有概念的属性进行合并,对象集不变,组合为一个概念1其中Pk为第k类概念中所有概念的个数,Ykq为第k类概念中第q个概念的 属性集,Xk为第k类概念的共同对象集; e3.3、最后得概念集Cpdi={Cpdi{k} |k=l,…,pk}; e4、初步得到部分剩余概念Cpd,具体如下: 令Cpel = Cpdl-Cpq,其中Cpq为根据步骤(15得到的概念; e5、得到其余剩余概念;给定初始值i = 1,具体操作如下: e5.1、对Cpel中任意两个概念进行比较,若两个概念的对象集交集非空,则将这两个概 念组合为一个概念,组合规则按步骤el. 2进行;最后得概念集CPc;(1+1); e5.2、依据步骤e3去除Cpc(i+1)中的伪概念,得到概念Cpd(i+1); e5.3、得到部分剩余概念 Cpe(iui) = Cpd(i+i)-Cpei; e5.4、令i = i+1,重复步骤e5.1到e5.3,直到任意两个概念对象集交集为空,搜寻结束; 最后得到所有剩余概念为e6、最后去除Cpe中的伪概念:对于对象集相同的概念,保留属性集最大的概念,其余去 掉; e7、到此为止,得到(Fo,Mo U {η},I〇)的全部概念信息Cp = Cpq U Cpe。10.根据权利要求2所述的基于概念格的信息提取方法,其特征是,步骤f具体是: π、删除所有概念内涵中的η;概念内涵即指概念内的属性; f2、将净化掉的每一全局属性,重新恢复为概念内涵中的元素; f3、将净化掉的每一全局对象,重新恢复为概念外延中的元素;概念外延即指概念内的 对象; f4、将净化掉的每一空属性,重新恢复为(0,M〇)的内涵中的元素; f5、将净化掉的每一空对象,重新恢复为(巧,0)的外延中的元素; f6、将等价属性中净化掉的属性,重新恢复为概念内涵中的元素; f 7、将等价对象中净化掉的对象,重新恢复为概念外延中的元素。
【文档编号】G06F17/30GK105824936SQ201610157420
【公开日】2016年8月3日
【申请日】2016年3月18日
【发明人】毛华, 刘祎超, 杨兰珍, 王刚
【申请人】河北大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1