基于概率图模型的频繁模式关联分类方法

文档序号:6364698阅读:230来源:国知局
专利名称:基于概率图模型的频繁模式关联分类方法
技术领域
本发明公开了一种基于概率图模型(Probabilistic Graphical Model)的频繁模式关联分类方法,涉及一种基于概率图模型的频繁模式之间相互关系的表示、并在不同抽象层次上进行关联分类的方法。属于数据挖掘及信息处理技术领域。
背景技术
实际中的数据对象,除了本身的属性外,对象的行为、以及由于行为而产生的相互关系,也是对其进行分类的重要依据。利用频繁模式挖掘算法得到频繁出现在数据集中的模式,利用关联规则表达频繁模式之间的相互关系,经典分类算法以对象本身的属性为基础、未考虑由于对象之间行为而产生的相互关系,为此,将表示对象间相互关系的关联规则用于数据的分类中,公知的关联分类方法基于关联规则进行数据对象的分类分析。董杰 (大连理工大学博士论文,2009)提出了一种基于位表的关联规则挖掘及关联分类算法;陈国青等(〈信息资源管理学报〉,2011(2))介绍了基于信息熵的关联分类方法;霍纬纲等(〈 计算机研究与发展〉,2011,48(4) =567-575)提出了一种基于多目标进化算法的模糊关联分类方法。作为关联分类的基础性技术手段,频繁模式的关联规则表示方法不能从全局的角度有效表达频繁模式间较复杂的相互关系,不能描述所涉及频繁模式的全局概率分布及相互关系的不确定性,为此,公知的方法利用图模型扩展频繁模式和关联规则的挖掘算法。耿汝年等(〈计算机集成制造系统〉,2008,14 (6) =1220-1229)提出了一种基于全局图遍历的频繁模式挖掘算法;陈文等(〈计算机工程〉,2010,36 (13) 9-6)提出了一种基于关联图的加权关联规则模型,并利用关联图存储频繁模式集;胡春玲等(〈软件学报〉,2011,22 (12) 2934-2950)提出了一种基于贝叶斯网这一概率图模型的频繁模式兴趣度计算和剪枝策略, 并有效利用贝叶斯网的推理算法来计算关联规则的支持度。相对公知的频繁模式表示方法,基于概率图模型可以表示频繁模式之间任意形式的全局相互关系、以及相互关系的不确定性,基于概率图模型分析频繁模式间相互关系的紧密程度、并进行结点的合并,可以在不同抽象层次进行频繁模式分类。以频繁模式之间的因果关系为出发点,提出了频繁模式的概率图模型表示方法,建立了从频繁模式到概率图模型的等价转换机制,给出了基于概率图模型性质的频繁模式层次聚集方法,将其用于学术论文和论文作者联系的自动分类的问题中,具有较高的效率和分类准确率。此方法能以一个统一的模型方便高效地实现频繁模式之间相互依赖关系的全局表示,可满足不同抽象层次用户的关联分类需求,具有较好的伸缩性,为后续研发提供理论依据和技术基础。

发明内容
本发明提供一种基于概率图模型的频繁模式关联分类方法。在Apriori频繁模式挖掘算法的执行结果之上,提供一种基于概率图模型的频繁模式间相互关系的表示及频繁模式的关联分类方法。以马尔可夫网(Markov network)这一重要概率图模型作为知识表示的基本框架,建立频繁模式与概率图模型的内在联系,构建频繁模式中蕴含的马尔可夫网,通过结点自底向上的聚集对频繁模式进行不同抽象层次上的关联分类。可以从全局的角度方便高效地表示频繁模式间任意形式的相互关系,不同抽象层次用户的关联分类具有较好的伸缩性,为后续研发提供理论依据和技术基础。本发明按以下步聚完成本发明工艺流程为首先,基于Apriori频繁模式挖掘算法、设置支持度,获得极大频繁项目集;接着,对每个极大频繁项目集分别构建初始无向图,并根据它们之间的公共项目集进行初始无向图的合并,进而测试图中结点之间的条件独立性,删除条件独立的边, 得到频繁项目集中蕴含的马尔可夫网;然后,对得到的马尔可夫网进行弦化处理,将弦化的马尔可夫网表示为连接树,以一个弦化子图作为连接树的一个顶点,从而得到频繁模式的初始分类;进一步以自底向上的方式,对连接树的顶点进行聚集合并,得到反映更高抽象层次的分类,直到满足用户需求为止。(I)获得频繁模式基于Apriori频繁模式挖掘算法,并设置支持度阈值,得到 I-频繁项集,2-频繁项集,……,直到不能得到更大的频繁项集为止,从而获得极大频繁项集。基于Apriori频繁模式挖掘算法,针对项集I = U1,…,in},设置支持度阈值ε (O < ε < I),若I的子集X满足概率P(X)彡ε,则X为频繁项集。首先得到含有I个项的 I-频繁项目集,再得到含有2个项的2-频繁项目集,……,依次执行,直到不能得到更大的频繁项集为止。从而获得极大频繁项目集;(2)构建频繁模式中蕴含的马尔可夫网针对每个极大频繁项目集,首先构建以其中各频繁项目作为结点的全连通无向图,再将各极大频繁项目集所对应的完全子图进行合并,然后根据频繁项目之间是否条件独立来确定边的删除与保留,从而得到反应频繁项目之间全局相互关联的马尔可夫网。①对每个极大频繁项目集分别构建无向图对极大频繁项集Ai,以其中的项作为图的结点,用无向边连接Ai中任意两个不同的项,得到Ai对应的全连通无向图G(Ai),如图
2、图3和图4所示;②合并所有频繁项集对应的无向图对于存在公共项的任意两个Ai和Ap将Ai中的每个项与 中的其他项用无向边相连,从而将每个极大频繁项集对应的无向图进行合并,得到全局无向图G,如图5所示;③删去条件独立结点对应的边,得到马尔可夫网用<α Z β> 表示“ α 与 β 条件独立于 Ζ”,若 P ( α,Ζ,β) =Ρλ (α,Ζ) ·Ρ λ (β,
ο P(X) < λ
Ζ)/Ρλ⑵,其中= j, X为频繁项集,λ为给定的概率阈值。
L尸(Ji ) γ(Λ ) > Λ若X为极大频繁项集,α,β e X,有〈α I χ- α - β I β >总成立。对于所有频繁项集对应的无向图,考查G(Ai)中的任意无向边(ail; aik),若〈ajAi-aifaiklaik〉成立(即an 与aik条件独立于G(Ai)中其他结点),则从G中删除边(ail; aik);若an和aik又是Aj中的频繁项且〈a^Ai-aifaiklaik〉成立(即an与aik条件独立于G (Aj)中其他结点),则也从G 中删除边(ail; aik)。从而建立了频繁模式与条件独立性之间的关系,得到了表示频繁项之间相互依赖关系的无向图结构,该图结构满足概率图模型的必要条件、为有效的频繁项马尔可夫网,将其称为项关联马尔可夫网(Item Association Markov Network),如图6所不。(3)频繁模式的层次聚集根据弦化的定义,(一个无向图称为弦图,当图中任一长度大于3的环都至少有一个弦),将构建的马尔可夫网弦化处理,同时建立马尔可夫网中各结点极大完全子图的无环序,进而得到以极大完全子图为结点的联接树,根据联接树中极大完全子图的无环序进行联接树中结点的聚集合并,自底向上的方式重复此过程,直到满足用户所需抽象程度为止。①用弦化(Chordal)作为频繁项联系紧密的衡量标准,得到弦化的项关联马尔可夫网及弦化子图的序基于无向图弦化的概念,对每个长度不少于4的环都进行弦化(即三角化,使得每个环的长度不大于3),每个长度不超过3的环中的结点构成一个弦化子图Xi,每个弦化子图包含联系紧密的频繁项且对应一个初始的类,如图7所示;进一步基于以下标准得到弦化子图的序(Xl,…,xm),为得到更高抽象层次的类奠定基础
其中 I 彡 j 彡 i ;②将弦化无向图表示为连接树(Join Tree):弦化的马尔可夫网可以用树结构来描述,称为连接树;而连接树本身是弦化的,包括了联系紧密的频繁项。将弦化子图作为顶点,若Ci与有公共频繁项,则Ci与之间有一条无向边,得到连接树Τ,如图8所示;③连接树结点聚集合并,实现不同抽象层次的频繁模式关联分类按照弦化子图的序,将连接树T中各无向边末端的顶点与头端结点合并,得到新的连接树Τ,,其中每个结点对应更高抽象层次的一个类,如图9和图10所示。以自底向上的方式重复此过程,得到越来越大的类,直到满足用户所需抽象程度为止。与公知技术相比本发明具有的优点及积极效果(I)通过构建概率图模型,以一个统一的模型、从全局的角度描述了频繁模式之间的相互关系,是频繁模式及关联规则挖掘方法的扩展,更容易地实现了频繁模式间任意形式相互关系的建模,弥补了基于关联规则的频繁模式间相互关系表示机制的不足。(2)以频繁模式间的因果关系为出发点,建立了从频繁模式到概率图模型的等价转换机制、频繁模式联合概率分布的表示机制,定量地反映了频繁模式间相互依赖的不确定性。(3)基于概率图模型的结点聚集来实现关联分类,避免了基于关联规则进行关联分类时由于仅考虑局部相关性带来的分类或聚类结果的片面性和不准确性,提高了关联分类的易实现性和结果的正确性;实现了频繁模式不同抽象层次的关联分类,具有更好的可伸缩性,能满足用户的不同需求。(4)成熟的概率图模型推理方法可为关联分类提供定量的分析和计算的支撑技术,为解决自动关联分类及基于关联分类的社会计算等目前亟待解决的热点问题提供了有力的技术支持。


图I本发明的技术路线图。包括以下三个主要部分获得频繁模式(预处理)、构建概率图模型和层次关联分类;图2、图3和图4分别为三个频繁项目集对应的初始无向图图2全连通无向子图①。结点为极大频繁项集(Α,B, C)中的频繁项;
图3全连通无向子图②。结点为极大频繁项集(C,D)中的频繁项;图4全连通无向子图③。结点为极大频繁项集(D,E,F)中的频繁项;图5所有频繁项的无向图。合并图2、图3和图4得到图5,结点为所有频繁项集 U = (A,B, C,D,E,F)中的频繁项,合并全连通无向子图时添加的边用双线表示;图6关键词频繁项目集U的项关联马尔可夫网。对图5进行条件独立测试后得到;图7弦化的项关联马尔可夫网G。对图6进行弦化处理得到,其中X1 =“频繁项”, x2 = “Apriori”,X3 = “剪枝”,X4 = “分类”,X5 = “贝叶斯网”,X6 = “团树”;图8弦化的项关联马尔可夫网G的连接树1\。其中C1 = (x1;x2,X3)代表“关联规则”,C2 = (x2, x3, x5)代表“图模型挖掘”,C3 = (x2, X4)代表“分类分析”,C4 = (x5, x6)代表“概率图模型”;图9新的连接树图T2。对图8中T1的顶点聚集合并得到,其中CflC1, C2)代表“关
联规则挖掘”,C21HC2, C4)代表“不确定性知识发现”,C3tHCu C3)代表“关联分类”;图10新的连接树T3和最高抽象层次的连接树Τ4。分别对T2和T3的顶点聚集合
并得到,其中cYUc/, 代表“人工智能”,fV=(r/,c/)代表“数据挖掘”;C24) 表示“数据与知识工程”。
具体实施例方式实施例I :学术论文关键词关联分类(I)项目集从发表的学术论文中抽取关键词(Keywords)并对各词出现的频繁度分别进行统计,若两个关键词出现在同一篇论文中,则表示两个关键字同时出现的支持度计算加I ;(2)极大频繁项目集设置最小支持度阈值,使用Apriori算法,扫描关键词并计数,得到I-频繁项目集的集合,进一步得到2-频繁项目集的集合,……,不断执行直到不能再找到k-频繁项目集为止;(3)针对每个关键词极大频繁项目集,首先构建以其中各频繁项目作为结点的全连通无向图,然后根据频繁项之间是否条件独立来确定边的删除与保留,从而得到各极大频繁项目集的子图,再将各极大频繁项目集所对应子图进行合并,得到反映频繁项目之间全局相互关系的马尔可夫网,U= (A,B,C,D,E,F)为关键词的I-频繁项目集,首先得到分别如图2、图3和图4所示的3个全连通无向子图,再根据各子图的公共结点将这3个子图合并,得到对应于U中所有频繁项的无向图,如图5所示,对关键词频繁项目进行条件独立测试,若条件独立,则删去相应的边,(A,E)、(A,F)、(B,E)和(B,F)这4对结点间的边不存在,对于图5中的无向图,<E|C,D|F>(即E和F条件独立于C和D),则删去E和F之间的边,得到关键词频繁项目集U的项关联马尔可夫网,如图6所示;(4)若弦化的项关联马尔可夫网如图7所示,按照弦化子图的序(C1, C2,C3,C4),得到连接树T1,如图8所示,图8中连接树顶点极大完全子图的无环序为(C/,c2',C3,), 则对T1中的顶点进行聚集合并,得到新的、描述更高抽象层次关键词频繁项目分类的连接树1~2,如图9所示。对T2中的顶点进行聚集合并,得到新的连接树T3,进而得到C1",=(C1",C2"),即得到最高抽象层次类的连接树T4,如图10所示。性能选择ScienceDirect数据库中5个“主题(Subject) ”中的学术论文400 篇,选取其中的1500个关键词,记录这些论文的主题及其下的子主题信息,执行以上步骤
(1) (4),从1000个频繁项构建项关联马尔可夫网只需15毫秒,获得论文所述子主题和上一级主题分类信息,在这两个分类的抽象层次分别与论文本身所述类相比,本研究所得结果的误差分别为2. 5%和I. 2%。
权利要求
1.一种基于概率图模型的频繁模式关联分类方法,其特征在于其按以下步骤完成,(1)获得频繁模式基于Apriori频繁模式挖掘算法,并设置支持度阈值,得到1_频繁项集,2-频繁项集,……,直到不能得到更大的频繁项集为止,从而获得极大频繁项集;(2)构建频繁模式中蕴含的马尔可夫网针对每个极大频繁项目集,首先构建以其中各频繁项目作为结点的全连通无向图,再将各极大频繁项目集所对应的完全子图进行合并,然后根据频繁项目之间是否条件独立来确定边的删除与保留,从而得到反应频繁项目之间全局相互关联的马尔可夫网;(3)频繁模式的层次聚集根据弦化的定义,将构建的马尔可夫网弦化处理,同时建立马尔可夫网中各结点极大完全子图的无环序,进而得到以极大完全子图为结点的联接树, 根据联接树中极大完全子图的无环序进行联接树中结点的聚集合并,自底向上的方式重复此过程,直到满足用户所需抽象程度为止。
2.根据权利要求I所述的基于概率图模型的频繁模式关联分类方法,其特征在于一种学术论文关键词关联分类法按以下步骤完成,(1)项目集从发表的学术论文中抽取关键词(Keywords)并对各词出现的频繁度分别进行统计,若两个关键词出现在同一篇论文中,则表示两个关键字同时出现的支持度计算加I ;(2)极大频繁项目集设置最小支持度阈值,使用Apriori算法,扫描关键词并计数,得到I-频繁项目集的集合,进一步得到2-频繁项目集的集合,……,不断执行直到不能再找到k-频繁项目集为止;(3)针对每个关键词极大频繁项目集,首先构建以其中各频繁项目作为结点的全连通无向图,然后根据频繁项之间是否条件独立来确定边的删除与保留,从而得到各极大频繁项目集的子图,再将各极大频繁项目集所对应子图进行合并,得到反映频繁项目之间全局相互关系的马尔可夫网,U = A,B, C,D,E,F为关键词的I-频繁项目集,首先得到3个全连通无向子图,再根据各子图的公共结点将这3个子图合并,得到对应于U中所有频繁项的无向图,对关键词频繁项目进行条件独立测试,若条件独立,则删去相应的边,(A,E)、(A,F)、 (B,E)和(B,F)这4对结点间的边不存在,对于图5中的无向图,<E|C,D|F>,则删去E和F 之间的边,得到关键词频繁项目集U的项关联马尔可夫网;(4)按照弦化子图的序C1,C2, C3, C4,得到连接树T1,图8中连接树顶点极大完全子图的无环序为C/, C21, Cl则对T1中的顶点进行聚集合并,得到新的、描述更高抽象层次关键词频繁项目分类的连接树T2,对T2中的顶点进行聚集合并,得到新的连接树T3,进而得到 C1" ' =C1" ,C2",即得到最高抽象层次类的连接树T4。
全文摘要
本发明涉及一种基于概率图模型的频繁模式关联分类方法。在Apriori频繁模式挖掘算法的执行结果之上,提供一种基于概率图模型的频繁模式间相互关系的表示及频繁模式的关联分类方法。以马尔可夫网这一重要概率图模型作为知识表示的基本框架,建立频繁模式与概率图模型的内在联系,构建频繁模式中蕴含的马尔可夫网,通过结点自底向上的聚集对频繁模式进行不同抽象层次上的关联分类,可以从全局的角度方便高效地表示频繁模式间任意形式的相互关系,不同抽象层次用户的关联分类具有较好的伸缩性,为后续研发提供理论依据和技术基础。
文档编号G06F17/30GK102609528SQ20121003166
公开日2012年7月25日 申请日期2012年2月14日 优先权日2012年2月14日
发明者刘惟一, 岳昆 申请人:云南大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1