基于粗糙集的多定性概率网整合方法

文档序号:6602054阅读:194来源:国知局

专利名称::基于粗糙集的多定性概率网整合方法
技术领域
:本发明涉及到对多个定性概率网进行整合方面的方法。主要是对来自同一数据源的不同专家给定的定性概率网,并结合少量数据,得到既能体现历史数据中蕴含的规律,也能反映专家领域知识的QPN。具体讲,涉及基于粗糙集的多定性概率网整合方法。
背景技术
:1.定性概率网1990年密歇根大学人工智能实验室著名教授Wellman提出了定性概率网(QPN,QualitativeProbabilisticNetwork)的基本概念,被认为是定性概率推理研究中里程碑式的标志,QPN是对贝叶斯网(BN)的一种定性抽象,它把BN中的变量间的因果关系转化为定性描述。与BN类似,他也包含一个有向无环图(DAG)和一个变量间的定性影响(描述变量间值增减的趋势)的集合。他用有向无环图来描述变量间的依赖关系,通过定性影响来概括变量间蕴含的因果关系。QPN通过定性的方式以变量值的增减趋势代替一般BN中精确的条件概率参数,当应用具有较高的实时性要求、需要从较少的数据中学习概率网络、或者精确概率参数未知的情况下,QPN可以用来作为不确定知识表示及推理的框架。虽然QPN的表达能力低于BN,但是其表示及推理得到了较大程度的简化和加速,反映了事件间更一般的关系,具有较高的效率。Wellman开创性的提出了QPN的基本概念,QPN可以表示成一个二元组G=(V,Q),其中V是变量的集合,对应图中的节点,Q是变量之间定性关系的集合,Q中包含两类定性概率关系描述变量间直接关系的定性影响和描述变量间间接影响的定性协作,其中定性协作又包括定性加协作和定性乘协作。QPN具有与其对应的BN相同的有向无环图结构,由QPN的定义,上面的几类定性关系可基于BN的有向无环图和各节点间的影响概率参数而得到。定性影响。Wellman给出了定性影响的定义,用以描述QPN中变量间存在的直接相互关系,定性影响包括正影响、负影响、零影响和不确定影响。A正影响B,记为S+(A,B),当且仅当对于A的值al>a2,b的值b0和X所有可能的组合的值x(X是G中节点B除节点A之外的所有父节点,即X=Ji(b)\{A}),有P(B彡bO|al,x)-P(B彡b0|a2,x)彡0。S+(A,B)意味着不考虑作用在B上的其他直接影响,A值增加使B值增加的可能性更大。类似的可以定义负影响(S_(A,B))和零影响(S0(A,B)),其他情况表明A对B的影响不确定,用(S?(A,B))表示。定性影响具有对称传递和合成性。这三个性质是人们研究定性概率因果关系表示、推理及应用的基础。对称定意味着A对B的定性影响和B对A的定性影响相同。传递性使用符号乘()运算规则,由已知的A—B和B—C上的定性影响得到A对C的定性影响;合成性使用符号和()运算规则由节点A和B间多条有向边上的定性影响得到A对B的最终定性影响。定性影响的因和操作分别如表1和表2所示。表1操作的运算规则<table>tableseeoriginaldocumentpage4</column></row><table>表2操作的运算规则<formula>formulaseeoriginaldocumentpage4</formula>定性协作。定性协作关系用来描述QPN的"V"型结构中3个节点的相互作用,包括加协作和乘协作两类。Wellman给出了定性加协作的定义,用来衡量2个原因节点对公共孩子节点的联合影响是否高于这2个原因节点对其孩子节点各自影响之和,定性加协作包括正加协作、负加协作、零加协作和不确定加协作。加协作仍然具有对称、传递及合成性质。根据条件独立和有向无环图的性质,“V"结构中当孩子节点值已知时,2个原因节点不独立。基于QPN的概念,Henrion等提出了定性乘协作的概念,用来表示当孩子结点已知的情况下,2个原因节点之间的相互影响。定向乘协作包括正乘协作、负乘协作、零乘协作和不确定性乘协作。定性乘协作具有对称、传递和合成性质。QPN的构造问题,目前主要是由给定样本数据构造QPN和由专家知识构造QPN。更近一步,若不但给定历史数据,也给定专家知识,人们希望构造出既体现历史数据中蕴含的规律,也反映专家领域知识的QPN,或者反映专家知识的QPN为主,用数据中蕴含的定性概率因果关系对其进行修正。那么如何有效的利用上面两方面的研究结果构造最终的QPN,也具有重要的意义,同时也是较高难度的研究课题。QPN中不确定性定性关系的消除。在由BN导出QPN时,由于知识的高度抽象而可能产生不确定性关系,不确定性关系意味着变量之间的相互依赖关系未知。这类不确定性关系也可能在QPN推理过程中由于符号传播而导致推理结果的不确定性,这使得QPN从BN导出后,知识的表达能力大大下降。2.粗糙集20世纪70年代,波兰学者Z.Pawlak和一些波兰科学院,波兰华沙大学的逻辑学家们,一起从事关于信息系统逻辑特性的研究。粗糙集理论就是在这些研究的基础上产生的。1982年,Z.Pawlak发表了经典论文RoughSets,宣告了粗糙集理论的诞生。粗糙集理论的观点是“知识(人的只能)就是一种对对象进行分类的能力”,这里的对象就是我们所言及的任何事物。设U是我们感兴趣的对象组成的非空有限集合,称为一个论域。论域U的任何一个子集xeu,称为论域U的一个概念或范畴。为了规范化,我们认为空集也是一个概念,称为空概念。给定一个论域U和U上的一簇等价关系S,称二元组K=(U,S)是关于论域U的一个知识库或近似空间。给定论域U和U上的一簇等价关系S,若P£S,且FV0,则nP(P中所有等价关系的交集)仍然是论域u上的一个等价关系,称为P上的不可分辨关系,记为IND(P),也常简记为P。而且,VXGU,[x]IND(P)=[x]p=n[x]pvKGr集合的上近似和下近似。给定知识库K=(U,S),其中U为论域,S表示论域U上的等价关系簇,则VX£U和论域U上的一个等价关系RGIND(K),我们定义子集X关于知识的上近似和下近似分别为r(x)={x(vxgu)a([x]rcx)}=U{Y(VYgU/R)A(YCX)},R(X)={x(VxeU)A([x]RnX^0)}=U{Y(YeU/R)A(YnX^0)}集合BNR(X)=尺()9-R(X)称为X的R边界域。POSR(X)=R(X)称为X的R正域。NEGR(X)-U-^00称为负域。下近似R00或正域POSR(X)是由那些根据知识R判断肯定属于x的论域u中的元素组成的集合;上近似尺00是由那些根据知识判断肯定属于和可能属于X的论域U中的元素组成的集合;R的边界BNR(X)是由那些根据知识R既不能判断肯定属于X也不能判断肯定不属于X的论域中元素组成的集合;R负域NEGR(X)表示根据知识R判断肯定不属于X的论域U中元素组成的集合。概率下近似。设0为一个阀值,且0.5<0(1,则概率下近似定义为R3X={xGU|P(X/[x]R)≥3}其中<formula>formulaseeoriginaldocumentpage5</formula>依赖度。依赖度反映了属性之间的依赖程度。w=|P0SAB|/|U表示了,B对A的依赖程度,记作A。wB。
发明内容本发明的目的在于克服现有技术的缺陷,提供一种基于粗糙集的多定性概率网整合方法。为达到上述目的,本发明采用的技术方案如下1.计算每一个QPN中所有边的依赖度,通过每一个QPN所对应的少量数据,计算QPN中的每条边之间的概率下近似R0X,通过下面的公式计算每一条边的P0S信息.设3=0.85R3X={xGU|P(X/[x]R)≥3}P0SAB=UXGU/BA3X则B对A的依赖度为w=|P0SAB|/|U|,记作A。wB;2.整合多个QPN信息,获取整合后的QPN,对QPN的整合涉及到边的整合,和定性影响以及符号的整合。整体的方法是,首先两个QPN进行整合,然后和第三个QPN进行整合,以此类推,将所有的QPN进行整合;3.消除整合后QPN中的环路信息,得到最终QPN,消除环路的方式是,综合专家信息和历史数据信息,消除环路中权重最小的边,环路中的某条边的权重计算公式为边数目乘以依赖度,其中边数代表了QPN整合过程中有多少专家给定的QPN中存在这条边,依赖度为通过在整合过程中计算所有的QPN中边的依赖度得到的依赖度信息,得到最终的IQPN。所述整合两个QPN信息是边的信息整合,如果第二个QPN中有此边,而第一个QPN中,两个节点间没有边,则添加边,并记边数为1,否则将边数加1;边的符号和定向影响整合。由于不同专家给定的边的影响有可能不同,如正负影响不同,影响程度不同等,因此通过以下信息进行边的信息整合设5表示边的符号信息,w表示边之间的依赖度,即第一步计算出的AB之间的依赖度,则符号和定性影响计算如下S8[w](A,C)=S8[wl](A,C)VS8[w2](A,C)(0<wl,w2≥1)其中S和w的定义如下。If61=62then6=61=62andw=wl+w2_wl*w2If6162andwl>w2then6=6landw=wl_w2+wl*w2If6162andw2>wlthen6=62andw=w2_wl+wl*w2If6162andw2=wlthen5=81十52andw=wl=w2通过以上公式,就可以计算出整合后边的符号和依赖度。本发明基于粗糙集的多定性概率网整合方法,可以产生如下的有益效果,有效的利用定性概率网、粗糙集两方面的研究结果构造最终的QPN,使知识的表达能力大大提升。图1第一个QPN对应的BN和定性符号信息。后面附有实验数据生成代码和实验数据。图2,图3,图4,图5与图1一样是其所对应的QPN信息,为专家给定的QPN。图6为第二步初步整合后的结果。图7为最终的IQPN结果。图8是节点之间的真实关系图,表示节点之间的真实关系。图中括号中的信息格式为(边数,依赖度,权重,符号)。具体实施例方式本发明的主要内容是对定性概率网进行整合,目前研究QPN的一个重要方面是,构造出既体现历史数据中蕴含的规律,也反映专家领域知识的QPN。这是一个较高难度的课题,本发明通过对同一数据源上不同专家给定的QPN结构,并通过少量的数据,权衡数据和专家给定的QPN,整合出一个既能体现数据规律,又符合专家给定信息的QPN。本发明的技术实现方案如下。1.计算每一个QPN中所有边的依赖度通过每一个QPN所对应的少量数据,计算QPN中的每条边之间的概率下近似R3X。通过下面的公式计算每一条边的P0S信息.设0=0.85R3X={xGU|P(X/[x]R)彡3}P0SAB=UXGU/BA3X则B对A的依赖度为w=|P0SAB|/|U|,记作A。wB2.整合多个QPN信息,获取整合后的QPN对QPN的整合涉及到边的整合,和定性影响以及符号的整合。整体的方法是,首先两个QPN进行整合,然后和第三个QPN进行整合,以此类推,将所有的QPN进行整合。下面介绍一下如何整合两个QPN信息。边的信息整合。如果第二个QPN中有此边,而第一个QPN中,两个节点间没有边,则添加边,并记边数为1,否则将边数加1。边的符号和定向影响整合。由于不同专家给定的边的影响有可能不同,如正负影响不同,影响程度不同等,因此通过一下信息进行边的信息整合。设5表示边的符号信息,w表示边之间的依赖度,即第一步计算出的AB之间的依赖度。则符号和定性影响计算如下。S8[w](A,C)=S8[w1](A,C)VS8[w2](A,C)(0<w1,w2(1)其中S和w的定义如下。If61=62then6=61=62andw=wl+w2_wl*w2IfS1乒62andwl>w2then6=6landw=wl_w2+wl*w2If81乒82andw2>wlthen6=62andw=w2_wl+wl*w2IfS1乒62andw2=wlthen5=81十52andw=wl=w2通过以上公式,就可以计算出整合后边的符号和依赖度。算法实现如下。输入所有QPN(QPN1,QPN2,,QPNn)以及每一个QPN中边的依赖信息w7输出整合后的IQPNbeginn一QPNsnumber,N一nodesnumberletIQPN—QPN1fork=2tondofori=ltondofori=ltondoifEjexistthenifEij1notexistthenaddedgeE^andsigns8^inQPNktoIQPNlet4.Num=land^.w=E^.wendifEi/existthenKNum^_EljNum+1;SI8[y]=SI8[y]USk8[y];endendendendendend3.消除整合后QPN中的环路信息,得到最终QPN由于整合过程中出现了环路信息,因此必须消除环路。消除环路的方式是,综合专家信息和历史数据信息,消除环路中权重最小的边。环路中的某条边的权重计算公式为边数目乘以依赖度。其中边数代表了QPN整合过程中有多少专家给定的QPN中存在这条边,依赖度为通过在整合过程中计算所有的QPN中边的依赖度得到的依赖度信息。之所以使用这种方式计算权重,基于以下两点。首先必须考虑专家给定的节点之间的定性影响,因为专家往往以专业知识为背景,给定了边之间的定性影响,其次尊重历史数据信息,由于不同的专家给定的定性影响可能不同,因此,我们必须得用数据信息来修正这种结果。我们综合考虑这两个因素,因此使用边数乘以依赖度作为权重信息。算法实现如下所示。输入IQPN输出消除环路后的IQPNbegin查找所有的环路,放入环路列表,将所有边按权重有小到达排序,放入边列表中while环路列表中存在环路do8首先选择目前权重最小的边if此边在任何一个环路中do在QPN中删除此边,并将所有含有此边的环路信息从环路列表删除,同时在边列表中删除此边信息。endendend这样就得到了最终的IQPN。下面结合附图和实施例进一步详细说明本发明。图1中,数据生成代码N=4;dag=zeros(N,N);C=1;S=2;R=3=4;dag(C,[RS])=1;dag(R,W)=1;%draw_graph(dag);discrete—nodes=1:N;node_sizes=2*ones(l,N);%node—sizes=[4235];notbinarybnet=mk—bnet(dag,node_sizes);bnet.CPD{C}=tabular—CPD(bnet,C,);bnet.CPD{S}=tabular—CPD(bnet,S,);8]);0.37800.9162])2122212221221122212211222111121121122122112221221112图2数据生成代码N=4;dag=zeros(N,N);C=1;S=2;R=3;ff=4;dag(C,[R])=1;dag(S,[ffC])=1;dag(ff,R)=1;%draw—graph(dag);discrete_nodes=1:N;node_sizes=2*ones(l,N);%node_sizes=[4235];notbinarybnet=mk_bnet(dag,node_sizes);bnet.CPD{C}=tabular_CPD(bnet,C,);bnet.CPD{S}=tabular_CPD(bnet,S,);bnet.CPD{R}=tabular_CPD(bnet,R,);bnet.CPD{ff}=tabular_CPD(bnet,ff,);nsamples=20;samples=cell(N,nsamples);fori=1:nsamplessamples(:,i)二sample_bnet(bnet);enddata=eel12num(samples);生成数据21221211111212222122121212121211121221222121121221222111121221212111121221222222图3数据生成代码N=4;dag=zeros(N,N);C=1;S=2;R=3;ff=4;dag(R,C)=1dag(R,ff)=1dag(S,ff)=1%draw_graph(dag);discrete_nodes=1:N;node_sizes=2*ones(l,N);%node_sizes=[4235];notbinarybnet=mk_bnet(dag,node_sizes);bnet.CPD{C}=tabular_CPD(bnet,C,)bnet.CPD{W}=tabular—CPD(bnet,W,[10.10.10.0100.90.90.99])%datageneratensamples=20;samples=cell(N,nsamples);fori=1:nsamplessamples(:,i)=sample—bnet(bnet);enddata=eel12num(samples);生成数据12122222121211112121111111222222121222221111121212221111111111112222221221222122图4数据生成代码N=4;dag=zeros(N,N);C=1;S=2;R=3;ff=4;dag(C,S)=1dag(ff,R)=1dag(S,ff)=1%draw_graph(dag);discrete_nodes=1:N;node_sizes=2*ones(l,N);%node_sizes=[4235];notbinarybnet=mk_bnet(dag,node_sizes);bnet.CPD{C}=tabular_CPD(bnet,C,);0.11870.52717079])9270])CN%datageneratensamples=20;samples=cell(N,nsamples);fori=1:nsamplessamples(:,i)=sample_bnet(bnet);enddata=cell2num(samples);生成数据21222122122221112112212221111222112221122112212211112111122212222222212211221222图5数据生成代码N=4;dag=zeros(N,N);C=1;S=2;R=3;ff=4;dag(C,[RS])=1;dag(W,R)=1;dag(S,ff)=1;%draw_graph(dag);discrete_nodes=1:N;node_sizes=2*ones(l,N);%nodesizes=[4235];notbinarybnet=mk_bnet(dag,node_sizes);bnet.CPD{C}=tabular_CPD(bnet,C,);bnet.CPD{S}=tabular_CPD(bnet,S,);bnet.CPD{R}=tabular_CPD(bnet,R,);bnet.CPD{ff}=tabular_CPD(bnet,ff,);%datageneratensamples=20;samples=cell(N,nsamples);fori=1:nsamplessamples(:,i)=sample_bnet(bnet);Enddata=eel12num(samples);生成数据11111112212111112122111212221112222212221112111222221212211121222121121221121111。1.计算每一个QPN对应的依赖度信息一种有5个QPN,每个QPN为4个节点。通过数据计算出每一QPN中边对应的依赖度。2.整合这5个QPN,得到一个QPN如整合第一个和第二个QPN,首先将第一个QPN信息赋值给整合QPN即IQPN,然后看QPN2中的一条边,在IQPN中是否存在,如果不存在则将此边加入到IQPN中。如果存在,则首先将IQPN中此边的数目信息加一,然后通过符号和依赖度计算公式,计算符号和依赖度,并存入IQPN中,这样就得到了第一次计算的IQPN信息。同样让IQPN与QPN3,QPN4,QPN5分别整合,这样就得到了IQPN。通过这一步整合后的IQPN,如图6所示。3.消除节点的环路,得到最终的IQPN首先找出IQPN中所有的环路,放入环路列表中,然后把IQPN中的边按依赖度由小到大的方式排序,放入边列表中。首先找出权重最小的边,如果此边在环路中,则删除此边,然后将所有含有此边的环路信息删除,本例中的第一条边为(R,C),其权重信息为0.55,由于其在环路中因此删除此边,然后将含有此边的所有环路信息删除,如R—C—S—W,R—C—R等含有(R,C)这条边的所有环路信息从环列表中删除,并将此边从边列表中删除。然后继续验证其他的边,也以这种方式删除相关信息,从而得到最总的IQPN,如图7所示。可以看到,其与真实的关系图是吻合的,因此本算法是有效的。1权利要求一种基于粗糙集的多定性概率网整合方法,其特征是,包括下列步骤(1)计算每一个QPN中所有边的依赖度,通过每一个QPN所对应的少量数据,计算QPN中的每条边之间的概率下近似RβX,通过下面的公式计算每一条边的POS信息.设β=0.85RβX={x∈U|P(X/[x]R)≥β}POSAB=∪X∈U/BAβX则B对A的依赖度为w=|POSAB|/|U|,记作<mrow><mi>A</mi><mo>&DoubleRightArrow;</mo><mi>wB</mi><mo>;</mo></mrow>(2)整合多个QPN信息,获取整合后的QPN,对QPN的整合涉及到边的整合,和定性影响以及符号的整合,整体的方法是,首先两个QPN进行整合,然后和第三个QPN进行整合,以此类推,将所有的QPN进行整合;(3)消除整合后QPN中的环路信息,得到最终IQPN,消除环路的方式是,综合专家信息和历史数据信息,消除环路中权重最小的边,环路中的某条边的权重计算公式为边数目乘以依赖度,其中边数代表了QPN整合过程中有多少专家给定的QPN中存在这条边,依赖度为通过在整合过程中计算所有的QPN中边的依赖度得到的依赖度信息,得到最终的IQPN。2.根据权利要求1所述的一种基于粗糙集的多定性概率网整合方法,其特征是,所述整合两个QPN信息是边的信息整合,如果第二个QPN中有此边,而第一个QPN中,两个节点间没有边,则添加边,并记边数为1,否则将边数加1;边的符号和定向影响整合,由于不同专家给定的边的影响有可能不同,如正负影响不同,影响程度不同等,因此通过以下信息进行边的信息整合设8表示边的符号信息,w表示边之间的依赖度,即第一步计算出的AB之间的依赖度,则符号和定性影响计算如下。<formula>formulaseeoriginaldocumentpage2</formula>其中5和w的定义如下。<formula>formulaseeoriginaldocumentpage2</formula>通过以上公式,就可以计算出整合后边的符号和依赖度。全文摘要本发明涉及到对多个定性概率网进行整合方面的方法。为提供一种基于粗糙集的多定性概率网整合方法,本发明采用的技术方案如下1.计算每一个QPN中所有边的依赖度,通过每一个QPN所对应的少量数据,计算QPN中的每条边之间的概率下近似RβX;2.整合多个QPN信息,获取整合后的QPN;3.消除整合后QPN中的环路信息,得到最终QPN。本发明主要应用于定性概率网。文档编号G06F17/00GK101833538SQ20101016806公开日2010年9月15日申请日期2010年5月11日优先权日2010年5月11日发明者吕亚丽,廖士中,贺跃松申请人:天津大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1