基于流特征的因果结构学习方法

文档序号:9929899阅读:470来源:国知局
基于流特征的因果结构学习方法
【技术领域】
[0001] 本发明属于数据挖掘领域,具体地说是面向线性任意分布数据的基于流特征的因 果结构学习方法。
【背景技术】
[0002] 随着社会进步和科技发展,人们需要认识的事物变得越来越复杂,系统内部的因 果关系是客观存在的,因果结构学习就是从数据中挖掘蕴含的因果结构关系,可W帮助人 们认清复杂事物的本质与规律。因果结构学习渗入到生物、医学、经济、自动控制、信息处理 等各个学科,设及到日常生活、工业生产、军事国防等各个方面。
[0003] 现实生活中很多变量的分布往往是非高斯的。例如:脑磁图(ME G, magnetoencephalograph i C)源的值并不一定符合标准的高斯分布,不同的脑磁图源间的因 果关系使用非高斯的因果模型分析更为适合;铜陵矿区±壤元素样品数据有些不符合高斯 分布;股票指数并不一定符合高斯分布,使用非高斯的因果模型更能掲示不同区域股票指 数间的因果关系;在证券投资中,投资收益率的分布也很多情况下是符合非高斯分布的;社 会学中,研究变量的分布也并非一定符合高斯分布等等。
[0004] 在很多情况下,数据还具有高维或流的特征。在图像处理领域,图像的特征维数非 常高从而无法一次载入内存;在火星的弹坑(Crater)检测中,纹理特征也是非常庞大并且 W流的方式顺序产生;在统计关系学习领域,一个SQL查询可能导致产生上百万的特征,并 且运些特征W流的方式顺序产生;在生物学领域,基因表达数据也具有高维特性等等。并 且,运些数据往往也是非线性非高斯的。
[0005] 国内外的学者也提出了一系列的因果结构学习算法,典型的贝叶斯网络结构学习 方法包括基于捜索打分(Search-And-Score)的方法、基于依赖分析(Constrained Based) 的方法和两者混合的方法,如SGS算法、PC算法、TPDA算法、K2算法3、OR算法、SC算法3、MM肥算 法等等。然而,大多数的结构学习算法是基于离散数据进行研究的,不能有效地处理连续数 据。近年来,对连续数据进行因果发现研究已成为一个新的研究热点,也涌现了很多方法。 如LlMB算法,TC算法,ICA-LiNGAM算法,PCl ingam算法,HP算法,Two-Phase算法, DirectLiNGAM 算法,PCB 算法等。
[0006] 目前经典的因果结构学习方法都不能有效的处理具有流特征的线性任意分布的 连续数据,运些方法的主要局限包括:
[0007] (1)面向线性任意分布的结构学习算法多数属于基于依赖分析的方法,该方法为 了判断两特征间是否相关,需要在大量的子集上进行独立性测试,导致需要较多的独立性 测试,从而需要耗费很多的时间,计算复杂度比较大;
[000引(2)面向线性任意分布的结构学习算法一般假设可W事先获得所有的数据,不能 处理具有流特征的数据,即特征逐个流入,从而不能有效的处理动态、未知的特征空间下的 因果结构学习问题。

【发明内容】

[0009] 本发明为克服现有技术存在的不足之处,提出了一种基于流特征的因果结构学习 方法,W期能够从具有流特征的线性任意分布的数据中发现蕴含的因果结构关系,同时降 低学习的时间复杂度,从而满足在线学习的时效性要求。
[0010] 本发明为解决技术问题采用如下技术方案:
[0011] 本发明一种基于流特征的因果结构学习方法的特点是按如下步骤进行:
[0012] 步骤1、定义时刻t;并初始化t = 0;定义特征个数极限值为max;
[0013] 步骤2、定义特征集为EF,并初始化第t时刻的特征集为Cf; = 0;
[0014] 步骤3、定义变量j ;并初始化j = 1;
[001引步骤4、判断j如ax是否成立,若成立,随机产生第j个特征Xj,第j个特征、具有m个 取值;并初始化第j个特征Xj的马尔科夫毯MB陆)为空、初始化第j个特征Xj的新增特征集FA (Xj)为空、初始化第j个特征、的冗余特征集FD(Xj)为空;并执行步骤5;若不成立,结束算法 并退出;
[0016] 步骤5、判断j = l是否成立,若成立,则将所述第j个特征、加入所述第t时刻的特 征集EFt中,从而获得第t+1时刻的特征集EFt+i;并将t+1赋值给t、将j+1赋值给j后,返回步 骤4;若不成立,则执行步骤6;
[0017] 步骤6、对所述第j个特征、进行相关性分析;
[0018] 步骤7、判断所述第j个特征、的马尔科夫毯MB(Xj)是否为空集,若为空集,则返回 步骤4;若不为空集,将第j个特征的加入所述第t时刻的特征集肌中,获得第t+1时刻的特征 集EFw = EFt U Xj;并将t+1赋值给t后,执行步骤8;
[0019] 步骤8、定义变量k;并初始化k = l;
[0020] 步骤9、对所述第t时刻的特征集EFt的第k个特征Xk进行冗余校验分析;
[0021] 步骤10、将k+1赋值给k;并判断k>j是否成立,若成立,则执行11;若不成立,则返 回步骤9执行;
[0022] 步骤11、定义变量count;并初始化COimt = O;初始化k = l;
[0023] 步骤12、判断所述第k个特征Xk的马尔科夫毯MB(Xk)是否为空集,若为空集,则从所 述第t时刻的特征集EFt中删除所述第k个特征Xk后,将count+1赋值给count后,执行步骤13; 若不为空集,则直接执行步骤13;
[0024] 步骤13、将k+1赋值给k后;判断k>j是否成立,若成立,则将j-count赋值给j后,获 得更新的第t时刻的特征集EF/,记为EFt' = {Xi,X2,. . .,Xi,. . .?} ;Xi表示更新的第t时刻 的特征集EF/中第i个特征向量;1 y y,并有,X ={义,">,义,2,...,式",...,义,"'}表示第王个特 征向量Xi具有m个取值;;表示第i个特征向量Xi中第V个取值;1 < V < m;由 施斌V =闲"1,乂八...,《'1,...,為")1构成第V个实例;从而获得由m个实例组成的数据集D,记 为D={sami,sam2,. . .,samv,. . . ,samm};并执行步骤14;若不成立,则返回步骤12执行;
[00巧]步骤14、初始化i = l;
[0026]步骤15、对于第t时刻的特征集EF/中第i个特征Xi,如果第i个特征Xi的新增特征 集FA(Xi)不为空或第i个特征Xi的冗余特征集FD(Xi)不为空,则基于第i个特征Xi进行捜索 定向,得到第i个特征Xi家族的MDL评分和对应的局部因果结构;
[0027] 步骤16、将i + 1赋值给i;并判断i>j是否成立,若成立,则执行步骤17;若不成立, 则返回步骤15执行;
[0028] 步骤17、获得网络G中所有j个特征的总评分MDL(G)和对应的全局因果结构;
[0029]
(0
[0030] 式(1)中,Pa(Xi)表示第i个特征Xi的父特征集,如We表示与i个特征Xi的父特征集化 (Xi)一一对应的权值向量:I示第i个特征Xi在具有父特征集化(Xi)和 参数卽时的家族MDL评分;
[0031] 步骤18、将j+1赋值给j,返回步骤4。
[0032] 本发明所述的基于流特征的因果结构学习方法的特点也在于,
[0033] 所述步骤6中在线的相关性分析是按如下步骤进行:
[0034] 步骤6.1、设置依赖度阔值a ;
[0035] 步骤6.2、设置V = EFtU^,求出V的相关系数矩阵R;所述相关系数矩阵R中的任一 元素记为Rpq,表示第P个特征Xp和第q个特征Xq的相关系数,1如y,1含q y ;
[0036] 步骤6.3、求出相关系数矩阵R的逆矩阵W;
[0037] 步骤6.4、定义变量k;并初始化k = 1;定义变量0 ;
[0038] 步骤6.5、计算第j个特征X麻第k个特征Xk的依赖程度,并用偏相关系数P北表示;
[0039] 步骤6.6、计算偏相关系数PA的标准误
[0040] 步骤6.7、计算第j个特征Xj和第k个特$
[004。 步骤6 . 8、计算第j个特征X j和第k个特征X k的P - V a 1 U e值: P - W/"(化,) = 2巫(-P,巫是t分布的累积分布函数,将p-vaIue (Xj,Xk)赋值给目;
[0042] 步骤6.9、判断0 ^ a是否成立,若成立,说明第j个特征、与第k个特征Xk相关,则执 行步骤6.10;若不成立;说明第j个特征Xj与第k个特征Xk不相关,则执行步骤6.11;
[0043] 步骤6.10、把第j个特征Xj加到第k个特征Xk的马尔科夫毯MB(Xk) ,WMB(Xk)=MB (Xk) UXj,将第j个特征Xj加入所述新增特征集FA(Xk)中,即FA(Xk) = IXj},从而更新第k个特 征Xk的马尔科夫毯MB(Xk)和新增特征集FA(Xk);同时把第k个特征Xk加到第j个特征Xj的马尔 科夫毯MB(Xj),即MB(Xj) =MB(Xj) UXk,将第k个特征Xk加入所述新增特征集FA(Xj)中,即FA (Xj) = {Xk},从而更新第j个特征Xj的马尔科夫毯MBUj)和新增特征集FA(Xj);并执行步骤 6.11;
[0044] 步骤6.11、将k+1赋值给k,并判断k>j-l是否成立,若成立,则执行步骤7;若不成 立,则返回步骤6.5执行;
[0045] 步骤9在线的冗余校验分析是按如下步骤进行:
[0046] 步骤9.1、设置冗余度阔值0;计算第k个特征Xk的马尔科夫毯MB(Xk)中的特征个数, 记为Sk;
[0047]步骤9.2、定义变量S;并初始化S = I;定义变量O;
[004引步骤9.3、获取所述马尔科夫毯MB(Xk)第S个特征的下标记为Ts;
[0049]步骤9.4、计算第Ts个特征^^和第k个特征Xk的冗余程度,并用偏相关系数表示 P少
[(K)日0]步骤9.5、计算偏相关系数攻&标准误
[0051]步骤9.
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1