基于Storm的马尔可夫等价类模型分布式学习方法与流程

文档序号:11143380阅读:来源:国知局

技术特征:

1.一种基于Storm的马尔可夫等价类模型分布式学习方法,其特征在于,包括以下步骤:

步骤1、将马尔可夫等价类模型的训练数据集上传至分布式文件系统HDFS中,通过Storm平台的Topology框架对训练数据集进行学习,创建四种云计算计算节点,分别是初始化节点node0、搜索节点node1、评分节点node2和输出节点node3

步骤2、初始化节点node0创建初始马尔可夫等价类状态εi,使用初始马尔可夫等价类状态生成发送给nodek的状态图元组其中k为云计算节点编号,且0≤k≤3,并发送至任一搜索节点node1以启动搜索过程,向集群中唯一的输出节点发送状态图元组其中是包含了搜索空间内第i个马尔可夫等价类的状态图元组,在搜索空间内的第j个相邻状态图元组;

步骤3、搜索节点node1根据从初始化节点node0和评分节点node2收到的当前状态图元组和前驱状态图元组为当前状态图元组生成标识符,将当前状态图元组发送给输出节点node3,确定当前状态图元组的所有可能的合法修改操作符,并将应用操作符之后产生的状态图元组发送给任一评分节点node2,其中在搜索空间内的唯一的直接前驱状态图元组;

步骤4、评分节点node2将从搜索节点node1收到的当前状态图元组分布式地存储在各评分节点中,并计算运行实例未存储过的当前状态图元组的评分,将带有评分值的状态图元组发送至搜索节点;

步骤5、输出节点node3根据从初始化节点node0收到的终止条件来判断带有评分值的状态图元组是否达到了局部最优,如果达到了局部最优,则输出该状态图元组中对应的马尔可夫等价类模型,否则不做任何操作。

2.根据权利要求1所述的基于Storm的马尔可夫等价类模型分布式学习方法,其特征在于:步骤2中马尔可夫等价类状态εi为一个三元组:

εi=<PiC,Ip(i),si>

其中PiC为表示一个马尔可夫等价类模型的完全部分有向无环图CPDAG,Ip(i)是εi前驱状态的标识符,si是已求得的εi对数据集的拟合度评分;

所述状态图元组的公式为:

式中,Ki为根据马尔可夫等价类状态εi计算得到的散列值,In(i,j)为状态图元组的标识符,由搜索节点的运行实例的标识符和运行实例已搜索过的状态数量组成。

3.根据权利要求1所述的基于Storm的马尔可夫等价类模型分布式学习方法,其特征在于:步骤3中确定当前状态图元组的所有可能的合法修改操作符,具体是去除会导致其转移至前驱状态图元组的操作符。

4.根据权利要求1所述的基于Storm的马尔可夫等价类模型分布式学习方法,其特征在于:步骤4中评分节点node2使用分布式散列表DHT存储马尔可夫等价类搜索空间,N个评分节点仅存储其接收到的状态图元组,第i个评分节点所存储的状态图元组组成集合χi,各状态图元组集合满足如下约束:

其中Ε为搜索空间中所有已搜索过的马尔可夫等价类状态所组成的集合,Ε是马尔可夫等价类状态全集的一个真子集,每个评分节点中的状态图元组集合是Ε的一个划分。

5.根据权利要求1所述的基于Storm的马尔可夫等价类模型分布式学习方法,其特征在于:步骤4中计算运行实例未存储过的当前状态图元组的评分,具体采用MDL最小描述长度准则来计算马尔可夫等价类状态对数据集的拟合度评分,获得拟合度评分最大的完全部分有向无环图,具体按照如下公式求解:

<mrow> <msup> <mi>P</mi> <mrow> <mo>^</mo> <mi>C</mi> </mrow> </msup> <mo>=</mo> <mi>arg</mi> <munder> <mi>max</mi> <msup> <mi>P</mi> <mi>C</mi> </msup> </munder> <mo>&lsqb;</mo> <mo>-</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>q</mi> <mi>i</mi> </msub> </munderover> <munderover> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>n</mi> <mi>i</mi> </msub> </munderover> <msub> <mi>m</mi> <mrow> <mi>i</mi> <mi>j</mi> <mi>k</mi> </mrow> </msub> <mi>log</mi> <mfrac> <msub> <mi>m</mi> <mrow> <mi>i</mi> <mi>j</mi> <mi>k</mi> </mrow> </msub> <msub> <mi>m</mi> <mrow> <mi>i</mi> <mi>j</mi> <mo>*</mo> </mrow> </msub> </mfrac> <mo>+</mo> <msub> <mi>M</mi> <mi>f</mi> </msub> <mi>log</mi> <mrow> <mo>(</mo> <mi>R</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>log</mi> <mrow> <mo>(</mo> <mi>M</mi> <mo>)</mo> </mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <mo>|</mo> <mrow> <msubsup> <mi>Pa</mi> <mi>i</mi> <msup> <mi>P</mi> <mi>C</mi> </msup> </msubsup> </mrow> <mo>|</mo> <mo>)</mo> </mrow> <mo>&rsqb;</mo> </mrow>

其中P^C为使得拟合度评分最大的完全部分有向无环图,M为表示马尔可夫等价类模型的CPDAG中的节点数量,qi表示P^C中第i个节点的父节点所有可能的组合,ni为第i个节点可能的取值范围,mijk为数据集中符合上述三个条件的条目数量,Mf是马尔可夫等价类模型中自由节点的数量,为代表数据集中第i个属性的节点的父节点集合。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1