一种基于因果图启发式的并行概率规划方法与流程

文档序号：11952276阅读：来源：国知局

技术特征：

1.一种基于因果图启发式的并行概率规划方法，主要包括如下步骤：

(1)因果图推导和启发函数的设计；

(2)规划器程序设计；

(3)算法检验和优化。

2.根据权利要求1所述的启发式算法设计模块，其特征是，步骤(1)具体包括：

(2-1)根据领域描述，提取各领域的多值规划模型Π，设该模型中有reward＝r(x,y)，其中x,y为命题变量，结合多值规划模型SAS+，做一些约束，当图中有这样一个节点H，使得图中所有其他节点都有边指向它，并且图中再没有其他任何的边，那么，这样的一个SAS+任务就成为一个SAS+-1任务，通过拆分动作和组合状态变量变换模型动作为一元，进而将SAS+任务转化为SAS+1任务，在此基础上进行因果图的推导；

(2-2)根据模型Π，得到各个命题变量的域转移图，对于含参变量的处理，按参数拆分为多个变量，或将单一参数作为多值的值域；

(2-3)提取域转移图信息，得到各命题变量的因果图；依各命题变量为完全检索，只做紧邻的一层因果关系，通过层次迭代实现完整因果关系；

(2-4)借助因果图，设计启发函数。启发函数的设计，对于reward的参数变量x,y使用“不删除”方式扩展，每时间步乘以折扣值系数d来衰减影响，在部分命题变量的启发值之间使用加和式方法累加启发值，据此将命题变量分组，组内采用加和方法，组间使用最大代价法以保证可采纳；

h＝max(h1,h2,...)；

$<mrow> <msub> <mi>h</mi> <mi>i</mi> </msub> <mo>=</mo> <munderover> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>∞</mi> </munderover> <msup> <mi>d</mi> <mi>j</mi> </msup> <mo>*</mo> <mrow> <mo>(</mo> <msub> <mi>γ</mi> <mn>1</mn> </msub> <mo>*</mo> <mi>v</mi> <mo>(</mo> <mrow> <mi>p</mi> <mi>i</mi> <mi>e</mi> <mi>g</mi> <mi>u</mi> <mrow> <mo>(</mo> <mn>0</mn> <mo>)</mo> </mrow> </mrow> <mo>)</mo> <mo>+</mo> <msub> <mi>γ</mi> <mn>2</mn> </msub> <mo>*</mo> <mi>v</mi> <mo>(</mo> <mrow> <mi>p</mi> <mi>i</mi> <mi>e</mi> <mi>g</mi> <mi>u</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>r</mi> <mrow> <msub> <mi>map</mi> <mi>t</mi> </msub> </mrow> </msub> </mrow>$

γ₁为可调参数，γ₂＝γ(α,β,EPRD,EPWD)依据当前楼层等候者的分布计算加权惩罚值，为根据时间步t的楼层等候者的分布来计算的等候惩罚值，h是启发值，h1、h2是启发值，d是折扣系数，j是时间步，piegu是影响reward的变量，v是函数，EPRD是电梯实际运行方向和电梯内的乘客方向一致时的惩罚值，EPWD是电梯实际运行方向和电梯内的乘客方向不一致时的惩罚值，α和β是两个影响因子，分别用来表示eprd和epwd的影响大小；

(2-5)以启发函数为核心，设计启发式算法，并用java语言实现规划器。

完整全部详细技术资料下载

当前第2页1 2 3