一种基于因果图启发式的并行概率规划方法与流程

文档序号:11952276阅读:来源:国知局

技术特征:

1.一种基于因果图启发式的并行概率规划方法,主要包括如下步骤:

(1)因果图推导和启发函数的设计;

(2)规划器程序设计;

(3)算法检验和优化。

2.根据权利要求1所述的启发式算法设计模块,其特征是,步骤(1)具体包括:

(2-1)根据领域描述,提取各领域的多值规划模型Π,设该模型中有reward=r(x,y),其中x,y为命题变量,结合多值规划模型SAS+,做一些约束,当图中有这样一个节点H,使得图中所有其他节点都有边指向它,并且图中再没有其他任何的边,那么,这样的一个SAS+任务就成为一个SAS+-1任务,通过拆分动作和组合状态变量变换模型动作为一元,进而将SAS+任务转化为SAS+1任务,在此基础上进行因果图的推导;

(2-2)根据模型Π,得到各个命题变量的域转移图,对于含参变量的处理,按参数拆分为多个变量,或将单一参数作为多值的值域;

(2-3)提取域转移图信息,得到各命题变量的因果图;依各命题变量为完全检索,只做紧邻的一层因果关系,通过层次迭代实现完整因果关系;

(2-4)借助因果图,设计启发函数。启发函数的设计,对于reward的参数变量x,y使用“不删除”方式扩展,每时间步乘以折扣值系数d来衰减影响,在部分命题变量的启发值之间使用加和式方法累加启发值,据此将命题变量分组,组内采用加和方法,组间使用最大代价法以保证可采纳;

h=max(h1,h2,...);

<mrow> <msub> <mi>h</mi> <mi>i</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>&infin;</mi> </munderover> <msup> <mi>d</mi> <mi>j</mi> </msup> <mo>*</mo> <mrow> <mo>(</mo> <msub> <mi>&gamma;</mi> <mn>1</mn> </msub> <mo>*</mo> <mi>v</mi> <mo>(</mo> <mrow> <mi>p</mi> <mi>i</mi> <mi>e</mi> <mi>g</mi> <mi>u</mi> <mrow> <mo>(</mo> <mn>0</mn> <mo>)</mo> </mrow> </mrow> <mo>)</mo> <mo>+</mo> <msub> <mi>&gamma;</mi> <mn>2</mn> </msub> <mo>*</mo> <mi>v</mi> <mo>(</mo> <mrow> <mi>p</mi> <mi>i</mi> <mi>e</mi> <mi>g</mi> <mi>u</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>r</mi> <mrow> <msub> <mi>map</mi> <mi>t</mi> </msub> </mrow> </msub> </mrow>

γ1为可调参数,γ2=γ(α,β,EPRD,EPWD)依据当前楼层等候者的分布计算加权惩罚值,为根据时间步t的楼层等候者的分布来计算的等候惩罚值,h是启发值,h1、h2是启发值,d是折扣系数,j是时间步,piegu是影响reward的变量,v是函数,EPRD是电梯实际运行方向和电梯内的乘客方向一致时的惩罚值,EPWD是电梯实际运行方向和电梯内的乘客方向不一致时的惩罚值,α和β是两个影响因子,分别用来表示eprd和epwd的影响大小;

(2-5)以启发函数为核心,设计启发式算法,并用java语言实现规划器。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1