用于将连续系统转换成马尔可夫决策过程的方法

文档序号:6275987阅读:463来源:国知局
专利名称:用于将连续系统转换成马尔可夫决策过程的方法
技术领域
本发明涉及动态系统的最优顺序控制,更具体地涉及将具有连续状态空间的非线 性动态系统转换成具有离散状态空间的马尔可夫决策过程(MDP)。
背景技术
通常通过指定在控制动作的影响下的系统状态的时间依赖性和展开的一组方程 式来描述动态系统的工作。在任意给定时间,动态系统具有由实数矢量给定的状态,可以在 合适的状态空间中表示该实数矢量。动态系统状态中的小变化对应于实数的小变化。连续 的动态系统通常根据一组微分方程式工作。本发明涉及在具有通过一组离散控制动作控制的任意转移函数的连续状态空间 中的任意非线性动态系统的自动控制和自动调用。示例性的动态系统包括机器人、车辆、加热及暖通空调(HVAC)系统、发电机和家 用电器。通常地,这些系统由发动机来操作,发动机具有例如导通和断开的相对较少量的离 散设置,或者可以合理地限制可能的设置个数,如仅在整数温度设置恒温器。这样的系统的状态通常是动态系统的连续状态空间X中的实值矢量X。集合A的 控制动作a是离散的。可以用下面的一组方程式描述控制系统的动态xk+1 = f (xk, ak),其中,xk是在时刻tk的系统状态,ak是在时刻tk应用的控制动作,f是任意的非 线性转移函数,并且系统在离散时间展开,使得在所选间隔At,tk = kAt。必须选择动作 序列%,ai; a2...,使得最优化性能的指标。例如,通过以最小的能量消耗将环境逐渐带入 期望的温度可以最优化HVAC系统。一个性能指标是K个步骤的累积成本J
权利要求
1.一种用于将连续系统转换成马尔可夫决策过程MDP的方法,其中所述连续系统是动 态的并且所述MDP具有离散状态,所述方法包括以下步骤选择(110)所述连续系统的预定个数的连续状态,其中各连续状态对应于所述MDP的 一个离散状态;以及将德罗内三角剖分应用(120)到所述连续状态,以生成一组三角形,其中各三角形的 顶点代表所述连续状态,并且对于各离散状态还包括以下步骤确定(210)下一个离散状态y = f(x,a),其中χ代表与所述离散状态相对应的所述连 续状态,a是控制动作,并且f是所述连续状态的非线性转移函数; 识别(300)含有所述下一个离散状态y的特定三角形G10);以及 将所述下一个离散状态y表示(230、231、23幻为转移到与由所述特定三角形(410)的 所述顶点所代表的所述连续状态χ相对应的所述离散状态的概率,其中在处理器中执行上 述步骤。
2.根据权利要求1所述的方法,其中通过对所述连续系统的状态空间X进行均勻随机 采样来选择所述MDP的所述离散状态。
3.根据权利要求1所述的方法,其中通过将规则网格施加到所述连续系统的状态空间 X上来选择所述MDP的所述离散状态。
4.根据权利要求1所述的方法,其中通过形成dXd差分矩阵E,使得对于j= l...d, 差分矩阵E的列j含有三角形m的第j个顶点vm, j和三角形m的第d+Ι个顶点q = vm, d+1 之间的差分vm, TVm, d+1,并且对于矢量c求解方程式Ec= (y-q)的线性系统,来执行识别所述特定三角形的步骤,并且其中如果所有Cj >0,j = l,d,并且。 =λ T^-Ci >0,则所述三角形m被识别为含有y。
5.根据权利要求4所述的方法,其中预先计算并且存储所述矩阵E的逆矩阵E—1,使得 可以作为c = Ε"1 (y-q)而求解所述线性方程。
6.根据权利要求4所述的方法,其中按照从所述顶点的重心到所述状态y的距离的升 序遍历所述德罗内三角剖分中的所述三角形。
7.根据权利要求1所述的方法,其中所述三角形被一般化为单形。
全文摘要
本发明涉及用于将连续系统转换成马尔可夫决策过程的方法。连续动态系统被转换成具有离散状态的马尔可夫决策过程(MDP)。选择连续系统的预定个数的连续状态,其中各连续状态对应于MDP的一个离散状态。将德罗内三角剖分应用到连续状态,以制作一组三角形,其中各三角形的顶点代表连续状态。对于各离散状态,确定下一个离散状态y=f(x,a),其中x代表与离散状态相对应的连续状态,a是控制动作,并且f是用于连续状态的非线性转移函数。识别包含下一个离散状态y的特定三角形,并且下一个离散状态y被表示为转移到与由特定三角形的顶点代表的连续状态x相对应的离散状态的概率。
文档编号G05B13/02GK102109820SQ20101060315
公开日2011年6月29日 申请日期2010年12月23日 优先权日2009年12月29日
发明者丹尼尔·N·尼科夫斯基 申请人:三菱电机株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1