用于将连续系统转换成马尔可夫决策过程的方法

文档序号：6275987阅读：463来源：国知局

专利名称：用于将连续系统转换成马尔可夫决策过程的方法
技术领域：
本发明涉及动态系统的最优顺序控制，更具体地涉及将具有连续状态空间的非线性动态系统转换成具有离散状态空间的马尔可夫决策过程(MDP)。
背景技术：
通常通过指定在控制动作的影响下的系统状态的时间依赖性和展开的一组方程式来描述动态系统的工作。在任意给定时间，动态系统具有由实数矢量给定的状态，可以在合适的状态空间中表示该实数矢量。动态系统状态中的小变化对应于实数的小变化。连续的动态系统通常根据一组微分方程式工作。本发明涉及在具有通过一组离散控制动作控制的任意转移函数的连续状态空间中的任意非线性动态系统的自动控制和自动调用。示例性的动态系统包括机器人、车辆、加热及暖通空调(HVAC)系统、发电机和家用电器。通常地，这些系统由发动机来操作，发动机具有例如导通和断开的相对较少量的离散设置，或者可以合理地限制可能的设置个数，如仅在整数温度设置恒温器。这样的系统的状态通常是动态系统的连续状态空间X中的实值矢量X。集合A的控制动作a是离散的。可以用下面的一组方程式描述控制系统的动态xk+1 = f (xk, ak)，其中，xk是在时刻tk的系统状态，ak是在时刻tk应用的控制动作，f是任意的非线性转移函数，并且系统在离散时间展开，使得在所选间隔At，tk = kAt。必须选择动作序列％，ai; a2...，使得最优化性能的指标。例如，通过以最小的能量消耗将环境逐渐带入期望的温度可以最优化HVAC系统。一个性能指标是K个步骤的累积成本J
权利要求
1.一种用于将连续系统转换成马尔可夫决策过程MDP的方法，其中所述连续系统是动态的并且所述MDP具有离散状态，所述方法包括以下步骤选择(110)所述连续系统的预定个数的连续状态，其中各连续状态对应于所述MDP的一个离散状态；以及将德罗内三角剖分应用(120)到所述连续状态，以生成一组三角形，其中各三角形的顶点代表所述连续状态，并且对于各离散状态还包括以下步骤确定(210)下一个离散状态y = f(x，a)，其中χ代表与所述离散状态相对应的所述连续状态，a是控制动作，并且f是所述连续状态的非线性转移函数；识别(300)含有所述下一个离散状态y的特定三角形G10)；以及将所述下一个离散状态y表示(230、231、23幻为转移到与由所述特定三角形(410)的所述顶点所代表的所述连续状态χ相对应的所述离散状态的概率，其中在处理器中执行上述步骤。
2.根据权利要求1所述的方法，其中通过对所述连续系统的状态空间X进行均勻随机采样来选择所述MDP的所述离散状态。
3.根据权利要求1所述的方法，其中通过将规则网格施加到所述连续系统的状态空间 X上来选择所述MDP的所述离散状态。
4.根据权利要求1所述的方法，其中通过形成dXd差分矩阵E，使得对于j= l...d，差分矩阵E的列j含有三角形m的第j个顶点vm, j和三角形m的第d+Ι个顶点q = vm, d+1 之间的差分vm, TVm, d+1，并且对于矢量c求解方程式Ec= (y-q)的线性系统，来执行识别所述特定三角形的步骤，并且其中如果所有Cj >0，j = l，d，并且。 =λ T^-Ci >0，则所述三角形m被识别为含有y。
5.根据权利要求4所述的方法，其中预先计算并且存储所述矩阵E的逆矩阵E—1，使得可以作为c = Ε"1 (y-q)而求解所述线性方程。
6.根据权利要求4所述的方法，其中按照从所述顶点的重心到所述状态y的距离的升序遍历所述德罗内三角剖分中的所述三角形。
7.根据权利要求1所述的方法，其中所述三角形被一般化为单形。
全文摘要
本发明涉及用于将连续系统转换成马尔可夫决策过程的方法。连续动态系统被转换成具有离散状态的马尔可夫决策过程(MDP)。选择连续系统的预定个数的连续状态，其中各连续状态对应于MDP的一个离散状态。将德罗内三角剖分应用到连续状态，以制作一组三角形，其中各三角形的顶点代表连续状态。对于各离散状态，确定下一个离散状态y＝f(x，a)，其中x代表与离散状态相对应的连续状态，a是控制动作，并且f是用于连续状态的非线性转移函数。识别包含下一个离散状态y的特定三角形，并且下一个离散状态y被表示为转移到与由特定三角形的顶点代表的连续状态x相对应的离散状态的概率。
文档编号G05B13/02GK102109820SQ20101060315
公开日2011年6月29日申请日期2010年12月23日优先权日2009年12月29日
发明者丹尼尔·N·尼科夫斯基申请人:三菱电机株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：丹尼尔·N·尼科夫斯基
技术所有人：三菱电机株式会社
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、唐老师：1.高效节能装备 2.流动稳定性 3.汽车流场分析和淀粉糖工艺技术。
2、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
3、王老师：电子信息处理、先进检测方法和智能化仪表
4、周老师：1.智能电网 2.新能源利用 3.泛在电力物联网
5、赵老师：检测与控制技术、机器人技术、机电一体化技术
如您是高校老师，可以点此联系我们加入专家库。