使用上下文信息进行蒙特卡罗规划的方法和系统的制作方法

文档序号:6397739阅读:235来源:国知局
专利名称:使用上下文信息进行蒙特卡罗规划的方法和系统的制作方法
技术领域
本公开一般地涉及用于例如在实际域中进行规划和序贯决策(sequentialdecision making)的系统和方法。更具体地说,本申请涉及使用可观察状态信息的创新性分解通过蒙特卡罗模拟试验进行规划,所述信息分解能够比使用既定的最新方法处理更大的状态空间。
背景技术
规划问题(也称为序贯决策问题)通常由以下项来表征:所述问题的一组可能状态、可以在每个状态下执行的一组可允许的操作、用于在给定当前状态和当前选定操作下生成向后续状态的转变的过程、规划周期(即,在所述问题中要进行的总预期决策数量),以及在所述规划问题的一个或多个步骤处获得的效用或回报的度量。通常,目标是计算一系列最大化预期累积折扣或未折扣回报的决策。此外,规划问题假设可在序列中的每个步骤处使用与所述问题的状态有关的可观察信息。如果可观察信息唯一地标识状态,并且生成回报和状态转变的过程是固定的并且与历史无关,则所述问题在形式上被分类为马尔可夫决策过程(MDP)。备选地,如果可观察信息未唯一地标识状态,则所述问题是部分可观察马尔可夫决策过程(P0MDP),假如回报和状态转变过程仍是固定的并且与历史无关的话。蒙特卡罗规划方法使用实际域的模拟模型,并根据蒙特卡罗模拟试验估计在给定状态下执行操作的累积回报。此类模拟试验包括一个或多个步骤,每个步骤通常包括模拟以下项:在当前模拟状态下执行操作、生成向新状态的转变,以及生成立即回报(如果适用)。通过模拟策略(即,响应于在模拟试验的当前或先前步骤中观察到的信息而选择可用合法操作之一的方法)执行每个步骤处的操作选择。假设蒙特卡罗模拟试验的结果是非确定的。非确定性可能由非确定的回报或状态转变引起,以及由使用非确定的模拟策略引起。因此,蒙特卡罗模拟试验提供一种在统计上评估通过在模拟域的给定状态下执行给定操作而获得的长期累积预期回报的手段。用于根据蒙特卡罗模拟试验进行规划的许多方法都是本领域公知的。一种最早并且最简单的方法是所谓的“轮换(rollout)算法”(G.Tesauro和G.R.Galperin, “On-linepolicy improvement using Monte-Carlo search (使用蒙特卡罗搜索的在线策略改进)”,Advances in Neural InformationProcessing Systems,第9卷,第 1068-1074页,1997年)。在此方法中,执行多个模拟试验(“轮换”),每个试验从对应于实际域的当前状态的公共初始状态开始。每个试验包括根据抽样策略选择根状态下的合法操作,然后由固定模拟策略执行试验的后续步骤中的操作。针对每个顶级操作维护平均回报统计,并且在所有模拟试验终止时,所述方法返回具有最高平均回报的顶级操作以便在实际域中执行。最近,发布了多种蒙特卡罗规划方法(例如,L.Kocsis和Cs.Szepesvari,“Bandit-based Monte-Carlo Planning (基于匪徒的蒙特卡罗规划)”,欧洲机器学习会议的会议记录,第282-293页,2006年),它们将轮换算法扩展到多个评估级别。即,除了顶级步骤之外,还在试验的后续步骤处计算和维护平均回报统计。这通常通过以下操作完成:维护在试验期间遇到的“节点”集合(即,状态的符号表示,或给定状态下的合法操作)、在每个试验结束时计算总回报,然后根据在试验中获得的总回报更新参与给定试验的节点的平均回报统计。抽样策略(例如,根据多臂匪徒理论(mult1-armed bandit theory)的抽样)不仅用于初始步骤,而且还用于试验的后续步骤。尽管这些方法能够在节点之间具有任意拓扑关系的域中产生有效的序贯规划(例如,具有多个到给定状态的路径以及循环返回先前所遇状态的通用MDP),但这些方法的优选实施例包括以严格树结构组织的节点。由于此原因,所述方法通常称为蒙特卡罗树搜索(MCTS)方法。MCTS方法使用方面的最新进展在诸如计算机围棋之类的实际域中实现有效的运行中(on-the-fly)规划(S.Gelly 和 D.SilverjiiAchievingMaster Level Playin9X9Computer Go (在9 X 9计算机围棋中实现大师级博弈)”,AAAI会议记录,2008年)。在此MCTS方法中,基于模拟游戏而动态生长包含交替操作(父)节点和子节点的树。将MCTS树和与节点关联的数据表示为计算机系统存储器中的数据结构。从涉及序贯游戏移动随机性的随机模拟(例如,在计算机围棋的情况下为对弈模拟),在每个节点处收集智能(例如,基于获胜百分率的评估)。例如,在计算机围棋的情况下,根据试验数量和模拟对弈获胜结果维护每个节点处的统计数据。可以与树的此节点结合地计算和存储关联的回报值。基于从模拟中收集的智能,可以推断玩家移动(决策)的高明策略。图1示出了由计算系统构造的数据结构400,其用于在实例计算机围棋游戏中为一个玩家(例如,白方)计算最佳移动。数据结构400示出了实例计算机围棋游戏的当前状态,并包括父节点405,以及包含由圆表示的操作节点(例如,节点407、410和420)和由正方形表示的后续状态节点(例如,节点405、415、425和430)的交替树结构。操作节点指数据结构400中指定规划代理在父节点状态下执行的至少一个后续操作的节点。例如,节点410可以表示白方在根状态下在E5处落子的操作,而节点407可以表示白方在根状态下在F6处落子的操作。后续状态节点指示对规划代理操作的可能环境响应,例如,响应于白方的特定移动,黑方可以做出的可能移动。例如,节点425表示对W-E5的响应B-D7,节点430表示对W-E5的响应B-E3。在所述数据结构中,标准MCTS规划方法针对每个顶级操作执行多个试验。试验包括一系列模拟步骤,每个步骤包括从可用操作中选择操作节点,并模拟导致后续状态的环境的响应。试验的初始步骤中的选定操作通常由匪徒抽样策略来选择。如果试验选择先前未被抽样的操作,则将向所述数据结构中添加对应于此操作的新节点,并且试验的步骤将继续,从而利用非确定的“对弈”策略为两个玩家选择移动。试验的步骤将一直继续,直到所模拟的游戏根据围棋规则而终止。作为根据MCTS方法的模拟操作的结果,在每个操作节点处维护的数据包括模拟试验总数(包括给定操作节点),以及导致获胜结果的试验数。例如,节点410包含数据记录“3/7”,其指示执行了总计7个试验(包括此节点),其中3个试验导致白方获胜。在完成试验之后,MCTS方法执行更新,其中使用游戏结果更新参与试验的节点的统计,即,在树的连续级别向上传播模拟试验的结果。根据任何给定节点的平均获胜率(B卩,获胜数与试验总数(包括该给定节点)的比率)估计该节点的值。在决策周期中执行模拟试验期间,根据平均获胜率选择操作可导致获得更有利结果的更大可能性。例如,在节点405 (表示游戏的当前状态的根节点),估计每个子操作节点的预期回报(例如,对于图1中的节点407,值为1/5,对于节点410,值为3/7)。基于所观察到的统计,选择操作410将比操作407更可能获胜。实际上,在MCTS中使用的匪徒抽样算法以平衡利用(获得高获胜率)和探索(使用很少的试验对节点抽样)的方式来选择操作。所述树针对每个模拟对弈扩展一个节点,并通过添加新的叶节点以及执行对应的模拟来动态生长。尽管MCTS方法在许多实际域中实现有效的规划,但广泛了解的是,此类方法的计算成本随着状态变量数、状态变量的可能值的粒度以及典型状态下的合法操作数而急剧(即,以指数方式)增加。例如,考虑包括多个连续取值的状态变量的域。标准MCTS的原样实施方式(针对每个不同的状态维护单独的节点)很可能导致遇到每个节点的次数不超过一次,因为在所有状态变量中,每个所遇状态可能从未与先前所遇状态无限精确地匹配。因此,每个节点中的平均回报统计将仅包括单个试验的结果,从而将提供节点实际预期值的非常不可靠的估计。将(连续变量的)状态空间离散化可以解决MCTS方法的上述限制。例如,可以以I度角为单位使连续的机器人手臂运动离散化。然而,蒙特卡罗试验中的所遇状态数可能仍然不切实际地大,并且任何给定节点的访问次数可能仍然太少以致不能为有效规划提供可靠基础。此外,此类方法无法利用许多实际域中的自然平滑属性,因为类似的状态倾向于具有类似的预期值,使得从相邻状态收集的统计证据可以提供任何特定节点的预期值的高度相关证据。因此,希望提供一种实现改进的蒙特卡罗规划的系统和方法,所述改进的规划将降低标准蒙特卡罗树搜索的名义搜索复杂性,并在给定实际域中有效地针对部分或全部可观察状态变量利用预期累积回报的平滑相关性。

发明内容
在一个实施例中,提供了一种用于在实际环境中对操作执行蒙特卡罗规划的系统、方法和计算机程序产品。所述方法有效地利用可观察信息的适合分解,所述信息与环境的当前状态标识以及状态的预期累积回报估计有关。所述分解将可观察信息分为两个部分:第一部分用于标识基础状态,而第二部分用于标识上下文状态。在各优选实施例中,每个唯一基础状态映射到向前搜索规划图中的不同且可唯一标识的节点,其中可以采用本领域公知的搜索技术(例如,MCTS式技术)计算给定基础状态下的最佳规划。在搜索技术操作期间被视为由对应基础状态确定的节点在数量上可枚举并且可管理。基础状态实例集合不需要构成度量空间(即,不需要距离度量),并且给定基础状态下的未来回报的估计不需要应用回归技术。此外,在从给定基础状态开始的轨迹的随机模拟中,应多次访问搜索图中的至少某些后续节点,以便可以计算有关节点中的预期回报的准确统计。基础状态描述的实例包括:围棋游戏中的白棋和黑棋位置的列表;电梯调度应用中按下的按钮的列表(大厅按钮和目的地按钮);作业调度应用中当前运行的作业和已完成的作业的列表。另一方面,上下文状态实例展现出相反的特性。这些实例并不映射到搜素图中的唯一节点;它们包括度量空间,并且在给定基础状态节点中根据上下文状态预测预期回报可应用回归技术。最后,特定上下文状态实例不需要在多个随机模拟试验过程中重复。上下文状态信息的实例包括:计时围棋游戏中白方和黑方时钟上的已经过的时间量;作业调度应用中截止时间之前剩余的时间;以及对于电梯调度应用中每个当前激活的按钮,自按下每个按钮以来经过的时间的列表。所述系统、方法和计算机程序产品构造数据结构,所述数据结构包括在给定环境状态下执行的操作的表示,并且根据改进的蒙特卡罗规划方法,使用环境模拟模型执行模拟试验以便规划要在给定环境状态下采取的有效操作。所述方法在包含有限并且可管理数量的节点的基础状态搜索空间中构造节点集合,同时根据本领域公知的标准回归技术(例如,用于在线学习和随机优化的梯度方法),利用上下文状态信息估计给定节点中的预期累积回报。在一个方面,提供了一种用于选择规划问题状态下的操作的方法。所述方法包括在所述规划问题状态的模拟模型中运行多个模拟试验,所述模拟试验包含在所述状态下导致模拟回报结果的至少一个可用顶级操作;以及响应于在所述模拟试验中获得的所述模拟回报结果,在完成所述模拟试验时推荐要在所述规划问题状态下执行的操作,其中所述模拟试验中的至少一个模拟试验执行一个或多个步骤,所述步骤包括:观察模拟状态下的上下文状态信息;以及响应于所观察的上下文状态信息而选择所述模拟状态下的可用操作;其中包括至少一个处理器和连接到所述处理器的至少一个存储设备的计算系统执行所述运行、推荐、观察和选择。进一步就此方面而言,模拟试验的所述一个或多个步骤进一步包括:响应于所观察的上下文状态信息而估计所述模拟状态下的至少一个可用操作的预期回报,其中响应于所观察的上下文状态信息而选择所述模拟状态下的可用操作包括:响应于可用操作的估计预期回报而选择所述模拟状态下的可用操作。进一步就此方面而言,模拟试验的所述一个或多个步骤进一步包括:响应于模拟操作而观察多个模拟回报,以及更新所述模拟试验中的对应顶级操作处的模拟回报统计;所述计算系统还执行所述观察和更新。进一步就此方面而言,模拟试验的所述一个或多个步骤进一步包括:响应于所选择的操作而模拟向新状态的转变,所观察的多个模拟回报响应于以下项中的一个或多个:所选择的操作或所述状态转变。进一步就此方面而言,模拟试验的所述一个或多个步骤进一步包括:维护数据对集合,所述数据对包括所观察的上下文状态信息和与所选择的可用操作关联的所观察的对应模拟回报。进一步就此方面而言,从所观察的上下文状态信息估计所述预期回报包括:在模拟试验的所述一个或多个步骤期间,实施回归模型并计算有关与可用操作关联的所述数据对集合的回归拟合;根据所实施的回归模型估计以下项中的一个或多个:平均预期回报或所述平均值中的不确定性;以及响应于以下项中的一个或多个而计算效用:所估计的平均回报或所估计的所述平均值中的不确定性,其中根据所计算的效用而选择所述操作。在另一方面,提供了一种用于选择规划问题状态下的操作的系统,所述系统包括:所述规划问题的模拟器,其包括至少一个处理器;以及连接到所述处理器的至少一个存储设备,其中所述处理器被编程以执行以下操作:在所述规划问题状态的模拟模型中运行多个模拟试验,所述模拟试验包含在所述状态下导致模拟回报结果的至少一个可用顶级操作;响应于在所述模拟试验中获得的所述模拟回报结果,在完成所述模拟试验时推荐要在所述规划问题状态下执行的操作,其中所述处理器还被编程以在所述模拟试验中的至少一个模拟试验中执行一个或多个步骤,所述步骤包括:观察模拟状态下的上下文状态信息;以及响应于所观察的上下文状态信息而选择所述模拟状态下的可用操作。进一步就此方面而言,在模拟试验的所述一个或多个步骤中,所述处理器还被编程以执行以下操作:响应于所观察的上下文状态信息而估计所述模拟状态下的至少一个可用操作的预期回报,其中响应于所观察的上下文状态信息而选择所述模拟状态下的可用操作包括:响应于可用操作的估计预期回报而选择所述模拟状态下的可用操作。进一步就此方面而言,所述处理器还被编程以在模拟试验的所述一个或多个步骤中执行以下操作:响应于模拟操作而观察多个模拟回报,以及更新所述模拟试验中的对应顶级操作处的模拟回报统计;所述处理器执行所述观察和更新。进一步就此方面而言,所述处理器还被编程以在模拟试验的所述一个或多个步骤中执行以下操作:响应于所选择的操作而模拟向新状态的转变,所观察的多个模拟回报响应于以下项中的一个或多个:所选择的操作或所述状态转变。进一步就此方面而言,在模拟试验的所述一个或多个步骤中,所述处理器还被编程以执行以下操作:维护数据对集合,所述数据对包括所观察的上下文状态信息和与所选择的可用操作关联的所观察的对应模拟回报。进一步就此方面而言,对于从所观察的上下文状态信息估计所述预期回报,所述处理器还被配置为:在模拟试验的所述一个或多个步骤期间,实施回归模型并计算有关与可用操作关联的所述数据对集合的回归拟合;根据所实施的回归模型估计以下项中的一个或多个:平均预期回报或所述平均值中的不确定性;以及响应于以下项中的一个或多个而计算效用:所估计的平均回报或所估计的所述平均值中的不确定性,其中根据所计算的效用而选择所述操作。提供了一种用于执行操作的计算机程序产品。所述计算机程序产品包括存储介质,其可由处理电路读取并存储所述处理电路运行的指令以便运行方法。所述方法与上面列出的方法相同。


包括附图以便进一步理解本发明,所述附图结合在本说明书中并构成本说明书的一部分,这些附图是:图1是根据现有实施方式的包括表示MCTS规划方法的操作节点和后续状态节点的交替结构的示例性树结构部分;图2是一个实例实施例中包括用于在包含上下文状态信息的环境中进行规划的操作节点和后续基础状态节点的交替结构的示例性数据结构;图3A是描述用于在一个实施例中在实际环境中执行规划的方法步骤的流程图;图3B是描述由与实施的实际环境模拟器一起协同运行的处理器设备在步骤208处执行的模拟试验的流程图;图4示出了用于在一个实施例中运行在图2、3中描述的方法步骤的示例性硬件配置;以及图5示出了在一个实施例中与数据集拟合的示例性回归函数。
具体实施例方式—种方法、系统和计算机程序产品在计算设备中实施蒙特卡罗规划算法,以便在包括基础状态信息和上下文状态信息的实际环境中提供操作规划。如在此所指的,环境的“状态”包括任何当前可观察信息,以及导致当前状态的先前状态下的任何相关在先可观察信息,所述信息与预测未来观察到的状态和未来观察到的回报相关。所述方法、系统和计算机程序产品处理这样的领域:其中可观察信息的一部分可以被视为基础状态描述,可观察信息的其余部分可以被视为可应用回归技术以便估计预期累积回报的上下文状态信息。图2示出了修改后的蒙特卡罗规划模型,其中在实施编程处理器设备的计算机系统中创建数据结构10,所述数据结构包括对应于实际规划问题领域状态的根节点11、表示给定模拟状态下的可用操作的操作节点(例如,20ρ…、204),以及表示可通过在先前基础状态下执行可用操作到达的后续基础状态的基础状态节点(例如,15、30)。例如,可以在模拟试验中通过在基础状态15下执行操作20i到达节点30。在给定模拟试验期间,所述模拟可以在每个步骤生成观察到的上下文状态(例如,s0, S1, s2),其通常被表示为包含一个或多个离散或连续变量的值集合。根据一个实施例,在包括根节点11的数据结构10中执行MCTS式搜索,根节点11是进行决策(即,在实际环境中采取操作)的入口点。所述方法包括从根节点11构建例如
图2中所示的操作节点(例如,节点201.....204)和后续基础状态节点(例如,15,30)的交
替结构。在一个典型实施例中,操作节点的子节点是后续基础状态节点,后续基础状态节点的子节点是操作节点。此外,当针对选定操作执行模拟试验时,每个操作节点累积包含各对Ksyrp}的数据集,其中表示在试验j时在 此节点处观察到的任何上下文状态信息,&表示在此节点处开始的试验j中获得的累积回报。累积回报值可以反映折扣后的未来回报。当在节点处累积每个抽样时,此节点针对观察到的试验的整个集合Ksj,h)}执行回归模型R(S)的增量批量更新,这将用于在下一个试验时在给定任何观察到的上下文状态“s”下估计预期回报。即,通过被记录为蒙特卡罗模拟结果的汇总数据,在节点处更新所述数据集之后执行回归训练,并且生成回归流形(regressionmanifold)并将其存储为预测函数25,预测函数25例如与由关联分支(例如图2中所示)的试验产生的每个节点20ρ…、204关联。给定观察到的抽样和回归模型拟合,下一个抽样试验的执行运行如下:试验在树的根节点11处开始,并在一个实施例中根据匪徒抽样算法递降(descend)以选择操作节点,或根据状态转变模型递降以选择后续基础状态节点。在一个实施例中,匪徒抽样算法针对每个操作i计算有关其预期回报的上置信界Bi (如在此针对公式(I)描述的那样),并且选择具有最高上置信界的操作。根据以下公式计算上置信界Bi:Bi=",⑷+\l2lnNerrt ⑷(I)其中μ A表示与此操作节点中的数据集拟合的平滑或回归函数(例如,图5中的函数505),s表示当前观察到的上下文状态信息,Ui(S)表示给定s观察下此操作节点中的此操作的预期回报估计,N表示针对所有同级操作节点总计的抽样总数,err^s)表示不确定性估计,即操作i的真实预期回报与μ Js)给出的估计之间的差的可能量级,“i”是指示此操作节点的标识号的索引。在图2中所示的实例实施例中,通过以下步骤在节点15处选择操作:将公式(I)应用于每个同级操作节点UO1,…,204}(其中N=WNJN4),并选择具有最高Bi结果值的操作。图3A-3B示出了一个示例性实施例中用于在实际环境(例如,作业调度环境,其中分派多个程序作业以便在有限数量的服务器设备上运行)中执行蒙特卡罗规划的步骤。在此示例性实施例中,存在可以在“K”个服务器设备上执行的一批“N”个作业(例如,J1,J2、…、JN),例如,由软件程序执行的计算任务。在一个实施例中,假设服务器设备完全相同,并且作业之间没有相关性。还假设作业具有可以被模拟的已知完成时间分布。还假设如果完成所有作业的时间小于指定的截止时间“Tmax”,则二进制回报具有值“1”,否则所述回报为O。在此示例性作业调度实施例中,一个实例目标是配置计算系统以首先选择包含K个作业的最佳集合以便首先运行,然后当单独作业在随机完成时间完成时,在所有剩余作业中动态选择最佳作业以便接下来运行,以便最大化在Tmax内完成所有作业的概率。这通过由计算系统运行图3A中所示的方法步骤202-218来执行。例如,如果K = 2并且N=17,则计算系统可以初始选择作业“J6”以便在第一服务器设备上运行,选择作业“J15”以便在第二服务器设备上运行。假设作业“J15”在“J6”之前完成,则计算系统然后将从剩余作业中选择最佳作业(例如,选择作业“J7”以便接下来在第二服务器设备上运行。在一个实施例中,在修改后的MCTS树递降方法中,针对每个潜在操作节点计算公式(I ),并且使用公式
(I)选择在最大化上置信值(即,公式(I)的输出)的空闲服务器设备上运行的作业)。图3A-3B示出了用于在实际环境中对操作进行蒙特卡罗规划的方法和系统。在图3A中,在步骤202,计算系统开始运行。在步骤204,计算系统构建和/或初始化与MCTS型数据结构的表示实际环境的根节点对应的数据结构,其中根据实时调度任务(例如,在一个实施例中,实际作业调度环境 )的当前状态初始化树的根节点的状态。计算系统还可以被配置为创建和初始化MCTS型数据结构的表示后续基础状态的多个中间节点和/或叶节点,可以从实际环境中的根节点状态到达所述后续基础状态。计算系统还可以被配置为在运行方法步骤208-218期间创建和初始化其他中间节点和叶节点(例如,在208执行模拟试验步骤期间创建和初始化)。所述数据结构在操作节点(其中在上面提供的实例中,计算系统被配置为将作业分派给空闲服务器)和后续状态节点(其中作业完成并且服务器设备变得可用)之间交替。在步骤204处初始化之后,计算系统被配置为模拟器或被配置为调用模拟器(运行模拟模型),所述模拟器在步骤206启动模拟试验。每个模拟试验包括执行一个或多个模拟步骤,这些模拟步骤从导致结果的根节点(图2中的节点11)的至少一个子节点运行,在步骤208执行每个模拟步骤。模拟步骤包括来自指示模拟的当前状态的节点(例如,图2中的节点15)的数据结构的部分递降,其中选择当前状态节点(节点15)的一个可用操作节点(例如,图2中的节点20ρ…、204),然后所述模拟器(运行模拟模型)生成向所选择的操作节点的一个可用后续状态节点(例如,图2中的节点30)的转变。此外,在每个选定操作节点处,计算系统可以记录表示当前试验中的当前截止时间的时间戳数据点。模拟步骤可以在例如选择以前从未被抽样的子操作节点时,向所述数据结构动态添加新的操作或后续状态节点(多个)。
在一个实施例中,选择操作的方法基于针对可能的操作最大化上置信界值,如在此针对公式(I)描述的那样。在一个备选实施例中,计算系统利用区间估计(L.P.Kaelbling, LearninginEmbeddedSystems (学习嵌入式系统),麻省理工学院出版社,1993年)选择子操作节点。为了模拟其中必须进行决策并且具有某一包含可能决策的集合的真实环境,模拟器设备(包括编程处理器,其具有在操作上关联的存储器以进行数据存储)实施被建模的实际环境的模拟模型。实际环境的模拟模型能够执行从环境的给定开始状态开始的模拟试验,并且从初始状态开始使用给定决策策略提供时间效应的合理准确模拟(就随之产生何种序列的状态转变和回报而言)。即,MCTS型方法通过一系列模拟步骤,从初始(当前)状态(包括初始基础状态以及初始上下文状态)实施树结构(例如,根节点11)的遍历,每个步骤包括选择所示的操作节点,并且模拟转变(例如,非确定转变)以到达包括新基础状态和新上下文状态的新状态。图3B是描述在206启动的模拟试验的步骤208的流程图,步骤208由与运行实际环境模拟模型的实施的模拟器一起工作的处理器设备执行。在某些实施例中,在206启动的模拟试验包括执行多个步骤,一个或多个步骤包括记录对上下文状态信息s的观察,如在258所指示的。所观察的上下文状态信息的实例例如可以包括从先前状态转变以来所经过的时间量。本发明的通用实施例然后将继续到步骤264 (如在第一处理路径A中所指示的那样),以便响应于所观察到的上下文状态信息s而计算选定操作。在不同的实施例中,用于执行所述计算的特定机制可能有所不同。例如,本发明的一个实施例使用中间步骤260(如在第二处理路径B中所示的),其中从所观察的上下文状态信息计算预期平均回报和预期不确定性度量,然后在步骤264,响应于所观察的上下文状态信息而选择操作包括响应于所计算的预期平均回报和不确定性度量而选择操作。在完成步骤264时,本发明的通用实施例然后将在步骤272响应于所选择的操作而记录观察到的模拟回报,以便在完成模拟试验时,推荐要在规划问题状态(对应于所述模拟试验中的顶级根节点状态)下执行的操作,其中所推荐的操作响应于在所述模拟试验中获得的模拟回报结果。其他实施例可以另外包括步骤268,其中所述模拟器(运行所述模拟模型)生成向在264选择的操作的一个可用后续状态的转变,其中在272处观察到的模拟回报响应于以下项中的一个或多个:所选择的操作和所模拟的状态转变。返回参考图3A,在模拟期间,在208,计算系统维护与已遇到的所观察到的基础状态对应的节点集合(例如,图2中的数据结构10)。节点由基础状态变量值唯一地标识,以便将对相同基础状态变量值的两次观察分组在一个节点中。在一个实施例中,如图2中所示,每当在模拟试验j期间遇到节点时,计算系统将维护在此节点中观察到的数据记录(sp rp,其中表示第j个试验中的上下文状态信息并且其取决于规划目标,rj是从节点“N”开始获得的所观察的立即回报或所观察的累积回报。在后者的情况中,将在此试验的后续状态下获得的任何后续回报都添加到h的值中。添加到&的值可以乘以Yd,其中Y表示位于范围
内的折扣参数,d是表示后续回报的延迟(以离散决策区间数度量)的整数。在运行模拟步骤208之后,计算系统被配置为在步骤210判定是否在此模拟试验中执行其他步骤。如果需要更多的模拟(例如,没有最终确定),则所述过程继续在步骤208执行此试验的模拟。例如,在此作业调度环境中,模拟试验一直继续,直到通过在截止时间之前完成所有作业(回报值=1)或通过在超过截止时间未完成所有作业(回报值=O)而获得最终回报。在完成模拟试验时,计算系统被配置为继续到步骤212,其中更新针对参与所述模拟试验的节点维护的统计(例如,上述{(Syh)}数据集)。例如,此更新导致存储参与模拟试验“ j”的每个操作节点“k”处的数据对( , ι.Λ),其中“^”是上下文状态信息,即,在模拟试验“ j ”中的节点“k”处记录的时间戳,“rjk”表示在节点“k”开始的模拟试验“ j ”中获得的累积模拟回报(对应于作业调度任务中的最终回报)。因此,在实例作业/服务器调度问题中,可能有5个服务器设备(计算机器)并且所有机器当前都忙于处理作业。剩余作业《3、上和上待处理。在实例实际环境中,在当前正在运行的所有作业中,首先完成的作业将释放其服务器(例如,服务器2),在此情况下可以将作业J5分派给此服务器。在此实例中,操作包括选择剩余作业以便在可用服务器上运行,状态转变包括完成一个或多个作业且对应的服务器变得可用。当发生转变时,已经过一定的时间量,其被表示为上下文状态信息(例如,表示为“t”)。因此,在上面的示例性状态下,每次服务器2变得空闲并且分派作业J5时,实施模拟模型的模拟器都可以多次执行此模拟,且在每个试验中经过的时间t都不同。经过的时间和对应的回报(满足作业截止时间或不满足)是模拟模型的输出并作为数据对存储在对应节点中。如图5中所示,提供了汇总统计的图形表示500,例如在χ轴上绘制示出的上下文状态信息510 (例如,此实例中的经过的时间“t”)以及在y轴上绘制示出的回报515 (例如,完成作业的概率),以便与节点k关联。在此实例中,所述回报是二进制的:或者试验导致满足作业截止时间(例如,数据集对521),或者试验导致不满足作业截止时间(例如,数据集对526)。因此,参考图2,给定节点N处的实例作业/服务器调度任务,在MCTS树结构中维护基础状态信息(例如,五个服务器机器中的哪个服务器空闲),并且在MCTS树的每个节点处维护上下文状态信息(例如,经过的时间t)。给定当前状态,使用两种类型的信息确定要采取的操作。当在每 个试验中调用的模拟器中建模时,所述模拟器将产生经过的时间。假设模拟器具有良好的模拟模型,其在可接受的准确度内忠于实际域。模拟器接收观察到的值(与实际域中的开始状态有关);模拟各种后续状态转变;以及生成与这些状态转变关联的上下文状态变量的模拟。因此,给定实际环境的当前状态,模拟器接收包括实际域中给定观察到的值的输入,并模拟后续状态转变,所述后续状态转变包括与这些状态转变关联的模拟上下文状态变量(和基础状态变量)。将理解,上下文状态信息可以包括一个变量、多个变量,或通常包括从通用度量空间中获得的数据实例。返回参考图3A,计算系统然后被配置为继续到214,其中所述方法包括根据在给定节点处存储的多个记录的数据对Ksjk,rjk)},在一个或多个节点处训练值函数逼近器(FA)0即,给定在操作节点“k”处记录的累积存储数据对{(sJk, rJk)},执行在此节点处累积的存储汇总统计数据的回归拟合。此函数被表示为函数“Pk(s) ”,例如图5中所示的平滑函数 505。图5具体示出了示例性图500,其示出一个实施例中与在操作节点处累积的数据集拟合的示例性回归函数505。所述数据集可以包括包含上下文状态信息510和观察到的回报值515的多个对。计算系统例如通过使用编程回归技术将回归函数505与所述数据集拟合,所述编程回归技术包括但不限于本领域公知的技术(例如,线性回归、逻辑回归、样条回归、回归树等)以及本领域公知的各种损失函数(例如,均方误差、交叉熵误差等)。例如,线性回归通过使用线性公式而逼近上下文状态信息510和观察到的回报515之间的关系。逻辑回归通过将数据集与逻辑函数曲线(即,平滑函数505)拟合来预测发生事件(例如,发生观察到的回报)的概率。样条回归方法对输入状态空间强制实行均匀分区,并且将简单函数(例如,线性或二次函数)与每个分区中的观察到的抽样拟合,这受到跨相邻分区的连续性和平滑性约束的影响。回归树例如通过以下操作逼近实值函数:递归地将输入状态空间分区,然后将简单函数(例如,常数函数)与叶节点分区中的观察到的抽样拟合。因此,对于实例作业/服务器调度任务,在任何给定试验期间,当MCTS算法执行从树递降的步骤时,在试验的每个步骤处都观察到从所述模拟器输出的经过的时间t’。因此,给定回归曲线,在公式(I)的上界计算中使用从每个试验(模拟)中的回归模型接收的估计:平均值yi(t’)和不确定性度量erri(t’)。因此,对于图2中所示的实例,函数UiO表示操作节点20k处的回归曲线25的形状,t’是用于获得预期回报值的回归曲线的输入上下文状态(例如,在t轴上)的具体值(并且对于操作节点2、3、4等类似)。为了根据回归分析度量平均值中的不确定性,在一个实施例中采用误差传播技术。例如,在一个实施例中,根据高斯误差传播技术从公式(I)中的回归参数值的标准误差(例如,线性回归模型y=ax+b中的拟合系数a和b)计算预期回报中的不确定性(例如,err, (t’))。根据此技术,预期回报中的不确定性eri^ (t’ )被计算为sqrt ( σ a2x2+ σ b2),其中03和Ob分别是线性回归参数a和b的估计中的标准误差。在另一个实施例中,通过向节点的数据对集合临时添加虚构数据点(s,r*)获得预期回报中的不确定性erri(t’),其中s是观察到的上下文变量状态,r*是可以在任何试验中获得的最大可能回报。此类数据点例如在图5中示出,其被绘制为表示针对包括此数据的操作节点的模拟试验期间其他观察到的上下文状态数据的数据对540。所述系统然后执行针对扩展数据集重新训练回归模型,并使用新的预期回报和先前预期回报之间的差确定不确定性估计。例如, 对于作业/服务器调度任务,给定图5的实例回归曲线,在估计满足截止时间的可能性中,当确定接下来要选择的操作(节点)时,向累积的(存储的)数据对添加附加数据点(s.1),然后重新计算回归曲线。当确定要采取何种操作时,采用针对添加到所述数据集的新值重新训练FA曲线之后的曲线移位程度作为不确定性度量(即,err^f )估计)。例如,计算系统计算原始估计的预期回报和重新计算的预期回报之间的差。在此实施例中,所计算的差是公式(I)中的不确定性估计erri(s)。作为使用回归技术配置计算系统以便将值函数(FA)与更新后的统计拟合的备选方案,计算系统被编程以便备选地通过以下项训练所述值函数逼近器:用于训练参数化回归模型(例如,逻辑回归)的快速在线学习方法(例如,随机梯度方法),或用于训练非参数回归模型(例如,回归树)的快速增量批量学习方法。在任一实施例中,值函数逼近器(被表示为拟合后的回归函数505)的输出是可以在计算系统选择特定操作节点时获得的预期回报估计,即,公式(I)中的Ui(s)。节点选择另外可以响应于预期回报的不确定性估计,即,公式(I)中的erri(s)。对于图2的实例作业/服务器调度,505中示出的逻辑函数类型提供预期回报估计,其可以在计算系统在任何可能剩余时间值T处选择特定操作节点时获得。例如,所述函数用于在任何可能剩余时间值“T”处估计节点“k”处的预期成功概率,即,通过采取在节点“k”中指定的操作而估计在“T”内完成剩余作业的概率。在一个备选实施例中,可以将不确定性度量转换为节点处的等效试验数量“N”(例如,添加到回报估计置信度)。返回图3A,在步骤214完成值函数逼近器的训练之后,计算系统被配置为继续到步骤216,在步骤216做出选择,或者终止模拟,或者返回步骤206以执行从根节点状态开始的其他模拟试验。在一个实施例中,终止准则可以基于总体经过的模拟CPU时间超过阈值。在另一个实施例中,计算系统被配置为计算当前最佳顶级决策的预期后悔值,并且当预期后悔值低于阈值(例如,0.005)时,模拟终止。预期后悔值被定义为“真实”最佳回报率(如果可以执行无限数量的模拟试验,则将确切知道此回报率)和选定顶级操作的回报率之间的预期差。给定所有顶级操作的回报分布,可以根据本领域公知的既定方法计算任何顶级操作的预期后悔值。如果满足216的终止准则,则计算系统被配置为继续到步骤218。在步骤218,计算系统推荐最大化预期平均回报的顶级操作(选择根节点的子节点)。在实例作业调度任务的情况下,在实际域中执行此选定顶级操作,直到例如随后在任务中需要其他调度决策时。此指定的操作可以包括针对特定作业选择特定服务器设备,然后计算系统可以被配置为继续运行图2中的方法步骤202-218以计算每个作业分派决策,直到将所有剩余作业分派给可用服务器设备。在实际环境中,计算系统(例如,图4中的计算系统300)使用例如通过用户界面显示而提供的推荐,运行图3A中所示的方法200的方法步骤,以便在决策周期(例如,预定时间量)或决策序列(即,针对连续决策周期的整个操作规划)中做出决策。备选地,计算系统可以在实际环境中利用搜索算法(例如,二进制搜索树技术、蒙特卡罗树搜索(MCTS)技术等)做出决策(多个)。总之,在修改后的MCTS方法中,构造包含有限且可管理数量的节点的树,同时利用域中的上下文状态信息,通过基于快速增量批量训练的函数逼近方法估计回报。使用实际上下文状态信息使得当前问题更易于处理,并提供对类似上下文状态值的推断,可以合理地预计这些类似的值提供类似的目标函数值(即,回报)。其中在MCTS数据结构中建立上下文状态信息模型的实际随机(B卩,非确定)环境的实例包括但不限于:网络分组路由和调度系统、供应链管理系统、战场规划系统、城市交通管理系统、资源分配系统、自主计算系统(即,自改进和自管理计算系统)、医学试验系统、消费者营销系统、金融市场中的交易系统、其他实际活动、计算机游戏等。图4示出了计算系统300的示例性硬件配置。所述硬件配置优选地具有至少一个处理器或中央处理单元(CPU) 311。CPU311通过系统总线312与以下项互连:随机存取存储器(RAM) 314、只读存储器(ROM) 316、输入/输出(I/O)适配器318 (用于将诸如盘单元321和磁带驱动器340之类的外围设备连接到总线312)、用户接口适配器322(用于将键盘324、鼠标326、扬声器328、麦克风332和/或其他用户接口设备连接到总线312)、用于将系统300连接到数据处理网络、因特网、内联网、局域网(LAN)等的通信适配器434,以及用于将总线312连接到显示设备438和/或打印机339 (例如,数字打印机等)的显示适配器336。
所属技术领域的技术人员知道,本发明可以实现为系统、方法或计算机程序产品。因此,本发明的各方面可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,本发明的各方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是一但不限于一电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPR0M或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括一但不限于一电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括一但不限于一无线、电线、光缆、RF等等,或者上述的任意合适的组合。可以以一种或多种程序设计语言或其组合来编写用于执行本发明的各方面的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言一诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言一诸如” C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络一包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。下面将参照本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,这些计算机程序指令通过计算机或其它可编程数据处理装置执行,产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。也可以将这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置的制品。也可以将计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
权利要求
1.一种用于选择规划问题状态下的操作的方法,所述方法包括: 在所述规划问题状态的模拟模型中运行多个模拟试验,所述模拟试验包含在所述状态下导致模拟回报结果的至少一个可用顶级操作; 响应于在所述模拟试验中获得的所述模拟回报结果,在完成所述模拟试验时推荐要在所述规划问题状态下执行的操作, 其中所述模拟试验中的至少一个模拟试验执行一个或多个步骤,所述步骤包括: 观察模拟状态下的上下文状态信息;以及 响应于所观察的上下文状态信息而选择所述模拟状态下的可用操作; 其中包括至少一个处理器和连接到所述处理器的至少一个存储设备的计算系统执行所述运行、推荐、观察和选择。
2.根据权利要求1的方法,其中模拟试验的所述一个或多个步骤进一步包括: 响应于所观察的上下文状态 信息而估计所述模拟状态下的至少一个可用操作的预期回报,其中响应于所观察的上下文状态信息而选择所述模拟状态下的可用操作包括:响应于可用操作的估计预期回报而选择所述模拟状态下的可用操作。
3.根据权利要求2的方法,其中模拟试验的所述一个或多个步骤进一步包括: 响应于模拟操作而观察多个模拟回报,以及 更新所述模拟试验中的对应顶级操作处的模拟回报统计;所述计算系统还执行所述观察和更新。
4.根据权利要求3的方法,其中模拟试验的所述一个或多个步骤进一步包括: 响应于所选择的操作而模拟向新状态的转变,所观察的多个模拟回报响应于以下项中的一个或多个:所选择的操作或所述状态转变。
5.根据权利要求3的方法,其中模拟试验的所述一个或多个步骤进一步包括: 维护数据对集合,所述数据对包括所观察的上下文状态信息和与所选择的可用操作关联的所观察的对应模拟回报。
6.根据权利要求5的方法,其中从所观察的上下文状态信息估计所述预期回报包括: 在模拟试验的所述一个或多个步骤期间,实施回归模型并计算有关与可用操作关联的所述数据对集合的回归拟合; 根据所实施的回归模型估计以下项中的一个或多个:平均预期回报或所述平均值中的不确定性;以及 响应于以下项中的一个或多个而计算效用:所估计的平均回报或所估计的所述平均值中的不确定性,其中根据所计算的效用而选择所述操作。
7.根据权利要求6的方法,其中根据所计算的效用而选择操作包括:计算多个可用操作的效用,以及选择具有所计算的最大效用的操作。
8.根据权利要求4的方法,其中所观察的多个模拟回报包括在所述模拟向新状态的转变时观察的立即回报,或包括还包含在所述模拟试验的后续步骤中所观察的模拟回报的累积回报。
9.根据权利要求6的方法,其中估计所述平均值中的不确定性包括: 向所述数据对添加包括当前上下文状态信息和最大回报值的额外数据对; 重新计算有关所述数据对的回归拟合;根据重新计算的回归拟合重新估计所述平均预期回报;以及 根据原始平均预期回报和重新计算的平均预期回报之间的差估计所述平均值中的不确定性。
10.一种用于选择规划问题状态下的操作的系统,所述系统包括: 所述规划问题的模拟器,其包括至少一个处理器;以及 连接到所述处理器的至少一个存储设备,其中所述处理器被编程以执行以下操作: 在所述规划问题状态的模拟模型中运行多个模拟试验,所述模拟试验包含在所述状态下导致模拟回报结果的至少一个可用顶级操作; 响应于在所述模拟试验中获得的所述模拟回报结果,在完成所述模拟试验时推荐要在所述规划问题状态下执行的操作, 其中所述处理器还被编程以在所述模拟试验中的至少一个模拟试验中执行一个或多个步骤,所述步骤包括: 观察模拟状态下的上下文状态信息;以及 响应于所观察的上下文状态信息而选择所述模拟状态下的可用操作。
11.根据权利要求10的系统,其中在模拟试验的所述一个或多个步骤中,所述处理器还被编程以执行以下操作: 响应于所观察的上下文状 态信息而估计所述模拟状态下的至少一个可用操作的预期回报,其中响应于所观察的上下文状态信息而选择所述模拟状态下的可用操作包括:由所述处理器响应于可用操作的估计预期回报而选择所述模拟状态下的可用操作。
12.根据权利要求11的系统,其中所述处理器还被编程以在模拟试验的所述一个或多个步骤中执行以下操作: 响应于模拟操作而观察多个模拟回报,以及 更新所述模拟试验中的对应顶级操作处的模拟回报统计;所述处理器执行所述观察和更新。
13.根据权利要求12的系统,其中所述处理器还被编程以在模拟试验的所述一个或多个步骤中执行以下操作: 响应于所选择的操作而模拟向新状态的转变,所观察的多个模拟回报响应于以下项中的一个或多个:所选择的操作或所述状态转变。
14.根据权利要求12的系统,其中在模拟试验的所述一个或多个步骤中,所述处理器还被编程以执行以下操作: 维护数据对集合,所述数据对包括所观察的上下文状态信息和与所选择的可用操作关联的所观察的对应模拟回报。
15.根据权利要求14的系统,其中在模拟试验的所述一个或多个步骤中,所述处理器还被编程以通过以下操作从所观察的上下文状态信息估计所述预期回报: 在模拟试验的所述一个或多个步骤期间,实施回归模型并计算有关与可用操作关联的所述数据对集合的回归拟合; 根据所实施的回归模型估计以下项中的一个或多个:平均预期回报或所述平均值中的不确定性;以及 响应于以下项中的一个或多个而计算效用:所估计的平均回报或所估计的所述平均值中的不确定性,其中根据所计算的效用而选择所述操作。
16.根据权利要求15的系统,其中根据所计算的效用而选择操作包括:计算多个可用操作的效用,以及选择具有所计算的最大效用的操作。
17.根据权利要求13的系统,其中所观察的多个模拟回报包括在所述模拟向新状态的转变时观察的立即回报,或包括还包含在所述模拟试验的后续步骤中所观察的模拟回报的累积回报。
18.根据权利要求15的系统,其中所述处理器还被配置为通过以下操作估计所述平均值中的不确定性: 向所述数据对添加包括当前上下文状态信息和最大回报值的额外数据对; 重新计算有关所述数据对的回归拟合; 根据重新计算的回归拟合重新估计所述平均预期回报;以及 根据原始平均预期回报和重新计算的平均预期回报之间的差估计所述平均值中的不确定性。
19.一种用于将多个作业分派给适于运行所述作业的多个计算服务器设备的方法,所述作业分派包括: 构造表示任务分配环境的数据结构,所述数据结构包括:指定到所述多个计算服务器设备的作业分派的当前状态的一个或多个节点,所述作业具有已知的完成时间分布;以及指定所述当前状态下的可用操作的一个或多个节点; 将操作定义为将当 前作业分派给可用计算服务器,将基础状态转变定义为表示当前分派的作业的完成并且服务器设备变得可用,将上下文状态定义为表示在强制时间限制之前完成所有多个作业分派所剩余的时间量t,以及将最终回报值定义为满足或不满足所述强制时间限制; 在多个试验中通过执行包括一个或多个步骤的数据结构的递降来模拟所述任务分配环境的模型,每个步骤包括:选择操作、向新的基础状态节点和新的上下文状态转变; 从所述模拟模型中的每个参与节点输出所述剩余时间t以及涉及该节点的每个模拟试验的对应最终回报值,以便存储在存储设备中表示该节点的数据结构中; 根据由所述模拟模型的输出所训练的模型,在每个节点处处理输出数据以获得所述预期回报的平均估计和所述平均值中的不确定性;以及 根据所述模拟试验中的所述最终回报值,推荐单个计算服务器以运行所述多个作业中的每一个,然后当各单个作业在随机完成时间完成时,在所有剩余作业中动态选择接下来运行的作业,以便最大化在所述强制时间限制内完成所有作业的概率, 其中在所述一个或多个步骤中选择操作是响应于所述预期回报的平均估计和所述不确定性;以及 其中包括至少一个处理器和连接到所述处理器的至少一个存储设备的计算系统执行所述构造、模拟、输出、处理以及推荐。
全文摘要
本发明涉及一种使用上下文信息进行蒙特卡罗规划的方法和系统。提供了用于选择规划问题状态下的操作的方法、系统和计算机程序产品。所述系统从所述规划问题的当前状态开始模拟一个或多个系列的操作、状态转变和回报。在模拟在给定状态下执行给定操作期间,维护包括由所述操作产生的所观察的上下文状态信息和所观察的累积回报的数据记录。所述系统针对所述数据记录执行回归拟合,从而能够根据上下文状态估计预期回报。所述预期回报的估计用于在所述模拟期间指导操作的选择。在完成所有模拟时,推荐在模拟期间获得最高平均回报的顶级操作,以便在所述规划问题的当前状态下执行。
文档编号G06Q10/06GK103208041SQ201310009910
公开日2013年7月17日 申请日期2013年1月10日 优先权日2012年1月12日
发明者G·J·泰绍罗, A·贝格尔兹莫, R·B·塞加尔, M·N·韦格曼 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1