用以改进机器人策略学习的设备和方法与流程

文档序号:31568978发布日期:2022-09-20 21:43阅读:55来源:国知局
trust your model: model-based policy optimization”(在advances in neural information processing systems中, volume 32, pages 12519

12530. curran associates, inc., 2019)提出以从d
env
独立同分布选择的状态开始,仅用模型模拟短范围。由于模拟误差与该范围的长度相结合,因此这减小误差的大小。然而,它没有解决来自推广(rollout)的模型误差的根本问题,并且使推广范围成为基本的(并且调谐起来具有挑战的)超参数。
9.andreas doerr, christian daniel, duy nguyen-tuong, alonso marco, stefan schaal, toussaint marc和sebastian trimpe的“optimizing long-term predictions for model-based policy search”(volume 78 of proceedings of machine learning research, pages 227

238. pmlr, 13

15 nov 2017. url )取而代之地聚焦于学习近似模型以在长期预测任务上具有低误差。
10.迭代学习控制(d. a. bristow, m. tharayil和a. g. alleyne的“a survey of iterative learning control”,ieee control systems magazine, 26(3):96

114, 2006)描述了聚焦于基于模型的rl的特定子情况的一类方法,其中策略π和学习模型两者是固定的,除了时间相关误差项,该时间相关误差项可以基于其学习模型的线性化以及以状态和动作为二次的回报函数而以封闭形式计算。
11.本发明的优点提出使用数据d
env
从与环境交互收集的数据中学习或改进(潜在地时间相关的)模型。最后,基于该学习模型,通过近似求解方程(3)来优化策略参数(例如在伪代码的第6行中):方程(3):
12.为此目的,提出了一种特定形式的模型学习,它可以附加于其他模型学习方法一起使用以改进学习性能。特别地,虽然现有方法仅基于环境数据学习真实动力学p的全局模型g,但是提出附加地学习(同策略(on-policy))校正项。于是所得模型近似由方程(4)给出:方程(4):其具有可以是状态相关的全局模型g和同策略校正模型d
t

13.如果全局模型和/或校正项d
t
是概率性的,则求和运算被解释为由分布编码的随机变量的总和。
14.虽然全局模型g全局地近似动力学(包括异策略(off-policy),或者换句话说,对于rl过程期间所有收集的数据),但是同策略校正确保了低误差的同策略(或者换句话说,利用与当前策略相似的策略已经收集的数据)。
15.如果从具有如方程(4)中提出的预期转变动力学的d
env
中的情节重播动作序列,则可以从真实环境获得确切的情节数据。因此,方程(3)中的同策略模型误差减少,这导致在优化策略时改进的稳定性和数据效率。
16.在确定性转变动力学和策略的特例中,校正项导致同策略模型中的零误差。


技术实现要素:

17.在第一方面,本发明涉及一种用于为代理、特别是至少部分自主的机器人学习策略的计算机实现的方法。取决于当前状态,可以将策略配置为输出动作或动作上的分布。如果遵循由策略提出的动作,将实现策略已经对于其优选地通过强化学习进行了优化的目标。
18.该方法以初始化策略π
θ
和转变动力学模型开始,倘若代理实行动作(a),则该转变动力学模型取决于当前状态(s
t
)和所述动作(a)两者预测在环境和/或代理的下一状态(s
t+1
)之上的分布。因此,可以说转变动力学模型近似转变概率或确定性转变并输出下一状态。注意,环境也可以是系统,其中代理例如是系统的参与者(actor)。转变动力学模型将当前状态和动作(例如由策略确定的动作)取作输入,并返回下一状态或下一状态之上的分布。
19.此后跟随着重复以下步骤,直到满足终止条件:通过遵循策略π
θ
并且将记录的情节添加到训练数据d
env
的集合来至少记录代理与其环境的交互情节。情节可以是代理的轨迹。
20.记录的交互可以包括成对的状态和应用的动作或者应用的动作和此后到达的下一状态。然后,情节包括从第一动作开始直到最后一个动作的所有对。记录交互的步骤可以在真实世界环境中执行。附加地或替代地,该步骤通过环境模拟来实行。状态通常由传感器感测,其中传感器感测代理的状态和/或代理的环境状态,然后将其用作策略的输入。在环境模拟的情况下,模拟状态。
21.情节可以同步或异步、同策略或异策略收集并具有完整或部分轨迹。
22.在将情节添加到经训练的数据之后,跟随着基于训练数据d
env
对转变动力学模型()的优化,使得转变动力学模型()取决于包含在训练数据d
env
中的状态和动作来预测环境的下一状态。有趣的是,所有记录的情节可以独立于经训练策略的过程而被重新使用。该属性使得该步骤非常采样高效。
23.转变动力学模型()的特征在于,它包括表征全局模型的第一模型(g)和也被称为同策略校正模型的校正模型(d
t
),该校正模型(d
t
)被配置为校正第一模型的输出。换句话说,转变动力学模型是第一和第二模型的叠加。在下文中,校正模型也被称为校正项。转变动力学模型被配置为预测环境和/或代理在实行针对当前状态的预定义动作时将处于的下一状态。因此,它预测下一时间步长的状态,其中时间步长可以与实行动作或感测状态的时间点相关。时间步长也可以是离散值,它表征自预定义的起始点起所实行的动作数量。校正模型被配置为在实行动作之后校正第一模型相对于环境真实状态的误差。例如,第一模型取决于当前状态和例如由策略确定的动作来预测环境的状态。然后,校正模型校正第一模型的预测状态,使得在代理针对当前状态实行所述动作之后,预测状态尽可能地类似于环境的真实状态。换句话说,校正模型校正第一模型的输出,以获得尽可能接近环境将呈现
的状态的预测状态。因此,校正模型校正第一模型以获得关于环境、特别是环境动力学的更准确的状态。
24.注意,转变动力学模型被学习来近似环境的动力学,并且优选地是代理的动力学。这可以实现所述模型基于来自d
env
的情节数据尽可能准确地预测状态。
25.优选地,第一模型取决于环境的当前状态和动作,并且如果实行输入的动作,则输出环境的预测状态。校正项取决于时间或时间步长和/或当前状态。替代地,校正项是提取的校正值,其由训练数据的记录状态和第一模型的预测状态之间的差异来确定。校正项输出对于第一模型的校正。第一模型被参数化,其中其参数在优化转变动力学模型的步骤中被优化。相比之下,校正模型输出可以直接添加到第一模型的离散校正,或者校正项也在训练数据的记录状态和第一模型的预测状态之间的差异上进行参数化和优化。校正项的特例是非参数化函数,而取而代之由时间离散误差项组成。
26.在前一步骤完成之后,此后跟随着通过经由遵循(当前)策略π
θ
优化至少一个情节之上的回报r,从而基于训练数据d
env
和转变动力学模型优化策略π
θ
参数θ,其中转变动力学模型用于预测应用策略时的下一状态。换句话说,策略不是应用于环境上,取而代之它与转变动力学模型交互。该优化步骤也可以称为通过基于模型的强化学习来优化策略。所述优化包括特别是取决于回报来更新策略的参数。
27.给定学习的转变动力学模型,可以使用任何策略优化方法。除许多其他事物之外,示例还包括软参与者-评论者(tuomas haarnoja, aurick zhou, pieter abbeel和sergey levine的“soft actor-critic: off-policy maximum entropy deep reinforcement learning with a stochastic actor”,2018),或者随机值梯度(nicolas heess, gregory wayne, david silver, timothy lillicrap, tom erez和yuval tassa的“learning continuous control policies by stochastic value gradients”,in c. cortes, n. lawrence, d. lee, m. sugiyama和r. garnett, editors的“advances in neural information processing systems”,volume 28, pages 2944

2952. curran associates, inc., 2015. urlurl)。
28.该策略可以是神经网络,或任何其他参数化的分布或动作之上的确定性函数。
29.回报指示所采取的状态和/或动作的质量。典型地,该回报信号被设计来操控学习算法的行为。一般地,回报信号将大的值赋予合期望的状态/动作,并将小的(或负的)值赋予代理应当避免的状态/动作。可能的回报信号包括但不限于:某个参考状态信号的负跟踪误差、特定任务成功的指示函数或其平滑变体(例如,指数函数)、负二次成本项(类似于来自最优控制的方法)等。如果学习算法应当同时为多个目标而努力,也可能的是构建另一个回报信号作为加权的一些其他回报信号。
30.如果不满足终止条件,将以记录情节开始重复上面刚解释的步骤。终止条件可以是相对于策略优化而选择的收敛标准。注意,如果转变动力学模型足够准确,则可以跳过记录情节的步骤。
31.换句话说,第一方面提出的方法通过添加状态和/或时间相关项来扩展转变动力学模型,以减少同策略的模型预测,即在由当前控制策略选择的动作下。这具有如下优点:转变动力学模型在没有与环境的附加交互的情况下变得更准确。因为转变动力学模型的准
确性仅对于与学习策略相关的部分有所改进,特别是对于通过遵循策略而达到的所述部分有所改进,所以所述方法自动地仅集中于全局模型的相关部分来改进它。
32.提出了为了优化转变动力学模型()在训练数据上优化第一模型之后选择校正项,使得对于从训练数据d
env
上的策略π
θ
中选择的动作,转变动力学模型误差是低的。校正模型适用于当前策略,以为每个收敛状态提供最准确的转变动力学模型。优选地,校正模型被优化,使得全局模型的误差对于当前策略是最小的,其中当前策略是取决于新添加的训练数据当前被优化的策略。
33.此外,提出了选择校正项,使得如果如d
env
中那样确切地选择动作,则预期转变的序列将变得等于训练数据。也就是说,选择函数d
t
来最小化在以下方程左和右两边之间的差异的某种度量。方程(5):。
34.此外,提出了通过最小化在校正模型d
t
的输出与如下差异之间的差异的度量来选择校正模型d
t
:训练数据的记录状态与转变动力学模型的第一项g的预期预测状态之间的差异。
35.此外,提出了校正模型d
t
与第一项g联合优化。优选地,为了优化策略参数θ,可以通过策略π
θ
下的动作的可能性(或对数可能性)来重新加权校正模型d
t
,以确保同策略模型拟合。
36.联合优化意味着转变动力学模型及其两个项均在同一优化步骤内更新。这具有如下优点:不必明确确定第一模型的误差,并且也不需要优化关于所述误差的校正项。这使方法加速,并进一步改进了转变动力学模型的准确性。
37.此外,提出了校正项d
t
是状态和/或时间相关的。该时间可以是自情节开始起经过的时间。在训练期间,自情节开始起经过的时间是从已经感测到环境的第一状态的时间点直到感测到当前状态的当前时间点可以测量的时间。当利用根据本发明第一方面获得的策略时,也可以应用相同的定义。替代地,时间可以表征自情节的第一动作起已经实行的动作数量。
38.此外,提出了项d
t
仅可以是时间相关的,在这种情况下,我们可以具有确定性的校正项在给定数据和第一模型的情况下,该确定性的校正项是完全指定的。如果环境是确定性的,则当采取中的动作时,该时间相关项导致零误差模型误差。
39.此外,提出了校正项是概率函数,其中所述概率函数通过近似推断来优化。当确切的学习和推断在计算上难以处理时,近似推断方法通过折衷计算时间来换取准确性,从而使得从大数据学习现实模型成为可能。
40.策略的所确定动作可以被用来提供用于控制代理的参与者的控制信号,包括用于控制机器人的以上方法的所有步骤,并且进一步包括以下步骤:取决于所述输出信号确定所述致动器控制信号。优选地,所述致动器控制至少部分自主的机器人和/或制造机器和/或访问控制系统。
41.注意,可以学习策略以用于控制代理的动力学和/或稳定性。该策略可以接收表征
代理和/或环境的状态的传感器值作为输入。该策略被训练成通过最大化阶段回报来遵循最优轨迹。该策略输出表征控制值的值,使得代理将遵循最优轨迹。
42.将参考以下各图更详细地讨论本发明的实施例。各图示出了:图1方法的流程图;图2控制系统,具有控制其环境中的致动器的分类器;图3控制至少部分自主的机器人的控制系统;图4控制制造机器的控制系统;图5控制自动化个人助理的控制系统;图6控制访问控制系统的控制系统;图7控制监督系统的控制系统;图8控制成像系统的控制系统。
具体实施方式
43.在基于模型的强化学习中,学习真实系统p的转变概率或确定性转变的近似模型。也就是说,学习模型将当前状态和控制动作取作输入,并返回下一状态或下一状态之上的分布。因此,该模型可以用于使用现有策略优化方法结合来优化策略。所提出的同策略校正采用对的固定的或学习的近似,并利用状态和/或时间相关项来扩展它,以减少同策略的模型预测,即在当前控制策略π所选择的动作下。
44.图1中示出的是用于学习用于控制机器人的策略的方法的实施例的流程图。
45.该方法以初始化(s1)策略(π
θ
)和转变动力学模型()开始,倘若代理取决于当前状态(s
t
)和动作(a)两者实行所述动作(a),则转变动力学模型()预测环境和/或代理的下一状态(s
t+1
)。
46.此后跟随着循环,直到满足终止条件:循环的第一步骤是至少记录(s2)代理与其遵循策略(π
θ
)的环境的交互情节。后续,记录的情节被添加(s3)到训练数据(d
env
)的集合。
47.此后,实行步骤优化(s4)。这里,基于训练数据(d
env
)优化转变动力学模型(),使得转变动力学模型()取决于包含在训练数据(d
env
)中的状态和动作来预测环境的下一状态。
48.模型的全局部分g可以使用任何现有的方法来学习,任何现有的方法包括近似推断、最小化预测误差的方法以及用以优化长期预测误差的方法。校正项d
t
是相对于上面方程5优化的。
49.在完成步骤s4之后,跟随着步骤s5。该步骤包括通过经由遵循策略(π
θ
)而优化至少一个情节之上的回报,来基于训练数据(d
env
)和转变动力学模型()优化策略(π
θ
)参数(θ)。给定步骤s4的转变动力学模型(),可以使用任何策略优化方法。除许多其他事物之外,示例还包括软参与者-评论者、随机值梯度、近似策略优化和最大后验策略优化。
50.如果步骤s5已经完成并且不满足终止条件,则可以重复该循环。
51.如果该循环已经终止,则所得的优化策略可以用于计算用于控制物理系统的控制信号,所述物理系统例如是计算机控制的机器、机器人、载具、家用电器、电动工具、制造机
器或访问控制系统。它通过学习用于控制物理系统的策略并且然后相应地操作物理系统来这样做。一般来说,如上所述获得的策略与任何种类的系统交互。照此,应用范围非常广泛。在下文中,示例性地描述了一些应用。
52.图2中示出的是在其环境20中的致动器10的一个实施例。致动器10与控制系统40交互。致动器10及其环境20将被统称为致动器系统。在优选均匀间隔的距离处,传感器30感测致动器系统的状况。传感器30可以包括几个传感器。对所感测的状况进行编码的传感器30的输出信号s(或者,在传感器30包括多个传感器的情况下,每个传感器的输出信号s)被传输到控制系统40。可能的传感器包括但不限于:陀螺仪、加速度计、力传感器、相机、雷达、lidar、角度编码器等。注意,传感器通常不直接测量系统的状态,而是观察状态的结果,例如,相机检测图像而不是直接检测汽车与其他交通参与方的相对位置。然而,可能的是从如图像或lidar测量之类的高维观察中过滤状态。
53.由此,控制系统40接收传感器信号s的流。然后,它取决于传感器信号s的流计算一系列致动器控制命令a,该一系列致动器控制命令a然后被传输到致动器10。
54.控制系统40在可选的接收单元50中接收传感器30的传感器信号s的流。接收单元50将传感器信号s变换成状态s。替代地,在没有接收单元50的情况下,每个传感器信号s可以直接取作输入信号s。
55.输入信号s然后被传递到策略60,该策略60例如可以由人工神经网络给出。
56.策略60由参数参数化,该参数存储在参数存储装置st1中并由其提供。
57.策略60从输入信号s确定输出信号y。输出信号y可以是动作a。输出信号y被传输到可选的转换单元80,该可选的转换单元80将输出信号y转换成控制命令a。致动器控制命令a然后被传输到致动器10,用于相应地控制致动器10。替代地,输出信号y可以直接取作控制命令a。
58.致动器10接收致动器控制命令a,被相应地控制,并且实行对应于致动器控制命令a的动作。致动器10可以包括控制逻辑,该控制逻辑将致动器控制命令a变换成另外的控制命令,该另外的控制命令然后被用于控制致动器10。
59.在另外的实施例中,控制系统40可以包括传感器30。在甚至另外的实施例中,控制系统40替代地或附加地可以包括致动器10。
60.在一个实施例中,策略60可以被设计为用于控制物理系统的信号,所述物理系统例如是计算机控制的机器、机器人、载具、家用电器、电动工具、制造机器或访问控制系统。它通过学习用于控制物理系统的策略并且然后相应地操作物理系统来这样做。
61.在仍另外的实施例中,可以设想的是控制系统40控制显示器10a而不是致动器10。
62.此外,控制系统40可以包括处理器45(或多个处理器)和其上存储有指令的至少一个机器可读存储介质46,如果实行所述指令,则使得控制系统40实行根据本发明一个方面的方法。
63.图3示出了一实施例,其中控制系统40用于控制至少部分自主的机器人、例如至少部分自主的载具100。
64.传感器30可以包括一个或多个视频传感器和/或一个或多个雷达传感器和/或一个或多个超声波传感器和/或一个或多个lidar传感器和/或一个或多个位置传感器(如例如gps)。这些传感器中的一些或全部优选地但不是必须地集成在载具100中。
65.替代地或附加地,传感器30可以包括用于确定致动器系统状态的信息系统。这样的信息系统的一个示例是天气信息系统,其确定环境20中天气的目前或未来状态。
66.例如,使用输入信号s,策略60可以例如控制至少部分自主的机器人以实现预定义的目标状态。输出信号y控制至少部分自主的机器人。
67.优选地集成在载具100中的致动器10可以由载具100的制动器、推进系统、发动机、传动系或转向装置来给出。优选地,可以确定致动器控制命令a,使得致动器(或多个致动器)10被控制,使得载具100避免与至少部分自主机器人的环境中的对象碰撞。
68.优选地,至少部分自主的机器人是自主汽车。汽车状态的可能描述可以包括它的位置、速度、与其他交通参与方的相对距离、路面的摩擦系数(可以因例如雨、雪、干燥等不同的环境而变化)。可以测量该状态的传感器包括陀螺仪、车轮处的角度编码器、相机/lidar/雷达等。这种类型的学习的回报信号将表征汽车对预先计算的轨迹(也称为参考轨迹)多么好地遵循。参考轨迹可以由最佳规划器来确定。该系统的动作可以是转向角、制动和/或油门。优选地,制动压力或转向角由策略输出,所述策略特别是使得实现最小的制动距离或实行回避操纵,如(次)最优规划器将这样做。
69.注意,对于该实施例,可以学习策略以用于控制至少部分自主的机器人的动力学和/或稳定性。例如,如果机器人处于安全危急情形,则策略可以例如通过实行紧急制动来控制机器人操纵它脱离所述危急情形。然后,该策略可以输出表征负加速度的值,其中取决于所述值来控制参与者,例如用与负加速度相关的力来中断。
70.在另外的实施例中,至少部分自主的机器人可以由另一个移动机器人(未示出)给出,该另一个移动机器人(未示出)可以例如通过飞行、游泳、潜水或行走来移动。移动机器人尤其可以是至少部分自主的割草机,或者至少部分自主的清洁机器人。
71.在另外的实施例中,至少部分自主的机器人可以由园艺机器人(未示出)给出,该园艺机器人(未示出)使用传感器30、优选地是光学传感器来确定环境20中的植物的状态。致动器10可以是用于喷洒化学物质的喷嘴。可以确定致动器控制命令a,以使得致动器10向植物喷洒合适量的合适化学物质。
72.在甚至另外的实施例中,至少部分自主的机器人可以由家用电器(未示出)给出,该家用电器(未示出)如例如是洗衣机、炉子、烤箱、微波炉或洗碗机。传感器30(例如光学传感器)可以检测将由家居电器进行处理的对象的状态。例如,在家用电器是洗衣机的情况下,传感器30可以检测洗衣机内部衣物的状态。然后可以取决于检测到的衣物材料来确定致动器控制信号a。
73.图4中示出的是一实施例,其中控制系统40用于控制例如作为生产线的一部分的制造系统200的制造机器11(例如冲压切割机、切割机或枪钻)。控制系统40控制致动器10,该致动器10进而控制制造机器11。
74.传感器30可以由光学传感器给出,该光学传感器捕获例如制造产品12的属性。策略60可以取决于制造产品12的状态来确定操控产品12的动作。控制制造机器11的致动器10然后可以取决于所确定的制造产品12的状态被控制,用于制造产品12的后续制造步骤。或者,可以设想的是,取决于所确定的制造产品12的状态,在后续制造产品12的制造期间控制致动器10。
75.用于制造的优选实施例涉及通过机器人自主(拆卸)组装某些对象。状态可以取决
于传感器来确定。优选地,为了组装对象,状态表征机器人操控器本身和应当被操控的对象。对于机器人操控器,状态可以由其关节角和角速度以及其末端执行器的位置和取向组成。该信息可以通过关节中的角度编码器以及测量机器人关节角速率的陀螺仪来测量。从运动学方程中,可能的是推导出末端执行器位置和取向。取而代之,也可能的是利用相机图像或lidar扫描来推断与机器人操控器的相对位置和取向。机器人任务的回报信号可以例如拆分成组装过程的不同阶段。例如,当在组装期间将销插入孔中时,合适的回报信号将编码销相对于孔的位置和取向。典型地,机器人系统经由每个关节处的电动机来致动。因此,取决于实现,学习算法的动作可以是所需的扭矩或者是直接施加到电机的电压/电流。
76.图5中示出的是一实施例,其中控制系统40用于控制自动化个人助理250。传感器30可以是例如用于接收用户249的手势的视频图像的光学传感器。替代地,传感器30也可以是例如用于接收用户249的语音命令的音频传感器。
77.控制系统40然后确定用于控制自动化个人助理250的致动器控制命令a。根据传感器30的传感器信号s确定致动器控制命令a。传感器信号s被传输到控制系统40。例如,策略60可以被配置为例如取决于表征手势识别的状态来确定动作,该手势识别可以由算法来确定以标识用户249做出的手势。控制系统40然后可以确定致动器控制命令a,用于传输到自动化个人助理250。然后,它将所述致动器控制命令a传输到自动化个人助理250。
78.例如,可以根据由分类器60识别的所标识用户手势来确定致动器控制命令a。然后,它可以包括使得自动化个人助理250从数据库检索信息并以适合于用户249接收的形式输出该检索到的信息的信息。
79.在另外的实施例中,可以设想的是,代替自动化个人助理250,控制系统40控制根据所标识的用户手势控制的家用电器(未示出)。家用电器可以是洗衣机、炉子、烤箱、微波炉或洗碗机。
80.图6中示出的是一实施例,其中控制系统控制访问控制系统300。访问控制系统可以被设计成物理地控制访问。例如,它可以包括门401。传感器30被配置为检测与决定是否准许访问相关的场景。例如,它可以是用于提供图像或视频数据、用于检测人脸的光学传感器。
81.图7中示出的是一实施例,其中控制系统40控制监督系统400。该实施例在很大程度上与图5中所示的实施例等同。因此,将仅详细描述不同的方面。传感器30被配置为检测被监督的场景。控制系统不一定控制致动器10,而是控制显示器10a。例如,机器学习系统60可以确定场景的分类,例如光学传感器30检测到的场景是否可疑。被传输到显示器10a的致动器控制信号a然后可以例如被配置为使得显示器10a取决于所确定的分类来调整所显示的内容,例如突出显示被机器学习系统60认为可疑的对象。
82.图8中示出的是用于控制成像系统500的控制系统40的实施例,成像系统500例如是mri装置、x射线成像装置或超声成像装置。传感器30例如可以是成像传感器。策略60然后可以基于其输入状态确定表征轨迹的动作,以取得成像系统500的记录。
83.术语“计算机”涵盖用于处理预定义计算指令的任何设备。这些计算指令可以以软件的形式,或者以硬件的形式,或者还以软件和硬件的混合形式。
84.进一步理解,过程不仅可以完全以如描述的软件来实现。它们也可以以硬件或者以软件和硬件的混合形式来实现。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1