基于模型的权值组合规划值扩展的方法

文档序号：30623385发布日期：2022-07-02 05:27阅读：130来源：国知局

1.本发明涉及智能体与模拟环境的交互技术领域，特别涉及一种基于模型的权值组合规划值扩展的方法。

背景技术：

2.前强化学习算法难以落地的一个重要问题在于样本效率过低，样本效率指的是智能体在一个任务上达到指定学习效果所需样本的大小，所需样本越多则样本效率越低，反之所需样本越少则，样本效率越高。当前，样本效率低下是阻碍强化学习在实际场景应用的一大障碍。样本效率的低下使得训练所需要的样本数量增加，但是与监督学习等范式不同，强化学习的数据源于智能体与环境的交互。所以所需样本的增加，使得智能体与环境交互的次数增加，当前强化学习在游戏、推荐系统的领域大放异彩的原因在于，这类任务的采样代价很低，游戏可以通过采集玩家对战数据，或使用智能体在游戏中反复试错收集经验数据。而推荐系统领域，每天有大量用户在为智能体提供交互数据，在这些采样代价较低的领域，强化学习样本效率低的问题被掩盖了。但是在许多实际场景中，如机器人控制、自动驾驶、智能城市等采样代价高的领域，无法接受智能体通过上万次的交互试错来收集数据，所以强化学习在上述领域并没有取得较好的成果。当前为了提高算法样本效率，主要有以下几种方法：1.基于价值函数类的算法中，会使用经验回放的方法提高样本效率。即将采集到的数据存入缓存，在训练过程中按照均匀采样或优先级采样的方式，抽取样本数据进行学习。这种方法可以重复利用之前采集的数据，从而降低采样成本，典型的利用就是dqn、ape-x等算法。但是缺陷在于，基于值函数的方法在连续动作空间任务上会出现维度灾难问题，并且收敛性较差。2.基于策略梯度类算法中，会使用off-policy方法提高样本效率。即利用行动策略加大探索力度，收集多样性样本，通过重要性采样的方法将行动策略采样得到的数据在目标策略中进行学习。典型的算法就是ddpg、td3、impala等方法。但是缺陷在于算法方差较大，学习过程波动性大，容易收敛到局部最优策略。3.基于模型（model-based）的强化学习算法，除了会利用智能体采样得到的数据进行策略训练，同时还会利用其对模型的状态概率转移函数进行学习。得到了较为准确的状态转移函数之后，便可以通过规划的方法自己产生大量数据进行学习，或利用学到的状态转移概率函数得到对于价值函数更准确的估计，以此达到用小样本实现高效学习的效果。当前model-based方法最大的挑战就是模型误差，数据量很少的情况下，学到的到的模型不准确，而使用不准确的模型预测就会产生更大的误差。

技术实现要素：

3.根据本发明实施例，提供了一种基于模型的权值组合规划值扩展的方法，包含如下步骤：创建并行的执行单元，创建策略网络，并行的执行单元使用策略网络的当前策略
与模拟环境交互，采集一整幕经验数据；将一整幕经验数据存入策略网络的缓存组件中；策略网络从缓存组件中取出定量的经验数据；使用目标网络对定量的经验数据进行评估，得到奖励值；使用预测网络对预设个数的规划值进行预测，得到规划值的均值和方差；根据规划值的均值和方差，通过逆方差权重法得到经验数据在加权后的预设步数规划值；对经验数据的状态价值函数进行评估，得到总的预设步数后的状态价值函数；利用v-trace方法对总的预设步数后的状态价值函数通过重要性采样的方式进行改写，得到可供策略网络学习的近似值状态价值函数；对预设步数规划值和近似值状态价值函数求和得到最终价值函数；待策略网络对定量的经验数据都进行评估后，通过策略梯度的方法更新策略网络的当前策略，获得新策略；待并行的执行单元与模拟环境进行新一轮交互时，无需等待策略网络进行策略更新，直接同步新策略即可。进一步，一整幕数据包含：若干个五元组数据。进一步，五元组数据包含：动作初始观测到的状态、依照策略做出的动作、外部奖励值、环境转移到的下一个状态以及是否触发终止条件导致任务终止进一步，使用目标网络对定量的经验数据的每个动作初始观测到的状态下的内部奖励进行评估，得到奖励值。进一步，通过逆方差权重法得到经验数据在加权后的预设步数规划值的计算公式为：其中，代表最终得到的加权后的预设步数规划值，h代表规划扩展的步数，代表，得到的规划值的方差的倒数，代表将对h取从0至h的值后，规划值的方差的倒数之和，h取i时，规划值的均值。进一步，利用奖励值对经验数据的状态价值函数进行评估，得到预设步数后的状态价值函数。进一步，待策略网络对定量的经验数据都进行评估后，利用目标网络与预测网络的预测均方误差作为损失函数，优化预测网络的参数。进一步，待策略网络对定量的经验数据都进行评估后，利用最终价值函数与奖励值计算的时序差分结果之差作为损失函数，更新价值评估网络，以及规划模型用的奖励值估计网络、状态转移预测网络。根据本发明实施例的基于模型的权值组合规划值扩展的方法，相比传统的基于模型的方法，我们的方法结合了impala架构，引入内部奖励值，同时对展开值h进行权值组合。
不仅提高了算法的样本效率，同时大幅提高了方法收集数据的效率，提升了学习速度。并且内在奖励的引入可以成功引导智能体对环境进行高效探索，避免了由于探索效能不够，导致价值函数估计不准确，进而收敛到局部最优策略的问题。且本方法相比其他基于模型的算法，有着更高的单位时隙吞吐率、更好的性能、更快的学习速度以及更高的鲁棒性。要理解的是，前面的一般描述和下面的详细描述两者都是示例性的，并且意图在于提供要求保护的技术的进一步说明。
附图说明
4.图1为根据本发明实施例基于模型的权值组合规划值扩展的方法的流程图。图2为根据本发明实施例基于模型的权值组合规划值扩展的方法的架构原理图。图3为根据本发明实施例基于模型的权值组合规划值扩展的方法的性能对比图。图4为根据本发明实施例基于模型的权值组合规划值扩展的方法的鲁棒性对比图。
具体实施方式
5.以下将结合附图，详细描述本发明的优选实施例，对本发明做进一步阐述。首先，将结合图1~4描述根据本发明实施例的基于模型的权值组合规划值扩展的方法，用于智能体与模拟环境的交互实现数据的收集使用，其应用场景很广。如图1~4所示，本发明实施例的基于模型的权值组合规划值扩展的方法，包含如下步骤：在s1中，如图1所示，创建并行的执行单元（worker），创建策略网络（learner），并行的执行单元使用策略网络的当前策略与模拟环境交互，采集一整幕经验数据。在本实施例中，一整幕数据包含：若干个五元组数据（st，at，，st+1，done），五元组数据包含：动作初始观测到的状态st、依照策略做出的动作at、外部奖励值、环境转移到的下一个状态st+1以及是否触发终止条件导致任务终止done，其中t代表个数。在s2中，如图1所示，将一整幕经验数据存入策略网络的缓存组件中。在s3中，如图1所示，策略网络从缓存组件中取出定量的经验数据。在s4中，如图1所示，使用目标网络对定量的经验数据的每个动作初始观测到的状态st下的内部奖励进行评估，得到奖励值。在s5中，如图1所示，使用预测网络对预设个数的规划值进行预测，得到规划值的均值和方差。在本实施例中，针对每个状态st，综合考量h+1个不同预测步长的mve形式的td目标值，来计算得到一个合适的td目标值。设置h+1个候选的td目标：，，
……
，，即考量从0步规划到h步规划的h+1种不同td目标值。针对每个候选的td目标的，其在规划中有三个重要参数，分别为q函数预测参数，奖励函数预测参数，状态转换
函数预测参数，它们共同作用组成一个h=i步的td目标，为了增强算法的鲁棒性，设置一个候选的td目标中有l个预测参数，n个奖励函数预测参数，m个状态转移预测参数。可知每个候选目标会有m
×n×
l个不同计算结果，对这些结果求均值和方差，得到候选目标的均值和方差。在s6中，如图1所示，根据规划值的均值和方差，通过逆方差权重法得到经验数据在加权后的预设步数规划值t。在本实施例中，通过逆方差权重法得到经验数据在加权后的预设步数规划值的计算公式为：其中，代表最终得到的加权后的预设步数规划值，h代表规划扩展的步数，代表，得到的规划值的方差的倒数，代表将对h取从0至h的值后，规划值的方差的倒数之和，h取i时，规划值的均值。在s7中，如图1所示，利用奖励值对经验数据的状态价值函数进行评估，得到总的预设步数后的状态价值函数。在本实施例中，总的预设步数后的状态价值函数分别为内部状态价值函数和外部状态价值函数，总的预设步数后的状态价值函数为内部状态价值函数与外部状态价值函数求和。在s8中，如图1所示，利用v-trace方法对总的预设步数后的状态价值函数通过重要性采样的方式进行改写，得到可供策略网络学习的近似值状态价值函数。在s9中，如图1所示，对预设步数规划值t和近似值状态价值函数求和得到最终价值函数。
在s10中，如图1所示，待策略网络对定量的经验数据都进行评估后，通过策略梯度的方法更新策略网络的当前策略，获得新策略。在本实施例中，利用策略梯度的方法计算新策略的公式为：其中，π为新策略，πw为当前策略，为时隙t中，行动策略（当前策略）与目标策略（新策略）的重要性采样系数。为时隙t中的状态，为时隙t中智能体的动作，为时隙t中智能体的奖励值，为折扣系数，为状态的状态价值函数，为预测的状态的状态价值函数。进一步，待策略网络对定量的经验数据都进行评估后，利用目标网络与预测网络的预测均方误差作为损失函数，优化预测网络的参数。进一步，待策略网络对定量的经验数据都进行评估后，利用最终价值函数与奖励值计算的时序差分结果之差作为损失函数，更新价值评估网络，以及规划模型用的奖励值估计网络、状态转移预测网络。在s11中，如图1所示，待并行的执行单元与模拟环境进行新一轮交互时，无需等待策略网络进行策略更新，直接同步新策略即可。以上，参照图1~4描述了根据本发明实施例的基于模型的权值组合规划值扩展的方法，相比传统的基于模型的方法，我们的方法结合了impala架构，引入内部奖励值，同时对展开值h进行权值组合。不仅提高了算法的样本效率，同时大幅提高了方法收集数据的效率，提升了学习速度。并且内在奖励的引入可以成功引导智能体对环境进行高效探索，避免了由于探索效能不够，导致价值函数估计不准确，进而收敛到局部最优策略的问题。且本方法相比其他基于模型的算法，有着更高的单位时隙吞吐率、更好的性能、更快的学习速度以及更高的鲁棒性。需要说明的是，在本说明书中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包含
……”
限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨思明曹江高原郭洋王平王景王晓楠
技术所有人：中国人民解放军军事科学院战争研究院
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。