基于适应度预测的强化学习模型训练方法及其系统

文档序号:32416434发布日期:2022-12-02 22:17阅读:56来源:国知局
基于适应度预测的强化学习模型训练方法及其系统

1.本发明涉及人工智能技术领域,尤其是涉及一种基于适应度预测的强化学习模型训练方法及其系统。


背景技术:

2.强化学习(reinforcement learning,rl)是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中进行迭代式训练、学习到模型的最优参数,从而获得求解问题的最佳控制策略,进而通过最佳控制策略以达成回报最大化或实现特定目标的问题,强化学习任务可以表示为马尔科夫决策过程(markov decision process,mdp)。
3.相关技术中,强化学习训练过程关于输入参数的适应度评估环节往往需要耗费较大的算力资源以及时长,以至于强化学习训练过程中的成本较高。因此,如何在强化学习训练过程中,减少了强化学习模型进行适应度评估所耗费的算力资源以及时长,成为业内亟待解决的问题。


技术实现要素:

4.本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种基于适应度预测的强化学习模型训练方法及其系统,能够在强化学习训练过程中,减少了强化学习模型进行适应度评估所耗费的算力资源以及时长。
5.根据本发明的第一方面实施例的基于适应度预测的强化学习模型训练方法,所述强化学习模型包括适应度预测网络、策略网络,所述方法包括:
6.获取输入参数,并根据所述输入参数计算得到真实适应度原始值;
7.对所述输入参数进行降维处理,并基于所述适应度预测网络对降维处理后的所述输入参数进行适应度预测,得到预测适应度值;
8.根据所述预测适应度值与所述真实适应度原始值,从所述输入参数中筛选得到目标参数;
9.通过所述强化学习模型的策略网络对所述目标参数进行处理,得到策略执行动作,所述策略执行动作用于改变目标环境的状态;
10.对状态改变后的所述目标环境进行检测,获取环境参数;
11.基于所述环境参数对所述强化学习模型进行优化训练,得到训练好的强化学习模型。
12.根据本发明的一些实施例,所述对所述输入参数进行降维处理,包括:
13.根据获取到的所述输入参数,形成候选解矩阵;
14.构建矩阵维数低于所述候选解矩阵的有效解矩阵,并将所述候选解矩阵中的各个候选解随机嵌入所述有效解矩阵。
15.根据本发明的一些实施例,所述根据获取到的所述输入参数,形成候选解矩阵,包
括:
16.当获取到λ个所述输入参数x1,x2,

,x
λ
,分别基于每一个所述输入参数xi的高斯分布进行候选解采样,形成候选解矩阵,其中i=1,2,

,λ。
17.根据本发明的一些实施例,所述获取输入参数,并根据所述输入参数计算得到真实适应度原始值,包括:
18.在预设取值区间内进行输入值采样,获取所述输入参数;
19.基于所述输入参数进行适应度计算,得到所述真实适应度原始值。
20.根据本发明的一些实施例,所述基于所述适应度预测网络对降维处理后的所述输入参数进行适应度预测,得到预测适应度值之前,还包括:
21.将所述输入参数确定为预测训练数据集,并将所述真实适应度原始值确定为所述训练数据集对应的预测训练标签;
22.根据所述预测训练数据集与所述预测训练标签,对基础预测网络进行预测能力训练,得到所述适应度预测网络。
23.根据本发明的一些实施例,所述输入参数包括原始父代参数与原始子代参数,所述根据所述预测适应度值与所述真实适应度原始值,从所述输入参数中筛选得到目标参数,包括:
24.以所述预测适应度值为基准,从所述原始子代参数中筛选得到目标子代参数,所述原始子代参数基于交叉变异遗传算法对所述原始父代参数进行处理而得到;
25.根据所述目标子代参数计算得到真实适应度目标值;
26.基于所述原始父代参数与所述目标子代参数,形成备选参数集;
27.根据所述真实适应度原始值与所述真实适应度目标值,对所述备选参数集进行适应度评估,得到所述目标参数。
28.根据本发明的一些实施例,所述根据所述真实适应度原始值与所述真实适应度目标值,对所述备选参数集进行适应度评估,得到所述目标参数,包括:
29.将所述真实适应度原始值与所述真实适应度目标值进行比对;
30.当所述真实适应度原始值大于所述真实适应度目标值,在所述备选参数集中将所述原始父代参数确定为所述目标参数;
31.当所述真实适应度原始值小于所述真实适应度目标值,在所述备选参数集中将所述目标子代参数确定为所述目标参数;
32.当所述真实适应度原始值等于所述真实适应度目标值,将所述原始父代参数或者所述目标子代参数确定为所述目标参数。
33.根据本发明的一些实施例,所述基于所述环境参数对所述强化学习模型进行优化训练,得到训练好的强化学习模型,包括:
34.基于所述环境参数对所述强化学习模型进行迭代训练;
35.当所述迭代训练的次数达到预设次数阈值,得到训练好的所述强化学习模型。
36.根据本发明的一些实施例,所述基于所述环境参数对所述强化学习模型进行迭代训练,包括:
37.基于所述环境参数,通过所述策略网络对所述真实适应度原始值进行更新;
38.将所述目标参数替换为新一轮输入参数;
39.通过所述适应度预测网络对所述新一轮输入参数进行适应度预测,更新所述预测适应度值;
40.基于更新后的所述预测适应度值与更新后的所述真实适应度原始值,从所述新一轮输入参数中筛选得到新一轮目标参数;
41.通过所述策略网络对所述新一轮目标参数进行处理,获取新一轮策略执行动作;
42.当所述新一轮策略执行动作改变所述环境状态后,对所述目标环境进行检测,更新所述环境参数;
43.基于更新后的所述环境参数,对所述强化学习模型进行新一轮所述迭代训练。
44.根据本发明的第二方面实施例的基于适应度预测的强化学习模型训练系统,包括:
45.数据获取模块,用于获取输入参数,并根据所述输入参数计算得到真实适应度原始值;
46.适应度预测网络,用于对所述输入参数进行降维处理,并对降维处理后的所述输入参数进行适应度预测,得到预测适应度值;
47.数据处理模块,根据所述预测适应度值与所述真实适应度原始值,从所述输入参数中筛选得到目标参数;
48.策略网络,用于对所述目标参数进行处理,得到策略执行动作,所述策略执行动作用于改变目标环境的状态,以及,对状态改变后的所述目标环境进行检测,获取环境参数;
49.优化训练模块,基于所述环境参数对所述强化学习模型进行优化训练,得到训练好的强化学习模型。
50.根据本发明实施例的基于适应度预测的强化学习模型训练方法及其系统,至少具有如下有益效果:
51.本发明基于适应度预测的强化学习模型训练方法中,需要先获取输入参数,并根据输入参数计算得到真实适应度原始值,再对输入参数进行降维处理,并基于适应度预测网络对降维处理后的输入参数进行适应度预测,得到预测适应度值,进一步,根据预测适应度值与真实适应度原始值,从输入参数中筛选得到目标参数,再进一步,通过强化学习模型的策略网络对目标参数进行处理,得到策略执行动作,策略执行动作用于改变目标环境的状态,从而对状态改变后的目标环境进行检测,获取环境参数,最终基于环境参数对强化学习模型进行优化训练,得到训练好的强化学习模型。本发明通过适应度预测网络对输入参数进行适应度预测,得到预测适应度值,而预测适应度值能够在适应度评估之前预先过滤掉明显不适应目标环境的输入参数,从而减少无效评估次数,提升系统资源利用率,进而在强化学习训练过程中,减少了强化学习模型进行适应度评估所耗费的算力资源以及时长。
52.本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
53.本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
54.图1为本发明实施例提供的基于适应度预测的强化学习模型训练方法流程示意
图;
55.图2为本发明实施例提供的基于适应度预测的强化学习模型训练方法另一流程示意图;
56.图3为本发明实施例提供的基于适应度预测的强化学习模型训练方法另一流程示意图;
57.图4为本发明实施例提供的基于适应度预测的强化学习模型训练方法另一流程示意图;
58.图5为本发明实施例提供的基于适应度预测的强化学习模型训练方法另一流程示意图;
59.图6为本发明实施例提供的基于适应度预测的强化学习模型训练方法另一流程示意图;
60.图7为本发明实施例提供的基于适应度预测的强化学习模型训练方法另一流程示意图;
61.图8为本发明实施例提供的强化学习模型训练系统的模块示意图。
具体实施方式
62.下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
63.在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
64.在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、左、右、前、后等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
65.在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
66.本发明的描述中,需要说明的是,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。另外,下文中对于具体步骤的标识并不代表对于步骤顺序与执行逻辑的限定,各个步骤之间的执行顺序与执行逻辑应参照实施例所表述的内容进行理解与推定。
67.下面针对本发明中用到的一些技术名词作出基本解释:
68.有监督训练,又称监督学习,是一个机器学习中的方法,可以由训练资料中学到或
建立一个模式(例如函数或者learning model),并依此模式推测新的实例。训练资料是由输入物件(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。一个监督式学习者的任务在观察完一些训练范例(输入和预期输出)后,去预测这个函数对任何可能出现的输入的值的输出。要达到此目的,学习者必须以"合理"(见归纳偏向)的方式从现有的资料中一般化到非观察到的情况。在人类和动物感知中,则通常被称为概念学习(concept learning)。
69.代理模型。在大多数工程设计问题,常常需要通过模拟实验来评估采用不同设计参数时的目标函数和约束函数。因此,类似设计优化、设计空间搜索、灵敏性分析和假设分析这些需要数千、甚至数百万次模拟的任务,直接对原模型求解将是难以完成的。因此为了改善这种情况,业内存在一种方法,即使用近似模型(被称为代理模型,响应曲面模型,元模型或模拟器)来模拟高精度模拟模型。代理模型的计算结果与原模型非常接近,但是求解计算量较小。代理模型采用一个数据驱动的、自下而上的办法来建立。一般假定原模拟过程的内部精确处理过程未知(有时也可能已知),但是该模型的输入与输出行为则非常重要。通过在仔细选择的有限个点(输入)计算原模型的响应(输出),从而建立代理模型。这一过程也被称为行为建模或者黑箱模型,但是这两个名字会造成歧义。如果只涉及唯一的变量,这一过程也被称为曲线拟合。虽然使用代理模型来代替实验和模拟在工程设计中非常常见,代理模型也可被用于许多其他实验或求解计算量较大的科学领域。代理模型常用到的理论基础,可以包括,但不限于多项式响应曲面法、克里金法、梯度增强克里金法、支持向量机、空间映射以及人工神经网络。对于某些特定的问题,若其具体的目标函数并没有先验知识,往往无法知道哪种代理模型最准确,而在能够获取到先验知识的基础上,则可以基于上述几类理论基础来得到适用于接近特定问题的代理模型(例如通过对人工神经网络的训练,使其适用于解决特定问题)。
70.遗传算法(genetic algorithm,ga)是基于大自然中生物体进化规律而设计提出的。具体而言,遗传算法是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,同时也是是一种通过模拟自然进化过程搜索最优解的方法。该算法通过数学的方式,利用计算机仿真运算,将问题的求解过程转换成类似生物进化中的染色体基因的交叉、变异等过程。在求解较为复杂的组合优化问题时,相对一些常规的优化算法,通常能够较快地获得较好的优化结果。遗传算法已被人们广泛地应用于组合优化、机器学习、信号处理、自适应控制和人工生命等领域。
71.适应度函数。进化论中的适应度,是表示某一个体对环境的适应能力,也表示该个体繁殖后代的能力。遗传算法的适应度函数也叫评估函数,是用来判断群体中的个体的优劣程度的指标,它是根据所求问题的目标函数来进行评估的。遗传算法在搜索进化过程中一般不需要其他外部信息,仅用评估函数来评估个体或解的优劣,并作为以后遗传操作的依据。由于遗传算法中,适应度函数要比较排序并在此基础上计算选择概率,所以适应度函数的值(即适应度值)要取正值。由此可见,在不少场合,将目标函数映射成求最大值形式且函数值非负的适应度函数是必要的。在具体应用中,适应度函数的设计要结合求解问题本身的要求而定。适应度函数设计直接影响到遗传算法的性能,遗传算法中以个体适应度的大小来评定各个个体的优劣程度,从而决定其遗传机会的大小。
72.强化学习(reinforcement learning,rl),又称再励学习、评价学习或增强学习,
是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中进行迭代式训练、学习到模型的最优参数,从而获得求解问题的最佳控制策略,进而通过最佳控制策略以达成回报最大化或实现特定目标的问题。强化学习是解决顺序决策问题的一类重要的机器学习技术,经过几十年的发展已经成功应用于自动控制、机器人、推荐和检索等诸多领域。强化学习主要由智能体(agent)、环境(environment)、状态(state)、动作(action)、奖励(reward)组成,并且强化学习中,将一个最终状态为结束标志的智能体与环境的交互序列我们称之为一个回合(episode),比如一场比赛、一局棋、一次迷宫挑战等等。智能体和环境通过状态、动作、奖励进行交互的方式为:当智能体执行了某个动作,环境将会转换到一个新的状态,对于该新的状态环境会给出奖励信号(正奖励或者负奖励),智能体随即根据新的状态和环境反馈的奖励,按照一定的策略执行新的动作。智能体通过强化学习,可以知道自己在什么状态下,应该采取什么样的动作使得自身获得最大奖励。由于智能体与环境的交互方式与人类与环境的交互方式类似,可以认为强化学习是一套通用的学习框架,可用来解决通用人工智能的问题。因此强化学习也被称为通用人工智能的机器学习方法。
73.强化学习任务可以表示为马尔科夫决策过程(markov decision process,mdp)。强化学习的相关技术中,训练过程关于输入参数的适应度评估环节需要耗费较大的算力资源以及时长,以至于强化学习训练过程中的成本较高。因此,如何在强化学习训练过程中,减少了强化学习模型进行适应度评估所耗费的算力资源以及时长,成为业内亟待解决的问题。
74.本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种基于适应度预测的强化学习模型训练方法及其系统,能够在强化学习训练过程中,减少了强化学习模型进行适应度评估所耗费的算力资源以及时长。
75.下面以附图为依据作出进一步说明。
76.参照图1,根据本发明的第一方面实施例的基于适应度预测的强化学习模型训练方法,强化学习模型包括适应度预测网络、策略网络,基于适应度预测的强化学习模型训练方法包括:
77.步骤s101,获取输入参数,并根据输入参数计算得到真实适应度原始值;
78.根据本发明提供的一些实施例,输入参数指的是初始获取的控制参数,而真实适应度原始值是基于输入参数,通过适应度函数直接计算得到的适应度值。需要说明的是,输入参数作为本发明基于适应度预测的强化学习模型训练方法中初始获取的控制参数,获取输入参数的方式可以包括,但不限于通过在预先设置的预设取值区间内进行输入值采样,从而获取到输入参数,其中预设取值区间可以是基于实际在应用场合下的需求灵活调整。本发明一些较为具体的实施例中,可以从[-1,1]这一预设取值区间中均匀地进行输入值采样,随即生成λ个输入参数xi,其中i=1,2,

,λ。应理解,本发明另一些实施例中,也可以通过输入设备(例如键鼠、触摸屏)来获取输入参数,或者,通过扫描目标环境中当前的环境参数来获取输入参数。需要明确,获取输入参数的方式多种多样,可以包括,但不限于上述举出的具体实施例。
[0079]
步骤s102,对输入参数进行降维处理,并基于适应度预测网络对降维处理后的输入参数进行适应度预测,得到预测适应度值;
[0080]
根据本发明提供的一些实施例,对输入参数进行降维处理,可以具体包括:先根据获取到的输入参数,形成候选解矩阵,再构建矩阵维数低于候选解矩阵的有效解矩阵,并将候选解矩阵中的各个候选解随机嵌入有效解矩阵。需要说明的是,当获取到λ个输入参数x1,x2,

,x
λ
,分别基于每一个输入参数xi的高斯分布进行候选解采样,形成候选解矩阵,其中i=1,2,

,λ。需要明确,强化学习模型通常涉及到数百万维度的数据处理,因此为了提升强化学习模型数据处理的可行性,本发明一些实施例中,引入了随机嵌入的降维方法,将高维参数空间中的候选解矩阵转化为较低维参数空间中的有效解矩阵,以便于适应度预测网络对降维处理后的输入参数进行适应度预测,得到预测适应度值。应理解,对输入参数进行降维处理的方式多种多样,可以包括,但不限于上述举出的具体实施例。
[0081]
根据本发明提供的一些实施例,适应度预测网络指的是用于针对输入参数进行适应度预测的人工神经网络,一些示例性的实施例中,适应度预测网络可以是一种用于适应度预测的代理模型。预测适应度值则是适应度预测网络针对输入参数进行适应度预测后所对应得到的适应度值。需要说明的是,为了使得适应度预测网络能够用于对输入参数进行适应度预测,本发明一些实施例中在适应度预测之前需要对适应度预测网络进行预测能力训练,例如:先从输入参数中划分出一部分参数作为预训练参数,并基于预训练参数进行适应度计算,得到与预训练参数对应的真实适应度原始值,进一步,将预训练参数确定为预测训练数据集,并将真实适应度原始值确定为训练数据集对应的预测训练标签,再进一步根据预测训练数据集与预测训练标签,对基础预测网络进行预测能力训练,得到适应度预测网络,其中基础预测网络指的是可用于监督学习的人工神经网络,需要明确,对适应度预测网络进行预测能力训练的过程中,由于真实适应度原始值是基于输入参数直接计算得到的适应度值,因此真实适应度值能够作为预测训练标签来测试基础预测网络的适应度预测能力,并作为参照基准来矫正基础预测网络的训练方向,从而以监督学习的方式逐步提升基础预测网络的适应度预测能力,最终当基础预测网络的适应度预测能力达标条件,则将达标的基础预测网络确定为适应度预测网络。需要强调的是,适应度预测网络指的用于针对输入参数进行适应度预测,因此对适应度预测网络进行预测能力训练的方式多种多样,可以包括,但不限于上述举出的具体实施例。
[0082]
步骤s103,根据预测适应度值与真实适应度原始值,从输入参数中筛选得到目标参数;
[0083]
根据本发明提供的一些实施例,由于预测适应度值是适应度预测网络针对输入参数进行适应度预测后所对应得到的适应度值,因此,以预测适应度值为基准,能够在形成目标参数之前,预先过滤掉明显不适应目标环境的输入参数,其中目标参数指的是策略网络中用以产生策略执行动作的参数。需要说明,通过适应度函数对过滤后的输入参数进行计算所对应得到的适应度值,即为真实适应度目标值。应理解,真实适应度目标值对应于过滤后的输入参数,而真实适应度原始值对应于过滤前的输入参数。因此,将真实适应度原始值与真实适应度目标值进一步比对,即可从过滤前的输入参数以及过滤后的输入参数中,筛选得到更加优质的参数作为目标参数,用以产生策略执行动作。本发明一些示例性的实施例中,通过适应度预测网络对输入参数进行适应度预测,得到预测适应度值,而预测适应度值能够在适应度评估之前预先过滤掉明显不适应目标环境的输入参数,从而减少无效评估次数,提升系统资源利用率,进而在强化学习训练过程中,减少了强化学习模型进行适应度
评估所耗费的算力资源以及时长。
[0084]
步骤s104,通过强化学习模型的策略网络对目标参数进行处理,得到策略执行动作,策略执行动作用于改变目标环境的状态;
[0085]
步骤s105,对状态改变后的目标环境进行检测,获取环境参数;
[0086]
需要强调,强化学习主要由智能体(agent)、环境(environment)、状态(state)、动作(action)、奖励(reward)组成。智能体和环境通过状态、动作、奖励进行交互的方式为:当智能体执行了某个动作,环境将会转换到一个新的状态,对于该新的状态环境会给出奖励信号(正奖励或者负奖励),智能体随即根据新的状态和环境反馈的奖励,按照一定的策略执行新的动作。智能体通过强化学习,可以知道自己在什么状态下,应该采取什么样的动作使得自身获得最大奖励。由于智能体与环境的交互方式与人类与环境的交互方式类似,可以认为强化学习是一套通用的学习框架,可用来解决通用人工智能的问题。因此强化学习也被称为通用人工智能的机器学习方法。根据本发明提供的一些实施例,策略网络指的是本发明强化学习模型中作为智能体的人工神经网络。需要明确,强化学习是智能体以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,使得智能体获得最大的奖赏。以迷宫游戏为例,一开始智能体采取随机行走的策略,直到走到终点结束游戏,计算奖励,若将步数的多少作为奖励,其中步数越少则奖励越大,那么针对步数少的那局游戏采取策略而给予奖励,随着游戏进行的局数变多,智能体就会逐渐知道在当前局面采取什么策略会更靠近终点。需要明确,目标环境指的是作为本发明强化学习模型交互目标的环境,本发明强化学习模型通过策略执行动作与目标环境之间进行交互,改变目标环境的状态,从而进一步对状态改变后的目标环境进行检测,获取环境参数。需要指出,目标环境可以包括但不限于游戏环境、数控板环境、触控屏幕环境、预设的真实场景环境等多种类型的可交互环境,其中常见的游戏环境可以包括,但不限于体育游戏(例如bowling)、双人游戏(例如double dunk)、避障游戏(例如freeway和frostbite)等一系列类型的游戏环境。应理解,环境参数,由强化学习模型对状态改变后的目标环境进行检测而获取,环境参数反映的是目标环境基于对策略执行动作的响应,而产生的状态变化。本发明一些实施例中,环境参数指的是策略执行动作所产生的全局奖励。
[0087]
本发明一些示例性的实施例中,当目标环境处于a状态下,强化学习模型的策略网络在获取目标参数后,进一步通过对目标参数进行处理而形成一种策略(policy),再基于这种策略得到一个对应的策略执行动作,以使得目标环境从a状态转变为b状态,随即完成了一次策略网络与目标环境的交互,每一次策略网络与目标环境交互之后,经由对状态改变后的目标环境进行检测,即可获取到与策略执行动作对应的奖励,并将这部分奖励确定为环境参数。应理解,通过强化学习模型的策略网络对目标参数进行处理,得到策略执行动作并获取环境参数的方式多种多样,可以包括,但不限于上述举出的具体实施例。
[0088]
步骤s106,基于环境参数对强化学习模型进行优化训练,得到训练好的强化学习模型。
[0089]
根据本发明提供的一些实施例,通过强化学习模型的策略网络对目标参数进行处理,得到策略执行动作并获取环境参数之后,需要基于环境参数来进一步对强化学习模型进行优化训练,其原因在于,通过对强化学习模型的优化训练,可以逐渐优化强化学习模型中的模型参数,以至于将训练好的强化学习模型投入实际应用场景时,训练好的强化学习
模型能够针对所需求解的问题提出较佳的控制策略。本发明一些示例性的实施例中,基于环境参数对强化学习模型进行优化训练,可以先基于环境参数对强化学习模型进行迭代训练,当迭代训练的次数达到预设次数阈值,得到训练好的强化学习模型。
[0090]
本发明基于适应度预测的强化学习模型训练方法中,需要先获取输入参数,并根据输入参数计算得到真实适应度原始值,再对输入参数进行降维处理,并基于适应度预测网络对降维处理后的输入参数进行适应度预测,得到预测适应度值,进一步,根据预测适应度值与真实适应度原始值,从输入参数中筛选得到目标参数,再进一步,通过强化学习模型的策略网络对目标参数进行处理,得到策略执行动作,策略执行动作用于改变目标环境的状态,从而对状态改变后的目标环境进行检测,获取环境参数,最终基于环境参数对强化学习模型进行优化训练,得到训练好的强化学习模型。本发明通过适应度预测网络对输入参数进行适应度预测,得到预测适应度值,而预测适应度值能够在适应度评估之前预先过滤掉明显不适应目标环境的输入参数,从而减少无效评估次数,提升系统资源利用率,进而在强化学习训练过程中,减少了强化学习模型进行适应度评估所耗费的算力资源以及时长。
[0091]
参照图2,根据本发明的一些实施例,获取输入参数,并根据输入参数计算得到真实适应度原始值,包括:
[0092]
步骤s201,在预设取值区间内进行输入值采样,获取输入参数;
[0093]
步骤s202,基于输入参数进行适应度计算,得到真实适应度原始值。
[0094]
根据本发明提供的一些实施例,输入参数指的是初始获取的控制参数,而真实适应度原始值是基于输入参数,通过适应度函数直接计算得到的适应度值。需要说明的是,输入参数作为本发明基于适应度预测的强化学习模型训练方法中初始获取的控制参数,获取输入参数的方式可以包括,但不限于通过在预先设置的预设取值区间内进行输入值采样,从而获取到输入参数,其中预设取值区间可以是基于实际在应用场合下的需求灵活调整。本发明一些较为具体的实施例中,可以从[-1,1]这一预设取值区间中均匀地进行输入值采样,随即生成λ个输入参数xi,其中i=1,2,

,λ,λ为输入参数xi对应的种群数量。应理解,本发明另一些实施例中,也可以通过输入设备(例如键鼠、触摸屏)来获取输入参数,或者,通过扫描目标环境中当前的环境参数来获取输入参数。需要明确,获取输入参数的方式多种多样,可以包括,但不限于上述举出的具体实施例。
[0095]
需要说明的是在一些较为具体的实施例中,基于输入参数进行适应度计算,得到真实适应度原始值,指的是通过适应度函数直接对输入参数进行适应度计算而得到的适应度值,应理解,当从预设取值区间中进行输入值采样,随即生成了λ个输入参数xi,其中i=1,2,

,λ,那么适应度函数可以形式化表示为:
[0096][0097]
其中,c是输入参数xi的策略π在第t步时的单步奖励,t为回合长度(即一个回合中的互动次数),ω为参数空间。需要明确,适应度函数的表示方式多种多样,可以包括,但不限于上述举出的具体实施例。
[0098]
根据本发明提供的一些较为具体的实施例,在对输入参数进行降维处理,并基于适应度预测网络对降维处理后的输入参数进行适应度预测,得到预测适应度值之前,还需
要将输入参数xi进行降维处理,例如将x1,x2,

,x
λ
分别从原始解空间映射到较低维度的有效子空间,以便于在后续的环节中对输入参数进行处理,从而提升本发明基于适应度预测的强化学习模型训练方法的训练效率。
[0099]
参照图3,根据本发明的一些实施例,对输入参数进行降维处理,并基于适应度预测网络对降维处理后的输入参数进行适应度预测,得到预测适应度值之前,还包括:
[0100]
步骤s301,将输入参数确定为预测训练数据集,并将真实适应度原始值确定为训练数据集对应的预测训练标签;
[0101]
步骤s302,根据预测训练数据集与预测训练标签,对基础预测网络进行预测能力训练,得到适应度预测网络。
[0102]
需要说明的是,为了使得适应度预测网络能够用于对输入参数进行适应度预测,本发明一些实施例中,在对输入参数进行降维处理,并基于适应度预测网络对降维处理后的输入参数进行适应度预测,得到预测适应度值之前,需要对适应度预测网络进行预测能力训练,例如:将输入参数整体,或者从输入参数中划分出一部分参数作为预训练参数,并基于预训练参数进行适应度计算,得到与预训练参数对应的真实适应度原始值,进一步,将预训练参数确定为预测训练数据集,并将真实适应度原始值确定为训练数据集对应的预测训练标签,再进一步根据预测训练数据集与预测训练标签,对基础预测网络进行预测能力训练,得到适应度预测网络,其中基础预测网络指的是可用于监督学习的人工神经网络,需要明确,对适应度预测网络进行预测能力训练的过程中,由于真实适应度原始值是基于输入参数直接计算得到的适应度值,因此真实适应度值能够作为预测训练标签来测试基础预测网络的适应度预测能力,并作为参照基准来矫正基础预测网络的训练方向,从而以监督学习的方式逐步提升基础预测网络的适应度预测能力,最终当基础预测网络的适应度预测能力达标条件,则将达标的基础预测网络确定为适应度预测网络。需要强调的是,适应度预测网络指的用于针对输入参数进行适应度预测,因此对适应度预测网络进行预测能力训练的方式多种多样,具体可以包括,但不限于模糊k邻近分类算法(fuzzy k-nearest neighbor,fknn)、随机森林算法,聚类算法等,应理解,对适应度预测网络进行预测能力训练的方式不限于上述举出的具体实施例。
[0103]
参照图4,根据本发明的一些实施例,输入参数包括原始父代参数与原始子代参数,根据预测适应度值与真实适应度原始值,从输入参数中筛选得到目标参数,包括:
[0104]
步骤s401,以预测适应度值为基准,从原始子代参数中筛选得到目标子代参数,原始子代参数基于交叉变异遗传算法对原始父代参数进行处理而得到;
[0105]
本发明一些示例性的实施例中,为了丰富输入参数的类型,在获取输入参数之后,需要对输入参数进行繁衍处理,例如以一部分输入参数建立高斯分布,再从高斯中随机采样而获取该部分输入参数对应的子代参数。本发明一些较为具体的实施例中,需要经由交叉变异遗传算法对输入参数进行繁衍处理,其中繁衍处理之前的输入参数即为原始父代参数,繁衍处理之后所形成的输入参数即为原始子代参数。具体而言,经由交叉变异遗传算法对原始父代参数进行处理,随即形成原始子代参数。应理解,原始子代参数对应的数量与类型可以是原始父代参数的若干倍,因此在原始子代参数对应的数量与类型多于原始父代参数的情况下,则能够以预测适应度值为基准,在原始子代参数中筛选得到目标子代参数。需要说明的是,由于预测适应度值是适应度预测网络针对输入参数进行适应度预测后所对应
得到的适应度值,而预测适应度值能够在适应度评估之前预先过滤掉明显不适应目标环境的输入参数,因此以预测适应度值为基准筛选得到的目标子代参数,是适应度预测网络预测结果中,适应能力较强的原始子代参数。需要明确,由于原始父代参数、原始子代参数中包括了许多明显不适应目标环境的输入参数,因此如若基于所有输入参数而生成策略执行动作,则会相应地产生多次无效动作且不利于得出较佳策略,以至于浪费系统资源。故而,以预测适应度值为基准从原始子代参数中筛选得到目标子代参数,因目标子代参数适应能力较强,从而减少无效评估次数,提升系统资源利用率,进而在强化学习训练过程中,减少了强化学习模型进行适应度评估所耗费的算力资源以及时长。
[0106]
步骤s402,根据目标子代参数计算得到真实适应度目标值;
[0107]
需要强调的是,由于目标子代参数是适应度预测网络预测得到适应能力较强的原始子代参数,因此根据目标子代参数计算得到真实适应度目标值,能够排除处理明显不适应目标环境的输入参数,从而减少无效评估次数,提升系统资源利用率,进而在强化学习训练过程中,减少了强化学习模型进行适应度评估所耗费的算力资源以及时长。
[0108]
步骤s403,基于原始父代参数与目标子代参数,形成备选参数集;
[0109]
步骤s404,根据真实适应度原始值与真实适应度目标值,对备选参数集进行适应度评估,得到目标参数。
[0110]
需要说明,备选参数集指的是由原始父代参数与目标子代参数所组成的参数集。根据本发明一些示例性的实施例,基于输入参数中的原始父代参数可以计算得到真实适应度原始值,基于目标子代参数可以计算得到真实适应度目标值。因此一些较为具体的实施例中,为了获取到适应度更高的目标参数,即可将原始父代参数对应的真实适应度原始值,与目标子代参数真实适应度目标值进行比对,若真实适应度原始值大于真实适应度目标值,则说明真实适应度原始值对应的原始父代参数更能适应目标环境,若真实适应度原始值小于真实适应度目标值,则说明真实适应度目标值对应的目标子代参数更能适应目标环境。需要强调,目标参数用于产生作用于目标环境的策略执行动作。
[0111]
参照图5,根据本发明的一些实施例,根据真实适应度原始值与真实适应度目标值,对备选参数集进行适应度评估,得到目标参数,包括:
[0112]
步骤s501,将真实适应度原始值与真实适应度目标值进行比对;
[0113]
步骤s502,当真实适应度原始值大于真实适应度目标值,在备选参数集中将原始父代参数确定为目标参数;
[0114]
步骤s503,当真实适应度原始值小于真实适应度目标值,在备选参数集中将目标子代参数确定为目标参数;
[0115]
步骤s504,当真实适应度原始值等于真实适应度目标值,将原始父代参数或者目标子代参数确定为目标参数。
[0116]
根据本发明提供的一些较为具体的实施例,为了获取到适应度更高的目标参数,即可将原始父代参数对应的真实适应度原始值,与目标子代参数真实适应度目标值进行比对,若真实适应度原始值大于真实适应度目标值,则说明真实适应度原始值对应的原始父代参数更能适应目标环境,若真实适应度原始值小于真实适应度目标值,则说明真实适应度目标值对应的目标子代参数更能适应目标环境,当真实适应度原始值等于真实适应度目标值,则说明原始父代参数与目标子代参数的作用效果近似,因此可以将原始父代参数或
者目标子代参数确定为目标参数,另一些实施例中也可以将原始父代参数与目标子代参数均确定为目标参数。
[0117]
参照图6,根据本发明的一些实施例,基于环境参数对强化学习模型进行优化训练,得到训练好的强化学习模型,包括:
[0118]
步骤s601,基于环境参数对强化学习模型进行迭代训练;
[0119]
步骤s602,当迭代训练的次数达到预设次数阈值,得到训练好的强化学习模型。
[0120]
根据本发明提供的一些实施例,通过强化学习模型的策略网络对目标参数进行处理,得到策略执行动作并获取环境参数之后,需要基于环境参数来进一步对强化学习模型进行优化训练,其原因在于,通过对强化学习模型的优化训练,可以逐渐优化强化学习模型中的模型参数,以至于将训练好的强化学习模型投入实际应用场景时,训练好的强化学习模型能够针对所需求解的问题提出较佳的控制策略。本发明一些示例性的实施例中,基于环境参数对强化学习模型进行优化训练,可以先基于环境参数对强化学习模型进行迭代训练,当迭代训练的次数达到预设次数阈值,得到训练好的强化学习模型。具体而言,环境参数反映的是目标环境基于对策略执行动作的响应而产生的状态变化,本发明一些实施例中,环境参数指的是策略执行动作所产生的全局奖励。因此,环境参数能够作为参照基准来矫正强化学习模型的优化训练方向,以使得本发明中的强化学习模型在与目标环境的交互过程中进行迭代式训练、学习到模型的最优参数,从而获得求解问题的最佳控制策略,进而通过最佳控制策略以达成回报最大化或实现特定目标的问题。
[0121]
参照图7,根据本发明的一些实施例,基于环境参数对强化学习模型进行迭代训练,包括:
[0122]
步骤s701,基于环境参数,通过策略网络对真实适应度原始值进行更新;
[0123]
根据本发明提供的一些实施例,环境参数由强化学习模型对状态改变后的目标环境进行检测而获取,环境参数反映的是目标环境基于对策略执行动作的响应,而产生的状态变化。本发明一些实施例中,环境参数可以是策略执行动作在目标环境中所产生的全局奖励,而通过适应度函数对过滤后的输入参数进行计算所对应得到的适应度值,即为真实适应度目标值,应理解,当环境参数是在目标环境中所产生的全局奖励,那么环境参数能够以替换的方式对真实适应度原始值进行更新,以使得环境参数能够用于从新一轮输入参数中筛选得到新一轮目标参数。
[0124]
步骤s702,将目标参数替换为新一轮输入参数;
[0125]
根据本发明提供的一些实施例,目标参数基于预测适应度值与真实适应度原始值,从输入参数中筛选得到的更加优质的参数。因此,将目标参数替换为新一轮输入参数,进一步参与迭代训练,能够不断地优化目标参数,得到求解对应问题的更优控制策略,进一步优化对应产生的策略执行动作,获取到更加优质的环境参数(例如更积极的全局奖励)。
[0126]
步骤s703,通过适应度预测网络对新一轮输入参数进行适应度预测,更新预测适应度值;
[0127]
需要说明的是,本发明通过适应度预测网络对新一轮输入参数进行适应度预测,能够更新预测适应度值,而更新后的预测适应度值能够更加有效地在适应度评估之前预先过滤掉明显不适应目标环境的输入参数,从而进一步减少无效评估次数,提升系统资源利用率,在强化学习训练过程中减少强化学习模型进行适应度评估所耗费的算力资源以及时
长。
[0128]
步骤s704,基于更新后的预测适应度值与更新后的真实适应度原始值,从新一轮输入参数中筛选得到新一轮目标参数;
[0129]
步骤s705,通过策略网络对新一轮目标参数进行处理,获取新一轮策略执行动作;
[0130]
步骤s706,当新一轮策略执行动作改变环境状态后,对目标环境进行检测,更新环境参数;
[0131]
需要说明的是,当环境参数是在目标环境中所产生的全局奖励,那么环境参数能够以替换的方式对真实适应度原始值进行更新,因此,基于更新后的预测适应度值与更新后的真实适应度原始值,能够从新一轮输入参数中筛选得到新一轮目标参数。一些示例性的实施例中,基于更新后的预测适应度值与更新后的真实适应度原始值,能够从新一轮输入参数中筛选得到适应度更大的参数作为新一轮目标参数,随着,每一轮迭代训练的进行,目标参数的适应度亦会逐渐提高,以至于能够得到求解对应问题的更优控制策略,进一步优化对应产生的策略执行动作,获取到更加优质的环境参数(例如更积极的全局奖励)。
[0132]
步骤s707,基于更新后的环境参数,对强化学习模型进行新一轮迭代训练。
[0133]
需要说明的是,每一轮迭代训练的过程中,均会更新环境参数,从而基于更新后的环境参数来通过策略网络对真实适应度原始值进行更新,开启新一轮迭代训练。随着迭代训练的不断进行,本发明实施例强化学习模型中的模型参数亦在逐渐优化,那么强化学习模型针对目标环境得出更优控制策略,进一步优化对应产生的策略执行动作的能力也就越强。需要明确,为了降低强化学习训练过程关于输入参数的适应度评估环节所需要耗费的算力资源以及时长,本发明一些示例性的实施例,经过多轮迭代训练,基于适应度预测网络对新一轮输入参数进行适应度预测,更新预测适应度值,能够实现在适应度评估之前预先过滤掉明显不适应目标环境的输入参数,减轻了强化学习模型进行适应度评估所耗费的算力负担,强化学习模型进行适应度评估所耗费的时长也就相对应地降低。
[0134]
参照图8,根据本发明的第二方面实施例的基于适应度预测的强化学习模型训练系统800,包括:
[0135]
数据获取模块801,用于获取输入参数,并根据所述输入参数计算得到真实适应度原始值;
[0136]
适应度预测网络802,用于对所述输入参数进行降维处理,并对降维处理后的所述输入参数进行适应度预测,得到预测适应度值;
[0137]
数据处理模块803,根据预测适应度值与真实适应度原始值,从输入参数中筛选得到目标参数;
[0138]
策略网络804,用于对目标参数进行处理,得到策略执行动作,策略执行动作用于改变目标环境的状态,以及,对状态改变后的目标环境进行检测,获取环境参数;
[0139]
优化训练模块805,基于环境参数对强化学习模型进行优化训练,得到训练好的强化学习模型。
[0140]
本发明基于适应度预测的强化学习模型训练系统800,执行强化学习模型训练方法的过程中,需要先通过数据获取模块801获取输入参数,并根据输入参数计算得到真实适应度原始值,再基于强化学习模型的适应度预测网络802对所述输入参数进行降维处理,并对降维处理后的所述输入参数进行适应度预测,得到预测适应度值,进一步,以数据处理模
块803根据预测适应度值与真实适应度原始值,从输入参数中筛选得到目标参数,再进一步,通过强化学习模型的策略网络804对目标参数进行处理,得到策略执行动作,策略执行动作用于改变目标环境的状态,从而对状态改变后的目标环境进行检测,获取环境参数,最终基于优化训练模块805以环境参数对强化学习模型进行优化训练,得到训练好的强化学习模型。本发明通过适应度预测网络对输入参数进行适应度预测,得到预测适应度值,而预测适应度值能够在适应度评估之前预先过滤掉明显不适应目标环境的输入参数,从而减少无效评估次数,提升系统资源利用率,进而在强化学习训练过程中,减少了强化学习模型进行适应度评估所耗费的算力资源以及时长。
[0141]
以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的共享条件下还可作出种种等同的变形或替换,这些等同的变形或替换均包括在本发明权利要求所限定的范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1