本发明涉及永磁同步直线电机技术领域,具体涉及一种控制永磁同步直线电机的方法、系统、平台及存储介质。
背景技术:
随着现代生产技术的发展对pmlsm伺服系统稳定性、精确性有了更高的要求。常规的控制算法已经越来越不能满足pmlsm控制系统的要求,随着人工智能技术的发展和成熟,将现代智能控制方法应用于永磁同步直线电机控制系统成为未来发展的趋势。
永磁同步直线电机(permanentmagnetlinearsynchronousmotor,pmlsm)是一种不需要中间传动装置而直接将电能转换为直线运动的电机。永磁同步直线电机有着推力大、速度大、行程大和精度高等优点,相比传统旋转电机,永磁同步直线电机驱动系统取消了中间传动环节,简化了机械结构,具有优越的加减速度特性和高刚度、高可靠性,运行噪声小,维护简单等优点。所以永磁同步直线电机越来越广泛的应用在一些高速、高精密机械加工中。然而由于其实际伺服系统是非线性、不确定性系统,当模型的不确定性超过传统线性最优鲁棒控制所允许的范围时,控制系统就变得不稳定。
此外,为使永磁同步直线电机伺服系统稳定、可控,现代常规的控制方法有模糊控制、神经网络和粒子群算法控制等控制方法。模糊pid控制,相较于单一的pid控制算法,模糊pid控制控制下的pmlsm伺服系统的超调量较小、响应速度较快,且系统的抗干扰能力强,鲁棒性好,基本达到了控制系统的设计要求。模糊神经网络控制,模糊神经网络控制系统与传统pid和模糊pid相比,具有超调小,快速性好及运行稳定的优点,其控制效果得到了明显的提升。粒子群算法,采用改进的粒子群算法来优化pmlsm,在优化过程中增加了遗传算法中的交叉这个过程,实现了粒子群算法与遗传算法相结合,这种改进的算法不仅能减少迭代次数,让目标函数快速收敛,还能防止陷入局部最优,提高算法寻找全局最优的可靠性。
这些经典的现代智能控制系统,为研究新型的伺服控制系统奠定了良好的理论基础,但控制过程仍存在一些缺点:模糊逻辑控制,模型预测控制等传统控制方法需要复杂的数学模型和专业知识,然而,专家们很难获得这些经验和知识。通过粒子群优化,遗传算法和神经网络算法优化的最优跟踪曲线通常仅对特定周期有效,缺乏在线学习能力和有限的泛化能力。因此传统控制方法很难满足现代伺服系统的要求。
技术实现要素:
针对以上实际伺服系统是非线性、不确定性系统,缺乏在线学习能力和有限的泛化能力的问题,本发明提出一种基于深度强化学习算法控制永磁同步直线电机的方法,即一种控制永磁同步直线电机的方法、系统、平台及存储介质,将深度强化学习算法所具有的并行性、自适应、自学习等能力结合pid控制应用于pmlsm伺服控制中,作为速度环节的控制器,达到精确和稳定的控制,克服推力波动使控制系统具有高速稳定,鲁棒性好等性能品质,能够对pmlsm进行快速准确控制。
本发明具体通过以下技术方案实现:
一种控制永磁同步直线电机的方法,所述的方法具体包括如下步骤:
建立永磁直线电机数学模型;
通过深度确定性策略梯度方法对永磁同步直线电机的速度环进行自适应控制;
获得最优的强化学习代理,实现pid伺服系统的参数的自动调整。
进一步地,于步骤通过深度确定性策略梯度方法对永磁同步直线电机的速度环进行自适应控制中,还包括如下步骤:
通过actor-critic网络构建强化学习代理的框架;
以pid速度伺服系统为环境对象,获取激励函数的跟踪误差曲线;
实现pid参数自动调整;
具体地,pid控制器由以下方程设计:
其中,
进一步地,于步骤通过actor-critic网络构建强化学习代理的框架中;
critic的动作值函数具体为:
q(st,μ(st|θμ)|θq)(2)
actor的动作值函数具体为:
μ(st|θμ)(3)
其中,θq和θμ分别表示critic在线网络和actor在线网络的权重,st表示存储当前状态,μ表示actor在线网络策略,q表示critic在线网络对μ策略的评估。
进一步地,于步骤通过actor-critic网络构建强化学习代理的框架中;
actor评估网络选择动作采用的函数为:
at=[kp,ki,kd]=μ(st|θμ)+noise(4)
其中,at代表t时刻代理执行的动作即t时刻ki,kp,kd的值,ki,kp,kd分别表示比例、积分、微分系数,μ表示actor在线网络策略,st表示存储当前状态,θμ代表actor在线网络的权重,noise代表随机ou噪声。
进一步地,于步骤通过深度确定性策略梯度方法对永磁同步直线电机的速度环进行自适应控制中,还包括如下步骤:
从存储器中取出部分随机样本,进而进行训练更新目标网络;
具体的学习过程函数为:
其中,yi代表目标网络,ri代表在i学习过程中的回报值,si+1代表i+1时刻存储状态,
进一步地,于步骤从存储器中取出部分随机样本,进而进行训练更新目标网络中,还包括如下步骤:
根据最小损失函数更新critic网络;
具体函数采用公式为:
其中,l代表损失函数,n代表更新次数,yi代表目标网络,si,ai分别代表第i时刻的存储状态与输出动作,μ表示actor在线网络策略,q表示critic在线网络对μ策略的评估。
根据策略梯度更新actor网络;
具体函数采用公式为:
其中,▽θμj代表actor更新网络梯度,n代表更新次数,▽aq(s,a|θq)代表critic在线网络对μ策略的评估梯度,▽θμμ(s|θμ)代表actor在线网络策略梯度。
根据更新后的critic网络和actor网络,更新目标网络。
为实现上述目的,本发明还提供一种控制永磁同步直线电机的系统,所述的系统具体包括:
模型建立单元,用于建立永磁直线电机数学模型;
自适应控制单元,用于通过深度确定性策略梯度方法对永磁同步直线电机的速度环进行自适应控制;
自动调整单元,用于获得最优的强化学习代理,实现pid伺服系统的参数的自动调整。
进一步地,所述的自动调整单元,还包括如下功能模块:
网络构建模块,用于通过actor-critic网络构建强化学习代理的框架;
跟踪模块,用于以pid速度伺服系统为环境对象,获取激励函数的跟踪误差曲线;
实现模块,用于实现pid参数自动调整;
第一更新模块,用于从存储器中取出部分随机样本,进而进行训练更新目标网络;
具体地,第一更新模块中还包括:
第二更新模块,用于根据最小损失函数更新critic网络;
第三更新模块,用于根据策略梯度更新actor网络;
第四更新模块,用于根据更新后的critic网络和actor网络,更新目标网络。
为实现上述目的,本发明还提供一种控制永磁同步直线电机的平台,具体包括:
处理器、存储器以及控制永磁同步直线电机平台控制程序;
其中在所述处理器执行所述控制永磁同步直线电机平台控制程序,所述控制永磁同步直线电机平台控制程序被存储在所述存储器中,所述的控制永磁同步直线电机平台控制程序,实现所述的控制永磁同步直线电机的方法步骤。
为实现上述目的,本发明还提供一种计算机可读取存储介质,所述计算机可读取存储介质存储有控制永磁同步直线电机平台控制程序,所述控制永磁同步直线电机平台控制程序,实现所述的控制永磁同步直线电机的方法步骤。
与现有技术相比,本发明具有以下有益效果:
本发明通过一种控制永磁同步直线电机的方法,
建立永磁直线电机数学模型;
通过深度确定性策略梯度方法对永磁同步直线电机的速度环进行自适应控制;
获得最优的强化学习代理,实现pid伺服系统的参数的自动调整。
及相应地系统单元和模块:
模型建立单元,用于建立永磁直线电机数学模型;
自适应控制单元,用于通过深度确定性策略梯度方法对永磁同步直线电机的速度环进行自适应控制;
自动调整单元,用于获得最优的强化学习代理,实现pid伺服系统的参数的自动调整。
进一步地,所述的自动调整单元,还包括如下功能模块:
网络构建模块,用于通过actor-critic网络构建强化学习代理的框架;
跟踪模块,用于以pid速度伺服系统为环境对象,获取激励函数的跟踪误差曲线;
实现模块,用于实现pid参数自动调整;
第一更新模块,用于从存储器中取出部分随机样本,进而进行训练更新目标网络;
具体地,第一更新模块中还包括:
第二更新模块,用于根据最小损失函数更新critic网络;
第三更新模块,用于根据策略梯度更新actor网络;
第四更新模块,用于根据更新后的critic网络和actor网络,更新目标网络。
及相应地平台及存储介质;
可以将深度强化学习算法所具有的并行性、自适应、自学习等能力结合pid控制应用于pmlsm伺服控制中,作为速度环节的控制器,达到精确和稳定的控制,克服推力波动使控制系统具有高速稳定,鲁棒性好等性能品质,能够对pmlsm进行快速准确控制。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种控制永磁同步直线电机的方法架构流程示意图;
图2为本发明直线电机传递函数框图示意图;
图3为本发明基于ddpg方法来对永磁同步直线电机的速度环进行自适应控制,控制方法示意图;
图4为本发明基于强化学习的自适应pid控制算法的结构图;
图5为本发明基于深度强化学习算法控制永磁同步直线电机的方法的流程图;
图6为本发明一种控制永磁同步直线电机的系统架构示意图;
图7为本发明一种控制永磁同步直线电机的平台架构示意图;
图8为本发明一种实施例中计算机可读取存储介质架构示意图;
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为便于更好的理解本发明的目的、技术方案和优点更加清楚,下面结合附图和具体的实施方式对本发明作进一步说明,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。
本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
需要说明,若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,若本发明实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。其次,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时,应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
优选地,本发明一种控制永磁同步直线电机的方法应用在一个或者多个终端或者服务器中。所述终端是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(applicationspecificintegratedcircuit,asic)、可编程门阵列(field-programmablegatearray,fpga)、数字处理器(digitalsignalprocessor,dsp)、嵌入式设备等。
所述终端可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端可以与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
本发明为实现一种控制永磁同步直线电机的方法、系统、平台及存储介质。
如图1所示,是本发明实施例提供的控制永磁同步直线电机的方法的流程图。
在本实施例中,所述控制永磁同步直线电机的方法,可以应用于具备显示功能的终端或者固定终端中,所述终端并不限定于个人电脑、智能手机、平板电脑、安装有摄像头的台式机或一体机等。
所述控制永磁同步直线电机的方法也可以应用于由终端和通过网络与所述终端进行连接的服务器所构成的硬件环境中。网络包括但不限于:广域网、城域网或局域网。本发明实施例的控制永磁同步直线电机的方法可以由服务器来执行,也可以由终端来执行,还可以是由服务器和终端共同执行。
例如,对于需要进行控制永磁同步直线电机的终端,可以直接在终端上集成本发明的方法所提供的控制永磁同步直线电机的功能,或者安装用于实现本发明的方法的客户端。再如,本发明所提供的方法还可以软件开发工具包(softwaredevelopmentkit,sdk)的形式运行在服务器等设备上,以sdk的形式提供控制永磁同步直线电机的功能的接口,终端或其他设备通过所提供的接口即可实现控制永磁同步直线电机的功能。
如图1所示,本发明提供了一种控制永磁同步直线电机的方法,所述方法具体包括如下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
建立永磁直线电机数学模型;
通过深度确定性策略梯度方法对永磁同步直线电机的速度环进行自适应控制;
获得最优的强化学习代理,实现pid伺服系统的参数的自动调整。
具体地,建立永磁直线电机数学模型,根据矢量控制的基本原理,采用id=0的矢量控制策略,其数学模型为:
其中rs为初级绕组等效电阻,τ为永磁体极距,υ为永磁直线同步电机的同步运动速度,对于pmlsm,ld=lq=l,ld、lq为d轴和q轴的电感,ud、uq为直线电机初级d轴和q轴电压,id、iq为d轴和q轴电流,ψf为永磁体励磁基波磁链,m为电机初级质量,b为黏摩擦系数,f1为负载阻力,kf为电磁推力系数。
通过以上的数学模型,直线电机传递函数框图示意图如图2所述。
较佳地,于步骤通过深度确定性策略梯度方法对永磁同步直线电机的速度环进行自适应控制中,还包括如下步骤:
通过actor-critic网络构建强化学习代理的框架;
以pid速度伺服系统为环境对象,获取激励函数的跟踪误差曲线;
实现pid参数自动调整;
更进一步地,还包括如下步骤:
从存储器中取出部分随机样本,进而进行训练更新目标网络;
具体地为:根据最小损失函数更新critic网络;根据策略梯度更新actor网络;根据更新后的critic网络和actor网络,更新目标网络。
也就是说,通过深度确定性策略梯度方法来对永磁同步直线电机的速度环进行自适应控制,控制方法示意图参见图3。
本发明方法以actor-critic网络构建强化学习代理的框架,以pid速度伺服系统为环境对象,获取激励函数的跟踪误差曲线。dpg确定性策略梯度算法用于设计actor网络,dqn算法用于设计critic网络,实现pid参数自整定。
pid控制器由以下方程设计:
其中:
在pmlsm速度环中,e(t)为当前时刻给定速度与实时反馈速度之差,e(t-1)为上一时刻给定速度与实时反馈速度之差,e(t-2)为上上时刻给定速度与实时反馈速度之差;δe(t)为当前时刻速度误差与上一时刻速度误差之差,δe(t-1)为上一时刻速度误差与上上时刻速度误差之差;
δ2e(t)=δe(t)-δe(t-1)(9)
基于强化学习的自适应pid控制算法的结构图示意图参见图4。图中实线上部分是基于强化学习的自适应参数调节器,由强化学习代理组成,实线下部分由pid控制器和伺服系统作为代理环境交互对象。对于强化代理,策略初始化误差e(t),以生成状态向量,
st=[e(t),δe(t),δe2(t)]t(10)
用于表示当前时刻的强化代理系统状态特征,初始状态下根据当前actor在线策略μ和随机ou噪声的随机过程,映射获得一个pid参数a't=[k'p,k’i,k'd]。pid控制器执行a’t,并返回奖励值rt和下一时刻强化代理状态:
st+1=[e(t+1),δe(t+1),δe2(t+1)]t(11)。
actor网络将这一状态转换过程(st,at,rt,st+1)存入到存储器m中。在存储器m中随机采样n个转换数据(si,ai,ri,si+1)作为在线网络的一个mini-batch训练数据。待系统完成n步采样后,目标网络q-和μ-用于计算critic目标网络值
其中,yi代表目标网络,ri代表在i学习过程中的回报值,si+1代表i+1时刻存储状态,
再通过最小化损失,具体函数采用公式为:
其中,l代表损失函数,n代表更新次数,yi代表目标网络,si,ai分别代表第i时刻的存储状态与输出动作,μ表示actor在线网络策略,q表示critic在线网络对μ策略的评估。
来更新critic网络。critic输出状态的估计值q-和最小化损失函数l都是作为评判actor网络在t时刻决策优劣程度的重要依据,actor网络根据,具体函数为:
其中,▽θμj代表actor更新网络梯度,n代表更新次数,▽aq(s,a|θq)代表critic在线网络对μ策略的评估梯度,▽θμμ(s|θμ)代表actor在线网络策略梯度。
进行更新。经过多次迭代学习获得合适的强化学习代理,以选择适当的kp,ki,kd并实现pid伺服系统的参数的自动调整。
具体的如图5所示,步骤201、初始化:随机初始化critic动作值函数
q(st,μ(st|θμ)|θq)(2)
和actor动作值函数
μ(st|θμ)(3)
其权重分别为θq和θμ,分别对目标网络q-和μ-的权重
步骤202、执行动作:采取行动μt,获得奖励rt和下一时刻状态st+1。初始化第一状态s1,基于actor评估网络选择动作,具体计算函数为:
at=[kp,ki,kd]=μ(st|θμ)+noise(4)
其中,at代表t时刻代理执行的动作即t时刻ki,kp,kd的值,ki,kp,kd分别表示比例、积分、微分系数,μ表示actor在线网络策略,st表示存储当前状态,θμ代表actor在线网络的权重,noise代表随机ou噪声;
动作at在pid伺服控制器中执行以获得返回rt和下一状态st+1,在存储器m中保存经验(st,at,rt,st+1);
步骤203、进行训练:从存储器m中取出部分随机样本,表示为(si,ai,ri,si+1),然后训练更新目标网络,学习过程可表示为:
其中,yi代表目标网络,ri代表在i学习过程中的回报值,si+1代表i+1时刻存储状态,
在actor在线策略μ上添加随机ou噪声(μ(st|θμ)+noise),增加对未知区域的探索,以避免强化代理陷入局部最优;
步骤204、根据最小损失函数更新critic网络:具体函数为:
其中,l代表损失函数,n代表更新次数,yi代表目标网络,si,ai分别代表第i时刻的存储状态与输出动作,μ表示actor在线网络策略,q表示critic在线网络对μ策略的评估;
步骤205、根据策略梯度更新actor网络,具体计算函数为:
其中,▽θμj代表actor更新网络梯度,n代表更新次数,▽aq(s,a|θq)代表critic在线网络对μ策略的评估梯度,▽θμμ(s|θμ)代表actor在线网络策略梯度;
步骤206、更新目标网络,即权重更新,critic网络权重更新:
最后,经过步骤3、学习结束,经过多次的权重迭代更新,获得最优的强化学习代理,找到以选择适当的kp,ki,kd并实现pid伺服系统的参数的自动调整。
为实现上述目的,如图6所示,本发明还提供一种控制永磁同步直线电机的系统,所述的系统包括:
模型建立单元,用于建立永磁直线电机数学模型;
自适应控制单元,用于通过深度确定性策略梯度方法对永磁同步直线电机的速度环进行自适应控制;
自动调整单元,用于获得最优的强化学习代理,实现pid伺服系统的参数的自动调整。
较佳地,所述的自动调整单元,还包括如下功能模块:
网络构建模块,用于通过actor-critic网络构建强化学习代理的框架;
跟踪模块,用于以pid速度伺服系统为环境对象,获取激励函数的跟踪误差曲线;
实现模块,用于实现pid参数自动调整;
第一更新模块,用于从存储器中取出部分随机样本,进而进行训练更新目标网络;
具体地,第一更新模块中还包括:
第二更新模块,用于根据最小损失函数更新critic网络;
第三更新模块,用于根据策略梯度更新actor网络;
第四更新模块,用于根据更新后的critic网络和actor网络,更新目标网络。
本发明还提出一种控制永磁同步直线电机的平台,如图7所示,包括:
处理器、存储器以及控制永磁同步直线电机平台控制程序;
其中在所述处理器执行所述控制永磁同步直线电机平台控制程序,所述控制永磁同步直线电机平台控制程序被存储在所述存储器中,所述控制永磁同步直线电机平台控制程序,实现所述的控制永磁同步直线电机的方法步骤,例如:
建立永磁直线电机数学模型;
通过深度确定性策略梯度方法对永磁同步直线电机的速度环进行自适应控制;
获得最优的强化学习代理,实现pid伺服系统的参数的自动调整。
步骤具体细节已在上文阐述,此处不再赘述;
本发明实施例中,所述的控制永磁同步直线电机的平台内置处理器,可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(centralprocessingunit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。处理器利用各种接口和线路连接取各个部件,通过运行或执行存储在存储器内的程序或者单元,以及调用存储在存储器内的数据,以执行竞价调控的各种功能和处理数据;
存储器用于存储程序代码和各种数据,安装在控制永磁同步直线电机的平台中,并在运行过程中实现高速、自动地完成程序或数据的存取。
所述存储器包括只读存储器(read-onlymemory,rom),随机存储器(randomaccessmemory,ram)、可编程只读存储器(programmableread-onlymemory,prom)、可擦除可编程只读存储器(erasableprogrammableread-onlymemory,eprom)、一次可编程只读存储器(one-timeprogrammableread-onlymemory,otprom)、电子擦除式可复写只读存储器(electrically-erasableprogrammableread-onlymemory,eeprom)、只读光盘(compactdiscread-onlymemory,cd-rom)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
本发明还提出一种计算机可读取存储介质,如图8所示,所述计算机可读取存储介质存储有控制永磁同步直线电机平台控制程序,所述控制永磁同步直线电机平台控制程序,实现所述的控制永磁同步直线电机的方法步骤,例如,
建立永磁直线电机数学模型;
通过深度确定性策略梯度方法对永磁同步直线电机的速度环进行自适应控制;
获得最优的强化学习代理,实现pid伺服系统的参数的自动调整。
步骤具体细节已在上文阐述,此处不再赘述;
在本发明的实施方式的描述中,需要说明的是,流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理模块的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读取介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读取介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
通过本发明的步骤、系统、平台及存储介质,可以将深度强化学习算法所具有的并行性、自适应、自学习等能力结合pid控制应用于pmlsm伺服控制中,作为速度环节的控制器,达到精确和稳定的控制,克服推力波动使控制系统具有高速稳定,鲁棒性好等性能品质,能够对pmlsm进行快速准确控制。
更具体地,还包括如下有益效果:
(1)、本发明设计了一个强化学习代理来自动控制速度参数伺服系统的方法。代理在ddpg算法的基础上建立行动网络和评论功能。actor网络实现了策略的最佳近似,critic网络实现了价值函数的最优逼近,采用记忆回放,参数冻结和噪声动态调整等策略,提高了神经网络的收敛速度。
(2)、利用dpg与dqn相结合,包含了深度q网络的取记忆学习,反向传播,梯度更新,自动探索学习等,解决强化学习代理更新的问题。
(3)、为了避免确定性策略陷入局部最优化学习的问题,μ策略中加入随机ou噪声,使动作探索更广泛和高效。
(4)、建立多个神经网络,包括actor网络和critic网络,actor网络和critic网络分别包含各自的估计和现实网络,利用critic网络指导actor网络,actor网络利用梯度策略不断地修改更新,最终网络快速收敛并选择出最优状态值,输出最优强化代理。
(5)、当直线电机运行到指定位置时,actor网络从记忆库中取出部分记忆,获得伺服系统的调整参数,采用相同的强化学习智能结构,提高控制精度。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。