本发明涉及船舶自动控制,具体而言,尤其涉及一种新型离散时间指定性能强化学习无人艇航向跟踪控制方法及系统。
背景技术:
1、无人艇航向控制是船舶自动驾驶中重要的关键技术之一。受复杂海况影响,无人艇航向控制难以取得良好的控制效果,其根本原因在于控制器无法获得精确地补偿。指定性能控制能够为控制器提供较为精确地补偿,从而使控制器实现指定的控制性能。
2、现有的指定性能控制以连续时间变换方式进行变换,在稳定性分析时更多的依赖滑模控制,极大地限制了其在离散时间系统的发展和应用。本发明旨在提出一套新型的离散时间指定性能变换方法,实现无人艇航向指定性能控制,突破离散时间指定性能控制技术壁垒。
技术实现思路
1、根据上述提出的技术问题,提供一种新型离散时间指定性能强化学习无人艇航向跟踪控制方法及系统。本发明主要面向离散时间无人艇航向控制系统,通过航向动态误差变换,提出一种新型的离散时间指定性能强化学习无人艇航向跟踪控制方法,通过指定性能技术,能够有效提高控制精度。
2、本发明采用的技术手段如下:
3、一种新型离散时间指定性能强化学习无人艇航向跟踪控制方法,包括:
4、构建无人艇离散时间动力学模型;
5、对构建的无人艇离散时间动力学模型进行系统变换,构建无人艇航向跟踪变化系统;
6、根据航向角速度动态误差,将航向角速度动态误差约束在指定范围内,设计一种新型的离散时间误差约束变换方法,计算得到用于设计控制器的无约束系统误差;
7、根据得到的无约束系统误差,设计无人艇强化学习评价模块;
8、基于无人艇强化学习评价模块和无约束系统误差,设计无人艇航向跟踪控制器,得到无人艇系统舵角指令,将舵角指令传递给无人艇舵机输出无人艇航向角,实现无人艇航向指定性能跟踪控制。
9、进一步地,所述构建无人艇离散时间动力学模型,包括:
10、采集无人艇航向信息,并将采集到的无人艇航向信息发送至船载计算机,船载计算机考虑无人艇回转非线性特性,构建无人艇离散时间动力学模型,其中,无人艇航向信息包括无人艇舵机测量的舵角信息和罗经测量的航向角信息以及航向角速度信息,构建的无人艇离散时间动力学模型具体为:
11、
12、其中,x1(k)为无人艇航向角,角标1为第1个子系统,k为时刻;x2(k)为航向角速度,角标2为第2个子系统;u(k)为舵角输入;y(k)为系统输出;为航向信息向量;f1(x1(k))和为未知光滑的非线性函数;g1(x1(k))和为未知有界光滑函数,并满足和和是未知的正常数;d(k)为未知有界的外界干扰,并满足是未知的正数。
13、进一步地,所述对构建的无人艇离散时间动力学模型进行系统变换,构建无人艇航向跟踪变化系统,具体包括:
14、无人艇船载计算机利用航向信息计算航向跟踪动态误差,如下:
15、e1(k)=x1(k)-yd(k)
16、e2(k)=x2(k)-α(k)
17、其中,e1(k)为无人艇航向角与参考信号的航向角动态误差;e2(k)为无人艇航向角速度与虚拟控制律α(k)的误差信号;yd(k)为光滑有界的参考信号;
18、为了便于对无人艇系统进行航向跟踪控制设计,并避免子系统无关联问题,对构建的无人艇离散时间动力学模型进行系统变换,建立无人艇航向跟踪变化系统,如下:
19、
20、其中,f1(·)和f2(·)为非线性光滑未知函数;g1(·)和g2(·)为非线性光滑函数,并满足和
21、进一步地,所述根据航向角速度动态误差,将航向角速度动态误差约束在指定范围内,设计一种新型的离散时间误差约束变换方法,计算得到用于设计控制器的无约束系统误差,具体包括:
22、基于无人艇船载计算机的航向动态角误差e1(k),设计约束为:
23、-βminφ(k)<e1(k)<βmaxφ(k)
24、φ(k+1)=(1-γ)φ(k)+γφ∞
25、
26、其中,βmin和βmax为设计的正常数并满足βmin≤βmax,φ(k)为光滑函数,γ∈(0,1)决定学习速率,φ(k)的初始值满足-φ(0)<e1(0)<φ(0);
27、为了实现指定性能-βminφ(k)<e1(k)<βmaxφ(k),做如下变换:
28、
29、其中,为转换后的无约束误差,为单调递增函数,满足
30、
31、设计单调递增函数如下:
32、
33、根据设计的单调递增函数计算得到转换后的无约束误差
34、
35、根据设计的单调递增函数和转换后的无约束误差计算得到航向动态角误差e1(k):
36、e1(k)=h(k)(βmaxφ(k)-e1(k))
37、其中,
38、进一步地,所述根据得到的无约束系统误差,设计无人艇强化学习评价模块,具体包括:
39、基于无人艇船载计算机的航向角动态误差e1(k)和跟踪性能阈值μ,设计效用函数
40、
41、其中,表示当前跟踪性能满足要求,表示当前跟踪性能不满足要求;
42、根据贝尔曼原理,利用效用函数设计策略效用函数q(k),如下:
43、
44、其中,0<β<1为设计参数,n为时间范围;
45、根据神经网络万能逼近定理,得到策略效用函数q(k),如下:
46、
47、其中,θc为期望权值向量,并满足表示未知的正常数,下角标c表示评价模块;上角标t表示转置运算;为有界的高斯基函数;δc为逼近误差,并满足为未知的正常数;
48、定义贝尔曼误差ξc(k),如下:
49、
50、其中,为策略效用函数q(k)的估计,表示理想权值θc的估计;
51、根据定义的贝尔曼误差ξc(k),定义代价函数采用梯度下降法最小化代价函数jc(k),得到评价模块神经网络自适应律,如下:
52、
53、其中,λc为学习速率。
54、进一步地,所述基于无人艇强化学习评价模块,设计无人艇航向跟踪控制器,得到无人艇系统舵角指令,将舵角指令传递给无人艇舵机输出无人艇航向角,实现无人艇航向指定性能跟踪控制,包括:
55、设计无人艇强化学习系统执行模块中的虚拟控制律α(k)和神经网络自适应律
56、设计无人艇强化学习系统执行模块中的控制律u(k)和神经网络自适应律
57、进一步地,所述设计无人艇强化学习系统执行模块中的虚拟控制律α(k)和神经网络自适应律具体包括:
58、设计虚拟控制律α(k),如下:
59、
60、其中,为神经网络输入,表示理想权值θ1的估计;
61、定义第一个执行模块中的策略效用函数ξ1(k),如下:
62、
63、其中,k1=k-1;
64、根据策略效用函数ξ1(k),定义代价函数采用梯度下降法最小化代价函数j1(k),得到第一个执行模块神经网络自适应律,如下:
65、
66、其中,λ1为学习速率。
67、进一步地,所述设计无人艇强化学习系统执行模块中的控制律u(k)和神经网络自适应律具体包括:
68、设计控制律u(k),如下:
69、
70、其中,表示神经网络理想权值θ2的估计,并满足表示未知的正常数,下角标2表示第一个子系统;为神经网络的输入向量;
71、定义第二个执行模块中的策略效用函数ξ2(k),如下:
72、
73、其中,k2=k;
74、根据策略效用函数ξ2(k),定义代价函数采用梯度下降法最小化代价函数j2(k),得到第二个执行模块神经网络自适应律,如下:
75、
76、其中,λ2为学习速率。
77、本发明还提供了一种基于上述新型离散时间指定性能强化学习无人艇航向跟踪控制方法的新型离散时间指定性能强化学习无人艇航向跟踪控制系统,包括:数据采集单元、数据传输单元、无人艇船载计算机以及数据反馈单元,其中:
78、所述数据采集单元,用于采集无人艇航向信息;
79、所述数据传输单元,用于将采集到的无人艇航向信息发送至无人艇船载计算机;
80、所述无人艇船载计算机,用于处理采集到的无人艇航向信息,实现无人艇强化学习控制;
81、所述数据反馈单元,用于将所述无人艇船载计算机输出的舵角指令传输给无人艇舵机输出无人艇舵角,实现对无人艇航向的跟踪控制。
82、进一步地,所述无人艇船载计算机包括无人艇航向系统动力学模型模块、无约束系统误差变换模块、无人艇评价模块、虚拟控制律模块、神经网络自适应更新率模块、强化学习控制律模块和数据反馈模块,其中:
83、所述无人艇航向系统动力学模型模块,用于基于所述无人艇航向信息构建系统输入与输出之间的无人艇离散时间非线性动力学模型和变换系统;
84、所述无人艇航向无约束系统误差变换模块,用于基于无人艇航向动态误差,设计一种新型的误差变换方法,实现受约束的无人艇航向动态误差变换为一种无约束的误差;
85、所述无人艇评价模块,用于根据无人艇航向误差,设计基于预设跟踪性能阈值的策略效用函数和代价函数,实现评价模块神经网络自适应更新率的设计;
86、所述虚拟控制律模块,用于利用参考信号和补偿模块信息设计无人艇系统的虚拟控制函数,设计虚拟控制律;
87、所述神经网络自适应更新率模块,用于基于所述评价模块、虚拟控制律模型、控制律模型信息和策略效用函数,得到神经网络自适应律;
88、所述强化学习控制律模块,用于基于系统误差信息和虚拟控制律模块信息,设计控制器;
89、所述数据反馈模块,用于将无人艇强化学习控制律模块输出信息传输至无人艇舵机,实现强化学习控制律模块对无人艇航向的控制。
90、较现有技术相比,本发明具有以下优点:
91、1、本发明提供的新型离散时间指定性能强化学习无人艇航向跟踪控制方法,针对离散时间系统,提出了一种新型的指定性能系统转换方法,有效解决了传统连续时间指定性能依赖滑模控制,解放了指定性能控制在离散时间系统领域的应用。
92、2、本发明提供的新型离散时间指定性能强化学习无人艇航向跟踪控制方法,针对无人艇面临复杂海况的问题,实现了航向指定性能跟踪控制,提高了无人艇航向控制精度。
93、基于上述理由本发明可在船舶运动智能控制等领域广泛推广。