本发明涉及机器人,具体为一种基于pid-dhdp的机器人路径规划方法。
背景技术:
1、机器人具有感知、决策、执行等基本特征,可以辅助甚至替代人类完成危险、繁重、复杂的工作,提高工作效率与质量,服务人类生活,扩大或延伸人的活动及能力范围,导航技术是移动机器人的关键技术之一,采用先进的人工智能技术,提高导航算法的鲁棒性和加快收敛速度是当前移动机器人研究的热点问题。
2、对于移动机器人来说,如何在不确定性环境下,通过感知外界环境的态势,不断更新学习策略,优化移动机器人的路径,选择最优的路径是需要解决的问题之一,为此,提出了一种基于pid-dhdp的机器人路径规划方法来解决上述问题。
技术实现思路
1、(一)解决的技术问题
2、针对现有技术的不足,本发明提供了一种基于pid-dhdp的机器人路径规划方法,具备鲁棒性强、收敛速度快以及泛化能力好等优点,解决了如何在不确定性环境下,通过感知外界环境的态势,不断更新学习策略,优化移动机器人的路径,选择最优路径的问题。
3、(二)技术方案
4、为实现上述鲁棒性强、收敛速度快以及泛化能力好的目的,本发明提供如下技术方案:一种基于pid-dhdp的机器人路径规划方法,包括以下步骤:
5、1)利用机器人自身携带的激光雷达、超声波、红外等传感器,来获取其自身的位姿及其周围环境信息;
6、2)建立六边形栅格地图;
7、3)将地图信息作为pid-dhdp控制器输入信号,进行机器人路径的规划。
8、优选地,所述边形栅格地图通常将待建图的环境划分为尺寸大小相同的密布栅格,根据预先设定的占据阈值和每个栅格的占据概率值,判断每个栅格是否为可行区域。
9、优选地,所述pid-dhdp由pid执行网络-ann网络、pid评价网络-cnn网络和pid强化网络-rnn网络等三个网络组成,所述三个网络隐含层神经元的个数为6个;
10、所述ann网络模块接收的是输入变量x(t),所述ann网络模块输出的是控制变量u(t),所述控制变量u(t)返回被控系统对被控系统控制;
11、所述rnn网络模块接收被控系统的输入变量x(t)和网络模块的控制变量u(t),所述rnn网络模块得到内部强化学习函数r(t);
12、所述cnn网络模块接收被控系统的输入变量x(t)、ann网络模块的控制变量u(t)和rnn网络模块的内部强化学习函数r(t),所述cnn网络模块得到性能指标函数j(t);
13、所述性能指标函数j(t)与目标期望函数uc(t)相结合,得到第一时序差分信号ea(t),ea(t)=j(t)-uc(t);
14、所述性能指标函数j(t)经过乘法器α与性能指标函数j(t-1)以及外部强化学习函数r(t)相结合,得到第二时序差分信号ea(t),ea(t)=αj(t)-[j(t-1)-r(t)];
15、所述性能指标函数j(t)经过乘法器α与性能指标函数j(t-1)以及内部强化学习函数r(t)相结合,得到第三时序差分信号δtd(t),δtd(t)=αj(t)-[j(t-1)-r(t)];
16、所述ann网络、rnn网络以及cnn网络通过对应的第一时序差分信号、第二时序差分信号以及第三时序差分信号分别在线更新ann网络、rnn网络以及cnn网络对应的权值系数。
17、优选地,所述cnn网络的输入xc(t)为:
18、xc(t)=[x1(t),x2(t)…,xn(t),u(t),r(t)]t(1)
19、定义cnn网络误差函数如下式所示:
20、
21、其中λ为折扣系数,0<λ<1,
22、cnn网络隐含层神经元的转移函数采用双极性sigmoid函数,如下式所示:
23、
24、输出为性能指标函数j(t),其隐含层采sigmoid激活函数,输出层则采用线性激活函数,易知cnn网络的隐含层和输出层神经元的输入和输出如式(4)、(5)、(6)和(7)所示。
25、
26、
27、
28、
29、其中n为系统输入变量x(t)的维数,nco为控制向量u(t)的维数,nc为评价网络隐含层神经元的个数,qk、pk和pck分别为隐含层第k个神经元的输入值、中间状态值和输出值,ωc(1)、ωcr(1)和ωcu(1)分别表示系统输入变量x(t)、r(t)和u(t)从输入层到隐含层的权值,ωc(2)为隐含层到输出层的权值;
30、cnn网络权值更新计算公式:
31、
32、其中,ηc(t)是cnn网络的学习速率;
33、根据反向梯度下降法则可得从隐含层到输出层梯度计算公式:
34、
35、从输入层到隐含层梯度计算公式:
36、
37、
38、
39、其中,
40、优选地,所述ann网络通过网络权值的调整使得性能指标函数j(t)逼近目标期望函数uc(t)的数值,定义执行网络的误差函数如下式所示:
41、
42、执行网络的输入为:
43、x(t)=[x1(t),x2(t)…,xn(t)]t (14)
44、隐含层包含3种类型的节点,即比例(p)节点、积分(i)节点和微分(d)节点,可得ann网络隐含层和输出层神经元的输入和输出如下式所示:
45、
46、
47、
48、
49、其中nco为执行网络输出控制信号的个数,n为执行网络隐含层神经元的个数,hi、gi和gai分别为隐含层第i个神经元的输入、中间状态值和输出,ωa(1)和ωa(2)分别表示输入层到隐含层与隐含层到输出层的权值。ann网络权值更新公式如式所示:
50、
51、ηa(t)是ann网络的学习速率。
52、从隐含层到输出层以及输入层到隐含层的梯度计算式如下式所示。
53、
54、
55、其中,
56、优选地,所述rnn网络定义误差函数er(t)的计算公式,如下式所示:
57、
58、其中,r(t)是外部强化学习函数,定义为:
59、
60、(三)有益效果
61、与现有技术相比,本发明提供了一种基于pid-dhdp的机器人路径规划方法,具备以下有益效果:
62、该基于pid-dhdp的机器人路径规划方法,通过pid-dhdp能够在不确定性环境里,感知外界环境的态势,不断更新学习策略,优化移动机器人的路径,选择最优的路径,如此,具有鲁棒性强、收敛速度快以及泛化能力好等特点,在移动机器人的路径规划方面具有广阔的应用前景。
1.一种基于pid-dhdp的机器人路径规划方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于pid-dhdp的机器人路径规划方法,其特征在于:所述边形栅格地图通常将待建图的环境划分为尺寸大小相同的密布栅格,根据预先设定的占据阈值和每个栅格的占据概率值,判断每个栅格是否为可行区域。
3.根据权利要求1所述的一种基于pid-dhdp的机器人路径规划方法,其特征在于:所述pid-dhdp由pid执行网络-ann网络、pid评价网络-cnn网络和pid强化网络-rnn网络等三个网络组成,所述三个网络隐含层神经元的个数为6个;
4.根据权利要求3所述的一种基于pid-dhdp的机器人路径规划方法,其特征在于:所述cnn网络的输入xc(t)为:
5.根据权利要求3所述的一种基于pid-dhdp的机器人路径规划方法,其特征在于:所述ann网络通过网络权值的调整使得性能指标函数j(t)逼近目标期望函数uc(t)的数值,定义执行网络的误差函数如下式所示:
6.根据权利要求3所述的一种基于pid-dhdp的机器人路径规划方法,其特征在于:所述rnn网络定义误差函数er(t)的计算公式,如下式所示: