一种基于强化学习的无人机自主着陆方法

文档序号:31053662发布日期:2022-08-06 09:42阅读:来源:国知局

技术特征:
1.一种基于强化学习的无人机自主着陆方法,其特征在于,包括以下步骤:s1:采集无人机摄像头的图像信息,形成原始数据,将采集的原始数据和无人机位置信息存入样本合集;s2:对样本合集进行采样,对采样数据进行带有辅助定位任务的深度q网络训练,进行无人机动作q1值的预测;根据q1值,采用贪婪策略选择无人机动作d1,使无人机自身与地面标志水平对齐;s3:对样本合集采用动态分区经验回放采样方法进行采样,对采样数据进行带有辅助定位任务的深度q网络训练,进行无人机动作q2值的预测;根据q2值,采用贪婪策略选择无人机动作d2,使得无人机自身在垂直方向下降,并在水平方向调整位置保持与地面标志对齐;s4:无人机着陆。2.如权利要求1所述的基于强化学习的无人机自主着陆方法,其特征在于:在所述带有辅助定位任务的深度q网络训练中包括两种辅助定位任务:分类辅助定位任务或者回归辅助定位任务。3.如权利要求2所述的基于强化学习的无人机自主着陆方法,其特征在于:所述分类辅助定位任务,在s2阶段采样数据通过卷积层处理输出为23
×
23维分类向量,在s3阶段采样数据通过卷积层处理输出为7维分类向量。4.如权利要求2所述的基于强化学习的无人机自主着陆方法,其特征在于:在回归辅助定位任务中,采用神经网络来回归预测出无人机和标志的相对坐标(δx,δy,δz);其中,标志的空间坐标为(x
marker
,y
marker
,z
marker
),无人机的空间坐标为(x
uav
,y
uav
,z
uav
),则无人机与标志的3维相对坐标可以表示为:(δx,δy,δz)=(x
uav-x
marker
,y
uav-y
marker
,z
uav-z
marker
)5.如权利要求1或2所述的基于强化学习的无人机自主着陆方法,其特征在于:在s2阶段深度q网络训练的奖励函数为其中,s是无人机的状态,a是无人机执行的动作。6.如权利要求5所述的基于强化学习的无人机自主着陆方法,其特征在于:所述无人机周身存在五个方向,分别是周身的第一方向,第二方向,第三方向,第四方向,处在无人机机翼上空的第五方向,无人机动作包括往第一方向飞行的向前,第二方向飞行的向后,第三方向飞行的向左,第四方向飞行的向右,第五方向飞行的下降,当无人机电机停转时的着陆,动作d1值包括5个动作,分别是向前、向后、向左、向右和下降,当d1值为下降时,进入s3阶段。7.如权利要求6所述的基于强化学习的无人机自主着陆方法,其特征在于:所述s3的动态分区经验回放采样方法,将样本合集划分为中立、负和正分区,通过加权优先采样对每个分区进行采样;每个经验样本的优先级与其时间差分误差的绝对值成正比;将三个分区的平均绝对时间差分误差进行归一化,归一化结果分别作为每个采样批次中该分区样本的采
样比例;每次采集一个批次的经验对网络参数进行更新,然后使用更新后的网络对该批次经验的时间差分误差进行重新计算,并更新该批次经验的优先级。8.如权利要求7所述的基于强化学习的无人机自主着陆方法,其特征在于:在s3阶段深度q网络训练的奖励函数为其中s是无人机的状态,a是无人机执行的动作。9.如权利要求8所述的基于强化学习的无人机自主着陆方法,其特征在于:所述无人机动作d2值包括6个动作,分别是向前、向后、向左、向右、下降和着陆,当d2为着陆时,无人机着陆。10.如权利要求9所述的基于强化学习的无人机自主着陆方法,其特征在于:所述分类辅助定位任务使用交叉熵损失函数处理数据,所述回归辅助定位任务使用均方差损失处理数据。

技术总结
本发明公开了一种基于强化学习的无人机自主着陆方法,先采集无人机摄像头的图像信息,形成原始数据,对数据进行带有辅助定位任务的深度Q网络训练,使无人机自身与地面标志水平;然后对数据进行带有辅助定位任务的深度Q网络训练,使得无人机自身在垂直方向下降,并在水平方向调整位置保持与地面标志对齐;最后无人机着陆;本发明在深度Q网络训练中采用动态分区经验回放方式以稳定和加快培训程序,通过辅助的定位任务与改进的采样策略相结合,有助于被训练的人员模型在更多的环境中推广,并取得了卓越的成就着陆性能。取得了卓越的成就着陆性能。取得了卓越的成就着陆性能。


技术研发人员:孙长银 王嘉伟 何子辰 耿凡
受保护的技术使用者:同济大学
技术研发日:2022.03.31
技术公布日:2022/8/5
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1