本发明涉及无人机避障,尤其涉及一种事件流和事件帧融合的强化学习无人机避障方法。
背景技术:
1、无人机技术的快速发展和广泛应用已经成为现代社会的重要组成部分,而在无人机的背景技术中,事件相机正逐渐成为关键的创新和突破点。传统的无人机通常搭载传感器和相机来获取环境信息和进行图像采集。然而,由于无人机的快速移动和不稳定的飞行状态,传统相机往往无法满足高速运动场景的准确捕捉和图像重建需求。这时,事件相机的出现为无人机提供了一种更为可行和高效的解决方案。事件相机的突出特点在于其卓越的时间分辨率和动态范围。在无人机飞行过程中,事件相机能够以微秒级的时间精度捕捉到每一个像素发生变化的时刻,从而实现对高速运动和快速变化场景的精准观测和记录。此外,事件相机根据像素发生变化的亮度级别自适应地调整曝光时间,能够在同一帧图像中捕捉到明亮和暗淡区域的细节,为无人机提供更加准确和全面的环境感知能力。但是从事件信息中提取特征的方式不同于传统的rgb图像,如何从事件相机中提取信息进行表征也就成为了无人机避障领域的研究热点。
2、基于事件的相机是一种特殊的视觉传感器,它可以独立测量每个像素的强度水平变化。给定像素位置(x, y),基于事件的相机的基本工作原理是测量该像素处的对数亮度变化,当对数亮度的变化超过设定的阈值时,相机会生成一个“事件”,报告变化的时间和位置,以及变化的“迹象”。与传统相机每秒输出一定数量的帧相比,事件相机以字节流的形式输出稀疏且异步的事件,本技术将其称为“事件流”。这些事件产生的速率是不均匀的,每秒产生的事件数量少则接近于0,多则可达到每秒上千万次。
3、强化学习适用于智能体与环境不断进行交互的场景中。强化学习中有五个核心的要素:智能体、环境、状态s、动作a以及奖励r;智能体在环境里面获取到状态,智能体会根据输入的状态和策略做出决策,输出一个动作。随后智能体会进入到下一个状态,并且同时得到环境反馈的奖励值,智能体的策略会根据环境给予的奖励进行调整,以尽可能地从环境中获得最多奖励。在搭载了事件相机的无人机避障的过程中,无人机需要根据事件相机输入的事件信息做出合适的动作,因而该避障场景适合应用强化学习来进行决策。
4、在事件信息的处理技术中,通常是将事件信息转换为事件流或事件帧中的某一种来进行特征提取的,这会导致对于事件信息的利用不够充分,因而需要融合表征的技术。将事件流和事件帧进行融合表征的核心问题就是如何解决数据不一致性和有效将两种数据内的信息进行融合。
5、由于事件流和事件帧的数据表示方式不同,事件信息特征融合问题具有数据不一致性,会出现时间难以对齐或者特征融合不兼容的情况。为了解决这个问题,研究者通常会在将事件信息转换为特征信息之前针对事件帧和事件流基于不同的特征提取网络进行初步特征提取,在经过特征的初步提取之后再进行融合。目前主要有基于自分编码器的事件流信息特征提取方法以及基于深度神经网络的事件帧信息特征提取方法。
6、基于事件上下文网络(event context network, 以下简称为ecn)的事件自分编码器(event variational autoencoder, 以下简称为evae)方法提供了一个将观测映射到潜在空间的概率框架。因此,evae要求其编码器描述每个潜在属性的概率分布,而不是将属性随机映射到输出。evae试图通过最大化训练数据的边际对数似然来学习参数潜变量模型,该模型由重建损失和相对熵散度损失(kullback-leibler,kl)散度损失组成。
7、基于深度学习的深度卷积网络事件帧体征提取模型,如当下人工智能领域中最为经典且强大的卷积神经网络(convolutional neural network,以下简称为cnn),从大规模的策略网络返回的特征信息中学习到从事件帧提取特征信息的知识,再利用这些知识为策略提供状态信息。并且通过替换cnn中的神经元将网络模型改为脉冲神经网络能够减少模型的功耗,从而进一步减轻无人机的负载。
8、基于策略的强化学习模型将状态信息与模型做出的动作之间进行关联,策略网络通过接收状态信息作为输入,并输出对应的动作概率分布。策略网络可以是基于神经网络的模型,通过学习从状态到动作的映射关系。
9、但随着事件相机的无人机避障中的应用越来越广泛,以上几种使用事件相机作为传感器的无人机避障方法都存在不同缺点,影响无人机避障的准确性。
10、基于事件上下文网络的事件自分编码器方法,由于仅仅是对事件流信息进行特征提取和特征表示,导致其较为缺少环境中的相对空间位置信息,此时无人机对于环境中障碍物的位置会不够敏感,最终的避障效果也会达不到足够理想的效果。
11、对于基于深度学习的深度卷积网络事件帧特征提取模型,其通过cnn来从事件帧信息中提取特征,其中更多的包含了障碍物的空间状态信息。但由于事件帧数据表示方式的原因,能从事件帧中获取的上下文信息较少,同时会导致模型受限于帧率,影响了模型对于突发情况的反映速度,降低了无人机避障成功率。
技术实现思路
1、本发明目的在于:提出了一种基于强化学习的融合了事件流和事件帧的无人机避障方法。旨在解决对事件信息利用不够充分,帧数据和流数据之间存在的数据不一致性和时间对齐问题,特征提取与融合效果不够理想化,强化学习训练困难等问题。
2、本发明为了实现上述目的采用以下技术方案:
3、一种事件流和事件帧融合的强化学习无人机避障方法,包括如下步骤:
4、步骤1、构建及预训练事件流特征提取网络,该事件流特征提取网络用于对无人机输入的事件流信息进行特征提取;
5、采集无人机训练过程中的离线事件流,构建训练集;其中,训练集中的各训练数据包括离线事件流和真值图像;
6、基于事件自分编码器构建事件流特征提取训练模型,其包括两个密级层,一个密级层用于对无人机输入的事件流信息进行特征编码,另一个密级层用于对事件流信息的编码特征进行解码,以重建事件流信息;
7、基于训练集对事件流特征提取训练模型进行训练,当网络的编码性能达到期望性能后停止,基于用于事件流信息进行特征编码的密级层得到训练好的事件流特征提取网络;
8、步骤2,构建无人机避障模型,其包括事件帧特征提取网络、策略网络、特征融合模块和步骤1训练好的事件流特征提取网络;
9、其中,事件帧特征提取网络为基于脉冲神经元神经元构建的脉冲神经网络模型,用于对无人机输入的事件帧图像进行特征提取;
10、将事件帧特征提取网络和事件流特征提取网络的输出特征送入特征融合模块进行融合,再将得到的融合特征输入策略网络,以得到无人机在当前状态下的动作概率分布;再基于动作概率分布输出无人机的动作角度:
11、;
12、;
13、其中,表示自然底数,表示动作概率分布对应权重,其根据的取值范围来将中间值更好地映射到(0,1)的区间内,即将动作概率分布的取值范围划分为不同的分段,并为每个分段配置不同的权重;通常,策略网络的动作概率分布是通过sigmoid函数实现的,即本发明基于所设置的实现了向sigmoid函数中加入的权重的目的,以实现中间值更好地映射,进而得到无人机最终的动作角度。
14、步骤3,搭建无人机飞行的仿真环境,以实现对无人机避障模型的训练;
15、训练无人机避障模型时,事件流特征提取网络的网络参数固定;训练过程中,无人机将采集的事件流信息和事件帧图像输入无人机避障模型,策略网络基于事件流和事件帧信息的融合特征输出无人机前进的动作角度 ,无人机根据动作角度和设置的无人机每个动作的步长做出相应动作,同时基于预置的策略网络的奖励函数得到相应的奖励值;
16、当满足预置的训练结束条件时,得到训练好的无人机避障模型。其中,训练结束条件包括但不限于:训练步数、损失函数值收敛等。
17、进一步的,步骤1中,事件流特征提取训练模型在训练时的损失函数包括重建损失和相对熵散度损失。
18、进一步的,无人机输入的事件流信息中,其对应的时间信息采用时间戳规范化为[0,1],事件自分编码器再基于时间戳计算每个标准化时间戳的d维时间特征,包括:
19、;
20、其中,时间特征的维度d为预设值,特征维度索引,表示计算得到的时间特征。
21、进一步的,事件帧特征提取网络在前向传播时,使用脉冲响应函数参与计算;在反向传播时,使用梯度替代函数的梯度来代替脉冲函数的梯度;
22、其中,脉冲响应函数和梯度替代函数的表达式具体为:
23、;;
24、其中,表示函数输入,预置参数用于控制函数的平滑程度。
25、进一步的,策略网络采用近端策略优化(proximal policy optimization,以下简称为ppo)算法实现对网络参数的更新。
26、进一步的,策略网络的奖励函数包括:
27、;
28、;
29、;
30、其中,为过程奖励,表示无人机在y轴上的坐标,表示无人机上一时刻在y轴上的坐标,过程奖励r表示无人机每在y轴上移动就会获得相应的奖励值;为碰撞惩罚,为发生碰撞前一时刻的奖励值,为预置的惩罚值,碰撞惩罚表示发生碰撞时会给与的惩罚;为到达奖励,为到达终点前一时刻的奖励值,为预置的奖励值,到达奖励表示无人机到达终点时会给与的奖励值。
31、进一步的,仿真环境包括障碍物、飞行场景以及无人机起点、终点的设置。
32、进一步的,无人机的起点和终点设置具体为:
33、以遍布障碍物的走廊为飞行场景;
34、将无人机的起点线设置在走廊的开始,起点位置为起点线上的随机一点,每当无人机发生碰撞或到达终点时,则在起点线上选择一个随机的点作为重置点;
35、以及将终点线设置在走廊的尽头,当无人机抵达该终点线即认为无人到达终点,而无须到达终点线的某一特意指定点。
36、本发明提供的技术方案至少带来如下有益效果:
37、本发明将事件相机传入的事件信息进行特征提取后转换为特征向量作为状态信息,随后将状态信息输入策略网络之中以得到输出的动作,环境会根据自定义的奖励函数给予奖励反馈,以完成策略网络的更新。本发明能够从事件相机生成的事件流和事件帧信息之中提取特征信息并进一步进行融合表征,该种事件信息提取方式相较于仅从事件流或事件帧中提取特征更为优秀,其能从两种数据类型的事件信息中提取到更为全面的特征信息,从而提升无人机避障的避障性能。
38、本发明在无人机避障任务中具有良好的性能,可以在特定的虚拟环境中增加无人机到达终点的成功率。