本发明涉及视觉导航,尤其涉及一种多目标物体导航的全局优化方法、装置、存储介质。
背景技术:
1、在多目标导航(mon)的不同应用场景中,机器人、无人车或无人机等代理往往需要在未知环境中依次搜索和定位多个目标。与单目标导航任务不同,单目标导航任务要求代理专注于定位一个目标,而多目标导航涉及处理多个连续任务。此种顺序性增加了显著的复杂性,因为代理不仅要依次定位每个目标,还必须在规划这些目标的导航路径时实现有效的平衡,避免路径重叠并确保整体任务的全局优化。
2、多目标物体导航任务中,通常被要求在未知环境中按照预先设置的顺序导航到若干个目标。这就要求需要推理目标可能存在的位置,并进行合理的路径规划。此外,由于目标物体是随机放置在环境中的,增强对环境的探索能力显得尤为重要。
3、现有方法大多集中于单一目标的局部路径优化,无法兼顾全局任务路径,导致路径重叠和效率低下。且对于环境中位置相对孤立的目标,导航成功率低,显著降低了任务的整体完成效率。此外,缺乏在序列目标间的长远策略协调,忽略当前决策对未来任务完成的影响。
技术实现思路
1、针对现有技术的不足,本发明提出一种多目标物体导航的全局优化方法、装置、存储介质,该方法在复杂动态环境中显著提高多目标导航任务的完成率。
2、本发明一方面提供一种多目标物体导航的全局优化方法,包括:
3、通过融合图像数据和位姿传感器数据构建语义地图;
4、结合所述语义地图,将多个目标物体的语义嵌入输入至神经网络中,通过动态权重优化得到长期目标位置;
5、依据所述语义地图规划从当前位置到所述长期目标位置的路径。
6、在本发明一实施例中,所述通过融合图像数据和位姿传感器数据构建语义地图,包含:
7、获取多个时刻的rgb-d图像数据和位姿传感器数据;
8、通过3d基于点的融合算法将所述rgb-d图像数据和位姿传感器数据融合,构建以自我为中心的语义地图;其中,所述语义地图为n+2×w×h的矩阵,其中n为语义物体类别的数量,w×h为地图尺寸。
9、在本发明一实施例中,所述结合所述语义地图,将多个目标物体的语义嵌入输入至神经网络中,通过动态权重优化得到长期目标位置,包含:
10、将所述语义地图、传感器位姿数据和多个目标物体的语义嵌入输入至所述神经网络中,估计预测目标位置;
11、通过动态权重优化调整所述神经网络的策略参数,将调整后的预测目标位置作为所述长期目标位置。
12、在本发明一实施例中,所述通过动态权重优化调整所述神经网络的策略参数,包含:
13、初始化所述神经网络的策略参数和权重;
14、根据当前策略收集轨迹数据;
15、计算每个目标物体对应的目标策略函数的梯度;
16、通过最小化所有目标策略函数梯度的线性组合的平方范数,求解得到最优权重,所述最优权重满足各权重之和为1且权重非负;
17、根据所述最优权重和所述梯度更新所述神经网络的策略参数。
18、在本发明一实施例中,添加辅助任务,以优化所述神经网络,其中,所述辅助任务包含探索为中心的任务、先验知识为中心的任务,包含:
19、对所述探索为中心的任务通过计算代理当前位置到边界前沿位置的路径长度与所述边界前沿位置到预测目标位置的测地距离之和,构建探索距离函数;
20、对所述先验知识为中心的任务通过物体关系图计算预测目标位置与相关物体位置之间的距离,构建知识距离函数;
21、将所述探索距离函数的第一损失和知识距离函数的第二损失加入所述神经网络的总目标策略函数,优化所述神经网络。
22、在本发明一实施例中,所述探索距离函数表示为:
23、
24、其中,是从代理当前位置到边界前沿位置的路径长度,是从边界前沿位置到预测目标位置的预设区域的测地距离;
25、所述第一损失函数表示为:
26、
27、其中,为第一损失函数,表示最接近目标物体的位置,为在采样时间收集的轨迹的集合,t为采样步长。
28、在本发明一实施例中,所述知识距离函数表示为:
29、
30、其中,,为相关物体位置到预测目标位置的欧氏距离,表示类别的位置,表示物体类别数量,是物体关系图中的边,表示两个目标物体相邻的概率;
31、所述第二损失函数表示为:
32、
33、其中,为第二损失函数;
34、其中,所述总目标策略函数为:
35、
36、其中,对于目标物体,在采样时间收集的轨迹集合中,步长为的ppo目标策略函数表示为:
37、
38、其中,是策略参数,;是当前策略下行动概率与旧策略下行动概率的比率;表示时间步的优势函数;是最优权重。
39、在本发明一实施例中,基于所述语义地图中的障碍物信息,采用快速行进法规划从当前位置到所述长期目标位置的最短路径,生成代理的移动路径。
40、本发明另一方面还提供一种多目标物体导航的全局优化装置,包括:
41、语义地图构建模块,用以通过融合图像数据和位姿传感器数据构建语义地图;
42、多目标导航策略优化模块,用以结合所述语义地图,将多个目标物体的语义嵌入输入至神经网络中,通过动态权重优化得到长期目标位置;
43、局部路径规划模块,用以依据所述语义地图规划从当前位置到所述长期目标位置的路径。
44、本发明又一方面还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述多目标物体导航的全局优化方法的步骤。
45、本发明又一方面还提供一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现上述多目标物体导航的全局优化方法的步骤。
46、由以上方案可知,本发明的优点在于:
47、本发明揭示的多目标物体导航的全局优化方法,通过融合图像数据和位姿传感器数据构建语义地图;结合所述语义地图,将多个目标物体的语义嵌入输入至神经网络中,通过动态权重优化得到长期目标位置;依据所述语义地图规划从当前位置到所述长期目标位置的路径。该方法提升了多目标导航任务效率,在复杂动态环境中显著提高多目标导航任务的完成率,提升了路径效率,提高了在动态环境中对孤立目标及新目标的快速反应能力,显著降低任务失败率。
1.一种多目标物体导航的全局优化方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述通过融合图像数据和位姿传感器数据构建语义地图,包含:
3.根据权利要求1所述的方法,其特征在于,所述结合所述语义地图,将多个目标物体的语义嵌入输入至神经网络中,通过动态权重优化得到长期目标位置,包含:
4.根据权利要求3所述的方法,其特征在于,所述通过动态权重优化调整所述神经网络的策略参数,包含:
5.根据权利要求3所述的方法,其特征在于,添加辅助任务,以优化所述神经网络,其中,所述辅助任务包含探索为中心的任务、先验知识为中心的任务,包含:
6.根据权利要求5所述的方法,其特征在于,所述探索距离函数表示为:
7.根据权利要求5所述的方法,其特征在于,所述知识距离函数表示为:
8.根据权利要求1所述的方法,其特征在于,基于所述语义地图中的障碍物信息,采用快速行进法规划从当前位置到所述长期目标位置的最短路径,生成代理的移动路径,其中,所述代理为机器人、无人车或无人机。
9.一种多目标物体导航的全局优化装置,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该计算机程序被处理器执行时实现权利要求1-8中任一所述方法的步骤。