智能体信息交互对象确定方法、系统、电子设备及介质

文档序号:35246272发布日期:2023-08-25 14:30阅读:68来源:国知局
智能体信息交互对象确定方法、系统、电子设备及介质

本发明涉及智能体信息交互领域,特别是涉及一种智能体信息交互对象确定方法、系统、电子设备及介质。


背景技术:

1、多智能体信息交互对于现实世界中分布式多智能体系统之间的协作至关重要,例如自动驾驶汽车规划、交通信号灯控制和多机器人控制等。尤其是在不完全可观测的环境中,智能体由于传感器探测范围有限以及传感数据噪声等问题,只能对局部场景进行感知与理解。多智能体之间的信息交互可以通过信息的共享,为智能体提供近似全局的视野,提高智能体对集群任务执行情况的了解,促进协作行为的产生。

2、现有的多智能体信息交互方法,通过构建通信神经网络、双向协调网络、意图共享方案等将自身的局部观测信息进行表征,然后广播给所有其他队友智能体。为了形成自适应的交互过程,tarmac方法引入基于签名的注意力机制,使智能体在交互信息融合过程中更加关注与自身更相关的信息,但仍然是一种全交互机制,使智能体能够忽略接收到的不相关消息。大多数的多智能体信息交互方法,需要在所有智能体之间进行信息共享,使得每个智能体难以区分,交互信息中有助于协作决策的有价值信息和阻碍协作决策的冗余信息,加大了信息筛选与融合的难度,难以高效提升智能体间的协作,甚至会阻碍协作策略的学习过程。此外,在现实世界的应用中,广播交互需要大量信息传递,对通信带宽依赖高,在弱通信条件下容易形成信息传递的阻塞,造成信息滞后、丢失等问题,加剧了协作策略学习的复杂性。

3、综上,当前的多智能体交互方法,主要采用观测信息表征与广播传递的交互机制在智能体之间进行信息共享,没有考虑不同场景状态下,各个交互对象对自身的交互价值是不同的,存在交互过程缺乏针对性,大量交互信息传递对通信带宽依赖高,所需通信开销大的问题。因此,形成具有针对性的信息交互过程,能够根据不同的协作状态,动态选择有价值的部分交互对象进行信息共享,以提升智能体之间交互与协作的效率是非常重要的。


技术实现思路

1、本发明的目的是提供一种智能体信息交互对象确定方法、系统、电子设备及介质,以提高多智能体之间信息交互的效率。

2、为实现上述目的,本发明提供了如下方案:

3、一种智能体信息交互对象确定方法,包括:

4、获取协作场景中目标智能体的自身观测信息和当前非目标智能体的位置信息;所述协作场景内设置有多个智能体、多个动态目标和多个静态障碍物;所述自身观测信息包括目标智能体的速度信息、目标智能体的位置信息、目标智能体局部感知范围内静态障碍物的位置信息和目标智能体局部感知范围内动态目标的位置信息;

5、根据所述目标智能体的自身观测信息和所述当前非目标智能体的位置信息,利用交互偏好网络,预测所述目标智能体与所述非目标智能体的交互概率和所述目标智能体与所述当前非目标智能体的不交互概率;其中,所述交互偏好网络是利用训练样本集对交互偏好初始网络进行训练确定的;所述训练样本集包括多个具有交互标签的训练样本;所述训练样本包括目标智能体样本的自身观测信息和一个非目标智能体样本的位置信息;所述交互标签为1或0;1为选择所述当前非目标智能体样本作为所述目标智能体样本的交互对象;0为不选择所述当前非目标智能体样本作为所述目标智能体样本的交互对象;所述交互偏好初始网络包括依次连接的第一全连接层、第二全连接层、第三全连接层和softmax层;

6、根据所述交互概率和所述不交互概率,确定所述目标智能体的交互对象。

7、可选地,利用训练样本集对交互偏好初始网络进行训练,具体包括:

8、获取多个训练样本;

9、对所述训练样本标注交互标签,构建训练样本集;

10、将所述训练样本集中具有交互标签的训练样本输入至当前交互偏好初始网络,确定目标智能体样本与非目标智能体样本的交互概率和目标智能体样本与非目标智能体样本的不交互概率;

11、计算所述目标智能体样本与非目标智能体样本的交互概率与样本标签的损失值;

12、根据所述损失值更新所述当前交互偏好初始网络的参数;

13、判断当前训练轮数是否大于最大训练轮数,若是,则结束训练;若否,则返回“将所述训练样本集中一批具有交互标签的训练样本输入至当前交互偏好初始网络,确定目标智能体样本与非目标智能体样本的交互概率和目标智能体样本与非目标智能体样本的不交互概率”的步骤。

14、可选地,对所述训练样本标注交互标签,构建训练样本集,具体包括:

15、将所述训练样本依次输入至所述交互偏好初始网络中,确定所述目标智能体样本的候选交互对象;

16、针对任一目标智能体样本:

17、接收的所述候选交互对象发送的第一交互信息,并根据所述目标智能体样本的自身观测信息,确定待发送至将目标智能体样本选择为候选交互对象的其他智能体的第二交互信息;

18、根据目标智能体样本的自身观测信息和所述第一交互信息,确定当前时刻选择的动作并执行,得到执行所述动作后的协作场景;所述动作为向前、向后、向左、向右或保持不动;

19、计算所述目标智能体样本选择的动作和所述候选交互对象选择的动作,确定动作的softmax分布和边缘分布;

20、根据所述softmax分布和所述边缘分布,确定所述目标智能体样本和所述候选交互对象的交互偏好值;所述交互偏好值为所述softmax分布和所述边缘分布的kl散度;

21、根据所述交互偏好值和预设偏好阈值,确定所述目标智能体样本和所述候选交互对象的交互标签,得到训练样本集。

22、可选地,根据所述交互偏好值和预设偏好阈值,确定所述目标智能体样本和所述候选交互对象的交互标签,得到训练样本集,具体包括:

23、判断所述交互偏好值是否大于所述预设偏好阈值;

24、若是,则确定所述目标智能体样本和所述候选交互对象的交互标签为1;

25、若否,则确定所述目标智能体样本和所述候选交互对象的交互标签为0。

26、可选地,预设偏好阈值的确定,具体包括:

27、将所述目标智能体样本与每个候选交互对象的交互偏好值升序排序;

28、将排在预设分位数的交互偏好值作为预设偏好阈值。

29、可选地,根据所述交互概率和所述不交互概率,确定所述目标智能体的交互对象,具体包括:

30、判断所述交互概率是否大于所述不交互概率;

31、若是,则确定所述当前非目标智能体为所述目标智能体的交互对象;

32、若否,则确定所述当前非目标智能体不是所述目标智能体的交互对象。

33、一种智能体信息交互对象确定系统,包括:

34、信息获取模块,用于获取协作场景中目标智能体的自身观测信息和当前非目标智能体的位置信息;所述协作场景内设置有多个智能体、多个动态目标和多个静态障碍物;

35、概率预测模块,用于根据所述目标智能体的自身观测信息和所述当前非目标智能体的位置信息,利用交互偏好网络,预测所述目标智能体与所述非目标智能体的交互概率和所述目标智能体与所述当前非目标智能体的不交互概率;其中,所述交互偏好网络是利用训练样本集对交互偏好初始网络进行训练确定的;所述训练样本集包括多个具有交互标签的训练样本;所述训练样本包括目标智能体样本的自身观测信息和一个非目标智能体样本的位置信息;所述交互标签为1或0;1为选择所述当前非目标智能体样本作为所述目标智能体样本的交互对象;0为不选择所述当前非目标智能体样本作为所述目标智能体样本的交互对象;所述交互偏好初始网络包括依次连接的第一全连接层、第二全连接层、第三全连接层和softmax层;

36、交互对象确定模块,用于根据所述交互概率和所述不交互概率,确定所述目标智能体的交互对象。

37、一种电子设备,包括:存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行上述的智能体信息交互对象确定方法。

38、一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的智能体信息交互对象确定方法。

39、根据本发明提供的具体实施例,本发明公开了以下技术效果:

40、本发明的智能体信息交互对象确定方法、系统、电子设备及介质,通过获取当前协作场景中目标智能体的自身观测信息和当前非目标智能体的位置信息;根据所述目标智能体的自身观测信息和所述当前非目标智能体的位置信息,利用交互偏好网络,对所述目标智能体与所述非目标智能体的交互概率和所述目标智能体与所述当前非目标智能体的不交互概率进行预测;根据所述交互概率和所述不交互概率,确定所述目标智能体的交互对象。其中,使用了kl散度实现智能体之间交互偏好的度量,利用交互偏好值确定出的训练样本集对交互偏好网络进行训练,确定交互偏好网络。本发明在多智能体协作过程中,通过交互偏好的引入,支持智能体在不同的场景状态下,自适应地选择不同的交互对象进行信息共享,形成有针对性的信息交互过程,通过信息共享提升智能体对全局场景以及队友智能体的感知与理解,缓解场景的不完全可观测问题,从而提高了多智能体间信息交互的效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1