一种基于雷达与视觉多模态融合的具身语言导航方法

文档序号:26000961发布日期:2021-07-23 21:17阅读:来源:国知局

技术特征:

1.一种基于雷达与视觉多模态融合的具身语言导航方法,其特征在于,该方法首先在带有双目相机的机器人的上安装激光雷达,并构建一个多模态融合神经网络模型;利用该机器人对该多模态融合神经网络模型进行训练,得到训练完毕的多模态融合神经网络模型;选取任一真实场景,对机器人下达自然语言导航指令并利用该神经网络模型转化为对应的语义向量;利用机器人在每个时刻分别获取的rgb图、深度图以及雷达信息,利用神经网络模型分别转化为对应的特征;对语义向量、rgb图特征和深度图特征进行特征融合,通过解码得到当前时刻的动作特征;利用雷达特征对该动作特征进行修正后,神经网络模型最终输出机器人在当前时刻的动作,直至机器人完成导航任务。

2.如权利要求1所述的方法,其特征在于,该方法包括以下步骤:

1)在带有双目相机的机器人的上安装激光雷达,激光雷达安装在机器人的前方,安装完毕后,将该机器人作为执行导航任务的机器人;

2)构建多模态融合神经网络模型;该神经网络模型包括五个子网络,分别是:语言编码子网络,rgb图编码子网络,深度图编码子网络,雷达信息编码子网络以及包含两个全连接层和门控逻辑单元gru的解码子网络;利用步骤1)的执行导航任务的机器人在训练场景中对该多模态融合神经网络模型进行训练,训练完毕后,得到训练完毕的多模态融合神经网络模型;

3)选取任一真实场景,将执行导航任务的机器人放置在该场景中任意的初始位置并作为当前位置,记当前时刻t=1,给机器人下达自然语言导航指令,将该导航指令输入语言编码子网络,语言编码子网络对该导航指令的语言序列进行编码,得到语义向量s;该自然语言导航指令的内容包含导航任务的目的地;

4)机器人在当前位置利用双目相机获取到当前时刻t对应的rgb图和深度图,利用rgb图编码子网络对rgb图进行特征提取得到当前时刻的rgb图视觉特征vt,利用深度图编码子网络对深度图进行特征提取得到当前时刻的深度图视觉特征dt;机器人利用激光雷达从右向左进行扫描,对机器人到前方物体的距离进行采样,将采样得到的雷达数据输入雷达信息编码子网络,得到当前时刻的雷达特征lt;

5)将语义向量s、视觉特征vt和dt进行特征融合组成当前初始状态特征,对当前初始状态特征使用dropout机制进行随机失活,得到最终的当前状态特征;将该当前状态特征与前一时刻的动作at-1进行拼接,然后输入解码子网络的第一全连接层,该第一全连接层输出对应的状态特征;

将状态特征与上一时刻的隐状态ht-1一起输入到解码子网络里的门控逻辑单元gru中,gru输出当前时刻的动作特征at与隐藏状态ht;

其中,h0和a0均为特征值全为1的向量;

6)利用雷达特征lt对动作特征at进行修正,将修正后的特征输入解码子网络的第二全连接层,该第二全连接层输出机器人执行各动作的概率分布,然后选取概率最大值对应的动作作为机器人在当前时刻t的执行动作at;

7)机器人执行动作at,当下一个时刻到来时,令t=t+1,然后重新返回步骤4);直到机器人在当前时刻t的执行动作at为停止时,机器人完成导航指令到达目的地相应的位置,导航结束。

3.如权利要求2所述的方法,其特征在于,所述步骤3)中语言编码子网络对该导航指令的语言序列进行编码,得到语义向量s;具体方法为:

首先将指令中的每个单词进行embedding词嵌入操作,转换为对应的词向量,令xi表示第i个词向量,从i=1开始,将xi作为当前词向量与前一词向量的隐状态hi-1依次输入到语言编码子网络中,语言编码子网络输出当前词向量xi对应的隐状态hi;其中i=1时,hi-1为特征值全为1的向量;

记该自然语言指令有m个单词,则将语言编码子网络输出的最后一个词向量对应隐状态hm作为整条指令的语义向量s。

4.如权利要求2所述的方法,其特征在于,所述步骤6)中利用雷达特征lt对动作特征at进行修正的方法为将两个特征直接相加。


技术总结
本发明提出一种基于雷达与视觉多模态融合的具身语言导航方法,属于机器人导航、自然语言处理和计算机视觉领域。该方法首先在带有双目相机的机器人上安装激光雷达,利用该机器人训练一个多模态融合神经网络模型。选取任一真实场景,对机器人下达自然语言导航指令并转化为对应语义向量;利用机器人在每个时刻获取的RGB图、深度图以及雷达信息,分别转化为对应的特征;对语义向量、RGB图特征和深度图特征进行特征融合,得到当前时刻的动作特征;利用雷达特征对该动作特征进行修正后,神经网络模型最终输出机器人在当前时刻的动作,机器人执行该动作直至完成导航任务。本发明可使机器人对真实环境具有良好的感知能力,提高避障导航的效率。

技术研发人员:刘华平;周方波;袁小虎;赵怀林
受保护的技术使用者:清华大学
技术研发日:2021.02.24
技术公布日:2021.07.23
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1