一种基于VR设备的视觉语言导航系统及方法

文档序号:34730619发布日期:2023-07-08 00:23阅读:55来源:国知局
一种基于VR设备的视觉语言导航系统及方法

本发明涉及一种导航系统及方法,特别涉及一种基于vr设备的视觉语言导航系统及方法。


背景技术:

1、目前,导航是自主机器人等智能无人设备的一项基本技能,近年来已经成为一个重要的研究领域,无人设备导航系统的研究包括环境预测、姿态选择、路径规划、行为选择等内容。大多研究仅仅局限于部分导航过程,例如运动规划、路径跟踪、低级行为控制等,均以高精度的环境地图作为已知条件,需要无人设备搭载激光雷达、gps等多种传感器提前构建环境地图,或者需要人类专家进行无人设备运动的逐步指导,需要无人设备具备较高的设备条件并投入更多的时间成本,忽略了实际应用中人机交互的需求。

2、人类一般利用视觉信息进行导航至某一目标位置的路线规划行为,为了实现更加自然的人机交互,视觉语言跨模态导航技术能够根据人类语言指令,结合路径中的视觉信息,完成由任意起点至目标位置点的导航任务。现有技术在具有全景图像的虚拟室内环境中设定了一定数量的可选点位,经过训练的导航系统能够基于从未见过的环境,以规定点位为起点,逐步选择正确的点位进行导航,经过若干的点位后最终到达正确的目标点位。现有的跨模态智能交互导航系统主要面向虚拟环境进行研究和开发,但是不同于虚拟环境,实际情况下的无人设备导航需要面对硬件设备或者真实环境中的视觉差异、定位误差问题等,距离技术应用还有一定差距。因此,需要依据实际室内环境设计可应用于无人设备的更加精细化的跨模态导航系统,实现人机协同的智能化导航系统。

3、vr设备是智能化人机交互系统中利用率较高的硬件设备,一般具有全景图像显示、眼动和头动信息采集等功能,能够利用多模态的信息形式与用户进行交互协同。而眼动信息是高效反应用户意图的表达形式,随着注视跟踪算法的发展,现有眼动识别技术已经能够以较高的精度进行眼动目标的实时定位。但是只通过眼动交互实现无人设备的导航过程较为繁琐,使用者的交互任务过重,从而导致疲劳等问题产生导航误差。

4、在视觉语言导航过程中,无人设备难以一次性地根据单条指令到达目的地,在此过程中往往会遇到各种困难,例如难以解析的场景和指令,此时就需要系统和用户进行二次或多次的交互,获取更多的信息,来完成接下来的动作。以适当的时机和适量的程度加入人类交互的指导过程,能够避免导航路线产生较大的偏差,从而使导航任务更加高效精确。


技术实现思路

1、本发明为解决公知技术中存在的技术问题而提供一种基于vr设备的视觉语言导航系统及方法。

2、本发明为解决公知技术中存在的技术问题所采取的技术方案是:一种基于vr设备的视觉语言导航系统,系统包括图像采集模块、vr设备模块、深度特征提取模块、视觉特征提取模块、文本特征提取模块、眼动特征提取模块、注意力权重模块、眼动信息融合模块、gru网络模块及置信度判断模块a;

3、图像采集模块用于实时采集环境图像,环境图像的信息包括全景图像信息和深度信息;

4、vr设备用于输入来自图像采集模块采集的环境图像,及实时向用户显示采集的环境图像,并采集一段时间内用户的眼灰度图像序列并保存;

5、眼动特征提取模块用于对vr设备采集的眼灰度图像序列进行注视角度识别,其将注视角度转化为与环境图像相对应的以像素为单位的二维坐标值序列;其再将二维坐标值序列转换为高斯图序列的眼动特征;

6、深度特征提取模块用于提取图像采集模块采集的环境图像的深度特征;

7、视觉特征提取模块用于提取图像采集模块采集的环境图像的视觉特征;

8、文本特征提取模块用于提取导航动作指令的文本特征;

9、注意力权重模块用于计算多个特征的注意力权重;

10、眼动信息融合模块用于融合眼动特征与以下特征中的一种或几种特征:深度特征、视觉特征、文本特征;

11、gru网络模块用于输入由注意力权重模块赋予注意力权重的深度特征、视觉特征、文本特征,或融合眼动特征的深度特征、视觉特征、文本特征,输出预测的导航动作指令特征;

12、置信度判断模块a用于判断gru网络模块预测的导航动作指令特征置信度高低。

13、进一步地,gru网络模块包括多个gru网络单元,gru网络单元直接或者通过注意力权重模块与以下模块的一种或几种相连:深度特征提取模块、视觉特征提取模块、文本特征提取模块、眼动特征提取模块。

14、进一步地,gru网络模块还包括置信度判断模块b,置信度判断模块b用于判断各gru网络单元输出的置信度。

15、进一步地,置信度判断模块b包括全连接层以及softmax层;全连接层用于对导航动作指令特征进行分类,softmax层用于计算各导航动作指令特征的置信度。

16、进一步地,注意力权重模块包括多个注意力权重单元;每个注意力权重单元与以下模块中的至少一个相连:深度特征提取模块、视觉特征提取模块、文本特征提取模块、眼动特征提取模块。

17、进一步地,gru网络模块包括二个gru网络单元,分别是第一至第二gru网络单元;注意力权重模块包括五个注意力权重单元;分别是第一至第五注意力权重单元;

18、设当前时间节点t,第二gru网络单元的输出值为at,at作为当前时间节点t预测的导航动作指令特征数据;

19、第一gru网络单元的输出值及隐状态值为第二gru网络单元的隐状态值为

20、设上一个时间节点t-1,第二gru网络单元输出预测的导航动作指令特征数据为at-1,第一gru网络单元的隐状态值为第二gru网络单元的隐状态值为

21、其中,第一gru网络单元,其将当前位置视觉特征提取模块及深度特征提取模块的输出数据,以及at-1及作为其当前时间节点时t的输入数据;

22、第一注意力权重单元,其分别输入来自文本特征提取模块的输出数据及

23、第二注意力权重单元,其分别输入视觉特征提取模块及第一注意力权重单元的输出数据;

24、第三注意力权重单元,其分别输入深度特征提取模块及第一注意力权重单元的输出数据;

25、第四注意力权重单元,其分别输入视觉特征提取模块及眼动特征提取模块的输出数据,输出眼动注意力加权的视觉特征数据;

26、第五注意力权重单元,其分别输入深度特征提取模块及眼动特征提取模块的输出数据,输出眼动注意力加权的深度特征数据;

27、第二gru网络单元,其将如下数据作为其当前时间节点时的输入数据:当前位置第一至第三注意力权重单元的输出数据,以及at-1、及

28、进一步地,深度特征提取模块包括利用pointgoal数据集完成预训练的resnet50模型以及平均池化层;resnet50模型用于利用预训练所学的网络参数权重,计算深度特征表达;平均池化层用于调整维度大小,从而使深度特征与其他特征位于同一向量空间。

29、进一步地,视觉特征提取模块包括利用imagenet数据集完成预训练的resnet50模型以及平均池化层;resnet50模型用于利用预训练所学的网络参数权重,计算视觉特征表达;平均池化层用于调整resnet50模型输出数据的维度大小,使视觉特征与其他特征位于同一向量空间。

30、进一步地,文本特征提取模块包括glove模型和全连接层;glove模型用于计算文本输入的词向量表示;全连接层用于调整glove模型输出数据的维度大小,使文本特征与其他特征位于同一向量空间。

31、进一步地,眼动特征提取模块包括基于三维建模的注视跟踪模块以及特征计算模块;基于三维建模的注视跟踪模块用于由vr眼睛采集的双眼图像得到注视坐标;特征计算模块,其用于将坐标值形式的眼动序列转化为二维的高斯图表示,其中高斯图的均值为某一时刻的眼动坐标点(a,b),方差设定为1,其采用卷积神经网络调整特征维度。

32、本发明还提供了一种利用上述的基于vr设备的视觉语言导航系统的基于vr设备的视觉语言导航方法,该方法包括如下步骤:

33、步骤1,用户向vr设备下达导航动作指令特征,通过文本特征提取模块提取导航动作指令特征中的文本特征;

34、步骤2,通过图像采集模块获取所在环境的全景图像信息和深度信息;

35、步骤3,深度特征提取模块及视觉特征提取模块对应提取环境图像的深度特征及视觉特征;

36、步骤4,注意力权重模块计算文本特征、深度特征及视觉特征的注意力权重,并输出加权的文本特征、深度特征及视觉特征;

37、步骤5,gru网络模块输入由注意力权重模块赋予注意力权重的深度特征、视觉特征及文本特征,输出导航动作指令特征;gru网络模块输出的导航动作指令特征包括停止、前进0.25m、15°左转以及15°右转;

38、步骤6,置信度判断模块a判断gru网络模块输出的导航动作指令特征是否具有显著性;若具有显著性则执行步骤7;若不具有显著性则执行步骤8;

39、步骤7,判断gru网络模块输出的导航动作指令特征是否为停止,若为是,则停止导航;若为否,则返回步骤1;

40、步骤8,向用户发起人机协同请求,通过vr设备显示环境全景图,同时获取用户的眼灰度图像序列,然后由眼动特征提取模块对采集的眼灰度图像序列进行注视角度识别,并将注视角度转化为与环境图像相对应的以像素为单位的二维坐标值序列;再将二维坐标值序列转换为高斯图序列的眼动特征;

41、步骤9,由眼动信息融合模块融合眼动特征与深度特征及视觉特征,得到眼动注意力加权的视觉特征和眼动注意力加权的深度特征,将两者分别代替未加权的视觉特征及深度特征输入至注意力权重模块;返回步骤4。

42、本发明具有的优点和积极效果是:本发明所提出的一种基于vr设备的视觉语言导航系统及方法,以适当的时机和适量的程度加入人机交互的指导过程,并以vr设备为人机交互的载体,以眼动识别模块为交互形式,能够避免导航路线产生较大的偏差,从而使导航任务更加高效精确。

43、本发明相较于现有的以规定点位为可导航点的方法,本发明可将导航动作设定为几种方式,比如包括停止在终点位置、前进和转向,并结合环境深度信息进行导航动作的选择,令导航路径更具有连续性,更加贴近实际应用场景。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1