一种结合图像描述和文本生成图像的视觉语言导航方法

文档序号:37120935发布日期:2024-02-22 21:25阅读:12来源:国知局
本发明属于视觉语言导航,涉及一种结合图像描述和文本生成图像的视觉语言导航方法。
背景技术
::1、人工智能领域中,自然语言处理和计算机视觉技术已经在多个任务上取得显著的成就。正是由于它们的飞速发展,一个越来越强的趋势就是将它们结合起来,实现多模态机器学习,用于处理综合性更强的任务,如视觉问答、图像描述和文本生成图像等。其中,视觉语言导航作为多模态机器学习领域和具身智能领域的一个重要分支,吸引了广泛的关注。在同时具有视觉、语言能力的基础上,该任务进一步地要求智能体能够根据当前信息做出动作决策。2、视觉语言导航任务要求智能体结合自然语言指令和第一人称视觉信息,能够在陌生环境中自主导航,以实现指令所提出的目标。例如,室内居家环境中,人们可能需要智能体的帮助,发送类似于“帮我去卧室,找到放在床头柜上的书”这样的简洁指令。这就需要视觉语言导航智能体具备理解自然语言指令和观察周围环境能力,并且能够依据获得的视觉、语言信息进行推理决策,最终完成导航任务。3、可以看出,视觉语言导航任务是一个极具挑战的综合性任务,需要考虑多种信息源,包括全景视觉信息、语言指令信息、历史决策信息以及历史视觉信息。然而,对于这样一个复杂的任务,目前的研究多依赖于基于真实场景图片构建的模拟仿真环境,而这种环境的构建通常费时费力。其中,获取足够多具有人体高度视点的真实三维立体环境数据最为困难,例如,matterprt3d模拟器仅包含60个不同的房间环境供智能体进行训练,剩余的环境还需用于验证和测试。尽管许多研究努力从提高指令数量的角度丰富数据量,但仍然难以避免模拟器中可用场景数量稀缺的问题,所以数据稀缺问题一直是阻碍着视觉语言导航发展的主要挑战之一。技术实现思路1、有鉴于此,本发明的目的在于提供一种结合图像描述和文本生成图像的视觉语言导航方法。为达到上述目的,本发明提供如下技术方案:2、一种结合图像描述和文本生成图像的视觉语言导航方法,该方法包括以下步骤:3、s1:获取视觉语言导航任务的自然语言目标指令以及当前场景所处位置的视觉图像;4、s2:基于s1获得的全景视觉图像,通过场景描述模块生成描述了当前场景所处位置的所属房间类型、核心物品对象、核心物品对象间关系以及核心场景布局的详尽自然语言图像描述;5、s3:将s2中生成的详尽自然语言图像描述作为文本生成图像模型的输入,最终生成与所描述场景有着类似核心物品对象以及核心场景布局的相似场景;6、s4:将s1中的视觉图像以及s3中基于当前场景生成的相似场景图像分别通过多层transformer结构提取视觉特征,同时将s1中的自然语言目标指令通过文本编码器得到目标指令编码,随后结合目标指令编码将提取得到的两种视觉特征通过细尺度跨模态编码器进行编码,最终生成当前场景编码和相似场景编码;7、s5:将s4中生成的当前场景编码和相似场景编码通过交叉注意力层生成视觉增强场景融合特征,并将其注入到线性前馈网络,再通过softmax激活函数基于当前所有可航点生成对下一步执行动作的视觉增强动作预测,将视觉增强动作预测和基准专家动作进行交叉熵运算,生成增强动作损失,即通过监督视觉增强动作预测来指导视觉增强场景融合特征的学习,通过公式描述为:8、9、10、11、其中,t表示当前时间步骤,表示视觉增强场景融合特征,cross-attn表示交叉注意力层,表示当前场景编码,表示相似场景编码,表示视觉增强动作预测,ffn表示线性前馈网络,表示增强动作预测损失,crossentropy表示交叉熵损失函数,表示基准专家动作;12、s6:更进一步地,在每一时间步骤,通过线性前馈网络和sigmoid激活函数聚合s4中生成的当前场景编码与s5中生成的视觉增强场景融合特征,为动态融合s5中的视觉增强动作预测和基于当前场景所作出的动作预测生成动态融合权重:13、14、其中,σt表示可学习的动态融合权重,基于此,最终的导航决策表示为:15、16、其中,表示综合考虑了当前真实场景和对应相似场景的融合动作预测,最后将融合动作预测与基准专家动作进行交叉熵计算:17、18、其中,表示融合动作预测损失,通过监督融合动作预测来指导整个决策过程的学习。19、可选的,所述s2中,通过场景描述模块生成详尽自然语言图像描述的具体流程为:20、首先将获得的当前场景所处位置的全景图像通过均匀地调整智能体视角离散化为36张第一人称视觉图像,随后对于每一张视觉图像,使用预训练好的视觉-语言模型clip或者bilp-2总体概述当前图像,生成一条描述了当前所属房间类型以及图像拥有的核心物品对象的总体概述;同时,基于开源数据集visual genome dataset,以“属性-对象”两元组和“主体-谓词-客体”三元组的格式对特定场景,如室内居家场景,建立场景描述语料库,再将当前图像以左上、右上、左下、右下以及公共中心的图片位置切割为五张子图,基于多模态预训练模型clip,使用其文本编码器clip-t对整个场景描述语料库进行编码作为查找关键字,再使用其图像编码器clip-i分别对每一张切割后的子图进行编码并将其作为询问,查找在场景描述语料库中与之余弦相似度最高即匹配度最高的关键字,将该关键字对应的场景描述作为当前子图的描述,形成一条描述了子图中核心物品对象或核心物品对象间关系的细节描述;综上,最终能够获得一条总体概述和五条细节描述,将它们以先总体概述再细节描述的顺序,并结合细节描述的对应位置关系组合生成详尽自然语言图像描述。21、可选的,所述s3中,文本生成图像模型是指多模态机器学习领域中文本生成图像任务的先进模型,包括stable diffusion。22、可选的,所述s4中,文本编码器将每个单词进行编码,表示单词相对于整个句子的位置编码和单词类型编码,最后将位置编码和单词类型编码一起注入到多层transformer结构中。23、可选的,所述s4中,细尺度跨模态编码器具体为图像特征提取网络,包括resnet、vit或者clip,融合目标指令语言特征和视觉图像特征的交叉注意力层, 自注意力层,线性前馈网络。24、本发明的有益效果在于:受人类在陌生场景中会依靠经验主动联想曾经见过的相似场景来帮助行为决策的启发,通过结合使用同为多模态机器学习领域的图像描述和文本生成图像任务的先进模型,基于当前所见场景生成与之相似的场景,为任务训练提供额外的视觉数据输入,从而提高视觉语言导航智能体的任务性能和模型的泛化能力。25、本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1