基于知识感知注意力网络的视觉常识推理方法及系统

文档序号：33399613发布日期：2023-03-08 15:44阅读：来源：国知局

技术特征：
1.一种基于知识感知注意力网络的视觉常识推理方法，其特征是，包括：以多组互相对应的样本图像、样本问题和已标注的样本答案候选项为样本训练集，训练所构建的视觉常识推理模型；所述训练过程包括：获取样本图像中视觉对象的视觉特征，获取样本问题和样本答案候选项的初始语境句子表示；根据视觉上下文引导，自适应提取样本问题和样本答案候选项中的与视觉相关的重要信息，学习获得样本问题和样本答案候选项基于知识的句子表示，再通过知识嵌入，学习样本问题和样本答案候选项的知识感知注意向量；将获取的知识感知注意向量与视觉特征进行融合，获取融合特征，以此训练视觉常识推理模型；将待推理图像、待推理问题和多个推理答案候选项输入至训练完成的视觉常识推理模型，输出推理结果。2.如权利要求1所述的基于知识感知注意力网络的视觉常识推理方法，其特征是，所述获取样本问题和样本答案候选项的初始语境句子表示，包括：利用预训练的语言表征模型提取样本问题和样本答案候选项自然语言文本的词嵌入；将提取的词嵌入输入至双向长短期记忆网络中，生成样本问题和样本答案候选项的初始语境句子表示。3.如权利要求1所述的基于知识感知注意力网络的视觉常识推理方法，其特征是，所述获取样本图像中视觉对象的视觉特征，包括：利用预训练的基于resnet101网络的目标检测模型对样本图像进行目标检测，提取出图像中多个视觉对象的视觉特征。4.如权利要求1所述的基于知识感知注意力网络的视觉常识推理方法，其特征是，所述根据视觉上下文引导，自适应提取样本问题和样本答案候选项中的与视觉相关的重要信息，学习获得样本问题和样本答案候选项基于知识的句子表示，包括：在视觉信息的引导下，利用基于bert的预训练语言模型zen，通过语法匹配算法，筛选得到样本问题和样本答案候选项中与视觉特征相关的词组，以此构建词组候选集合；聚集词组候选集合中各词组在视觉特征中的嵌入表示，通过上下文引导，学习样本问题和样本答案候选项的基于知识的句子表示。5.如权利要求4所述的基于知识感知注意力网络的视觉常识推理方法，其特征是，利用预训练的transe模型学习得到词组候选集合中各候选词组在视觉特征中的嵌入表示；在获取样本问题和样本答案候选项的初始语境句子表示的基础上，结合学习得到的词组嵌入表示，通过上下文引导，学习样本问题和样本答案候选项基于知识的句子表示。6.如权利要求1所述的基于知识感知注意力网络的视觉常识推理方法，其特征是，所述通过知识嵌入，学习样本问题和样本答案候选项的知识感知注意向量，包括：根据样本问题和样本答案候选项的初始语境句子表示和基于知识的句子表示，分别计算样本问题和样本答案候选项的注意矩阵和基于知识的注意矩阵；在注意矩阵和基于知识的注意矩阵上确定行和列的最大汇集，分别为样本问题和样本答案候选项生成基于视觉上下文的注意向量和基于知识的注意向量；将两个注意向量合并，得到样本问题和样本答案候选项的初始知识感知注意向量；
将初始知识感知注意向量与整个句子向量进行点积，分别获得样本问题和样本答案候选项最终的知识感知注意向量。7.如权利要求1所述的基于知识感知注意力网络的视觉常识推理方法，其特征是，所述获取融合特征，以此训练视觉常识推理模型，包括：以设有分段线性函数的多层感知器为分类器，以融合特征为输入，以样本答案候选项的真实标签与预测标签之间的交叉熵损失训练视觉常识推理模型。8.一种基于知识感知注意力网络的视觉常识推理系统，其特征是，包括：视觉常识推理模型构建及训练模块，用于以多组互相对应的样本图像、样本问题和已标注的样本答案候选项为样本训练集，训练所构建的视觉常识推理模型；所述训练过程包括：获取样本图像中视觉对象的视觉特征，获取样本问题和样本答案候选项的初始语境句子表示；根据视觉上下文引导，自适应提取样本问题和样本答案候选项中的与视觉相关的重要信息，学习获得样本问题和样本答案候选项基于知识的句子表示，再通过知识嵌入，学习样本问题和样本答案候选项的知识感知注意向量；将获取的知识感知注意向量与视觉特征进行融合，获取融合特征，以此训练视觉常识推理模型；推理模块，用于将待推理图像、待推理问题和多个推理答案候选项输入至训练完成的视觉常识推理模型，输出推理结果。9.一种电子设备，其特征是，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成如权利要求1-7中任一项所述的一种基于知识感知注意力网络的视觉常识推理方法的步骤。10.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成如权利要求1-7中任一项所述的一种基于知识感知注意力网络的视觉常识推理方法的步骤。

技术总结
本发明公开了一种基于知识感知注意力网络的视觉常识推理方法及系统，涉及计算机视觉与自然语言处理交叉技术领域，该方法包括：以多组互相对应的样本图像、样本问题和已标注的样本答案候选项，训练视觉常识推理模型；该训练过程包括：获取样本图像、样本问题和样本答案候选项的视觉特征和初始语境句子表示；根据视觉上下文引导以及知识嵌入，学习样本问题和样本答案候选项基于知识的句子表示以及知识感知注意向量；融合知识感知注意向量与视觉特征得到融合特征，以此训练视觉常识推理模型；将待推理图像、待推理问题和多个推理答案候选项输入至训练完成的视觉常识推理模型，输出推理结果，实现准确推理，提升了视觉常识推理任务的性能。务的性能。务的性能。

技术研发人员：张文琪高永超钱恒
受保护的技术使用者：齐鲁工业大学
技术研发日：2022.11.30
技术公布日：2023/3/7

完整全部详细技术资料下载

当前第2页1 2