基于知识图谱的视觉问答处理方法、设备及存储介质与流程

文档序号：32348197发布日期：2022-11-26 12:02阅读：来源：国知局

技术特征：
1.一种基于知识图谱的视觉问答处理方法，其特征在于，包括如下步骤：获取待处理图像和待处理文本；将待处理图像输入faster r-cnn网络进行特性提取，获取所述待处理图像的第一图像特征集合，所述第一图像特征集合为所述待处理图像所有图像特征的集合，将第一图像特征中的图像特征对应嵌入待处理图像中，输出第一图像特征向量；其中，所述图像特征包括待处理图像中对象物相应的类别标签、对象物空间位置关系和对象属性；将待处理文本序列化并通过glove词嵌入模型进行特征向量提取得到文本向量集合；所述文本向量集合为待处理文本每个单词对应的词向量组成的集合；基于gru处理所述文本向量集合中每个单词对应的词向量的嵌入序列以得到第一文本特征向量；将第一图像特征向量基于图像空间注意力机制进行处理，得到第二图像特征向量，将第一文本特征进行注意力机制处理得到第二文本特征向量；根据第一图像特征集合及第一文本特征构建待处理图像对应的关联知识图谱，将处理图像对应的关联知识图谱输入预训练的transh知识表示模型得到第一知识图谱特征；将第二图像特征向量、第二文本特征向量机第一知识图谱特征进行特征融合得到图像问答特征，将图像问答特征输入预训练的答案分类器获取概率最高的类别作为输出候选答案。2.根据权利要求1所述的一种基于知识图谱的视觉问答处理方法，其特征在于，所述处理图像对应的关联知识图谱的构建步骤包括：获取第一图像特征集合中对象物的类别标签和对象属性，根据对象属性和类别标签并基于第一文本特征向量获取主体对象和背景对象，以主体对象为中心节点、背景对象为周边节点，以节点和边的的方式生成若干关联子图，以边缘节点关联权重将生成的若干关联子图合并为关联知识图谱。3.根据权利要求1所述的一种基于知识图谱的视觉问答处理方法，其特征在于，所述第一文本特征向量满足如下公式：f
q
=gru（w
q
）；式中，w
q
={w1,w2,......,w
q
}；w
i
为序列为i的单词对应的词向量。4.根据权利要求1所述的一种基于知识图谱的视觉问答处理方法，其特征在于，所述将第二图像特征向量、第二文本特征向量机第一知识图谱特征进行特征融合得到图像问答特征满足如下公式：f
r
=mfb（f
qa
，f
ia
，f
ga
）；其中，f
r
为图像问答特征，f
qa
为第二文本特征向量，f
ia
为第二图像特征向量，f
ga
为第一知识图谱特征，采用mfb进行多模态融合。5.一种计算机设备，其特征在于，一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1至4中任意一项所述的方法。6.一种存储有计算机程序的存储介质，其特征在于，该程序被处理器执行时实现如权
利要求1至4中任意一项所述的方法。

技术总结
本申请公开了一种基于知识图谱的视觉问答处理方法、设备及存储介质，属于视觉问答技术领域，本申请提供的一种基于知识图谱的视觉问答处理方法，通过知识图谱构建对象物之间的关系，通过预训练的预训练的TransH模型获取对于的知识图谱特征，将视觉特征、文本问题特征和知识图谱特征融合，基于融合特征获取概率最高的候选答案，实现高效准确的视觉问答处理。实现高效准确的视觉问答处理。实现高效准确的视觉问答处理。

技术研发人员：吴倩文陈海江张良友
受保护的技术使用者：浙江力石科技股份有限公司
技术研发日：2022.10.08
技术公布日：2022/11/25

完整全部详细技术资料下载

当前第2页1 2