一种融合知识图谱的检索式知识前缀引导视觉问答方法

文档序号：33373791发布日期：2023-03-08 03:15阅读：来源：国知局

技术特征：
1.一种融合知识图谱的检索式知识前缀引导视觉问答方法，其特征在于，包括以下步骤：构建背景知识库，背景知识库中包含有与视觉问答语料相关的事实三元组；针对视觉问答的图像-问题对，将图像转换为文本描述后，为文本描述与问题添加前缀后构建背景文本序列；根据文本描述和问题构建词干集合后，利用基于词干匹配的检索器从背景知识库中为词干集合中的词干匹配事实三元组，并将事实三元组转换为自然语言文本后添加前缀构建知识文本序列；构建图像编码器和阅读器，图像编码器用于对图像-问题对中的图像进行编码得到图像编码向量；阅读器用于根据背景文本序列、知识文本序列以及图像编码向量进行视觉问题任务的答案预测；对图像编码器和阅读器初步训练优化后，构建孪生检索器，在给定背景知识库中召回知识的情况下，以阅读器的预测答案中正确答案与阅读器中知识部分的注意力权重作为弱监督信号，训练孪生检索器；孪生检索器初步训练后，将初步训练的孪生检索器替换基于词干的检索器，然后交替再训练阅读器和图像编码器、孪生检索器；利用再训练后的孪生检索器、阅读器以及图像编码器进行视觉问答。2.根据权利要求1所述的融合知识图谱的检索式知识前缀引导视觉问答方法，其特征在于，在构建背景知识库时，合并多个语义知识库得到初步背景语料库，然后保留初步背景语料中头实体或者尾实体包含在视觉问答语料和常识知识的三元组，接下来根据阈值将初步背景语料库中关系分为频繁关系和非频繁关系，对于头尾实体相同，且关系同时包含频繁关系和非频繁关系的三元组，删除包含频繁关系的三元组，剩下的三元组组成背景知识库。3.根据权利要求1所述的融合知识图谱的检索式知识前缀引导视觉问答方法，其特征在于，采用基于transformer的预先训练图像注释模型将图像转换为文本描述；分别提取文本描述和问题中词干并去重后得到词干集合，基于词干匹配的检索器基于词干匹配的bm25分数从背景知识库中通过匹配召回与词干匹配的事实三元组。4.根据权利要求1所述的融合知识图谱的检索式知识前缀引导视觉问答方法，其特征在于，所述阅读器采用经过文本语料预先训练的、基于预先训练编码器-解码器transformer框架的语言模型，其中，transformer编码器用于结合模态内注意力机制对输入的背景文本序列、知识文本序列以及图像编码向量分别进行独立编码，得到三类编码向量；transformer解码器用于基于注意力机制对输入的三类编码向量进行跨模态联合解码以输出预测答案。5.根据权利要求1所述的融合知识图谱的检索式知识前缀引导视觉问答方法，其特征在于，在对图像编码器和阅读器初步训练优化时，采用一种延迟知识注入的方式，并采用最小化负对数似然函数作为损失函数
其中，q,v,s
fact
分别表示问题、图像转换的文本描述以及知识文本序列，y表示图像-问题对应标准答案的令牌化表示，y
j
表示预测的第j字符，p(y
j
∣∣y
<j
,q,v,s
fact
)表示根据前j个预测字符、问题、图像转换的文本描述以及知识文本序列预测第j个字符的概率。6.根据权利要求1所述的融合知识图谱的检索式知识前缀引导视觉问答方法，其特征在于，所述孪生检索器包括两个编码器，通过kl散度作为训练损失函数训练孪生检索器：器：器：其中，q表示来自于词干集合s
query
的问题，f和f
′
均表示来自于三元组集合的知识文本序列，atten
q,f
表示给定问题下不同三元组对应的知识文本序列在阅读器中的注意力权重，和e
μ
(
·
)表示孪生检索器的两个检索器。7.根据权利要求1所述的融合知识图谱的检索式知识前缀引导视觉问答方法，其特征在于，所述孪生检索器包含的每个编码器采用预先训练编码器transformer框架的语言模型。8.根据权利要求1所述的融合知识图谱的检索式知识前缀引导视觉问答方法，其特征在于，交替再训练阅读器和图像编码器、孪生检索器时，固定孪生检索器，同时优化阅读器和图像编码器的参数，然后，在固定阅读器和图像编码器，优化孪生检索器的参数，实现一种协同训练。9.根据权利要求1所述的融合知识图谱的检索式知识前缀引导视觉问答方法，其特征在于，利用再训练后的孪生检索器、阅读器以及图像编码器进行视觉问答，包括：针对待问答的图像-问题对，将图像转换为文本描述后，为文本描述与问题添加前缀后构建背景文本序列；利用孪生检索器对背景文本序列进行编码，并将编码结果与背景知识库中的所有事实三元组进行相似度计算后，筛选相似度大小排名高的事实三元组构建知识文本序列；利用图像编码器对图像-问题对中的图像进行编码得到图像编码向量；将背景文本序列、知识文本序列以及图像编码向量输入至阅读器，经过计算输出预测答案。

技术总结
本发明公开了一种融合知识图谱的检索式知识前缀引导视觉问答方法，包括：构建的背景知识库包含有标注的知识数据，该知识数据利用视觉问答过程中的知识召回。在此基础上，通过基于词干匹配的检索器检索构建知识文本序列对图像编码器和阅读器进行初训练，以在阅读器中引入知识，然后通过孪生检索器对图像编码器和阅读器进行再训练，以增强阅读器对知识的感知，这种基于背景知识库配合检索器和阅读器的协同工作，提升考虑外部知识的视觉问答的准确性。性。性。

技术研发人员：陈华钧陈卓黄雨峰方尹张文
受保护的技术使用者：浙江大学
技术研发日：2022.09.29
技术公布日：2023/3/7

完整全部详细技术资料下载

当前第2页1 2