一种基于思维链的视觉问答方法、系统、设备及存储介质

文档序号：37747771发布日期：2024-04-25 10:34阅读：11来源：国知局

本发明涉及计算机视觉领域，尤其涉及一种基于思维链的视觉问答方法、系统、设备及存储介质。

背景技术：

1、现有技术中，将多模态大模型学习到的开放式知识作为隐式知识，将封闭域的固定知识库中检索到的知识作为显式知识。结合知识的视觉问答方法通过引入显式知识和隐式知识，实现利用常识知识来回答开放域问题。

2、然而上述结合知识的视觉问答方法，一方面忽视了语言引导的视觉和知识的联合推理能力，导致引入了不相关的信息或丢失对于推断最终答案有用的知识；另一方面通过嵌入大模型提供的隐式知识的方法缺乏可解释性。因此，采用现有技术进行视觉问答得到的答案准确性低。

技术实现思路

1、本发明提供一种基于思维链的视觉问答方法、系统、设备及存储介质，以克服上述现有技术存在的缺陷，提高视觉问答的准确性。

2、为实现上述目的，本发明实施例提供了一种基于思维链的视觉问答方法，包括：

3、获取用于训练视觉问答模型的图像和对应的问题；

4、根据所述图像和对应的问题，对视觉问答模型进行训练，得到目标视觉问答模型；

5、输入待测图像和问题文本到所述目标视觉问答模型，得到视觉问答结果；

6、其中，所述根据所述图像和对应的问题，对视觉问答模型进行训练，得到目标视觉问答模型的步骤包括：

7、步骤一、基于思维链，对所述问题进行解析，获取对应的视觉提示三元组和知识提示三元组，构成问题子三元组；

8、步骤二、基于lxmert模型，对所述图像和所述视觉提示三元组进行联合训练，提取目标特征；

9、步骤三、采用知识到文本策略和基于词干的bm25算法，通过检索器从常识知识图谱中查询所述知识提示三元组，获取显示知识；

10、步骤四、分别对所述问题子三元组、所述目标特征和所述显示知识进行图表征得到问题图、视觉图和知识图，对所述问题图、所述视觉图和所述知识图的图结构进行异构得到异构多模态图；

11、步骤五、在所述异构多模态图上进行跨模态显示推理，生成所述问题的答案，完成一张图像的训练；

12、步骤六、重复步骤一到步骤五，直至完成所有图像的训练，得到目标视觉问答模型。

13、作为上述方案的改进，所述基于思维链，对所述问题进行解析，获取对应的视觉提示三元组和知识提示三元组，构成问题子三元组，包括：

14、基于思维链，采用端到端的transformer架构将所述问题进行解析，即将所述问题中的每一个不同的单词序列(q1,...,qq)编码为多个推理指令序列向量[i(1),...,i(m)]：

15、[i(1),...,i(m)]＝seq2seq(q1,...,qq)

16、其中，i表示推理指令序列，m表示生成的推理指令序列向量总数，i(1)表示解析的第1个推理指令序列向量，i(m)表示解析的第m个推理指令序列向量；q表示所述问题中的单词序列，q1表示准备解析的第1个单词序列，qq表示准备解析的第q个单词序列；seq2seq()表示端到端的神经网络架构；

17、将所述问题对应的所述推理指令序列向量，转换成视觉提示三元组和知识提示三元组，构成问题子三元组。

18、作为上述方案的改进，所述基于lxmert模型，对所述图像和所述视觉提示三元组进行联合训练，提取目标特征，包括：

19、采用分词器将所述视觉提示三元组的特征分割成单词并作为lxmert模型的输入，通过所述模型的嵌入子层将所述单词及其索引投影到向量并添加到索引感知词嵌入中，获取单词级特征嵌入；

20、基于自顶向下与自底向上的策略，将从所述图像中检测到的对象的位置特征和其2048维的感兴趣区域特征作为所述图像的嵌入，并通过两个全连接层的层归一化处理，输出位置感知嵌入，获取目标级特征嵌入；

21、将所述单词级特征与所述目标级特征送入到编码器，定位到所述问题中三元组的视觉实体对象，并输出对应的视觉特征序列，得到与所述问题提示相关的目标特征。

22、作为上述方案的改进，根据以下公式获取所述单词级特征嵌入：

23、

24、

25、

26、其中，i表示单词在句子中绝对位置的索引；wi表示第i个单词；wordembed()表示将词语映射为嵌入向量的操作；表示第i个单词经过词嵌入表征后的向量；idxembed()表示将索引映射为嵌入向量的操作；表示第i个单词索引经过索引嵌入表征后的向量；layernorm()表示层归一化操作；hi表示将两个表征后的向量进行拼接和层归一化得到的向量。

27、作为上述方案的改进，根据以下公式获取所述目标级特征嵌入：

28、

29、

30、

31、其中，layernorm()表示层归一化操作；j表示整数索引下标，fj表示感兴趣区域特征，表示经过层归一化的特征向量；pj表示位置特征(即边界框坐标)，表示经过层归一化的位置向量；f表示特征(下标)，p表示位置(下标)；bf表示特征偏移量，bp表示位置偏移量；wf表示特征权重向量矩阵，wp表示位置权重向量矩阵；vj表示位置感知嵌入。

32、作为上述方案的改进，所述采用知识到文本策略和基于词干的bm25算法，通过检索器从常识知识图谱中查询所述知识提示三元组，获取显示知识，包括：

33、采用知识到文本策略将所述图像转换为标题和将所述知识提示三元组转换为句子来统一模态；

34、对于每个视觉信息问题对(v，q)，基于词干的bm25算法通过检索器从常识知识图谱中查询所述知识提示三元组中关键词的词干；所述基于词干的bm25算法是将基于词干作为最小语义单元，在将其与问题q中的词干连接之前删除在视觉信息v中重复的词干，合并词干信息得到带有s1，s2，...，st的基于词干的序列squery，并根据以下公式计算每个文档中检索到的知识三元组的相似度分数：

35、

36、

37、其中，wi表示第i个单词；squery表示被查询的所有单词；sf表示文档中检索到的知识三元组；si表示查询的第i个单词；t表示被查询的单词总数；r(si，sf)表示衡量单词si和文档中检索到的知识三元组sf之间的语义相关性；score()表示计算相似度分数；n表示索引中的文档总数；n(si)表示包含单词si的文档数量；idf(si)表示单词si与文档的相似性；

38、根据所述相似度分数检索文档，将top-k个sf连接起来，使sf充当每个视觉信息问题对(v，q)的外部知识，获取与所述问题提示相关的显示知识。

39、作为上述方案的改进，所述在所述异构多模态图上进行跨模态显示推理，生成所述问题的答案，还包括：

40、通过基于注意力的图卷积网络来聚合所述视觉图、所述问题图、所述知识图中的信息，并获得转换后的实体答案；

41、分多个步骤迭代地执行跨模态知识选择和知识推理，生成所述问题的答案。

42、为实现上述目的，本发明实施例还提供了一种基于思维链的视觉问答系统，包括：

43、数据获取模块，用于获取用于训练视觉问答模型的图像和对应的问题；

44、模型训练模块，用于根据所述图像和对应的问题，对视觉问答模型进行训练，得到目标视觉问答模型；

45、模型使用模块，用于输入待测图像和问题文本到所述目标视觉问答模型，得到视觉问答结果；

46、其中，所述根据所述图像和对应的问题，对视觉问答模型进行训练，得到目标视觉问答模型的步骤包括：

47、步骤一、基于思维链，对所述问题进行解析，获取对应的视觉提示三元组和知识提示三元组，构成问题子三元组；

48、步骤二、基于lxmert模型，对所述图像和所述视觉提示三元组进行联合训练，提取目标特征；

49、步骤三、采用知识到文本策略和基于词干的bm25算法，通过检索器从常识知识图谱中查询所述知识提示三元组，获取显示知识；

50、步骤四、分别对所述问题子三元组、所述目标特征和所述显示知识进行图表征得到问题图、视觉图和知识图，对所述问题图、所述视觉图和所述知识图的图结构进行异构得到异构多模态图；

51、步骤五、在所述异构多模态图上进行跨模态显示推理，生成所述问题的答案，完成一张图像的训练；

52、步骤六、重复步骤一到步骤五，直至完成所有图像的训练，得到目标视觉问答模型。

53、为实现上述目的，本发明实施例还提供一种基于思维链的视觉问答设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器在执行所述计算机程序时实现上述基于思维链的视觉问答方法。

54、为实现上述目的，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述基于思维链的视觉问答方法。

55、实施本发明实施例，具有如下有益效果：

56、本发明实施例提供的基于思维链的视觉问答方法、系统、设备及存储介质，首先，获取用于训练视觉问答模型的图像和对应的问题；然后，根据所述图像和对应的问题，对视觉问答模型进行训练，得到目标视觉问答模型；最后，输入待测图像和问题文本到所述目标视觉问答模型，得到视觉问答结果。其中，所述根据所述图像和对应的问题，对视觉问答模型进行训练，得到目标视觉问答模型的步骤包括：步骤一、基于思维链，对所述问题进行解析，获取对应的视觉提示三元组和知识提示三元组，构成问题子三元组；步骤二、基于lxmert模型，对所述图像和所述视觉提示三元组进行联合训练，提取目标特征；步骤三、采用知识到文本策略和基于词干的bm25算法，通过检索器从常识知识图谱中查询所述知识提示三元组，获取显示知识；步骤四、分别对所述问题子三元组、所述目标特征和所述显示知识进行图表征得到问题图、视觉图和知识图，对所述问题图、所述视觉图和所述知识图的图结构进行异构得到异构多模态图；步骤五、在所述异构多模态图上进行跨模态显示推理，生成所述问题的答案，完成一张图像的训练；步骤六、重复步骤一到步骤五，直至完成所有图像的训练，得到目标视觉问答模型。采用本发明实施例，通过思维链进行问题解析，得到包含图像实体的实景三元组和与知识实体相关的虚景三元组，不仅对于视觉场景涉及更深层次的知识和理解；还通过对问题的逐步解析引导促使视觉模态与知识模态进行联合推理，更准确地定位图像中的具体目标，使得系统能够获取与目标相关的一系列知识，并最终将答案返回给用户，从而提高视觉问答的准确性，得到可靠结果。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：谢雪梅,黄继磊,韩泽芳
技术所有人：西安电子科技大学广州研究院
我是此专利的发明人

上一篇：激光焊接转换光闸的制作方法
上一篇：一种机车用前窗玻璃除胶装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。