基于类人视觉感知和语言记忆网络的视觉对话生成方法与流程

文档序号：34593587发布日期：2023-06-28 19:20阅读：来源：国知局

技术特征：

1.一种基于类人视觉感知和语言记忆网络的视觉对话生成方法，其特征在于：包括以下步骤，

2.根据权利要求1所述基于类人视觉感知和语言记忆网络的视觉对话生成方法，其特征在于：步骤1的实现方式包括以下子步骤，

3.根据权利要求2所述基于类人视觉感知和语言记忆网络的视觉对话生成方法，其特征在于：步骤2的实现方式包括以下子步骤，

4.根据权利要求3所述基于类人视觉感知和语言记忆网络的视觉对话生成方法，其特征在于：步骤3的实现方式为，利用步骤2.1中图像i的视觉特征v和当前问题的句子级特征向量hq作为构建视觉上下文感知图的输入，在图构建的过程中，将图像i的视觉特征v与hq进行注意力对齐，得到含有当前问题信息的图像特征，将构建图节点的特征表示和节点间的边权重表示分别为v*和

5.根据权利要求4所述基于类人视觉感知和语言记忆网络的视觉对话生成方法，其特征在于：步骤4的实现方式为，将步骤3中建立的视觉上文感知图利用多层图卷积神经网络进行更新获取类人的图像的全局和局部视觉特征向量。

6.根据权利要求5所述基于类人视觉感知和语言记忆网络的视觉对话生成方法，其特征在于：步骤5的实现方式为，利用步骤2.3中获得的第r轮的对话历史特征向量hr与当前问题特征向量hq来构建上语言记忆特征向量表示；首先，将第0轮到第r轮的对话历史特征向量进行拼接获得总的对话历史特征然后将与hq进行特征融合操作，获得话题特征向量表示最后将所有轮的对话历史进行迭代更新学习获得最终的语言记忆特征tm。

7.根据权利要求6所述基于类人视觉感知和语言记忆网络的视觉对话生成方法，其特征在于：步骤6的实现方式为，利用步骤2.1中获得的当前问题的句子级特征向量hq，步骤4中获得的视觉上下文特征向量和步骤5中获得的语言记忆特征向量tm，进行视觉和文本间的不同模态的特征融合处理以获得最终的高级的融合后的视觉语言特征向量s*。

8.根据权利要求7所述基于类人视觉感知和语言记忆网络的视觉对话生成方法，其特征在于：步骤7的实现方式为将候选答案a*利用bi-lstm如同问题编码一样，取最后一个隐藏状态向量作为a*中每个答案的句子级特征表示；设pt包含了100个候选答案各自的概率值，随后取pt中概率最大的值和次序作为最终预测的答案值。

9.根据权利要求8所述基于类人视觉感知和语言记忆网络的视觉对话生成方法，其特征在于：步骤8的实现方式为，利用步骤7中计算的预测答案pt与真实答案agt之间的损失代价函数f：

10.一种基于类人视觉感知和语言记忆网络的视觉对话生成系统，其特征在于：用于实现如权利要求1-9任一项所述的一种基于类人视觉感知和语言记忆网络的视觉对话生成方法。

技术总结
本发明提供一种基于类人视觉感知和语言记忆网络的视觉对话生成方法，包括视觉对话中文本输入的预处理和单词表的构建；视觉对话的图像特征表示以及对话文本的特征表示；构建视觉上下文感知图；迭代更新视觉上下文感知图获取类人的全局和局部视觉特征向量；获取在当前问题指导下的历史对话上下文语言记忆特征向量；多模态语义融合处理；解码预测答案特征序列；基于类人视觉感知和语言记忆网络的视觉对话生成网络模型的参数优化；预测候选答案。本发明在视觉对话上构建了视觉上下文感知图利用图卷积神经网络获取全局和局部的视觉特征表示以充分理解图像内容；基于历史对话上下文语言记忆的学习捕获更细粒度的文本信息来推理对话隐含的深层语义信息。

技术研发人员：郭迟,左文炜,孙凯丽
受保护的技术使用者：中山赛伯坦智能科技有限公司
技术研发日：
技术公布日：2024/1/13

完整全部详细技术资料下载

当前第2页1 2