1.一种基于类人视觉感知和语言记忆网络的视觉对话生成方法,其特征在于:包括以下步骤,
2.根据权利要求1所述基于类人视觉感知和语言记忆网络的视觉对话生成方法,其特征在于:步骤1的实现方式包括以下子步骤,
3.根据权利要求2所述基于类人视觉感知和语言记忆网络的视觉对话生成方法,其特征在于:步骤2的实现方式包括以下子步骤,
4.根据权利要求3所述基于类人视觉感知和语言记忆网络的视觉对话生成方法,其特征在于:步骤3的实现方式为,利用步骤2.1中图像i的视觉特征v和当前问题的句子级特征向量hq作为构建视觉上下文感知图的输入,在图构建的过程中,将图像i的视觉特征v与hq进行注意力对齐,得到含有当前问题信息的图像特征,将构建图节点的特征表示和节点间的边权重表示分别为v*和
5.根据权利要求4所述基于类人视觉感知和语言记忆网络的视觉对话生成方法,其特征在于:步骤4的实现方式为,将步骤3中建立的视觉上文感知图利用多层图卷积神经网络进行更新获取类人的图像的全局和局部视觉特征向量。
6.根据权利要求5所述基于类人视觉感知和语言记忆网络的视觉对话生成方法,其特征在于:步骤5的实现方式为,利用步骤2.3中获得的第r轮的对话历史特征向量hr与当前问题特征向量hq来构建上语言记忆特征向量表示;首先,将第0轮到第r轮的对话历史特征向量进行拼接获得总的对话历史特征然后将与hq进行特征融合操作,获得话题特征向量表示最后将所有轮的对话历史进行迭代更新学习获得最终的语言记忆特征tm。
7.根据权利要求6所述基于类人视觉感知和语言记忆网络的视觉对话生成方法,其特征在于:步骤6的实现方式为,利用步骤2.1中获得的当前问题的句子级特征向量hq,步骤4中获得的视觉上下文特征向量和步骤5中获得的语言记忆特征向量tm,进行视觉和文本间的不同模态的特征融合处理以获得最终的高级的融合后的视觉语言特征向量s*。
8.根据权利要求7所述基于类人视觉感知和语言记忆网络的视觉对话生成方法,其特征在于:步骤7的实现方式为将候选答案a*利用bi-lstm如同问题编码一样,取最后一个隐藏状态向量作为a*中每个答案的句子级特征表示;设pt包含了100个候选答案各自的概率值,随后取pt中概率最大的值和次序作为最终预测的答案值。
9.根据权利要求8所述基于类人视觉感知和语言记忆网络的视觉对话生成方法,其特征在于:步骤8的实现方式为,利用步骤7中计算的预测答案pt与真实答案agt之间的损失代价函数f:
10.一种基于类人视觉感知和语言记忆网络的视觉对话生成系统,其特征在于:用于实现如权利要求1-9任一项所述的一种基于类人视觉感知和语言记忆网络的视觉对话生成方法。