一种基于正则化和对偶学习的视觉问答方法与装置与流程

文档序号：34030723发布日期：2023-05-05 11:18阅读：396来源：国知局

本发明属于视觉问答领域，尤其涉及一种基于正则化和对偶学习的视觉问答方法与装置。

背景技术：

1、视觉问答任务是视觉-语言多模态任务中的重要任务之一，其模型的能力指标可以衡量模型对于视觉、语言信息的理解能力，本领域发展也有利于促进多模态背景的问答系统发展。然而，视觉问答数据集中往往存在语言偏置，使得模型容易忽略视觉信息，而直接根据问题的统计规律做出问题回答，这极大阻碍本领域模型的发展，且影响人们对于模型的视觉、语言理解能力的评判。传统正则化方法包括分离视觉、语言信息对于最终答案影响的集成模型。基于对比学习、因果模型的数据增强方法，或者使用多样化的注意力机制，对数据偏置进行修正或者对模型进行因果分析，但是以上方法没有关注到视觉信息、问题信息、答案信息的信息量关系，虽然使得模型在相关的“语言偏置”诊断数据集上表现提升，但是却损害模型在标准数据集上的性能，没有真正提高模型对图像信息识别能力。

技术实现思路

1、本发明的目的在于针对现有vqa模型容易学习语言偏置而忽略图像信息的问题，提供一种基于正则化和vqa、vqg对偶学习的视觉问答方法与装置，充分利用二者在文本信息传递方向的对偶性、不平衡性，使得二者模型在文本数据流动上形成对偶关系，并要求二者模型在视觉注意力分布上保持一致性，避免模型过分自信，削弱vqa模型习得的数据集语言偏置，并增加模型对于图像信息的感知认识。

2、为实现上述发明目的，本发明的技术方案为：本发明实施例的第一方面提供了一种基于正则化和对偶学习的视觉问答方法，所述方法具体包括以下子步骤：

3、提取vqa数据集中问题的关键词；

4、对图像数据预处理，筛选图像中的关键区域；

5、将关键词和图像的关键区域输入至vqa、vqg模型进行预训练；

6、构建视觉蕴涵模型，并进行预训练；

7、利用视觉蕴涵模型进行相关性判断，构建训练样本，基于正则化和对偶学习对预训练好的vqa和vqg模型进行协同训练；

8、利用训练好的vqa和vqg模型进行视觉问答。

9、本发明实施例的第二方面提供了一种电子设备，包括存储器和处理器，所述存储器与所述处理器耦接；其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现上述的基于正则化和对偶学习的视觉问答方法。

10、本发明实施例的第三方面提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述的基于正则化和对偶学习的视觉问答方法。

11、与现有技术相比，本发明的有益效果是：本发明提出了一种基于正则化和对偶学习的视觉问答方法，通过利用vqa和vqg任务的对偶特性，考虑到二者在文本信息传递方向的不平衡性，即vqa模型输入“高提示度”的问题信息，得到“低提示度”的答案，容易习得语言先验；而vqg模型恰恰相反，不容易习得语言先验的特点，本发明要求vqa模型与vqg模型在视觉注意力上，保持一致性，继而使得vqa模型更注重图像信息的学习；同时避免模型过于自信，进而进一步削弱模型对问题先验的学习。最后，充分基于正则化和对偶学习利用预训练得到的vqa、vqg模型进行协同训练。使得利用训练好的vqa和vqg模型能够顺利进行视觉问答

技术特征：

1.一种基于正则化和对偶学习的视觉问答方法，其特征在于，所述方法具体包括以下子步骤：

2.根据权利要求1所述的基于正则化和对偶学习的视觉问答方法，其特征在于，提取vqa数据集中问题的关键词的过程包括：

3.根据权利要求1所述的基于正则化和对偶学习的视觉问答方法，其特征在于，构建视觉蕴涵模型，并进行预训练包括：

4.根据权利要求1所述的基于正则化和对偶学习的视觉问答方法，其特征在于，利用视觉蕴涵模型进行相关性判断，构建训练样本，基于正则化和对偶学习对预训练好的vqa和vqg模型进行协同训练的过程包括：

5.根据权利要求4所述的基于正则化和对偶学习的视觉问答方法，其特征在于，利用视觉蕴涵模型进行相关性判断，构造vqa模型m1训练的正、负样本的过程包括：

6.根据权利要求4所述的基于正则化和对偶学习的视觉问答方法，其特征在于，利用vqg模型m2生成问题的过程包括：

7.根据权利要求4或6所述的基于正则化和对偶学习的视觉问答方法，其特征在于，利用视觉蕴涵模型对vqg模型m2生成的问题进行评分，根据评分构造伪标签的过程包括：

8.根据权利要求4或6所述的基于正则化和对偶学习的视觉问答方法，其特征在于，利用损失函数对vqa模型m1和vqg模型m2进行优化，并对vqa模型m1和vqg模型m2的注意力部分进行正则化约束具体为：

9.一种电子设备，包括存储器和处理器，其特征在于，所述存储器与所述处理器耦接；其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现上述权利要求1-8任一项所述的基于正则化和对偶学习的视觉问答方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-8中任一所述的基于正则化和对偶学习的视觉问答方法。

技术总结
本发明公开了一种基于正则化和对偶学习的视觉问答方法与装置，所述方法具体包括以下子步骤：提取VQA数据集中问题的关键词；对图像数据预处理，筛选图像中的关键区域；将关键词和图像中的关键区域输入至VQA、VQG模型进行预训练；构建视觉蕴涵模型，并进行预训练；利用视觉蕴涵模型进行相关性判断，构建训练样本，基于正则化和对偶学习对预训练好的VQA和VQG模型进行协同训练；利用训练好的VQA和VQG模型进行视觉问答。

技术研发人员：毛瑞琛,周祐超,马小雯
受保护的技术使用者：之江实验室
技术研发日：
技术公布日：2024/1/12

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：毛瑞琛周祐超马小雯
技术所有人：之江实验室
我是此专利的发明人

上一篇：一种光催化去除奶品中乳糖的方法
上一篇：一种具有健身健康监测清粪功能的智慧畜栏的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。