一种基于复杂网络分析方法的视觉问答问题解决方法与流程

文档序号：16694327发布日期：2019-01-22 19:20阅读：429来源：国知局

本发明涉及一种解决视觉问答(visualquestionanswering，vqa)问题的复杂网络分析方法，该方法对vqa中的开放性问答任务是一种新颖的解决方案，同时保证视觉问答的准确性需求，属于计算机视觉和自然语言处理领域。

背景技术：

近年来，随着人工智能的高速发展，人们对智能的需求越来越多样化，其中视觉问答模型作为计算机视觉与自然语言处理的交叉领域，也备受关注，但其准确率还远远未达到用户满意的业务体验。开发能够回答关于视觉图像的任意自然语言问题的计算机视觉程序仍然被认为是一项雄心勃勃且必要的工作。该工作结合了计算机视觉中的各种子任务，如目标检测和识别，场景和属性分类，计数和自然语言处理，甚至知识和常识推理。

在vqa中，计算机从足够的数据或大数据中学习视觉和语义特征，以回答关于人类所提出的图像的任意问题。虽然，研究人员已提出众多方法，vqa一直是一个开放的问题，所提出的模型的准确性和鲁棒性都需要进一步地改进。vqa算法可分为以下几种：1)基准模型；2)基于贝叶斯的模型；3)双线性池化方法；4)注意力模型；5)基于图像语义概念的模型等。目前，注意力模型是研究热点。然而，大量研究表明仅仅关注注意力模型似乎不够。

技术实现要素：

发明目的：为了克服现有技术中存在的不足，本发明提供一种基于复杂网络分析方法的视觉问答问题解决方法，本发明基于vqa的基准模型，通过语义概念网络构建和深度游走深度学习图像和文本语义，解决视觉问答中的技术难题。vqa需要在问题和图像之间绘制推论和建模关系，一旦问题和图像被特征化，它们之间的共现统计建模可以帮助得出关于正确答案的推论。语义概念的提取和分析对于视觉图像的语义表示至关重要，更重要的是，语义相关优于视觉相关可以有效地减少“语义鸿沟”。对于视觉属性非常相似的场景，视觉检测器很容易混淆。添加上下文信息可以有效减少甚至完全消除测试结果的不确定性。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于复杂网络分析方法的视觉问答问题解决方法，包括语义概念网络构建、非随机深度游走、图像和文本特征融合及分类器，语义概念网络构建旨在挖掘概念的共现模式以增强语义表达，非随机深度游走实现复杂网络关系到低维特征的映射，在构建图像语义概念网络的基础上，应用深度游走算法学习语义概念网络中节点的潜在关系，并将复杂网络中的节点映射成一个低维特征向量，从而挖掘高维数据中的低维结构，提取到的特征向量既包含节点即语义概念本身的属性，也包含节点即语义概念之间的关系属性，多项式逻辑回归融合图像和文本特征，将融合后图像和文本特征输入分类器以解决视觉问答问题。

具体包括以下步骤：

步骤1)给定一幅图像提取它的卷积神经网络特征；

步骤2)给定图像对应的一个文本问题提取它的词袋特征；

步骤3)给定训练集，对训练集中每幅图像进行目标检测，提取检测目标对应的语义概念，集合训练集中的所有问答对提取的语义概念组建语义概念词汇表；

步骤4)应用语义概念词汇表，基于词激活力构建语义概念网络；

步骤5)提取给定图像的语义概念，并根据其在图像中的位置信息组成语义概念序列；

步骤6)把获取的语义概念序列输入到之前构建好的语义概念网络中，执行非随机深度游走，由此获取深度游走特征矢量；

步骤7)融合深度游走特征矢量、步骤1)提取的卷积神经网络特征以及步骤2)提取的词袋特征得到融合特征；

步骤8)将融合特征应用分类器给出问题答案。

优选的：所述步骤4中的基于词激活力构建语义概念网络的方法：

步骤41)计算概念词汇表中两两成对概念的词激活力和亲和力，

词激活力的定义如下式所示，

在一个语料库中，假设给定一对词，记为词一i和词二j的词频一fi和词频二fj，以及他们的共生频率fij，那么词激活力wafij预测了词一i和词二j表现出的激活力强度，其中dij是词一i和词二j共生频率中词一i和词二j前向距离的平均值，对成对词汇词一i和词二j，他们之间的亲和力计算公式为：

kij＝{k|wafki＞0orwafkj＞0},lij＝{l|wafil＞0orwafjl＞0},

or(x,y)＝min(x,y)/max(x,y).

其中，or(x,y)表示两个查询词入链和出链的平均重叠率，kij表示入链词集合，lij表示出链词集合，k表示入链词，wafki表示词k和词i间的激活力强度，wafkj表示表示词k和词j间的激活力强度，wafil表示词i和词l间的激活力强度，wafjl表示词j和词l间的激活力强度；

步骤42)，构建网络结构n＝(v,e,w)，其中v表示节点集，e表示连接节点的边缘集，局部共现活跃性或者亲和力，作为边缘权重w的衡量标准。

优选的：所述分类器为softmax分类器。

本发明相比现有技术，具有以下有益效果：

(1)本发明采用称为词激活力的复杂网络建模方法构建语义概念网络。其中，网络中的每个节点表示一个单独的概念，边缘表示个体概念间的共现关系，每个成对共现关系的重要性由亲和力表示。该发明突破了个体概念检测器的局限性，完成了从视觉相关到语义相关的替换，所构建的概念网络为理解图像语义和捕获图像语义概念之间的共现关系提供了更有用的信息。

(2)本发明提出了基于复杂网络分析方法和深度游走的vqa模型。在语义概念网络构建的基础上，采用深度游走方案实现图像语义概念和文本问题共现模式的有效挖掘。将低维深度游走特征提取融合图像特征和文本特征输入到分类器以生成答案。

附图说明

图1基于复杂网络分析方法的vqa模型框架图；

图2语义概念网络构建流程图；

图3基于深度游走的vqa实现流程图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种基于复杂网络分析方法的视觉问答问题解决方法，包括语义概念网络构建、非随机深度游走、图像和文本特征融合及分类器，语义概念网络构建旨在挖掘概念的共现模式以增强语义表达，非随机深度游走实现复杂网络关系到低维特征的映射，在构建图像语义概念网络的基础上，应用深度游走算法学习语义概念网络中节点的潜在关系，利用深度学习的方法进行训练，并将复杂网络中的节点映射成一个低维特征向量，从而挖掘高维数据中的低维结构，提取到的特征向量既包含节点即语义概念本身的属性，也包含节点即语义概念之间的关系属性，多项式逻辑回归融合图像和文本特征，将融合后图像和文本特征输入分类器以解决视觉问答问题。如图1所示，整个模型架构中包含语义概念提取、图像卷积神经网络特征提取、问题文本特征提取、语义概念网络构建、非随机深度游走、特征融合以及答案生成。本发明构建了一个基于词激活力的语义概念网络，然后应用深度游走的社交网络分析方法挖掘语义概念的共现模式，提取场景、人与物体之间的关系，最后利用视觉图像特征、问题文本特征和深度游走向量的融合特征完成vqa任务。

基于上述vqa模型，本发明提出的vqa模型的实现方法包括以下步骤：

1)给定一幅图像提取它的卷积神经网络特征；

2)给定图像对应的一个文本问题提取它的词袋特征；

3)提取训练集的语义概念，组成概念词汇表；

4)应用语义概念词汇表，基于词激活力构建语义概念网络；

5)提取给定图像的语义概念，并根据其在图像中的位置信息组成语义概念序列；

6)把上一步获取的序列输入到之前构建好的语义概念网络中，执行非随机深度游走，由此获取深度游走特征矢量；

7)融合深度游走特征矢量以及第1)步和第2)步提取的图像特征和文本特征；

8)应用分类器给出问题答案。

如图2所示为本发明的语义概念网络构建流程图，其流程为：

1)给定训练图像集，对每幅图像进行目标检测；

2)提取检测目标对应的语义概念；

3)集合训练集中的所有问答对与第2)步中提取的语义概念组建语义概念词汇表；

4)计算概念词汇表中两两成对概念的词激活力和亲和力；

词激活力的定义如下式所示，

在一个语料库中，假设给定一对词i和j的词频fi和fj，以及他们的共生频率fij，那么wafij预测了词i对词j表现出的激活力强度。其中dij是词i和词j共生频率中，词i对词j前向距离的平均值。对成对词汇i和j，他们之间的亲和力计算公式为：

kij＝{k|wafki＞0orwafkj＞0},lij＝{l|wafil＞0orwafjl＞0},

or(x,y)＝min(x,y)/max(x,y).

5)构建网络结构n＝(v,e,w)，其中v表示节点集，e表示连接节点的边缘集，局部共现活跃性或者亲和力，作为边缘权重w的衡量标准。

如图3所示为本发明基于深度游走的vqa实现流程图，主要步骤如下：

1)给定一幅图像，提取它的个体语义概念组成序列；

2)计算亲和力作为网络的边缘权重。

3)以第1)步中组成的序列为输入序列在有边缘权重的网络中执行深度游走；

4)获取深度游走特征矢量；

5)融合以上特征以及图像特征和文本特征；

6)应用softmax分类器给出文本问题答案。

本发明应用复杂网络构建方法构建图像语义概念网络，从复杂网络分析的角度挖掘概念共现模型，并利用基于深度学习的深度游走算法提取概念的低维特征向量，利用复杂网络构建方法(词激活力)构建图像语义概念网络，该方法是文本处理方法到图像领域的应用和延伸。利用深度学习的方法进行非随机深度游走训练，将复杂网络中的节点映射成一个低维特征向量，从而挖掘高维数据中的低维结构。所述问题模型采用深度学习求解，提取深度游走特征矢量后，融合图像视觉特征和文本特征，完成vqa任务。此模型是基于图像语义概念的方法，并嵌入了复杂网络分析和深度学习的方法。由此，我们提取的特征向量既包含节点即语义概念本身的属性，也包含节点即语义概念之间的关系属性，本发明深入挖掘了概念共生模式和集群概念的层次结构，有效地集成了图像的视觉和语义特征，以及自然语言特征，为解决视觉问答问题提供了一种可行途径。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李群;肖甫;徐鼎;周剑
技术所有人：南京邮电大学
我是此专利的发明人

上一篇：一种桥梁塔柱横梁支架的预压施工方法与流程
上一篇：轧辊磨床尾架顶尖压力的精确控制方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。