基于卷积-循环混合网络的图像描述模型的一体化训练方法与流程

文档序号：15493238发布日期：2018-09-21 21:04阅读：490来源：国知局

本发明属于人工智能深度学习领域，主要实现了对输入图像生成英文文本描述的一体化训练的方法。

背景技术：

现阶段的社会，互联网已经站在了主流地位上，而人工智能更是主流中的主流。人们已经慢慢接受并且渐渐离不开人工智能，现阶段越来越多的人工智能技术走入人们的生活，自动翻译、物体识别、人脸识别等，图像的文本描述也逐渐被人们重视，该技术的实现对图像识别、图像检测，以及游人旅游、盲人导航等方面都有着至关重要的作用。

该技术的前提条件是需要了解深度学习中的卷积神经网络与循环神经网络的技术细节，卷积神经网络是提取图像特征从而用来表示图像的网络模型，该模型内部主要由若干卷积层、池化层和全连接层组成，经过训练后的卷积神经网络模型可以对输入的图像经过一系列的卷积、池化的操作，最后经过全连接层生成一个可以用来表示图像向量。循环神经网络中的长短时记忆网络(lstm)被广泛认可，该网络具有时序性，含有”cell”模块，可以记住并结合之前的信息生成之后的信息，训练过后长短时记忆网络模型(lstm)会根据输入的图像生产相应的文本描述。

现阶段的图像描述技术大都分为两个单独的步骤去实现，首先单独使用已经训练好的卷积神经网络模型对图像进行特征提取，把图片特征单独存储起来，把文本的单词也都存在相应的文件中，然后再使用长短时记忆网络(lstm)对图片与文本进行训练，生成模型。但是该方法的操作周期较长，而且实行训练的过程复杂，使得目前的方法很难被大家所采用。

技术实现要素：

本发明采用的技术方案为一种基于卷积-循环混合网络的图像描述模型的一体化训练生成方法，该方法根据输入的图像，经过模型产生对于该图像内容描述的句子，其特征在于以下步骤：

步骤1：选择数据集(例如：coco等)，其中数据集的数据主要包括图像和与图像相对应的文本描述，一张图像分别对应五个句子；

步骤2：对图像进行预处理，根据不同网络的输入要求对图像进行调整；

步骤3：对图像进行特征提取，具体步骤如下：

步骤3.1：选择卷积神经网络(例如：vgg)，对卷积神经网络进行参数设置，使用该卷积神经网络在imagenet数据集上经过训练学习到的参数作为网络的初始化参数；

步骤3.2：对卷积神经网络的结构进行调整，使卷积神经网络截至于全连接层，对输入的图像通过卷积神经网络后以向量的形式表示；

步骤4：对文本进行预处理，对其进行关键词提取，提取次数大于30的单词作为关键词制作一个字典，把关键词均以向量的形式进行表示；

步骤5：构建长短时记忆网络；

步骤6：联合卷积神经网络和长短时记忆网络进行一体化训练；

步骤6.1：选择深度学习框架(例如：tensorflow)，为了方便卷积神经网络与长短时记忆网络的联合操作需要在同一框架中使用统一的格式来进行构建；

步骤6.2：输入一张图像，通过卷积神经网络对其特征进行提取，卷积神经网络的输出则是表示图像特征的向量，该向量被用于初始化长短时记忆网络的隐含层参数，确立卷积神经网络与长短时记忆网络之间的连接关系；

步骤6.3：把图像所对应的文本进行关键词提取，使文本中的单词转化为向量格式来作为长短时记忆网络的输入；

步骤7：选择损失函数、优化函数对卷积神经网络和长短时记忆网络进行反向传播运算，同时更新卷积神经网络和长短时记忆网络的内部参数值，设置迭代次数等超参数对卷积神经网络与长短时记忆网络进行一体化训练，保存模型用于测试。

附图说明

图1：整体架构图。

图2：卷积神经网络(vgg16)模型结构图。

图3：长短时记忆网络模型结构图。

图4：图像生成文本结果对比图。

图5：结果对比图。

具体实施方式

下面结合相关附图对本发明进行解释和阐述：

本发明是在卷积神经网络和循环神经网络两者模型的基础上，对两者进行一体化联合训练，采用的框架是tensorflow深度学习框架，数据集是coco2014，通过对两个框架的改进，一体化训练，完成图像生成文本描述的任务。

步骤1：根据对卷积神经网络与长短时记忆网络的理解与改进，完成整体架构图的构思，见附图1。

步骤2：根据架构图，在tensorflow框架的基础上，对卷积神经网络与长短时记忆网络结构进行搭建，该步骤是整个发明的关键部分，需要细分为以下几个小步骤：

步骤2.1：首先在进行卷积神经网络和长短时记忆网络搭建之前，需要对数据进行处理，把数据集中的图片文本都进行相应的处理，删除图片中损坏的图片，并且把符合要求的图片变换大小来符合卷积神经网络的输入要求，而且把文本进行单词提取操作，留待作为后续长短时记忆网络的输入。

步骤2.2：构建卷积神经网络，选择的是vgg16，见附图2，vgg16由16层组成，由于网络深度很深，若想对该网络进行从头的参数训练会很麻烦，所以本发明采用了迁移学习的方法，把在imagenet数据集上训练好的参数拿来使用，imagenet是用于做图像分类的数据集，涉及到1000类的图片，数据量大，使用训练好的参数来做迁移学习对本发明的卷积神经网络有非常有利，在做迁移学习的过程中，为了使效果更好，并不是直接使用训练好的参数，而是用该参数作为初始化，固定卷积神经网络前面的基础层使其参数不发生改变，放开后几层的参数，这样在训练过程中后面的网络参数即可根据本发明所使用的数据进行进一步的更新。

步骤2.3：修改卷积神经网络结构与循环神经网络进行联合，由于需要两个神经网络的联合，所以卷积神经网络的输出需要进行调整，把卷积神经网络vgg16最后一层用于分类的softmax层删除，保留最后的全连接层，把全连接层的输出进行维度转换用来初始化循环神经网络的隐含层参数，循环神经网络的搭建选择了一种特殊的网络，长短时记忆网络—lstm，见附图3，该网络对于文本序列有着独特的处理方式，可以解决循环神经网络原有的问题。于此同时，把与图片相对应的文本中的单词按要求进行处理，转化为向量作为长短时记忆网络的输入。

步骤2.4：卷积神经网络与长短时记忆网络构建完成后，需要进行输出结果的处理，使用softmax交叉熵函数作为损失函数，并且使用adam优化方法对损失进行最小化处理，降低损失值来进行反向传播从而进一步更新卷积神经网络与长短时记忆网络的参数。编写训练代码设置迭代次数，对整体进行训练，并且在训练过程中对网络模型进行定期保存。

步骤3：编写测试代码，通过训练过程中保存的模型，对图片进行文本生成实验，选择图片作为输入，输出为一句文本描述，见附图4，上面一句为本发明所得到的结果，下面一句为对比方法所得到的结果。然后为了进行对比实验，引入bleu得分算法，对生成的文本描述与原有句子进行评分。对比实验的方法是未一体化联合训练的方法，把卷积神经网络与长短时记忆神经网络分开进行处理，对比方法中的卷积神经网络就变成了对图像的一种预处理方法，把图像变为矩阵格式，主要训练过程在长短时记忆网络阶段，使用该方法得到的文本描述同样使用bleu得分算法进行评分，并把所得分数以可视化的方式表现出来完成实验对比，见附图5，本发明得分要高于对比方法。

以上实例仅用于描述本发明，而非限制本发明所描述的技术方案。因此，一切不脱离本发明精神和范围的技术方案及其改进，均应涵盖在本发明的权利要求范围中。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李玉鑑;刘超
技术所有人：北京工业大学
我是此专利的发明人

上一篇：一种棱透组合防控镜片及眼镜的制作方法
上一篇：一种眼镜安装用免焊接螺丝固定铰链的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。