一种基于rnn的图片描述自动生成方法

文档序号：9866192阅读：1140来源：国知局

一种基于rnn的图片描述自动生成方法
【技术领域】
[0001] 本发明设及人工智能领域，特别设及一种基于的图片描述自动生成方法。
【背景技术】
[0002] 自动图像内容描述是人工智能图像识别近年兴起的新技术。其目的在于通过算法，自动把一个图像的内容信息，用自然语言表达出来。Show and Tell :A化ural Image Caption Generato;r，0;riol Vinyals 2014,通过先使用深度网络提取图像特征，再使用RNN 模型将图像特征转化为文字描述，提取出图像的语义信息。但其是对整个图像进行整体处理，不能很好地利用图像中的空间位置的信息。Show,Attend and Tell :Neural Image (^iptionGeneration with Visual Attention,Kelvin Xu 2015,在其之上加入了显著性检测，对图像的空间信息有一定的利用，但其也只利用了简单的RN饰莫型，语义的表达力较弱。

【发明内容】

[0003] 为了克服现有技术的上述缺点与不足，本发明的目的在于提供一种基于的图片描述自动生成方法，可W自动识别，理解用户上传的数码图像，并生成人类能理解的自然句子。
[0004] 本发明的目的通过W下技术方案实现：
[0005] -种基于的图片描述自动生成方法，包括W下步骤：
[0006] S1在计算机上进行训练过程：
[0007] S1.1采集数据集:采集日常生活中各类场景里面的图像作为训练图像，每张训练图像带上一句或多句描述该图像内容的句子；
[000引S1.2使用深度学习网络，对训练集的每一张图片提取图像特征；
[0009] S1.3词性筛选:收集四、六级英语单词的词汇表，W及每个单词的词性；
[0010] 对于每张训练图像对应的一个或多个句子进行词性筛选:对于句子中的每个单词，如果单词在四、六级词汇表中排第一的词性是名词或者动词，该单词留下，否则，把该单词去掉;使用筛选之后剩下的单词组成句子作为数据库；
[0011] S1.4将词语数据转换成特征向量:统计出S1.3中的数据库中所有句子中出现的不同单词的数目，加上一个自定义的END字符，句子的总字符数为η;并对单词按字母顺序进行排序，每个单词在序列中的位置作为该单词的索引位置；由此把每个单词表示为一个η维的单词特征向量，该向量只有在该单词的索引位置上为1，其他全为零;η为正整数；
[0012 ] S1.5将单词特征向量和图像特征向量统一映射到同一维度k的向量;k为正整数； [OOK] S1.6使用LSTM网络进行训练:每个训练样例为一张训练图像和该训练图像所对应的经S1.3筛选的句子;每次随机选择一张训练图像和一个对应的参考句子；
[0014] S1.7将LSTM网络的输入和输出都设为k维向量，在时刻0，把k维的图像特征向量传入LSTM网络，网络输出一个k维向量;然后将输出的k维向量左乘一个n*k维的矩阵，得到一个η维向量;向量上第i维的值代表了索引值为i的单词的可能性;i为正整数；
[001引SI.8使用SI.7得到的η维向量和SI.6中输入的参考句子的η维向量进行比较，计算两个向量的欧式距离，作为LSTM网络的误差，使用反向误差传播算法，更新网络参数；
[0016] S2自动生成图像描述：
[0017] S2.1在互联网上捜集自然语言的句子，形成语料库；
[0018] S2.2对于测试图像，先使用深度学习网络对测试图像提取图像特征，再使用S1.7 的方法得到η维的可能性单词向量;根据η维向量上每一维值的大小，选出可能性最大的单词；
[0019] S2.3将步骤S2.2得到的单词向量再次输入LSTM网络中，得到更新后的输出单词可能性向量;不断重复此过程，直到入LSTM网络输出END单词；
[0020] S2.4将S2.2和S2.3过程中输出的单词，按顺序组合成一个句子；使用该句子在 S2.1的语料库中进行匹配，捜索最相近的句子并输出，生成测试图像的描述。
[0021 ]步骤S1.5所述将单词特征向量和图像特征向量统一映射到同一维度k的向量，具体为：
[0022 ] 对η维的单词向量特征左乘W -个k*n的矩阵，对于m维的图像特征向量，乘W-个 k*m维的矩阵；由此把单词特征和图像特征统一到k维;m为正整数。
[0023] S1.8所述使用S1.7得到的η维向量和S1.6中输入的参考句子的η维向量进行比较，计算两个向量的欧式距离作为LSTM网络的误差，使用反向误差传播算法，更新网络参数，具体为：
[0024] 在输入第t个单词时，t小于句子长度1，使用S1.7的方法，向LSTM网络输入参考句子中的第t个单词，得到η维的可能性向量;使用参考句子中的第t+1个单词作为参考，t+1个单词在η维可能性向量的负数作为误差，使用反向误差传播算法，更新网络参数;t为正整数，1为正整数；
[0025] 在输入第1个单词时，使用S1.7的方法，向LSTM网络输入参考句子中的第1个单词，得到η维的可能性向量;使用S1.4中加入的END单词作为参考，END单词在η维可能性向量的负数作为误差，使用反向误差传播算法，更新网络参数。
[0026] 与现有技术相比，本发明具有W下优点和有益效果：
[0027] (1)本发明很好地融合图像特征和文字特征，放在统一的框架下进行学习和理解，使图像信息和文字信息产生互补。
[0028] (2)本发明充分考虑到自动文字描述图片的困难性。采用了把句子中的名词和动词保留，去除其他词性词语的方法。保留了原来句子的主干部分(名词和动词），去掉其他可能带来很大干扰的部分，降低了学习的复杂度，得到了较好的效果。
[0029] (3)本发明通过不断增加训练数据库中的图像和句子，本发明的性能可W不断得到提高，而不需要重新训练。
[0030] (4)本发明中使用了互联网上的海量信息作为我们的语料库，使算法可W输出更贴近日常语言的话语。
【附图说明】
[0031] 图1为本发明的实施例的基于的图片描述自动生成方法的流程图。
【具体实施方式】
[0032]下面结合实施例，对本发明作进一步地详细说明，但本发明的实施方式不限于此。 [00削实施例
[0034] 本实施例的一种基于的图片描述自动生成方法，如图1所示，包括W下步骤：
[0035] S1在计算机上进行训练过程：
[0036] S1.1采集数据集:从ht化://mscoco.org/网站上下载mscoco数据库，该数据库包含30万张图片，每张图片带有5个描述图像内容的句子；
[0037] S1 . 2使用深度学习网络（参照论文ImageNet Classif ication wi th Deep Convolutional Neural Networks ,Alex Krizhevsky, Ilya Sutskever,Geoffrey E Hinton,NIPS 2012.)，对训练集的每一张图片提取图像特征;本实施例选用网络结构的最后一个全连接层的输出m = 4096维向量FiER^96作为图像的特征向量；
[0038] S1.3词性筛选:收集四、六级英语单词的词汇表，W及每个单词的词性；
[0039] 对于每张训练图像对应的一个或多个句子进行词性筛选:对于句子中的每个单词，如果在四、六级词汇表中排第一的词性是名词或者动词，该单词留下，否则，把该单词去掉;使用筛选之后剩下的单词组成句子，

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郭礼华;廖启俊;
技术所有人：华南理工大学;
我是此专利的发明人

上一篇：一种多层稀疏编码特征的鸟类图像识别方法
上一篇：显示图片的方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。