一种基于上下文序列记忆网络的个性化图像字幕生成方法与流程

文档序号:11323282阅读:423来源:国知局
一种基于上下文序列记忆网络的个性化图像字幕生成方法与流程

本发明涉及图像标签预测领域,尤其是涉及了一种基于上下文序列记忆网络的个性化图像字幕生成方法。



背景技术:

由机器阅读图像并判定图像内容、用简要文字输出图像主体内容与人类进行交互,是近年来为数不多的新兴领域,主要融合了图像识别、文字检索等技术,它的目的是收集大量特定用户的图像及其标签、字幕内容,对即将面临的新图像进行具有该用户特性的个性化字幕预测,这种方法的成功将对人力进行极大的解放,尤其在海量信息处理和远程反馈等领域,如在兴趣用户分类与标注、社会群体学等方面具有高度的发展前景。

如今判定图像内容并输出预测内容是一个具有挑战性的任务,由于缺乏可靠的训练图像库进行图像与标签的配对,同时图像质量与大小的参差不齐、关键词检索与图像内容分割融合难以同步,导致关键词匹配度的过低,影响字幕与标签的预测,尤其在图像内容连通区域模糊且颜色空间层相似的情况下,对图像的分类及标注造成了难度。

本发明提出了一种基于记忆深度卷积网络的新框架。使用社交媒体内部应用接口及爬虫装置构建图像数据库并过滤冗余信息,使用图像记忆矢量、上下文记忆矢量和文字输出矢量进行标签与字幕的预测,从关键词字典中找寻高频词,从而生成具有最高匹配度的针对该用户的个性化新词语。本发明可以处理标签与字幕的同步预测,提供一个上下文记忆网络的框架来解决文字匹配问题,同时提高了对应图像字幕的预测精度。



技术实现要素:

针对解决在图像中生成个性化字幕的问题,本发明的目的在于提供一种基于上下文序列记忆网络的个性化图像字幕生成方法,提出了一种基于记忆深度卷积网络的新框架。

为解决上述问题,本发明提供一种基于上下文序列记忆网络的个性化图像字幕生成方法,其主要内容包括:

(一)数据库构建;

(二)上下文记忆网络;

(三)基于状态的序列生成;

(四)网络训练。

其中,所述的数据库构建,利用社交媒体内接的应用程序接口生成爬虫装置来抓取社交媒体所发布的帖子中10类最常见的标签;

(1)从17813名用户分享的帖子中抓取到3455021张添加标签的原始图像,这些标签涉及图片分享网站中如娱乐、食物、旅行等27种最常见的图像类别,保留这些帖子的图像与标签或字幕一一对应的关系;

(2)对冗余信息进行过滤,做出以下条件限定:每个用户中的帖子被使用的最小数量为50,最大数量为1000;每个帖子的单词数最短为3,最长为15;经过过滤后所构建的数据库,共有字幕帖子721176份和标签帖子518116份;

(3)挑选数据库中的高频词v建立关键词字典对全贴内容挑选40000个关键词v,对标签预测挑选60000个关键词v,并且,关键词v必须不含有网址元素、字符编码和特殊字符。

进一步地,所述的上下文记忆网络,包括图像记忆、用户上下文记忆和文字输出记忆。

进一步地,所述的图像记忆,利用imagenet图像库在深度学习网络中预训练的权值来表征图像,提取深度学习网络中的第5层残差值,其特征图大小为7×7,则图像记忆矢量mim可表达为:

其中,j=1,…,49,relu是指修正线性单元函数。

进一步地,所述的用户上下文记忆,利用用户曾经发布过的帖子内容,加上关键词的影响,增加预测中的精确比重,具体地:

(1)选取用户前文发帖中d个最常用的高频词组成然后依次将这些关键词以频率由高至低排序输入到用户上下文记忆;

(2)在对关键词筛选的过程中,利用“检索词频率与逆向频率”算法计算关键词的得分,剔除掉低分选项,即剔除掉一些大众常用的关键词,从而更能体现独立用户个性化的任务需求;

(3)上下文记忆矢量可表示为:

其中,uj是对第j个活跃词的一位热编码。

进一步地,所述的文字输出记忆,在记忆网络中插入前文已经生成过的词语yj,文字输出矢量可表示为:

其中,yj是第j个前序生成词语的一位热编码,当每次生成一个新词语,都要被更新一遍,根据公式(1)至(6),所有的记忆矢量可以表征为m=mim+mus+mot。

进一步地,所述的基于状态的序列生成,包括序列生成和记忆卷积神经网络。

进一步地,所述的序列生成,将前序生成的词语按顺序地储存到记忆中,并且利用图像矢量信息、上下文矢量信息和文字输出信息来预测第t步中生成的词语yt,若前序生成词语为yt-1,则此步生成的输入矢量为:

其中,再利用矩阵乘积计算输入矢量qt和各个记忆网络单元的适配度pt,即:

公式(8)同时也可以体现出在当前第t步哪一部分的信息对生成新词语最有帮助。

进一步地,所述的记忆卷积神经网络,利用输入记忆容量的卷积神经网络计算得到记忆容量的输出mot,具体地,对图像记忆矢量、上下文记忆矢量和文字输出矢量都分别添加一个卷积层和一个最大值池化层,对于不同的窗口大小h=[3,4,5],有图像记忆矢量的匹配度:

其中,*表示卷积运算;通过最大池化运算,最终的维度为300×[1,1,1],再将不同h之间对应维度连接起来;与公式(9)相似地,可计算得上下文记忆矢量和文字输出矢量的匹配度总匹配度

接着计算输出词语的概率有:

st=softmax(wfht),其中ht=relu(woct+bo)(10)

最后,选择一个得到最高概率的词语yt=argmaxs∈v(st),继续将其输入到文字输出记忆网络,生成下一个新词语,并且去掉重复的词语,从而得到标签预测的结果。

进一步地,所述的网络训练,设计特定的交叉熵损失作为每一步新词语预测的损失函数,对于估计的新词语yt和对应的正确的目标词语ygt,t,最小化这对损失函数的负对数似然值;其中,在训练的过程中,使用随机梯度下降方法,初始化学习率∈设置为0.001,每5次迭代,将学习率除以1.2,从而继续训练至20次迭代。

附图说明

图1是本发明一种基于上下文序列记忆网络的个性化图像字幕生成方法的系统流程图。

图2是本发明一种基于上下文序列记忆网络的个性化图像字幕生成方法的字幕预测结果图。

图3是本发明一种基于上下文序列记忆网络的个性化图像字幕生成方法的标签预测结果图。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明基于上下文序列记忆网络的个性化图像字幕生成方法的系统流程图。主要包括数据库构建;上下文记忆网络;基于状态的序列生成;网络训练。

其中,数据库构建利用社交媒体内接的应用程序接口生成爬虫装置来抓取社交媒体所发布的帖子中10类最常见的标签;

(1)从17813名用户分享的帖子中抓取到3455021张添加标签的原始图像,这些标签涉及图片分享网站中如娱乐、食物、旅行等27种最常见的图像类别,保留这些帖子的图像与标签或字幕一一对应的关系;

(2)对冗余信息进行过滤,做出以下条件限定:每个用户中的帖子被使用的最小数量为50,最大数量为1000;每个帖子的单词数最短为3,最长为15;经过过滤后所构建的数据库,共有字幕帖子721176份和标签帖子518116份;

(3)挑选数据库中的高频词v建立关键词字典对全贴内容挑选40000个关键词v,对标签预测挑选60000个关键词v,并且,关键词v必须不含有网址元素、字符编码和特殊字符。

上下文记忆网络,包括图像记忆、用户上下文记忆和文字输出记忆。

图像记忆,利用imagenet图像库在深度学习网络中预训练的权值来表征图像,提取深度学习网络中的第5层残差值,其特征图大小为7×7,则图像记忆矢量mim可表达为:

其中,j=1,…,49,relu是指修正线性单元函数。

用户上下文记忆,利用用户曾经发布过的帖子内容,加上关键词的影响,增加预测中的精确比重,具体地:

(1)选取用户前文发帖中d个最常用的高频词组成然后依次将这些关键词以频率由高至低排序输入到用户上下文记忆;

(2)在对关键词筛选的过程中,利用“检索词频率与逆向频率”算法计算关键词的得分,剔除掉低分选项,即剔除掉一些大众常用的关键词,从而更能体现独立用户个性化的任务需求;

(3)上下文记忆矢量可表示为:

其中,uj是对第j个活跃词的一位热编码。

文字输出记忆,在记忆网络中插入前文已经生成过的词语yj,文字输出矢量可表示为:

其中,yj是第j个前序生成词语的一位热编码,当每次生成一个新词语,都要被更新一遍,根据公式(1)至(6),所有的记忆矢量可以表征为m=mim+mus+mot。

基于状态的序列生成,包括序列生成和记忆卷积神经网络。

序列生成,将前序生成的词语按顺序地储存到记忆中,并且利用图像矢量信息、上下文矢量信息和文字输出信息来预测第t步中生成的词语yt,若前序生成词语为yt-1,则此步生成的输入矢量为:

其中,再利用矩阵乘积计算输入矢量qt和各个记忆网络单元的适配度pt,即:

公式(8)同时也可以体现出在当前第t步哪一部分的信息对生成新词语最有帮助。

记忆卷积神经网络,利用输入记忆容量的卷积神经网络计算得到记忆容量的输出mot,具体地,对图像记忆矢量、上下文记忆矢量和文字输出矢量都分别添加一个卷积层和一个最大值池化层,对于不同的窗口大小h=[3,4,5],有图像记忆矢量的匹配度:

其中,*表示卷积运算;通过最大池化运算,最终的维度为300×[1,1,1],再将不同h之间对应维度连接起来;与公式(9)相似地,可计算得上下文记忆矢量和文字输出矢量的匹配度总匹配度

接着计算输出词语的概率有:

st=softmax(wfht),其中ht=relu(woct+bo)(10)

最后,选择一个得到最高概率的词语yt=argmaxs∈v(st),继续将其输入到文字输出记忆网络,生成下一个新词语,并且去掉重复的词语,从而得到标签预测的结果。

网络训练,设计特定的交叉熵损失作为每一步新词语预测的损失函数,对于估计的新词语yt和对应的正确的目标词语ygt,t,最小化这对损失函数的负对数似然值;其中,在训练的过程中,使用随机梯度下降方法,初始化学习率∈设置为0.001,每5次迭代,将学习率除以1.2,从而继续训练至20次迭代。

图2是本发明一种基于上下文序列记忆网络的个性化图像字幕生成方法的字幕预测结果图。如图所示,可以观察到多数字幕即便字面不一样,但表达的意思都是与图像内容或者原有字幕具有相关性和有意义的。

图3是本发明一种基于上下文序列记忆网络的个性化图像字幕生成方法的标签预测结果图。如图所示,可以观察到,标签的预测难度比字幕要低,并且可以从图中看到都有预测准确的标签。

对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1