本发明属于计算机视觉与自然语言处理,尤其涉及基于图像显著性与深度注意力网络的图像密集描述方法。
背景技术:
1、图像理解是人类与生俱来的一种认知世界的能力,随着人工智能前沿技术的发展,越来越多的学者希望机器能够具备这样的图像理解能力。图像描述能够直观反映机器的图像理解水平,其在图像检索、社交媒体、电子商务等领域有着广泛的潜在应用,所以对图像描述的研究有着十分重大的意义。图像密集描述与已有的图像描述形式类似,输入均为一张图像,图像描述会针对图像生成一句概括描述,而密集描述则会对图像进行细分并对每个部分进行短语描述。
2、科研工作者针对图像密集描述任务的研究尚不充分,仍处于探索阶段。而对于一般的图像描述,已有大量充分的研究,基本的模型框架为:使用预训练好的卷积神经网络如resnet提取图像特征向量,再用循环神经网络如lstm根据图像特征向量逐词生成描述内容。先前的图像密集描述在单句描述的编解码结构的基础上,均是由图像目标检测入手,根据矩形检测框来得到候选描述区域,这样的作法可能会损失一些目标与背景或目标之间的关系,也可能会使密集描述重复内容过多过于繁琐。如下面参考文献中,johnson j等人在2016年提出的密集描述方法,虽然描述比较全面,但存在大量信息冗余。
3、参考文献:johnson,j.,karpathy,a.,&fei-fei,l.(2016).densecap:fullyconvolutional localization networks for dense captioning.in proceedings ofthe ieee conference on computer vision and pattern recognition(pp.4565-4574).
技术实现思路
1、为了克服上述问题,本发明提出一种基于图像显著性与深度注意力网络的图像密集描述方法,利用图像显著性分析得到形状任意的图像关注区域掩模;利用预训练卷积神经网络获取完整图像特征向量;利用hard注意力在特征解码的同时由得到的掩模限制soft注意力关注到的图像区域,使解码器能够有效得到对应区域的局部信息;模糊了具体实例对象的概念,也使得描述模型更关注图像本身含义而非对象的特征。本发明结合了人对于图像内容的反应强度来获取重要区域,使用带注意力编解码器(编码器使用resnet-101,解码器使用带注意力的lstm),编码图像并依据关注区域进行解码,从而得到充分而不繁复的描述内容。
2、为实现上述目的,本发明所采用的技术方案如下:
3、一种基于图像显著性与深度注意力网络的图像密集描述方法,包括以下步骤:
4、s1、基于图像显著性分析获得图像的关注区域及关注区域掩膜;
5、s2、对图像进行编码,得到图像特征向量;
6、s3、将图像特征向量和关注区域掩膜输入解码器,生成描述语句。
7、进一步的,所述步骤s1包括:
8、s11、通过图像显著性分析获得图像的显著性强度图;
9、s12、根据预设的不同阈值将显著性强度图进行二值化,以获得图像的关注区域;
10、s13、为关注区域生成掩膜;
11、s14、显著性强度从弱到强,对关注区域掩膜计算交并比,如果交并比大于一定交并比阈值则舍去显著性强度强的关注区域,否则将显著性强度强的关注区域及其掩模保存。
12、优选的,交并比阈值为0.2。
13、进一步的,在s12中,对所述获得图像的关注区域中的联通区域,经形态学膨胀腐蚀进行分割后形成关注区域。
14、进一步的,在步骤s2中,通过resnet进行编码。
15、进一步的,在步骤s3中,解码器预测当前词的概率分布,同时将soft注意力和hard注意力引入到解码器中,对解码器所能看到的图像区域进行限制,然后逐步产生描述词,具体包括:
16、s31、为关注区域和非关注区域设置权重;
17、s32、将lstm上一时间步的隐变量h与图像特征向量经全连接层后拼接形成soft注意力;
18、s33、将s31设置权重的关注区域掩模作为全局注意力强度输入,与s32所述的soft注意力以乘积的形式作为图像特征向量的关注权重,将加权后的图像特征向量awe输入lstm。
19、进一步的,在步骤s3中,解码器为lstm。
20、进一步的,在s31中,调整关注区域掩模的背景权重大于0,关注区域权重为1。
21、优选的,背景权重为0.2。
22、进一步的,编码器和解码器的训练方法包括:
23、当前时间步之前的描述词使用语料内容,通过步骤s2、s3得到描述词概率分布,若分布中top5包含语料目标词汇,则认为该词推理正确;
24、比较原始语料和推理所得描述语句,计算交叉熵作为损失函数,使用随机梯度下降法更新编码器和解码器参数,其中,首轮只更新解码器,后续轮次更新解码器和编码器,直到其收敛。
25、对比现有技术,本发明有如下有益效果:
26、(1)通过图像显著性,直观反映了人在阅读图像时的关注点和顺序,模糊了实例对象的概念,强化了图像局部信息,避免了现有技术忽视对象与环境以及对象与对象之间关系的问题。
27、(2)合理筛选关注区域,在保留有效内容的同时避免了信息冗余,有效地将临近的相似对象内容进行概括描述。
28、(3)本发明能够有效针对不规则区域进行描述,打破了现有技术只能描述矩形框区域内容的限制。
1.一种基于图像显著性与深度注意力网络的图像密集描述方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的图像密集描述方法,其特征在于,所述步骤s1包括:
3.根据权利要求2所述的图像密集描述方法,其特征在于,交并比阈值为0.2。
4.根据权利要求2所述的图像密集描述方法,其特征在于,在s12中,对所述获得图像的关注区域中的联通区域,经形态学膨胀腐蚀进行分割后形成关注区域。
5.根据权利要求1所述的图像密集描述方法,其特征在于,在步骤s2中,通过resnet进行编码。
6.根据权利要求1所述的图像密集描述方法,其特征在于,在步骤s3中,解码器预测当前词的概率分布,同时将soft注意力和hard注意力引入到解码器中,对解码器所能看到的图像区域进行限制,然后逐步产生描述词,具体包括:
7.根据权利要求6所述的图像密集描述方法,其特征在于,在步骤s3中,解码器为lstm。
8.根据权利要求6所述的图像密集描述方法,其特征在于,在s31中,调整关注区域掩模的背景权重大于0,关注区域权重为1。
9.根据权利要求8所述的图像密集描述方法,其特征在于,背景权重为0.2。
10.根据权利要求1所述的图像密集描述方法,其特征在于,编码器和解码器的训练方法包括: