一种基于目标掩膜的图像描述方法与流程

文档序号:16580433发布日期:2019-01-14 17:55阅读:528来源:国知局
一种基于目标掩膜的图像描述方法与流程

本发明涉及计算机图像处理技术领域,具体涉及一种图像描述方法。



背景技术:

对于人类来说,通过文字来描述所看到的图像内容是很容易的,通常人可以快速找出图像中所包含的目标对象、对象所处的环境、对象之间的关系以及对象之间的行为,并能通过文字来描述其看到的信息。然而对于计算机来说,通过文字来描述一幅图像是一项很具挑战性的任务,因为其不仅涉及到计算机视觉领域,而且还和自然语言处理领域密切相关。虽然计算机视觉和自然语言处理看似没有关联,但图像描述却可以将这两个领域结合起来。图像描述模型需要抓住图像的内容以及语义信息,并且生成人类可读的语句。

图像描述生成主要是通过卷积神经网络提取图像特征,然后通过循环神经网络生成对应描述,这种编码-解码的结构是现在图像描述模型的主流。而受到注意力机制在机器翻译中的启发,产生了在提取图像特征时引入注意力机制的方法,该类方法在生成每个词的时候关注图像上的某个区域。在卷积神经网络上做区域推荐的影响下,提取图像的目标区域,并在该目标区域上使用注意力机制的方法也在图像描述领域取得了亮眼的表现。

然而仅仅通过图像的目标特征表示图像会丢失掉图像的全局特征,目标的关联性丢失,对应到描述生成即会影响上下文的生成;而仅仅通过图像的全局特征描述图像又会对目标不够关注。此外单纯的目标框提取特征在目标的周围会有冗余信息,而通过掩膜去掉目标周围的背景,只提取单纯的目标特征可以更好的表征图像的目标。另外循环神经网络在训练过程中,每个时间步的输入都是训练语句中的单词,而输出为预测的单词。但是在测试过程中,每个时间步的输入都是上个时间步骤的输出单词,训练与测试过程中的输入存在着不一致性。若某个时间步输出了一个错误的单词,该单词就会成为下个时间步的输入。这样的不一致性可能会导致累积误差,最后甚至会生成和图像内容完全不一致的描述。



技术实现要素:

有鉴于此,本发明提供一种基于目标掩膜的图像描述方法,解决传统图像描述算法中只采用图像全局特征或者只采用图像目标特征、目标特征包含冗余信息、训练与测试不一致的问题,以生成更好图像描述语句。

本发明的目的是通过以下技术方案来实现的:

一种基于目标掩膜的图像描述方法,包括如下步骤:

s1.获取图像的全局特征、纯目标区域特征及其均值池化后的特征;

s2.对微软的coco数据集中的描述语句进行词嵌入操作得到单词的词向量;

s3.将第t个时间步将图像全局特征的均值池化特征、纯目标区域特征的均值池化特征、长短期记忆网络lstm1在t-1个时间步输出的隐藏输出第t个时间步输入单词的词向量特征输入到长短期记忆网络lstm1中得到其第t个时间步的隐藏输出

s4.通过获取应用注意力机制的全局特征;

s5.通过获取应用注意力机制的纯目标区域特征;

s6.将第t个时间步应用注意力机制的图像全局特征以及纯目标区域特征、输入到长短期记忆网络lstm2预测图像在第t个时间步的输出单词;

s7.重复s3-s6直到输出的单词为结束符则生成该图像描述语句完成。

进一步,所述步骤s1具体包括如下步骤:

s11.通过卷积神经网络提取图像的全局特征g={g1,g2,...gk1};

s12.通过均值池化操作获取图像全局特征的均值特征

s13.同时通过区域推荐网络在全局特征的基础上输出可能的目标区域掩膜;

s14.对图像的目标掩膜区域进行去背景操作,然后通过卷积神经网络提取纯目标区域的特征m={m1,m2,...mk2};

s15.通过均值池化操作获取图像纯目标区域的均值特征

进一步,所述步骤s2具体包括如下步骤:

s21.对coco数据中描述语句添加起始符<sta>以及终止符号<end>。

s22.将coco数据中描述语句单词词来。嵌入得到每个单词对应的词向量。

进一步,所述步骤s3具体包括如下步骤:

将s1所得到的图像全局特征g以及其均值特征纯目标特征m以及其均值特征s2所得到词向量特征、长短期记忆网络lstm2在时间步t-1的隐藏输出输入到长短期记忆网络lstm1中,得到长短期记忆网络lstm1在时间步t的隐藏输出即编码后的特征。

进一步,所述步骤s4具体包括如下步骤:

根据s3步骤中获取的编码后的特征以及s1步骤中所得到的图像全局特征g获取全局特征的权重系数α,通过α*g得到应用注意力机制后的全局特征

进一步,所述步骤s5具体包括如下步骤:

根据s3步骤中获取的编码后的特征以及s1步骤中所得到的图像纯目标特征m获取图像纯目标区域特征的权重系数β,通过m*β得到应用注意力机制后的纯目标区域特征

进一步,所述步骤s6具体包括如下步骤:

s61.根据步骤s3获取的编码特征步骤s4获取的应用注意力机制后的全局特征步骤s5获取的应用注意力机制后的纯目标区域特征以及长短期记忆网络lstm2在时间步t-1的隐藏输出将其输入到长短期记忆网络lstm2中,得到长短期记忆网络lstm2在时间步t的隐藏输出

s62.将s61中得到的通过softmax归一化指数函数层得到预测的时间步t的单词yt;

进一步,所述步骤s7具体包括如下步骤:

起始时使用起始符<sta>作为初始输入单词,重复s3-s6直到输出的单词为结束符<end>则生成该图像描述语句完成,生成单词序列y={<sta>,y1,y2,...,yt-1,<end>}为图像的描述。

由于采用了上述技术方案,本发明具有如下的优点:

仅仅通过图像的目标特征表达图像会丢失目标的关联性,影响上下文的生成;仅仅通过图像的全局特征描述图像又会对目标不够关注;单纯的目标框提取特征在目标的周围会有冗余信息,只提取单纯的目标特征可以更好的表征图像的目标。另外循环神经网络在训练过程中,每个时间步的输入都是训练语句中的单词,而输出为预测的单词。但是在测试过程中,每个时间步的输入都是上个时间步骤的输出单词,训练与测试过程中的输入存在着不一致性。若某个时间步输出了一个错误的单词,该单词就会成为下个时间步的输入。这样的不一致性可能会导致累积误差,最后甚至会生成和图像内容完全不一致的描述。而本发明充分考虑了图像的纯目标特征以及全局特征,减小了背景的干扰,并且将注意力机制应用到纯目标级别以更好的解决图像描述生成问题。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述:

图1为获取图像的全局特征、纯目标区域特征及其均值池化后的特征。

图2为时间步t通过获取到的图像特征及时间步t-1的单词特征生成时间步t的单词。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。

参见图1-2,本实施例的基于目标掩膜的图像描述方法,包括如下步骤:

s1.获取图像的全局特征、纯目标区域特征以及它们的均值特征;具体包括如下步骤:

s11.通过卷积神经网络提取图像的全局特征g={g1,g2,...gk1};

s12.通过均值池化操作获取图像全局特征的均值特征

s13.同时通过区域推荐网络在全局特征的基础上输出可能的目标区域掩膜;

s14.对图像的目标掩膜区域进行去背景操作,然后通过卷积神经网络提取纯目标区域的特征m={m1,m2,...mk2};

s15.通过均值池化操作获取图像纯目标区域的均值特征

s2.对微软的coco数据集中的描述语句进行词嵌入操作得到单词的词向量;具体包括如下步骤:

s21.对coco数据中所有的描述语句添加起始符<sta>以及终止符号<end>。

s22.将coco数据中所有的描述语句合并,并对其中的单词进行词嵌入操作获取所有单词的词向量特征。

s3.获取图像全局特征、纯目标特征以及第t-1个时间步的词嵌入特征编码后的特征;具体包括如下步骤:

s31.获取图像对应的描述语句在第t-1个时间步的单词在s2中的词向量特征;

s32.将第t个时间步将图像全局特征的均值池化特征、纯目标区域特征的均值池化特征、lstm1(长短期记忆网络1)在t-1个时间步输出的隐藏输出第t个时间步输入单词的词向量特征输入到lstm1(长短期记忆网络1)中得到其第t个时间步的隐藏输出即编码后的特征。

s4.根据s3步骤中获取的编码后的特征以及s1步骤中所得到的图像全局特征g获取全局特征的权重系数α,通过α*g得到应用注意力机制后的全局特征

s5.根据s3步骤中获取的编码后的特征以及s1步骤中所得到的图像纯目标特征m获取图像纯目标区域特征的权重系数β,通过m*β得到应用注意力机制后的纯目标区域特征

s6.通过长短期记忆网络预测图像在时间步t的描述单词,具体包括如下步骤:

s61.根据步骤s3获取的编码特征步骤s4获取的应用注意力机制后的全局特征步骤s5获取的应用注意力机制后的纯目标区域特征以及lstm2(长短期记忆网络2)在时间步t-1的隐藏输出将其输入到lstm2(长短期记忆网络2)中,得到lstm2(长短期记忆网络2)在时间步t的隐藏输出

s62.将s61中得到的通过softmax(归一化指数函数)层得到预测的时间步t的单词yt;

s7.起始时使用起始符<sta>作为初始输入单词,重复s3-s6直到输出的单词为结束符<end>则生成该图像描述语句完成,生成的单词序列y={<sta>,y1,y2,...,yt-1,<end>}为图像的描述。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1