一种基于主题适应与原型编码的少样本视觉故事叙述方法与流程

文档序号:22324478发布日期:2020-09-25 17:52阅读:101来源:国知局
一种基于主题适应与原型编码的少样本视觉故事叙述方法与流程
本发明涉及视觉语言,尤其涉及一种基于主题适应与原型编码的少样本视觉故事叙述方法。
背景技术
:视觉语言(visionandlanguage)是一门计算机视觉与自然语言处理为一体的交叉学科。随着深度学习技术在两大领域带来重大突破,图像摘要,图像问答,图像检索等跨模态任务产生了令人深刻的结果。近来,研究者们更进一步,开始探索根据图像序列生成叙述性故事的视觉故事叙述任务(visualstorytelling)。在视觉故事叙述任务中,给定一个具有上下文联系的图像序列,要求模型输出一段具有叙述性风格的自然语言描述的故事。视觉故事叙述任务的任务特点要求模型不仅能够正确识别图像中的物体及其属性,还应当充分理解多幅图像之间的关联,从时间和空间的角度挖掘图像序列中的隐含信息,并根据视觉内容的变化进行适当的推断,最终生成连贯通顺的叙述性故事。视觉故事叙述技术可以为用户拍摄的图像序列产生描述,以便快速的分享到社交媒体,或用于日后检索。作为更加复杂的跨模态任务,视觉故事叙述也可以反映智能体理解图像序列和组织自然语言的能力的水平。目前主流的视觉故事叙述模型受图像摘要模型启发,采用层次性的编码器-解码器架构,基于监督学习方式训练。许多先前工作都集中在设计复杂的模型结构上,这些模型通常需要大量的人工注释数据。但是,视觉故事叙述任务的标注既昂贵又复杂,因此无法注释大量的新数据,这一点成为监督学习方法的瓶颈。另一方面,以前的主题模型相关工作研究表明,现实世界中的主题通常遵循长尾分布,这意味着实际应用场景中有许多训练数据集中没有涵盖到的新主题,并且这些新主题的样本数量稀少。因此,传统监督模型不适合样本稀少的新主题,考虑少样本情景下的视觉故事叙述,则更加贴近现实生活中的应用场景。技术实现要素:本发明的目的是针对视觉故事叙述任务中主题呈长尾分布,新主题样本数量稀少不适合传统监督模型的问题,提出了一种基于主题适应与原型编码的少样本视觉故事叙述方法。为了实现上述发明目的,本发明具体采用的技术方案如下:一种基于主题适应与原型编码的少样本视觉故事叙述方法,其包括如下步骤:s1:将视觉故事数据集按主题划分,每一轮训练采样一批主题并将每个主题划分为支持集与查询集;s2:将训练所用的支持集中的视觉故事样本中的故事文本与图像序列分别编码为故事特征和图像序列特征,存储备用;s3:对查询阶段的图像序列提取时序视觉语义特征和图像序列特征,结合s2中所述支持集的故事特征和图像序列特征,计算得到原型向量;s4:通过带有注意力机制的故事解码器,将s3中得到的图像序列特征和原型向量的组合特征解码为故事性描述文本;s5:通过元学习方法,利用以s2~s4为框架构建的视觉故事叙述模型在查询集上的综合损失来优化视觉故事叙述模型的初始参数;s6:在推测阶段,根据新主题的支持集进行少样本学习以调整视觉故事叙述模型参数,再使用调整过参数的视觉故事叙述模型为查询集中的样本生成故事性描述文本。基于上述技术方案,本发明的各步骤还可以进一步采用如下具体方式实现。优选的,所述s1的具体方法如下:s11:将视觉故事数据集按主题划分,每一轮训练采样n个主题,并从每个主题中采样2k个视觉故事样本,其中k个作为支持集用于少样本训练,剩余k个作为查询集用于验证少样本学习效果。优选的,所述s2的具体子步骤如下:s21:使用基于门控循环单元的文本编码器对支持集中所有样本经过单词嵌入层后的故事文本抽取故事特征sspt={s1,…,sk};s22:利用卷积神经网络和视觉语义编码器对支持集中所有图像序列抽取图像序列特征,得到图像序列特征集合,每个图像序列特征表征一个图像序列的语义信息。进一步的,所述s22中,对于支持集中的每一个图像序列ai={a1,…,am},aj表示第j张图像,m为图像序列长度,卷积神经网络抽取该图像序列中每一张图像aj的特征为fj,得到图像序列对应的图像特征的集合fi={f1,…,fm},并将集合fi中每个特征按顺序送入基于门控循环单元的视觉语义编码器中,得到图像序列的时序视觉语义特征v={v1,…,vm},其中vj表示处理支持集时门控循环单元第j时刻的隐状态,取门控循环单元最后时刻的视觉语义特征vm作为表征该图像序列的图像序列特征。进一步的,所述s3的具体子步骤如下:s31:对于查询集中的每个样本,使用与s2中相同的卷积神经网络和视觉语义编码器提取样本中的图像序列的时序视觉语义特征vqry={v'1,…,v'm},其中v'j表示处理查询集时门控循环单元第j时刻的隐状态,取门控循环单元最后时刻的视觉语义特征v'm作为表征该图像序列的图像序列特征;s32:通过注意力机制,结合s2中所述支持集的故事特征和图像序列特征,进一步计算故事原型向量:其中,proto∈r1×dk表示原型向量,dk表示特征的维度数,softmax(·)表示softmax函数,的上标t表示转置。进一步的,所述s4的具体子步骤如下:s41:将所述原型向量与图像序列特征拼接,用于初始化故事解码器的门控循环单元的隐层状态h0;s42:根据门控循环单元上一时刻的隐层状态ht-1和上一时刻预测的单词w,预测当前时刻t的隐层状态ht;s43:通过注意力机制,计算t时刻的视觉上下文特征:其中,ct表示t时刻的视觉上下文特征;s43:利用t时刻的视觉上下文特征和门控循环单元隐层状态来预测t时刻的单词概率分布:其中,pwt表示预测的t时刻的单词概率分布,wproj∈r2dk×dk和bproj∈r1×dk分别是通过学习得到的映射矩阵和偏置系数。进一步的,所述s5的具体子步骤如下:s51:以s2~s4为框架构建视觉故事叙述模型,对于s11中采样的n个主题中的每一个主题,使用梯度下降方法调整参数,得到每个主题对应的一套针对本主题调整后的模型参数;s52:通过最小化n个主题在查询集上的综合损失,进一步优化模型的初始参数θ。进一步的,所述s51中,使用梯度下降方法计算调整后的模型参数的公式如下:其中,θi'表示初始参数在第i个主题上经调整后获得的新参数,θ表示模型初始参数,fθ表示在初始参数θ下的模型,为第i个主题上计算得到的模型损失,该损失通过计算单词分布与真实分布的交叉熵获得,α为更新参数的学习率,表示对参数θ求导;所述s52中,进一步优化模型的初始参数θ所采用的综合损失函数为:其中,e[·]表示求期望,为所有主题的分布,表示主题从所有主题中采样而来。进一步的,所述s6的具体子步骤如下:s61:在模型推测阶段,使用s51所述的梯度下降方法,根据新的主题的支持集调整参数,使视觉故事叙述模型参数快速适应到新的主题,得到模型适应新主题后的新参数θ';s62:利用带有新参数θ'的视觉故事叙述模型fθ'为推测阶段的图像序列生成故事描述文本。优选的,所述的文本编码器、视觉语义编码器和故事解码器均为一个基于门控循环单元的循环神经网络。本发明与现有的技术相比,所具有的有益的效果是:1.本发明基于元学习方法,与基于监督学习的视觉故事叙述方法相比,具有更好的主题泛化能力。本发明能够通过新主题的少量样本快速调整模型参数,生成更符合主题的视觉故事描述,减少了模型对于新主题样本数量的依赖,更适应实际应用场景。2.本发明通过将新主题的少量训练样本编码为原型,并在推测阶段提供给视觉故事叙述模型作为参考,使得模型能够充分捕捉新主题的视觉特征和语言风格,产生的故事描述具有更好的相关性和表达性。附图说明图1为基于主题适应与原型编码的少样本视觉故事叙述方法的流程图。具体实施方式下面结合附图和具体实施方式对本发明做进一步阐述和说明。如图1所示,在本发明的一个较佳实施例中,提供了一种基于主题适应与原型编码的少样本视觉故事叙述方法。本发明的基本构思是首先将据集按主题划分,每一轮训练采样一批主题并将每个主题划分为支持集与查询集;对查询集中的样本提取时序视觉语义特征和图像序列特征,结合在支持集中预先提取好的的故事特征和图像序列特征计算原型向量;再将原型向量与图像序列特征结合,进一步解码获得故事性描述文本。整体视觉故事模型进一步通过元学习方法,根据在查询集上计算得到的综合损失来优化模型的初始参数。在推测阶段,模型通过少数样本调整参数,根据新图像序列生成故事文本。本发明的整体框架可分为原型编码部分和视觉上下文编码部分,其中文本编码器、视觉语义编码器和故事解码器均为一个基于门控循环单元(gru)的循环神经网络。下面对该基于主题适应与原型编码的少样本视觉故事叙述方法的具体步骤进行展开描述,具体如下:s1:将视觉故事数据集按主题划分,每一轮训练采样一批主题并将每个主题划分为支持集与查询集。本实施例中,具体的划分方法如下:s11:将视觉故事数据集按主题划分,每一轮训练采样n个主题,并从每个主题中采样2k个视觉故事样本,其中k个作为支持集dspt用于少样本训练,剩余k个作为查询集dqry用于验证少样本学习效果。其中,n、k的具体取值可以根据数据集的具体情况而定,以满足模型的训练要求为准。例如,在一组以婚礼为主题的视觉故事样本中,每一个样本中均含有图片以及其对应的故事文本真值,即ground-truth,用于后续模型训练。s2:将训练所用的支持集中的视觉故事样本中的故事文本与图像序列分别编码为故事特征和图像序列特征,存储备用。本实施例中,实现s2步骤具体可通过如下子步骤进行:s21:使用基于门控循环单元的文本编码器对支持集中所有样本经过单词嵌入层后的故事文本抽取故事特征sspt={s1,…,sk};s22:利用卷积神经网络和视觉语义编码器对支持集中所有图像序列抽取图像序列特征,得到图像序列特征集合,每个图像序列特征表征一个图像序列的语义信息。其中,对于支持集中的每一个图像序列ai={a1,…,am},aj表示第j张图像,m为图像序列长度,卷积神经网络抽取该图像序列中每一张图像aj的特征为fj,得到图像序列对应的图像特征的集合fi={f1,…,fm},并将集合fi中每个特征fj按顺序送入基于门控循环单元的视觉语义编码器中,得到图像序列的时序视觉语义特征v={v1,…,vm},其中vj表示处理支持集时门控循环单元第j时刻的隐状态,取门控循环单元最后时刻的视觉语义特征vm作为表征该图像序列的图像序列特征。m的具体取值可根据需要进行调整,本实施例中,设置m=5。s3:对查询阶段的图像序列提取时序视觉语义特征和图像序列特征,结合s2中支持集中的故事特征和图像序列特征,计算得到原型向量。本实施例中,实现s3步骤具体可通过如下子步骤进行:s31:对于查询集中的每个样本,使用与s2中相同的卷积神经网络和视觉语义编码器提取样本中的图像序列的时序视觉语义特征vqry={v'1,…,v'm},其中v'j表示处理查询集时门控循环单元第j时刻的隐状态,取门控循环单元最后时刻的视觉语义特征v'm作为表征该图像序列的图像序列特征;s32:通过注意力机制,结合s2中得到的支持集的故事特征和图像序列特征,进一步计算故事原型向量:其中,proto∈r1×dk表示原型向量,dk表示特征的维度数,softmax(·)表示softmax函数,∈r1×dk是查询集中单个图像序列的图像序列特征,∈rk×dk表示支持集的图像序列特征集合,其上标t表示转置,sspt∈rk×dk表示对应图像序列的故事特征的集合。s4:通过带有注意力机制的故事解码器,将s3中得到的图像序列特征和原型向量的组合特征解码为故事性描述文本。本实施例中,实现s4步骤具体可通过如下子步骤进行:s41:将s32中的原型向量与图像序列特征拼接,用于初始化故事解码器的门控循环单元的隐层状态h0:其中h0表示门控循环单元的初始隐层状态,[;]表示向量拼接,winit∈r2dk×dk是通过学习得到的映射矩阵;∈r1×dk是s31中的查询集中单个图像序列的图像序列特征,proto为s32中得到的原型向量,本发明中引入的原型向量作为一个主题下的故事的表征,捕捉了当前主题下的视觉故事共有的元素,例如情感倾向、叙述风格等、单词偏好等。通过将原型向量与图像序列拼接初始化门控循环单元的隐层状态h0,可以使原型向量捕捉到的主题信息贯穿整个解码阶段,以此指导故事性描述文本的生成。s42:根据门控循环单元上一时刻的隐层状态ht-1和上一时刻预测的单词w,预测当前时刻t的隐层状态ht:ht=gru(ht-1,e∙wt-1)其中gru表示单步运行的门控循环单元,e为词嵌入矩阵,wt-1表示上一时刻预测到的单词的独热向量;s43:通过注意力机制,计算t时刻的视觉上下文特征:其中,ct表示t时刻的视觉上下文特征;s43:利用t时刻的视觉上下文特征和门控循环单元隐层状态来预测t时刻的单词概率分布:其中,pwt表示预测的t时刻的单词概率分布,wproj∈r2dk×dk和bproj∈r1×dk分别是通过学习得到的映射矩阵和偏置系数。相比仅使用门控循环单元时刻t的隐层状态ht来预测t时刻的单词概率分布,本发明中结合t时刻的视觉上下文特征可以使视觉故事模型更好的捕捉视觉信息,并缓解由于门控循环单元的遗忘机制所造成的信息损失,以提高所生成的故事性文本描述与所给图像序列之间的相关性。s5:通过元学习方法,利用以s2~s4为框架构建的视觉故事叙述模型在查询集上的综合损失来优化视觉故事叙述模型的初始参数。本实施例中,实现s5步骤具体可通过如下子步骤进行:s51:以s2~s4步骤的流程为框架,构建一个视觉故事叙述模型。对于s11中采样的n个主题中的每一个主题,使用梯度下降方法调整参数,得到每个主题对应的一套针对本主题调整后的模型参数,梯度下降公式如下:其中,θi'表示初始参数在第i个主题上经调整后获得的新参数,θ表示模型初始参数,fθ表示在初始参数θ下的模型,为第i个主题上计算得到的模型损失,该损失通过计算单词分布与真实分布的交叉熵获得,α为更新参数的学习率,表示对参数θ求导;s52:通过最小化n个主题在查询集上的综合损失,进一步优化模型的初始参数θ:其中,e[·]表示求期望,为所有主题的分布,表示主题从所有主题中采样而来。s6:在推测阶段,根据新主题的支持集进行少样本学习以调整视觉故事叙述模型参数,再使用调整过参数的视觉故事叙述模型为查询集中的样本生成故事性描述文本。本实施例中,实现s6步骤具体可通过如下子步骤进行:s61:在模型推测阶段,使用s51中的梯度下降方法,根据新的主题的支持集调整参数,使视觉故事叙述模型参数快速适应到新的主题,得到模型适应新主题后的新参数θ':其中,θ'为模型适应新主题后的新参数,表示推测阶段新的主题,为主题上计算得到的模型损失;此处通过使用调整后的参数θ',视觉故事叙述模型充分适应当前主题,能产生具有更好的相关性与表达性的故事性文本描述。s62:利用带有新参数θ'的视觉故事叙述模型fθ'为推测阶段的图像序列生成故事描述文本。由此,在本步骤中,视觉故事叙述模型仅通过少数样本调整参数,即可生成更符合主题的视觉故事描述,减少了模型对于新主题样本数量的依赖,更适应实际应用场景。为了验证本发明的效果,使用vist数据集测试本发明中的方法。使用样本数量最多的50个主题共41807个故事样本用于元训练,剩余的19个主题共2031个样本用于元测试。测试使用自动评价矩阵bleu和meteor。本发明在少样本的新主题上,产生的视觉故事叙述效果良好,明显优于现有的全监督预训练模型,测试结果见下表:方法bleumeteor全监督预训练模型6.329.0本发明8.131.1本实施例的少样本视觉故事叙述的一个例子中,给定一个包含5张照片的图像序列,supervised为监督模型产生的故事描述,tavs为本发明产生的故事描述,ground-truth为人工标注结果。在仅学习少量样本的情况下,监督模型将毕业典礼错误地识别成了游行,并且语言表达呆板。而本发明能很好的调整参数,产生了关于毕业典礼的描述,更加符合图像序列主题,且语言表达更加灵活。总体而言,本发明通过将新主题的少量训练样本编码为原型,并在推测阶段提供给视觉故事叙述模型作为参考,使得模型能够充分捕捉新主题的视觉特征和语言风格,产生的故事描述具有更好的相关性和表达性。以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关
技术领域
的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1