一种基于紧凑双线性融合的图文跨模态情感分类方法与流程

文档序号:11519828阅读:284来源:国知局
一种基于紧凑双线性融合的图文跨模态情感分类方法与流程

本发明涉及图文结合的跨模态情感分类方法,特别涉及一种基于紧凑双线性融合的图文跨模态情感分类方法。



背景技术:

图文跨模态情感分类研究的对象是:在twitter、、facebook、微博、电商等平台下,根据用户发送的图像和及其对应的文字信息,判断出发送者是积极还是消极的情感态度。图文跨模态情感分类的应用领域主要包括:舆情监测、用户行为分析、商品属性评判等等。随着科技的进步与发展,软硬件水平的不断提高,很多平台都可以支持用户同时发送语音、图像、视频等多媒体信息,其中大多数用户选择同时发送图像与文本两种媒体信息,因为相对于视频和语音,图像和文本能够更加简洁、直观的传达出发送者的情感态度。通过对图文跨模态情感分类的研究,不仅可以指导其他跨模态情感分类的研究,并且有着重大的现实意义,一旦研究成功并投入应用,将产生巨大的社会和经济效益。

总得来说,多模态情感分类的研究主要可以分为三部分。首先,如何利用现有的算法模型,提取出各种模态数据较好的情感特征;接着,研究如何更加高效、完整的将不同模态的特征融合;最后,就是对于损失函数的设计,如何快速高效的学习出所需参数,如果避免模型过拟合,如何添加在模态融合部分的惩罚项,使得模态融合部分的参数调整更加准确。

图文多模态情感分类的研究工作相对较晚,在早期,研究者们主要提取文本的情感词、词频等信息作为文本的情感特征,使用图像的sift、hog、颜色直方图等特征作为图像的情感特征,使用传统的机器学习方法进行图文跨模态的情感分类研究。由于提取的文本和图像情感特征都属于低级的特征,而情感又是主观且抽象的,这样的研究方法的准确率很低。后来有研究者通过构建形容词名词对的方法获取图像的中等特征,虽然准确率有了很大的提升,但是仍然不高,很难能够真实的应用。随着深度学习在计算机视觉任务上的不断突破,研究者可以使用深度学习获取到图像更深层次的语义级特征。同时,包含语义及句法信息的词向量的出现,使自然语言处理各项任务有了很大的提升。因此,研究者开始使用深度学习模型进行图文跨模态情感分类的研究,并取得了不错的研究成果。但是,研究者只是注重模型的研究,不能很好地进行图文跨模态情感分类。



技术实现要素:

本发明目的在于克服以往对低照度图像存在的缺陷,提出一种基于紧凑双线性融合的图文跨模态情感分类方法,使用深度学习模型,从获取更好的情感特征表示与融合算法的研究两个角度,进行图文跨模态情感分类,实现较高的分类精度。

本发明解决其技术问题所采用的技术方案是:

一种基于紧凑双线性融合的图文跨模态情感分类方法,包括:

从图文标注情感训练数据集中,逐一提取出图像及其对应的文字信息,将图像调整为448*448大小,将调整好的图像输入到经过imagenet数据集上预训练好的152层的残差网络中,提取出图像经过152层残差网络计算后,其中最后一层卷积层的输出,大小为2048*14*14,作为图像的特征表示;

使用glove模型生成的300维词向量,将图像对应的文字信息转化计算机可以处理的矩阵表示,输入到双层lstm网络中,每层lstm网络包含100个单元,每层的输出向量为1024维,最后将每层lstm的输出拼接,组成2048维的向量,作为文本的特征表示;

根据得到的图像与文本特征表示,先将得到的2048维的文本特征表示,复制14*14=256次,组合成2048*14*14的大小,再与之前得到的大小为2048*14*14的图像特征表示进行拼接,组合成4096*14*14大小的特征,接着经过两层卷积层,得到1*14*14大小的输出,接着使用softmax分类器得到1*14*14大小的每个空间位置的注意力权重,即软注意力图,根据得到的软注意力图,与之前提取到的2048个14*14大小的图像特征表示进行逐个逐元素的相乘并求和,最终得到2048维的图像注意力特征表示;

将得到的2048维的文本特征表示和图像注意力特征表示,使用多模态紧凑双线性融合算法(mcb)进行特征融合得到16k融合特征,mcb算法根据式(1)进行特征融合,

其中i表示提取得到的2048维图像注意力特征表示,c表示提取得到的2048维文本特征表示,代表外积,[]代表将外积的计算结果线性化为一个向量来表示,w用来筛选外积计算结果并得到固定大小的融合特征,当i和c的维度很高时,w需要很多的参数,从而导致内存的消耗,更高的计算时间和参数的不稳定性;

所以需要一种方法,能够让我们在计算外积的时候,可以使向量降低在较低的维度上,降低w所需参数。那么在计算外积时,使用countsketch投影函数ψ,可以将向量x∈rn投影到y∈rd。首先初始化两个向量h∈{-1,1}n和g∈{1,...,d}n,h每个位置只取1或-1,g使得输入x的索引i变化成输出y的索引j。h和g使用均匀分布随机生成,并始终保持不变。对于每个元素x[i],它的最终索引j=h[i],最终输出y[j]=h[i]·x[i];

通过上述算法,我们就可以将外积映射到低维空间当中,从而减少了w的参数,为了避免直接的计算外积,使用countsketch函数计算两个向量的外积可以表示成两个向量的countsketch函数进行卷积的形式,如式(2),

其中,*表示卷积操作,i和c分别代表提取得到的2048维图像注意力特征表示和提取得到的2048维文本特征表示;

另外,根据卷积定理,在时域下的卷积,等价于频率域中逐元素相乘。那么,令i′=ψ(i,g,h),c′=ψ(c,g,h),上述式(2)的i′*c′就改写成fft-1(fft(i′)⊙fft(c′))的形式,⊙代表逐元素相乘,这样就完成了mcb融合算法,就可以简单高效完成外积的计算,并且该算法也支持更多模态作为输入;

在得到融合特征后,后面一层是全连接层,最后使用softmax分类器对图文跨模态数据进行积极、消极二类的情感预测,接着对比真实的情感标签,对该紧凑双线性融合的图文跨模态情感分类模型(mcbc)模型进行训练;

训练采用adam(adaptivemomentestimation,自适应矩估计;一种基于一阶梯度来优化随机目标函数的算法)方法进行梯度更新,在最大迭代次数内,如果终止条件能满足,则整个训练过程结束;

从图文标注情感测试数据集中抽取出图像及其对应的文字信息,送入到训练好的模型中,得到其相应的情感倾向,根据真实的情感标签,得到测试集的情感分类准确率。

与现有技术相比,本发明具有如下有益效果:

(1)以往的图文跨模态情感分类方法,在图像特征提取时,没有注意到文本对于图像之间的对应关系可以帮助到提取更好的图像特征,在融合方式上,不同模态之间的融合只是使用传统的形式,并没有能够使不同模态特征元素之间更加频繁交互;

(2)本发明提出使用软注意力图,产生图像的注意力特征表示,使图像与文本之间的对应关系显现出来,获得更好的图像情感特征,在特征融合上,采用与以往不同的外积形式的融合方式,使得特征元素之间的交流交互频繁,而不只是对应坐标之间的交互;

(3)在图文标注情感测试数据集上的测试结果证明了该分类模型的有效性;在不同融合方式的对比中,该模型的融合算法的准确率要比其他方式高2%-4%(如图3),在模型自身结构之间的对比中,该模型的结构获得的准确率要比其他结构高1%-3%(如图5),在与其他深度学习模型和使用图像中等情感特征方法的对比中,该模型的准确率要高出6%-13%(如图6)。

附图说明

图1是本发明的整体结构图;

图2是本发明的mcb融合算法模型图;

图3是本发明的融合算法对比使用其他融合算法的情感分类结果图;

图4是本发明在去掉软注意力机制后的图文跨模态情感分类模型图;

图5是本发明自身模型结构之间情感分类结果图;

图6是本发明与其他模型的图文跨模态情感分类结果图;

图7是本发明部分正确与错误情感分类的样本展示图。

具体实施方式

如图1所示是本发明的整体结构图。在图1中,使用预训练好的152层残差网络提取出图像的特征表示,使用双层lstm模型提取文本的特征表示,然后拼接两种特征,经过两层卷积层、softmax产生软注意力图,通过软注意力图与图像特征表示对应位置的乘积并求和,得到图像的注意力特征表示,接着使用mcb算法融合图像注意力特征表示与文本特征表示,最后使用softmax分类器完成图文的跨模态情感分类。

如图2所示是本发明的mcb融合算法模型图。该图说明了mcb融合算法的过程,首先将图像特征与文本特征使用countsketch函数降低在较低的维度上,然后转换成两个向量的countsketch函数种子频率域中逐元素相乘的形式,从而简单高效完成外积的计算。

如图3所示是本发明的融合算法对比使用其他融合算法的情感分类结果图。在图3中,分别对比了对应元素相加(element-wisesum),对应元素相乘(element-wiseproduct),直接拼接(concatenation)三种融合算法,并且得了更好的分类效果。

如图4所示是本发明在去掉软注意力机制的图文跨模态情感分类模型图。在图4中,为了对比不同模型结构对分类结果的影响,去掉了生成软注意力图,从而生成图像注意力特征表示的过程,直接提取15层残差网络的全局均值池化层的输出作为图像的特征,大小为2048维,然后直接使用mcb算法与文本特征融合,进行情感分类。

如图5所示是本发明在去掉软注意力机制的图文跨模态情感分类模型图。在图5中,为了突出模型各部分的作用,对比分析模型在无glove词向量(mcbc-noglove),无软注意力机制(mcbc-noatten)、在分类前加两层的全连接层(mcbc-2fc)和三层全连接层(mcbc-3fc)、使用svm作为分类器(mcbc-svm)五种结构下,对情感分类结果产生的影响。

如图6所示是本发明与其他模型的图文跨模态情感分类结果图。在图6中,该发明对测试集的情感分类准确率比其他模型如:基于图像中等特征的情感分类模型(sentibanklr)、基于卷积神经网络的多媒体情感分类模型(multicnn)、结合cbow和负采样技术及去噪自动编码器的情感分类模型(cbow-da-lr)对测试集的情感分类准确率更高。

如图7所示是本发明部分正确与错误的情感分类的样本展示图。通过观察图7中被错分的样本,可以发现对于文本与图像表达情感不同或者文本和图像都没有明确情感倾向的样本,比较容易发生错误的情感分类。

本实施例的训练数据来源于flickr网站的flickr情感图像数据集,该数据集包含近50万张图像及其相应的图像描述。为了能够更好的训练网络,去除数据集中图像描述太长和太短的数据以及图像分辨率较低的数据,得到大约20万左右的新的flickr数据集。测试数据集来源于twitter网站,该数据集包含470条积极和133条消级图文twitter数据。所有的数据均属于两个类别,分别表示情感积极和消极。为了提高模型速度,先将所有图像转化成448*448大小。

本实施例中,具体步骤如下:

步骤1:从图文标注情感训练数据集中,逐一提取出图像及其对应的文字信息,将图像调整为448*448大小,将调整好的图像输入到经过imagenet数据集上预训练好的152层的残差网络中,提取出图像经过152层残差网络计算后,其中最后一层卷积层的输出,大小为2048*14*14,作为图像的特征表示;

步骤2:使用glove模型生成的300维词向量,将图像对应的文字信息转化计算机可以处理的矩阵表示,输入到双层lstm网络中,每层lstm网络包含100个单元,每层的输出向量为1024维,最后将每层lstm的输出拼接,组成2048维的向量,作为文本的特征表示;

步骤3:根据得到的图像与文本特征表示,先将得到的2048维的文本特征表示,复制14*14=256次,组合成2048*14*14的大小,再与之前得到的大小为2048*14*14的图像特征表示进行拼接,组合成4096*14*14大小的特征,接着经过两层卷积层,得到1*14*14大小的输出,接着使用softmax分类器得到1*14*14大小的每个空间位置的注意力权重,即软注意力图,根据得到的软注意力图,与之前提取到的2048个14*14大小的图像特征表示进行逐个逐元素的相乘并求和,最终得到2048维的图像注意力特征表示;

步骤4:将得到的2048维的文本特征表示和图像注意力特征表示,使用mcb融合算法进行特征融合得到16k融合特征:

步骤5:在得到融合特征后,后面一层是全连接层,最后使用softmax分类器对图文跨模态数据进行积极、消极二类的情感预测,接着对比真实的情感标签,对该mcbc模型进行训练,训练采用adam方法进行梯度更新,在最大迭代次数内,如果终止条件能满足,则整个训练过程结束;

步骤6:在测试数据集下,采用本发明所提出的方法对图文跨模态数据进行情感分类,并与其它模型进行对比分析。从图3中可以看出,mcb融合方法获得了更好的实验结果。从图5中可以看出,glove词向量携带着语义信息,具有更好的分类效果,增加全连接层的数量,会使得网络分类的效果下降,软注意机制对网络的分类结果影响很大,采用注意力机制后可以使得文本与图像要表达的区域更加突出,从而增加情感分类效果,softmax分类器更适合对网络中提取的特征进行情感分类。从图6中可以看出,mcbc模型取得了最好的实验结果,sentibanklr模型由于使用图像的中级特征与低级的文本特征结合做图文情感分类,相比其他三种使用深度学习模型来提取文本和图像深层次情感特征的模型有一定的差距,可以看出情感表达抽象主观,对于情感特征的提取,需要尽可能提取图像及文本的语义特征。在三种使用深度学习模型的实验对比中,mcbc模型首先利用在图像分类任务中取得优异成绩的残差网络来提取图像特征,相比其它两种模型,可以获得更好的图像特征。由于图像的内容是与文本信息存在联系,软注意力机制也使得文本与图像要表达的区域更加突出,而另外两种模型并没有利用图像与文本之间的匹配关系。最后mcbc模型使用mcb算法,使得图像与文本特征之间的元素交互更加频繁,使得特征的融合也更加紧凑,相比其他使用特征之间的直接拼接进行分类,取得了更好的分类结果。

以上所述,仅是本发明较佳实施例而已,并非对本发明的技术范围作任何限制,故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1