一种基于词嵌入的深度零样本分类方法与流程

文档序号:15164545发布日期:2018-08-14 17:19阅读:174来源:国知局
本发明涉及模式识别
技术领域
,特别是一种基于词嵌入的深度零样本分类方法。
背景技术
:零样本学习(zsl)模型是一种特殊的机器学习问题,属于迁移学习的极端情况,即在训练样本中缺失某几类样本或者训练数据集中从未存在某几类样本,然而实际情况需要我们依然能够在测试任务中识别出这些训练集缺失的类别样本。零样本学习在各种实际生活中有大量的应用,最主要的应用就是针对数据不够多的情况下使用,如何有效的提高零样本学习效率具有十分重要意义。由于训练集样本的缺失,传统机器学习方法无法完成零样本学习任务,研究者们提出一种全部类别共同映射的中间层特征空间,建立一种训练类别信息与测试类别信息的连接空间,将原本使用类别信息分类能力转化到该中间层,摆脱了必须使用类别信息分类的限制。目前主要的技术手段是选择属性空间作为中间层特征空间。属性空间是人为的定义的特征空间,如“形状”“纹理”“是否含有某个属性”,这些可以描述类别的语义特性,属性作为不同类别共享的中间层语义特征,不仅可以弥补底层的视觉特征和高层的类别特征之间的语义鸿沟,还可是通过不同属性的组合,学习到新的类别。但是基于属性的零样本学习有着本质的缺点,各个类别的属性是需要人为设定的,分类效果好坏与否取决于人为的属性选择的好坏,不同种类的图像分类需要不同领域的专业人士来做属性标定,然后才能实现分类,并不是一种端到端的实现方法。而且人为的设定属性会消耗人力物力,效率不高。技术实现要素:本发明所要解决的技术问题是克服现有技术的不足而提供一种基于词嵌入的深度零样本分类方法,利用文本数据集易获取的优势和词向量语义推理特性,用词向量替代属性,解决了人为属性标定环节,实现图像的零样本学习。本发明不仅能挖掘视觉和文本模态之间的联系和分类信息,还使用了强大的深度神经网络建立了输入图像直接输出类别的端到端过程。本发明为解决上述技术问题采用以下技术方案:根据本发明提出的一种基于词嵌入的深度零样本分类方法,包括以下步骤:步骤1,输入图像训练集xi表示图像训练集的第i张图片,1≤i≤n1,n1为图像训练集图片数量,训练卷积神经网络,得到卷积神经网络参数θx;步骤2,输入文本训练集yj表示文本训练集的第j个单词,1≤j≤n2,n2为文本训练集单词数量,且n2>n1,训练文本神经网络,得到文本神经网络参数θy;步骤3,改变步骤1和步骤2的网络结构,去掉卷积神经网络和文本神经网络的顶层,各自新增一个全连接层:图像特征映射层和文本特征映射层,使卷积神经网络和文本神经网络在顶层相互连接,建立公共子空间;再次输入图像和文本训练集,通过如下损失函数l训练两者的映射层参数wx和wy:其中,fi和gj分别表示第i张图片和第j个单词的特征,wx和wy为图像特征映射层参数和文本特征映射层参数,为和的内积,和分别表示图像和单词经过映射后的公共子空间特征,sigmoid(*)为激活函数,上标t表示转置,sij为相似矩阵,当xi和yj为同一种类别时sij值为1,否则为0;γ和η是超参数,为f范数,e为自然底数;步骤4,通过随机梯度下降算法sgd交替迭代优化步骤3的损失函数l,使其最小;计算和并通过反向传播算法的链式法则来更新wx、θx、wy和θy;步骤5,将测试图像xq输入到神经网络中得到测试图片的公共子空间特征在该空间中使用最近邻分类器直接判断测试图像类别cq;其中,c为任意文本类别,是任意文本的特征,d(·)是求其欧几里得距离函数。作为本发明所述的一种基于词嵌入的深度零样本分类方法进一步优化方案,步骤1和步骤2中,输入图像训练集的样本为二维图像矩阵,输入文本训练集的样本为词袋向量。作为本发明所述的一种基于词嵌入的深度零样本分类方法进一步优化方案,步骤3中学习过程是一个优化问题,目的优化两个神经网络的权重参数θx和θy以及学习两个空间映射参数wx和wy的最优值。作为本发明所述的一种基于词嵌入的深度零样本分类方法进一步优化方案,步骤4中所述交替迭代优化步骤3的损失函数l,具体如下:1)固定文本神经网络参数,优化卷积神经网络参数,2)固定卷积神经网络参数,优化文本神经网络参数。作为本发明所述的一种基于词嵌入的深度零样本分类方法进一步优化方案,步骤5中判断测试图像类别具体如下:1)针对训练集中已存在的类别图像:在公共子空间中,与测试图像欧式距离最近的样本类别即为判定类别;2)针对训练集中不存在的类别图像:文本训练集含有一些新的类别,这些类别的特征并不是独立的,而是与已有类别存在相关性,依据步骤4学习到的映射参数wx和wy,测试图像被判定为新的类别;测试阶段将测试图像的特征与混合原有类别和新的类别的特征中做最近邻分类,输出其类别。本发明采用以上技术方案与现有技术相比,具有以下技术效果:(1)本发明创造性的将深度神经网络特征提取应用在零样本学习中,在此基础上设计了一种有效的基于语义的词嵌入方法,通过结合两个模态各自不同的特点,并学习模态映射关系,提出适用零样本分类的图像识别方法;(2)本发明方法属于多模态学习方法,通过引入语义模态,来解决视觉模态上的零样本问题,最大化模态数据之间的语义相关性,挖掘不同模态之间的语义信息;(3)本发明属于一种端到端的学习方法,相比传统机器学习算法和属性学习模型,深度神经网络和词嵌入模型具有自动的无需人为参与的特性,大大提高效率和人为干扰因素。附图说明图1是本发明的方法流程图。图2是本发明实施例的基于词嵌入的图像零样本学习模型。具体实施方式下面结合附图对本发明的技术方案做进一步的详细说明:本
技术领域
技术人员可以理解的是,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。本发明提供一种基于词嵌入模型的深度零样本图像学习算法,通过结合文本特征,实现图像特征的零样本分类,包括如下步骤:步骤1,输入图像训练集xi表示图像训练集的第i张图片,1≤i≤n1,n1为图像训练集图片数量,训练卷积神经网络,得到卷积神经网络参数θx;步骤2,输入文本训练集yj表示文本训练集的第j个单词,1≤j≤n2,n2为文本训练集单词数量,且n2>n1,训练文本神经网络,得到文本神经网络参数θy;步骤3,改变步骤1和步骤2的网络结构,去掉卷积神经网络和文本神经网络的顶层,各自新增一个全连接层:图像特征映射层和文本特征映射层,使卷积神经网络和文本神经网络在顶层相互连接,建立公共子空间;再次输入图像和文本训练集,通过如下损失函数l训练两者的映射层参数wx和wy:其中,fi和gj分别表示第i张图片和第j个单词的特征,wx和wy为图像特征映射层参数和文本特征映射层参数,为和的内积,和分别表示图像和单词经过映射后的公共子空间特征,sigmoid(*)为激活函数,上标t表示转置,sij为相似矩阵,当xi和yj为同一种类别时sij值为1,否则为0;γ和η是超参数,为f范数,e为自然底数;步骤4,通过随机梯度下降算法sgd交替迭代优化步骤3的损失函数l,使其最小;计算和并通过反向传播算法的链式法则来更新wx、θx、wy和θy;步骤5,将测试图像xq输入到神经网络中得到测试图片的公共子空间特征在该空间中使用最近邻分类器直接判断测试图像类别cq;其中,c为任意文本类别,是任意文本的特征,d(·)是求其欧几里得距离函数。本实施例的模型结构如图2所示,具体实施过程如图1所示。步骤1,输入图像训练集n1为图像训练集图片数量,其中xi表示输入图像,一共n1张c1种不同类别的图像。训练卷积神经网络,得到卷积神经网络参数。其中卷积神经网络输入层是227*227的三通道图像像素矩阵xi,中间层如表1和表2所示;表1:神经网络的卷积层数据卷积层卷积核数量卷积核大小图像扩张卷积核间隔池化conv196114个像素1maxconv22565无2maxconv33843无1无conv43843无1无conv52563无1max其中在卷积之后使用如下激活函数:a为上一层卷积后的参数,输出作为下一层的输入。该激活函数可以保证单侧抑制性和稀疏激活性。表2:神经网络的全连接层数据全连接层输出神经元个数fc64096fc74096fc8c1同样在fc6和fc7层之后会有激活函数和drop函数。其中fc8层为预测标签层,维度与图像训练集的类别数c1相等,大小为c1维的特征向量,每一位对应一个类别,与真实的类别计算softmax损失函数,得到卷积神经网络的参数θx。在本发明的卷积神经网络模型中,fc8层特征只作用与单独视觉模态的学习,在图像特征映射层使用的是fc7层的特征,相较于fc8层,fc7层特征能好的表达图像层级的特征。步骤2,使用维基百科上面570万文本(约54亿单词)来训练三层神经网络,输入文本训练集n2为文本训练集单词数量,并且n2>n1,其中yi为代表单词的词袋向量,文本训练集的类别数量为c2,不同于图像,同一类别的单词是唯一的,所以种类数量c2等于单词数量n2。注意到文本训练集种类数量是远远大于图像训练集种类数量,c2>>c1。文本特征的训练使用skip-gram模型,输入为一个单词,输出为与该单词大概率一同出现的单词,对于一个句子:“波斯猫是一种可爱的宠物”,假设输入为“波斯猫”,输出即为“可爱”“一种”“宠物”这些词语。skip-gram模式是一种一对多的模型,这种一对多的模型实际上也可以理解为输入为类别,输出为对应的属性,所以学习中的表征具有学习输入类别的语义的能力,以上述句子为例,“波斯猫”具有“可爱”“宠物”这些属性,而且通过“一种”这个数量词可以了解的其也是一个具体的“类别”。同时使用skip-gram模型具有学习到逻辑推理的功能,比如同义词,对于另一个句子“加菲猫也是一种可爱的宠物”,由于输出和“波斯猫”相当接近,所以学习到的“加菲猫”文本特征和“波斯猫”文本特征也是近似相等的,实际上是由于“加菲猫”和“波斯猫”具有相同的猫的属性,当然,训练样本中必然有描述“加菲猫”特有的而“波斯猫”没有的属性,所以这两个类别的文本特征只是相似而不相等。对于基于神经网络的skip-gram模型,输入是代表各个单词的one-hot编码的词袋向量yi,one-hot编码向量基于上述维基百科的大量文本构件的词袋(bagofword),其维度等于去重后的单词总数,即文本训练集类别数量c2,约为15500。y定义如下:其中y(c)表示向量y的第c位,c′为向量表示的类别标签。y(c)值为1表示该向量含有对应标签的单词,值为0的位表示不含有对应标签的单词。输入层经过隐层到达第三层,第三层实际上是一个softmax损失层,作用同图像模快的神经网络最后一层一样,优化softmax得到文本神经网络的参数θy。通过比较100维到2000维的隐层权重分类效果,本发明选择将隐层权重大小设置为512维最为合适。步骤3,改变网络结构。在文本模块的最后一层,去除原来的输出层,添加一个全连接层,将隐层的特征通过映射层映射到特征子空间中,在图像特征空间中,去除原来的输出层,添加一个全连接层,将fc7层的特征通过映射层映射到特征子空间中,联合损失函数为:其中,fi=f(xi;θx)和gj=g(yj;θy)分别表示第i张图片和第j个单词的特征,xi表示图像训练集的第i张图片,yj表示文本训练集的第j个单词,θx和θy分别是步骤1和步骤2得到的神经网络参数。分别表示图像和单词经过映射后的公共子空间特征,wx和wy为图像特征映射层参数和文本特征映射层参数,sigmoid(*)为激活函数。为和的内积,上标t表示转置,sij为相似矩阵,当图像xi和单词yj为同一种类别时sij值为1,否则为0。γ和η是超参数。为f范数,e为自然底数,n1为图像训练集图片数量;上式的第一项是跨模态相似性的负对数似然函数,其概率函数定义如下:其中并且为相似的概率定义,可将θij大小转化为0到1之间概率。当sij=1时和的相似度(内积)较大,而当sij=0时相似度(内积)较小,通过计算和的相似度最小化上述的负对数似然函数就等价于最大化其概率。因此,优化损失函数l的第一项可以保证映射后的图像特征和文本特征直接的跨模态相似度。通过优化上式的第二项我们可以认为,在子空间中,映射后的图像h(x)=sigmoid(wxf)和文本特征h(y)=sigmoid(wyg)的欧几里得距离是相近的,即同一个类别的和是最近邻的。第三项是正则项,保证学习过程中参数不要过大。步骤4,联合训练阶段,通过随机梯度下降算法(sgd)交替迭代优化学习步骤3的特征子空间,分为2个子步骤:1)固定θy和wy,优化θx和wx当θy和wy固定时,本发明使用一种微调的技术(fine-tuning)在原来单独图像模态的cnn参数θx上调优,通过固定θx前5层的参数,对第6和第7层参数进行微调,学习率降低10倍学习。对第6和第7层,学习算法同反向传播算法(bp)一致,使用随机梯度下降(sgd)来学习θx。在每次迭代中,本发明取训练集中的一部分样本训练,然后执行上述学习算法。对每个样本,计算其如下梯度:然后,通过反向传播算法的链式法则计算和更新wx和θx。2)固定θx和wx,优化θy和wy当θy和wy固定时,本发明同样使用sgd的bp算法优化文本神经网络参数θy和文本特征映射层参数wy,对每个样本,计算如下梯度:然后,通过反向传播算法的链式法则计算和更新wy和θy。重复执行上述两个子步骤。步骤5,利用训练好的的联合神经网络模型做测试样本的特征提取。对于训练集里不存在的图像,本发明可以获得其图像特征并映射到联合空间中,在联合空间中通过一个最近邻分类器,识别该图像在概率上最大可能所属的类。特别的,给定一个图像xq,通过前向传播获得其图像特征,再通过映射关系得到联合空间特征:同样地,文本数据前向传播得到联合空间特征,给定文本yq,通过前向传播获得其图像特征,再通过映射关系得到联合空间特征:在联合特征空间中,使用最近邻分类器对图像特征分类,对于一个新的图像,可以有效的识别出新的类:最终在awa数据集上和cub数据集上零样本预测效果如下表3所示表3:awa(seen)awa(unseen)cub(seen)cub(unseen)a96.785.774.861.9w95.478.170.758.4其中a表示是基于属性的零样本学习,w表示基于词嵌入的零样本学习,上表还对比了有样本学习(seen)和零样本学习(unseen)的结果。从上述结果可知,运用本方法不仅可以有效的实现零样本学习,实现与非零样本学习的相近的分类效果,还能利用无监督的词嵌入模型达到有监督的属性模式效果。同时也是一种端到端的学习算法,适用性较好,可直接应用在数据采集不足的单样本或零样本学习或迁移学习任务中,易于实际工程应用。以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1