基于多源领域适应联合学习的跨领域文本情感分类方法与流程

文档序号:18214873发布日期:2019-07-19 22:34阅读:421来源:国知局
基于多源领域适应联合学习的跨领域文本情感分类方法与流程

本发明涉及自然语言处理文本情感分析领域,提出了一种基于多源领域适应联合学习的跨领域文本情感分类方法。



背景技术:

跨领域情感分类(cross-domainsentimentclassification)被定义为通过迁移源领域任务的情感信息到目标领域,利用相关的源领域带标签的数据学习一个精确的情感分类器,实现对目标领域不带标签数据的情感极性分类任务。跨领域文本情感分类作为自然语言处理任务中的重要分支,一直是产业界和学术界的研究热点和难点。根据可用的源领域的个数,可以分为单源领域和多源领域的跨领域情感分类。多源领域优势在于可以利用多个源领域的信息训练更鲁棒的模型,难点在于如何选择合适的源领域和如何融合多个多领域的情感信息。

大部分多源跨领域情感分类研究主要专注于目标领域数据样本稀缺问题和如何利用多个源领域数据,多采用基于实例迁移或者模型迁移的方法。从模型迁移的角度看,tan等人定义了多视角和多源领域的迁移学习,提出了一种新的“协同利用不同视角和源领域的知识算法”(statisticalanalysisanddatamining:theasadatasciencejournal,2014,第7卷第4期),通过不同源领域互相协同训练的方法,可以弥补不同领域之间的分布差异。ge等人提出了一种“快速的、可扩展的在线多领域迁移学习框架”(proceedingsoftheacminternationalconferenceoninformationandknowledgemanagement,2013),此框架在凸优化的基础上,在目标领域的信息指导下从多个源领域中迁移知识。wu等人在从不带标签的目标领域数据中词的情感极性关系的帮助下,提出了一种“基于情感图的领域相似性度量方法”(proceedingsoftheannualmeetingoftheassociationforcomputationallinguistics,2016),相似的领域通常会共享共同的情感词和情感词对,目标领域和不同的源领域的相似性也被合并到适应性过程中。yoshida等人提出了一种“新的贝叶斯概率模型处理多个源领域和多个目标领域的情况”(proceedingsoftheaaaiconferenceonartificialintelligence,2011),在此模型中,每个词有三个要素,分别是领域标签、领域独立/非独立、词的极性。

在已公布的迁移学习发明方面,主要的成果有:代明军等人提出一种“基于深度混合模型迁移学习的评论情感分类方法及系统”(2018年11月20日公布,公布号为cn109271522a的中国发明专利申请),对商品评论的源领域数据样本集进行深度混合模型预训练,对目标领域样本集上进行微调。龙明盛等人提出一种“一种领域适应性网络的深度迁移学习方法”(2018年4月24日公布,公布号为cn107958286a的中国发明专利申请),通过根据每一任务相关层对应的分布差异,分类错误率和错配度,确定领域适应性网络的损失函数的值。肖仰华等人提出“一种基于领域适应的自然语言处理任务的迁移学习系统和方法”(2018年2月2日公布,公布号为cn107657313a的中国发明专利申请),开放了领域部分模块和特定领域部分模块。传统跨领域情感分类任务实现的是单个源领域到目标领域的情感迁移,而在现实条件下,往往存在多个源领域的数据辅助目标领域的情感分类任务。传统的领域分布度量方法往往只考虑了领域差异,没有考虑领域内的类间和类内的分布。而且已有的硬参数迁移方法,忽略了领域特定的特征,有很强的限制条件。与已公布的发明明显不同,本发明利用双向门循环单元(bidirectionalgaterecurrentunit,bigru)和卷积神经网络(convolutionalneuralnetworks,convnets)进行深度特征提取,采用软参数迁移的方法进行领域参数共享。在考虑情感分类损失的同时,还考虑了领域融合损失。改进了传统的最大均值差异领域分布度量方法,引入了同一个领域内不同类的差异度和类内的紧致程度。采用软参数迁移的方法共享不同领域之间的参数,在异质空间任务上有更好的泛化性和适应性,较已公布的发明方法有较强的创新性。

已有的研究表明,额外领域的信息有助于共享的隐层学到更好的内部表示。我们假设不同领域的情感分类任务是相似相关的,而且不同领域的情感学习任务可以共享特征表示。针对多源跨领域情感分类任务,本发明提出了一种多源领域适应联合学习框架并应用到多源跨领域情感分类任务中。在此框架中,我们使用目标领域任务作为主任务,多个源领域任务作为辅助任务。在构建领域特定的模型时,使用双向门循环单元模型与卷积神经网络模型结合,提取有效的情感特征。构建了包含情感分类损失、参数共享损失、领域融合损失和正则项在内的联合损失函数,设计了多源领域适应联合学习训练算法,联合训练多个源领域和目标领域的带标签数据。

领域适应(domainadaptation)是从一个或者多个源领域中获取知识和经验,适应到与源领域分布不同的目标领域的过程。领域适应机制是解决跨领域情感分类任务的重要方法。多源领域适应(multi-sourcedomainadaptation)方法在解决跨领域情感分类任务时需要解决以下两点问题:(1)如何共享不同领域间的情感知识表示?传统的知识表示和迁移策略往往是浅层的,不能共享不同领域的深层特征表示。而已有的硬参数迁移(hardparametersharing)方法,忽略了特定领域的特征,有很强的限制条件。(2)如何融合多个源领域的知识到目标领域学习算法中?已有的领域适应方法往往只关注于单个源领域到目标领域,样本规模普遍较小。多个源领域之间的知识往往存在共性和交叉,有效利用和融合多个领域的情感知识可以提高目标领域分类的泛化性。

度量不同领域距离的一种比较流行的方法是最大均值差异(maximummeandiscrepancies,mmd)方法及其变体方法。最大均值差异(mmd)是borgwardt等人提出的一种“边际分布自适应方法”(bioinformatics,2006,第22卷第14期)。mmd将源领域和目标领域的分布映射到再生希尔伯特空间中,目标是减少源领域和目标领域的边际分布距离。duan等人提出了使用多核mmd方法和一种新的求解策略,提出了“领域迁移多核学习方法”(ieeetransactionsonpatternanalysisandmachineintelligence,2012,第34卷第3期)。tzeng等人将mmd度量加入到深度神经网络特征层中,并将度量损失加入到模型损失函数中(arxivpreprintarxiv:14123474v1,2014)。在本发明中,我们针对跨领域情感分类任务对mmd度量进行了改进。不仅考虑了不同领域映射后的边际分布距离,还考虑了同一个领域中的不同类的差异应该尽可能地大,同一类中的样本到类中心的距离应尽可能地小,并根据此原则设计了深度领域融合损失函数。



技术实现要素:

本发明旨在多个源领域和目标领域数据有限的条件下,实现更好得情感迁移,提升泛化能力,实现多个源领域条件下的跨领域情感分类目标。

为达到上述目的,针对多源跨领域文本情感分类任务,本发明有效利用和融合多个领域的情感知识,提出了一种基于多源领域适应联合学习的跨领域文本情感分类方法,包括以下步骤:

s1,多源领域适应联合学习(multi-sourcedomainadaptationwithjointlearning):我们迁移多个源领域任务tasksk(1≤k≤k)的情感知识,并利用少量的目标领域带标签数据同时学习tasksk和taskt,得到假设目标是最小化经验损失提高目标领域任务上的分类效果;

s2,构建特定领域的bigru-convnets深度特征提取模型,使用在大量的无监督语料上得到的预训练词向量作为模型的输入。同时,词向量在针对特定的任务时可以微调;

s3,为了预训练bigru-convnets底层参数,使用源领域和目标领域的数据执行编码-解码操作初始化bigru网络的参数,编码解码的操作流程为x→c→h;

s4,考虑到不同领域的情感分布的差异性,通过最小化参数迁移过程中的损失lshare实现情感知识的迁移,目标是迁移多个源领域的知识到目标领域的特征表示中;

s5,在源领域任务和目标领域任务上的整体情感损失为

s6,源领域的特征表示记为目标领域taskt的特征表示记为rt,我们希望经过核希尔伯特空间映射后源领域和目标领域的分布尽可能地相似,即

s7,定义联合损失函数l=lsen+λlshare+ηldomain+σreg,优化学习的目标函数是和参数集更新策略;

s8,对于每个源任务和目标任务,我们对每个组合对进行交替训练。通过以这种方式训练网络,可以提高每个任务的性能,而无需找到更多领域特定的训练数据。使用随机梯度下降法训练参数,使用迭代的方法获得最佳参数集θopt。

根据本发明实施例提出的基于多源领域适应联合学习的多源跨领域文本情感分类方法。在此框架中,我们使用目标领域任务作为主任务,多个源领域任务作为辅助任务。在构建领域特定的模型时,使用双向门循环单元模型与卷积神经网络模型结合,提取有效的情感特征。构建了包含情感分类损失、参数共享损失、领域融合损失和正则项在内的联合损失函数,设计了多源领域适应联合学习训练算法,联合训练多个源领域和目标领域的带标签数据。

根据本发明的一个实施例,所述步骤s1包括:

s11,在多源领域适应联合学习中,有三点值得注意,分别是:数据的表示、学习算法和共享的机制;

s12,在数据表示上,我们使用在大量语料上得到的词的分布式表示输入到bigru-convnets模型中,每个词被表示为低维连续的实值向量;

s13,在联合学习算法上,我们使用源领域任务和目标领域任务的组合对交替训练神经网络;

s14,在领域共享机制上,我们采用软参数共享的方法分层地抽取和迁移神经网络的参数。此方法既考虑了不同任务的共享结构,又考虑了领域的特定特征。

根据本发明的一个实施例,步骤s2还包括:

s21,在此模型中,输入为文本的词序列x={x1,x2,…xn},其中wi∈rd为第i-th个词的嵌入式表示,d为词向量的维度;

s22,门循环单元(gru)是一种lstm的轻量变体,训练速度要快于lstm。一个门循环单元细胞包含更新门zt,重置门rt,候选门和输出ht;

s23,bigru包含正向和反向两个隐层,两个方向的结果联合到最终的输出;

s24,bigru的输出序列h={h1,h2,…hn}作为卷积神经网络的输入。在convnets网络中,输入层bigru生成的特征向量自顶向下排列生成的矩阵w∈rn×d。在卷积层中,卷积的窗口大小为n元语法,诸如一元语法、二元语法、三元语法等。wi∶i+m-1代表m个词,即wi,wi+1,和wi+m-1;

s25,新的特征gi由wi∶i+m-1生成,gi=relu(et·wi∶i+m-1+b)。其中,relu为线性单元激活函数,e∈rm×d为卷积核,b∈r为偏置项。可以得到卷积矩阵g=[g1,g2…gn-h+1];

s26,在pooling层,我们使用max-over-pooling的方法对卷积层得到的特征映射抽取最大值。pooling层输出为每个特征映射的最大值,即最终l个卷积核得到的特征向量为这不仅抽取出了句子中重要的情感信息,还保持了顺序信息;

s27,在情感分类阶段,在pooling层后,输出的特征向量z通过全连接的方式被连接softmax层。

其中y为情感标签,w为全连接层的参数,为偏置项。我们在softmax层引入dropout机制减少过拟合。

根据本发明的一个实施例,步骤s3还包括:

s31,为了预训练bigru-convnets底层参数,我们使用源领域和目标领域的数据执行编码一解码操作初始化bigru网络的参数。编码通过bigru的非线性变换输入序列x={w1,w2…wn}到语义表示c,解码操作的输出为h={h1,h2…hn}。编码解码的操作流程为x→c→h;

s32,目标是最小化重构损失为

在预训练bigru网络后,通过目标领域任务taskt和其他源领域任务tasksk的带标签数据实现训练整个神经网络的参数。

根据本发明的一个实施例,步骤s4还包括:

s41,我们定义软参数共享的损失为

其中wt(bigru)和wt(convnets)分别是在目标任务taskt中bigru和convnets网络的参数,wsk(bigru)和wsk(convnets)分别是在第k-th个源任务tasksk中bigru和convnets网络的参数,为目标任务softmax层的参数,是第k-th个源任务softmax层的参数;

s42,最小化损失项lshare可以减少不同领域的模型参数的差异。通过软参数共享,我们不仅能得到源领域的情感表示,还可以通过微调和联合训练得到目标领域任务的共享表示;

根据本发明的一个实施例,步骤s5还包括:

s51,我们使用交叉熵损失函数作为损失函数。在源领域任务tasksk上的损失函数为

其中,n为源领域的样本数,csk为源领域的标签数,是真实标签,为预测标签;

s52,在目标领域任务taskt上的损失函数为

其中,n为目标领域的样本数,ct为目标领域的标签数,是真实标签,为预测标签;

s53,在源领域任务和目标领域任务上的整体情感损失为

其中,ε为源任务情感分类损失的适应性权重参数。

根据本发明的一个实施例,步骤s6还包括:

s61,源领域任务和目标领域任务taskt的分布距离为

其中,为领域的中心,为领域第c类的类中心。center(dt)为领域dt的中心,为领域dt第c类的类中心。

s62,源领域和目标领域dt的距离适应性损失定义为

其中,为源领域中样本的个数,|dt|为目标领域dt中样本的个数。x→h为非线性变换,h为核希尔伯特空间。为源任务中标签的个数,ct为目标任务中标签的个数。

s63,源领域和目标领域间的领域融合损失记为

根据本发明的一个实施例,步骤s7还包括:

s71,为提高模型的泛化性和防止过拟合,设计正则项reg如下:

s72,设计总的损失函数如下:

l=lsen+λlshare+ηldomain+σreg

其中λ为参数共享损失的权重,η为领域融合损失的权重,σ为正则项的权重。

s73,基于以上定义的损失函数,使用多个源领域任务和目标领域任务中的带标签数据对多源领域适应联合学习神经网络进行联合训练。优化的目标是

整个深度神经网络的参数集记为θ,包含wt(bigru)、wsk(bigru)、wt(convnets)、wsk(convnets)、

s74,为了实现后向传播过程,参数通过随机梯度下降(stochasticgradientdescent,sgd)的方法进行更新和训练:

其中μ为学习率。

s75,参数集θ的更新策略为

联合学习的目标是最小化损失函数并得到此时最优的参数集θopt,

其中,为目标任务taskt中bigru和convnets网络在第t+1次迭代的参数,为bigru和convnets网络在第t次迭代的参数。

对于k=1,2…k,

其中,为在源任务中bigru和convnets网络在第t+1次迭代的参数,为bigru和convnets网络在第t次迭代的参数。

其中,分别为目标任务taskt和源任务在第t+1次迭代的参数,分别为在第t次迭代的参数。

s76,四种损失函数的偏导数如下:

根据本发明的一个实施例,步骤s8还包括:

多源领域适应联合学习神经网络的训练算法中,预训练的过程包括了在多个源领域任务和目标领域任务的预训练任务。对于每个源任务和目标任务,我们对每个组合对(tasksk,taskt)进行交替训练。通过以这种方式训练网络,可以提高每个任务的性能,而无需找到更多领域特定的训练数据。使用随机梯度下降法训练参数,使用迭代的方法获得最佳参数集θopt。

与现有技术相比,本发明具有以下有益效果:(1)本发明针对多源跨领域情感分类任务提出了一种端到端的多源领域适应联合学习框架。此框架可以同时学习和训练多个领域的神经网络,同时训练可以从不同方面引入更丰富的监督信息;(2)我们设计的联合训练的损失函数包括四个部分:情感分类损失、参数迁移损失、领域融合损失和防止过拟合的正则项。情感分类损失包含了源领域任务和目标领域任务上的情感分类损失,软参数迁移的方法可以有效地迁移源领域的情感知识到目标领域中,而深度领域融合可以保证在学习过程中不同领域的边际分布尽可能地相似。因此多源领域适应联合学习神经网络能够在有限的数据条件下实现更好的特征表示和泛化能力;(3)在中文和英文的多领域数据集上比较了我们提出的多源领域适应联合学习框架和已有的方法,实验结果表明我们的方法在跨领域情感分类准确率上有很大提升。

附图说明

附图作为本发明的一部分,可以进一步帮助理解本发明的意图和发明步骤。

图1是针对跨领域情感分类任务的多源领域适应联合学习方法与系统流程图。

图2是多源领域适应联合学习框架图。

图3是领域特定的bigru-convnets深度特征提取模型。

图4是深度领域融合机制示意图(以情感二分类任务迁移到细粒度的情感分类任务为例)。

图5是中文多源跨领域情感分类数据集上词向量维度的影响。

图6是英文多源跨领域情感分类数据集上词向量维度的影响。

图7是中文数据集上的准确率相对于参数的敏感性(λ和η分别由0.2变化到1.0)。

图8是英文数据集上的准确率相对于参数的敏感性(λ和η分别由0.2变化到1.0)。

图9是不同方法在中文和英文多源跨领域情感分类任务上的平均准确率。

具体实施方式

下面结合附图1-图9来进一步描述本发明。

如图1所示,本发明框架主要分为以下八个步骤,它们逐层相接并最终将其进行融合。学习过程主要包括以下步骤:

下面首先给出本发明的基本符号标记和定义:

领域(domain):领域被定义为具有相似主题文本的集合,例如对书籍、电影和笔记本电脑产品的评论,或者关于经济、军事、文化和体育等主题的文本。领域被记为d。

任务(task):对于任务(task),可以被定义为四元组task=(d,x,p,f),其中d为领域,x为特征空间,p为在特征空间上的边际分布,f∶x→y是要学习的分类函数,其中x∈d,y∈y,y是标签空间。任务学习的目标是尽可能地减少在训练集上损失函数,并提高f在测试集上的泛化能力。

源领域任务(sourcedomaintask):源领域任务被定义为辅助的任务,是一些带标签的样本。第k个源领域任务记为tasksk=(dsk,xsk,psk,fsk)。

目标领域任务(targetdomaintask):目标领域任务为待分类的任务,可记为taskt=(dt,xt,pt,ft)。dt为目标任务的样本集,dt=dl∪du,dl为目标领域带标签样本集,du为目标领域不带标签样本集。

s1,多源领域适应联合学习(multi-sourcedomainadaptationwithjointlearning):我们迁移多个源领域任务tasksk(1≤k≤k)的情感知识,并利用少量的目标领域带标签数据dl,同时学习tasksk和taskt,得到假设目标是最小化经验损失提高目标领域任务上的分类效果。

其中,步骤s1包括:s11,在多源领域适应联合学习中,有三点值得注意,分别是:数据的表示、学习算法和共享的机制;

s12,在数据表示上,我们使用在大量语料上得到的词的分布式表示输入到bigru-convnets模型中,每个词被表示为低维连续的实值向量;

s13,在联合学习算法上,我们使用源领域任务和目标领域任务的组合对交替训练神经网络;

s14,在领域共享机制上,我们采用软参数共享的方法分层地抽取和迁移神经网络的参数。此方法既考虑了不同任务的共享结构,又考虑了领域的特定特征。

s2,构建特定领域的bigru-convnets深度特征提取模型,使用在大量的无监督语料上得到的预训练词向量作为模型的输入。同时,词向量在针对特定的任务时可以微调;特定领域的bigru-convnets深度特征提取模型如图3所示。

步骤s2包括:s21,在此模型中,输入为文本的词序列x={x1,x2,…xn},其中wi∈rd为第i-th个词的嵌入式表示,d为词向量的维度;

s22,门循环单元(gru)是一种lstm的轻量变体,训练速度要快于lstm。一个门循环单元细胞包含更新门zt,重置门rt,候选门和输出ht;

s23,bigru包含正向和反向两个隐层,两个方向的结果联合到最终的输出;

s24,bigru的输出序列h={h1,h2,…hn}作为卷积神经网络的输入。在convnets网络中,输入层bigru生成的特征向量自顶向下排列生成的矩阵w∈rn×d。在卷积层中,卷积的窗口大小为n元语法,诸如一元语法、二元语法、三元语法等。wi∶i+m-1代表m个词,即wi,wi+1,和wi+m-1;

s25,新的特征gi由wi:i+m-1生成,gi=relu(et·wi:i+m-1+b)。其中,relu为线性单元激活函数,e∈rm×d为卷积核,b∈r为偏置项。可以得到卷积矩阵g=[g1,g2…gn-h+1];

s26,在pooling层,我们使用max-over-pooling的方法对卷积层得到的特征映射抽取最大值。pooling层输出为每个特征映射的最大值,即最终l个卷积核得到的特征向量为这不仅抽取出了句子中重要的情感信息,还保持了顺序信息;

s27,在情感分类阶段,在pooling层后,输出的特征向量z通过全连接的方式被连接softmax层。

其中y为情感标签,w为全连接层的参数,为偏置项。我们在softmax层引入dropout机制减少过拟合。

s3,为了预训练bigru-convnets底层参数,使用源领域和目标领域的数据执行编码-解码操作初始化bigru网络的参数,编码解码的操作流程为x→c→h;

步骤s3包括:s31,为了预训练bigru-convnets底层参数,我们使用源领域和目标领域的数据执行编码-解码操作初始化bigru网络的参数。编码通过bigru的非线性变换输入序列x={w1,w2…wn}到语义表示c,解码操作的输出为h={h1,h2…hn}。编码解码的操作流程为x→c→h;

s32,目标是最小化重构损失为

在预训练bigru网络后,通过目标领域任务taskt和其他源领域任务tasksk的带标签数据实现训练整个神经网络的参数。

s4,考虑到不同领域的情感分布的差异性,通过最小化参数迁移过程中的损失lshare实现情感知识的迁移,目标是迁移多个源领域的知识到目标领域的特征表示中;

步骤s4包括:s41,我们定义软参数共享的损失为

其中wt(bigru)和wt(convnets)分别是在目标任务taskt中bigru和convnets网络的参数,wsk(bigru)和wsk(convnets)分别是在第k-th个源任务tasksk中bigru和convnets网络的参数,为目标任务softmax层的参数,是第k-th个源任务sofimax层的参数;

s42,最小化损失项lshare可以减少不同领域的模型参数的差异。通过软参数共享,我们不仅能得到源领域的情感表示,还可以通过微调和联合训练得到目标领域任务的共享表示;

s5,在源领域任务和目标领域任务上的整体情感损失为

步骤s5包括:s51,我们使用交叉熵损失函数作为损失函数。在源领域任务tasksk上的损失函数为

其中,n为源领域的样本数,csk为源领域的标签数,是真实标签,为预测标签;

s52,在目标领域任务taskt上的损失函数为

其中,n为目标领域的样本数,ct为目标领域的标签数,是真实标签,为预测标签;

s53,在源领域任务和目标领域任务上的整体情感损失为

其中,ε为源任务情感分类损失的适应性权重参数。

s6,源领域tasks的特征表示记为rs,目标领域taskt的特征表示记为rt,我们希望经过核希尔伯特空间映射后源领域和目标领域的分布尽可能地相似,即rs≈rt。深度领域融合机制示意图如图4所示;

步骤s6包括:s61,源领域任务和目标领域任务taskt的分布距离为

其中,为领域的中心,为领域第c类的类中心。center(dt)为领域dt的中心,为领域dt第c类的类中心。

s62,源领域和目标领域dt的距离适应性损失定义为

其中,为源领域中样本的个数,|dt|为目标领域dt中样本的个数。x→h为非线性变换,h为核希尔伯特空间。为源任务中标签的个数,ct为目标任务中标签的个数。

s63,源领域和目标领域间的领域融合损失记为

s7,定义联合损失函数l=lsen+λlshare+ηldomain+σreg,优化学习的目标函数是和参数集更新策略;

步骤s7包括:s71,为提高模型的泛化性和防止过拟合,设计正则项reg如下:

s72,设计总的损失函数如下:

l=lsen+λlshare+ηldomain+σreg

其中λ为参数共享损失的权重,η为领域融合损失的权重,σ为正则项的权重。

s73,基于以上定义的损失函数,使用多个源领域任务和目标领域任务中的带标签数据对多源领域适应联合学习神经网络进行联合训练。优化的目标是

整个深度神经网络的参数集记为θ,包含wt(bigru)、wsk(bigru)、wt(convnets)、wsk(convnets)、

s74,为了实现后向传播过程,参数通过随机梯度下降(stochasticgradientdescent,sgd)的方法进行更新和训练:

其中μ为学习率。

s75,参数集θ的更新策略为

联合学习的目标是最小化损失函数并得到此时最优的参数集θopt,

其中,为目标任务taskt中bigru和convnets网络在第t+1次迭代的参数,为bigru和convnets网络在第t次迭代的参数。

对于k=1,2…k,

其中,为在源任务中bigru和convnets网络在第t+1次迭代的参数,为bigru和convnets网络在第t次迭代的参数。

其中,分别为目标任务taskt和源任务在第t+1次迭代的参数,分别为在第t次迭代的参数。

s76,四种损失函数的偏导数如下:

s8,对于每个源任务和目标任务,我们对每个组合对(tasksk,taskt)进行交替训练。通过以这种方式训练网络,可以提高每个任务的性能,而无需找到更多领域特定的训练数据。使用随机梯度下降法训练参数,使用迭代的方法获得最佳参数集θopt。

具体地,在多源领域适应联合学习神经网络的训练算法中,预训练的过程包括了在多个源领域任务和目标领域任务的预训练任务。对于每个源任务和目标任务,我们对每个组合对(tasksk,taskt)进行交替训练。通过以这种方式训练网络,可以提高每个任务的性能,而无需找到更多领域特定的训练数据。使用随机梯度下降法训练参数,使用迭代的方法获得最佳参数集θopt。多源领域适应联合学习训练算法如算法1所示。

算法1:多源领域适应联合学习训练算法

输入:源领域任务tasksk=(dsk,xsk,psk,fsk),目标领域任务taskt=(dt,xt,pt,ft);

输出:最优参数集θopt和目标领域测试样本集du情感标签;

1://预训练过程

2:初始化源领域任务和目标领域任务中bigru网络参数θ;

3:输入序列x={w1,w2…wn},输出序列为x={w1,w2…wn};

4:使用最小化重构损失;

5:得到源任务tasksk的预训练表示rsk,目标任务taskt的预训练表示rt;

6://多源领域适应网络交替训练过程

7:定义联合损失函数为l=lsen+λlshare+ηldomain+σreg;

8:整个神经网络的参数记为θ,包括wt(bigru)、wsk(bigru)、wt(convnets)、wsk(convnets)、

9:repeat

10:for1≤k≤kdo

11:使用随机梯度下降得到更新参数wt(bigru)、wsk(bigru)、wt(convnets)、wsk(convnets)、

12:iteration←iteration+1

13:endfor

14:until网络收敛或者迭代次数iteration=1000;

15:return最优参数集θopt以及在θopt下测试样本的输出情感标签。

下面介绍本发明的模型参数设置及实验结果:

数据集:中文和英文的多领域情感分类数据集。我们使用5折交叉验证的方法,将目标领域随机分为5份,每次抽取1份作为训练数据,其余的数据作为测试集。重复5次将平均值作为最终的结果。使用两个源领域或者三个源领域的全部数据作为源领域任务。

预处理:在本章中,我们使用glove方法在2014年英文和中文维基百科语料上训练的词向量,词向量的维度为50-300维,中文和英文预训练的词向量中分别有598454和400000个词汇。对于未登录词,我们将其词向量进行随机初始化。

参数设置:在bigru中,序列最大长度设置为600,隐层神经元数量设置为128,隐层数设置为2,在convnets中,filters设置为32,kernel窗口设置为1、2和3,pool大小设置为2。对于整个神经网络,epoch设置为10,批大小设置为128,全连接层的dropout率设置为0.5,学习率设置为0.003,迭代次数设置为1000。情感分类损失的适应性权重参数ε设置为0.5。对于中文情感数据集,我们设置不同类型的损失权重为λ=0.8,η=0.4,σ=0.5。对于英文情感数据集,我们设置不同类型的损失权重为λ=0.6,η=0.6,σ=0.5。

评价指标:本章采取“准确率(accuracy)=分类正确的文本数/测试文本的总数”作为实验结果的评价指标,评估基线方法和提出的多源领域适应联合学习框架的实验效果。

下面对本发明提出的模型进行参数敏感性分析:

词向量维度对跨领域情感分类准确率的影响:图5和图6分别展示了词向量的维度由50变化到300时跨领域情感分类精度的变化。由图5和图6可以发现,跨领域情感分类的精度随着词向量维度的增加而增加,但是计算复杂度会随之上升。

权重选择对跨领域情感分类准确率的影响:损失函数中的权重参数λ=[0.2∶1],η=[0.2∶1]对于跨领域情感分类准确率的影响如图7和图8所示。对于中文情感数据集,我们设置λ=0.8,η=0.4,σ=0.5。对于英文情感数据集,我们设置λ=0.6,η=0.6,σ=0.5。

表1和表2分别展示了不同的领域适应性方法在中文和英文数据集上的准确率结果,整体的准确率比较如图9所示。

从表1、表2和图9,我们可以得出以下结论:

(1)在中文和英文数据集下,相比较hws方法,本发明mdajl方法在两个源领域下准确率分别提高了5.9%和6.2%,在三个源领域条件下准确率分别提高了5.1%和5.1%。这表明深度神经网络的隐层是可迁移的,软参数迁移方法较硬参数迁移方法可以取得更高的准确率。

(2)相比较endtl方法,本发明mdajl方法在两个源领域下准确率分别提高了9.3%和5.0%,在三个源领域条件下准确率分别提高了3.5%和3.1%。endtl方法首先使用源域样本训练字符增强深度卷积神经网络模型,利用深度模型转移学习将情感知识从源域转移到目标域。然后我们采用集成学习集成多个模型,可以充分利用多个源域知识。与endtl方法不同,mttl方法采用交替训练的方法训练目标领域任务和多个源领域任务,在考虑情感分类损失的同时,还考虑了参数共享损失和领域融合损失。

(3)相比较mmd方法,本发明mdajl方法在两个源领域下准确率分别提高了5.4%和5.0%,在三个源领域条件下分别准确率提高了2.6%和4.0%。这表明在构建跨领域情感表示时,不仅要考虑源领域和目标领域分布的距离,还要考虑同一个领域内的不同类别的差异和类内的紧致程度。

(4)与三种变体方法(mdajl-bigru、mdajl-convnets和mdajl-mixture)相比,在中文数据集下,本发明mdajl方法在两个源领域的条件下准确率分别提高了5.3%、3.4%和3.9%,在三个源领域的条件下准确率分别提高了1.1%、3.9%和3.6%。在英文数据集下,mdajl方法在两个源领域的条件下准确率分别提高了4.3%、3.5%和3.7%,在三个源领域的条件下准确率分别提高了4.4%、4.1%和4.0%。这表明bigru-convnets网络较单独使用bigru和convnets有更好的特征提取能力。较将多个源领域混合为一个领域进行多源领域适应联合学习,每个源领域单独与目标任务进行学习的方法可以更有效地抽取不同源领域的知识。

(5)相比较两个源领域的情况下,三个源领域条件下各种方法在中文数据集上的准确率分别提高了4.4%、9.4%、6.4%、7.8%、3.1%、3.9%和3.6%,在英文数据集上的准确率分别提高了4.3%、5.1%、4.2%、3.1%、2.6%、2.9%和3.2%,这说明更充分的源域数据可以提高跨领域情感分类的准确性和泛化能力。

综上所述,本发明的针对多源跨领域情感分类任务提出了一种端到端的多源领域适应联合学习框架,与同类代表性方法相比,有更高的跨领域情感分类准确率,可以在有限的数据条件下实现更好的特征表示和泛化能力。

本文结合说明书附图和具体实施例进行阐述只是用于帮助理解本发明的方法和核心思想。本发明所述的方法并不限于具体实施方式中所述的实施例,本领域技术人员依据本发明的方法和思想得出的其它实施方式,同样属于本发明的技术创新范围。本说明书内容不应理解为对本发明的限制。

表1在16个中文多源跨领域情感分类任务上的平均准确率±标准差(%)

表2在16个英文多源跨领域情感分类任务上的平均准确率±标准差(%)

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1