跨领域文本情感分类模型的训练方法、装置、设备及介质与流程

文档序号:16811674发布日期:2019-02-10 13:43阅读:251来源:国知局
跨领域文本情感分类模型的训练方法、装置、设备及介质与流程

本发明属于自然语言处理技术领域,尤其涉及一种跨领域文本情感分类模型的训练方法、装置、设备及介质。



背景技术:

文本情感分析是领域敏感的,由于不同领域的评论有不同的词分布,例如,“干净”一词在酒店评论中很常见,然而在书籍评论中却很少使用,所以,仅使用带标签的书籍评论数据训练的情感分类器对无标签的酒店评论数据进行情感倾向预测,则无法在酒店评论中获得令人满意的结果。

领域自适应算法旨在利用相关领域(源域)大量带标签样本来改进目标域样本的预测效果。领域对抗神经网络(domainadversarialneuralnetwork,简称dann)使用领域分类器和梯度反转层进行无监督跨领域情感分类,并取得了较好的结果。dann思想来源于生成对抗神经网络,不同之处在于生成对抗网络是用来生成数据的,而领域分类器使用梯度反转层来实现对抗训练,其目标是使领域分类器无法识别领域之间的差异,从而获得领域不变的特征表示,当获得了领域不变的特征表示后,任何监督学习的方法都可以用来在源域带标签样本上训练分类器。

对于跨领域情感分类来说领域不变的特征和样本本身的特性都是重要的,然而,通过dann、双转移深层神经网络(bi-transferringdeepneuralnetworks,简称btdnns)或者最大平均差异(maximummeandiscrepancy,简称mmd)等用来约束源域和目标域之间分布一致性的方法,更多地关注领域不变特征而忽略样本本身的特性,造成情感分类不准确的问题。

此外,bruzzone和habrard等提出了迭代领域自适应图像处理方法,每次迭代使用类别均匀的目标域样本及其预测标签来替换相同数量的源域样本,不断进行训练以提高目标域图像分类准确率,在跨领域情感分类任务上尚未发现这种迭代训练的做法。



技术实现要素:

本发明的目的在于提供一种跨领域文本情感分类模型的训练方法、装置、设备及介质,旨在解决由于现有技术无法提供一种有效的跨领域文本情感分类模型的训练方法,导致跨领域文本情感分类模型的情感分类不准确的问题。

一方面,本发明提供了一种跨领域文本情感分类模型的训练方法,所述方法包括下述步骤:

根据预设的源领域样本集和预设的目标领域样本集对预先构建的跨领域文本情感分类模型进行初次训练,所述目标领域样本集中的每个目标样本为无标签样本;

根据训练好的所述跨领域文本情感分类模型对所述目标领域样本集进行情感分类,得到所述每个目标样本对应的情感预测标签和所述每个目标样本属于预设的每个情感类别的隶属度;

根据所述隶属度,通过预设的模糊值公式计算所述每个目标样本的情感模糊值,得到对应的情感模糊值集;

将所述情感模糊值集中低于预设模糊阈值的情感模糊值对应的目标样本和所述目标样本对应的情感预测标签添加到所述源领域样本集中,以对所述源领域样本集进行扩充;

根据扩充后的所述源领域样本集和所述目标领域样本集对所述跨领域文本情感分类模型进行再次训练,以完成对所述跨领域文本情感分类模型的训练。

优选地,所述跨领域文本情感分类模型由自动编码器、领域分类器以及情感分类器组成。

优选地,根据预设的源领域样本集和预设的目标领域样本集对预先构建的跨领域文本情感分类模型进行初次训练的步骤,包括:

根据预设的模型代价损失函数、所述源领域样本集以及所述目标领域样本集对预先构建的跨领域文本情感分类模型进行初次训练,所述模型代价损失函数lall为lall=lsc+αlae+βldc,其中,lsc为预设的所述情感分类器的代价损失函数,lae为预设的所述自动编码器的代价损失函数,α为预设的所述自动编码器的损失权衡参数,ldc为预设的所述领域分类器的代价损失函数,β为预设的所述领域分类器的损失权衡参数。

进一步优选地,根据预设的模型代价损失函数、所述源领域样本集以及所述目标领域样本集对预先构建的跨领域文本情感分类模型进行初次训练的步骤,包括:

根据所述自动编码器的代价损失函数和所述源领域样本集对所述自动编码器进行训练,根据所述领域分类器的代价损失函数、所述源领域样本集以及所述目标领域样本集对所述领域分类器进行训练,根据所述情感分类器的代价损失函数和所述源领域样本集对所述情感分类器进行训练。

另一方面,本发明提供了一种跨领域文本情感分类模型的训练装置,所述装置包括:

模型初次训练单元,用于根据预设的源领域样本集和预设的目标领域样本集对预先构建的跨领域文本情感分类模型进行初次训练,所述目标领域样本集中的每个目标样本为无标签样本;

情感分类单元,用于根据训练好的所述跨领域文本情感分类模型对所述目标领域样本集进行情感分类,得到所述每个目标样本对应的情感预测标签和所述每个目标样本属于预设的每个情感类别的隶属度;

模糊值计算单元,用于根据所述隶属度,通过预设的模糊值公式计算所述每个目标样本的情感模糊值,得到对应的情感模糊值集;

源样本集扩充单元,用于将所述情感模糊值集中低于预设模糊阈值的情感模糊值对应的目标样本和所述目标样本对应的情感预测标签添加到所述源领域样本集中,以对所述源领域样本集进行扩充;以及

模型再次训练单元,用于根据扩充后的所述源领域样本集和所述目标领域样本集对所述跨领域文本情感分类模型进行再次训练,以完成对所述跨领域文本情感分类模型的训练。

优选地,所述跨领域文本情感分类模型由自动编码器、领域分类器以及情感分类器组成。

优选地,所述模型初次训练单元包括:

模型训练子单元,用于根据预设的模型代价损失函数、所述源领域样本集以及所述目标领域样本集对预先构建的跨领域文本情感分类模型进行初次训练,所述模型代价损失函数lall为lall=lsc+αlae+βldc,其中,lsc为预设的所述情感分类器的代价损失函数,lae为预设的所述自动编码器的代价损失函数,α为预设的所述自动编码器的损失权衡参数,ldc为预设的所述领域分类器的代价损失函数,β为预设的所述领域分类器的损失权衡参数。

进一步优选地,所述模型训练子单元包括:

分类器训练单元,用于根据所述自动编码器的代价损失函数和所述源领域样本集对所述自动编码器进行训练,根据所述领域分类器的代价损失函数、所述源领域样本集以及所述目标领域样本集对所述领域分类器进行训练,根据所述情感分类器的代价损失函数和所述源领域样本集对所述情感分类器进行训练。

另一方面,本发明还提供了一种计算设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述跨领域文本情感分类模型的训练方法所述的步骤。

另一方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述跨领域文本情感分类模型的训练方法所述的步骤。

本发明在根据源领域样本集和目标领域样本集对跨领域文本情感分类模型进行初次训练后,根据训练好的跨领域文本情感分类模型对目标领域样本集进行情感分类,得到目标领域样本集中每个目标样本对应的情感预测标签和每个目标样本属于每个情感类别的隶属度,根据隶属度,通过模糊值公式计算每个目标样本的情感模糊值,将情感模糊值低于模糊阈值的目标样本和该目标样本对应的情感预测标签添加到源领域样本集中,根据该源领域样本集和目标领域样本集对跨领域文本情感分类模型进行再次训练,从而提高跨领域文本情感分类模型的情感分类准确率。

附图说明

图1是本发明实施例一提供的跨领域文本情感分类模型的训练方法的实现流程图;

图2是本发明实施例二提供的跨领域文本情感分类模型的训练装置的结构示意图;

图3是本发明实施例二提供的跨领域文本情感分类模型的训练装置的优选结构示意图;以及

图4是本发明实施例三提供的计算设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述:

实施例一:

图1示出了本发明实施例一提供的跨领域文本情感分类模型的训练方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:

在步骤s101中,根据预设的源领域样本集和预设的目标领域样本集对预先构建的跨领域文本情感分类模型进行初次训练。

本发明实施例适用于文本或自然语言处理平台、系统或设备,例如,个人计算机、服务器等。根据预设的源领域样本集和预设的目标领域样本集对预先构建的跨领域文本情感分类模型进行初次训练,其中,该源领域样本集包含带标签样本和无标签样本,该目标领域样本集中的每个目标样本为无标签样本。

在本发明实施例中,优选地,跨领域文本情感分类模型由自动编码器、领域分类器以及情感分类器组成,其中,自动编码器用于捕捉样本本身与情感相关特征,领域分类器用于捕捉领域不变的情感特征,从而提高情感分类器分类的准确率。

进一步优选地,自动编码器是由输入层、隐藏层以及输出层组成的无监督三层神经网络,自动编码器又被分为编码器ge和解码器gd两部分,编码器ge通过编码函数将源领域样本集中带标签的第i个源样本的输入映射为隐藏层表示h1,解码器gd通过解码函数gd(h1)=f(wdh1+bd)从隐藏层表示h1重构原始输入从而提高从隐藏层表示中重构原始输入向量的重构效果,其中,we和be为编码器ge的权重和偏置参数,wd和bd为解码器gd的权重和偏置参数,f为非线性激活函数(例如,sigmoid,tanh或者relu函数等)。

在根据预设的源领域样本集和预设的目标领域样本集对预先构建的跨领域文本情感分类模型进行初次训练时,优选地,根据预设的模型代价损失函数、源领域样本集以及目标领域样本集对预先构建的跨领域文本情感分类模型进行初次训练,模型代价损失函数lall为lall=lsc+αlae+βldc,从而通过最小化模型代价损失函数lall来优化跨领域文本情感分类模型的各模型参数,提高了对跨领域文本情感分类模型训练的训练效果,其中,lsc为预设的情感分类器的代价损失函数,lae为预设的自动编码器的代价损失函数,α为预设的自动编码器的损失权衡参数,ldc为预设的领域分类器的代价损失函数,β为预设的领域分类器的损失权衡参数。

在根据预设的模型代价损失函数、源领域样本集以及目标领域样本集对预先构建的跨领域文本情感分类模型进行初次训练时,优选地,根据自动编码器的代价损失函数和源领域样本集对自动编码器进行训练,根据领域分类器的代价损失函数、源领域样本集以及目标领域样本集对领域分类器进行训练,根据情感分类器的代价损失函数和源领域样本集对情感分类器进行训练,从而提高了对跨领域文本情感分类模型训练的训练效果。

在根据自动编码器的代价损失函数和源领域样本集对自动编码器进行训练时,优选地,根据源领域样本集,通过最小化自动编码器的代价损失函数对自动编码器进行训练,自动编码器的代价损失函数lae为从而提高对自动编码器训练的训练效果,其中,是源领域样本集中带标签的第i个源样本,we和be为自动编码器中编码器ge的权重和偏置参数,wd和bd为自动编码器中解码器gd的权重和偏置参数,为源领域样本集中带标签的源样本数量。

在对自动编码器进行训练时,进一步优选地,通过随机梯度下降法或者批梯度下降法对自动编码器中编码器和解码器的权重和偏置参数进行优化,从而进一步提高对自动编码器训练的训练效果。

在根据领域分类器的代价损失函数、源领域样本集以及目标领域样本集对领域分类器进行训练时,优选地,领域分类器的代价损失函数为交叉熵损失函数使用源领域样本集和目标领域样本集中所有的样本,通过最小化交叉熵损失函数ldc来对领域分类器进行训练,从而提高对领域分类器训练的训练效果,其中,di∈{0,1}是输入到领域分类器中的样本xi的实际领域标签,来自于源领域样本集的样本则该样本的领域标签为1,来自于目标领域样本集的样本则该样本的领域标签则为0,是样本xi来自于源领域样本集的预测概率值,是源领域样本集中带标签样本数量和无标签样本数量的总数量,nt为目标领域样本集中目标样本数量。

在根据领域分类器的代价损失函数、源领域样本集以及目标领域样本集对领域分类器进行训练之前,优选地,通过边缘堆叠去噪自动编码器(marginalizedstackeddenoisingauto-encoder,简称msda)对待输入领域分类器的样本进行初始化,从而提高跨领域情感分类的准确率。

在本发明实施例中,优选地,领域分类器为逻辑回归分类模型,其包含特征提取层(即隐藏层)和领域分类层,从而使得领域分类器无法找到源领域样本集和目标领域样本集中样本间的差异。

进一步优选地,在领域分类器的特征提取层和领域分类层之间加入梯度反转层(gradientreversallayer,简称grl),grl用于在领域分类器正向传播过程中保留原有输入,在反向传播的梯度下降时反转梯度,具体地,正向传播过程grl为恒等函数qβ(xgrl)=xgrl,反向传播过程grl通过函数将后一层传递的梯度乘以-1后再传递到前一层,其中,xgrl为grl的输入,qβ为梯度反转层起到的作用,i为预设的单位矩阵,从而进一步提高对领域分类器训练的训练效果。

进一步优选地,根据公式h2=gf(xi)=f(wxi+b)和通过grl完成领域分类器的对抗训练,具体地,将样本xi输入领域分类器,得到隐藏层表示h2,再将h2传递给grl,再将grl层的输出作为sigmoid层的输入,以完成领域分类器的对抗训练,从而通过优化wdc和bdc提高领域分类器辨别源样本和目标样本的能力,通过优化w和b降低领域分类器的准确性,进而提高对领域分类器训练的训练效果,其中,w和b为特征提取层gf的权重和偏置参数,wdc和bdc为领域分类层gdc的权重和偏置参数,样本xi为源领域样本集或者目标领域样本集中的样本。

在根据情感分类器的代价损失函数和源领域样本集对情感分类器进行训练时,优选地,将自动编码器的隐藏层表示h1和领域分类器的隐藏层表示h2被连接起来作为情感分类器的输入,通过最小化情感分类器的代价损失函数对情感分类器进行训练,其中,是实际的one-hot情感类别标签,是情感分类器预测的情感类别概率值,维度和一样,v和t分别为情感分类器中的权重和偏置参数,从而提高对情感分类器训练的训练效果。

在步骤s102中,根据训练好的跨领域文本情感分类模型对目标领域样本集进行情感分类,得到目标领域样本集中每个目标样本对应的情感预测标签和每个目标样本属于预设的每个情感类别的隶属度。

在本发明实施例中,将目标领域样本集输入到初次训练好的跨领域文本情感分类模型中后,跨领域文本情感分类模型会对目标领域样本集中的每个目标样本进行情感模糊划分,分配给每个目标样本属于每个情感类别的隶属度,根据隶属度,给该隶属度对应的目标样本分配相应的情感预测标签。

在本发明实施例中,优选地,隶属度满足uij∈[0,1],从而提高隶属度的合理性,其中,uij为第i个目标样本xi属于情感类别中第j类的隶属度,c为情感类别数,n为目标领域样本集中目标样本数量。

在步骤s103中,根据隶属度,通过预设的模糊值公式计算每个目标样本的情感模糊值,得到对应的情感模糊值集。

在本发明实施例中,优选地,模糊值公式为从而提高情感模糊值计算的精确性,其中,uij为第i个目标样本xi属于情感类别中第j类的隶属度,c为情感类别数,μi=(μi1,μi2,...,μic)t为第i个目标样本xi属于每个情感类别的隶属度的隶属度集。

在步骤s104中,将情感模糊值集中低于预设模糊阈值的情感模糊值对应的目标样本和该目标样本对应的情感预测标签添加到源领域样本集中,以对源领域样本集进行扩充。

在本发明实施例中,将情感模糊值集中的情感模糊值和预设模糊阈值进行比较,当情感模糊值低于预设模糊阈值时,将该情感模糊值对应的目标样本以及该目标样本对应的情感预测标签添加到源领域样本集中,以对源领域样本集进行扩充,从而增加了对更多目标样本的监督信息。

在步骤s105中,根据扩充后的源领域样本集和目标领域样本集对跨领域文本情感分类模型进行再次训练,以完成对跨领域文本情感分类模型的训练。

在本发明实施例中,将扩充后的源领域样本集和目标领域样本集输入到初次训练好的跨领域文本情感分类模型中,对经过初次训练的该跨领域文本情感分类模型进行再次训练,以完成对该跨领域文本情感分类模型的训练。

在根据扩充后的源领域样本集和目标领域样本集对跨领域文本情感分类模型进行再次训练时,优选地,根据模型代价损失函数、扩充后的源领域样本集以及目标领域样本集对初次训练后的跨领域文本情感分类模型进行再次训练,模型代价损失函数lall为lall=lsc+αlae+βldc,从而通过最小化模型代价损失函数lall来再次优化跨领域文本情感分类模型的各模型参数,进一步提高了对跨领域文本情感分类模型训练的训练效果,其中,lsc为情感分类器的代价损失函数,lae为自动编码器的代价损失函数,α为自动编码器的损失权衡参数,ldc为领域分类器的代价损失函数,β为领域分类器的损失权衡参数。

在根据模型代价损失函数、扩充后的源领域样本集以及目标领域样本集对初次训练后的跨领域文本情感分类模型进行再次训练时,优选地,根据自动编码器的代价损失函数和扩充后的源领域样本集对自动编码器进行再次训练,根据领域分类器的代价损失函数、扩充后的源领域样本集以及目标领域样本集对领域分类器进行再次训练,根据情感分类器的代价损失函数和扩充后的源领域样本集对情感分类器进行再次训练,从而进一步提高了对跨领域文本情感分类模型训练的训练效果。

对跨领域文本情感分类模型中的自动编码器、领域分类器以及情感分类器进行再次训练的具体实施方式可参考步骤s101中对自动编码器进行训练、对领域分类器进行训练、对情感分类器进行训练的描述,在此不再赘述。

在本发明实施例中,通过对跨领域文本情感分类模型进行多次训练,并在对跨领域文本情感分类模型进行训练过程中引入情感模糊值,以对源领域样本集进行相应的扩充,从而增加了对目标样本的监督信息,提高了跨领域文本情感分类模型的情感分类准确率。

实施例二:

图2示出了本发明实施例二提供的跨领域文本情感分类模型的训练装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分,其中包括:

模型初次训练单元21,用于根据预设的源领域样本集和预设的目标领域样本集对预先构建的跨领域文本情感分类模型进行初次训练;

情感分类单元22,用于根据训练好的跨领域文本情感分类模型对目标领域样本集进行情感分类,得到目标领域样本集中每个目标样本对应的情感预测标签和每个目标样本属于预设的每个情感类别的隶属度;

模糊值计算单元23,用于根据隶属度,通过预设的模糊值公式计算每个目标样本的情感模糊值,得到对应的情感模糊值集;

源样本集扩充单元24,用于将情感模糊值集中低于预设模糊阈值的情感模糊值对应的目标样本和该目标样本对应的情感预测标签添加到源领域样本集中,以对源领域样本集进行扩充;以及

模型再次训练单元25,用于根据扩充后的源领域样本集和目标领域样本集对跨领域文本情感分类模型进行再次训练,以完成对跨领域文本情感分类模型的训练。

如图3所示,优选地,模型初次训练单元21包括:

模型训练子单元211,用于根据预设的模型代价损失函数、源领域样本集以及目标领域样本集对预先构建的跨领域文本情感分类模型进行初次训练,模型代价损失函数lall为lall=lsc+αlae+βldc,其中,lsc为预设的情感分类器的代价损失函数,lae为预设的自动编码器的代价损失函数,α为预设的自动编码器的损失权衡参数,ldc为预设的领域分类器的代价损失函数,β为预设的领域分类器的损失权衡参数。

模型训练子单元211包括:

分类器训练单元2111,用于根据自动编码器的代价损失函数和源领域样本集对自动编码器进行训练,根据领域分类器的代价损失函数、源领域样本集以及目标领域样本集对领域分类器进行训练,根据情感分类器的代价损失函数和源领域样本集对情感分类器进行训练。

在本发明实施例中,跨领域文本情感分类模型的训练装置的各单元可由相应的硬件或软件单元实现,各单元可以为独立的软、硬件单元,也可以集成为一个软、硬件单元,在此不用以限制本发明。具体地,各单元的实施方式可参考前述实施例一的描述,在此不再赘述。

实施例三:

图4示出了本发明实施例三提供的计算设备的结构,为了便于说明,仅示出了与本发明实施例相关的部分。

本发明实施例的计算设备4包括处理器40、存储器41以及存储在存储器41中并可在处理器40上运行的计算机程序42。该处理器40执行计算机程序42时实现上述跨领域文本情感分类模型的训练方法实施例中的步骤,例如图1所示的步骤s101至s105。或者,处理器40执行计算机程序42时实现上述各装置实施例中各单元的功能,例如图2所示单元21至25的功能。

在本发明实施例中,在根据源领域样本集和目标领域样本集对跨领域文本情感分类模型进行初次训练后,根据训练好的跨领域文本情感分类模型对目标领域样本集进行情感分类,得到目标领域样本集中每个目标样本对应的情感预测标签和每个目标样本属于每个情感类别的隶属度,根据隶属度,通过模糊值公式计算每个目标样本的情感模糊值,将情感模糊值低于模糊阈值的目标样本和该目标样本对应的情感预测标签添加到源领域样本集中,根据该源领域样本集和目标领域样本集对跨领域文本情感分类模型进行再次训练,从而提高跨领域文本情感分类模型的情感分类准确率。

本发明实施例的计算设备可以为个人计算机、服务器。该计算设备4中处理器40执行计算机程序42时实现跨领域文本情感分类模型的训练方法时实现的步骤可参考前述方法实施例的描述,在此不再赘述。

实施例四:

在本发明实施例中,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述跨领域文本情感分类模型的训练方法实施例中的步骤,例如,图1所示的步骤s101至s105。或者,该计算机程序被处理器执行时实现上述各装置实施例中各单元的功能,例如图2所示单元21至25的功能。

在本发明实施例中,在根据源领域样本集和目标领域样本集对跨领域文本情感分类模型进行初次训练后,根据训练好的跨领域文本情感分类模型对目标领域样本集进行情感分类,得到目标领域样本集中每个目标样本对应的情感预测标签和每个目标样本属于每个情感类别的隶属度,根据隶属度,通过模糊值公式计算每个目标样本的情感模糊值,将情感模糊值低于模糊阈值的目标样本和该目标样本对应的情感预测标签添加到源领域样本集中,根据该源领域样本集和目标领域样本集对跨领域文本情感分类模型进行再次训练,从而提高跨领域文本情感分类模型的情感分类准确率。

本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、记录介质,例如,rom/ram、磁盘、光盘、闪存等存储器。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1