一种基于多任务学习的在线评论细粒度情感分析方法与流程

文档序号:17643466发布日期:2019-05-11 00:49阅读:330来源:国知局
一种基于多任务学习的在线评论细粒度情感分析方法与流程
本发明属于自然语言处理领域,涉及一种基于多任务学习的在线评论细粒度情感分析方法,特别涉及自然语言情感分析方法,可用于个性化推荐,智能搜索或产品反馈。
背景技术
:随着电子商务的日益发展,在线用户评论信息数呈现井喷式增长。面临非结构化而且数据量巨大的文本信息,仅靠传统方法进行信息筛选不仅工作量非常繁重,而且很难及时有效地获取有价值的信息。如何从庞大的用户评论数据中及时高效地自动分析并且提取其中的观点信息、情感信息是当前文本挖掘领域的重要研究课题。在线评论的情感分析是一项通过分析用户在消费之后的反馈评论来挖掘用户情感倾向的技术。根据分析的角度,情感分析可以分为粗粒度情感分析和细粒度情感分析。其中粗粒度情感分析是指根据评论分析用户对产品或者消费的整体满意度,而不考虑用户对于某个产品性能或者某一方面的情感倾向。细粒度情感分析是指根据用户评论分析用户对产品或者消费的某个方面的满意度。比如根据用户对某个饭店的评论,可以挖掘出用户对于饭店的“服务态度”或者“饭菜口感”等方面的满意度。在线评论的细粒度情感分析对于深刻理解商家和用户、挖掘用户情感等方面有至关重要的价值,并且在互联网行业有极其广泛的应用。情感分析是文本挖掘的一个细分研究领域,通过运用自然语言处理、文本分析和相关计算机技术自动抽取或分类文本中的情感。现有的基于深度学习的细粒度情感分析技术的一般步骤是对每个粒度分别进行情感倾向挖掘:首先根据细粒度的不同对情感分析任务进行分解,将整个任务分解成多个粒度上的情感分析任务,并且将情感分析任务作为文本分类任务来处理,然后利用现有的文本挖掘技术对每一个细粒度上的情感倾向分别进行挖掘。但是这种方法只有在细粒度比较少时才能取得高效的效果,面对多层次、多维度的细粒度情感分析任务,这种基于粒度进行挖掘的方法面临低效率、低精度的问题,这限制了基于粒度进行情感分析方法的实际应用。情感分析可以看成是一种特殊的文本分类任务,根据表述的内容将句子分类到不同的情感类别下。借助于神经网络强大的特征提取能力,yoonkim提出了一种基于卷积神经网络的文本分类方法text-cnn,参见“kimy.convolutionalneuralnetworksforsentenceclassification[j].arxivpreprintarxiv:1408.5882,2014.”。对于细粒度情感分类问题,text-cnn可以利用一维卷积神经网络提取文本的高阶特征,然后将提取出的特征输入全连接神经网络,进行分类。但是这种方法无法对多个细粒度情感进行同时分类,同样面临着低效率,过拟合的风险。由于上述基于粒度的情感分析方法精度不高而且低效,而对基于多任务的情感分析方法的研究尚处于空白。因此,研究一种更加高效的基于多任务学习的细粒度情感分析方法是本
技术领域
科技人员的研究重点。技术实现要素:本发明的目的在于针对上述已有技术的不足,提出一种基于多任务学习的细粒度情感分析方法,以提高分类精度,减小模型复杂度,扩展多任务学习的应用范围。为实现上述目的,本发明的技术方案包括如下:一种基于多任务学习的在线评论细粒度情感分析方法,包括:步骤一:文本数据进行分词、训练、映射及矩阵构造得到文本表示矩阵;步骤二:文本表示矩阵依次输入多任务情感分类网络得到细粒度情感分类结果;所述的多任务情感分类网络包括文本情感特征提取器、粗粒度情感特征提取器和细粒度情感特征分类器;文本情感特征提取器选择单层cnn网络对输入的文本表示矩阵进行文本情感信息的提取得到情感表示矩阵,粗粒度情感特征提取器对输入的情感表示矩阵利用多个单层cnn网络进行粗粒度情感特征的提取得到粗粒度情感特征向量,细粒度情感特征分类器对粗粒度情感特征向量利用多层全连接神经网络进行细粒度情感分类。可选的,所述的文本情感特征提取器为设置多种不同大小的卷积核在文本表示矩阵上进行卷积,得到文本的多尺度特征信息,将提取的多尺度特征信息进行连接。可选的,所述的文本情感特征提取器由多个卷积核大小不同的卷积层并行连接而成,以提取文本的多尺度情感特征;文本情感特征提取器的输入为文本表示矩阵,输出为情感特征矩阵;根据最终的交叉熵损失进行反向传播,训练文本情感提取器中卷积层的权重参数。可选的,所述的粗粒度情感特征提取器,将相似的细粒度情感进行组合得到粗粒度情感,利用多个卷积层进行粗粒度情感特征的提取。可选的,每一个粗粒度情感特征提取器都由多个卷积核大小不同的卷积层并行连接而成,以提取文本在此粗粒度上的多尺度情感特征;粗粒度情感特征提取器的输入为情感表示矩阵,输出为对应粗粒度的情感特征向量;根据最终的交叉熵损失进行反向传播,训练粗粒度情感特征提取器中卷积层的权重参数。可选的,对于每一个细粒度情感分类任务,利用多层全连接神经网络,对文本在相应细粒度上的情感进行分类。可选的,细粒度情感特征分类器的输入为所属粗粒度的情感特征向量,输出为文本属于每一个情感类别的概率;根据最终的交叉熵损失函数进行反向传播,训练所有细粒度情感特征分类器的权重参数。可选的,所述的文本数据的分词:利用分词工具将真实的用户评论文本数据进行分词,得到文本序列;文本数据清洗:将分词后的用户评论文本序列进行数据清洗,根据预先设置的停用词表去除文本中的停用词;词向量的训练:选定词向量维度等参数,利用词向量嵌入技术进行中文词向量的训练,并且将所有词语映射为词向量;词语到数字的映射:建立词语与数字的映射词典,记做word2index词典,将所有词语映射为从1开始的连续数字;词向量矩阵的构造:根据文本到数字的映射关系构建词向量矩阵,具体指的是将映射后的数字作为矩阵的行号,然后将对应的词向量按照顺序放入矩阵中。其中词向量矩阵第0行对应于零向量;文本数据长度的规范化:根据预先设定的句子长度阈值对所有评论文本进行处理:对于长度大于阈值的文本数字序列舍弃超出部分;对于长度不足的补零;文本表示矩阵:对于一条评论文本数据,首先根据建立的word2index词典将词语映射为对应的数字,并且进行文本长度的规范化,然后将数字作为词向量矩阵的行号进行索引,得到文本表示矩阵。可选的,还包括训练多任务情感分类网络,以所有细粒度情感的类别标签为目标训练模型,使用adam算法优化多任务情感分类网络的目标函数进行网络训练。可选的,还包括训练多任务情感分类网络,具体还包括如下步骤:1)对于某个细粒度m,计算第m个细粒度情感多分类的交叉熵损失函数:其中,lm代表评论数据在第m个细粒度下的交叉熵损失,yi∈{0,1}代表神经元是否属于第i类,n代表第m个细粒度的情感类别个数,pi代表情感类别属于第i类的概率;2)计算多任务细粒度情感分类网络的整体交叉熵损失函数:其中,λm代表第m个细粒度的损失在整体网络损失的权重,λm=1/m,m为细粒度个数;3)利用自适应学习率优化算法adam优化如下目标函数,从而更新整个网络的参数,直到l的值小于0.01:4)不断重复步骤3),直到神经网络收敛,或达到预先设置的迭代次数。本发明与现有的技术相比具有以下优点:1、本发明是一种基于多任务学习的方法,可以同时得到用户评论中多层次、多粒度的情感倾向,并且相似任务同时进行特征提取可以减少模型过拟合的风险,提升模型的分类精度;2、本发明采用基于深度卷积网络的方法,相比于传统方法,能自动提取出文本的高阶特征,减少人工特征提取带来的噪声影响和精度下降问题;3、本发明由于采用分层特征提取的方法,每一层网络提取出的特征具有可解释性,模型的稳定性和可拓展性也有很大的提升。4、本发明采用两个基于分层特征提取的多任务卷积网络,对比现有基于粒度进行分类的深度模型,训练时间和预测时间都大大减少。附图说明图1是本发明的实现流程图;图2是本发明设计的多任务细粒度情感分类网络的结构图;图3是基于text-cnn的单任务细粒度情感分类网络的结构图;图4是本发明和基于text-cnn方法的训练时间比较图。具体实施方式本发明基于多任务学习的细粒度情感分析方法主要解决现有细粒度情感分类的精度低、时间复杂度高的问题。本发明是基于多任务学习的细粒度情感分类网络,多任务学习是指对多个任务进行联合学习,可以解决单任务学习存在的信息利用不充分的局限性,充分挖掘多个训练任务之间的关联,提高模型的泛化能力。在本发明提出的细粒度情感分类网络中,主要包括三个子模块:首先通过文本情感特征提取器提取文本中蕴含的情感特征,然后通过粗粒度情感特征提取器提取某一个粗粒度下的情感特征,最后通过细粒度情感分类器得到文本在某个细粒度下的情感类别。本发明提出的方法可以解决现有细粒度情感分类的精度低、时间复杂度高的问题。在线评论的情感分析是一项通过分析用户在消费之后的反馈评论来挖掘用户情感倾向的技术。根据分析的角度,情感分析可以分为粗粒度情感分析和细粒度情感分析。其中粗粒度情感分析是指根据评论分析用户对产品或者消费的整体满意度,而不考虑用户对于某个产品性能或者某一方面的情感倾向。细粒度情感分析是指根据用户评论分析用户对产品或者消费的某个方面的满意度。比如根据用户对某个饭店的评论,可以挖掘出用户对于饭店的“服务态度”或者“饭菜口感”等方面的满意度。在线评论的细粒度情感分析对于深刻理解商家和用户、挖掘用户情感等方面有至关重要的价值,并且在互联网行业有极其广泛的应用。本发明提出的多任务细粒度情感分类网络是由文本情感特征提取器、粗粒度情感特征提取器以及细粒度情感特征分类器组成。根据文本在所有细粒度上的真实情感类别与预测出的类别概率计算所有细粒度上的交叉熵损失,进行反向传播,联合训练文本情感特征提取器、粗粒度情感特征提取器以及细粒度情感特征分类器的权重参数。其实现步骤为:1)文本数据的处理:进行文本数据的切词,得到文本序列;数据清洗,进行去停用词操作;利用word2vec训练词向量;建立词语到数字的映射,并构造词向量矩阵;文本数据长度的规范化,将所有训练数据的长度进行处理,得到定长的训练输入;构造文本表示矩阵,得到网络的输入;2)构建多任务情感分类网络,并设定多任务情感分类网络的结构和参数;训练多任务情感分类网络,利用adam算法进行网络优化,得到最终网络参数。3)输入测试数据,得到测试数据在所有细粒度上的情感分类结果。本发明中,将采用本实施例实现文本情感分析的任一文本定义为文本数据。并且,不限制文本数据的语种类型,比如,文本数据可以是中文文本、或英文文本等;本实施例也不限制文本数据的长度,比如,文本数据可以是句子文本、也可以是篇章文本;本实施例也不限制文本数据的类型,比如,目标文本可以是一条影视评论(简称影评)或一条商品评论,也可以是演讲稿、杂志文章、文学作品等中的部分文本。步骤一:文本数据的处理1a)文本数据的分词:利用中文分词工具将真实的用户评论文本数据进行中文分词,得到文本序列;1b)文本数据清洗:将分词后的用户评论文本序列进行数据清洗。根据预先设置的停用词表去除文本中的停用词,停用词指的是不具有实际意义或者与任务无关的词语。如“的”,“如何”等对于情感分析无关的词语和“,”等中文符号。1c)词向量的训练:选定词向量维度等参数,利用word2vec技术进行中文词向量的训练,将所有词语映射为词向量;如本发明所述实验中,词向量维度设置为128,对于每一个中文词语,利用word2vec技术进行处理后,都会得到一个128维的向量表示这个词语;1d)词语到数字的映射:建立词语与数字的映射词典,记做word2index,将所有中文词语映射成从1开始的连续数字;1e)词向量矩阵的构造:根据文本到数字的映射关系构建词向量矩阵,具体指的是将映射后的数字作为矩阵的行号,然后将对应的词向量按照顺序放入矩阵中。其中词向量矩阵第0行对应于零向量;1f)文本数据长度的规范化:由于每一个用户的评论文本长度不同,而神经网络需要定长的输入,所以根据预先设定的句子长度阈值对所有评论文本进行处理:对于长度大于阈值的文本数字序列舍弃超出部分;对于长度不足的补零。如,本发明所述实验中,选取平均句子长度1200作为阈值,对于长度大于1200的句子,舍弃超出部分;对于长度不足1200的句子进行补零。1g)文本表示矩阵:对于一条评论文本数据,首先根据(1d)中建立的word2index词典将文本映射为对应的数字,并且根据(1f)进行数据长度的规范化,然后将数字作为词向量矩阵的行号进行索引,得到文本数据的表示矩阵。如,本发明所述实验中,对于每一条评论文本,文本表示矩阵都为1200*128大小的由对应的词向量构成的矩阵。步骤二:构建基于多任务的细粒度的情感分类网络2a)建立文本情感特征提取器:选择单层cnn网络进行文本情感信息的提取。设置多种不同的卷积核大小在文本表示矩阵上进行卷积,得到文本数据的多尺度特征信息,将提取的特征进行连接;建立文本情感特征提取器:选择单层cnn网络进行文本情感信息的提取。根据分类问题的复杂程度,设置多种不同大小的卷积核在文本表示矩阵上进行卷积,得到文本数据的多尺度情感特征,并且将提取的文本情感特征进行水平连接;如,在本发明所述实验中,设置了四种大小分别为[2,3,4,5],数量都为128的卷积核,对于输入为1200*128的文本表示矩阵,可以得到四个不同尺度下的情感表示矩阵,形状都为1200*128,拼接时按照列维度进行水平连接,得到1200*512的情感表示矩阵;具体的,选择单层一维卷积神经网络进行文本情感信息的提取,设置四种不同的卷积核大小在文本表示矩阵上进行卷积,得到文本数据的多尺度特征信息。其中四个卷积核大小分别设置为2、3、4和5,每个卷积核个数都设置为128。激活函数选择为relu分段线性函数,卷积步长设置为1。卷积时采用补零的方式,保持输出的特征矩阵维度不变。最后将提取的四个特征矩阵进行连接,得到情感表示矩阵;2b)建立粗粒度情感特征提取器:不同的细粒度的关系是不同的。比如在用户对于餐厅的评论中,在“交通是否便利”和“是否容易寻找”两个细粒度上的情感类别和评论中提及的餐厅“位置”信息有关。而“上菜速度”和评论中提及的“服务”信息有关。所以将细粒度进行划分,将相似的细粒度情感特征进行组合,利用多个单层cnn网络进行粗粒度情感特征的提取。不同的细粒度的关系是不同的。首先将细粒度分类问题进行归类,找到相关联的粗粒度特征,然后利用多个单层cnn网络进行粗粒度情感特征的提取。如,本发明所述实验中,细粒度“交通是否便利”下的情感倾向与细粒度“距离商圈远近”下的情感倾向和评论中提及的粗粒度“位置”的特征有关。可以利用cnn网络提取“交通”粗粒度下的情感特征,然后分别输入细粒度“交通是否便利”的情感分类器和细粒度“距离商圈远近”的情感分类器,得到对应的细粒度情感倾向。对于每一个粗粒度的情感信息,都以2a)所述的文本情感特征提取器得到的情感表示矩阵作为输入,并选择单层一维卷积神经网络进行粗粒度情感特征的提取,设置四种不同的卷积核大小在情感表示矩阵上进行卷积,得到粗粒度情感的多尺度特征信息。其中四个卷积核大小分别设置为2、3、4和5,每个卷积核个数都设置为64。激活函数选择为relu分段线性函数,卷积步长设置为1。最后将四个粗粒度情感特征矩阵在列维度上进行水平连接,得到粗粒度情感特征矩阵。对粗粒度情感特征矩阵进行全局池化,得到最终的粗粒度情感特征向量,对于其他粗粒度也进行如上操作,得到所有粗粒度的情感特征向量;2c)建立细粒度情感分类器:对于每一个细粒度情感分类任务,利用多层全连接神经网络,对文本在此细粒度上的情感进行分类。具体的,对于每一个细粒度情感分类任务,以细粒度所属粗粒度的情感特征向量作为输入,采用两层全连接神经网络进行分类。第一层神经元个数设置为64,激活函数使用relu函数。使用dropout技术防止分类器过拟合,神经元dropout比例为0.5。第二层神经元个数设置为情感类别数。例如,在本发明的实验中,每一个细粒度上有四种情感倾向。所以,设置第二层神经元个数为4。激活函数设置为softmax函数。3、以所有细粒度情感的类别标签为目标,训练模型,优化多任务细粒度情感分类网络的目标函数:使用adam算法优化网络的目标函数,最终得到用户评论在所有粒度上的情感倾向。本发明是基于一维卷积网络构造的多任务深度卷积网络,其中每一层的卷积网络都包含多种不同尺寸的卷积核,参见“convolutionalneuralnetworksforsentenceclassification”。不同的卷积核大小可以提取多尺度的文本情感特征。不同层的神经网络可以提取文本粒度相关的情感信息特征。参照图1,本发明的具体实施例如下:实施例一:1、处理过程介绍:步骤1,文本分词、去停用词。中文分词是指将中文序列切分成一个个单独的词。使用结巴分词jieba工具进行中文分词。停用词指的是中文中“的”,“如何”等不具有实际意义的词语,也可以手动添加其他停用词。根据预先设置的停用词表,将这部分词语从数据集中删除。步骤2,训练词向量,并进行词语到数字的映射。基于深度学习的情感分析技术需要将所有词语表示成低维的稠密向量。这里使用word2vec技术进行中文词向量的训练。设置word2vec的参数:窗口大小设置为5,最小词频设置为2,词向量维度设置为128。所述的word2vec技术是一种用来产生词向量的模型,其中在整个数据集中出现次数低于最小词频2的词语将从数据集中删除。建立词语到数字一一映射的词典word2index。其中数字为从1开始的连续数字。将数字作为词语在词向量矩阵中的行号,建立词向量矩阵。如:词语“餐厅”对应于数字12,则对应的词向量为词向量矩阵中的第12行。词向量矩阵的第0行为全0向量,对应于长度不足的文本序列中补全的占位符。步骤3,数据规范化,得到输入文本表示矩阵。根据word2index词典,将数据集中所有的用户评论映射为数字序列。由于神经网络的输入要求固定长度,所以选取用户评论的平均长度当做输入长度。对于超过平均长度的数字序列,保留序列的前一部分,舍弃超出部分。对于长度不足输入长度的序列,在序列尾部进行补0操作,达到输入长度。本发明所述实验中,句子平均长度为1200。将数字序列作为词向量矩阵的行号,将输入序列转换为文本表示矩阵。文本表示矩阵的每一行为一个词语的词向量。步骤4,设定基于多任务的细粒度情感分类网络各层的网络参数。4a)设定文本情感特征提取器:其包括四个并行的一维卷积层。对于输入网络的文本表示矩阵,选取卷积核大小分别为2、3、4和5,卷积核数量设置为128的4种不同的卷积方式对文本中的情感信息进行多尺度的信息提取,激活函数都设置为relu函数,并且采用补零的补全方式,保证输出的维度不变,得到情感表示矩阵。4b)设定粗粒度情感特征提取器:对于每一个粗粒度,输入都为情感表示矩阵,设定第二层的卷积网络都包含四个并行的一维卷积层,卷积核大小分别为2、3、4和5,卷积核个数都设置为64。将四个粗粒度情感矩阵进行连接,得到最终的粗粒度情感特征矩阵。采用全局池化的方法,得到最终的粗粒度情感特征向量;4c)设定细粒度情感特征分类器:对于每一个细粒度情感,都选择两层全连接网络进行分类。第一层神经元个数设置为64,并且使用dropout技术防止过拟合,dropout比例设置为0.5。激活函数设置为relu函数。第二层神经元个数设置为类别数,本发明所做实验中,第二层神经元个数设置为4。激活函数选取为softmax激活函数。步骤5,以用户文本表示矩阵为输入,以用户在不同细粒度上的情感类别为目标,训练多任务细粒度的情感分类网络。多任务细粒度的情感分类网络是由多层卷积网络进行级联和并联,并且连接全连接神经网络组成的,训练按照以下方式进行:5a)对于某个细粒度m,定义第m个粒度情感多分类的损失函数:其中,lm代表评论数据在第m个粒度下的交叉熵损失,yi∈{0,1}代表神经元是否属于第i类,n代表第m个粒度的情感类别个数,pi代表情感类别属于第i类的概率。5b)定义多任务细粒度情感分类网络的整体损失函数:其中,lm代表评论数据在第m个粒度下的交叉熵损失,λm代表第m个粒度损失的在整体网络损失的权重。在本发明中,设定λm=1/m。其中m的含义为细粒度个数。本发明所述实验中,m=20.所以,本文中的细粒度情感分类网络是一种多任务学习的网络。整个网络的损失由多个分任务的损失加权求和得到。5c)将5a)中的公式(1)代入5b)中的公式(2),得到如下损失函数,利用自适应学习率优化算法adam优化如下损失函数,直到l的值小于0.01,或者迭代次数超过设定的总代数时停止优化,从而更新整个网络的参数:步骤6设置批数据大小batchsize为128,网络训练总迭代次数为15代,不断重复步骤5c),直到神经网络收敛,或达到预先设置的迭代次数。步骤7对于测试数据集,进行步骤1-3,得到处理后的数据,输入训练好的神经网络,得到用户评论在所有细粒度上的情感类别。2.仿真条件与评价指标:本实验在intel(r)xeon(r)cpue5-2620v4@2.10ghzubuntu14.04系统下,128g内存,采用nvidiateslap40gpu加速神经网络训练,python3.5环境下基于tensorflow1.8.0,keras2.2.0运行平台上进行。主要评价指标有:①第m个细粒度的分类准确率pm:对于第m个细粒度的每一个类别,如果样本属于此类,则称为正类,否则称为负类。对于第i类,统计此细粒度分类结果中实际为第i类并且预测为第i类的样本个数,计算在所有预测为第i类样本中占的比例,这个比例称为准确率。对所有类别的准确率进行平均,得到此细粒度下的准确率,即:②第m个细粒度的分类召回率rm:对于第m个细粒度的第i类,统计此细粒度下分类结果中实际为正样本并且预测为正样本的样本个数,计算在所有实际为正类样本中占的比例。这个比例称为召回率。对所有类别的召回率进行平均,得到此粒度的召回率。③第m个细粒度的f1m:对于细粒度m的第i类,计算f1mi=2pmirmi/(pmi+rmi),最终细粒度m的f1分数为④整体分类f1:评判网络对于细粒度分类任务的整体性能。这里,m表示总粒度个数,n表示第m个细粒度的类别个数。3.仿真实验内容与结果仿真.基于多任务细粒度情感分类网络的用户评论情感分类的仿真。3.1.数据介绍:本实验采用aichallenger发布的真实用户评论数据集作为实验对象,数据集的评价对象分为两个层次,层次一为粗粒度评价对象,涉及文本中“位置”,“服务”等评价要素,层次二为细粒度的情感对象,例如“位置”属性中的“交通是否便利”,“是否容易寻找”等细粒度要素。数据集的具体介绍如下,见表1:表1数据集粒度层次介绍可以看出数据集中共有20个细粒度评价要素。每个细粒度要素的情感倾向有四种状态:正向,负向,中性,未提及。情感倾向值及其含义对照表如表2所示。表2情感倾向及其含义情感倾向值-2-110含义正面情感中性情感负面情感未提及情感此数据集中训练样本共有105000条,测试样本有15000条。3.2.对比实验:本发明是基于多任务深度神经网络的细粒度情感分类方法,与现有基于text-cnn模型进行细粒度情感分类的网络进行对比。图2所示为多任务细粒度情感分类网络的结构图,可以看出本发明提出的网络包含三个部分:文本情感特征提取器,粗粒度情感特征提取器,细粒度情感特征分类器。可以同时输出文本在所有细粒度上的情感类别。图3所示为基于text-cnn的单任务细粒度情感分类网络的网络结构图,此网络每次只能输出一个细粒度上的情感类别。对于多个细粒度情感分类任务,需要训练多次,才能得到文本在所有细粒度上的情感类别。分类准确率,分类召回率,分类的f1分数结果分别如表3、表4和表5所示。表3各个细粒度的分类准确率表4各个细粒度的分类召回率细粒度编号12345678910text-cnn0.60080.43960.64370.52330.71970.67010.62690.72200.62070.5983本发明0.59630.47600.65840.49660.73910.67180.63830.76450.66150.6032细粒度编号11121314151617181920text-cnn0.66690.68000.68560.63350.61930.61910.46630.59830.50470.6014本发明0.65140.70870.72830.68330.64430.63200.46520.66040.53940.6310表5各个细粒度的f1分数细粒度编号12345678910text-cnn0.61670.46430.65350.54560.72270.68870.66370.72440.63300.5962本发明0.61200.49860.66510.54060.74840.66090.65820.75810.68530.5936细粒度编号11121314151617181920text-cnn0.63540.69240.68180.65580.63040.62510.48510.63800.50160.6138本发明0.67860.73400.72750.70300.66230.66220.49880.68940.54720.6305从实验结果可以看出,本文提出的基于多任务的细粒度情感分析技术优于传统基于text-cnn的方法。在大部分细粒度上,本发明的分类准确率,召回率,f1分数都优于基于text-cnn进行情感分类的方法。尤其是在准确率上,本发明的准确率分数在所有粒度上都高于基于text-cnn的方法。在召回率上,对于细粒度1,4,11,17上,本发明的召回率略微低于text-cnn,但在其他细粒度上,本发明的召回率远远高于text-cnn方法。例如在细粒度14上,本发明的召回率比text-cnn高大约0.05。在各个细粒度的f1分数上,本发明的分类f1分数也在大多数粒度上高于text-cnn算法。这些都充分说明本发明提出的基于多任务的细粒度情感分类技术可以提取相似细粒度之间的共同情感特征,从而防止过拟合,更好地进行细粒度的情感分类。整体分类f1分数如表6所示。表6所有细粒度分类的平均f1分数方法本发明text-cnnf1分数0.64770.6234从表6可以看出,本发明提出的算法分类性能优于基于text-cnn的方法。3.3.训练时间对比:本发明是基于多任务的情感分类网络,能够一次性输出所有细粒度上的情感类别,而基于text-cnn的细粒度情感分类方法需要在每个细粒度上单独进行情感分类,运行时间较长。本发明和text-cnn的训练时间对比如图4。从图4可以看出,本发明中提出的多任务情感分类网络的训练时间远远小于基于text-cnn的细粒度情感分类方法。由此可见,本发明的方法不仅分类性能更好,而且运行时间更短。综上所述,本发明针对多层次、多粒度情感分类任务提出的基于多任务的细粒度情感分类方法优于现有的基于text-cnn的单个细粒度情感分类方法。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1