一种汽车行业细分领域的情感分析方法及系统与流程

文档序号:13736141阅读:272来源:国知局
一种汽车行业细分领域的情感分析方法及系统与流程

本发明涉及大数据领域,尤其涉及一种汽车行业细分领域的情感分析方法及系统。



背景技术:

随着互联网的快速发展,细分领域的网站越来越多,例如汽车、餐饮、住宿等服务的网站。很多用户在细分领域中,伴随着自己的实际经验,会针对自己的服务发表自己的观点。用户的反馈对产品或者服务提供者具有重要的意义,特别是追踪用户对产品或者服务的舆情走向以及对产品或服务的后续改进。

在汽车生活中,人们对于买车、用车过程中遇到的问题,往往也会在微博、论坛、贴吧等公共场合发表自己的意见,所以对于汽车企业来说,通过汽车舆情监测时刻关注用户对产品的评价及反馈,不但可以对可能出现的焦点事件进行提前干预及时处理,而且也可以搜集许多产品的优化改进建议。在汽车舆情系统中,往往可以通过对汽车行业相关网站或者论坛上目标用户发表的言论进行实时分析,获取用户针对产品所表达出的正负面情感倾向,从而达到对相关产品的舆情监测。

现有技术中主要依据情感词典,例如基础情感词典和汽车行业情感词典中的正负面情感词以及形容词等情感判别,或者基于机器学习的方法对文本进行正负面情感分类,从而得到用户原创内容的情感评价。

现有技术可以计算出情感分值,但存在如下问题:对汽车行业情感词典的广度有极高的要求,如果词典的覆盖范围较小,也就是正负面情感词远小于真实存在的情感词数量,这样很容易对帖子中的情感词漏判,从而降低帖子情感倾向判断的准确性;词典中同一个情感词在不同语境下有时会表达出完全相反的情感倾向,无法确定情感词的情感评价;现有技术非常笼统地为每篇帖子计算出一个分值,无法定位到对细节的情感评价。



技术实现要素:

有鉴于此,本发明提供一种汽车行业细分领域的情感分析方法及系统,其目的在于实现汽车行业细分领域下的情感分析。

本发明提供了一种汽车行业细分领域的情感分析方法,该方法包括:

获取汽车行业词典;

根据用作训练素材的汽车行业的用户原创内容以及所述汽车行业词典训练情感分类器;

根据所述汽车行业词典和/或所述情感分类器计算待评价的汽车行业的用户原创内容的情感分值。

优选地,所述汽车行业词典包括细分领域的实体词典和细分领域的情感词典;其中,所述细分领域的实体词典为名词类词典,所述细分领域的情感词典为形容词类词典。

优选地,所述根据用作训练素材的汽车行业的用户原创内容以及所述汽车行业词典训练情感分类器包括:

根据所述细分领域的实体词典判断用作训练素材的汽车行业的用户原创内容所属细分领域;

生成用作训练素材的汽车行业的用户原创内容的词向量表达;

根据汽车口碑数据中最满意的评论和最不满意的评论生成带标签的训练数据;

计算用作训练素材的汽车行业的用户原创内容的句子向量,并训练该细分领域的情感分类器。

优选地,所述根据所述汽车行业词典和/或所述情感分类器计算待评价的汽车行业的用户原创内容的情感分值包括:

根据所述细分领域的实体词典确定待评价的汽车行业的用户原创内容所属细分领域;

在根据所述细分领域的情感词典确定所述待评价的汽车行业的用户原创内容存在情感词典中所含形容词类词的情况下,根据所述细分领域的情感词典、否定词词典及程度副词词典计算待评价的汽车行业的用户原创内容的情感分值;

在根据所述细分领域的情感词典确定所述待评价的汽车行业的用户原创内容不存在情感词典中所含形容词类词的情况下,根据所述细分领域的情感分类器计算所述待评价的汽车行业的用户原创内容的情感分值。

优选地,所述生成用作训练素材的汽车行业的用户原创内容的词向量表达包括:

根据word2vector模型生成用作训练素材的汽车行业的用户原创内容的词向量表达包括。

优选地,所述训练该细分领域的情感分类器包括:

根据梯度提升树训练所述细分领域的情感分类器。

本发明提供了一种汽车行业细分领域的情感分析系统,该系统包括:

获取模块,用于获取汽车行业词典;

训练模块,用于根据用作训练素材的汽车行业的用户原创内容以及所述汽车行业词典训练情感分类器;

计算模块,用于根据所述汽车行业词典和/或所述情感分类器计算待评价的汽车行业的用户原创内容的情感分值。

优选地,所述汽车行业词典包括细分领域的实体词典和细分领域的情感词典;其中,所述细分领域的实体词典为名词类词典,所述细分领域的情感词典为形容词类词典。

优选地,所述训练模块还用于根据所述细分领域的实体词典判断用作训练素材的汽车行业的用户原创内容所属细分领域;生成用作训练素材的汽车行业的用户原创内容的词向量表达;根据汽车口碑数据中最满意的评论和最不满意的评论生成带标签的训练数据;计算用作训练素材的汽车行业的用户原创内容的句子向量,并训练该细分领域的情感分类器。

优选地,所述计算模块还用于根据所述细分领域的实体词典确定待评价的汽车行业的用户原创内容所属细分领域;在根据所述细分领域的情感词典确定所述待评价的汽车行业的用户原创内容存在情感词典中所含形容词类词的情况下,根据所述细分领域的情感词典、否定词词典及程度副词词典计算待评价的汽车行业的用户原创内容的情感分值;在根据所述细分领域的情感词典确定所述待评价的汽车行业的用户原创内容不存在情感词典中所含形容词类词的情况下,根据所述细分领域的情感分类器计算所述待评价的汽车行业的用户原创内容的情感分值。

优选地,所述训练模块还用于根据word2vector模型生成用作训练素材的汽车行业的用户原创内容的词向量表达包括。

优选地,所述训练模块还用于根据梯度提升树训练所述细分领域的情感分类器。

本发明通过构建汽车行业细分领域下的评价实体和情感词典,对于不同的细分领域基于各自的情感词典进行情感分值计算,不但可以极大地扩充汽车行业情感词典,而且对行业情感词典进行分级,解决了以往不同语境下情感词的歧义问题,而后对于情感词典未命中的情况下再通过机器学习的方式进行情感分值的计算,既解决了情感词典覆盖范围的缺陷,又一定程度上缓解了由于语料的不纯净造成分类器准确度下降的问题,通过细分领域的情感词典以及机器学习的方法共同实现了汽车行业细分领域下的情感分析。

附图说明

附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:

图1是本发明提供的词典构建流程示意图;

图2是本发明提供的汽车行业细分领域的情感分析方法示意图;

图3是本发明提供的情感分类器训练流程图;

图4是本发明提供的汽车行业细分领域的情感分析的详细流程图;

图5是本发明提供的汽车行业细分领域的情感分析系统示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。

如图1所示,本发明提供的构建名词词典和形容词词典的流程图,具体包括:

步骤105,抓取某汽车网站细分领域下的口碑语料,例如8个细分领域下的口碑语料,细分领域可以例如空间、油耗、动力、操控、外观、内饰、性价比、舒适性等;口碑语料可以根据细分领域的关键词来抓取。

步骤110,对语料进行分词、去停用词、去车型、去低频词等预处理;分词可以采用一些分词算法,例如基于字符串匹配的分词算法,基于理解的分词算法,基于统计的分词算法等;停用词例如一些拟声词,连词等,这些词对于语料的情感分析没有作用,可以去除;车型可以根据数据库来确定,可以根据机器学习来认定车型,从而去除;低频词是指生活中较少遇到的词,或者一些文言词汇等。

步骤115,按照筛选规则提取符合规则的名词类词,并统计词频;名词类词即名词,在汽车行业常见的有发动机、动力、离合器、档位等等;统计词频的时候可以根据多个用户原创内容来计算,例如每千字出现多少次等。

步骤120,计算领域和名词类词的互信息,选取各细分领域下top200的词;互信息,是两个随机变量相互依赖的度量,该值越大表明两者相关性越强,在这里通过对各细分领域下的原创内容进行分词及词性标注,保留名词类词,然后计算这些名词类词与各细分领域的互信息;

步骤125,通过人工筛选生成细分领域下的实体词典,即名词词典;词典中包含的词例如发动机、动力、离合器、档位等;

步骤130,按照筛选规则提取符合规则的形容词类词,并统计词频;形容词类词即形容词,例如好、差、肉、强劲等;统计词频的时候可以根据多个用户原创内容来计算,例如每千字出现多少次等。

步骤135,计算领域和形容词类词的互信息,选取各细分领域下top200的词

步骤140,通过人工筛选生成细分领域下的情感词典,即形容词词典。词典中包含的词例如好、差、肉、强劲等。

基于所构建的名词类词典和形容词类词典,本发明提供了一种汽车行业细分领域的情感分析方法,如图2所示,具体包括:

步骤205,获取汽车行业词典;汽车行业词典可以包括上述构建的汽车细分领域下的名词类词典和形容词类词典;

步骤210,根据用作训练素材的汽车行业的用户原创内容以及汽车行业词典训练情感分类器;用作训练素材的用户原创内容可以经过人工筛选,以提高情感分类器的训练效果;

步骤215,根据汽车行业词典和/或情感分类器计算待评价的汽车行业的用户原创内容的情感分值。该步骤中,如果命中了形容词词典,则可以直接根据形容词来计算情感分值,如果没有命中的话,可以根据情感分类器来计算情感分值。

对于待分析的汽车行业汽车原创内容,需要确定该文本所属细分领域,然后基于词典的方法判断是否命中该细分领域下的情感词,如果没有命中,则采用情感分类器的方法进行情感分析,这样可以弥补情感词典天生所具有的永远不能包含所有的情感词而带来的漏判问题。

图3是本发明提供的情感分类器训练流程图,具体包括:

步骤305,借助细分领域下的实体词典,判断文本所属细分领域;

步骤310,基于向量模型生成用作训练素材的汽车行业用户原创内容的词向量表达,例如基于word2vector模型;

步骤315,借助汽车口碑数据中最满意和最不满意的评论生成带标签的训练数据;最满意和最不满意的标志在汽车网站原创内容时已经包含,在爬虫抓取过程中保留即可;带标签的数据用来训练情感分类器;

步骤320,计算文本的向量空间表达,基于梯度提升树训练细分领域下的情感分类器。文本的空间向量表达可以理解为句子的空间向量表达,是基于句子中所含词的词向量表达生成的。句子向量构成了用于训练的样本,而用于训练的样本标签就是之前根据最满意和最不满意生成的标签数据(满意为1,不满意为0)。

上述训练得到的情感分类器可以用来在没有命中形容词词典的情况下,用情感分类器来评价用户的情感。

图4是本发明提供的汽车行业细分领域的情感分析的详细流程图,包括:

步骤405,获取待分析汽车行业用户原创内容;

步骤410,基于细分领域下的实体词典,判断用户原创内容所属汽车行业细分领域;

步骤415,判断用户原创内容是否命中形容词词典中的形容词,如果是的执行步骤420,否则执行步骤425;

步骤420,基于细分领域下的情感词典、否定词词典及程度副词词典,计算用户原创内容的情感分值;否定词词典包括:不,非,不太等词汇,用来判断是否反转情感极性;程度副词词典包括:很,非常,稍微等词汇,用来判断程度;否定词词典和成都副词词典也可以预先建立。否定词词典和程度副词词典属于通用词典,根据网上一些公开的词典库获得,后续可根据效果增删改查。

步骤425,基于细分领域下的情感分类器,计算用户原创内容的情感分值。如果未能基于词典打出情感分值,基于之前的词向量表达生成内容的向量表达,然后将其放入分类器中进行情感分值的计算。

基于以上流程,即使在没有命中情感词典的情况,本发明也可以对用户原创内容进行情感评分。

以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。

另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。

此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1