一种评论数据的处理方法及处理装置与流程

文档序号:12465335阅读:205来源:国知局
一种评论数据的处理方法及处理装置与流程

本发明涉及数据处理和数据挖掘领域,具体涉及一种评论数据的处理方法及处理装置。



背景技术:

随着信息技术的发展,互联网已经成为当今社会人们获取信息的重要渠道,互联网快捷、方便的特性,以及强大的交互能力,为人们交流思想、阐明观点、发表意见提供了新的平台,因此也产生了大量的评论数据,比如微博中的评论数据、电子商务中关于商品的评论数据等。评论数据通常带有人们的情感倾向,情感倾向可认为是主体对某一客体主观存在的内心喜恶,比如可以理解为人们对某客体表达自身观点所持的态度是支持还是反对,是正面情感还是负面情感。例如“赞美”与“表扬”为褒义词,表达正面情感,而“龌龊”与“丑陋”为贬义词,表达负面情感。对评论数据的情感倾向进行分类标记,可以方便对大量的评论数据进行分析,帮助企业、政府、消费者等更好的把握用户的偏好,从而对自己的产品或者工作上的改进产生良好的指导作用。

现有技术中,大多是基于情感词典或者分析评论语句的语法而得到评论语句的情感倾值,最后根据情感倾值判定评论语句的情感倾向。

但是,简单的基于情感词典或者评论语句的语法,忽略了网络语言灵活性的特点,对评论语句的情感倾向的判断不够准确。



技术实现要素:

本发明提供一种评论数据的处理方法及处理装置,用于解决现有技术对评论语句的情感倾向的判断不够准确。

本发明实施例的一方面提供了一种评论数据的处理方法,包括:

获取情感倾向已知的样本评论语句;

计算所述样本评论语句的句向量;

利用所述样本评论语句的句向量与所述样本评论语句的情感倾向对基于学习的分类器进行训练,得到情感分类器;

利用所述情感分类器对待测评论语句的情感倾向进行预测。

结合第一方面,在第一方面的第一种可能的实现方式中,所述情感倾向包括第一情感、第二情感和第三情感;

所述情感分类器包括第一情感模型、第二情感模型和第三情感模型,所述第一情感模型用于计算所述待测评论语句的情感倾向为第一情感的第一概率,所述第二情感模型用于计算所述待测评论语句的情感倾向为第二情感的第二概率,所述第三情感模型用于计算所述待测评论语句的情感倾向为第三情感的第三概率。

结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,利用所述样本评论语句的句向量与所述样本评论语句的情感倾向对基于学习的分类器进行训练得到所述第一情感模型,包括:

判断所述样本评论语句的情感倾向是否为第一情感;

若是,则将所述样本评论语句的句向量加入预建的所述第一情感模型的第一集合;

若否,则将所述样本评论语句的句向量加入预建的所述第一情感模型的第二集合;

利用所述第一集合和所述第二集合进行二分类训练建模,得到所述第一情感模型;

利用所述第一情感模型对待测评论语句的情感倾向进行预测包括:

利用所述第一情感模型计算所述待测评论语句的句向量属于所述第一情感模型的第一集合的概率。

结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,利用所述情感分类器对待测评论语句的情感倾向进行预测包括:

分别利用所述第一情感模型、所述第二情感模型和所述第三情感模型对所述待测评论语句的情感倾向进行预测,得到第一概率、第二概率和第三概率;

确定所述第一概率、所述第二概率和所述第三概率中取值最大的概率对应的情感模型为目标情感模型;

确定所述目标情感模型对应的情感倾向为所述待测评论语句的情感倾向。

结合第一方面、第一方面的第一种可能的实现方式、第一方面的第二种可能的实现方式和第一方面的第三种可能的实现方式之中任意一种,在第一方面的第四种可能的实现方式中,所述计算所述样本评论语句的句向量包括:

对所述样本评论语句进行分词,得到样本词集合;

利用基于Word2Vec的神经网络计算所述样本词集合中的样本词的词向量,得到所述样本评论语句对应的样本词向量集合;

计算所述样本词向量集合的中心向量,作为所述样本评论语句的句向量。

本发明实施例的第二方面提供了一种评论数据的处理装置,包括:

获取模块,用于获取情感倾向已知的样本评论语句;

计算模块,用于计算所述样本评论语句的句向量;

训练模块,用于利用所述样本评论语句的句向量与所述样本评论语句的情感倾向对基于学习的分类器进行训练,得到情感分类器;

预测模块,用于利用所述情感分类器对待测评论语句的情感倾向进行预测。

结合第二方面,在第二方面的第一种可能的实现方式中,所述情感倾向包括第一情感、第二情感和第三情感;

所述情感分类器包括第一情感模型、第二情感模型和第三情感模型,所述第一情感模型用于计算所述待测评论语句的情感倾向为第一情感的第一概率,所述第二情感模型用于计算所述待测评论语句的情感倾向为第二情感的第二概率,所述第三情感模型用于计算所述待测评论语句的情感倾向为第三情感的第三概率。

结合第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,所述训练模块包括第一训练子模块,所述第一训练子模块用于利用所述样本评论语句的句向量与所述样本评论语句的情感倾向对基于学习的分类器进行训练得到所述第一情感模型,所述第一训练子模块包括:

判断单元,用于判断所述样本评论语句的情感倾向是否为第一情感;

第一添加单元,用于当所述判断单元判定所述样本评论语句的情感倾向是第一情感时,将所述样本评论语句的句向量加入预建的所述第一情感模型的第一集合;

第二添加单元,用于当所述判断单元判定所述样本评论语句的情感倾向不是第一情感时,将所述样本评论语句的句向量加入预建的所述第一情感模型的第二集合;

建模单元,用于利用所述第一集合和所述第二集合进行二分类训练建模,得到所述第一情感模型;

所述预测模块包括第一预测单元,用于利用所述第一情感模型对待测评论语句的情感倾向进行预测,所述第一预测单元包括:

计算子单元,用于利用所述第一情感模型计算所述待测评论语句的句向量属于所述第一情感模型的第一集合的概率。

结合第二方面的第二种可能的实现方式,在第二方面的第三种可能的实现方式中,所述预测模块包括:

预测子模块,用于分别利用所述第一情感模型、所述第二情感模型和所述第三情感模型对所述待测评论语句的情感倾向进行预测,得到第一概率、第二概率和第三概率,所述预测单元包括所述第一预测子单元;

第一确定子模块,用于确定所述第一概率、所述第二概率和所述第三概率中取值最大的概率对应的情感模型为目标情感模型;

第二确定子模块,用于确定所述目标情感模型对应的情感倾向为所述待测评论语句的情感倾向。

结合第二方面、第二方面的第一种可能的实现方式、第二方面的第二种可能的实现方式和第二方面的第三种可能的实现方式之中任意一种,在第二方面的第四种可能的实现方式中,所述计算模块包括:

分词子模块,用于对所述样本评论语句进行分词,得到样本词集合;

第一计算子模块,用于利用基于Word2Vec的神经网络计算所述样本词集合中的样本词的词向量,得到所述样本评论语句对应的样本词向量集合;

第二计算子模块,用于计算所述样本词向量集合的中心向量,作为所述样本评论语句的句向量。

从以上技术方案可以看出,本发明实施例具有以下优点:

本发明获取情感倾向已知的样本评论语句,计算所述样本评论语句的句向量,利用所述样本评论语句的句向量与所述样本评论语句的情感倾向对基于学习的分类器进行训练,得到情感分类器,并利用所述情感分类器对待测评论语句的情感倾向进行预测,本发明为基于大数据的情感倾向预测,和简单的基于情感词典或者评论语句的语法进行预测相比,对评论语句的情感倾向的判断更加准确。

附图说明

图1是本发明评论数据的处理方法一个实施例示意图;

图2是本发明对基于学习的分类器进行训练得到第一情感模型的方法一个实施例示意图;

图3是本发明评论数据的处理方法另一个实施例示意图;

图4是本发明评论数据的处理装置一个实施例示意图;

图5是本发明评论数据的处理装置另一个实施例示意图。

具体实施方式

本发明实施例提供了一种评论数据的处理方法及处理装置,用于提高对评论数据的情感倾向判断的准确性。

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解,下面对本发明实施例中的具体流程进行描述,请参阅图1,本发明实施例中评论数据的处理方法一个实施例包括:

101、获取情感倾向已知的样本评论语句;

获取情感倾向已知的样本评论语句,每个样本评论语句对应一个确定的情感倾向。

102、计算样本评论语句的句向量;

得到情感倾向已知的样本评论语句之后,可以计算样本评论语句的句向量。

103、利用样本评论语句的句向量与样本评论语句的情感倾向对基于学习的分类器进行训练,得到情感分类器;

计算得到样本评论语句的句向量之后,可以利用样本评论语句的句向量和样本评论语句的情感倾向对基于学习的分类器进行训练,得到情感分类器。

104、利用情感分类器对待测评论语句的情感倾向进行预测。

得到情感分类器之后,可以利用情感分类器对待测评论语句的情感倾向进行预测。

本发明获取情感倾向已知的样本评论语句,并计算样本评论语句的句向量,之后利用样本评论语句的句向量与样本评论语句的情感倾向对基于学习的分类器进行训练,得到情感分类器,并利用情感分类器对待测评论语句的情感倾向进行预测,由于本发明为基于大数据的情感倾向预测,和简单的基于情感词典或者评论语句的语法进行预测相比,对评论语句的情感倾向的判断更加准确。

大多数的情感极性判断都是正面和负面的二分类判断,而本发明中可以对至少三种情感进行判断,也就是说,获取的样本评论语句,其情感倾向可以包括第一情感、第二情感和第三情感,相应的,情感分类器可以包括第一情感模型、第二情感模型和第三情感模型,第一情感模型用于计算待测评论语句的情感倾向为第一情感的第一概率,第二情感模型用于计算待测评论语句的情感倾向为第二情感的第二概率,第三情感模型用于计算待测评论语句的情感倾向为第三情感的第三概率。在这里,第一情感倾向、第二情感倾向和第三情感倾向可以分别指正面情感、负面情感和中性情感。由于本发明中多了一个中性的预测,不同于常规的正负面的二分类预测,因此本发明的情感倾向预测结果更准确。

若情感分类器包括第一情感模型、第二情感模型和第三情感模型,那么图1对应的实施例中,利用样本评论语句的句向量与样本评论语句的情感倾向对基于学习的分类器进行训练,得到情感分类器,就包括利用样本评论语句的句向量与样本评论语句的情感倾向对基于学习的分类器进行训练,分别得到第一情感模型、第二情感模型和第三情感模型。作为优选,下面具体说明,在获取情感倾向已知的样本评论语句,并计算样本评论语句的句向量之后,利用样本评论语句的句向量与样本评论语句的情感倾向对基于学习的分类器进行训练得到第一情感模型的具体过程,请参阅图2,对基于学习的分类器进行训练得到第一情感模型的方法包括:

201、判断样本评论语句的情感倾向是否为第一情感,若是,则执行步骤202,若否,则执行步骤203;

对获取到的情感倾向已知的样本评论语句进行判断,判断其情感倾向是否为第一情感,若样本评论语句的情感倾向是第一情感,则执行步骤202,若样本评论语句的情感倾向不是第一情感,则执行步骤203。

202、将样本评论语句的句向量加入预建的第一情感模型的第一集合;

若判定样本评论语句的情感倾向是第一情感,则将样本评论语句的句向量加入预建的第一情感模型的第一集合。

203、将样本评论语句的句向量加入预建的第一情感模型的第二集合;

若判定样本评论语句的情感倾向是第一情感,则将样本评论语句的句向量加入预建的第一情感模型的第二集合。

204、利用第一集合和第二集合进行二分类训练建模,得到第一情感模型;

通过步骤201至步骤203,可以将获取的样本评论语句分为两类,一类位于第一集合中,另一类位于第二集合中,第一集合中的样本评论语句对应的情感倾向为第一情感,第二集合中的样本评论语句对应的情感倾向为非第一情感。接下来可以利用第一集合和第二集合进行二分类训练建模,具体的,可以将第一集合中的样本评论语句的标签设为第一情感,将第一情感的标签值设为1,将第二集合中的样本评论语句的标签设为非第一情感,将非第一情感的标签值设为0,将标记有第一情感和非第一情感的样本评论语句用于Logistic二分类训练建模,得到第一情感模型,之后可以根据Logistic二分类预测远离,以预测待测评论语句的标签为第一情感的概率,即待测评论语句属于第一情感的第一集合的概率,或者说,待测评论语句的情感倾向为第一情感的概率。

在获取情感倾向已知的样本评论语句,并计算样本评论语句的句向量之后,利用样本评论语句的句向量与样本评论语句的情感倾向对基于学习的分类器进行训练,得到第二情感模型和第三情感模型的过程,与上述得到第一情感模型的过程类似,此处不再赘述。得到第二情感模型和第三情感模型之后,可以分别利用第二情感模型和第三情感模型对待测评论语句的情感倾向进行预测,即计算待测评论语句的情感倾向为第二情感的概率以及计算待测评论语句的情感倾向为第三情感的概率。

如上,若情感倾向包括第一情感、第二情感和第三情感,情感分类器包括第一情感模型、第二情感模型和第三情感模型,请参阅图3,本发明实施例中评论数据的处理方法另一个实施例包括:

301、获取情感倾向已知的样本评论语句;

获取情感倾向已知的样本评论语句,每个样本评论语句对应一个确定的情感倾向。由于评论对象不同,用户表达自身情感倾向所常用的评论语句往往有很大差异,比如对政府政策的评论语句和对商品的评论语句,其常用词汇、句式等往往有很大差异。因此,为了提高情感分类器的准确性,可以针对不同的评论对象构建不同的情感分类器。在本实施例中,以评论对象为商品为例进行说明。

获取情感倾向已知的样本评论语句的方法可以为:

1、获取商品的评论语句,并通过人工分析并标记评论语句的情感倾向,标记类别有第一情感、第二情感和第三情感,标记后的评论语句即为情感倾向已知的样本评论语句;

2、通过网络爬虫工具,从电商网站上分别爬取情感倾向为第一情感的评论语句、情感倾向为第二情感的评论语句以及情感倾向为第三情感的评论语句。经过此步骤之后,便获得一定数量的情感倾向已知的样本评论语句。

上述两种方法仅作为举例,在实际使用中,也可以通过其他方法获取情感倾向已知的样本评论语句,此处不做具体限定。

302、对样本评论语句进行分词,得到样本词集合;

获取到样本评论语句之后,可以利用分词工具对样本评论语句进行分词。具体的,可以为:把样本评论语句存入到分布式数据库,从并行计算框架中读入分布式数据库中的样本评论语句,并利用标准的分词工具对分布式数据库中的样本评论语句进行并行化分词,之后将每条评论语句对应的分词结果保存到分布式数据库中,每条评论语句对应的分词结果(或者说样本词)组成一个样本词集合。

303、利用基于Word2Vec的神经网络计算样本词集合中的样本词的词向量,得到样本评论语句对应的样本词向量集合;

在得到样本词集合之后,可以将样本词集合中的每个分词结果,或者说样本词集合中的每个样本词转换为数值向量。具体的,可以为:从分布式数据库中读入样本评论语句对应的样本词集合,在并行计算框架中调用基于神经网络的Word2Vec算法,将样本词集合中的样本词转换为对应的数值向量,为了将此处的数值向量与句向量区分开,可以将样本词对应的数据向量称作词向量。将每个样本词集合中的所有样本词转换为对应的词向量之后,可以将每个样本词集合对应的词向量组成样本词向量集合。

304、计算样本词向量集合的中心向量,作为样本评论语句的句向量;

得到样本词向量集合之后,可以计算该样本词向量集合中的样本词向量的中心向量,并将计算得到的中心向量作为该样本评论语句的句向量。在实际使用中,也可以计算该样本词向量集合的样本词向量的平均向量或者和向量,此处不做具体限定。

305、利用样本评论语句的句向量与样本评论语句的情感倾向对基于学习的分类器进行训练,分别得到第一情感模型、第二情感模型和第三情感模型;

在计算得到样本评论语句的句向量之后,可以利用样本评论语句的句向量与样本评论语句的情感倾向对基于学习的分类器进行训练,分别得到第一情感模型、第二情感模型和第三情感模型,具体的步骤可以参阅图2对应的实施例。

306、分别利用第一情感模型、第二情感模型和第三情感模型对待测评论语句的情感倾向进行预测,得到第一概率、第二概率和第三概率;

得到第一情感模型、第二情感模型和第三情感模型之后,可以对情感倾向未知的商品评论语句的情感倾向进行预测,比如对实时从本商铺的评论数据中获取的新增商品评论语句进行预测,为了表述方便,将这部分评论语句称为待测评论语句。那么,得到第一情感模型、第二情感模型和第三情感模型之后,可以分别利用第一情感模型、第二情感模型和第三情感模型对待测评论语句的情感倾向进行预测。可以利用第一情感模型对待测评论语句的情感倾向进行预测,可以得到该待测评论语句的情感倾向为第一情感的概率为第一概率。可以利用第二情感模型对该待测评论语句的情感倾向进行预测,可以得到该待测评论语句的情感倾向为第二情感的概率为第二概率。可以利用第三情感模型对该待测评论语句的情感倾向进行预测,可以得到该待测评论语句的情感倾向为第三情感的概率为第三概率。利用情感模型对待测评论语句进行预测的具体过程请参阅图2对应的实施例。

307、确定第一概率、第二概率和第三概率中取值最大的概率对应的情感模型为目标情感模型;

分别利用第一情感模型、第二情感模型和第三情感模型计算得到第一概率、第二概率和第三概率之后,可以对三者的大小进行比较,确定第一概率、第二概率和第三概率中取值最大的概率对应的情感模型为目标情感模型。假设第一概率的取值最大,那么第一概率对应的情感模型为第一情感模型,之后可以将第一情感模型确定为目标情感模型。

308、确定目标情感模型对应的情感倾向为待测评论语句的情感倾向。

确定目标情感模型之后,可以确定目标情感模型对应的情感倾向为待测评论语句的情感倾向。在本实施例中,假设第一情感模型为目标情感模型,那么待测评论语句的情感倾向为第一情感。

上面对本发明实施例中的评论数据的处理方法进行了描述,下面对本发明实施例中的评论数据的处理装置进行描述。

请参阅图4,本发明实施例中评论数据的处理装置的一个实施例包括:

获取模块401,用于获取情感倾向已知的样本评论语句;

计算模块402,用于计算样本评论语句的句向量;

训练模块403,用于利用样本评论语句的句向量与样本评论语句的情感倾向对基于学习的分类器进行训练,得到情感分类器;

预测模块404,用于利用情感分类器对待测评论语句的情感倾向进行预测。

请参阅图5,本发明实施例中评论数据的处理装置的另一个实施例包括:

获取模块501,用于获取情感倾向已知的样本评论语句。

计算模块502,用于计算样本评论语句的句向量,计算模块602包括:

分词子模块5021,用于对样本评论语句进行分词,得到样本词集合;

第一计算子模块5022,用于利用基于Word2Vec的神经网络计算样本词集合中的样本词的词向量,得到样本评论语句对应的样本词向量集合;

第二计算子模块5023,用于计算样本词向量集合的中心向量,作为样本评论语句的句向量。

训练模块503,用于利用样本评论语句的句向量与样本评论语句的情感倾向对基于学习的分类器进行训练,得到第一情感模型、第二情感模型和第三情感模型;

预测模块504,用于利用第一情感模型、第二情感模型和第三情感模型对待测评论语句的情感倾向进行预测,预测模块604包括:

预测子模块5041,用于分别利用第一情感模型、第二情感模型和第三情感模型对待测评论语句的情感倾向进行预测,得到第一概率、第二概率和第三概率,预测单元包括第一预测子单元;

第一确定子模块5042,用于确定第一概率、第二概率和第三概率中取值最大的概率对应的情感模型为目标情感模型;

第二确定子模块5043,用于确定目标情感模型对应的情感倾向为待测评论语句的情感倾向。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

所述的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1