对评论文本进行评价的方法和装置的制作方法

文档序号:6424516阅读:640来源:国知局
专利名称:对评论文本进行评价的方法和装置的制作方法
技术领域
本发明涉及语义分析领域,特别是涉及一种对评论文本进行评价的方法和装置。
背景技术
随着因特网的发展,越来越多的人在网上发布信息,其中包括了很多评论者对产品、事件、政策等的评论。由于网上的评论通常数量庞大而且评论的对象(例如产品、时间、政策等)繁杂,因此需要通过评价来分析评论者的评论。其中,评论可以是评论者输入的一段文字,评价可以是评论者进行的分类或打分等操作。评论者在评论的同时可以进行评价。分类一般是把评论分为正面、负面(有的时候加上中性)等几个极性。打分是给评论一个分数,用来评价这个评论的极性和强度。这样,第三方可以快速地通过评价来了解评论者的评论。 然而,现在有些网站并不提供评论的评价机制,也有些网站早期并没有提供评价机制,这些情况下需要系统自动对评论进行评价。以评价机制中的打分为例,一个典型的打分方式是星级。例如很多购物网站允许评论者用I 5颗星衡量商品,5颗星代表最好,I颗星代表最差;这里I 5就是分数。相对于星级,更细致的方式是给出一个连续值,例如4. 3。这种方式的好处是商品能更细致地排序例如当评论者搜索相机的时候,两个满足评论者需求但都是4颗星的相机是无法区分相对优劣的。而如果相机A打分为4. 1,B打分为4. 4,就可以容易地区分开了 ;排序的时候可以把B排在A的前面,使评论者可以先看到更好的商品。当然,一般购物等网站都不要求评论者直接给出连续值评分。文献l,Bo Pang 和 Lillian Lee.等人的论文 Seeing stars !Exploiting classrelationships for sentiment categorization with respect to rating scales,Proceedings of the 43rd Annual Meeting of the ACL, pages I15—124,Ann Arbor,2005年6月,介绍了一种根据评论的本文自动对评论打分的方法。该方法主要分三步首先从预先收集的包含评论者打分的评论中提取文本和对应的分数,形成训练样本集;然后根据文本中的词形成向量,并建立回归模型;最后用训练样本集对回归模型进行求解,最后得到回归模型的参数。这样就可以根据这些参数和回归模型一起对新的、没有分数的评论进行自动打分。在此,通过引用的方式将文献I并入本文。文献I中介绍的方法的缺点在于仅仅考虑了评论的文本,造成评价无法真实、完全地反映评论的极性和强度。

发明内容
考虑到现有技术的上述缺陷,本发明提出了一种对评论文本进行评价的方法和装置。其中,将评论者和/或评论对象的因素考虑进回归模型。
根据本发明的第一方面,提出了一种对评论文本进行评价的方法,包括使用评价回归模型对待评价的评论文本进行评价;其中,所述评论回归模型是根据由历史评论文本集合结合各个历史评论文本对应的评价在考虑了评论者和/或评论对象的因素下形成的训练样本集合而获得的。根据本发明的第二方面,提出了一种对评论文本进行评价的装置,其中,该装置包括第一获取模块,用于获取待评价的评论文本;评价模块,用于通过评价回归模型对待评价的评论文本进行评价,其中所述评论回归模型是根据由历史评论文本集合结合各个历史评论文本对应的评价在考虑了评论者和/或评论对象的因素下形成的训练样本集合而获得的。根据本发明的第三方面,提出了一种用于获取评价评论文本的回归模型的方法,包括获取历史评论文本集合和各个历史评论文本对应的评价;根据评论者和/或评论对象进行区分对所述历史评论文本集合进行区分;以及使用由所述区分的历史评论文本集合结合各个历史评论文本对应的评价形成的训练样本集合来求解所述评价回归模型。
·
根据本发明的实施例对评论文本进行的自动评价,由于考虑了评论者和/或评论对象,能够更加真实、完全地反映评价的极性和强度,并且有助于第三方通过该分数来了解评论者的评论所传达的评价。


通过下面结合

本发明的优选实施例,将使本发明的上述及其它目的、特征和优点更加清楚,其中图I是示出了根据本发明的一个实施例的对评论文本进行评价的方法的流程图;图2是示出了根据本发明的一个实施例的确定评价回归模型的流程图;图3示出了根据本发明的一个实施例的使用回归模型对待评价的评论文本进行评价的过程;图4示出了用于实现根据本发明的一个实施例的用于对评论文本进行评价的装置;图5示出了用于实现根据本发明的一个实施例的用于获取评论回归模型的装置;图6示出了用于实现根据本发明的另一个实施例的用于对评论文本进行评价的
>J-U ρ α装直。在本发明的所有附图中,相同或相似的附图标记标识表示相同或相似的结构和步骤。
具体实施例方式下面将结合附图参考若干示例性实施例来描述本发明的原理和精神。应当理解,给出这些实施例仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。在描述过程中省略了对于本发明来说是不必要的细节和功能,以防止对本发明的理解造成混淆。正如现有技术中指出的,文献I中介绍的方法的缺点在于仅仅考虑了评论的文本,造成评价无法真实、完全地反映评论的极性和强度。这是由于
不同评论者即使使用相同的词,其真正表达的评价的极性和强度可能是不同的。例如一个比较宽容的人可能对很多商品都说“好”,真实的含义可能是“还行”、“凑合”,而一个比较严格的人如果说某个商品“好”,那么可能是“非常好”、“很棒”。所以,如果脱离了评论者,仅仅考虑“好”这个词,并不能真正地、完全地反映评价的极性和强度。同样的,同一个词在评价不同的评论对象(即商品)时也可能有不同的含义。例如“大”这个词,如果是手机声音大,那么是个好的特性,而如果是吸尘器声音大,那么类似噪音大,是个不好的特性。所以脱离了评论对象(例如手机或吸尘器)而单独考虑词本身,也不能真正地、完全地反映评价的极性和强度。而如果可以将不同的评论者区分开,和/或将对不同的评论对象区分开,则可以提高评价的极性和强度。为此,本发明提出了能够克服上述问题的用于对评论文本进行评价的方法和装置。同时,提出了一种考虑了评论者和/或评论对象的回归模型。下面参考附图进行详细 描述。图I是示出了根据本发明的一个实施例的对评论文本进行评价的方法的流程图100。图I所示的方法100从步骤SllO开始。在步骤SllO中,获取待评价的评论文本。如上所述,该待评价的评论文本可以是未提供评价机制的网站上的评论对应于的文本,或者其他没有包含评价的评论对应的文本。在步骤S120中,使用回归模型对待评价的评论文本进行评价。在步骤S120中使用的评价机制可以是分类、打分(例如星级评价机制)、或者任何其他的可以统计的评价机制。应该理解,回归模型是一种对统计关系进行定量描述的数学模型,可以表征一组自变量对于应变量的影响。在本发明的实施例中,将评论者和评论对象的因素考虑进打分模型,建立了基于评论文本、评论者和评论对象三个因素的回归模型。由于该回归模型与多个因素相关联,所以也称为多元回归模型。本发明的用于评价的回归模型可以使用训练样本集合进行训练来获得。训练样本集合可以由历史评论文本集合结合其对应的评价来形成。作为训练样本,每条历史评论文本已经对应一个评价,例如分数。这种历史评论文本例如可以从众多提供评价机制的网站上收集获得。与现有技术不同的是,该训练样本集合是在考虑了各个历史评论文本对应的评论者和/或针对的评论对象的因素下形成的。在本发明的一个实施例中,在历史评论文本集合中通常包含两个以上评论者撰写的评论文本和/或针对两个以上评论对象的评论文本。于是,可以相应地对收集到的历史评论文本根据评论者和/或评论对象来进行区分。这是由于收集的历史评论文本有可能是一个评论者对多个评论对象发布的评论文本,也可能是多个评论者对同一个评论对象发表的评论文本,还可以是多个评论者对多个评论对象发表的评论文本。对于第一种情况,可以根据评论者进行区分;对于第二种情况,可以根据评论对象进行区分;对于第三种情况,可以根据评论者进行区分,也可以根据评论对象进行区分,也可以优选地同时针对评论者和评论对象进行区分。在本发明的实施方式中,用于对待评价的评论文本进行评价的回归模型可以一般地的表示如下r = f (Xij, i, j) = Wt · Xij公式(I)在公示(I),中r表示分数(rate), i代表评论者(例如评论者的编号),j代表评论对象(例如评论对象的编号),Xij是第i个评论者对第j个评论对象的评论文本的向量表示,Wt是表示文本Xu对分数的影响的权重向量,其与评论者和/或评论对象相关。于是,公式(I)表示某个评论的分数将是构成这个评论的文字串和每个评价串对应的与评论者和/或评论对象相关的权重的乘积的求和。建立了公式(I)的回归模型后,可以通过训练样本集合来求解其中的参数WT。下面将通过参考图2来示例性地说明回归模型的获取,特别是其中的参数Wt的确定。图2是示出了根据本发明的一个实施例的确定评价回归模型的流程图200。方法200开始于步骤210。在步骤S210中,获取历史评论文本的集合。在根据本发明的实施例中,可以从各个网站,例如博客、购物网站、“ 口碑”网站、社交网络等等,收集包含评论者打分的评论来形成历史评论文本的集合。这样所收集的历史评论文本集合中所包含的评论者和/或评价对象的数量较大,可以形成充足的训练样本来求解该回归模型。下面的表I示出了一个示例历史评论文本集合。表I
权利要求
1.一种对评论文本进行评价的方法,包括 使用回归模型对待评价的评论文本进行评价; 其中,所述评论回归模型是根据由历史评论文本集合结合各个历史评论文本对应的评价在考虑了评论者和/或评论对象的因素下形成的训练样本集合而获得的。
2.根据权利要求I所述的方法,其中,所述历史评论文本集合包含两个以上评论者的评论文本和/或针对两个以上评论对象的评论文本,并且所述历史评论文本集合相应地根据评论者和/或评论对象进行区分,然后结合所述各个历史评论文本对应的评价作为训练样本集合。
3.根据权利要求I所述的方法,其中,所述通过评价回归模型对待评价的评论文本进行评价包括 将待评价的评论文本与所述历史评论文本集合对应的文字串集合进行匹配,以获取相匹配的文字串; 确定待评价的评论文本的评论者和/或评论对象, 根据所述相匹配的文字串生成待评价的评论文本的向量,以及所确定的评论者和/或评论对象,通过所述评价回归模型评价所述待评价的评论文本。
4.根据权利要求3所述的方法,其中,所述历史评论文本集合对应的文字串集合通过以下方法获得; 获取所述历史评论文本集合,对其中的所有历史评论文本进行拆分以获取所述历史评论文本集合对应的文字串集合。
5.根据权利要求2所述的方法,其中,所述评价回归模型通过以下方式获得 使用由所述区分后的历史评论文本集合结合各个历史评论文本对应的评价形成的训练样本集合,对以下回归模型进行训练;r = f(XiJ, i,j) = (W^ffij)1 Xij 其中r为评价,i为评论者的编号,j为评论对象的编号,Xij为第i个评论者对第j个评论对象的评论文本的向量表示,W0为与评论者和/或评论对象无关的权重项,Wij代表与评论者和/或评论对象相关的权重项。
6.根据权利要求5所述的方法,其中对应的张量W分解为一个低维单位张量与多个矩阵的乘积, W ^ IX1UX2VX3P 其中,I是DXDXD的单位张量,D是大于等于I的正整数,U、V和P是分别针对评论者、评论对象和评论文本的因子矩阵,Xk表示张量在第k维上与矩阵相乘。
7.根据权利要求6所述的方法,其中,所述评价回归模型通过以下方式获得 根据回归模型 使用由所述区分后的历史评论文本集合结合各个历史评论文本对应的评价形成的训练样本集合; 其中,
8.根据权利要求7所述的方法,其中,所述回归模型的优化目标为
9.一种对评论文本进行评价的装置,其中,该装置包括 第一获取模块,用于获取待评价的评论文本, 评价模块,用于通过回归模型对待评价的评论文本进行评价; 其中,所述评论回归模型是根据由历史评论文本集合结合各个历史评论文本对应的评价在考虑了评论者和/或评论对象的因素下形成的训练样本集合而获得的。
10.根据权利要求9所述的装置,其中,所述历史评论文本集合包含两个以上评论者的评论文本和/或针对两个以上评论对象的评论文本,并且所述历史评论文本集合相应地根据评论者和/或评论对象进行区分,然后结合所述各个历史评论文本对应的评价作为训练样本集合。
11.根据权利要求9所述的装置,其中,所述评价模块包括 匹配单元,用于将待评价的评论文本与所述历史评论文本对应的文字串集合进行匹配,以获取相匹配的文字串; 确定单元,用于确定待评价的评论文本的评论者和/或评论对象, 输入单元,用于根据所述相匹配的文字串生成的待评价的评论文本的向量,以及所确定的评论者和/或评论对象,通过所述评价回归模型评价所述待评价的评论文本。
12.根据权利要求11所述的装置,还包括 第二获取单元,用于获取所述历史评论文本集合,对其中的所有历史评论文本进行拆分以获取所述历史评论文本集合对应的文字串集合。
13.根据权利要求10所述的装置,还包括 第一训练单元,用于使用由所述区分后的历史评论文本集合结合各个历史评论文本对应的评价形成的训练样本集合,对以下回归模型进行训练;r = f(XiJ; i,j) = (W^ffij.)1 · Xij 其中r为评价,i为评论者的编号,j为评论对象的编号,Xij为第i个评论者对第j个评论对象的评论文本的向量表示,W0为与评论者和/或评论对象无关的权重项,Wij代表与评论者和/或评论对象相关的权重项。
14.根据权利要求13所述的装置,其中对应的张量W分解为一个低维单位张量与多个矩阵的乘积,
15.根据权利要求14所述的装置,其中,所述评价回归模型通过以下方式获得 根据回归模型
16.根据权利要求15所述的装置,其中,所述回归模型的优化目标为 Q(W°,U,V,P) = Yj(rtj -r,)2 +a-\W° \2+β-QU\2+\V\2+\Ρ\2) ·,η 其中,r.j是根据当前得到的模型参数值算出的打分,&是训练样本集中的打分;α,β是事先设定的系数; 根据该优化目标及训练样本,采用梯度下降法对所述回归模型进行求解。
17.一种用于获取评价评论文本的回归模型的方法,包括 获取历史评论文本集合和各个历史评论文本对应的评价, 根据评论者和/或评论对象进行区分对所述历史评论文本集合进行区分, 使用由所述区分的历史评论文本集合结合各个历史评论文本对应的评价形成的训练样本集合来求解所述评价回归模型。
全文摘要
本发明提出了一种对评论文本进行评价的方法和装置。该方法,包括使用回归模型对待评价的评论文本进行评价,其中所述评论回归模型是根据由历史评论文本集合结合各个历史评论文本对应的评价在考虑了评论者和/或评论对象的因素下形成的训练样本集合而获得的。本发明实施例将评论者和/或评论对象的因素考虑进回归模型,以使评价更贴近于实际,能够更加真实、完全地反映评论的极性和强度。
文档编号G06F17/27GK102789449SQ201110131518
公开日2012年11月21日 申请日期2011年5月20日 优先权日2011年5月20日
发明者王大亮, 胡长建, 许洪志, 赵凯 申请人:日电(中国)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1