一种基于约束关系的意见目标和情感词联合聚类方法

文档序号:6524455阅读:335来源:国知局
一种基于约束关系的意见目标和情感词联合聚类方法
【专利摘要】本发明属于Web评论文本的意见挖掘【技术领域】,涉及一种基于约束关系的意见目标和情感词联合聚类方法。该方法通过引入意见目标之间的正向和反向约束关系,提供了意见目标之间属于相同特征类或者不同特征类的先验关系,从而在对意见目标集合进行基于特征的聚类过程中,提高意见目标聚类结果的准确率。通过引入情感词之间的正向和反向约束关系,提供了情感词之间关联于相同特征类或者不同特征类的先验关系,从而在对情感词集合按照与评价特征类的关联关系进行聚类的过程中,提高情感词聚类结果的准确率。与传统无约束的意见目标和情感词聚类方法相比,本发明所述方法应归属为有约束的方法。并且在聚类的效果中,准确率提高8.3%,召回率提高7.7%。
【专利说明】一种基于约束关系的意见目标和情感词联合聚类方法
【技术领域】
[0001]本发明属于Web评论文本的意见挖掘【技术领域】,涉及一种基于约束关系的意见目标和情感词联合聚类方法,用于解决互联网上用户生成的主观性评论文本中意见目标和情感词的聚类问题。
【背景技术】
[0002]近年来,随着电子商务的快速发展以及网络购物人数的增加,互联网上用户关于商品的意见评论也越来越丰富。用户可以自由地针对意见目标发表自己的主观情感。例如,在数码相机领域的用户评论“The photo quality of Canon camera is excellent”中,意见目标是“photo quality”,用户情感词是“excellent”。由于用户评论的随意性和表达习惯不同,针对同一意见特征,不同的用户可能会采用不同的表达方式。例如,在相机领域中,“photo”与“image”均用于描述照片特征。此外,同一个表达短语在不同领域中也可能描述不同的意见特征。如电影领域中“picture”代表画面特征,而在手机领域中“picture”则表示图片特征。随着Web上用户评论文本的规模日益增大,抽取的意见目标和情感词数也不断扩大,亟需一种对离散的意见目标集合和情感词集合进行自动归类的方法。本发明提出一种基于约束关系的意见目标和情感词的联合聚类方法,对意见目标集合按照意见特征自动归类,对情感词集合按照与意见特征类的关联进行归类。
[0003]现有的意见目标归类方法主要分为基于无监督学习的方法和基于主题建模的方法。早期的研究主要采用无监督学习方法,核心思想是计算意见目标之间的相似度,采用分类算法对意见目标集合进行自动归类。但是,在计算相似度方面,利用人工构建的词汇语义关系的算法准确率不高,因为其忽略了意见目标相似度的领域依赖性,同时也会产生覆盖率不足的问题。基于领域语料库的方法利用意见目标的上下文信息计算相似度,虽然在一定程度上缓解了意见目标相似度的领域依赖性问题,却面临计算空间的高维度和稀疏性问题。
[0004]基于主题建模的方法通过在评论语料上的统计学习,训练主题生成模型,将生成的主题对应为意见目标类别。然而,这些方法生成的主题粒度较粗,并不能很好地对应细粒度的评价特征类,同时,基于对评论语料统计学习的算法忽略了局部上下文特征。

【发明内容】

[0005]本发明的目的是为了克服现有用户意见目标和情感词聚类方法的不足,提出了一种基于约束关系的意见目标和情感词联合聚类方法。为了克服传统聚类方法缺乏先验知识和不能有效地利用评论对象的上下文关系的问题,通过引入意见目标之间的正反向约束关系,并且充分挖掘意见目标与情感词之间的关联,引入情感词之间的正反向约束关系,对意见目标和情感词进行联合聚类,从而有效地提高了评论文本中意见目标和情感词的聚类效果O
[0006]本发明所采用的技术方案如下:[0007]首先对意见目标的约束关系进行定义。
[0008]意见目标的正向约束关系:如果两个意见目标之间存在共同的名词或者名词短语,则定义两者之间存在意见目标的正向约束关系。
[0009]意见目标的反向约束关系:在同一个评论文本单元中,如果意见目标之间存在句子级别上的共现关系,或者意见目标之间具有相反的评价意见倾向,则定义它们之间存在意见目标的反向约束关系。
[0010]其次对情感词的约束关系进行定义。
[0011]已知和&/分别表示与情感词Oi与%相关联的的意见目标集合,定义F0i与 之间的重合度Overlap为:
【权利要求】
1.一种基于约束关系的意见目标和情感词联合聚类方法,其特征在于, 首先对意见目标的约束关系进行定义: 意见目标的正向约束关系:如果两个意见目标之间存在共同的名词或者名词短语,则定义两者之间存在意见目标的正向约束关系; 意见目标的反向约束关系:在同一个评论文本单元中,如果意见目标之间存在句子级别上的共现关系,或者意见目标之间具有相反的评价意见倾向,则定义它们之间存在意见目标的反向约束关系; 其次对情感词的约束关系进行定义; 已知和l7Oi分别表示与情感词Oi与%相关联的的意见目标集合,定义Fm与间的重合度Overlap为:
2.根据权利要求1所述的一种基于约束关系的意见目标和情感词联合聚类方法,其特征在于,步骤I中给定用户的评论文本集合,是将集合的每一个句子作为一个抽取目标,抽取句子中出现的意见目标词以及对应的情感词;同时,统计出每一个情感词在用户评论文本集合中所修饰和关联的所有意见目标;最后,对抽取的结果进行数据清理,包含重复词过滤,拼写检查和词干化。
3.根据权利要求1所述的一种基于约束关系的意见目标和情感词联合聚类方法,其特征在于,步骤5中意见目标和情感词之间的关联矩阵的构造可以采用如下方法: (1)意见目标与情感词在句子级别的共现关联矩阵构建:以每条评论句为单位,采用互信息公式PMI计算意见目标集合F和情感词集合O之间的句子共现关联矩阵?:
4.根据权利要求1所述的一种基于约束关系的意见目标和情感词联合聚类方法,其特征在于,步骤6中基于约束的联合聚类求解可以采用如下方法: 应用残值平方和(sum-squared residues)最小化问题的求解策略来进行约束的联合聚类求解;已知意见目标和情感词关联矩阵E,其中行维度表示意见目标,列维度表示情感词,通过一个通用的约束联合聚类求解框架,在初始化行聚类划分矩阵和列聚类划分矩阵之后,迭代地优化行聚类和列聚类直至收敛; 在元素的划分中,定义集合I包含属于同一个意见目标类的行结点,集合J包含属于同一个情感词类的列结点,则I和J唯一确定子矩阵Eu e E,称为联合类(co-cluster);在每次迭代过程中,在满足先验约束条件(意见目标的约束关系矩阵和情感词的约束关系矩阵)的前提下,将行(列)结点划分到距离最近的行(列)类中,使得目标函数值逐步递减;目标函数如下所示:
【文档编号】G06F17/30GK103646097SQ201310701519
【公开日】2014年3月19日 申请日期:2013年12月18日 优先权日:2013年12月18日
【发明者】牛振东, 黄胜, 刘沙, 陈杰 申请人:北京理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1