属性提取和聚类设备及方法

文档序号:6655066阅读:261来源:国知局
专利名称:属性提取和聚类设备及方法
技术领域
本发明涉及自然语言处理领域,具体涉及一种属性提取和聚类设备及方法。
背景技术
随着因特网的发展,越来越多的人在网上发布信息,其中包括用户对产品、服务的评论和人们对事件、政策等的看法。这些评论和看法例如可以发表在购物网站、论坛和个人博客上。通过分析这些文本,可以了解人们对于产品、服务、事件、政策等的意见和态度,因此具有很大的价值。具体地,对产品和服务而言,有两个重要需求。第一是提取描述对象和对应的描述,其中描述对象通常是产品和服务的某种属性。例如“这个手机的屏幕很大”,对产品“手机”而言,“屏幕”是描述对象(它是手机的一种属性),“大”是对“屏幕”的描述。在以下论述中,将描述对象称为“属性”。注意,这是只是为了称呼方便,事实上描述对象可能包含 产品和服务的狭义属性之外的内容,例如“这个手机适合商业人士”,描述对象是手机的适用人群,这并不是狭义上的手机的属性(例如屏幕、电池等)。第二是针对属性进行聚类。人们常常用不同的词语描述同一属性,例如“屏幕i‘显示屏” “屏”都是指手机的屏幕。如果系统可以把关于它们的描述分开提取和总结,例如“80 %的用户喜欢这款手机的屏幕,20 %的用户不喜欢。60 %的用户喜欢这款手机的显示屏,40%的用户不喜欢”,则用户感受较差。如果系统可以把它们聚合起来,显示总的统计结果“70%的用户这款手机的屏幕(显示屏、屏),30%的用户不喜欢”,则用户感受较好。所以,把实质意义相同而词语表述不同的属性进行聚类是很有意义的。参考文献1( “Product Feature Categorization with Multilevel LatentSemantic Association,,,Honglei Guo,Huijia Zhu,Zhili Guo,XiaoXun Zhang,and ZhongSu, CIKM2009)描述了一种属性提取和聚类方法。该方法主要包括以下步骤第一步从半结构化的文本中抽出名词和名词词组,并把它们作为属性。表I示出了半结构化文本的一个例子
优点LCD,良好的触摸屏,较长的电池寿命_缺点图像质量差_
具体评论对我来说,触摸屏是一个卖点。LCD触摸屏又大又好。这个摄像机的电池寿命很长,但是图像的颗粒_感较重___表I-半结构化文本在表I中,“优点”和“缺点”分别是用户对产品的短语描述,而“具体评论”是用户评论的文本描述。因此,该方法首先从“优点”和“缺点”中提取名词片段。具体地,可以根据情感词(例如可以存储在预定义的情感词表中)对“优点”和“缺点”进行分割。例如,“良好的”是一个情感词,它把“良好的触摸屏”分割为“良好的”和“触摸屏”两个部分,然后把以名词结尾的片段保留下来,即“触摸屏”。其次,检查第一步保留的片段是否在“具体评论”中出现,并保留出现的片段。例如对于“较长的电池寿命”,“具体评论”中出现了“电池寿命”,因此保留“电池寿命”。再次,如果先前的片段在“具体评论”中有组合,则也保留该组合。例如“IXD”和“触摸屏”在“具体评论”中有组合,因此也保留“LCD触摸屏”。最后,第一步的执行结果形成如下属性集合{ “LCD”,“触摸屏”,“图像质量”,“电池寿命”,“LCD触摸屏” } 第二步针对属性集合中的每一个属性,根据其在“具体评论”中的上下文形成向量。例如,对于属性“屏幕”在“具体评论”中出现的以下文本“我的新笔记本电脑非常好,因为其LCD屏幕很大很好”,可以形成以下的上下文向量{屏幕,好,新,大,好,LCDj }该向量的形成规则是{属性,属性之前的第一形容词,属性之前的第二形容词,属性之后的第一形容词,属性之后的第二形容词,紧邻属性左边的词,紧邻属性右边的词}再比如有另一条评论“我的旧屏幕很差”,可以形成以下的上下文向量{屏幕,旧,,差,,旧,很}要注意的是,因为不存在属性之前和之后的第二形容词,所在对应位置为空。上述两个向量合并后可形成如下向量{屏眷,{好-1,旧-1},{新-1},{大 _1,差 _1},{好 _1},{LCD-1,旧-1},{很-2}}其中,“好-I ”的意思是“好”这个词出现了 I次,而“很_2”的意思是“很”这个词出现了 2次,以此类推。第三步根据上下文向量对属性进行聚类。参考文献I中的方法使用了 LDA模型实现聚类。表2示出了聚类结果的一个例子
权利要求
1.一种用于获得文本中的属性和描述的设备,包括 提取单元,用于从文本中提取所有词语; 向量生成単元,用于生成针对已提取的词语的上下文向量; 聚类单元,用于根据所生成的上下文向量对已提取的词语进行聚类;以及 区分単元,用于将已聚类的词语进行区分。
2.根据权利要求I所述的设备,其中,所述区分单元对已聚类的词语中属于同一类的词语按照词性分为多个组,井根据所述多个组中的词语在文本中的前后出现关系对所述多个组中的词语进行区分。
3.根据权利要求2所述的设备,其中,所述区分単元被配置为 针对所述多个组中的任意两组i和j,计算第i组的词语在所述文本中出现在第j组的词语之前的次数Nij以及第j组的词语在所述文本中出现在第i组的词语之前的次数Nji ;以及 如果Nu > Nu,则第i组的词语为属性,且第j组的词语为描述; 如果Nu < Nu,则第j组的词语为属性,且第i组的词语为描述。
4.根据权利要求3所述的设备,其中,所述区分单元还被配置为 当某个组i既被区分为属性又被区分为描述时,针对所有的组计算
5.根据权利要求I所述的设备,其中,所述聚类単元包括 相似度计算子単元,计算已提取的词语之间的相似度;以及 类中心计算子単元,基于计算得到的相似度来计算各个类的类中心,从而对已提取的词语进行聚类。
6.根据权利要求5所述的设备,其中,所述类中心计算子単元计算參数矩阵[r(i,k)]*和[a(i, k) ]n*n, r (i, k)表示点k适合作为点i的类中心的程度,a(i, k)表示点i选择点k作为它的类中心的适合程度,η表示点的总数,并且所述类中心计算子単元选择与r(i,k)和a(i,k)的最大和相对应的点k作为点i的类中心。
7.根据权利要求6所述的设备,其中,所述类中心计算子単元按照迭代的方式计算參数矩阵[r(i,k)]nto和[a(i,k)]_,直到计算结果不再发生变化、或者计算结果变化小于阈值、或者迭代次数达到预设值为止。
8.一种用于获得文本中的属性和描述的方法,包括以下步骤 从文本中提取所有词语; 生成针对已提取的词语的上下文向量; 根据生成的上下文向量对已提取的词语进行聚类;以及 将已聚类的词语进行区分。
9.根据权利要求8所述的方法,其中,对已聚类的词语中属于同一类的词语按照词性分为多个组,井根据所述多个组中的词语在文本中的前后出现关系而对所述多个组中的词语进行区分。
10.根据权利要求9所述的方法,其中,针对所述多个组中的任意两组i和j,计算第i组的词语在所述文本中出现在第j组的词语之前的次数Nij以及第j组的词语在所述文本中出现在第i组的词语之前的次数Nji ;以及 如果Nu > Nu,则第i组的词语为属性,且第j组的词语为描述; 如果Nu < Nu,则第j组的词语为属性,且第i组的词语为描述。
11.根据权利要求10所述的方法,其中, 当某个组i既被区分为属性又被区分为描述时,针对所有的组计算和2J1'”'以及 如果,则第土组的词语为属性; 如果く λ”,则第i组的词语为描述。
12.根据权利要求8所述的方法,其中,所述根据生成的上下文向量对已提取的词语进行聚类的步骤包括 计算已提取的词语之间的相似度;以及 基于计算得到的相似度来计算各个类的类中心,从而对已提取的词语进行聚类。
13.根据权利要求12所述的方法,其中,计算參数矩阵[r(i,k)]_和[a(i,k)]n<ta,r(i,k)表示点k适合作为点i的类中心的程度,a(i, k)表示点i选择点k作为它的类中心的适合程度,η表示点的总数,并且选择与r(i,k)和a(i,k)的最大和相对应的点k作为点i的类中心。
14.根据权利要求13所述的方法,其中,按照迭代的方式计算參数矩阵[r(i,k)]_和[a(i,k)]_,直到计算结果不再发生变化、或者计算结果变化小于阈值、或者迭代次数达到预设值为止。
全文摘要
本发明提供了一种用于获得文本中的属性和描述的设备,包括提取单元,用于从文本中提取所有词语;向量生成单元,用于生成针对已提取的词语的上下文向量;聚类单元,用于根据所生成的上下文向量对已提取的词语进行聚类;以及区分单元,用于将已聚类的词语进行区分。本发明还提供了一种用于获得文本中的属性和描述的方法。通过本发明,能够从文本格式的评论中提取属性,还能够对各种类别的词语进行聚类并加以区分,从而获得更加精确的聚类结果。
文档编号G06F17/30GK102693245SQ201110077400
公开日2012年9月26日 申请日期2011年3月22日 优先权日2011年3月22日
发明者王大亮, 胡长建, 许洪志, 赵凯, 邱立坤 申请人:日电(中国)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1