属性提取和聚类设备及方法

文档序号：6655066阅读：261来源：国知局

专利名称：属性提取和聚类设备及方法
技术领域：
本发明涉及自然语言处理领域，具体涉及一种属性提取和聚类设备及方法。
背景技术：
随着因特网的发展，越来越多的人在网上发布信息，其中包括用户对产品、服务的评论和人们对事件、政策等的看法。这些评论和看法例如可以发表在购物网站、论坛和个人博客上。通过分析这些文本，可以了解人们对于产品、服务、事件、政策等的意见和态度，因此具有很大的价值。具体地，对产品和服务而言，有两个重要需求。第一是提取描述对象和对应的描述，其中描述对象通常是产品和服务的某种属性。例如“这个手机的屏幕很大”，对产品“手机”而言，“屏幕”是描述对象(它是手机的一种属性)，“大”是对“屏幕”的描述。在以下论述中，将描述对象称为“属性”。注意，这是只是为了称呼方便，事实上描述对象可能包含产品和服务的狭义属性之外的内容，例如“这个手机适合商业人士”，描述对象是手机的适用人群，这并不是狭义上的手机的属性(例如屏幕、电池等)。第二是针对属性进行聚类。人们常常用不同的词语描述同一属性，例如“屏幕i‘显示屏” “屏”都是指手机的屏幕。如果系统可以把关于它们的描述分开提取和总结，例如“80 %的用户喜欢这款手机的屏幕，20 %的用户不喜欢。60 %的用户喜欢这款手机的显示屏，40%的用户不喜欢”，则用户感受较差。如果系统可以把它们聚合起来，显示总的统计结果“70%的用户这款手机的屏幕(显示屏、屏)，30%的用户不喜欢”，则用户感受较好。所以，把实质意义相同而词语表述不同的属性进行聚类是很有意义的。参考文献1( “Product Feature Categorization with Multilevel LatentSemantic Association，，,Honglei Guo,Huijia Zhu,Zhili Guo,XiaoXun Zhang,and ZhongSu, CIKM2009)描述了一种属性提取和聚类方法。该方法主要包括以下步骤第一步从半结构化的文本中抽出名词和名词词组，并把它们作为属性。表I示出了半结构化文本的一个例子
优点LCD,良好的触摸屏，较长的电池寿命_缺点图像质量差_
具体评论对我来说，触摸屏是一个卖点。LCD触摸屏又大又好。这个摄像机的电池寿命很长，但是图像的颗粒_感较重___表I-半结构化文本在表I中，“优点”和“缺点”分别是用户对产品的短语描述，而“具体评论”是用户评论的文本描述。因此，该方法首先从“优点”和“缺点”中提取名词片段。具体地，可以根据情感词(例如可以存储在预定义的情感词表中)对“优点”和“缺点”进行分割。例如，“良好的”是一个情感词，它把“良好的触摸屏”分割为“良好的”和“触摸屏”两个部分，然后把以名词结尾的片段保留下来，即“触摸屏”。其次，检查第一步保留的片段是否在“具体评论”中出现，并保留出现的片段。例如对于“较长的电池寿命”，“具体评论”中出现了“电池寿命”，因此保留“电池寿命”。再次，如果先前的片段在“具体评论”中有组合，则也保留该组合。例如“IXD”和“触摸屏”在“具体评论”中有组合，因此也保留“LCD触摸屏”。最后，第一步的执行结果形成如下属性集合{ “LCD”，“触摸屏”，“图像质量”，“电池寿命”，“LCD触摸屏” } 第二步针对属性集合中的每一个属性，根据其在“具体评论”中的上下文形成向量。例如，对于属性“屏幕”在“具体评论”中出现的以下文本“我的新笔记本电脑非常好，因为其LCD屏幕很大很好”，可以形成以下的上下文向量{屏幕，好，新，大，好，LCDj }该向量的形成规则是{属性，属性之前的第一形容词，属性之前的第二形容词，属性之后的第一形容词，属性之后的第二形容词，紧邻属性左边的词，紧邻属性右边的词}再比如有另一条评论“我的旧屏幕很差”，可以形成以下的上下文向量{屏幕，旧，，差，，旧，很}要注意的是，因为不存在属性之前和之后的第二形容词，所在对应位置为空。上述两个向量合并后可形成如下向量{屏眷，{好-1，旧-1}，{新-1}，{大 _1，差 _1}，{好 _1}，{LCD-1,旧-1}，{很-2}}其中，“好-I ”的意思是“好”这个词出现了 I次，而“很_2”的意思是“很”这个词出现了 2次，以此类推。第三步根据上下文向量对属性进行聚类。参考文献I中的方法使用了 LDA模型实现聚类。表2示出了聚类结果的一个例子
权利要求
1.一种用于获得文本中的属性和描述的设备，包括提取单元，用于从文本中提取所有词语；向量生成単元，用于生成针对已提取的词语的上下文向量；聚类单元，用于根据所生成的上下文向量对已提取的词语进行聚类；以及区分単元，用于将已聚类的词语进行区分。
2.根据权利要求I所述的设备，其中，所述区分单元对已聚类的词语中属于同一类的词语按照词性分为多个组，井根据所述多个组中的词语在文本中的前后出现关系对所述多个组中的词语进行区分。
3.根据权利要求2所述的设备，其中，所述区分単元被配置为针对所述多个组中的任意两组i和j，计算第i组的词语在所述文本中出现在第j组的词语之前的次数Nij以及第j组的词语在所述文本中出现在第i组的词语之前的次数Nji ；以及如果Nu > Nu，则第i组的词语为属性，且第j组的词语为描述；如果Nu < Nu，则第j组的词语为属性，且第i组的词语为描述。
4.根据权利要求3所述的设备，其中，所述区分单元还被配置为当某个组i既被区分为属性又被区分为描述时，针对所有的组计算
5.根据权利要求I所述的设备，其中，所述聚类単元包括相似度计算子単元，计算已提取的词语之间的相似度；以及类中心计算子単元，基于计算得到的相似度来计算各个类的类中心，从而对已提取的词语进行聚类。
6.根据权利要求5所述的设备，其中，所述类中心计算子単元计算參数矩阵[r(i，k)]*和[a(i, k) ]n*n, r (i, k)表示点k适合作为点i的类中心的程度，a(i, k)表示点i选择点k作为它的类中心的适合程度，η表示点的总数，并且所述类中心计算子単元选择与r(i，k)和a(i，k)的最大和相对应的点k作为点i的类中心。
7.根据权利要求6所述的设备，其中，所述类中心计算子単元按照迭代的方式计算參数矩阵[r(i，k)]nto和[a(i，k)]_，直到计算结果不再发生变化、或者计算结果变化小于阈值、或者迭代次数达到预设值为止。
8.一种用于获得文本中的属性和描述的方法，包括以下步骤从文本中提取所有词语；生成针对已提取的词语的上下文向量；根据生成的上下文向量对已提取的词语进行聚类；以及将已聚类的词语进行区分。
9.根据权利要求8所述的方法，其中，对已聚类的词语中属于同一类的词语按照词性分为多个组，井根据所述多个组中的词语在文本中的前后出现关系而对所述多个组中的词语进行区分。
10.根据权利要求9所述的方法，其中，针对所述多个组中的任意两组i和j，计算第i组的词语在所述文本中出现在第j组的词语之前的次数Nij以及第j组的词语在所述文本中出现在第i组的词语之前的次数Nji ;以及如果Nu > Nu，则第i组的词语为属性，且第j组的词语为描述；如果Nu < Nu，则第j组的词语为属性，且第i组的词语为描述。
11.根据权利要求10所述的方法，其中，当某个组i既被区分为属性又被区分为描述时，针对所有的组计算和2J1'”'以及如果，则第土组的词语为属性；如果く λ”，则第i组的词语为描述。
12.根据权利要求8所述的方法，其中，所述根据生成的上下文向量对已提取的词语进行聚类的步骤包括计算已提取的词语之间的相似度；以及基于计算得到的相似度来计算各个类的类中心，从而对已提取的词语进行聚类。
13.根据权利要求12所述的方法，其中，计算參数矩阵[r(i，k)]_和[a(i，k)]n<ta，r(i，k)表示点k适合作为点i的类中心的程度，a(i, k)表示点i选择点k作为它的类中心的适合程度，η表示点的总数，并且选择与r(i，k)和a(i，k)的最大和相对应的点k作为点i的类中心。
14.根据权利要求13所述的方法，其中，按照迭代的方式计算參数矩阵[r(i，k)]_和[a(i，k)]_，直到计算结果不再发生变化、或者计算结果变化小于阈值、或者迭代次数达到预设值为止。
全文摘要
本发明提供了一种用于获得文本中的属性和描述的设备，包括提取单元，用于从文本中提取所有词语；向量生成单元，用于生成针对已提取的词语的上下文向量；聚类单元，用于根据所生成的上下文向量对已提取的词语进行聚类；以及区分单元，用于将已聚类的词语进行区分。本发明还提供了一种用于获得文本中的属性和描述的方法。通过本发明，能够从文本格式的评论中提取属性，还能够对各种类别的词语进行聚类并加以区分，从而获得更加精确的聚类结果。
文档编号G06F17/30GK102693245SQ201110077400
公开日2012年9月26日申请日期2011年3月22日优先权日2011年3月22日
发明者王大亮, 胡长建, 许洪志, 赵凯, 邱立坤申请人:日电(中国)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵凯;胡长建;邱立坤;许洪志;王大亮
技术所有人：日电(中国)有限公司
我是此专利的发明人

上一篇：一种用于片上系统的单线调试接口协议的制作方法
上一篇：基于标签的互联网视频广告精准投放方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。