识别用户评论的实体特征方法

文档序号:6617126阅读:366来源:国知局
专利名称:识别用户评论的实体特征方法
技术领域
本发明属于计算机技术领域,涉及数据挖掘和自然语言处理,可用于对用户评论的主要实体特征进行识别。
背景技术
随着信息技术的飞速发展,Internet作为数字化的第四类媒体已成了当今全球最大的传播媒体。人们利用网络进行远程学习,使用网络了解社会时事,同样也通过网络在某个专题中就某个观点发表不同的看法,例如反馈对网络教学的建议或时事的看法。越来越多的网络舆论热点显示,互联网已经成为中国网民社会参与的重要渠道。 中国互联网络信息中心日前发布的数据显示,有56%的网民经常在网上发表评论,对于一件热门的实体,评论的数目可能是成千上万,所以仅以容量而言,即使版面最多的报纸在Internet面前也有河流入海之感。这些评论中包含用户对实体的性能或功能等方面特征持有肯定还是否定的态度,例如某位使用者针对某款手机手机电池后盖很不合身,有明显的一条缝,操作键不灵敏,手机电池没得也太快了,额外买的电池换着用都感觉有点少,但是手机外观很漂亮。这使得有购买意愿的顾客通过阅读产品评论来决定是否购买变得非常困难。产品评论挖掘需要了解用户对产品的哪些功能、性能进行了评价,因此需要从评论语句中提取表达了用户评价的对象,即实体特征。实体特征识别是数据挖掘领域的重要任务之一,直接影响着主题挖掘的性能,因此如何从大量评论数据中发现有意义的实体特征是一个具有挑战性的问题,具有重要的理论意义和实用价值。目前典型的实体特征识别分为人工定义和自动识别两类。人工定义实体特征的方法需要每一个领域的实体都有该领域的专家参与,因此不具有移植性。同时,人工定义实体特征不具备随产品新功能的添加而进行实时更新的功能。自动识别主要使用词性标注、句法分析、文本模式等自然语言技术对实体评论中的语句进行分析,从中自动发现实体特征,有较好的通用性和可移植性,但缺点是正确率不高,且当前的绝大部分自动提取技术都是针对英文用户评论展开的研究,对于识别中文网络评论实体特征的方法还很缺乏。

发明内容
本发明的目的在于针对上述已有技术的不足,提出了一种识别用户评论的实体特征方法和系统,以提高识别实体特征的准确性,使实体特征识别系统更便利和人性化,满足需要识别中文网络评论实体特征的系统用户的现实要求。实现本发明的技术思路是选取适量的用户评论作为训练集,通过基于关联规则分类方法CBA识别出频繁项作为实体特征候选集合,利用依存关系和可靠性判断来调整候选实体特征集合,实现用户评论实体特征的识别,具体步骤包括如下(I)选取评论数据作为训练集运用中国科学院计算机所软件室的中文分词工具ICTCLAS进行中文分词,即将一条评论数据切分成一个一个单独的词,然后对分词后的数据进行二级词性标注作为评论语料,二级词性标注包括形容词、动词、专有名词和情感词;
(2)基于关联规则分类方法CBA提取频繁项集2a)利用步骤(I)阶段的评论语料创建实体文件,即将一条评论中的名词或者基本名词短语作为一个实体单位,并定义为项集ti;用所有训练集中的项集\构成一个事务文件T ;2b)利用关联规则CBA算法,找出实体文件中出现频繁的项集,即将最小支持度S大于1%的项集作为频繁项集,标记为F1 ;2bi)通过关联规则CBA算法确定找出实体文件T所有形如X — Y的蕴含表达式集合M,其中X、Y均为项集\的子集,且X、Y互不相交;2b2)计算集合M中X — Y蕴含表达式的支持度s (X — Y):
权利要求
1.一种识别用户评论的实体特征方法,包括如下步骤 (1)选取评论数据作为训练集运用中国科学院计算机所软件室的中文分词工具ICTCLAS进行中文分词,即将一条评论数据切分成一个一个单独的词,然后对分词后的数据进行二级词性标注作为评论语料,二级词性标注包括形容词、动词、专有名词,和情感词; (2)基于关联规则分类方法CBA提取频繁项集 2a)利用步骤(I)阶段的评论语料创建实体文件,即将一条评论中的名词或者基本名词短语作为一个实体单位,并定义为项集ti;用所有训练集中的项集ti构成一个实体文件T ; 2b)利用关联规则CBA算法,找出文件T中出现频繁的项集,即将最小支持度s大于1%的项集作为频繁项集,标记为F1 ; (3)调整频繁项集 3a)对频繁项集F1,按照依存关系对实体特征进行修正,形成候选实体特征集合F2 ; 3b)对候选实体特征集合F2结合情感词进行可靠性判断,若没有任何一个情感词在用户评论中与F2中的实体特征相匹配,则此实体特征就是不可靠的实体特征,将其去除后形成实体特征集合F3 ; 3c)计算实体特征集合F3中的任意两个实体特征的词汇语义相似度sim(A, B) vim( A /y) = log/K⑶心<万)) ' log p( dc.scrip/ion{A, //)), 其中A和B表示F2中的任意两个实体特征,common (A, B)表示两个实体特征A和B的共性,log P (common(A, B))表示两个实体特征A、B共性所需要的信息量大小,logP (description(A, B))表示完整的描述A、B所需要的信息量大小; 3d)合并近义的实体特征 将实体特征集合F3中的词汇语义相似度sim(A,B)与实体特征间相似度阈值m进行比较,判断两个实体特征是否合并,若sim(A,B) Sm,则把这两个实体特征合并,反之不进行合并,得到最终的实体特征邻接集合F4,m值设定为O. 5 ; (4)当用户评论的数量每增加η条时,将新增加的评论作为训练集,重复步骤(I)到(3),添加新的实体特征到实体特征邻接集合F4中,η值设定为1000 ; (5)从实体特征邻接集合F4中筛选出有价值的用户评论,避免用户阅读大量的无价值信息,实现用户对实体某特征的针对性查找阅读,所述的有价值的用户评论是指该用户评论包含实体特征的数目Value ^ 3的用户评论。
2.根据权利要求I所述的方法,其中步骤2b)所述的利用关联规则CBA算法,找出实体文件中出现的频繁项集,按如下步骤进行 2a)通过关联规则CBA算法确定找出实体文件T所有形如X — Y的蕴含表达式集合M,其中X、Y均为项集\的子集,且X、Y互不相交; 2b)计算集合M中X — Y蕴含表达式的支持度s (X — Y): N 其中U Y是X和Y的并集( 表示项集\包含X和Y的并集,符号I {/,./,/ G 7} i表示集合中元素的个数,N为实体文件中项集的总个数; 2c)将s (X — Y) ^ O. Ol的所有X、Y集合的实体特征进行合并,构成频繁项集Fl。
3.根据权利要求I所述的方法,其中步骤3a)所述的按照依存关系对实体特征进行修正,是指按照修饰、并列、动宾这三种依存关系对实体特征进行细化。
若实体特征与邻接的词形成上诉三种依存关系中的一种,则这个词就可以与此实体特征进行连接,将此实体特征修正成新的实体特征。
4.根据权利要求I所述的方法,其中步骤(5)所述的用户对实体某特征的针对性查找阅读,是指用户指定某个实体特征,阅读该实体特征相关的评论,如用户可在待机时间、续航时间、续航、续航能力、待机、电池、电容、耗电量、电量和用电量这些实体特征中,通过对任意一个实体特征的筛选,阅读此实体特征对应的用户评论,从而查找出待机时间长的手机。
全文摘要
本发明公开一种识别用户评论的实体特征方法,主要解决现有实体特征自动提取技术在中文用户评论上正确率不高的问题。其实现步骤是抽取适量的评论作为训练集,对训练集进行二级词性标注;基于关联规则分类方法CBA挖掘出频繁项集;对频繁项集中的实体特征的按照依存关系进行修正形成候选实体特征集合,然后实施可靠性判断,去除不可靠的实体特征,最后通过词汇语义相似度计算,合并近义的实体特征,形成实体特征邻接集合,从实体特征邻接集合筛选出有价值的用户评论,避免用户阅读大量的无价值信息,实现用户对某实体特征的针对性查找阅读。本发明适用于中文网络评论实体特征识别,准确度较高,具有可移植性,结构简单便于实现。
文档编号G06F17/27GK102968408SQ20121048067
公开日2013年3月13日 申请日期2012年11月23日 优先权日2012年11月23日
发明者黄健斌, 康剑梅, 慕鹏, 赵贝贝, 耿霄, 孙鹤立 申请人:西安电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1