产品特征评论挖掘方法及系统的制作方法

文档序号:6379739阅读:177来源:国知局
专利名称:产品特征评论挖掘方法及系统的制作方法
技术领域
本发明涉及计算机技术领域,特别涉及一种产品特征评论挖掘方法及系统。
背景技术
随着互联网的不断普及和web2. O的飞速发展,互联网所传达的关于社会事件、热点人物以及各类产品的评论信息受到了各方的关注,已成为人们获取信息的一个重要渠道,也往往在人们的决策中占据了很大的分·量。从信息传播的特点上,互联网具有交互性,能够快速有效地传播网民观点,从而形成一定的社会舆情导向,因而它在信息的传播速度、信息的实时有效性、社会影响力以及舆论导向等方面与传统媒体相比有很大的优越性。用户现在已不仅仅是充当一个简单的信息浏览者的角色,更多的时候,用户也是一个信息的发布者。论坛、博客、评论网站、邮件、微博等都给Web 2. O的用户提供了一个发布信息,表达自己观点场所。于是,互联网上开始产生了大量的含有主观色彩的评论信息,这些信息可以是用户针对某一种产品,某一些服务的看法或者使用心得,也可以是用户针对某个社会事件所持有的观点等。目前普遍采用的方法是直接从评论网站等渠道获取评论,直接提取出包含产品特征短语的评论进行分析,并罗列具有代表性的评论供用户查询。传统方法存在的缺点包括(I)对对象特征的抽取方式单一,降低了特征抽取的准确性。(2)指示罗列评论,因此获得信息有限。

发明内容
本发明的目的旨在至少解决上述的技术缺陷之一。为达到上述目的,本发明一方面的实施例提出一种产品特征评论挖掘方法,包括以下步骤S1 :通过网络爬虫从网站获取评论,其中,所述评论为显式评论或隐式评论中的一种;S2 :从所述显式评论提取显式特征;S3 :通过所述显式特征或所述显式评论在所述隐式评论中提取隐式特征;S4 :将描述相同特征的评论进行情感化分类;以及S5 :从所述情感分类后的评论中提取多个评论生成评论摘要。根据本发明实施例的方法,通过在网站上获得的海量评论作为数据源,因此提高了数据的准确性,同时对评论进行情感分类为用户提供了直观的数据,方便了用户查询。在本发明的一个实施例中,所述方法还包括S6 :通过产品特征查看所述评论摘要。在本发明的一个实施例中,所述步骤S2具体包括S21 :从所述显式评论中提取频繁出现的名词或者名词短语;S22 :对所述名词或者名词短语进行处理得到概念集合;以及
S23:将所述概念集合进行聚类得到概念聚类集合,即所述显式特征。在本发明的一个实施例中,所述步骤S3具体包括S31 :根据显式评论并通过搭配提取方法生成关联规则,其中,所述关联规则由词语和所述显式特征或频繁项和所述显式特征组成;以及S32 :根据所述关联规则在所述隐式评论提取所述隐式特征。在本发明的一个实施例中,所述步骤S3具体包括S310 :根据所述显式评论和显式特征选择属性生成训练模型;S320 :根据所述训练模型的训练生成分类器;S330 :获取所述隐式评论;以及S340 :通过所述分类器对所述隐式评论进行分析确定所述隐式特征。在本发明的一个实施例中,所述步骤S4具体包括S41 :从所述评论中提取描述相同特征的评论;以及S42 :通过词典对描述相同特征的所述评论进行情感化分类。为达到上述目的,本发明的实施例另一方面提出一种产品特征评论挖掘系统,包括获取模块,用于通过网络爬虫从网站获取评论,其中,所述评论为显式评论或隐式评论中的一种;第一提取模块,用于从所述显式评论提取显式特征;第二提取模块,用于通过所述显式特征或所述显式评论在所述隐式评论中提取隐式特征;情感分类模块,用于将描述相同特征的评论进行情感化分类;以及摘要生成模块,用于从所述情感分类后的评论中提取多个评论生成评论摘要。·
根据本发明实施例的系统,通过在网站上获得的海量评论作为数据源,因此提高了数据的准确性,同时对评论进行情感分类为用户提供了直观的数据,方便了用户查询。本发明的一个实施例中,所述系统还包括查看模块,用于通过产品特征查看所述评论摘要。本发明的一个实施例中,所述第一提取模块具体包括第一提取单元,用于从所述显式评论中提取频繁出现的名词或者名词短语;处理单元,用于对所述名词或者名词短语进行处理得到概念集合;以及聚类单元,用于将所述概念集合进行聚类得到概念聚类集合,即所述显式特征。本发明的一个实施例中,所述第二提取模块具体包括第一生成单元,用于根据显式评论并通过搭配提取方法生成关联规则,其中,所述关联规则由词语和所述显式特征或频繁项和所述显式特征组成;以及第二提取单元,用于根据所述关联规则在所述隐式评论提取所述隐式特征。本发明的一个实施例中,所述第二提取模块具体包括第二生成单元,用于根据所述显式评论和显式特征选择属性生成训练模型;第三生成单元,用于根据所述训练模型的训练生成分类器;获取单元,用于获取所述隐式评论;以及确定单元,用于通过所述分类器对所述隐式评论进行分析确定所述隐式特征。本发明的一个实施例中,所述情感分类模块具体包括第三提取单元,用于从所述评论中提取描述相同特征的评论;以及情感分类单元,用于通过词典对描述相同特征的所述评论进行情感化分类。本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。


本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中图I为根据本发明一个实施例的产品特征评论挖掘方法的流程图;图2为根据本发明一个实施例的通过训练分类模型得到隐式特征的流程图3为根据本发明另一个实施例的产品特征评论挖掘方法的流程图;图4为根据本发明一个实施例的产品特征评论挖掘系统的框架图;图5为根据本发明一个实施例的第一提取模块的框架图;图6为根据本发明一个实施例的第二提取模块中通过关联规则挖掘提取隐式特征的框架图;图7为根据本发明一个实施例的第二提取模块中通过训练分类模型提取隐式特 征的框架图;以及图8为根据本发明另一个实施例的产品特征评论挖掘系统的框架图。
具体实施例方式下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。在本发明的描述中,需要理解的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。图I为本发明实施例的产品特征评论挖掘方法的流程图。如图I所示,根据本发明实施例的产品特征评论挖掘方法,包括以下步骤步骤S101,通过网络爬虫从网站获取评论,其中,评论为显式评论或隐式评论中的一种。具体地,从互联网上获取大量的针对某些特定产品的用户评论,以便进行观点挖掘与分析。通过网络爬虫从论坛、博客、京东、邮件、微博等网站或者在专门的评论网站上爬取评论,并保存到相应数据库。抓取的数据包括产品信息、评论具体信息、某一些服务的看法或者使用心得,也可以是用户针对某个社会事件所持有的观点等。在本发明的一个实施例中,网络爬虫会定期根据所的时间抓取每个产品新增的评论以保证数据的完整性与实时性。步骤S102,从显式评论提取显式特征。具体地,从显式评论中提取频繁出现的名词或者名词短语。由于本发明主要关注与评论对象相关的热点概念,因此这类名词性短语具有规律性特征。根据这些特征,可定义所提取的名词性短语的语法形式,例如,形容词+名词,名词+名词,代词/动词/形容词/名词+ “的”+名词,名词+ “的”+动词等。再根据这些语法形式识别和划分成名词或名词短语,进而提取。对名词或者名词短语进行处理得到概念集合。在本发明的一个实施例中,经过上述名词或名词短语的提取,得到热点概念集合最原始的候选集合。从评论最原始的候选集合中提取评论者最为关注、评论最多的名词或者名词短语,作为热点概念候选集。剔除频繁出现的名词或名词短语中与评论毫无意义的频繁项。剔除后分别对频繁出现的名词的单字单词、多字单词(至少含有两个汉字的中文单词)和名词性短语进行剪枝,得到概念集合。将概念集合进行聚类得到概念聚类集合,即显式特征。经过概念提取后,从原始文本评论信息中获取了与评论对象最为相关的概念集合。这些概念中可能有多个概念都指代评论对象的同一属性、特征或者相关概念,将这些相关概念进行聚类得到概念聚类集合,即显式特征。步骤S103,通过显式特征或显式评论在隐式评论中提取隐式特征。具体地,可以通过两种方式抽取评论所描述的隐式特征。一种是通过关联规则挖掘提取隐式特征,另一种是通过训练分类模型对其他文本进行分类进而提取隐式特征。通过关联规则挖掘抽取隐式特征,非常类似于自然语言处理领域的搭配提取,因为此时的输入数据集已经是和某个特征相关的所有显式评论。首先根据显式评论并通过搭配提取方法生成关联规则,其中,关联规则由词语和显式特征或频繁项和显式特征组成。在本发明的一个实施例中,常用的搭配提取方法包括频率,互信息,频率*互信息,t检验,X 2 (chi-square,卡方)检验等。最简单的搭配的方法是计算某个搭配出现的频率,即频率。如果两个词经常同时出现,那么它们有可能就是一个常用的搭配。互信息是在信息论中用来衡量有趣搭配的一个指标。两个词语之间的互信息通过以下公式计算
权利要求
1.一种产品特征评论挖掘方法,其特征在于,包括以下步骤51:通过网络爬虫从网站获取评论,其中,所述评论为显式评论或隐式评论中的一种; 52:从所述显式评论提取显式特征; 53:通过所述显式特征或所述显式评论在所述隐式评论中提取隐式特征; 54:将描述相同特征的评论进行情感化分类;以及 55:从所述情感分类后的评论中提取多个评论生成评论摘要。
2.根据权利要求I所述的产品特征评论挖掘方法,其特征在于,还包括 56:通过产品特征查看所述评论摘要。
3.根据权利要求I所述的产品特征评论挖掘方法,其特征在于,所述步骤S2进一步包括 521:从所述显式评论中提取频繁出现的名词或者名词短语; 522:对所述名词或者名词短语进行处理得到概念集合;以及 523:将所述概念集合进行聚类得到概念聚类集合,即所述显式特征。
4.根据权利要求I所述的产品特征评论挖掘方法,其特征在于,所述步骤S3具体包括 531:根据显式评论并通过搭配提取方法生成关联规则,其中,所述关联规则由词语和所述显式特征或频繁项和所述显式特征组成;以及 532:根据所述关联规则在所述隐式评论提取所述隐式特征。
5.根据权利要求I所述的产品特征评论挖掘方法,其特征在于,所述步骤S3具体包括 S310 :根据所述显式评论和显式特征选择属性生成训练模型; S320 :根据所述训练模型的训练生成分类器; S330 :获取所述隐式评论;以及 S340 :通过所述分类器对所述隐式评论进行分析确定所述隐式特征。
6.根据权利要求I所述的产品特征评论挖掘方法,其特征在于,所述步骤S4具体包括 541:从所述评论中提取描述相同特征的评论;以及 542:通过词典对描述相同特征的所述评论进行情感化分类。
7.一种产品特征评论挖掘系统,其特征在于,包括 获取模块,用于通过网络爬虫从网站获取评论,其中,所述评论为显式评论或隐式评论中的一种; 第一提取模块,用于从所述显式评论提取显式特征; 第二提取模块,用于通过所述显式特征或所述显式评论在所述隐式评论中提取隐式特征; 情感分类模块,用于将描述相同特征的评论进行情感化分类;以及 摘要生成模块,用于从所述情感分类后的评论中提取多个评论生成评论摘要。
8.根据权利要求7所述的产品特征评论挖掘系统,其特征在于,还包括 查看模块,用于通过产品特征查看所述评论摘要。
9.根据权利要求8所述的产品特征评论挖掘系统,其特征在于,所述第一提取模块具体包括 第一提取单元,用于从所述显式评论中提取频繁出现的名词或者名词短语; 处理单元,用于对所述名词或者名词短语进行处理得到概念集合;以及 聚类单元,用于将所述概念集合进行聚类得到概念聚类集合,即所述显式特征。
10.根据权利要求7所述的产品特征评论挖掘系统,其特征在于,所述第二提取模块具体包括 第一生成单元,用于根据显式评论并通过搭配提取方法生成关联规则,其中,所述关联规则由词语和所述显式特征或频繁项和所述显式特征组成;以及 第二提取单元,用于根据所述关联规则在所述隐式评论提取所述隐式特征。
11.根据权利要求7所述的一种基于自标定技术的多目立体视频采集系统,其特征在于,所述第二提取模块具体包括 第二生成单元,用于根据所述显式评论和显式特征选择属性生成训练模型; 第三生成单元,用于根据所述训练模型的训练生成分类器; 获取单元,用于获取所述隐式评论;以及 确定单元,用于通过所述分类器对所述隐式评论进行分析确定所述隐式特征。
12.根据权利要求7所述的一种基于自标定技术的多目立体视频采集系统,其特征在于,所述情感分类模块具体包括 第三提取单元,用于从所述评论中提取描述相同特征的评论;以及 情感分类单元,用于通过词典对描述相同特征的所述评论进行情感化分类。
全文摘要
本发明提出一种产品特征评论挖掘方法及系统。其中,方法包括以下步骤通过网络爬虫从网站获取评论,其中,评论为显式评论或隐式评论中的一种;从显式评论提取显式特征;通过显式特征或显式评论在隐式评论中提取隐式特征;将描述相同特征的评论进行情感化分类;以及从情感分类后的评论中提取多个评论生成评论摘要。根据本发明实施例的方法,通过在网站上获得的海量评论作为数据源,因此提高了数据的准确性,同时对评论进行情感分类为用户提供了直观的数据,方便了用户查询。
文档编号G06F17/30GK102945268SQ20121041385
公开日2013年2月27日 申请日期2012年10月25日 优先权日2012年10月25日
发明者杨睿尘 申请人:北京腾逸科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1