本发明涉及一种基于大数据观点挖掘的产品特征提取方法,以帮助生产商和服务商有针对性地改进产品性能和指导用户对产品的各个性能有比较全面的了解。
背景技术:
电子商务的蓬勃发展,激发了网络购物的热潮。网络评论不仅作为反馈机制帮助生产者和销售商提升产品性能,而且有效帮助客户做出合理的决策,然而评论信息的迅速增长,迫切需要借助一定的技术手段来使这一过程变得更为准确而便捷。网络上现有的星级评定已经不足以帮助生产者、销售者和客户清晰定位产品的优势所在和劣势所在。目前,基于产品特征进行观点挖掘已经引起人们的广泛关注。产品特征指的是产品的部件,属性,以及性能等对象。
产品特征提取的方式有两种,人工定义和自动提取。kobayashin等人工定义了汽车的特征词,zhuangl等人工定义了电影的特征词,liub等采用关联规则,利用apriori算法获得频繁项集的方法自动获取产品特征候选集(名词或者名词短语),李实等在中文语料中,采用基于apriori算法的非监督型产品特征挖掘算法,实现产品特征的信息挖掘,somprasertsrig等根据句法分析,采用特征词与情感词的6种不同关系获取产品特征,weicp等采用语义学方法利用情感词对特征词做剪枝处理。由于人工定义具有领域局限性,不同领域需要不同的领域专家来确定该领域的特征词,且移植性较差。
技术实现要素:
基于上述问题,本发明目的在于提供一种基于大数据观点挖掘的产品特征提取方法,以帮助生产商和服务商有针对性地改进产品性能和指导用户对产品的各个性能有比较全面的了解。
针对以上问题,提供了如下技术方案:一种基于大数据观点挖掘的产品特征提取方法,其特征在于包括以下步骤:
步骤一:利用网络爬虫的页面解析技术从网站抓取产品的产品信息和客户评论得到产品语料,并对产品语料搭建产品信息-整体评论-细节评论的三层模型;
步骤二:对上述三层模型中的产品语料均进行预处理,得到有效的数据集合;
步骤三:对预处理后的三层模型分别进行产品特征的提取得到各层的显式特征;
步骤四:将所有的显式特征进行归纳构成该产品的显式特征集。
本发明进一步设置为,所述三层模型种的第一层为产品信息层,主要指的是产品标题和产品属性;第二层为整体评论层,即综述产品的优缺点;第三层为细节评论层,详细阐述对该产品的具体看法。
本发明进一步设置为,所述步骤二中的预处理包括:
(1)分句:对文本文档分句处理;
(2)词性标注:识别句子中各词的词性,缩小特征项候选集的范围;
(3)停用词:三层模型中,上一层提取出来的特征词将作为下一层的停用词;
(4)词根还原或词缀修剪:主要是把同一单词的不同形式还原成标准形式。
本发明进一步设置为,所述步骤三中对产品信息层的产品特征提取方法为:
(1)所述产品标题包括产品名称和产品特色,产品名称部分不对其提取,并将产品名称的词作为停用词加入到停用词词表中;产品特色部分提取词性为名词的词;
(2)提取产品属性短句中词性为名词的词;
本发明进一步设置为,所述步骤三中对整体评论层的产品特征提取采用fp增长算法获得频繁项集作为特征候选集,然后对特征候选集内的频繁项集进行剪枝即可得到该层的显式特征。
本发明进一步设置为,所述频繁项集的剪枝采用两种方式:紧密度剪枝和冗余度剪枝,所述紧密度剪枝指的是去除在特征候选集中无意义的频繁项集,所述冗余度剪枝指的是去除特征候选集中无法完整表述产品特征的频繁项集。
本发明进一步设置为,所述所述步骤三中对细节评论层的产品特征提取具体为:前两层的产品特征作为此层的停用词,采用句法分析自动分析出句子的语法结构和词与词之间支配关系,停用词仅作为依存分析提取的词筛选条件,如果不是停用词将加入事务数据库d中,然后再对事务数据库d提取频繁项集及对其剪枝处理。
本发明的有益效果:本发明采用自动提取方式,根据产品呈现在网络上的方式和特点,搭建了产品信息-整体评论-细节评论3层模型提取产品特征,该模型针对不同层的层次特点,采用了不同的提取方法,此外,该模型将上层的特征词定义为下层的停用词以及在第三层中加入依存关系,成功地实现了对特征项降维的目的,从而提高特征提取的效率。
附图说明
图1为本发明基于大数据观点挖掘的产品特征提取方法的流程示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1所示,一种基于大数据观点挖掘的产品特征提取方法,其特征在于包括以下步骤:
步骤一:利用网络爬虫的页面解析技术从网站抓取产品的产品信息和客户评论得到产品语料,并对产品语料搭建产品信息-整体评论-细节评论的三层模型;
所述三层模型种的第一层为产品信息层,主要指的是产品标题和产品属性;第二层为整体评论层,即综述产品的优缺点;第三层为细节评论层,详细阐述对该产品的具体看法。
三层模型有以下好处:1)各个层之间产品特征提取方法相互独立,各层可根据其独特特点选择不同的算法;2)各层之间又存在联系,上层对下层共享其已提取的产品特征,下层就可避免提取和上层相同的特征。
步骤二:对上述三层模型中的产品语料均进行预处理,得到有效的数据集合;
上述预处理包括:
(1)分句:对文本文档分句处理;
(2)词性标注:识别句子中各词的词性,缩小特征项候选集的范围;
(3)停用词:三层模型中,上一层提取出来的特征词将作为下一层的停用词;
(4)词根还原或词缀修剪:主要是把同一单词的不同形式还原成标准形式。
步骤三:对预处理后的三层模型分别进行产品特征的提取得到各层的显式特征;
对产品信息层的产品特征提取方法为:
(1)所述产品标题包括产品名称和产品特色,产品名称部分不对其提取,并将产品名称的词作为停用词加入到停用词词表中;产品特色部分提取词性为名词的词;
(2)提取产品属性短句中词性为名词的词;
对整体评论层的产品特征提取具体为:采用fp增长算法获得频繁项集作为特征候选集,然后对特征候选集内的频繁项集进行剪枝即可得到该层的显式特征。所述频繁项集的剪枝采用两种方式:紧密度剪枝和冗余度剪枝,所述紧密度剪枝指的是去除在特征候选集中无意义的频繁项集,所述冗余度剪枝指的是去除特征候选集中无法完整表述产品特征的频繁项集。
所述fp增长算法包含2个方法,构造fp_tree和fp树的挖掘fp-growth(tree,α);
所述构造fp_tree算法描述如下:
1)首先扫描一遍事务数据库d,得到1频繁项的集合l;
2)创建fp-tree的根节点,标记为“null”;
3)对每个事务trans中的频繁项进行排序,得到[p|p],其中,p是事务trans中的第一个元素,而p是剩余元素的列表;
4)调用insert_tree([p|p],t),如果t的某个孩子n,满足条件n.item-name=p.item-name,则n的计数增加1,否则创建新节点n,将其计数设置为1,链接到它的父节点t,并且通过节点链结构将其链接到具有相同item-name的节点。如果p非空,则递归调用insert-tree(p,n)。
所述fp树的挖掘fp-growth(tree,α)算法描述如下:
1)iftree含有单路径pthen
2)foreach路径p中节点的组合(记作β)
3)产生模式β∪α,其支持度计数support_count等于β中节点的最小支持度计数;
4)elsefortree的头表中的每个ai{
5)产生模式β=ai∪α,其支持度计数support_count=ai.support_count;
6)构造β的条件模式基和β的条件fp-tree,即treeβ;
7)iftreeβ≠φthen
8)调用fp_growth(treeβ,β);}
对细节评论层的产品特征提取具体为:前两层的产品特征作为此层的停用词,采用句法分析自动分析出句子的语法结构和词与词之间支配关系,停用词仅作为依存分析提取的词筛选条件,如果不是停用词将加入事务数据库d中,然后再对事务数据库d提取频繁项集及对其剪枝处理。
步骤四:将所有的显式特征进行归纳构成该产品的显式特征集。
本发明中搭建的三层模型优于传统的一层模型提取产品特征,该三层模型针对不同层的层次特点,采用了不同的提取方法,此外,该模型将上层的特征词定义为下层的停用词以及在第三层中加入依存关系,成功地实现了对特征项降维的目的,从而提高特征提取的效率。
所述所述步骤三中以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,上述假设的这些改进和变型也应视为本发明的保护范围。