一种非结构化文本中的产品属性挖掘方法

文档序号:6585944阅读:333来源:国知局
专利名称:一种非结构化文本中的产品属性挖掘方法
技术领域
本发明涉及自然语言处理,信息检索,数据挖掘,机器学习技术领域,特 别是涉及一种非结构化文本中的产品属性挖掘方法。
背景技术
随着互联网技术的不断发展,互联网用户的不断增加,网络上的数据与资
源正以爆炸式的速度迅速增长。C2C, B2C等电子商务模式的流行,使得网络 购物成为继传统购物方式后的又一越来越主流的购物方式,随着电子商务网站 功能的完善与用户的增多,用户在电子商务网站上做出的对自己所购买产品的 评论信息也越来越多,包括产品的价格,产品各个功能的性能等等。另一方面, 随着互联网论坛的兴起,已经涌现了一大批专门讨论各种产品的论坛,其中尤 其以讨论手机,数码相机,MP3等数码产品的论坛尤为人气旺盛,几个知名的 产品论坛上汇集了数量相当可观的有价值的产品评论信息。上述所说的电子商 务网站和论坛中汇聚的产品评论信息可以统称为针对产品评论的非结构化文 本,对非结构化文本的研究因为存在很大的市场价值成为当前国际上的一个研 究热点。
针对产品评论的非结构化文本的研究,可以从挖掘其中的产品属性出发, 通过挖掘非结构化文本中的产品属性,然后将评论文本按照产品属性条目分类, 可以使得非结构化的评论文本具有更好的表达价值的能力。挖掘非结构化文本 中的产品属性存在达到高的査全率与高的查准率两个难题,特别是要达到高的 查准率,目前还尚未有十分有效的方法。

发明内容
本发明的目的在于提供基于关联规则挖掘和搜索引擎过滤的一种非结构化 文本中的产品属性挖掘方法。
本发明解决其技术问题所采用的技术方案的步骤如下 1 )对非结构化文本进行中文分词和词性标注;
2) 对步骤l)中标注为名词的词语进行关联规则挖掘,挖掘出其中的频繁项, 定义为粗属性;
3) 对步骤2)中的粗属性进行基于搜索引擎的产品属性过滤,滤去非产品属性 的频繁项,提取真正的产品属性。
4)把步骤3)中挖掘出的产品属性按照其在非结构化文本中的出现频率排序。
所述步骤l)中对非结构化文本进行中文分词为基于词语的中文分词,词性 标注的关键为名词词性标注。
所述步骤2)中是采用机器学习中的Apriori算法对步骤l)中的名词进行关联 规则挖掘,挖掘其中的频繁项,作为粗属性。
所述步骤3)中采用基于搜索引擎的方法过滤步骤2)中的粗属性,具体方法 为将产品类别与粗属性组成新的搜索词条发送到百度搜索引擎中,检查百度针 对该搜索词条的返回结果的摘要中是否包含该词条来决定是否保留或者过滤粗 属性。
所述步骤4)中把挖掘出的产品属性根据其在非结构化文本中出现的频率进 行排序,从而可以将结果按照讨论热度排序。
本发明与背景技术相比,具有的有益的效果是-
本发明是一种基于关联规则挖掘和搜索引擎过滤的非结构化文本中的产品 属性挖掘方法。它适用于挖掘针对产品评论的非结构化文本中的产品属性。本 发明的方法是通过对非结构化文本进行中文分词和词性标注,进而对其中的名 词进行关联规则挖掘找出其中的频繁项并将其定义为粗属性,然后采用基于搜 索引擎的方法过滤其中的非产品属性的粗属性,提取真正的产品属性,然后把 产品属性按照出现频率排序。本发明在非结构化文本中的产品属性挖掘的查全 率,査准率以及F-score值指标上均有很好的表现,并且适用范围广。
具体实施例方式
在本发明的实施中,首先设定预处理的目标产品,通过网络爬虫抓取论坛 等产品评论信息密集的网页资源,对其进行去HTML标签、正文提取等预处理 后,对所获得的非结构化正文进行中文分词和词性标注等潜层语法处理,使得 文本成为由词及词性组成的集合;其后基于频繁项挖掘的思想,对以上数据进 行关联规则挖掘,将获得结果作为产品的粗属性;然而,受互联网数据噪音的 影响,上述挖掘的结果中存在非属性的频繁项,本发明中采用基于搜索引擎的 方法对噪音频繁项进行过滤,从而获得真正的产品属性;最后对获得的产品属 性进行基于频率的排序。本发明实施的关键有三点粗属性的提取,基于搜索 引擎的产品属性过滤,基于出现频率的产品属性排序。其中中文分词、词性标 注是本发明实施的基础。 1.粗属性的提取
粗属性的提取主要采用机器学习中的关联规则挖掘算法,这里采用Apriori
方法。具体过程为对经过中文分词和词性标注后非结构化文本中的名词进行关
联规则挖掘,并且设定最小支持度为o.oi,从而得到频繁项作为粗属性。
2. 基于搜索引擎的产品属性过滤
基于搜索引擎的产品属性过滤主要目的是过滤粗属性中不是产品属性的部 分。具体方法为将非结构化文本中所讨论的产品的"产品类别"与粗属性组成新的 搜索词条发送到百度搜索引擎中,然后检査百度针对该搜索词条的返回结果除 去百度推广后的前三条摘要,如果摘要完整包含搜索词条则保留该属性,
如果摘要不包含搜索词条则删除此粗属性。
3. 基于出现频率的产品属性排序 基于出现频率的产品属性排序主要目的是将产品属性按照讨论热度排序。
具体方法为统计经过关联规则挖掘和搜索引擎过滤产生的产品属性的出现频 率,然后将产品属性按照出现频率由多到少排序,从而反应各个产品属性的讨 论热度。
权利要求
1.一种非结构化文本中的产品属性挖掘方法,其特征在于该方法的步骤如下1)对非结构化文本进行中文分词和词性标注;2)对步骤1)中标注为名词的词语进行关联规则挖掘,挖掘出其中的频繁项,定义为粗属性;3)对步骤2)中的粗属性进行基于搜索引擎的产品属性过滤,滤去非产品属性的频繁项,提取真正的产品属性;4)把步骤3)中挖掘出的产品属性按照其在非结构化文本中的出现频率排序。
2、 根据权利要求l所述的一种非结构化文本中的产品属性挖掘方法,其特 征在于所述步骤l)中对非结构化文本进行中文分词为基于词语的中文分词, 词性标注的关键为名词词性标注。
3、 根据权利要求l所述的一种非结构化文本中的产品属性挖掘方法,其特 征在于所述步骤2)中是采用机器学习中的Apriori算法对步骤l)中的名词进行 关联规则挖掘,挖掘其中的频繁项,作为粗属性。
4、 根据权利要求l所述的一种非结构化文本中的产品属性挖掘方法,其特 征在于所述步骤3)中采用基于搜索引擎的方法过滤步骤2)中的粗属性,具体 方法为将产品类别与粗属性组成新的搜索词条发送到百度搜索引擎中,检査百 度针对该搜索词条的返回结果的摘要中是否包含该词条来决定是否保留或者过 滤粗属性。
5、 根据权利要求l所述的一种非结构化文本中的产品属性挖掘方法,其特 征在于所述步骤4)中把挖掘出的产品属性根据其在非结构化文本中出现的频 率进行排序,从而可以将结果按照讨论热度排序。
全文摘要
本发明公开了一种非结构化文本中的产品属性挖掘方法。是通过对非结构化文本进行中文分词与词性标注,然后对其中的名词进行关联规则挖掘获得产品的粗属性,再采用基于搜索引擎的方法进行过滤,获得真正的产品属性。产品属性按照出现频率排序。本发明在非结构化文本中的产品属性挖掘的查全率,查准率以及F值指标上均有很好的表现,并且适用范围广。
文档编号G06F17/30GK101369275SQ20081012098
公开日2009年2月18日 申请日期2008年9月10日 优先权日2008年9月10日
发明者光 仇, 卜佳俊, 源 史, 超 周, 纯 陈 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1