互联网商品评论挖掘本体词库的构建方法_2

文档序号:8412590阅读:来源:国知局
义词类在同 一个层次,并且具有一个中心词。
[0026] 进一步地,步骤2中,具体根据知网HowNet发布的情感分析用词语集,对其中的正 面评价词语和正面情感词语进行修正,然后加入褒义词本体词库;对其中的负面评价词语 和负面情感词语,然后加入贬义词本体词库,来构建评价词本体词库。
[0027] 进一步地,步骤2中,评价词本体词库也是按照同义词分类的,每一类有类别中心 O
[0028] 进一步地,步骤3中,否定词本体词库包含下述否定词:不、不是、不用、不必、不 曾、不够、没、没有、甫、未、未必、别、莫、勿、休、否、否认、无、非、并非、失、免、缺、禁、忌、戒、 防、看不到。
[0029] 使用目前已有的本体词库构建方法构造出的词库,在对现行主流电子商务网站上 的商品评论文本处理时效率不高,主要有两个原因:一是词库内容过于宽泛,已经存在的本 体词库不是专门针对中文电子商务网站商品评论处理而设计的,在查询词库时效率低;二 是对目前商品评论处理所需的词汇包含度不足,这就导致查询时命中率低。针对上述两个 问题,本发明中的本体词库是针对现行中文电子商务网站商品评论处理而设计,能有效地 提升查询效率和命中率。
【附图说明】
[0030] 图1为本发明的本体词库的构成示意图。
[0031] 图2为本发明涉及的属性词本体词库的分层结构示意图。
[0032] 图3为本发明涉及的属性词的同义词类及中心词示例图。
[0033] 图4为本发明涉及的评价词及其中心词示例图。
[0034] 图5是本发明流程图。
【具体实施方式】
[0035] 下面结合具体附图和实施例对本发明作进一步说明。
[0036] 中文文本挖掘本体词库的构建缺乏统一的研宄方法和规范,不同的研宄目的和不 同的应用领域中,本体词库的结构和构建方法都不尽相同。针对国内主流电商网站中文商 品评论的特点,本发明提出的本体词库主要包含六类词库,分别是:商品属性词库、商品评 价词库、否定词库、搭配情感词库、程度副词词库、停用词词库。
[0037] 本发明的本体词库的构建方法主要包括如下六个步骤:
[0038] 步骤1,属性词本体词库的构建:
[0039] 不同的商品种类之间评论的属性差别较大,如女装类、手机类、护肤品类。女装类 经常会出现"衣领""兜帽"等属性,而手机类则不会出现这些属性。因此属性词库根据商 品类别进行划分。
[0040] 从目前流行的电子商务平台的海量商品评论中挖掘属性词。获取的商品评论,按 照商品类别,比如"手机类""女装类"利用分词方法和词性标注方法提取名词,后由人工整 理,并添加新词,形成属性词本体词库。属性词库示例如下:
[0041]
【主权项】
1. 一种互联网商品评论挖掘本体词库的构建方法,其特征在于,包括下述步骤: 步骤1,属性词本体词库的构建:获取商品评论,按照商品类别,利用分词方法和词性 标注方法提取名词,形成属性词本体词库; 步骤2,评价词本体词库的构建:分别构建褒义词本体词库和贬义词本体词库; 步骤3,否定词本体词库的构建:收集否定词,构建否定词本体词库; 步骤4,搭配情感词本体词库的构建:根据网上各种基于类别的商品评论,对评论中的 搭配特征词配上相对应的搭配情感词,从而构建搭配情感词本体词库; 步骤5,程度副词本体词库的构建:收集程度副词,所述程度副词用于修饰情感词,并 给各程度副词赋予强度级别和强度值; 步骤6,停用词本体词库的构建:对获取的商品评论进行分词,对每条评论计算各个词 语的特征频率TF,TF为词语在评论文本中出现的频率,选出TF高的词语;针对每个词语, 计算文档频率DF,DF是评论文本集中含有特征词语的文本个数与总文本数的比值,选出DF 高的词语,在这些词语中人工选出停用词。
2. 如权利要求1所述的互联网商品评论挖掘本体词库的构建方法,其特征在于: 步骤1中,构成的属性词本体词库具有分层结构;在属性词本体词库中,词条的记录格 式为:(词语,父节点,类别中心词)。
3. 如权利要求1所述的互联网商品评论挖掘本体词库的构建方法,其特征在于: 步骤1中,属性词本体词库中的词语还具有同义词,每个同义词类在同一个层次,并且 具有一个中心词。
4. 如权利要求1所述的互联网商品评论挖掘本体词库的构建方法,其特征在于: 步骤2中,具体根据知网HowNet发布的情感分析用词语集,对其中的正面评价词语和 正面情感词语进行修正,然后加入褒义词本体词库;对其中的负面评价词语和负面情感词 语,然后加入贬义词本体词库,来构建评价词本体词库。
5. 如权利要求1所述的互联网商品评论挖掘本体词库的构建方法,其特征在于: 步骤2中,评价词本体词库也是按照同义词分类的,每一类有类别中心词。
6. 如权利要求1所述的互联网商品评论挖掘本体词库的构建方法,其特征在于: 步骤3中,否定词本体词库包含下述否定词:不、不是、不用、不必、不曾、不够、没、没 有、甫、未、未必、别、莫、勿、休、否、否认、无、非、并非、失、免、缺、禁、忌、戒、防、看不到。
【专利摘要】本发明提供一种互联网商品评论挖掘本体词库的构建方法,包括下述步骤:步骤1,属性词本体词库的构建:获取商品评论,按照商品类别,利用分词方法和词性标注方法提取名词,形成属性词本体词库;步骤2,评价词本体词库的构建:步骤3,否定词本体词库的构建:收集否定词,构建否定词本体词库;步骤4,搭配情感词本体词库的构建:根据网上各种基于类别的商品评论,对评论中的搭配特征词配上相对应的搭配情感词,从而构建搭配情感词本体词库;步骤5,程度副词本体词库的构建:收集程度副词,所述程度副词用于修饰情感词,并给各程度副词赋予强度级别和强度值;步骤6,停用词本体词库的构建。本发明能有效地提升查询效率和命中率。
【IPC分类】G06F17-30
【公开号】CN104731923
【申请号】CN201510138097
【发明人】马睿, 周晓锋, 潘福成
【申请人】无锡中科泛在信息技术研发中心有限公司
【公开日】2015年6月24日
【申请日】2015年3月26日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1