获得情感词知识库的方法、装置及终端的制作方法

文档序号:9839646阅读:308来源:国知局
获得情感词知识库的方法、装置及终端的制作方法
【技术领域】
[0001]本公开涉及信息处理技术领域,尤其涉及一种获得情感词知识库的方法、装置及终端。
【背景技术】
[0002]随着互联网的发展,越来越多的人选择在网上购买商品,这使得网上购物成为未来购物的一个新趋势。
[0003]为了便于新用户了解网上所销售物品的客户反馈情况,网上商城通常在商品展示页面会显示已购买用户的一些评价内容,这样当用户在网上购买物品后,会对购物过程、商品使用情况以及商家服务等作出留言评价,这些留言评价有正面的也有有负面的,五花八门,参差不齐。
[0004]这使得新用户在购买前想通过这些留言评价对商品作出一些判断时,需要翻阅大量的评价内容,需要花费较多的时间才能看完全部评论,尤其是对于一些上万留言评价的商品,常常只能简单浏览部分留言评价,这常常导致只能得到商品的片面信息。

【发明内容】

[0005]为克服相关技术中存在的问题,本公开提供一种获得情感词知识库的方法、装置及终端。
[0006]根据本公开实施例的第一方面,提供一种获得情感词知识库的方法,包括:
[0007 ]确定种子词集合及所述种子词集合中种子词的情感属性;
[0008]根据所述种子词集合进行评论语料筛选,获得语料集合;
[0009]在所述语料集合中提取与所述种子词关联的评论词并统计所述评论词的词频;
[0010]根据所述评论词的词频及与所述评论词关联的所述种子词的情感属性,确定所述评论词中是否存在情感词;
[0011 ]若所述评论词中存在情感词,则将所述评论词按照其情感属性对应加入所述种子词集合更新所述种子词集合,利用更新后的种子词集合迭代执行所述进行评论语料筛选的步骤,直至确定所述评论词中不存在情感词,迭代结束;
[0012]将迭代结束后获得的更新的种子词集合确定为情感词知识库。
[0013]本公开实施例提供的该方法,首先确定出包含情感属性已知的种子词的集合,然后利用该种子词集合对评论语料进行筛选,找到包含至少一个种子词的评论语料的语料集合,然后通过比较这些种子词和评论语料中的关联程度,查找出语料集合中情感属性确定的所有情感词,并最终将确定到的情感词加入到前述种子词集合内,作为情感词知识库。
[0014]可选地,所述在所述语料集合中提取与所述种子词关联的评论词并统计所述评论词的词频,包括:
[0015]在所述语料集合中提取出现次数大于预设次数阈值的候选词;
[0016]当所述候选词不在所述种子词集合中时,,确定所述候选词为所述评论词;
[0017]分别统计所述种子词集合中各种子词与所述评论词出现在所述语料集合的同一条语料中的频率,作为所述评论词的词频。
[0018]本公开实施例提供的该方法,首先选择出现次数大于预设次数阈值的候选词,然后,在候选词中剔除种子词,得到评论词,这些评论词有大可能为情感词,最后,每个种子词与评论词出现在语料集合中同一条语料中的频率,作为该评论词的词频。以便后续可以利用该词频准确确定该评论词是否为情感词,以及为情感词时的情感属性。
[0019]可选地,所述根据所述评论词的词频及与所述评论词关联的所述种子词的情感属性,确定所述评论词中是否存在情感词,包括:
[0020]根据与所述评论词相关联的种子词的情感属性,统计所述评论词的词频中不同情感属性的种子词对应的词频;
[0021]当所述不同情感属性的种子词对应的词频满足预设条件时,确定所述评论词为情感词。
[0022]本公开实施例提供的该方法,可以通过统计评论词和不同种子词同时出现的词频,并且将所述不同情感属性的种子词对应的词频与预设条件进行比较,当预设条件满足时,就可以确定该评论词为敏感词。
[0023]可选地,所述当所述不同情感属性的种子词对应的词频满足预设条件时,确定所述评论词为情感词,包括:
[0024]当所述不同情感属性的种子词对应的词频中,最大词频与第二大词频之间的比例大于比例阈值时,确定所述评论词为情感词。
[0025]可选地,所述方法还包括:
[0026]将所述最大词频对应的情感属性作为所述评论词的情感属性。
[0027]可选地,所述确定种子词集合及所述种子词集合中种子词的情感属性,包括:
[0028]确定指定领域的种子词集合及所述种子词集合中种子词的情感属性。
[0029]当将所述不同情感属性的种子词对应的词频与预设条件进行比较,且预设条件满足时,就可以确定该评论词为敏感词,所以,在本公开实施例中,可以将最大词频对应的种子词的情感属性作为该评论词的情感属性。
[0030]可选地,所述根据所述种子词集合进行评论语料筛选,获得语料集合,包括:
[0031]根据所述种子词集合对所述指定领域的评论语料进行筛选,获得所述指定领域的语料集合。
[0032]可选地,所述情感属性包括:
[0033]正面、负面、中性。
[0034]根据本公开实施例的第二方面,提供一种获得情感词知识库的装置,包括:
[0035]种子词确定模块,用于确定种子词集合及所述种子词集合中种子词的情感属性;
[0036]语料筛选模块,用于根据所述种子词确定模块确定的种子词集合进行评论语料筛选,获得所述语料集合;
[0037]评论词提取模块,用于在所述筛选模块筛选出的语料集合中提取与所述种子词关联的评论词;
[0038]词频统计模块,用于统计所述提取模块提取得到的评论词的词频;
[0039]情感词确定模块,用于根据所述评论词的词频及与所述评论词关联的所述种子词的情感属性,确定所述评论词中是否存在情感词;
[0040]种子词更新模块,用于当所述情感词确定模块确定评论词中存在情感词时,则将所述评论词按照其情感属性对应加入所述种子词集合更新所述种子词集合;
[0041]所述语料筛选模块,还用于利用所述种子词更新模块更新后的种子词集合迭代进行评论语料筛选,且直至确定所述评论词中不存在情感词,迭代结束;
[0042]情感词知识库确定模块,用于将迭代结束后所述种子词更新模块获得的更新的种子词集合确定为情感词知识库。
[0043 ]可选地,所述评论词提取模块,包括:
[0044]提取子模块,用于在所述语料集合中提取出现次数大于预设次数阈值的候选评论词;
[0045]评论词判断子模块,用于判断所述候选词是否在所述种子词集合中;
[0046]评论词确定子模块,用于当所述评论词判断模块的判断结果为候选词不在所述种子词集合中时,确定所述候选评论词为所述评论词;
[0047]所述词频统计模块,包括:
[0048]第一统计子模块,用于分别统计所述种子词集合中各种子词与所述评论词确定子模块确定出的评论词出现在所述语料集合的同一条语料中的频率,作为所述评论词的词频。
[0049]可选地,所述情感词确定模块,包括:
[0050]第二统计子模块,用于根据与所述评论词相关联的种子词的情感属性,统计所述评论词的词频中不同情感属性的种子词对应的词频;
[0051]情感词确定子模块,用于当所述第二统计子模块统计得到的不同情感属性的种子词对应的词频满足预设条件时,确定所述评论词为情感词。
[0052]可选地,所述情感词确定子模块,包括:
[0053]比例计算子模块,用于当所述不同情感属性的种子词对应的词频中,计算最大词频与第二大词频之间的比例;
[0054]比例判断子模块,用于判断将所述此批计算子模块计算得到的比例是否大于比例阈值;
[0055]第一确定子模块,用于当所述比例判断模块的判断结果为最大词频与第二大词频之间的比例大于比例阈值时,确定所述评论词为情感词。
[0056]可选地,所述装置还包括:
[0057]情感属性确定模块,用于将所述最大词频对应的情感属性作为所述评论词的情感属性。
[0058]可选地,所述种子词确定模块,包括:
[0059]种子词确定子模块,用于确定指定领域的种子词集合及所述种子词集合中种子词的情感属性。
[0060]可选地,所述语料筛选模块,包括:
[0061]语料筛选子模块,用于根据所述种子词集合对所述指定领域的评论语料进行筛选,获得所述指定领域的语料集合。
[0062]可选地,所述情感属性包括:
[0063]正面、负面、中性。
[0064]根据本公开实施例提供的第三方面,提供了一种终端,包括:
[0065]处理器;
[0066]用于存储处理器可执行指令的存储器;
[0067]其中,所述处理器被配置为:
[0068]确定种子词集合及所述种子词集合中种子词的情感属性;
[0069]根据所述种子词集合进行评论语料筛选,获得语料集合;
[0070]在所述语料集合中提取与所述种子词关联的评论词并统计所述评论词的词频;
[0071]根据所述评论词的词频及与所述评论词关联的所述种子词的情感属性,确定所述评论词中是否存在情感词;
[0072]若所述评论词中存在情感词,则将所述评论词按照其情感属性对应加入所述种子词集合更新所述种子词集合,利用更新后的种子词集合迭代执行所述进行评论语料筛选的步骤,直至确定所述评论词中不存在情感词,迭代结束;
[0073]将迭代结束后获得的更新的种子词集合确定为情感词知识库。
[0074]本公开的实施例提供的技术方案可以包括以下有益效果:
[0075]本公开实施例提供的该方法,首先确定出包含情感属性已知的种子词的集合,然后利用该种子词集合对评论语料进行筛选,找到包含至少一个种子词的评论语料的语料集合,然后通过比较这些种子词和评论语料中的关联程度,查找出语料集合中情感属性确定的所有情感词,并最终将确定到的情感词加入到前述种子词集合内,作为情感词
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1