基于分档关键词阈值组合评估的垃圾评论预选方法及装置制造方法

文档序号:6632937阅读:325来源:国知局
基于分档关键词阈值组合评估的垃圾评论预选方法及装置制造方法
【专利摘要】一种基于分档关键词阈值组合评估的垃圾评论预选方法及装置,所述基于分档关键词阈值组合评估的垃圾评论预选方法,包括:获取评论信息的关键词集的最小支持度;根据最小支持度获得频繁关键词和次频繁关键词;根据频繁关键词和次频繁关键词在评论中出现的情况判断是否为垃圾评论。本发明利用评论的关键词信息进行统计分析,对主要关键词进行分档,根据各个关键词所属档次,评判每条评论中关键词信息,按照一定的判定规则,进行评论的区分,从而完成预选,做到了简单快速有效的识别,从而维护社交平台或网商平台的可信度,同时也让商品评论信息更高效的为我们服务。
【专利说明】基于分档关键词阈值组合评估的垃圾评论预选方法及装置

【技术领域】
[0001] 本发明涉及一种互联网领域的网络信息管理技术,尤其是一种基于分档关键词阈 值组合评估的垃圾评论预选方法及装置。

【背景技术】
[0002] 随着通讯设备和技术的更新,以及计算机网络在电子商务、电子政务、娱乐、生活 等方面的普及,网络的社交性越来越明显。在日常生活中,人们花费越来越多的时间在网络 上进行交流,相互交易。其中的网络评论反映着已完成交易买家各自的购物诉求也影响着 正在交易买家的购物选择。
[0003] 商品的网络评论信息包含了消费者对商品和服务的各种观点,不仅会影响潜在消 费者的购买,也会对商品制造者造成一定的影响。但是由于无限制性,人们可以随意在网络 上发表自己的观点,这样就会出现一些无意义甚至不真实的评论信息。用户难以识别出对 自己有用的评论内容。为了净化网络环境,避免用户受骗上当,电子商务平台有必要引入垃 圾评论筛选技术,从海量的商品评论信息中识别出垃圾评论,提取出有价值的信息资源。


【发明内容】

[0004] 本发明的主要目的在于提供一种基于分档关键词阈值组合评估的垃圾评论预选 方法及装置,能够简单快速地预选出垃圾评论,维护社交平台的可信度,同时也让商品评论 信息更高效地为商家和顾客服务。
[0005] 为此,本发明实施例提供一种基于分档关键词阈值组合评估的垃圾评论预选方 法,包括:
[0006] 获取评论信息的关键词集的最小支持度;
[0007] 根据最小支持度获得频繁关键词和次频繁关键词;
[0008] 根据频繁关键词和次频繁关键词在评论中出现的情况判断是否为垃圾评论。
[0009] 可选的,还包括:获得评论信息中的全局关键词,形成关键词集。
[0010] 可选的,获取全局关键词的具体方法包括:确定评论领域以及全局评论信息,对 全局评论信息进行分词,计算每个词汇的单次频度、重复频度以及权值,忽略掉权值较小的 词,抽取出全局关键词。
[0011] 可选的,获取关键词集的最小支持度的具体方法包括:获取垃圾评论的比例X,而 关键词集的最小支持度为(100-X) %。
[0012] 可选的,利用Apriori算法获得频繁关键词和次频繁关键词。
[0013] 可选的,获得频繁关键词的方法包括:令包含k个关键词的频繁关键词集为频繁 k_关键词集,记为Lk,进行迭代计算:在第一次迭代过程中,候选集为所有1-关键词集, 在这些关键词集中找到支持度大于等于指定的最小支持度阀值的1-关键词集,成为频繁 1-关键词集L1,不再考虑其他关键词;第二次迭代过程在L1基础上进行,通过Lk*Lk产生候 选集,计算候选集中所有2-关键词集的支持度,支持度大于等于最小支持度阀值的2-关键 词集选中为频繁2-关键词集L2;重复上述过程,直到无法产生候选关键词集为止。
[0014] 可选的,获得次频繁关键词的方法包括:在获得频繁关键词后,在全局关键词中 除去频繁关键词,在剩下的关键词进行搜索,计算每个关键词的支持度,将支持度大于等于 (100-X) %的关键词提取,得出次频繁关键词。
[0015] 可选的,当频繁关键词在评论中全部出现且次频繁关键词在评论中至少出现一个 时,该评论为正常评论,其余评论都为垃圾评论。
[0016] 本发明实施例还提供了一种基于分档关键词阈值组合评估的垃圾评论预选装置, 包括:
[0017] 最小支持度获取模块,用于获取评论信息的关键词集的最小支持度;
[0018] 频繁关键词获取模块,根据最小支持度获得频繁关键词和次频繁关键词;
[0019] 规则应用模块,根据频繁关键词和次频繁关键词在评论中出现的情况判断是否为 垃圾评论。
[0020] 可选的,还包括关键词集获取单元,获得评论信息中的全局关键词,形成关键词 集。
[0021] 与现有技术相比,本发明至少具有如下技术效果:
[0022] 本发明利用评论的关键词信息进行统计分析,对主要关键词进行分档,根据各个 关键词所属档次,评判每条评论中关键词信息,按照一定的判定规则,进行评论的区分,从 而完成预选,做到了简单快速有效的识别,从而维护社交平台或网商平台的可信度,同时也 让商品评论信息更高效的为我们服务。

【专利附图】

【附图说明】
[0023] 图1为本发明实施例的基于分档关键词阈值组合评估的垃圾评论预选方法的流 程不意图;
[0024] 图2为本发明实施例的基于分档关键词阈值组合评估的垃圾评论预选装置的结 构示意图。

【具体实施方式】
[0025] 在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以 很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况 下做类似推广,因此本发明不受下面公开的具体实施例的限制。
[0026] 本发明实施例首先提供了一种基于分档关键词阈值组合评估的垃圾评论预选方 法的流程示意图,请参考图1,包括:
[0027] 步骤S101,获得评论信息中的全局关键词,形成关键词集;
[0028] 步骤S102,获取关键词集的最小支持度;
[0029] 步骤S103,根据最小支持度获得频繁关键词和次频繁关键词;
[0030] 步骤S104,根据频繁关键词和次频繁关键词在评论中出现的情况判断是否为垃圾 评论。
[0031] 下面以手机的电商评论信息为例,对本发明技术方案进行说明。
[0032] 具体的,执行步骤S101,获得评论信息中的全局关键词,形成关键词集。
[0033] 首先获取电商平台或社交平台中的评论信息,通过自动分词的方式或人工分词的 方式对所有的评论信息进行分词。然后通过算法或人工判定,根据词性简单过滤掉无关的 连接词,对过滤后剩下的词语以词汇聚合的形式记录为
[0034] M=Im1,m2,m3,…,mn}。
[0035] 根据上述方法分析具体目标商品(某一款某一型号的手机)的评论信息,针对具 体目标商品的评论词汇集合表示为M1 (含有Ii1个词汇),其中M1gM。统计具体目标商品 的评论词汇的单次频度和重复频度(单次频度是出现词语Hii的评论数,不超过N,N为所分 析的全部评论数;重复频度指的是词语mi在N条评论中的出现次数,,利用单次频度计算该 词汇的相对信息量(此处相对信息量的计算与常规信息量计算不同,区别在于样本数仅限 于所分析的N条评论,而非所有出现词语Hli的评论集合,利用重复频度计算该词汇的密度, 利用词语的相对信息量和密度,计算该词语的权重值,当词汇集合中的词语表示为IV在N 条评论中出现的单次频度表示为4重复频度表示为屯,则Pi表示该词的相对信息量,Qi 表不该词的权重值;
[0036]

【权利要求】
1. 一种基于分档关键词阈值组合评估的垃圾评论预选方法,其特征在于,包括: 获取评论信息的关键词集的最小支持度; 根据最小支持度获得频繁关键词和次频繁关键词; 根据频繁关键词和次频繁关键词在评论中出现的情况判断是否为垃圾评论。
2. 如权利要求1所述的基于分档关键词阈值组合评估的垃圾评论预选方法,其特征在 于,还包括:获得评论信息中的全局关键词,形成关键词集。
3. 如权利要求2所述的基于分档关键词阈值组合评估的垃圾评论预选方法,其特征在 于,获取全局关键词的具体方法包括:确定评论领域以及全局评论信息,对全局评论信息进 行分词,计算每个词汇的单次频度、重复频度以及权值,忽略掉权值较小的词,抽取出全局 关键词。
4. 如权利要求1所述的基于分档关键词阈值组合评估的垃圾评论预选方法,其特征在 于,获取关键词集的最小支持度的具体方法包括:获取垃圾评论的比例X,而关键词集的最 小支持度为(l〇〇-x)%。
5. 如权利要求1所述的基于分档关键词阈值组合评估的垃圾评论预选方法,其特征在 于,利用Apriori算法获得频繁关键词和次频繁关键词。
6. 如权利要求5所述的基于分档关键词阈值组合评估的垃圾评论预选方法,其特征在 于,获得频繁关键词的方法包括:令包含k个关键词的频繁关键词集为频繁k-关键词集, 记为Lk,进行迭代计算:在第一次迭代过程中,候选集为所有1-关键词集,在这些关键词集 中找到支持度大于等于指定的最小支持度阀值的1-关键词集,成为频繁1-关键词集U,不 再考虑其他关键词;第二次迭代过程在U基础上进行,通过L k*Lk产生候选集,计算候选集 中所有2-关键词集的支持度,支持度大于等于最小支持度阀值的2-关键词集选中为频繁 2_关键词集L2;重复上述过程,直到无法产生候选关键词集为止。
7. 如权利要求5所述的基于分档关键词阈值组合评估的垃圾评论预选方法,其特征 在于,获得次频繁关键词的方法包括:在获得频繁关键词后,在全局关键词中除去频繁关键 词,在剩下的关键词进行搜索,计算每个关键词的支持度,将支持度大于等于(100-x) %的 关键词提取,得出次频繁关键词。
8. 如权利要求1所述的基于分档关键词阈值组合评估的垃圾评论预选方法,其特征在 于,当频繁关键词在评论中全部出现且次频繁关键词在评论中至少出现一个时,该评论为 正常评论,其余评论都为垃圾评论。
9. 一种基于分档关键词阈值组合评估的垃圾评论预选装置,其特征在于,包括: 最小支持度获取模块,用于获取评论信息的关键词集的最小支持度; 频繁关键词获取模块,根据最小支持度获得频繁关键词和次频繁关键词; 规则应用模块,根据频繁关键词和次频繁关键词在评论中出现的情况判断是否为垃圾 评论。
10. 如权利要求9所述的基于分档关键词阈值组合评估的垃圾评论预选装置,其特征 在于,还包括关键词集获取单元,获得评论信息中的全局关键词,形成关键词集。
【文档编号】G06F17/30GK104484330SQ201410607948
【公开日】2015年4月1日 申请日期:2014年10月31日 优先权日:2014年10月31日
【发明者】徐斌 申请人:浙江工商大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1