基于双向迭代和自动构建更新语料库的垃圾评论过滤方法

文档序号:9349920阅读:349来源:国知局
基于双向迭代和自动构建更新语料库的垃圾评论过滤方法
【技术领域】
[0001] 本发明涉及电子商务网站中用户评论文本的垃圾评论过滤技术领域,尤其涉及一 种基于双向迭代和自动构建更新语料库的垃圾评论过滤方法。
【背景技术】
[0002] 随着互联网的普及和电子商务应用的迅猛发展,网络中用户评论数据呈指数级增 长。这些海量的用户评论数据中蕴藏着大量有价值的信息,能够带来巨大的商业价值。
[0003] 但是,与此同时,网络欺诈、刷钻炒信等现象也随之产生,评论数据中往往存在大 量的垃圾评论,如商家广告、炒信评论、恶意评价等,使得用户无法获得商品和卖家的真实 评价,也严重的阻碍了信息的挖掘,甚至会导致错误的挖掘结果。因此,垃圾评论过滤十分 必要。
[0004] 现有的垃圾评论过滤技术,通常是使用简单的规则,或是利用预先定义的垃圾关 键词库来进行垃圾评论过滤的。这类方法的准确率受限于所制定的规则和所定义的垃圾关 键词库。此外,由于互联网上新的评论特征词不断地涌现,规则和垃圾关键词库的维护也非 常耗时。
[0005] 另外一种典型的垃圾评论过滤方法,通过分析用户的行为,识别出撰写垃圾评论 的用户,进而实现对垃圾评论的过滤。
[0006] 但是,很多撰写垃圾评论的用户刻意不发表重复评论,从而避免被系统所识别,导 致这些用户所发表的垃圾评论也无法被过滤出来。
[0007] 此外还有一些学者提出了基于语义相似度的垃圾评论过滤方法,即先利用规则 过滤出垃圾评论,再利用HowNet词语相似度来扩展文本相似度,并以此识别正常评论,来 提高有效评论的识别率。但是该方法也依赖规则过滤出的垃圾评论的准确率,并且受限于 HowNet的词语相似度计算结果。

【发明内容】

[0008] 针对现有垃圾评论过滤技术的不足,本发明提出了一种基于双向迭代和自动构建 更新语料库的垃圾评论过滤方法,采用非监督式的方法,无需人工标注,因此大大降低了人 工成本,也易于扩展到新的应用领域。
[0009] -种基于双向迭代和自动构建更新语料库的垃圾评论过滤方法,包括如下步骤:
[0010] (1)获取产品的评论文本以构建语料库,并对语料库进行初始划分形成垃圾评论 文本集和正常评论文本集;
[0011] (2)利用贝叶斯过滤器对所述垃圾评论文本集和正常评论文本集中的评论文本进 行垃圾评论判别,并根据垃圾评论判别结果更新垃圾评论文本集和正常评论文本集;
[0012] (3)迭代执行步骤(2),直至相邻两次迭代得到的垃圾评论文本集和正常评论文 本集不再变化为止,并判定最后一次迭代得到的垃圾评论文本集中的评论文本为垃圾评论 文本。
[0013] 本发明的垃圾评论过滤方法实现了垃圾评论文本集和正常评论文本集的自动构 建,对语料库形成一个初始划分,从而大大降低了人工标注的成本I本发明利用贝叶斯过滤 器能够提取出之前未知的、新的垃圾评论关键词,并根据少量已知的垃圾评论文本识别出 未知的、新的垃圾评论,适应当前新表达方式和网络用语层出不穷的现状。本发明通过迭代 的方式进行垃圾评论文本集和正常评论文本集的自动更新,使得垃圾评论的判别更加准确 尚效。
[0014] 作为优选,所述步骤(1)中利用正则表达式对语料库中的评论文本进行垃圾评论 判别以完成初始划分。
[0015] 利用有限的几条规则,实现了垃圾评论文本集和正常评论文本集的自动构建,对 语料库形成一个初始划分,从而大大降低了人工标注的成本。
[0016] 所述步骤(2)中对正常评论文本集和垃圾评论文本集中每一条评论文本进行垃 圾评论判别时进行如下操作:
[0017] 分别计算该评论文本属于正常评论文本集和垃圾评论文本集的类后验概率:
[0018] 若属于垃圾评论文本集的类后验概率大于或等于属于正常评论文本集的类后验 概率,则判定该评论文本为垃圾评论文本;
[0019] 否则,判定为正常评论文本。
[0020] 作为优选,通过如下步骤分别计算该评论文本属于正常评论文本集和垃圾评论文 本集的类后验概率:
[0021] (2-1)对垃圾评论文本集进行垃圾评论关键词抽取,形成垃圾评论关键词词集:
[0022] (2-21)根据垃圾评论文本集中所有评论文本构建相应的实词词集;
[0023] (2-22)计算垃圾评论文本集和正常评论文本集的类先验概率,并根据计算结果采 用信息增益方法计算实词词集中各个实词的权值,并提取权值大于预设阈值的实词作为垃 圾评论关键词形成垃圾评论关键词词集。
[0024] 本发明利用如下公式计算实词词集中第i个实词W1的权值n (w J :
[0026] 其中,1彡i彡nWOTd,nWOTd表示实词词集中实词的总个数,
[0027] j = 0或1,当j = 0时,评论文本集Cj表示垃圾评论文本集,当j = 1时,评论文 本集(^表示正常评论文本集,
[0028] 0 = 〇或1,且:
[0029] 当〇 = 0时,wf表示实词~不出现,表示评论文本集Cj中不出现实词w ; 的评论文本条数与语料库中评论文本条数的比值,表示语料库中不出现实词W1的评 论文本的条数与语料库中评论文本条数的比值,
[0030] 当〇 = 1时,g表示实词Wi出现,)表示评论文本集Cj中出现实词w ;的 评论文本条数与语料库中评论文本条数的比值,門>_,1表示语料库中出现实词^的评论文 本条数与语料库中评论文本条数的比值;
[0031] P(G)为评论文本集C,的类先验概率,利用下面的公式进行计算:
[0033] 其中,|'|表示评论文本集Cj中评论文本的条数,|De|表示语料库S中评论文本 的条数。
[0034] 根据所有实词的权值计算结果,设定合适的阈值,筛选出部分实词作为垃圾评论 关键词。作为优选,本发明中预设阈值为〇. 04~0. 05,优选为0. 045。
[0035] (2-2)根据垃圾评论关键词词集抽取该评论文本的特征词,并生成相应的特征词 序列;
[0036] (2-3)利用相应的特征词序列分别计算该评论文本属于垃圾评论文本集和正常评 论文本集的类后验概率。
[0037] 所述步骤(2-3)中针对当前评论文本dx分别进行如下操作:
[0038] (2-31)利用相应的特征词序列利用如下公式分别计算当前评论文本djl于正常 评论文本集和垃圾评论文本集的类条件概率P (dx I Cj):
[0040] 其中,j = 0或1,当j = 0时,评论文本集Cj表示垃圾评论文本集,当j = 1时, 评论文本集(^表示正常评论文本集,
[0041] n = 1,2……,N,N为特征词序列中特征词的个数,
[0042] P (wn I Cj)表示相应的特征词序列中关键词\在垃圾评论文本集中的类条件概率, 利用如下公式进行计算:
[0044] 其中,< 表示评论文本集Cj中出现关键词w n的评论文本条数,
[0045] j' I表示评论文本集Cj中评论文本的总条数;
[0046] (2-32)利用如下公式分别计算当前评论文本dx属于垃圾评论文本集和正常评论 文本集的类后验概率:
[0048] 其中,P (Cj I dx)表示当前评论文本4属于评论文本集C郝类后验概率,
[0049] P (dx)表示评论文本4的全概率,对于所有类均为常数。对于同一条评论文本d x, P(dx)不变,可以忽略不计。
[0050] 本发明中P(dx)利用如下公式进行计算:
[0052] 其中,j = 0或1,当j = 0时,评论文本集Cj表示垃圾评论文本集,当j = 1时, 评论文本集(^表示正常评论文本集,
[0053] P (Cj)为评论文本集Cj的类先验概率:
[0055] 其中,表示评论文本集Cj中评论文本的条数,|De|表示语料库S中评论文本 的条数(即总条数)。
[0056] 本方法首先人工建立若干条规则,利用正则表达式自动识别出部分垃圾评论文 本,构建垃圾评论文本集和正常评论文本集,对语料库形成一个初始划分;然后采用信息增 益方法对垃圾评论文本集进行垃圾评论关键词抽取,构建垃圾评论关键词词集;接下来再 利用贝叶斯过滤器对垃圾评论文本集和正常评论文本集中的评论文本重新进行垃圾评论 判别,将垃圾评论文本集中判别为正常评论的文本加入到正常评论文本集中,将正常评论 文本集中判别为垃圾评论的文本加入到垃圾评论文本集中,不断迭代直到垃圾评论文本集 和正常评论文本集不再变化为止;最后将得到的垃圾评论文本集中的评论判别为垃圾评 论。
[0057] 与现有技术相比,本发明的垃圾评论过滤方法具有如下优点:
[0058] 利用有限的几条规则,自动构建出垃圾评论文本集和正常评论文本集,对语料库 形成一个初始的划分,从而大大降低了人工标注
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1