一种基于贝叶斯算法的垃圾评论识别方法、系统及终端的制作方法

文档序号:9217332阅读:561来源:国知局
一种基于贝叶斯算法的垃圾评论识别方法、系统及终端的制作方法
【技术领域】
[0001]本发明涉及网络安全技术,特别涉及一种基于贝叶斯算法的垃圾评论识别方法、系统及终端。
【背景技术】
[0002]近年来,随着因特网的快速发展,人们发表观点以及相互交流的方式也发生了改变,网络已经成为人们获取知识、交流沟通、发布信息的主要工具,对于当今视频网站、博客、微博、电子商务等互动式平台的发展,评论中信息的挖掘越来越受到关注,人们在观看视频,阅读博客、微博或者在电子商务平台上购买商品后,通常会做出相应的评论,表达自己的观点,例如视频的评论可以反映观看者对于视频的观看后的感觉,博文或者微博评论可以反映阅读者对博文的观点以及对发布者的情感表达,商品评论可以分析出购买者对商品的满意度,供后来者参考。
[0003]但是针对相关互动式平台,特别是较为出名的网站或者人气较高的发布者发布的信息,有些用户为谋取私利或者破坏社会稳定,经常发布一些垃圾评论,例如,无关的广告评论、推销评论、含有政治、暴力、色情等评论内容。传统的垃圾评论识别方法主要是通过各种用户特征如关键词来搜索评论本身所携带的内容以检测垃圾评论,在识别后进行事先屏蔽或者事后删除。但是在网站中垃圾评论和正常评论在形式上有时并无区别,而且垃圾评论者可以通过将关键词替换为谐音字词来刻意规避该关键词搜索,很容易被恶意评论这绕过。现有的各种网络系统中,一般是根据贝叶斯算法判别评论内容是否为垃圾评论,贝叶斯算法是统计学的一种分类方法,它是一类利用概率统计知识进行分类的算法,通过这种算法对评论内容进行判别时,可以将恶意评论者想得到的关键词替换内容也作为训练样本输入到贝叶斯算法的训练集,恶意评论者很难通过关键词的替换来绕过识别,具有判别精度更高的优点。但是贝叶斯算法需要根据已有的垃圾评论内容做基础,从而判断新的评论内容是否正常,那就会面临一个问题,如果恶意评论者发的是一条和已有的垃圾内容差别很大的内容,则贝叶斯算法将无法直接识别出来。

【发明内容】

[0004]本发明的目的在于克服现有技术的缺点与不足,提供一种基于贝叶斯算法的垃圾评论识别方法,该识别方法结合搜索引擎和贝叶斯算法,能够在没有之前的垃圾评论内容做参照的情况下,在大量的评论中,智能的将垃圾评论挖掘识别出来。
[0005]本发明的第二目的在于,提供一种用于实现上述方法的基于贝叶斯算法的垃圾评论识别系统。
[0006]本发明的第三目的在于,提供一种终端。
[0007]本发明的第一目的通过下述技术方案实现:一种基于贝叶斯算法的垃圾评论识别方法,步骤如下:
[0008]选择一定数量并且确定为正常评论的内容加入到贝叶斯算法的训练集中进行训练;以新评论的内容作为关键词,通过搜索引擎在原有评论库中进行搜索;
[0009]检测在原有评论库中搜索到的评论与新评论的相似度以及数量,当在原有评论库中搜索到和新评论内容的相似度达到预设的第一阈值且数量达到预设的第二阈值的评论时,则将该新评论以及与该新评论相似度达到预设的第一阈值的评论判定为嫌疑垃圾评论;
[0010]将被判定为嫌疑垃圾评论的新评论的内容输入到贝叶斯算法中进行判定,若判定结果为该新评论为正常评论的概率达到预设的第三阈值时,则将该新评论判定为正常评论,否则判定为垃圾评论。
[0011]优选的,所述选取输入到贝叶斯算法的训练集中进行训练的正常评论的数量为10万条以上。
[0012]优选的,原有评论库中的评论与新评论的相似度指的是:新评论和原有评论库中的评论的内容中相同文字的数量与新评论内容中文字总量之间的比值。
[0013]优选的,所述预设的第一阈值为80 %。
[0014]优选的,所述预设的第二阈值200条。
[0015]优选的,所述预设的第三阈值为80%。
[0016]优选的,还包括以下步骤:当新评论被判定为垃圾评论时,拦截该新评论的内容。
[0017]本发明的第二目的通过下述技术方案实现:一种基于贝叶斯算法的垃圾评论识别系统,包括
[0018]获取模块,用于获取一定数量并且确定为正常评论的内容,然后输入到贝叶斯算法的训练集中进行训练;
[0019]原有评论库,用于存放所有的评论内容的数据库,为原有的数据库;
[0020]搜索引擎模块,用于以新评论的内容作为关键词,在原有评论库进行搜索;
[0021]相似度检测模块,用于检测搜索引擎模块搜索到原有评论库中的评论和新评论之间的相似度;
[0022]数量检测模块,用于检测原有评论库中与新评论内容的相似度达到预设的第一阈值的评论的数量;
[0023]嫌疑垃圾评论判定模块,用于在原有评论库中搜索到和新评论的内容的相似度达到预设的第一阈值且数量达到预设的第二阈值的评论时,将新评论以及与该新评论相似度达到预设的第一阈值的评论判定为嫌疑垃圾评论;
[0024]以及垃圾评论判定模块,用于将被判定为嫌疑垃圾评论的新评论的内容输入到贝叶斯算法中进行判定,若判定结果为该新评论为正常评论的概率达到预设的第三阈值时,则将该新评论判定为正常评论,否则判定为垃圾评论。
[0025]优选的,还包括拦截模块,用于在所述垃圾评论判定模块判定新评论为垃圾评论时,拦截该新评论的内容。
[0026]本发明的第三目的通过下述技术方案实现:一种终端,包括上述所述的基于贝叶斯算法的垃圾评论识别系统。
[0027]本发明相对于现有技术具有如下的优点及效果:
[0028]本发明首先选择一定数量并且确定为正常评论的内容加入到贝叶斯算法的训练集中进行训练;以新评论的内容作为关键词,通过搜索引擎在原有评论库中进行搜索;检测原有评论库中的评论与新评论的相似度以及数量,当在原有评论库中搜索到和新评论内容的相似度达到预设的第一阈值且数量达到预设的第二阈值的评论时,则将该新评论以及与该新评论相似度达到预设的第一阈值的评论判定为嫌疑垃圾评论;将被判定为嫌疑垃圾评论的新评论的内容输入到贝叶斯算法中进行判定,若判定结果为该新评论为正常评论的概率达到预设的第三阈值时,则将该新评论判定为正常评论,否则判定为垃圾评论。本发明首先通过搜索引擎搜索原有评论库,根据相似度判断新评论是否为嫌疑垃圾评论,针对嫌疑垃圾评论再进一步通过贝叶斯算法进行判断,最终确定新评论是否为垃圾评论。本发明结合搜索引擎和贝叶斯算法,并且建立正常评论的训练集,因此能够在没有之前的垃圾评论内容做参照的情况下,在大量的评论中,智能的将垃圾评论挖掘识别出来。避免了纯贝叶斯算法需要依赖于以前的垃圾评论内容,不能智能识别出新的变种垃圾评论内容的现象。能够有效识别出垃圾评论,降低各种垃圾广告对用户的干扰,提升用户体验。
【附图说明】
[0029]图1是本发明实施例1方法的流程图。
[0030]图2是本发明实施例2系统的组成框图。
【具体实施方式】
[0031]下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
[0032]实施例1
[0033]如图1所示,本实施例公开了一种基于贝叶斯算法的垃圾评论识别方法,步骤如下:
[0034]选择一定数量并且确定为正常评论的内容加入到贝叶斯算法的训练集中进行训练;本步骤中选取输入到贝叶斯算法训练集中进行训练的正常评论的数量为10万条以上,一般是10至50万条。
[0035]以新评论的内容作为关键词,通过搜索引擎在原有评论库中进行搜索;
[0036]检测在原有评论库中搜索到的评论与新评论的相似度以及数量,当在原有评论库中搜索到和新评论的内容的相似度达到预设的
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1