基于语义相似度的垃圾评论过滤方法

文档序号:6401342阅读:532来源:国知局
专利名称:基于语义相似度的垃圾评论过滤方法
技术领域
本发明涉及一种垃圾评论过滤方法,具体是一种基于语义相似度的垃圾评论过滤方法。
背景技术
互联网的发展与普及深刻地改变了人们的生活和思维方式,网络已经成为当今人们获取知识、发布信息、交流沟通的主要工具。对于当今视频网站、博客、微博、电子商务等互动式模式的发展,使得学术界和互联网企业界对于评论中信息的挖掘越来越关注。评论中蕴含有很大的信息量,商品评论可以分析得出评论者对商品的购买表示值得还是不值得,视频的评论可以反映观看者对于视频的态度或者情感表达,博文的评论可以反映评论者对博文的观点以及对博主的情感表达。每天大量的垃圾评论被网友、商家、不良分子发表,严重影响用户对于评论信息的浏览,阻碍评论信息的挖掘,有效的评论分类可以帮助提高挖掘的正确性和准确率。

发明内容
本发明针对现有技术的不足,提供一种基于语义相似度的评论分类方法。
本发明方法具体包括以下步骤:
(O网络爬虫抓取视频的标题、标签、评论等文字信息。(2)对文字信息进行中文分词并过滤停用词。(3)使用规则简单过滤垃圾评论。(4)以HowNet词语相似度来扩展文本相似度并自适应更新主题特征向量来识别正常评论。所述的网络爬虫抓取视频的标题、标签、评论等文字信息,包括如下步骤:
A)在数据库中建立一张表VideoInf,包含Infld、Url、Title、Tag这4个字段,其中InfId为主键;建立另一张表VideoCom,包含Comld, Infld, Comment这3个字段,ComId为主键,InfId为外键。B)分析视频网站新闻频道首页的源代码,利用正则表达式获取URL保存到队列中。C)队列中获取一个URL,如果是视频播放地址,则将源码中对应的标题、标签存入VIdeoInf表中,将评论内容及相应视频的InfId存入VideoCom表中。如果是普通页面,重复B。所述的对文字信息进行中文分词并过滤停用词,包括如下步骤:
D)用户从VIdeoInf表中获取一个视频,将其的标题、标签、评论使用中科院ICTCLAS进行分词。E)对分完词的序列过滤停用词。所述的使用规则简单过滤垃圾评论,包括如下步骤:F)首先对于评论中的链接、电话、QQ、邮箱等信息分别用WEBSITE、TELEPHONE、QQNUM、EMAIL等专有词替换。G)分析评论语料,定义一个垃圾关键词库。计算评论中中英文字符与非规则字符
的比率B。H)若评论中多个词在垃圾关键词库中或者比率B大于设定阈值,则认为是垃圾评论。所述的以HowNet词语相似度来扩展文本相似度并自适应更新主题特征向量来识别正常评论,包括如下步骤:
I)根据视频的标题、标签建立视频的主题特征向量。J)根据评论建立该条评论的特征向量。K)根据HowNet词语相似度计算主题特征向量与评论特征向量的文本相似度,如果大于设定阈值则为正常评论,加入正常评论集合N中。L)对集合N的词语进行统计词频,分别对每个词进行分析并更新主题特征词权重,可以分为四类,分别是主题特征词、主题特征词的语义相关词、高频词、无关词。
M)重复执行步骤K、L,直到步骤K)没有正常评论可以识别则结束,而将未识别的评论定义为垃圾评论。本发明的有益效果:
第一,由于本发明设计了 k轮识别正常评论,所以能有效提高识别正常评论的正确率。第二,由于本发明设计了词语语义相似度来计算文本相似度,所以能更有效地提高评论与主题的相似度,识别更多的正常评论。


图1为系统流程 图2为评论分类流程 图3为主题特征词权重更新流程具体实施例方式下面结合附图,对本发明实现评论分类所采取的技术方案做进一步说明:
1、在数据库中建立一张表Videolnf,包含Infld、Url、Title、Tag这4个字段,其中InfId为主键,Url为视频的播放地址,Title为视频的标题,Tag为视频的标签;建立另一张表 VideoCom,包含 Comld, Infld, Comment 这 3 个字段,ComId 为主键,InfId 为外键。ComId为评论的ID, Comment为视频的内容。2、下面以优酷为例,获取优酷视频网站的新闻类视频信息。I)获取抓取种子URL的源代码,将普通页面的URL保存到普通页面队列,视频播放URL保存到文件下载队列;
2)从普通页面队列中获取一个URL,并重复I) ;3)从文件下载队列中获取一个URL,并获取该页面的源代码,通过正则表达式获取视频的标题、标签、评论信息,并存入Videolnf、VideoCom数据库表中。
3、根据图1所示,用户从Videolnf表中获取一个视频,将其标题、标签、评论使用中科院ICTCLAS进行分词并过滤停用词,使用TF*IDF计算标题、标签、评论中特征词的权重,标题、标签建立主题特征向量,评论建立评论特征向量。4、对评论中的链接、电话、QQ、邮箱信息分别用WEBSITE、TELEPHONE、QQNUM、EMAIL专有词替换;分析评论语料,定义一个垃圾关键词库;计算评论中中英文字符与非规则字
符的比率η ;若评论中多个词属于垃圾关键词库,则认为该条评论属于垃圾评论。若比率α
大于设定阈值,则认为该评论属于垃圾评论。否则属于未知评论。5、根据图2、3所示,I)将步骤3中分析得到的主题特征向量、评论特征向量计算评论与主题的文本相似度。若该相似度大于设定阈值,则认为属于正常评论并将其放入正常评论集合,否则将该评论放入未知评论集合。2)统计正常评论集中特征词的词频,并分析特征词。3)特征词分为四类,分别是主题特征词、主题特征词的近义词、高频词、无关词。若是主题特征词、主题特征词近义词、高频词,则更新主题特征词及其权重。4)重复1)、2)、
3),直到该轮没有正常评论 可以识别则停止过滤。将未识别的评论定义为垃圾评论。
权利要求
1.基于语义相似度的垃圾评论过滤方法,通过对评论特征词与主题特征词的语义相似度计算扩充评论与主题的文本相似度,来提高有效评论的识别率,其特征在于包括如下步骤: (1)网络爬虫抓取视频的文字信息,所述的文字信息包括标题、标签和评论; (2)对文字信息进行中文分词并过滤停用词; (3)使用规则简单过滤垃圾评论; (4)以HowNet词语相似度来扩展文本相似度并自适应更新主题特征向量来识别正常评论。
2.根据权利要求1所述的基于语义相似度的垃圾评论过滤方法,其特征是:网络爬虫抓取视频的文字信息,包括如下步骤: A)在数据库中建立一张表VideoInf,包含Infld、Url、Title、Tag这4个字段,其中InfId为主键;建立另一张表VideoCom,包含Comld, Infld, Comment这3个字段,ComId为主键,InfId为外键; B)分析视频网站新闻频道首页的源代码,利用正则表达式获取URL保存到队列中; C )队列中获取一个U RL,如果是视频播放地址,则将源码中对应的标题、标签存入VIdeoInf表中,将评论内容及相应视频的InfId存入VideoCom表中;如果是普通页面,重复B)。
3.根据权利要求1所述的基于语义相似度的垃圾评论过滤方法,其特征是:对文字信息进行中文分词并过滤停用词,包括如下步骤: D)用户从VIdeoInf表中获取一个视频,将其标题、标签、评论使用中科院ICTCLAS进行分词; E)对分完词的序列过滤停用词。
4.根据权利要求1所述的基于语义相似度的垃圾评论过滤方法,其特征是:使用规则简单过滤垃圾评论,包括如下步骤: F)首先对于评论中的链接、电话、QQ、邮箱信息分别用WEBSITE、TELEPHONE、QQNUM、EMAIL专有词替换; G)分析评论语料,定义一个垃圾关键词库;计算评论中中英文字符与非规则字符的比率Cf ; H)若评论中多个词在垃圾关键词库中或者比率α大于设定阈值,则认为是垃圾评论。
5.根据权利要求1所述的基于语义相似度的垃圾评论过滤方法,其特征是:以HowNet词语相似度来扩展文本相似度并自适应更新主题特征向量来识别正常评论,包括如下步骤: I)根据视频的标题、标签建立视频的主题特征向量; J)根据评论建立该条评论的特征向量; K)根据HowNet词语相似度计算主题特征向量与评论特征向量的文本相似度,如果大于某个阈值则为正常评论,加入正常评论集合N中; L)对集合N的词语进行统计词频,分别对每个词进行分析并更新主题特征词权重,可以分为四类,分别是:主题特征词、主题特征词的语义相关词、高频词、无关词; M)重复执行步骤K)、L),直 到k轮识别结束。
全文摘要
本发明涉及一种基于语义相似度的垃圾评论过滤方法。现行的垃圾评论过滤都是基于规则、垃圾词库的匹配进行过滤。本发明首先本发明涉及一种基于语义相似度的垃圾评论过滤方法。现行的垃圾评论过滤都是基于规则、垃圾词库的匹配进行过滤。本发明首先使用规则简单过滤垃圾评论。其次,以HowNet词语相似度来扩展文本相似度并自适应更新主题特征向量来识别正常评论。最后,以褒贬词汇相似度计算评论情感倾向性来识别情感评论。由于本发明设计了k轮语义相似度识别正常评论,所以能更容易识别有效评论,提高识别的准确性。
文档编号G06F17/30GK103226576SQ20131011061
公开日2013年7月31日 申请日期2013年4月1日 优先权日2013年4月1日
发明者姜明, 沈幸峰, 陈婵, 王兴起, 汤景凡, 张旻 申请人:杭州电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1