一种基于关系的垃圾评论检测方法

文档序号:6581600阅读:383来源:国知局
专利名称:一种基于关系的垃圾评论检测方法
技术领域
本发明涉及一种基于关系的垃圾评论检测的方法,主要是分析评论者、评论以及店家三者之间的相互关系特征,并提出了基于这个关系的模型,将这个模型和根据三者的其他特征所得到的模型相结合,达到对垃圾评论进行检测的目的。主要解决了当今技术为垃圾评论检测所提出的模型的单一性和局限性等问题,属于机器学习和数据挖掘领域。
背景技术
网上购物评论为顾客比较商品质量,店家服务和许多其他方面提供了有价值的信息。但现在出现垃圾评论者,他们的目的是通过发布虚假或不公平的评论,误导正常的顾客对商品或店家的印象。比如职业差评师,顾名思义,就是靠给别人差评生活的人,是由淘宝网催生的新兴职业。在更广阔的领域,大多数关于垃圾活动的研究主要集中在网页和邮件领域.网页上的垃圾行为分为两大类垃圾内容和垃圾链接。垃圾链接是在超链接上的垃圾行为,由于评论中一般不存在链接,所以垃圾链接不会出现在垃圾评论中。内容垃圾是指在网页中添加不相关的文字,以此欺骗搜索引擎。评论者不会在他们的评论中添加不相关的文字。垃圾邮件通常是指发送未经同意的商业广告。尽管在评论中会出现广告,但数量毕竟很少。前期的垃圾评论检测算法都是使用评论者的行为辨别垃圾评论者,例如,评论文本的相似度,评分的相似度和偏差,垃圾评论的商品数量等。根据已有的研究,这些行为对特定类型的垃圾评论活动有效。例如,评论者在对相同商品的各种评论中使用大量的相似文本,评论者在短期内频繁的给不同的商品的评分异常的高或低,这个评论者很可能就是垃圾评论者。Nitin和Liu于2008年首次提出了关于垃圾评论检测的问题。将垃圾评论分成三种类型不真实的评论,只针对品牌的评论,没有评论内容的评论。使用监听的方法检测垃圾评论首先,抽取一个关于评论,评论者和商品的特征集;然后,主要使用文本相似度和一些人工手段标识垃圾评论。基于这些特征和训练数据构造一个分类器,用于检测垃圾评论。该方法很大程度依赖于文本相似度,只对这种类型的垃圾评论行为有效果。Jindal于2010年提出一种使用挖掘意外规则的算法检测垃圾评论。将每条评论看成与某个评价类相关的记录,这个评论类包括正面的评价类,否定的评价类以及中立的评价类。使用意外规则挖掘算法生成一个意外规则列表。然而这个方法不能区分真正的垃圾评论者,只能找到一些作为意外规则的奇怪行为。Lim在2010年提出另一种基于评论者行为的垃圾评论检测方法。他们发现了许多垃圾评论行为的特征,例如,单一商品或一组商品上的各种评价或评论以及评分偏差。每个评论者在这些特征上获得不同的分数,再将这些分数进行线性结合,最后的总得分就是这个评论者的怀疑度。这个方法是非监督的,节省了许多人工标识的花费。然而,根据他们的研究本质上还是依赖于文本相似度。因此,也只能用于一些特殊类型的垃圾评论检测。以上的各种方法的不足之处还在于,都只研究利用垃圾评论的文本或评分特征,这具有局限性。因此,迫切需要一种新的方法来检测垃圾评论。因为在网购中,评论者,评论,店家三者是不可孤立的个体,三者间存在许多内在的关系。因此找出这三者之间的关系,并将其应用到垃圾评论检测工作中,再找出该特征与其他行为特征的依赖关系,这将大大提高检测工作的精确度。

发明内容
技术问题本发明的目的是提供一种新颖的基于关系的垃圾评论检测的方法。针对评论者、评论以及店家三者之间的关系特征,利用这个特征进行建模,将这个模型和根据三者的固有特征所得到的模型相结合,得到三个分别代表评论者、评论以及店家的相互联系的模型。最后,利用这些模型得到评论者的可信度、评论的诚实度以及店家的可靠度,根 据一定的标准以达到检测垃圾评论的目的。技术方案本发明提出的基于关系的垃圾评论检测方法,是一种基于网购的评论者,评论以及店家的关系特征的检测方法。提出了评论者的可信度,评论的诚实度以及店家的可靠度的概念,并引出了三者相互关系评论者所写的评论的诚实度越高,他的可信度就越高;店家拥有的来自可信的评论者的诚实评论越多,他的可靠度就越高;评论被其他诚实评论支持的个数越多,他的诚实度就越高。在当前垃圾评论检测的方法中,第一次提出这样的迭代关系,并将其应用到实际的检测工作中。利用这个的关系特征进行建模,将这个模型和三者的其他特征所得到的模型相结合,得到改进后的用于垃圾评论检测的模型。基于关系的垃圾评论检测方法主要分为以下步骤步骤I)计算评论的诚实度分数步骤1.1)输入评论集合信息步骤1. 2)获取所有评论的评分值和评论时间;步骤1. 3)计算评分的平均值和最早评论时间;步骤L 4)获取一个评论信息;步骤1. 5)判断评论信息是否为空,如果不为空,则转步骤1. 6),否则,转步骤1.10);步骤1. 6)计算评论诚实度分数步骤1. 6.1)获取该评论的评分值;步骤1. 6. 2)根据步骤1. 3)的平均值,计算评分差;步骤1. 6. 3)获取该评论的评论时间;步骤1. 6. 4)根据步骤1. 3)的最早评论时间,计算评论时间差;步骤1. 6. 5)获取该评论的评论文本;步骤1. 6. 6)根据余弦定理,计算评论文本的文本相似度;步骤1. 6. 7)根据步骤1. 6. 2)的评分差IRD、步骤1. 6. 4)的时间差IETF、步骤1.6.6)的相似度ICS,计算评论的诚实度分数A A = ^1IRD+^2ICS+^3IETF (I)其中β 17 β 2,β 3 为常量,且满足 β i+β 2+β 3 = I ;步骤1. 7)更新评论的诚实度属性;步骤1. 8)获取下一个评论信息;
步骤1. 9)判断该评论信息是否为空,若为空,转步骤1. 10),否则,转步骤1. 2);步骤1. 10)输出评论诚实度分数;步骤2 )计算店家可靠度步骤2.1)设置变量h=l;步骤2. 2 )获取第h个店家信息;步骤2. 3)判断店家是否为空,若不为空,转步骤2. 4),否则,转步骤2. 8);步骤2. 4)计算店家的可靠度分数步骤2. 4.1)获取该店家的商品相符度、卖方服务、商品服务、商品价格、货物配送的量化信息;步骤2. 4. 2)计算“S”型得分
权利要求
1.一种基于关系的垃圾评论检测方法,其特征在于该方法主要分为以下步骤步骤I)计算评论的诚实度分数步骤1.1)输入评论集合信息步骤1. 2)获取所有评论的评分值和评论时间;步骤1. 3)计算评分的平均值和最早评论时间;步骤1. 4)获取一个评论信息;步骤1. 5)判断评论信息是否为空,如果不为空,则转步骤1. 6),否则,转步骤1. 10); 步骤1. 6)计算评论诚实度分数步骤1. 6.1)获取该评论的评分值;步骤1. 6. 2)根据步骤1. 3)的平均值,计算评分差;步骤1. 6. 3)获取该评论的评论时间;步骤1. 6. 4)根据步骤1. 3)的最早评论时间,计算评论时间差;步骤1. 6. 5)获取该评论的评论文本;步骤1. 6. 6)根据余弦定理,计算评论文本的文本相似度;步骤1. 6. 7)根据步骤1. 6. 2)的评分差IRD、步骤1. 6. 4)的时间差IETF、步骤1. 6. 6) 的相似度ICS,计算评论的诚实度分数A
全文摘要
利用基于关系的垃圾评论检测方法,是一种基于网购的评论者,评论以及店家的关系特征的检测方法。提出了评论者的可信度,评论的诚实度以及店家的可靠度的概念,并引出了三者相互关系评论者所写的评论的诚实度越高,他的可信度就越高;店家拥有的来自可信的评论者的诚实评论越多,他的可靠度就越高;评论被其他诚实评论支持的个数越多,他的诚实度就越高。第一次提出这样的迭代关系,并将其应用到实际的检测工作中。利用关系特征建模,并将这个模型和三者的其他特征所得到的模型相结合,得到改进后的用于垃圾评论检测的模型。
文档编号G06F19/00GK103020482SQ20131000258
公开日2013年4月3日 申请日期2013年1月5日 优先权日2013年1月5日
发明者张卫丰, 王云, 周国强, 张迎周, 王子元, 周国富, 钱小燕, 许碧欢, 陆柳敏 申请人:南京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1