一种挖掘作弊用户的方法与装置的制作方法

文档序号:6343971阅读:487来源:国知局
专利名称:一种挖掘作弊用户的方法与装置的制作方法
技术领域
本发明涉及计算机通信技术,特别涉及一种挖掘作弊用户的方法与装置。
背景技术
随着计算机通信技术的发展,尤其是3g网络和智能移动终端的发展,用户的网络生活越来越丰富,在网络上聊天、浏览新闻、看电影、玩游戏、搜索、购物、发布信息等,越来越成为网络生活的一部分,例如,用户通过登录社区,发布信息或回复其他用户提出的问题,可以进行信息交流与共享并获取相应积分。其中,社区是指一种由个人或者组织构成的社会网络结构体系,该社会网络结构体系中的人或者组织通过一种或者多种关系进行关联,这些关系包含但不限于友谊关系、亲戚关系、共同兴趣关系、金钱往来关系、喜恶关系等。社区可以包含但不限于博客社区、微博社区、论坛社区、问答社区等。在社区中,绝大多数社区用户通过社区,进行了有益的信息交流与共享,促进了社区的和谐发展,但也存在一些通过发表堆砌文字、广告或色情等内容,以增加自身曝光量或推广商品或进行网站宣传为目的的恶意用户,将这类用户称之为作弊用户,作弊用户对社区的环境、社区的和谐以及信息的传递产生非常恶劣的影响,从而降低了社区的信任度。因此,需要采用有效的反作弊方法识别作弊用户,以维护社区环境、保证信息的传递,使得反作弊在信息领域成为一个重要的研究方向。现有的反作弊方法通常是基于网页链接分析结合检测隐藏技术进行,简要来说,通过分析网页的锚文本内容、锚文本链接、隐藏文本的内容等信息,将综合的这些信息作为网页是否作弊的表征信息,通过采用贝叶斯分类等方法计算这些表征信息,获取与预先设置的作弊网页(集)的关联强度,当获取的关联强度超过预先设定的关联强度阈值时,将该关联强度对应的网页作为作弊网页。也就是说,通过贝叶斯分类等方法分析网页的锚文本内容、锚文本链接、隐藏文本的内容等信息,按照如下公式进行计算:
权利要求
1.一种挖掘作弊用户的方法,其特征在于,该方法包括:获取各用户表征信息;根据预先设置的计分策略计算各用户表征信息对应的用户作弊分数;将用户作弊分数超过预先设置的作弊分数阈值的用户确定为作弊用户。
2.如权利要求1所述的方法,其特征在于,所述用户表征信息包括用户发表内容、和/或,用户行为。
3.如权利要求2所述的方法,其特征在于,当所述用户表征信息包括用户发表内容时,所述根据预先设置的计分策略计算各用户表征信息对应的用户作弊分数包括:计算用户发表内容中各单次发表内容的作弊分数;根据各单次发表内容的作弊分数计算用户发表内容的作弊分数。
4.如权利要求3所述的方法,其特征在于,所述计算用户发表内容中各单次发表内容的作弊分数包括:根据用户单次发表内容对应的文档中包含的文本内容,分别计算文档中的堆砌程度得分、文本文档广告或色情词汇得分、锚文本上广告或色情词汇得分、链接作弊得分以及词频分布得分,并采用机器学习模型的方法计算单次发表内容对应的作弊分数。
5.如权利要求4所述的方法,其特征在于,所述计算文档中的堆砌程度得分包括:计算单次发表内容对应的文档中所有重复的片段数与该单次发表内容对应的文档中的所有片段数的商,所 述商为所述堆砌程度得分。
6.如权利要求4所述的方法,其特征在于,所述计算文本文档广告或色情词汇得分包括:Al、获取单次发表内容对应的文本文档中包含的广告及色情词汇数与单次发表内容对应的文本文档中包含的词汇数的商;A2、获取各广告及色情词汇长度的和与单次发表内容对应的文本文档的文本总长度的商;A3、将步骤Al与步骤A2中得到的商相乘,所得的积为所述文本文档广告或色情词汇得分。
7.如权利要求4所述的方法,其特征在于,所述计算锚文本上广告或色情词汇得分包括:B1、获取单次发表内容对应的锚文档中包含的广告及色情词汇数与单次发表内容对应的锚文档中包含的词汇数的商;B2、获取各广告及色情词汇长度的和与单次发表内容对应的锚文档的锚文本总长度的商;B3、将步骤BI与步骤B2中得到的商相乘,所得的积为所述锚文本上广告或色情词汇得分。
8.如权利要求4所述的方法,其特征在于,所述计算链接作弊得分包括:当锚文本链接指向的统一资源定位器在预先设置的黑名单中,设置所述链接作弊得分为I,否则,设置所述链接作弊得分为O。
9.如权利要求4所述的方法,其特征在于,所述计算词频分布得分包括:Cl、获取用户单次发表内容对应的文档中单个词汇的词频与用户单次发表内容对应的文档中包含的词汇总数的商; C2、获取用户单次发表内容对应的文档中单个词汇的词频与用户单次发表内容对应的文档中包含的词汇总数的商的对数; C3、分别将步骤Cl中得到的商与步骤C2中得到的商的对数相乘,所得的积为单个词汇的词频分布得分; C4、将所有由步骤C3所得的积相加,所得的和为所述的词频分布得分。
10.如权利要求4所述的方法,其特征在于,所述计算用户发表内容的作弊分数包括: D1、分别获取数值I与各单次发表内容对应的作弊分数的差; D2、计算步骤Dl中获取的各差的乘积,作为所述用户发表内容的作弊分数。
11.如权利要求3至10任一项所述的方法,其特征在于,当所述用户表征信息进一步包括用户行为时,所述根据预先设置的计分策略计算各用户表征信息对应的用户作弊分数进一步包括: 计算用户行为的作弊分数; 根据用户发表内容的作弊分数以及用户行为的作弊分数,计算用户作弊分数。
12.如权利要求11所述的方法,其特征在于,所述计算用户行为的作弊分数包括: 统计用户发表内容中所有文档的发表时间,得到一个时间序列,以设定的时间段为间隔,统计各时间段中的发表文档数,设时间序列被分成P个时间段,第i个时间段发表的文档数为I^ni中关于热点话题的文档数记为Ivni中原创的文档数记为Oi,则计算用户行为的作弊分数的公式为:
13.如权利要求2所述的方法,其特征在于,当所述用户表征信息包括用户行为时,所述根据预先设置的计分策略计算各用户表征信息对应的用户作弊分数包括: 计算用户行为的作弊分数; 根据用户行为的作弊分数,计算用户作弊分数。
14.如权利要求13所述的方法,其特征在于,所述计算用户行为的作弊分数包括: 统计用户发表内容中所有文档的发表时间,得到一个时间序列,以设定的时间段为间隔,统计各时间段中的发表文档数,设时间序列被分成P个时间段,第i个时间段发表的文档数为I^ni中关于热点话题的文档数记为Ivni中原创的文档数记为Oi,则计算用户行为的作弊分数的公式为:
15.一种挖掘作弊用户的装置,其特征在于,该装置包括:用户表征信息获取模块、用户作弊分数计算模块以及作弊用户判断模块,其中, 用户表征信息获取模块,用于获取各用户表征信息; 用户作弊分数计算模块,用于根据预先设置的计分策略计算各用户表征信息对应的用户作弊分数; 作弊用户判断模块,用于将超过预先设 置的作弊分数阈值的用户作弊分数对应的用户确定为作弊用户。
16.如权利要求15所述的装置,其特征在于,所述用户表征信息获取模块包括:用户发表内容获取单元、和/或,用户行为获取单元,其中, 用户发表内容获取单元,用于获取各用户发表内容; 用户行为获取单元,用于获取各用户行为。
17.如权利要求16所述的装置,其特征在于,所述用户作弊分数计算模块包括:内容作弊分数计算单元、行为作弊分数计算单元以及组合单元,其中, 内容作弊分数计算单元,用于根据预先设置的作弊策略计算出各用户发表内容的作弊分数; 行为作弊分数计算单元,用于基于用户行为计算用户行为的作弊分数; 组合单元,用于基于内容作弊分数计算单元以及行为作弊分数计算单元的结果,进行综合计算,得到用户的作弊分数。
18.如权利要求16所述的装置,其特征在于,所述用户作弊分数计算模块包括:内容作弊分数计算单元或行为作弊分数计算单元,其中, 内容作弊分数计算单元,用于根据预先设置的作弊策略计算出各用户发表内容的作弊分数,根据各用户发表内容的作弊分数,计算用户的作弊分数; 行为作弊分数计算单元,用于基于用户行为计算用户行为的作弊分数,根据用户行为的作弊分数,计算用户的作弊分数。
全文摘要
本发明公开了一种挖掘作弊用户的方法及装置。该方法包括获取各用户表征信息;根据预先设置的计分策略计算各用户表征信息对应的用户作弊分数;将用户作弊分数超过预先设置的作弊分数阈值的用户确定为作弊用户。应用本发明,可以有效识别作弊用户、提高社区的反作弊效率。
文档编号G06F17/30GK103077172SQ20111032942
公开日2013年5月1日 申请日期2011年10月26日 优先权日2011年10月26日
发明者张发喜, 陈洪亮, 杨志峰, 余衍炳, 杨娜 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1