挖掘作弊数据的方法和系统的制作方法

文档序号:6435969阅读:753来源:国知局
专利名称:挖掘作弊数据的方法和系统的制作方法
技术领域
本发明涉及数据挖掘技术,特别涉及挖掘作弊数据的方法和系统。
背景技术
目前,在网络社区中存在大量用户参与创造的内容(UGC User GeneratedContent)比如微博、博客等。由于用户的层次和目的不同,就会造成网络社区中的数据数量巨大、且出现质量良莠不齐的问题。比如,有一些用户在网络社区内发布作弊数据,该作弊数据可为低质量数据比如色情数据等,也可为通过某种手段达到增加页面曝光量或推广商品或网站(包括微博、博客、说说等)的数据,这影响了网络社区的发展。因此,挖掘网络社区中作弊数据至关重要。下面给出现有常用的挖掘网络社区作弊数据的方案方案一该方案一采用人工审核的方式,即由工作人员进行人工审核,来确定用户在网络社区发布的数据是否属于作弊数据。但是,这种人工审核的方式成本太高,难以处理每天呈几何级快速增长的UGC,不能满足需求。方案二该方案二采用传统的反作弊方式,具体为基于链接分析,挖掘出通过交换链接或者购买链接获得好的网页排名的数据,确定该挖掘出的数据为作弊数据。可以看出,该方案二相对于方案一而言,减少人工干预,降低了成本。但是,由于网络社区内UGC之间的链接信息相对比较稀疏,很难构建一张链接图,所以方案二中单一的链接分析方法不太适用,不能准确挖掘出网络社区中的作弊数据。因此,一种在减少人工干预基础上准确挖掘出网络社区中作弊数据的方法是当前亟待解决的技术问题。

发明内容
本发明提供了挖掘作弊数据的方法和系统,以便在减少人工干预基础上准确挖掘出网络社区中作弊数据。本发明提供的技术方案包括一种挖掘作弊数据的方法,该方法包括从当前UGC数据中提取出作弊特征;利用提取出的作弊特征计算当前UGC数据的作弊分数;判断所述作弊分数是否在设定的用于表示作弊数据的数值范围内,如果是,则确定所述当前UGC数据为作弊数据,对该作弊数据进行打压。一种挖掘作弊数据的系统,该系统包括特征提取装置,用于从当前UGC数据中提取出作弊特征;作弊数据挖掘装置,用于利用提取出的作弊特征计算当前UGC数据的作弊分数;作弊数据判断装置,用于判断所述作弊分数是否在设定的用于表示作弊数据的数值范围内,如果是,则确定所述当前UGC数据为作弊数据,对该作弊数据进行打压。由以上技术方案可以看出,本发明中,通过融合从当前UGC数据中提取出的作弊特征计算作弊分数,利用该作弊分数确定当前UGC数据是否为作弊数据,这避免人工参与,更不需要基于当前UGC数据的链接分析确定作弊数据,实现了在减少人工干预基础上准确挖掘出网络社区中作弊数据的目的,节省了成本。


图1为本发明实施例提供的基本流程图;图2为本发明实施例提供的机器学习模型确定示意图;图3为本发明实施例提供的机器学习模型效果检测示意图;图4为本发明提供的数据挖掘系统结构图。
具体实施例方式为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。本发明提供的方法包括图1所示的流程参见图1,图1为本发明实施例提供的基本流程图。如图1所示,该流程可包括以下步骤步骤101,从当前UGC数据中提取出作弊特征。本步骤101中,当前UGC数据可为网页快照,也可为网页源文件内容。其中,所述网页快照可为网页中除去html标签之外的内容,网页源文件内容可为网页源码。在当前UGC数据为网页快照时,步骤101提取出的作弊特征至少包括重复内容堆砌程度和/或联系方式数量和/或广告得分和/或低质量词汇得分。其中,重复内容堆砌程度通过下式计算
7Ddupscore -—; 这里,dupscore为重复内容堆砌程度,D为当前UGC数据中重复内容堆砌窗口的个数,N是当前UGC数据中的窗口总数。基于此,本发明可通过设置合适的阈值能够在一定程度上解决由于重复内容堆砌程度而导致的作弊问题。至于联系方式数量,本发明中,联系方式主要包括即时通信账号,手机号,电话号,邮箱等,其可通过模式匹配进行识别。至于广告得分和/或低质量词汇得分,其可采用同样的算法计算。以广告为例,则广告得分可通过下式计算
权利要求
1.一种挖掘作弊数据的方法,该方法应用于存在用户参与创造的内容UGC的网络社区中,其特征在于,该方法包括 从当前UGC数据中提取出作弊特征; 利用提取出的作弊特征计算当前UGC数据的作弊分数; 判断所述作弊分数是否在设定的用于表示作弊数据的数值范围内,如果是,则确定所述当前UGC数据为作弊数据,对该作弊数据进行打压。
2.根据权利要求1所述的方法,其特征在于,所述当前UGC数据为网页快照; 所述作弊特征至少包括重复内容堆砌程度和/或联系方式数量和/或广告得分和/或低质量词汇得分。
3.根据权利要求1所述的方法,其特征在于,所述当前UGC数据为网页源文件内容; 所述作弊特征至少包括页面链接数量。
4.根据权利要求1至3任一所述的方法,其特征在于,所述当前UGC数据的作弊分数是由预先确定的作弊数据挖掘装置利用提取出的作弊特征计算出的,所述作弊数据挖掘装置通过以下步骤确定 A,利用已收集的训练数据集中的训练UGC数据建立作弊数据挖掘装置,将所述作弊数据挖掘装置作为当前作弊数据挖掘装置; B,利用所述当前作弊数据挖掘装置计算已收集的测试数据集中每一测试UGC数据的作弊分数; C,利用每一测试UGC数据的作弊分数和该测试UGC数据被预先标注的作弊分数计算所述测试数据集的损耗值; D,判断所述损耗值是否满足当前挖掘作弊数据的需求,如果是,则确定当前作弊数据挖掘装置用于后期计算UGC数据的作弊分数,如果否,则优化所述作弊数据挖掘装置,将优化后的作弊数据挖掘装置作为当前作弊数据挖掘装置,返回步骤B。
5.根据权利要求4所述的方法,其特征在于,步骤A中的建立包括 从所述训练数据集中的每一训练UGC数据中提取出作弊特征,并将提取出的作弊特征转换成向量的形式,得到作弊特征向量; 利用每一训练UGC数据被预先标注的作弊分数和该训练UGC数据的作弊特征向量建立作弊数据挖掘装置。
6.一种挖掘作弊数据的系统,该系统应用于存在用户参与创造的内容UGC的网络社区中,其特征在于,该系统包括 特征提取装置,用于从当前UGC数据中提取出作弊特征; 作弊数据挖掘装置,用于利用提取出的作弊特征计算当前UGC数据的作弊分数; 作弊数据判断装置,用于判断所述作弊分数是否在设定的用于表示作弊数据的数值范围内,如果是,则确定所述当前UGC数据为作弊数据,对该作弊数据进行打压。
7.根据权利要求6所述的系统,其特征在于,所述当前UGC数据为网页快照; 所述作弊特征至少包括重复内容堆砌程度和/或联系方式数量和/或广告得分和/或低质量词汇得分。
8.根据权利要求6所述的系统,其特征在于,所述当前UGC数据为网页源文件内容; 所述作弊特征至少包括页面链接数量。
9.根据权利要求6至8任一所述的系统,其特征在于,所述作弊数据挖掘装置包括 建立单元,用于利用已收集的训练数据集中的训练UGC数据建立作弊数据挖掘装置,将所述作弊数据挖掘装置作为当前作弊数据挖掘装置; 分数计算单元,用于利用所述当前作弊数据挖掘装置计算已收集的测试数据集中每一测试UGC数据的作弊分数; 损耗计算单元,用于利用每一测试UGC数据的作弊分数和该测试UGC数据被预先标注的作弊分数计算所述测试数据集的损耗值; 判断单元,判断所述损耗值是否满足当前挖掘作弊数据的需求,如果是,则确定当前作弊数据挖掘装置用于后期计算UGC数据的作弊分数,如果否,则优化所述作弊数据挖掘装置,将优化后的作弊数据挖掘装置作为当前作弊数据挖掘装置,触发所述分数计算单元计算作弊分数。
10.根据权利要求9所述的系统,其特征在于,所述建立单元包括 转换子单元,用于从所述训练数据集中的每一训练UGC数据中提取出作弊特征,并将提取出的作弊特征转换成向量的形式,得到作弊特征向量; 建立子单元,用于利用每一训练UGC数据被预先标注的作弊分数和该训练UGC数据的作弊特征向量建立作弊数据挖掘装置。
全文摘要
本发明提供了挖掘作弊数据的方法和系统。其中,该方法包括从当前UGC数据中提取出作弊特征;利用提取出的作弊特征计算当前UGC数据的作弊分数;判断所述作弊分数是否取值为设定的用于表示作弊数据的数值范围内,如果是,则确定所述当前UGC数据为作弊数据,对该作弊数据进行打压。
文档编号G06F17/30GK103064850SQ20111032040
公开日2013年4月24日 申请日期2011年10月20日 优先权日2011年10月20日
发明者陈洪亮, 张发喜, 杨志峰, 余衍炳, 杨娜 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1