恶意用户检测方法及装置的制造方法

文档序号:9911266阅读:681来源:国知局
恶意用户检测方法及装置的制造方法
【技术领域】
[0001] 本发明涉及数据挖掘领域,尤其涉及一种推荐系统中的恶意用户检测方法及装 置。
【背景技术】
[0002] 推荐系统(英文:Recommender Systems,缩写:RS)是一种为用户提供建议的智能 化软件工具,目前已被应用于电子商务、电影和视频网站、社交网络、个性化阅读以及广告 等诸多领域。
[0003] 产品的评分越来越影响用户对产品的选择,高质量的正向评分无疑会为商家带来 很多的经济收益;相反的,低评分则将给商家带来经济损失。基于这一商业目的,有些商家 为了促进产品的销售或打压其他商家的信誉,将会雇佣大量的用户来为自己的产品打高 分,同时给其他商家的产品低评分。目前国内已出现了通过指导恶意用户以促进特定产品 销售或打压其他产品信誉来获利的网站,如"刷客网"。
[0004]在诸多的电子商务推荐系统中,协同过滤推荐算法是应用最为广泛的推荐系统算 法。目前,国内外著名的推荐系统大多都是基于协同过滤推荐算法的,如亚马逊(英文: Amazon)网络书店、GroupLens、Ti Vo、Netflix、YouTube 和 Facebook 等。基于协同过滤推荐算 法的推荐方法大多基于用户-项目矩阵(英文:User-Item Matrix)进行推荐,该算法的优点 是可对多种类型的资源进行过滤,并能为用户发现新的感兴趣的信息,其核心思想是通过 找到与目标用户U t最相似的k个相似用户,根据k个相似用户对项目h的评分预测Ut对项目 的评分。但该算法给恶意用户可乘之机,这些恶意用户通过伪造出与目标用户U t相似的评 分向量,就能影响Ut的预测评分,恶意用户实施的这种攻击称为托攻击(英文shilling attack)〇
[0005]为了解决这一问题,国内外学者进行了大量工作。目前大多的方法是:首先总结用 户异于正常用户的行为特征,然后基于这些行为特征构造分类器来检测这些恶意用户。其 中最为典型的算法是美国DePaul大学Mobasher, Burke和Williams等学者系统定义了恶意 用户检测指标,并提出了平均、随机、分段、流行和Love/Hate五种攻击类型,并基于C4.5决 策树检测这些恶意用户。国内国防科技大学的李聪在其博士论文中从恶意用户行为特征的 群体效应作为切入点,构建了定量度量和相应的遗传优化目标函数来实现恶意用户检测。 华南大学的陈健等人在其专利《一种基于兴趣组合的协作推荐攻击检测系统及方法》提出 了基于用户兴趣组合挖掘模块的聚类分析方法检测恶意用户。上述方法通过捕捉恶意用户 的异常行为成功的检测出了大量的恶意用户。但现实中,为了逃脱已有算法的检测,恶意用 户通常将其评分方式接近于正常用户,目前的推荐系统恶意用户检测方法难以有效地检测 这些用户。如以亚马逊上的某一用户"chen-yanyan"为例,在其评论的商品中,其写了大 量的有用评论,并且购买了大量的商品,表面上看来其属于正常用户,但仔细分析其评分的 商品,可发现其所评分的所有商品均来自于同一商家"北京紫图图书有限公司",因此有理 由确认该用户是该公司的枪手。现实的推荐系统中,往往存在大量的无标记用户(推荐系统 真实存在的用户,不通过检测无法判读其是正常用户或恶意用户)和少量的标记用户(即人 工判别出的恶意用户),由于标记数据很少,如果直接用基于特征分类器,则检测效果不佳。

【发明内容】

[0006] 本发明的目的是解决现有的推荐系统恶意用户检测方法效果不佳的问题,通过基 于正例和无标记(英文:P〇sitive and Unlabeled,缩写:PU)学习方法来检测多种恶意用户 检测,其中P表示注入的恶意用户,而U表示无标记的推荐系统数据,并提出了一种新颖的反 例用户(英文Negative,即异于正例用户行为特征的用户)数据抽取方法;其次,本发明提 出的混合学习方法在集成Beyesian模型的基础上,将在恶意用户行为特征的基础上将用 户-商品关系集成到该传统机器学习算法中,以检测隐藏更深的恶意用户;最后在抽取可靠 反例用户的基础上,基于半监督学习来检测恶意用户,更好的利用标记数据和无标记数据, 并通过实验验证了其有效性。
[0007] 第一方面,本发明实施例提供了一种恶意用户检测方法,包括:
[0008] 将各恶意用户注入到推荐系统中,生成正例数据集合,所述正例数据集合中的每 个正例数据包括一组行为特征,所述一组行为特征构成一组向量;
[0009] 对多组所述向量进行离散化处理;
[0010] 根据所述离散化处理的结果,从所述推荐系统中的无标记用户中获取可靠反例用 户,生成反例数据集合;
[0011] 将所述正例数据集合和所述反例数据集合构成标记数据集,将所述无标记用户中 获取反例用户后的剩余用户构成无标记数据集,根据所述标记数据集和所述无标记数据 集,获取推荐系统中的恶意用户。
[0012] 优选地,所述恶意用户具体包括:随机注入、平均注入、流行随机注入、流行平均注 入、混合随机流行注入、混合平均流行注入。
[0013] 优选地,所述一组行为特征具体包括:熵、与近邻的平均相似度、长度变化、用户评 过分项目与其平均值之间的平均偏差、用户评最高分的项目集合与其他评分项目集合的偏 差、用户模型评过分项目与其平均值之间的二阶矩、用户模型对目标项目的关注度、流行排 序、所有用户的平均距离、分类熵。
[0014] 优选地,利用公式
算所述流行排序;
[0015]其中,PopRank为流行排序,I j为所有为商品j打过分的用户集合,Ri为用户Ui所有 评过分的商品集合,I R.j I为对项目L打过分的所有用户的个数,I Ri. I为用户m所有打过分 商品的个数。
[0016]优选地,利月
i!计算所述所有用户的平均距离;
[0017]其中,DistAvg为与所有用户的平均距离,N为所有用户个数,PCCij为用户Ui和用户 Uj的皮尔逊相关系数。
[0018]优选地,利月
I计算所述分类熵;
[0019] 其中,CatEnt为分类熵,Sig为用户m所评分商品中属于类别g的个数,1 < g <G,G为 商品类别总个数,S为用户m所评商品的总个数。
[0020] 第二方面,本发明实施例提供了一种恶意用户检测装置,包括:所述装置包括:注 入单元,处理单元,获取单元;
[0021] 所述注入单元,用于将各恶意用户注入到推荐系统中,生成正例数据集合,所述正 例数据集合中的每个正例数据包括一组行为特征,所述一组行为特征构成一组向量;
[0022] 所述处理单元,用于对多组所述向量进行离散化处理;
[0023] 所述获取单元,用于根据所述离散化处理的结果,从所述推荐系统中的无标记用 户中获取可靠反例用户,生成反例数据集合;
[0024] 所述获取单元还用于:将所述正例数据集合和所述反例数据集合构成标记数据 集,将所述无标记用户中获取反例用户后的剩余用户构成无标记数据集,根据所述标记数 据集和所述无标记数据集,获取推荐系统中的恶意用户。
[0025] 优选地,所述恶意用户具体包括:随机注入、平均注入、流行随机注入、流行平均注 入、混合随机流行注入、混合平均流行注入。
[0026] 优选地,所述一组行为特征具体包括:熵、与近邻的平均相似度、长度变化、用户评 过分项目与其平均值之间的平均偏差、用户评最高分的项目集合与其他评分项目集合的偏 差、用户模型评过分项目与其平均值之间的二阶矩、用户模型对目标项目的关注度、流行排 序、所有用户的平均距离、分类熵。
[0027]本发明通过将各恶意用户注入到推荐系统中,生成正例数据集合,所述正例数据 集合中的每个正例数据包括一组行为特征,所述一组行为特征构成一组向量;对多组所述 向量进行离散化处理;根据所述离散化处理的结果,从所述推荐系统中的无标记用户中获 取反例用户,生成反例数据集合;将所述正例数据集合和所述反例数据集合构成标记数据 集,将所述无标记用户中获取反例用户后的剩余用户构成无标记数据集,根据所述标记数 据集和所述无标记数据集,获取推荐系统中的恶意用户,从而检测到隐藏更深的恶意用户。
【附图说明】
[0028] 图1为本发明实施例一提供的恶意用户检测方法流程图;
[0029] 图2为本发明实施例提供的恶意用户注入模型示意图;
[0030] 图3为本发明实施例提供的整体框架图;
[0031 ]图
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1