恶意用户检测方法及装置的制造方法

文档序号：9911266阅读：681来源：国知局

恶意用户检测方法及装置的制造方法
【技术领域】
[0001] 本发明涉及数据挖掘领域，尤其涉及一种推荐系统中的恶意用户检测方法及装置。
【背景技术】
[0002] 推荐系统（英文:Recommender Systems，缩写:RS)是一种为用户提供建议的智能化软件工具，目前已被应用于电子商务、电影和视频网站、社交网络、个性化阅读以及广告等诸多领域。
[0003] 产品的评分越来越影响用户对产品的选择，高质量的正向评分无疑会为商家带来很多的经济收益;相反的，低评分则将给商家带来经济损失。基于这一商业目的，有些商家为了促进产品的销售或打压其他商家的信誉，将会雇佣大量的用户来为自己的产品打高分，同时给其他商家的产品低评分。目前国内已出现了通过指导恶意用户以促进特定产品销售或打压其他产品信誉来获利的网站，如"刷客网"。
[0004]在诸多的电子商务推荐系统中，协同过滤推荐算法是应用最为广泛的推荐系统算法。目前，国内外著名的推荐系统大多都是基于协同过滤推荐算法的，如亚马逊（英文： Amazon)网络书店、GroupLens、Ti Vo、Netflix、YouTube 和 Facebook 等。基于协同过滤推荐算法的推荐方法大多基于用户-项目矩阵(英文:User-Item Matrix)进行推荐，该算法的优点是可对多种类型的资源进行过滤，并能为用户发现新的感兴趣的信息，其核心思想是通过找到与目标用户U t最相似的k个相似用户，根据k个相似用户对项目h的评分预测Ut对项目的评分。但该算法给恶意用户可乘之机，这些恶意用户通过伪造出与目标用户U t相似的评分向量，就能影响Ut的预测评分，恶意用户实施的这种攻击称为托攻击（英文shilling attack)〇
[0005]为了解决这一问题，国内外学者进行了大量工作。目前大多的方法是:首先总结用户异于正常用户的行为特征，然后基于这些行为特征构造分类器来检测这些恶意用户。其中最为典型的算法是美国DePaul大学Mobasher, Burke和Williams等学者系统定义了恶意用户检测指标，并提出了平均、随机、分段、流行和Love/Hate五种攻击类型，并基于C4.5决策树检测这些恶意用户。国内国防科技大学的李聪在其博士论文中从恶意用户行为特征的群体效应作为切入点，构建了定量度量和相应的遗传优化目标函数来实现恶意用户检测。华南大学的陈健等人在其专利《一种基于兴趣组合的协作推荐攻击检测系统及方法》提出了基于用户兴趣组合挖掘模块的聚类分析方法检测恶意用户。上述方法通过捕捉恶意用户的异常行为成功的检测出了大量的恶意用户。但现实中，为了逃脱已有算法的检测，恶意用户通常将其评分方式接近于正常用户，目前的推荐系统恶意用户检测方法难以有效地检测这些用户。如以亚马逊上的某一用户"chen-yanyan"为例，在其评论的商品中，其写了大量的有用评论，并且购买了大量的商品，表面上看来其属于正常用户，但仔细分析其评分的商品，可发现其所评分的所有商品均来自于同一商家"北京紫图图书有限公司"，因此有理由确认该用户是该公司的枪手。现实的推荐系统中，往往存在大量的无标记用户(推荐系统真实存在的用户，不通过检测无法判读其是正常用户或恶意用户）和少量的标记用户（即人工判别出的恶意用户），由于标记数据很少，如果直接用基于特征分类器，则检测效果不佳。

【发明内容】

[0006] 本发明的目的是解决现有的推荐系统恶意用户检测方法效果不佳的问题，通过基于正例和无标记(英文:P〇sitive and Unlabeled,缩写:PU)学习方法来检测多种恶意用户检测，其中P表示注入的恶意用户，而U表示无标记的推荐系统数据，并提出了一种新颖的反例用户（英文Negative，即异于正例用户行为特征的用户）数据抽取方法;其次，本发明提出的混合学习方法在集成Beyesian模型的基础上，将在恶意用户行为特征的基础上将用户-商品关系集成到该传统机器学习算法中，以检测隐藏更深的恶意用户;最后在抽取可靠反例用户的基础上，基于半监督学习来检测恶意用户，更好的利用标记数据和无标记数据，并通过实验验证了其有效性。
[0007] 第一方面，本发明实施例提供了一种恶意用户检测方法，包括：
[0008] 将各恶意用户注入到推荐系统中，生成正例数据集合，所述正例数据集合中的每个正例数据包括一组行为特征，所述一组行为特征构成一组向量；
[0009] 对多组所述向量进行离散化处理；
[0010] 根据所述离散化处理的结果，从所述推荐系统中的无标记用户中获取可靠反例用户，生成反例数据集合；
[0011] 将所述正例数据集合和所述反例数据集合构成标记数据集，将所述无标记用户中获取反例用户后的剩余用户构成无标记数据集，根据所述标记数据集和所述无标记数据集，获取推荐系统中的恶意用户。
[0012] 优选地，所述恶意用户具体包括:随机注入、平均注入、流行随机注入、流行平均注入、混合随机流行注入、混合平均流行注入。
[0013] 优选地，所述一组行为特征具体包括:熵、与近邻的平均相似度、长度变化、用户评过分项目与其平均值之间的平均偏差、用户评最高分的项目集合与其他评分项目集合的偏差、用户模型评过分项目与其平均值之间的二阶矩、用户模型对目标项目的关注度、流行排序、所有用户的平均距离、分类熵。
[0014] 优选地，利用公式
算所述流行排序；
[0015]其中，PopRank为流行排序，I j为所有为商品j打过分的用户集合，Ri为用户Ui所有评过分的商品集合，I R.j I为对项目L打过分的所有用户的个数，I Ri. I为用户m所有打过分商品的个数。
[0016]优选地，利月
i!计算所述所有用户的平均距离；
[0017]其中，DistAvg为与所有用户的平均距离，N为所有用户个数，PCCij为用户Ui和用户 Uj的皮尔逊相关系数。
[0018]优选地，利月
I计算所述分类熵；
[0019] 其中，CatEnt为分类熵，Sig为用户m所评分商品中属于类别g的个数，1 < g <G，G为商品类别总个数，S为用户m所评商品的总个数。
[0020] 第二方面，本发明实施例提供了一种恶意用户检测装置，包括:所述装置包括:注入单元，处理单元，获取单元；
[0021] 所述注入单元，用于将各恶意用户注入到推荐系统中，生成正例数据集合，所述正例数据集合中的每个正例数据包括一组行为特征，所述一组行为特征构成一组向量；
[0022] 所述处理单元，用于对多组所述向量进行离散化处理；
[0023] 所述获取单元，用于根据所述离散化处理的结果，从所述推荐系统中的无标记用户中获取可靠反例用户，生成反例数据集合；
[0024] 所述获取单元还用于：将所述正例数据集合和所述反例数据集合构成标记数据集，将所述无标记用户中获取反例用户后的剩余用户构成无标记数据集，根据所述标记数据集和所述无标记数据集，获取推荐系统中的恶意用户。
[0025] 优选地，所述恶意用户具体包括:随机注入、平均注入、流行随机注入、流行平均注入、混合随机流行注入、混合平均流行注入。
[0026] 优选地，所述一组行为特征具体包括:熵、与近邻的平均相似度、长度变化、用户评过分项目与其平均值之间的平均偏差、用户评最高分的项目集合与其他评分项目集合的偏差、用户模型评过分项目与其平均值之间的二阶矩、用户模型对目标项目的关注度、流行排序、所有用户的平均距离、分类熵。
[0027]本发明通过将各恶意用户注入到推荐系统中，生成正例数据集合，所述正例数据集合中的每个正例数据包括一组行为特征，所述一组行为特征构成一组向量;对多组所述向量进行离散化处理;根据所述离散化处理的结果，从所述推荐系统中的无标记用户中获取反例用户，生成反例数据集合;将所述正例数据集合和所述反例数据集合构成标记数据集，将所述无标记用户中获取反例用户后的剩余用户构成无标记数据集，根据所述标记数据集和所述无标记数据集，获取推荐系统中的恶意用户，从而检测到隐藏更深的恶意用户。
【附图说明】
[0028] 图1为本发明实施例一提供的恶意用户检测方法流程图；
[0029] 图2为本发明实施例提供的恶意用户注入模型示意图；
[0030] 图3为本发明实施例提供的整体框架图；
[0031 ]图

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王有权;曹杰;潘迪;陶海成;朱桂祥;
技术所有人：南京理工大学;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。