一种在线社会媒体系统中检测恶意评分用户的方法

文档序号:6633942阅读:188来源:国知局
一种在线社会媒体系统中检测恶意评分用户的方法
【专利摘要】本发明公开了一种在线社会媒体系统中检测恶意评分用户的方法。涉及一种针对评分反馈的社会媒体系统中检测恶意评分用户的方法。首先,根据用户对产品的评分进行聚类,计算归一化的用户置信度。其次,根据用户置信度计算用户评分的可靠度,得到恶意评分用户候选列表。最后,结合用户评分和产品质量的偏离程度对候选恶意评分用户排序,得到最终的恶意评分用户列表。本发明的方法在计算的准确性和效率方面具有优势,可应用于大规模在线社会媒体网站中。
【专利说明】一种在线社会媒体系统中检测恶意评分用户的方法

【技术领域】
[0001] 本发明涉及在线社会媒体系统中检测恶意评价用户的方法,特别涉及一种针对评 分反馈的社会媒体系统中检测恶意评分用户的方法。

【背景技术】
[0002] Internet作为商务的载体,已成为必不可少的信息采集、传输和交换的工具,信息 时代的到来为基于Internet的IT服务业注入了新的活力。其中社会媒体更是备受瞩目, 已被公认为是21世界格局的新型经济模式和催化剂,有"朝阳产业、绿色产业"之称。社会 媒体是网络化的新型经济活动,正以前所未有的速度迅猛发展着,已经成为国家增强经济 竞争实力,赢得全球资源配置优势的有效手段。通过社会媒体人们不再是面对面的、看着实 实在在的货物、靠纸介质单据(包括现金)进行买卖交易,而是通过网络呈现琳琅满目的商 品信息,完善的物流配送系统和方便安全的资金结算系统进行交易。社会媒体中存在数以 万计的电商和数以亿计消费者,如何建立有效的信誉评价机制、营造有序竞争的环境、合理 引导消费者就显得格外重要。
[0003] 当前大部分的信誉评价系统都基于用户对产品进行评论或评分等信息,用户对所 购买的产品发表评论或进行满意度评分表达了用户对某件产品的看法和满意程度。这些评 论信息为厂家以及潜在消费者提供了宝贵的信息资源。厂家通过分析这些信息,可以及时 了解市场现状以及消费者的反馈意见,潜在消费者也可以以此作为购买产品的重要参考依 据。潜在的消费者是否决定购买产品,最直接也是最重要的参考依据往往是产品本身获得 的评分的高低和评论内容的好坏。对于大型的社会媒体交易平台,为潜在用户推荐产品的 推荐系统绝大多数都基于用户对产品的历史评分数据和评论内容。如果某个商品的大多数 评论都是正面的,那么该用户有非常大的可能性购买该产品;如果大多数评论是负面的,那 么这个商品几乎不会被购买。现实的情况下,某些不法商家为了增大自己的利益,雇佣一批 人对某些商品进行恶意评论,其评论内容与商品实际价值不符,或恶意吹捧或恶意诋毁。恶 意评分和评论信息影响了评论信息的参考价值,严重误导了消费者的选择,削弱了正常用 户的评分和评论信息的存在意义,使得消费者逐渐丧失对社会媒体产品评价系统的信任, 进而危及并最终损害了整个社会媒体行业。由此可见,信誉评价系统中的评分数据和评论 信息的真实性和有效性对于社会媒体的良性竞争意义非凡,如何甄别出信誉评价系统中的 恶意评分用户的重要程度不言而喻。
[0004] 为了检测出作弊评论或恶意评分的用户,目前主要有两种方法:
[0005] 第一种方法是人工标记。通过人为地观察评价用户的评分、评论内容以及其他评 论行为,来判断用户是否属于作弊评论用户。但这种检测方法带有很强的主观性,而且由于 需要处理的数据量大,人工方法很难真正应用于大规模的社会媒体系统中恶意评价用户的 检测。
[0006] 第二种方法是利用计算机自动识别。首先标记典型的作弊评论用户,再通过机器 学习算法对未标记的用户进行分类。比较典型的做法有两种,一是在有文字评论的评价中 判断用户评论内容的相似性,另一种是计算用户评分与产品固有质量偏离程度。
[0007] 如,2011 年 EPL 上发表的文章 (A robust ranking algorithm to spamming. EPL,94 (2011),48002.)中提出一种基于相关性的用户信誉排序算法检测恶意评分用户。该 算法主要通过迭代策略同时计算用户信誉值和产品均值,并最终根据用户的信誉排序检测 恶意评分用户。该算法的本质在于采用用户信誉对产品评分进行加权平均计算产品质量, 实质上是根据用户评分值与产品固有质量的偏差来进行检测,偏差越大,说明用户成为恶 意评分用户的可能性越大。这种方法虽然简单,但产品的固有质量本身是个不可衡量的值, 不同用户对同一件产品的满意程度因人而异。一般情况下,产品质量用产品获得的所有评 分的均值来代表的做法,客观上存在一定的误差,从而会导致检测准确度不高。另外,该算 法在恶意评分用户比例特别大时候表现出很好的鲁棒性,但对于恶意评分用户比例和作弊 用户评分比例都较小的真实评分系统效果不佳。
[0008] 又如,2012 年 Wffff 会议论文(Spotting Fake Reviewer Groups in Consumer Reviews. WWW' 12, 2012, pptl91_200.)提出基于用户评论内容相似性的检测恶意评分用户 的方法。该方法通过分析用户评论文本内容的相似度来检测作弊评论用户,若两条评论之 间相似度很高,那么发表这两天评论的用户成为作弊评论用户的可能性越大。这种方法虽 然能有效的检测出作弊评论者,但是需要对整个社会媒体系统中的评论内容进行文本分 析,数据量大,处理效率低;另一方面,很多社会媒体系统中用户都不积极参加评论,而且即 使参与评论也只有简短的文字,这使得基于评论内容的分析在很多系统中不能正常使用。 而基于评分的系统是目前绝大多数系统都具备的,由于用户评价成本不高,因此参与的用 户比较多,而基于评论文本的判别方法不能使用在这类系统中。
[0009] 随着社交网络的不断发展,2012年8月5日授权的美国专利US8176057公开了一 种基于社交网络的用户信誉检测方法,通过高信誉用户的反馈来进行信誉值的传递,从而 检测出低信誉的用户。虽然该方法可以有效的计算出用户信誉值,但是主要用于识别信誉 较高的用户,对于恶意评分的用户检测准确性不高。
[0010] 综上所述,现有的方法还不能满足大多数社会媒体网站的实际需求,或者在识别 准确性方面有偏差,或者不能高效的应用于实际检测,或者不适用于某些评价系统。


【发明内容】

[0011] 本发明的目的是提供一种适用于在线社会媒体系统中恶意评分用户检测的有效 方法。本发明针对的是具有评分反馈的社会媒体系统,通过分析用户的评分值来检测恶意 评分用户,避免了对用户评论文本内容分析和处理带来的超大计算量,提高检测效率同时 准确性高。
[0012] 本发明提供的解决其技术问题所采用的技术方案是一种在线社会媒体系统中检 测恶意评分用户的方法,包括如下步骤:
[0013] 步骤1 :提取系统中的用户评分数据,对数据进行预处理,得到规范化的用户评分 数据包括将用户ID、产品ID、用户对产品的评分,将这三类数据按照三元组(u,p,v)的形式 存储;
[0014] 步骤2 :用户评分聚类,计算用户评分的置信度向量;
[0015] 步骤2-1 :针对同一种产品将给予相同评分的用户聚类为一组,;
[0016] 步骤2-2 :计算每位用户的置信度向量,该置信度向量的每个分量表示该用户对 一种产品的信誉值,该信誉值为用户针对该产品所属聚类组大小与所有评价用户数的比 值,该比值定义为从众比例值;
[0017] 步骤3 :根据步骤2总计算出的用户置信度向量,计算用户评分的可靠度,将最不 可靠的N个用户视为恶意评分用户,生成恶意评分用户候选列表,其中N根据实际系统的用 户评分比例以及检测精确度等因素进行设定;
[0018] 步骤4 :根据恶意评分用户候选列表中用户评分与产品固有质量的偏离程度对恶 意评分用户候选列表进行重新排序,选取偏离程度最大的M个用户,得到最终的恶意评分 用户,其中M根据实际系统的用户评分比例以及检测精确度等因素进行设定。
[0019] 其中,步骤1的具体步骤为:
[0020] 步骤1-1 :去除评分次数低于阈值K的用户,其中阈值K可以根据系统评分的情况 以及具体检测的精细程度进行调节;
[0021] 步骤1-2 :根据四舍五入的原则,对分数不为整数的评分进行整数离散化;
[0022] 步骤1-3 :将用户ID,产品ID、用户对产品的评分数据按照三元组(u,p,V)的形式 存储。
[0023] 所述步骤1中通常K值为8。
[0024] 所述步骤2中各用户的置信度向量维数不一致,采用xml文件存储。
[0025] 所述步骤3的具体步骤为:
[0026] 步骤3-1 :计算每位用户置信度向量的平均值与方差,在计算平均值除以方差的 大小,得到用户可靠度;
[0027] 步骤3-2 :将所有用户按照可靠度大小升序排列,选取前N个用户,生成恶意评分 用户候选列表。
[0028] 所述步骤4的具体步骤为:
[0029] 步骤4-1 :计算个产品评分的平均值,该平均值视为产品的固有质量;
[0030] 步骤4-2 :计算步骤3得到的恶意评分用户候选列表中各用户针对各产品的固有 质量偏离度,即用户对产品的评分与该产品固有质量的差值;
[0031] 步骤4-3 :计算各用户对各产品的固有质量偏离度绝对值,再对其求平均,得到该 用户的评分偏离度;
[0032] 步骤4-4:将各用户按照评分偏离度进行降序排列,选取前M个用户为最终恶意评 分用户,生成恶意评分用户列表。
[0033] 本发明基于用户评分进行检测,一方面省去了处理文本的复杂工序,提高了检测 效率,适用于几乎所有的评价系统,另一方面先检测出恶意评分用户候选集,再对候选集中 的用户进行二次检测,这种操作使得本发明在识别准确性方面大大提高,尤其在用户评分 数相对于产品总数比例较小且恶意评分用户数相对于所有用户数量比例不大的现实评价 系统中检测效果十分出色。

【专利附图】

【附图说明】
[0034] 图1是本发明提供的一种适用于大规模社会媒体系统中检测恶意评分用户的方 法的流程图。
[0035] 图2是本发明提供的生成用户置信度向量的处理流程图。
[0036] 图3是本发明提供的用户可信度计算和恶意评分用户候选列表生成的流程图。
[0037] 图4是本发明提供的根据恶意评分用户候选列表中用户评分与产品固有质量偏 离程度对恶意评分用户候选列表进行重新排序,得到最终的恶意评分用户的流程图。

【具体实施方式】
[0038] 为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照 附图,对本发明进一步详细说明。
[0039] 下面将结合附图对本发明加以详细说明,应指出的是,所描述的实例仅旨在便于 对本发明的理解,而对其不起任何限定作用。
[0040] 本发明提出的基于评分行为聚类的社会媒体中恶意评分用户检测方法,总体流程 如图1所示。
[0041] 步骤1为数据预处理模块。该模块将对系统输入的原始数据进行预处理,过滤噪 音数据,并对评分数据进行离散整数化,预处理后的数据为步骤S2中特征提取操作的输 入。
[0042] 步骤2为用户置信度计算模块。该模块对经步骤Sl预处理后的数据进行评分聚 类,根据聚类大小的从众比例计算用户置信度向量,用户置信度将作为步骤S3中二级特征 提取的输入数据。
[0043] 步骤3为计算用户评分的可靠度,生成恶意评分用户候选列表模块。该模块基于 用户置信度向量提取每个用户置信度的平均值与方差,计算均值与方差的比值作为用户可 靠度,对用户可靠度进行排序,最终生成恶意评分用户候选列表。
[0044] 步骤4为恶意评分用户候选列表重排序,最终的恶意评分用户生成模块。该模块 将计算产品固有质量,在恶意评分用户候选列表的基础上,利用用户评分与产品固有质量 的偏离度,对初步检测结果进行二阶段检测,生成最终的恶意评分用户检测结果。
[0045] 接下来详细叙述各主要步骤:
[0046] 1.输入系统原始评价数据,并对输入数据进行数据预处理,对预处理后的结果进 行存储。(步骤1)。
[0047] 预处理工作包括噪音数据过滤和评分值整数化两个主要部分。首选从输入的原始 数据中分离出用户评论数据,过滤评论次数在8次以下的用户以及对应的评分信息。若用 户评分不为整数,基于四舍五入的原则对用户评分取整。由于噪音数据是评分较少的用户 以及评分信息,去掉之后对整个系统影响不大,但又有效的提高了计算效率。通过评分整 数离散化,减少了聚类计算复杂度,更易于实际系统的应用。
[0048] 2.用户评分聚类,计算用户评分的置信度向量。
[0049] 步骤2主要完成了用户置信度向量计算的工作,工作流程图如图2所示,包括评分 行为聚类、从众比例计算以及用户置信度向量的生成和存储。
[0050] 步骤2-1中对评分行为进行聚类是依据对相同产品评分的用户若评价分数相同 则将这些用户聚类为一组。对系统中每个产品都要进行用户评分行为聚类。若用户对N个 产品进行过评分,那么该用户置信度为一个N维向量,每个分量为用户每次评分后获得的 信誉值。由于预处理后评分分数是离散的,所以聚类之后形成固定数目的群组。

【权利要求】
1. 一种在线社会媒体系统中检测恶意评分用户的方法,该方法包括: 步骤1:提取系统中的用户评分数据,对数据进行预处理,得到规范化的用户评分数据 包括将用户ID、产品ID、用户对产品的评分,将该H类数据按照H元组(u,p,v)的形式存 储; 步骤2 ;用户评分聚类,计算用户评分的置信度向量; 步骤2-1 ;针对同一种产品将给予相同评分的用户聚类为一组,; 步骤2-2;计算每位用户的置信度向量,该置信度向量的每个分量表示该用户对一种 产品的信誉值,该信誉值为用户针对该产品所属聚类组大小与所有评价用户数的从众比例 值; 步骤3 ;根据步骤2中计算出的用户置信度向量,计算用户评分的可靠度,将最不可靠 的N个用户视为恶意评分用户,生成恶意评分用户候选列表,其中N根据实际系统的用户评 分比例W及检测精确度等因素进行设定; 步骤4 ;根据恶意评分用户候选列表中用户评分与产品固有质量的偏离程度对恶意评 分用户候选列表进行重新排序,选取偏离程度最大的M个用户,得到最终的恶意评分用户, 其中M根据实际系统的用户评分比例W及检测精确度等因素进行设定。
2. 如权利要求1所述的一种在线社会媒体系统中检测恶意评分用户的方法,其特征在 于步骤1的具体步骤为: 步骤1-1 ;去除评分次数低于阔值K的用户,其中阔值K可W根据系统评分的情况W及 具体检测的精细程度进行调节; 步骤1-2 ;根据四舍五入的原则,对分数不为整数的评分进行整数离散化; 步骤1-3 ;将用户I化产品ID、用户对产品的评分数据按照H元组(u,p,v)的形式存 储。
3. 如权利要求2所述的一种在线社会媒体系统中检测恶意评分用户的方法,其特征在 于所述步骤1-1中通常K值为8。
4. 如权利要求1所述的一种在线社会媒体系统中检测恶意评分用户的方法,其特征在 于所述步骤2中各用户的置信度向量维数不一致,采用xml文件存储。
5. 如权利要求1所述的一种在线社会媒体系统中检测恶意评分用户的方法,其特征在 于所述步骤3的具体步骤为: 步骤3-1 ;计算每位用户置信度向量的平均值与方差,在计算平均值除W方差的大小, 得到用户可靠度; 步骤3-2 ;将所有用户按照可靠度大小升序排列,选取前N个用户,生成恶意评分用户 候选列表。
6. 如权利要求1所述的一种在线社会媒体系统中检测恶意评分用户的方法,其特征在 于所述步骤4的具体步骤为: 步骤4-1 ;计算个产品评分的平均值,该平均值视为产品的固有质量; 步骤4-2 ;计算步骤3得到的恶意评分用户候选列表中各用户针对各产品的固有质量 偏离度,即用户对产品的评分与该产品固有质量的差值; 步骤4-3;计算各用户对各产品的固有质量偏离度绝对值,再对其求平均,得到该用户 的评分偏离度; 步骤4-4;将各用户按照评分偏离度进行降序排列,选取前M个用户为最终恶意评分用 户,生成恶意评分用户列表。
【文档编号】G06Q30/00GK104463601SQ201410638173
【公开日】2015年3月25日 申请日期:2014年11月13日 优先权日:2014年11月13日
【发明者】尚明生, 蔡世民, 高见, 董宇蔚 申请人:电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1