一种移动应用市场刷榜用户组检测方法及其系统与流程

文档序号：13004714阅读：149来源：国知局

本发明涉及刷榜用户检测技术领域，特别涉及一种针对移动应用市场中刷榜用户组的检测方法及其系统。

背景技术：

随着智能手机的普及，诸如苹果的appstore，谷歌的googleplay这类的移动应用市场通过为用户提供种类丰富的手机应用随之流行开来。在这些移动应用市场中，均提供了反映应用热门程度的排行榜功能。然而，当前许多开发商寻找刷榜公司，通过恶意手段在短时间内快速提高自家应用的排名。刷榜公司通常会聚集大量用户为一组，同时针对几个目标应用，即目标团，采取刷榜行动。每次刷榜行动期间，一组刷榜用户同时下载这些应用，并为它们撰写评价，打高分。通过提升目标团中应用的评分，评论数，下载量这样的影响应用排名的重要指标，以提升目标应用在特定时间段内的排名。类似刷榜行为会严重危害移动应用市场中的良好生态环境。所以如何有效的从移动应用市场数以千万的用户中检测并发现此类刷榜用户组，已成为一个新颖而重要的课题。目前已有的工作主要针对垃圾评论者的检测，此类用户通过为应用撰写垃圾评论以误导用户下载应用。

然而，新式的刷榜用户组有其自身的特点。与传统垃圾评论者有所不同，新式的刷榜用户组通过打高分，写评论，下载应用等一系列行为，以期望直接提升目标应用的排名。同时，刷榜用户往往以组为单位行动，同时针对多个目标应用，即目标团，集中采取刷榜行动。这与传统垃圾评论用户的行为有很大的不同。垃圾评论者只撰写评论，且通常独自采取行动。

随着近年来智能手机的飞速普及，在利益驱使下，移动应用市场内出现了大量这样的刷榜用户组。本发明的目的在于克服现有技术的缺点与不足，构建一个统一有效的移动应用市场刷榜用户组检测系统，通过发现潜在刷榜用户组，为移动市场管理者的后续监管提供便利。

技术实现要素：

本发明提出了一种移动应用市场刷榜用户组的检测方法及其系统，包括如下步骤：

应用数据采集阶段：获取移动应用市场的数据，收集移动应用市场排行榜中排名靠前的热门应用，将热门应用构成候选应用集合，并跟踪收集所述候选应用集合内各热门应用的信息；

可疑刷榜应用识别阶段：通过计算所述热门应用的排名骤升骤降频率，筛选得到由具有刷榜嫌疑的可疑刷榜应用构成的可疑刷榜应用集合；

目标团构建阶段：利用评论数骤增相似度模型、评分提升相似度模型和排名骤变相似度模型针对所述可疑刷榜应用集合挖掘刷榜用户组共同针对的目标应用集合，即目标团；

潜在刷榜用户组发现阶段：利用频繁项集挖掘算法，结合所述目标团内各应用的评论记录，得到潜在刷榜用户集合。

本发明提出的所述移动应用市场刷榜用户组的检测方法中，在应用数据采集阶段中，跟踪收集所述热门应用的评论量，评分，以及排名数；并按固定时间间隔进行跟踪收集，得到各热门应用的排名变化集合，评论量变化集合，以及评分变化集合。

本发明提出的所述移动应用市场刷榜用户组的检测方法中，所述热门应用的排名骤升骤降频率以如下公式(1)表示：

式(1)中，fa表示应用a的排名骤升骤降频率，为应用a在所述排名变化集合中的一条记录，表示应用a在两次相邻数据收集间隔时段i上的排名变化量，用于量化的排名变化类型；tt为设定的排名骤变阈值。

本发明提出的所述移动应用市场刷榜用户组的检测方法中，所述评论数骤增相似度模型中以如下公式(2)表示评论数骤增相似度：

式(2)中，v(a,b)表示应用a与应用b的评论数骤增相似度，为应用a在所述评论量变化集合中的一条记录，表示应用a在两次相邻数据收集间隔时段i上的评论数增量，为评论数增量类型的量化；为应用a所述评论量变化集合中所包含记录的平均值；tsurge为设定的评论数骤增阈值。

本发明提出的所述移动应用市场刷榜用户组的检测方法中，所述评分提升相似度模型中以如下公式(3)表示评分提升相似度：

式(3)中，r(a,b)为应用a与应用b的评分提升相似度，为应用a在所述评分变化集合中的一条记录，表示应用a在两次相邻数据收集间隔时段i上的评分变化值，为评分变化类型的量化，根据的变化值取0或1，以标记应用的评分提升。

本发明提出的所述移动应用市场刷榜用户的检测方法中，所述排名骤变相似度模型中以如下公式(4)表示排名骤变相似度：

式(4)中，f(a,b)为应用a与应用b的排名骤变相似度；为应用a在所述排名变化集合中的一条记录，表示应用a在两次相邻数据收集间隔时段i上的排名变化量，用于量化的排名变化类型。

本发明提出的所述移动应用市场刷榜用户组的检测方法中，所述目标团构建阶段中，根据输入的可疑刷榜应用集合，以及集合内各应用的排名变化集合、评论量变化集合以及评分变化集合按如下步骤构造目标团：

步骤a1：列出所述可疑刷榜应用集合中所有可能的两两应用间的组合，构建应用对集合；

步骤a2：根据所述应用对集合，计算各应用对在评论数骤增相似度模型、评分提升相似度模型与排名骤变相似度模型下对应的相似度，根据各模型设定的相似度阈值标记可疑目标对，构建可疑目标对集合；

步骤a3：根据所述可疑目标对集合构建目标团，构建的每个目标团中任意两个应用间均为已被标记的可疑目标对。

本发明提出的所述移动应用市场刷榜用户组的检测方法中，所述潜在刷榜用户组发现阶段按如下步骤挖掘潜在刷榜用户组：

步骤b1：获取目标团内各应用的用户评论记录，构建各应用的评论用户集，每个评论用户集为目标团中一个应用评论记录所包含的评论用户集合；

步骤b2：设定最小支持度，最小支持度的取值不大于所述目标团所包含的应用总数；

步骤b3：根据所述最小支持度与所述评论用户集合，利用频繁项集挖掘算法获得多个频繁评论用户集，每个频繁评论用户集均为一组共同评论了应用团内多个应用，且共同评论的应用数不小于设定的最小支持度的频繁评论用户集合，每个集合即为一组对应的潜在刷榜用户；

步骤b4：输出步骤b3挖掘出的所有频繁评论用户集，得到潜在刷榜用户组。

本发明还提出了一种移动应用市场刷榜用户组检测系统，包括如下模块：

应用数据采集模块，其获取移动应用市场的数据，收集移动应用市场排行榜中排名靠前的热门应用，将热门应用构成候选应用集合，并跟踪收集所述候选应用集合内各热门应用的信息；

可疑刷榜应用识别模块，通过计算所述热门应用的排名骤升骤降频率，筛选得到由具有刷榜嫌疑的可疑刷榜应用构成的可疑刷榜应用集合；

目标团构建模块，其包括评论数骤增相似度模型、评分提升相似度模型和排名骤变相似度模型，针对所述可疑刷榜应用集合挖掘目标团，即刷榜用户组共同针对的目标应用集合；

潜在刷榜用户组发现模块，利用频繁项集挖掘算法，结合所述目标团内各应用的评论记录，得到潜在刷榜用户集合。

本发明的有益效果是能够高效准确检测出移动应用市场中的刷榜用户组，该系统通用性强，能够运用到不同的移动应用市场，具有很强的实用性和广阔的应用前景。

附图说明

图1是本发明实施例的结构示意图。

具体实施方式

下面结合附图及具体实施例对本发明做进一步说明。

本发明产品刷榜用户组检测系统，如图1所示，包括：应用数据采集模块，可疑刷榜应用识别模块、目标团构建模块，潜在刷榜用户组发现模块。

应用数据采集模块，用于收集移动应用市场(本实施例中为苹果公司的appstore)排行榜中排名靠前的热门应用，构成候选应用集合，并对所述候选应用集合内各应用的评论量，评分，以及排名数据每隔固定时间间隔进行跟踪收集，得到各应用的排名变化集合，评论量变化集合，以及评分变化集合，输入可疑刷榜应用识别模块与目标团构建模块，本实施例中时间间隔为24小时。所述应用排名变化集合是指一个应用所有相邻时间收集的排名数据的差值集合。所述应用评论量变化集合是指一个应用所有相邻时间收集的应用评论数的差值集合。所述评分变化集合是指一个应用的所有相邻时间收集的评分的差值集合。

可疑刷榜应用识别模块，通过计算所述候选应用集合内各应用的排名骤升骤降频率，得到可疑刷榜应用集合，输入目标团构建模块。

所述可疑刷榜应用识别模块中判别应用刷榜嫌疑的主要思想是：受到刷榜用户组刷榜行为影响，目标应用在刷榜期间会频繁的表现出排名上的骤升与骤降。而相比之下普通应用在排行榜中的排名变化则普遍趋于稳定。一个应用出现排名骤升骤降的频率越高，它的刷榜嫌疑也就越大。可疑刷榜应用识别模块中所述应用排名骤升骤降频率计算方式如下：

其中，fa为应用a的排名骤升骤降频率，通过设置排名骤升骤降阈值tf，若fa＞tf，则判定应用a为可疑刷榜应用，n为应用a所述排名变化集合的记录总数，为应用a在所述排名变化集合中的一条记录，表示应用a在两次相邻数据收集间隔时段i上的排名变化差值，用于量化的排名变化类型，根据具体的排名变化量取对应的值，具体取值方式如下：

其中，tt为设定的排名骤变阈值，表示应用a在时段i上排名异常骤升，表示应用a在时段i上异常骤降，表示应用a在时段i上的排名正常变化。

目标团构建模块，包括评论数骤增相似度模型，评分提升相似度模型，排名骤变相似度模型，用于挖掘一组刷榜用户共同针对的目标应用的集合，即目标团，输入潜在刷榜用户组发现模块。

目标团构建模块的主要思想是，为了维持目标应用较高的排名，刷榜公司会组织多组刷榜用户在不同时段对同一个目标团采取刷榜行动，使得相同目标团内的应用在评论数，评分，排名上表现出相似的数据变化模式。目标团构建模块利用这种数据变化模式的相似性，来挖掘现实中刷榜用户组所针对的目标团。

评论数骤增相似度模型的主要思想是，每次刷榜行动期间，来自一个刷榜用户组的大量用户会为目标团内各应用撰写评论，使得目标团中各应用在相同时段表现出评论数的骤增。对于所述可疑刷榜应用集中的任意两个应用，若它们在评论数上表现同时段骤增的次数越多，它们来自相同目标团的可能性也就越大。所述评论数骤增相似度模型，即评论数骤增相似度的计算方法为：

其中，v(a,b)为应用a与应用b的评论数骤增相似度，为应用a的所述评论量变化集合中的记录，表示应用a在两次相邻数据收集间隔时段i上的评论数增量，为评论数增量类型的量化，根据的大小取对应的值，以标记的评论数骤增与否，具体取值方式如下：

其中，为应用a所述评论量变化集合内所有记录的平均值，tsurge为设置的评论数骤增阈值；v(a,b)的值越大，应用a与应用b在评论量骤增上相似度越高，它们来自相同目标团的可能性也就越大，通过设置评论数骤增相似度阈值tv，若v(a,b)＞tv，则标记应用a与应用b为可疑目标对，即应用a与b有极大嫌疑来自相同目标团；

评分提升相似度模型的主要思想是，每次刷榜行动期间，来自一个刷榜用户组的大量用户会共同给予目标团内各应用高分评价，使得目标团中各应用在相同时段表现出评分的提高。对于所述可疑刷榜应用集中的任意两个应用，若它们在评分上表现出同时段提升的次数越多，则它们来自相同目标团的可能性也就越大。所述评分提升相似度模型，即评分提升相似度的计算方法为：

其中，r(a,b)为应用a与应用b的评分提升相似度，为应用a在所述评分变化集合中的一条记录，表示应用a在两次相邻数据收集间隔时段i上的评分变化值，为评分变化类型的量化，根据的变化值取0或1，以标记应用的评分提升，若表示应用a在时段i上评分升高，否则r(a,b)的值越大，应用a与应用b在评分提升上相似度越高，它们来自相同目标团的可能性也就越大，通过设置评分提升相似度阈值tr，若r(a,b)＞tr，则标记应用a与应用b为可疑目标对，即应用a与b有极大嫌疑来自相同目标团；

排名骤变相似度模型的主要思想是，除了撰写评论与打高分，刷榜公司还可能组织刷榜用户组通过其它不为人知的手段提升目标团内各应用的排名，虽然这些手段难以察觉，但统一的刷榜行动会使来自同一目标团中的应用在排名上表现出相似的骤增骤降模式。对于所述可疑刷榜应用集中的任意两个应用，若它们在排名上表现出同时段骤增或骤降的次数越多，则它们来自相同目标团的可能性也就越大。所述排名骤变相似度模型，即排名骤变相似度的计算方法为：

其中，f(a,b)为应用a与应用b的排名骤变相似度，f(a,b)的值越大，应用a与应用b在排名骤变上相似度越高，它们来自相同目标团的可能性也就越大；通过设置排名骤变相似度阈值tf，若f(a,b)＞tf，则标记应用a与应用b为可疑目标对，即应用a与b有极大嫌疑来自相同目标团。

所述目标团构建模块根据输入的可疑刷榜应用集合，以及集合内应用的排名变化集合，评论量变化集合，以及评分变化集合，按如下步骤构造目标团：

步骤a1：列出所述可疑刷榜应用集合中所有可能的两两应用对组合，构建应用对集合；

步骤a2：根据步骤a1得到的应用对集合，计算各应用对在评论数骤增相似度模型，评分提升相似度模型，与排名骤变相似度模型下对应的相似度，根据各模型设定的相似度阈值标记可疑目标对，构建可疑目标对集合；

步骤a3：根据步骤a2得到的可疑目标对集合，构建目标团，确保构建的每个目标团中任意两个应用均标记为可疑目标对。之后将步骤a3获得的目标团输入潜在刷榜用户组发现模块。

潜在刷榜用户组发现模块，利用频繁项集挖掘算法，结合获得的目标团内各应用的评论记录，得到最终潜在刷榜用户集合。

潜在刷榜用户组发现模块的主要思路是，每次刷榜行动期间，一组刷榜用户共同对目标团内各应用给予评论，通过逆向寻找共同参与目标团内应用评论的用户集合，即可发现潜在刷榜用户组，具体步骤如下：

步骤b1：获取目标团内各应用的用户评论记录，构建各应用的评论用户集，每个评论用户集为目标团中一个应用评论记录所包含的评论用户id集合；

步骤b2：设定最小支持度smin，smin的取值不大于待挖掘目标团所包含的应用总数；

步骤b3：利用步骤b2设定的最小支持度smin与步骤b1获得的各应用的评论用户集，利用频繁项集挖掘算法，获得一系列频繁评论用户集，每个频繁评论用户集均为一组共同评论了应用团内多个应用，且共同评论的应用数不小于smin的频繁评论用户集合，即为一组潜在刷榜用户；

步骤b4：输出步骤b3挖掘出的所有频繁评论用户集，得到最终的潜在刷榜用户组。

本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：何道敬;陈浩
技术所有人：华东师范大学
我是此专利的发明人

上一篇：基于人工智能的新闻召回方法、装置、设备及存储介质与流程
上一篇：一种人力对象数据匹配方法及系统与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。