一种基于网络点赞检测网络水军的方法与流程

文档序号:14135961阅读:2617来源:国知局

本发明涉及一种网络水军识别技术领域,具体的来说,涉及的是一种通过点赞不仅可以检测网络水军,同时还可以发现水军团体之间联系的方法。



背景技术:

随着互联网技术的高速发展,互联网在我们的生活中变得无处不在,人们可以随时随地在任何有互联网的地方发布和获取信息。这种低门槛的信息发布和获取方式让人们日常生活和工作方便的同时,也变得更加依赖信息本身。特别是在网络社区中,例如微博、知乎等社交平台,一种被称为“水军”的团体开始出现,他们发布大量诱导信息,达到宣传或者控制舆论等目的,扰乱虚拟社会的正常秩序。所以如何检测这些水军成为维护虚拟社会稳定发展的关键问题。

目前,大部分的网络水军检测都是在网络社交平台上,例如微博。但是,互联网已经进入到人们生活的方方面面,水军也出现在各种平台中。与微博平台不同的是,常规的微博平台水军检测都是根据评论、转发、原创微博比例等特征检测,但是现在大多数平台例如知乎这样的问答社区、大众点评这样的生活社区,都没有转发功能,并且评论数量很少且相关性很低。其次,还有一种主流的水军检测方法是基于内容识别的,通过收集发布者发布的内容,使用机器学习的方法对内容进行情感分类,判断其为正面或者负面信息然后进行检测。于是传统的水军方法变得不再适用,亟需一种新的水军检测方法。



技术实现要素:

本发明的目的是针对现有技术的不足而提供的一种基于网络点赞检测网络水军的方法,该方法通过分析不同网络平台的共性,不仅可以检测目前热门的微博平台,同时包括知乎这样的问答平台和大众点评这样的生活服务平台也都可以检测水军。

实现本发明目的的具体技术方案是:

一种基于网络点赞检测网络水军的方法,该方法包括以下步骤:

步骤1:获取热门信息下用户点赞人群列表,将点赞人群列表通过计算点赞用户的活跃程度,统计关注人数和粉丝人数,根据设定的活跃率阈值、单向关注阈值过滤,得到初始嫌疑水军集合s;

步骤2:获取初始嫌疑水军集合s中用户的社交动态信息以及个人信息中包含的用户,若初始嫌疑水军集合s未达到设置的用户总值,则继续迭代获取初始嫌疑水军集合s中用户的社交动态信息以及个人信息中包含的用户,得到新的嫌疑水军集合s’;

步骤3:在嫌疑水军集合s’中根据用户之间的点赞动态构建点赞信息列表集合,根据点赞信息集合列表,计算出每两个用户之间的点赞相似度,设定相似度阈值,然后根据相似度阈值标记出水军用户,根据用户之间的点赞相似度将标记出的水军用户进行分组,得到网络水军;

步骤4:将标记出的水军用户加入到嫌疑水军集合s中,迭代步骤2到步骤3,实时检测出网络水军。

所述热门信息根据社区平台不同,热门信息也不同,具体包括热门问答、热门微博、热门回帖和热门评论。

所述社交动态信息为在不同社区平台上进行的互动信息,包括发布的信息以及参与过互动的信息,具体为点赞操作、评论操作、转发操作、浏览操作和搜索操作。

所述个人信息为基本注册信息、关注的人信息和粉丝的信息。

步骤1所述活跃率阈值:对于一个用户而言,社交动态信息在一段时间内的比率,为活跃率阈值ma;所述单向关注阈值:用户的粉丝人数与关注人数的比值,为单向关注阈值mf;其两阈值的设定:根据经验设定,对结果进行抽样实验进行验证,根据验证结果重新计算阈值,反复多次使得抽样结果最佳,确定阈值。

步骤3所述构建点赞信息集合列表,具体为:每一个用户和其对应发布的信息、社交动态信息构成一个点赞信息列表,然后,对所有的用户构建出点赞信息列表集合。

步骤3所述计算出每两个用户之间的点赞相似度j,具体由公式(ⅰ)计算得到:

其中,x、y分别为两个用户的点赞列表,intersection(x,y)、union(x,y)分别表示用户点赞列表x、y的交集和并集;j(x,y)的范围是[0,1]。

步骤3所述相似度阈值ms的设定:通过人工观察用户是否具有水军的特征获得部分嫌疑用户,使用点赞相似度计算方式计算嫌疑用户相似度值,再对计算出的嫌疑用户相似度值取平均值,得到相似度阈值。

与现有技术相比,本发明的有益效果是:

本发明通过使用点赞这样的平台通性,不仅可以检测目前热门的网络社区信息平台,例如微博平台的水军,还可以在例如知乎这样的问答平台、大众点评这样的生活服务平台等其他平台中检测水军。并且本发明使用的方法相比建立机器学习模型更加简单、方便。

附图说明

图1为本发明流程图。

具体实施方式

下面结合以下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。

实施例

以知乎问答平台为例,假设需要对一个热门的回答进行分析,捕获其中参与的水军,可以通过以下步骤进行:

1)获取该回答下的点赞人群列表。

2)统计点赞人群列表中用户的个人详细信息,包括昵称、发布的社交动态信息以及发布的时间、所有的关注人列表、所有的粉丝列表。

3)按照设定的活跃率阈值ma(例如每天发布信息的数量或者参与互动的信息数量超过5条)、单向关注阈值mf(例如粉丝人数与关注人数之比小于0.5)(这些阈值根据不同的社区平台取值不同,且初始值依靠经验设定,并且通过重复实验、抽样验证然后调整后确定),将所有满足这些阈值的用户加入到初始嫌疑水军集合s。

4)获取初始嫌疑水军集合s中每一个用户的个人信息以及社交动态信息,其中个人信息包括注册信息、关注的人信息、粉丝的信息,社交动态信息包括发布的信息以及参与过互动的信息,将嫌疑水军集合s以及上述信息中获取到更多的点赞用户列表以及关注和粉丝人群列表,加入到新的嫌疑水军集合s’。

5)判断新的嫌疑水军集合s’是否超过设定的总值(例如10000个用户),如果没有超过则重复步骤2)到步骤4),如果超过设定的总值,则停止将新的用户加入到嫌疑水军集合s’中。

6)在嫌疑水军集合s’中根据用户之间的点赞动态构建信息列表集合,其中,每一个用户和其对应发布的信息、社交动态信息构成一个点赞信息列表,然后,对所有的用户构建出点赞信息列表集合。计算两个用户之间的相似度就是计算两个用户点赞信息列表的相似度j,计算公式如下:

其中,x、y分别为两个用户的点赞列表,intersection(x,y)、union(x,y)分别表示用户点赞列表x、y的交集和并集;j(x,y)的范围是[0,1]。具体来说,若a用户的点赞信息列表为x={1,2,3,4},其中1,2,3,4表示被a用户点赞的信息编号。若b用户的点赞信息列表为y={1,3,4},其中1,3,4表示被b用户点赞的信息编号。那么a用户和b用户的交集为{1,3,4},则intersection(x,y)=3,a用户和b用户的并集为{1,2,3,4},则union(x,y)=4,那么a用户和b用户的相似度值为3/4=0.75。当集合的大小越大时,这种计算方法表示的两个集合之间的相似度会越明显。若相似度超过预先设定好的相似度阈值ms(例如超过80%的点赞动态重复),则标记为水军用户,并且如果用户间相似度很高(例如(95%以上的点赞动态重复)时均属于同一个分组,并且每一个分组均为一个水军团体。

7)将标记出的水军用户加入嫌疑水军集合s中,通过重复上述步骤2)到步骤6),可以找到更多水军。

本发明还可以适用于其他社区平台,比如微博、大众点评,其实施例基本相同,具体过程不再详细说明。

显然,上述实施例对本发明的内容进行了详细的介绍,仅仅是为了清楚的说明所作的举例。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出多种其他不同形式的修改和替代。因此,本发明的保护范围应由所附的权利要求来限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1