一种针对社交网络数据中有害信息监测的解决方法与流程

文档序号:12464991阅读:1169来源:国知局

本专利属于信息监测技术领域。



背景技术:

近几年来,微博、微信等社交网络成为新兴的网上交流平台,受到大众的欢迎,但是这种网络平台成为一把“双刃剑”,在给人们提供消息便捷传输的同时,也对我国政治安全和文化安全构成了严重威胁。随着互联网信息的海量增长,色情、暴力、反动、广告推销等有害信息也随之剧增,其有害性主要体现在破坏社会稳定、毒害青少年心灵、误导群众、骚扰用户。据相关研究发现,在微博、微信上已经存在大量的广告推广和作弊行为,这样的行为比传统的垃圾邮件或者单一的推广危害大的多,严重影响了微博、微信平台的环境安全。不论是推广还是作弊行为,他们都控制大量的账户来传播对用户无用的或者有害的信息,推广或者作弊行为会严重会影响正常用户的体验满意度。

随着互联网的不断发展,互联网上的信息已经广泛的应用到生活的各个领域中,社交网站比如微博、微信公众号也逐渐流行,吸引了大量网民。这些平台都是一个开放的平台,每个用户只要注册账号就可以发布消息,平台只是一个信息存储的工具,这种方式为用户带来便利的同时,也出现了大量的无用信息甚至有害信息。近几年,人们利用技术手段对海量的网络社交信息进行深度挖掘与分析,将社交网络信息快速汇总成舆情信息,从而代替人工阅读和分析网络舆情信息的繁复工作,已经成为一个热门方向。传统的舆情分析方法是:首先针对单个信息或者单个用户采集与提取网络舆情信息,监测的内容也只是检测消息中是否存在垃圾内容或者有害网站链接。

传统的有害信息分析的监测需要很强的实时性,但是由于大规模消息被发布,实际中很难达到实时响应,有害信息或者推广者操控大量的账户发布有害消息,传统的方法已经无法一次性检测所有参与活动的信息,因此需要一种更有效的方法将这些有害消息检测出来,改善社交网络环境的安全性和整洁性。



技术实现要素:

本专利的目的是提供一种针对社交网络平台有害信息的监测的解决方法。本发明可以用来监测微博、微信内的推广和作弊行为,以保证社交网络平台的可靠性和安全性。技术方案如下:

1.一种针对社交网络数据中有害信息监测的解决方法,包括下列步骤

步骤1.获取社交网络数据

从公开的社交网络数据集中选择多个发布次数超过20次的URL用户,将用户、发布时间、发布内容存储在数据库中,随机选择其中的80%作为训练集,剩下的20%作为测试集。

步骤2.计算两两账户之间发布行为的相似度

对任一链接所包含的信息量计算公式如下:

It(l)=-log(P(l))·e-Δt (1)

其中,是链接l出现的概率,#l是训练集中链接l出现次数,N是数据集中所有链接总数;-Δt是包含链接l的所有微博消息平均发布的时间间隔,计算各个每个账户发布的所有链接的总信息量:

Numi(l)是链接i被该账户发布过的次数;It(l)是任一链接都包含的信息量,则两个账户之间发布链接行为包含的相同的信息的量如下公式:

设L代表该账户发布过的所有链接(l1,l2,...,ln)的集合;I∈Li∩LJ代表两个账户共同发布的URL,计算两两账户之间发布行为的相似度:

步骤3.提取备选联盟

设定固定阈值,根据阈值将相似度较高的账户连接起来构建一个账户图G,根据账户图G提取备选联盟,形成可能的推广或者作弊联盟。

步骤4.备选联盟分类

(1)根据备选联盟特征,并进行统计,统计数据包括平均发布时间间隔、联盟账户发布带链接的消息的平均数量、联盟账户发布带链接的消息出现频率、联盟账户平均发布的链接数量、联盟密度、域名数、有效链接数、文本相似度、黑名单数量;

(2)用K最近邻分类算法构造分类器对备选联盟进行分类最终得到作弊联盟。

2.根据权利要求1所述的针对社交网络数据中有害信息监测的解决方法,其特征在于,采用cohesive联盟提取方法提取备选联盟,如果子图G'中的边的数量接近于在同样节点数情况下可能存在的最大边的数量,那么子图G'就成为备选联盟。

本专利关键的一步是利用账户发布的消息中的URL来估计账户之间相似度。通过对具有潜在危害的账户进行统计分析,发现在同一联盟中协作合作的账户之间存在紧密联系,通过在Twitter数据集上验证,本专利可以很精确地提取潜在联盟,并准确区分备选联盟的真实目的。

具体实施方式

本发明的具体步骤如下:

步骤1获取数据

大部分有害信息发布者会在很短一段时间内协同发布消息,被频繁发布的URL要么是质量特别高、安全网站,要么是作弊网站,我们可以分析被频繁发布的链接的信息,区分出正常发布行为和作弊者发布行为之间的区别。微博数据的爬取过程如表一。

表一 微博数据获取过程

为了更好地了解微博社交平台的正常推广和作弊联盟的活动行为,本专利采用Tweets公开数据集,该数据集是由TREC提供的,里面包含了重要的微博消息,覆盖面广,共包含1278002条不同的URL,其中1181735个用户发布过含有URL的微博消息。将微博数据集中不包含URL的微博消息过滤掉。从Tweets数据集中随机选择2000个发布次数超过20次的URL。其中的80%作为训练集,剩下的20%作为测试集。

步骤2相似性估计

被同一联盟控制的账户大多是为同一目的存在的,而且很可能被同一个后台程序自动操纵,导致这些账户发布的消息有极大相似性。无论是作弊者还是营销推广者,其目的都是为了吸引更多的访问者,而为了达到这个目的,通常将目标网站的链接嵌入到发布的消息中,因此发布过的链接会为计算账户相似度提供依据。本专利提出了一种基于融合链接和时间的估计算法,来衡量用户之间发布链接目的的相似性。

传统的相似度估计算法:基于链接的估计算法

传统的衡量微博账户链接目的相似性的方法是依据香农信息熵理论,计算任一链接所包含的信息量:I(l)=-log(P(l)),其中是链接l出现的概率,#L是数据集中链接l出现次数,N则是数据集中所有链接总数。

每个账户发布的所有链接包含的信息总量就是将所有的链接的信息量加起来,计算公式如下:

Numi(l)是链接l被该账户发布过的次数。

两个账户之间发布过的相同的链接所包含的信息量如下面公式所示:

L代表该账户发布过的所有链接(l1,l2,...,ln)的集合。账户之间的发布行为的相似度。用公式表示:

u代表一个微博账户

传统的相似性度量方法只考虑了发布消息的链接,而忽略了发布链接的目的。对于两个账号为同一目的发布某链接和为不同目的发布该链接这两种情况,链接所包含的信息量前者远大于后者。假定两个账户被同一个联盟控制的时候,这两个链接包含的信息量相同。本专利提出融合链接和时间的估计算法,采用微博消息所带的时间戳来修正账户之间发布消息的相似度。计算公式如下:

It(l)=-log(P(l))·e-Δt,-Δt是包含链接l的所有微博消息的平均发布时间间隔,单位为小时。每个账户发布的所有链接的总信息量如下公式:

Numi(l)是链接l被该账户发布过的次数。

两个账户之间发布链接行为包含的相同的信息的量如下公式:

两账户之间的发布行为的相似度在在时间影响的情况下公式为:

该估计算法在考虑链接的同时也考虑了每个包含链接的微博消息的时间,以此来估计两账户发布链接行为之间的相似度,这样可以降低合法用户之间的相似度,为联盟提取和分类提供便利。

步骤3得到备选联盟

步骤2中提出的相似度的估计算法可以计算任意两账户之间的相似度,现将相似度较高的账户连接起来构建一个账户图。根据账户图,选择一个有效的算法提取备选联盟,形成可能的推广或者作弊联盟。一个比较直接的方法就是提取最大联通子图作为逻辑上的联盟,但是并不是所有的联通子图都是逻辑上的联盟。本专利中引入cohesive子图作为备选联盟,这样不会漏掉一些弱连通的联盟,也不会将实际联盟的大小缩小。

定义:cohesive联盟:给出一个账户图G=(V,E),如果子图G'中的边的数量接近于在同样节点数情况下可能存在的最大边的数量,那么子图G'就成为cohesive联盟。

步骤4备选联盟分类

随机选择一部分备选联盟来进行人工评测,发现并不是所有的联盟都是作弊或者推广联盟中的一种,还存在一些正常的用户联盟,比如相同的兴趣或者隶属于同一公司的用户,发布的消息有很大的相似性。因此就需要一个足够可靠的策略来将正常联盟,将推广联盟和作弊联盟区分开来。先根据联盟的特点提取一些特征,用机器学习的方法构造分类器对备选联盟进行分类。

对联盟中一下的特征进行统计:平均发布时间间隔(API)、该联盟中的账户发布带链接的微博消息的平均数量(UTNum)、该联盟中的账户发布带链接的微博消息出现的频率(UTFrequency)、衡量联盟中的账户平均发布的链接的数量(URLNum)、联盟密度(CampaignDensity)、域名数(DomainNum)、有效链接数(VURatio)、文本相似度(DTSimilarity)、黑名单数量等。

基于上述特征对备选联盟进行分类。在机器学习领域,已经存在很多有效的分类方法,由于备选联盟分为三类:正常、推广和作弊,而一般的分类算法只是针对二分类有效的,所以设计了如下方式:先将正常的联盟与推广作弊联盟区分开来,然后再区分推广和作弊联盟。这是因为:(1).正常联盟与剩下的两类联盟的特征相差较多、容易区分;(2).推广与作弊联盟需要详细地进行区分;(3).二分类的精确度要比三分类高,且分类效率也更高。

步骤5评价系统

为了验证提取备选联盟的算法的效果,采用平均准确率,平均召回率和平均Fl-measure来对比实际联盟和备选联盟之间的差别,并对结果进行分析之后,修正算法中的参数,使系统达到最优状态。平均准确率(APrecision)的计算公式如下:

这里n是被提取出的备选联盟的数量,m则是数据集中实际联盟的数量。Ci代表一个备选联盟而Tj代表一个实际联盟。

平均召回率的计算方式如下:

平均Fl-measure由平均准确率和平均召回率计算而得,如下:

本发明的有益效果如下:

1、相似性估计算法在考虑链接时也考虑了每个包含链接的微博消息的时间信息,以此来估计两账户发布链接行为之间的相似度,这样可以降低合法用户之间的相似度。

2、用两次二分类代替三分类,降低分类的计算复杂度,同时可以提高分类准确度。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1