一种基于话题模型的网络负面信息影响最小化方法

文档序号:9708379阅读:426来源:国知局
一种基于话题模型的网络负面信息影响最小化方法
【技术领域】
[0001] 本发明属于网络技术、信息技术领域,具体涉及一种基于话题模型的网络负面信 息影响最小化方法。
【背景技术】
[0002] 在过去几十年,在线社交网络为信息传播和市场营销活动提供了方便的平台,让 想法和行为在社交关系中的级连上相互传播。从社交网络的功能来看,它不仅可以传播正 面消息,例如:创新想法,热门话题等,还可以传播负面消息,例如:恶意谣言,虚假信息等 等。就拿谣言作为例子,即使最开始只有很少的被感染者,但由于在网络中触发了一系列的 级连结构,最终的感染数目也会很大。因此,如何设计有效的方法,来减少负面信息的影响 范围,使它的影响最小化是一个亟待解决的科研问题。
[0003] 关于如何寻找影响力最大的点,使信息在社交网络中更有效的传播,这个问题被 称作影响力最大化问题,近几年已经吸引了很多的关注。然后与之相反的如何使负面信息 扩散最小的影响最小化问题,却很少得到关注,尽管这也是一个重要的研究问题。
[0004] 关于负面信息影响最小化的问题,已经有一些工作已经完成。之前有工作研究了 通过去除节点来减小扩散面积的方法。文献"[l]Albert,R.,Jeong,H.,and Barab_asi,Α·-L.:Error and attack tolerance of complex networks. In Nature,378-382,2000.[2] Newman,M.E.J.,Forrest,S.,and Balthrop,J·:Emai1 networks and the spread of computer viruses.In Physical Review E,66:035101.[3]ffang,S.,Zhao,X.,Chen,Y., Li,Z.,Zhang,K.,and Xia,J.:Negative Influence Minimizing by Blocking Nodes in Social Networks .In AAAI (Late-Breaking Developments)2013." 已经证明 了通过将节点 的出降序排列,从而去除前面的节点通常是非常有效的。这里,去除节点其实就包含了去除 边的情况。所以去除边的任务比去除节点更加基础,通过去除连边来阻止负面信息的传播 范围是一件非常重要的事情。Kimura提出了一种去边的方法,来使整个网络的污染面积最 小,参见文南犬 "Kimura,Μ ·,Sai to,K ·,and Motoda,H · : Minimi z ing the Spread of Contamination by Blocking Links in a Network. In AAAI 2008." D然而,他的方法没有 考虑到对于已经感染的网络如何处理。Yu认为(参见文献"Yu,Y.,Berger-Wolf,T.Y.,and Saia,J.:Finding spread blockers in dynamic networks. In Advances in Social Network Mining and Analysis,55-76,2010·")对于寻找最有效的传播阻断节点,仅仅就 找那些节点度非常高的即可。Budak研究了影响最小化的问题(参见文献"Budak,C., Agrawal,D.,and Abbadi,Α.Ε.:Limiting the spread of misinformation in social networks. In WWW 2011."),他把这个问题定义为一个恶意信息在社交网络中从一些特定 节点进行传播,然后选择一些节点用一些正面的信息来抵消负面信息的影响。
[0005] 不同于之前的工作,本发明的研究关注于一个已经被谣言感染的社交网络,对于 这种情况,本发明研究如何通过去掉一小部分节点来使负面信息影响最小化。

【发明内容】

[0006] 本发明针对上述问题,提供一种基于话题模型的网络负面信息影响最小化方法, 对于恶意信息已经爆发的社交网络能进行有效地控制,使负面信息的影响范围大大降低。
[0007] 本发明采用的技术方案如下:
[0008] -种基于话题模型的网络负面信息影响最小化方法,包括如下步骤:
[0009] 1)采用有向图表示社交网络中信息的传播,通过话题模型分别计算负面信息的概 率分布和每条边上的历史信息的概率分布;
[0010] 2)分别计算负面信息的概率分布和每条边上的历史信息的概率分布的距离,SPKL 散度d(w,i),其中d表示KL散度的计算结果,w表示历史信息的话题分布,i表示负面信息的 话题分布;
[0011] 3)计算
·,其中b(w)和o(w)分别为中心度和出度 入度算法的计算结果,然后从大到小排序,并去掉前k个节点,使负面信息的传播范围最小。
[0012] 进一步地,步骤1)所述话题模型为层次化狄利克雷话题模型。
[0013] 进一步地,通过所述层次化狄利克雷话题模型计算每条边的话题分布,并基于现 有的数据自动的算出话题的数目。
[0014] 进一步地,计算所述话题分布的方法是:
[0015] a)收集在所有边上的文本信息,组成一个文本集名 代表在边eu,v上文本的数量;
[0016] b)应用层次化狄利克雷话题模型学习话题的数量K和对于每个文本的话题分布 (
[0017] c)由每个乂,话题分布平均得到边eu,v的话题分布么,
[0018] 进一步地,所述社交网络中的信息传播采用独立级联模型。
[0019] 利用本发明提供的方法在社交网络进行恶意信息控制时,具有如下优点:
[0020] 本发明主要是针对恶意信息已经爆发了的社交网络,进行切割节点来阻断恶意信 息传播,提出了基于话题模型的方法,使负面信息的影响范围大大降低,取得了很好的效 果。通过话题模型HDP-LDA分别计算负面信息的概率分布和每条边上的历史信息的概率分 布;然后分别计算负面信息的概率分布和每条边上的历史信息的概率分布的距离,即它们 之间KL散度,d(w,i);然后分别计算
然后从大(即:跟负面 信息相关的话题经常在这条边上传播)到小排序,去掉前k个节点,使负面信息的传播范围 最小,而且这k个点的数量远远小于社交网络总节点的数目(但是恶意信息的传播范围却大 大降低)。对于这个问题,本发明提出的基于话题模型的算法,效果远远好于其他启发式算 法。
【附图说明】
[0021] 图1是HDP-LDA模型的计算过程示意图。
[0022] 图2是基于话题模型的启发式算法与出度和中心度算法的负面信息感染范围对比 示意图。
[0023] 图3是基于话题模型的启发式算法与出度和中心度算法的运行时间对比示意图。
【具体实施方式】
[0024] 为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和 附图,对本发明做进一步说明。
[0025] 本发明的目标是从话题模型的角度,对于一个已经感染的社交网络,切割一定数 量的节点,使最后的感染面积最小化。更详细的说,当感染从一部分初始节点开始,在一个 广泛使用的基本概率模型--1C模型(Independent Cascade,独立级联模型)下传播,我们 考虑从基于话题模型的角度找到一个集合里面包含k个点,当把这k个点去掉时,预期的感 染面积会是最小,k是一个给定的正整数。我们把这个组合优化问题称作:负面影响最小化 问题。对于这个问题,我们提出了一个基于话题模型影响最小化方法,来有效地找到一个最 优解。通过对两个大规模真实社交网络的数据集进行实验(包括Facebook和Sina微博),我 们证明了,本发明提出的方法的表现要好于两个已经被研究的很好的启发式去边算法(中 心度和出度入度算法)。
[0026] 为了刻画基于话题文本意义下的社交影响,我们将应用TIC模型(Topic-aware Independent Cascade,基于话题的独立级联模型)。在这个模型下,一个用户对另一个用户 的影响概率是由话题来决定的。因此,对于每一条( V,U)EE的边和每一个话题ze[l,K],其 中K表示话题的数目,我们都有一个概率A ",代表用户v对用户u在话题z下的影响力度。而 且,对于每一个项iei在社交网络上传播,其中i表示每一条社交网络上传播的信息,I表示 整个信息集合,我们在这个话题上有一个概率分布,那就是对于每一个话题z e [ 1,K],我们 都有= 并且;£^<=1,其中广表示对于每一条在网络上传播的信息i对于每 一个话题z的传播概率分布,Z表示话题。在这个模型中,信息的传播非常像1C模型那样,即 在项i的条件下,节点v先被激活,然
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1