一种基于随机模型预测信息最大化传播范围的方法

文档序号:6622430阅读:1411来源:国知局
一种基于随机模型预测信息最大化传播范围的方法
【专利摘要】本发明属于社会网络建模与分析领域,具体涉及一种探索了社交网络动态特性的基于随机模型预测社交网络信息最大化传播范围的方法。该方法构造了一组可描述网络信息传播动态性的函数,通过社交网络信息传播的历史数据,建立动态信息传播模型,并利用随机模型检测器通过验证和仿真技术,预测通过不同节点与节点集合传播,信息可能传播的最大范围,并找出能使传播范围最大化的节点集合。与传统的传播范围最大化建模方法相比,本发明能够对网络动态性进行建模,使得预测出的初始节点集合质量更高,提高了网络营销策略的成功率。
【专利说明】一种基于随机模型预测信息最大化传播范围的方法

【技术领域】
[0001]本发明属于社会网络建模与分析领域,具体涉及一种探索了社交网络动态特性的社交网络信息最大化传播范围的方法。该方法构造了一组可描述网络信息传播动态性的函数,通过社交网络信息传播的历史数据,建立动态信息传播模型,并利用随机模型检测器通过验证和仿真技术,预测通过不同节点与节点集合传播,信息可能传播的最大范围,并找出能使传播范围最大化的节点集合。

【背景技术】
[0002]20世纪30年代,英国人类学家Radcliffe Brown在对社会结构的关注中,首次使用了“社交网络(社会网络)”(Social Networks)的概念。在接来下的70多年里,通过多个学科领域的几代学者的共同努力,社会网络形成了比较成熟完善的概念体系。社会网络传播过程在社会学中也有着长期的研究历史。近些年,随着互联网技术的发展,越来越多的虚拟社会相继出现,比如以Facebook, Twitter,新浪微博等为代表的大型在线社交网络网站,通过手机通信、电子邮件等形成的人际关系网络等。透过这些虚拟网络所展现出的社会关系和人际互动是许多研究的关注重点。在社会个体信息传播领域,社交网络作为媒介,在社会个体之间相互影响、传播信息与观点方面,发挥着根本性的作用。一个信息体或是观点可能在人群中极大的蔓延开来,也有可能迅速地消失。虚拟社会的研究与现实社会的研究存在着极大的不同,现实社会可以对诸多鲜活个体进行调查研究,而对虚拟社会的探索,需要着眼于数据,通过业务系统来完成研究的工作。
[0003]如何在社交网络中进行市场营销已成为各商家和网络运营商所关注的热点。许多商家试图通过社会网络传播他们产品或者企业理念。社交网络中的“病毒式营销”是指最初针对少数有“影响力”的网络成员,向他们提供免费的产品样品,并期待引发一连串的影响:其中一些成员会推荐产品给他们的朋友,通过“口碑效应”,最终使尽可能多的人愿意尝试这种新产品。这种营销模式的突出优点是,人们认为来自朋友或其他信任源的信息是最可靠的,而这正是广告营销所缺乏的。这种使客户参与到营销活动中来的营销方式,可以给投资带来前所未有的回报。但是,应该选择社交网络中的哪些客户作为初始客户开始营销活动,从而使营销活动的效果覆盖最大的社群范围,是这种营销模式下的最重要的问题。
[0004]为解决上述问题,许多针对信息最大化传播范围的预测方法被提了出来。这些预测方法可以被分为两大类,一类是基于排序的选择方法,即通过历史数据,按照发信息量或者好友/粉丝数目等属性,对社交网络中所有用户进行排序,选择排名前K (K为自然数,且远小于总用户数)个用户,作为营销初始用户集合在网络中开展营销。第二类是通过建立能够预测给定节点(用户)或者节点集合的信息传播范围的信息传播模型对待选节点集合进行评估,而最终确定初始节点集合的方法。第一类方法把节点考虑成相互独立的个体,虽然计算开销较小,能够快速处理海量的数据,但是准确率最差,因为通常依靠排名的方法,选取的前几名节点在拓扑上距离较近,通过他们一起传播信息时,大多是重叠的,所以组合传播范围相对较小,效果最差。而第二种方法,虽然计算开销比较大,但是能够获得更高质量的营销方案,因为所建立的信息传播模型能够更好刻画信息传播的内在规律。因为获得高质量的营销方案会极大程度的提升企业营销行为的成功率,计算开销的代价在一定程度上,是可以被接受的。
[0005]现有的信息传播模型主要有马尔科夫随机场(Markov Random Field)、随机级联模型(Stochastic Cascade Model)和线性阈限模型(Linear Threshold Mode)。其中常用的级联模型有两种分类:独立级联模型(Independent Cascade Model)和权值级联模型(Weighted Cascade Model)。这些概率模型的目的在于对信息传播的规律进行建模,从而可以利用数学的方法预测通过给定节点或节点集合,信息可能传播的范围。在此基础上,为了确定能够达到最佳传播范围的待选节点集合,需要迭代的遍历所有备选方案,计算代价极其高昂,所以采用贪婪算法等近似算法取代遍历算法,进而确定一个准确率不小于l-1/e的近似解。目前针对这一问题的研究工作,可以分为如下三类。第一类试图提出新的贪婪算法能够降低迭代的次数,获取近似最优解,例如基于社区划分(Community-based)的贪婪算法,结合了子社区特性来处理,首先将整个社会网络拆分成多个子社区,然后在每个子社区中(而不是整个社区)评估传播范围,和提出降低贪婪算法迭代次数的Cost-EffectiveLazy Forward(CELF)算法。第二类研究试图提出新的基于启发函数的高效算法来得到近似解,例如度折扣的算法(DegreeDiscount),该算法假定节点传播信息能力随着节点度的增加而增加,从而利用节点的度来简化计算。第三类研究是提出新的信息传播模型,增加更多丰富的信息,使得对这一问题的分析更加贴近现实。例如提出时间约束的信息传播模型,增加了时间属性,使得模型能够分析不同时间的传播范围,进而解决更加实际的问题,例如在一定时间(T)约束下,寻找使得信息传播范围最大化的解决方案,所找到的解决方案与没有时间约束的有很大不同。
[0006]尽管如此,上述方法还有着比较明显的缺陷,以至于不能满足实际分析需求:1、无论是级联模型、线性阈值模型、马尔科夫随机场模型,还是时间约束的信息传播模型,都是静态模型,他们假定信息在传播过程中,社交网络内部属性(比如节点间信息传播的概率或者速率)都是不会发生变化的。但是有大量文献表明社交网络是随时间不断动态变化的,通常随着历史数据的积累网络内部属性变化很快,而该变化会对社交网络中信息的传播产生重要影响。事实上在社交网络中,每天都会积累数以亿计的信息传播数据,所有的信息传播模型都是基于这些数据训练得到的,所以随着数据的积累,信息传播模型会很快演化,所以现存的方法的缺陷在于不能考虑社交网络的这种动态性。2、上述方法都是基于社交网络中朋友间关系进行建模的,但是这些好友关系不能反应实际信息的传递关系或者路径,例如大量的节点尽管建立了好友关系,但是从来没有互相转发信息,关系仅仅是一种较弱的关系,事实上网络大量的关系是弱关系。基于上述两个主要缺点,现有的方法获得的解决方案质量较差,不能找到很高质量的初始节点,预测与实际的差距很大,不能满足实际需要。


【发明内容】

[0007]本发明提出一种基于随机模型预测信息最大化传播范围的方法。该方法能够解决如何在社交网络中选取K (大于零的正整数)个节点作为初始节点来发放信息,使得在时间约束T下,信息的传播范围最大,即转发人数最大。该方法优点在于能够有效地考虑信息在传播过程中网络可能发生的演化,从而找到高质量的种子节点集合,提升在社交网络上营销的成功率。
[0008]本发明首先将输入的社交网络中信息传播的历史数据与网络动态性函数集建模成本发明中的动态信息传播模型,该模型是一个连续时间马尔科夫链模型(ContinuousTime Markov Chain, CTMC)实例,其由一系列连续时间马尔科夫链的集合所组成,它们之间通过转移标识相关联。本发明接下来将会通过一种针对连续时间马尔科夫链做了优化的贪婪算法迭代地在动态信息传播模型中选取初始节点集合,并利用随机模型检测(器)工具(Probabilistic/Stochastic Model Checking,请参见 Stochastic model checking.1nProc.Formal methods for performance evaluat1n, pages 220 - 270,Berlin, 2007)对所得到的动态信息传播模型进行检测或者进行多次仿真分析,根据检测或者仿真分析所得出的在T时间约束下,信息可能的传播范围(累计转发人数)预测结果,最后选择出能够使得信息传播范围最大化的节点集合,输出信息最大化传播面。该结果能够反馈给社交网络市场营销人员,进行实际广告或者信息投放。该方法的总体框架如图1所示,主要包括输入层、模型层、算法层和预测结果层四部分。
[0009]本发明所处理的社交网络信息传播历史数据的格式与包含元素如图2所示,其中每行均表示一个信息的传播历史,信息均由唯一标识所区分。每一行由一系列二元组所组成,每个二元组中均包含一个节点唯一标识(node_id)与一个时长(time),其表示了该信息被节点(node_id)于信息发布后time时长转发。当time = O时,表示信息发布。本输入中时间单位都是一致的。
[0010]本发明中所构造的网络动态性函数集是一个已知的信息传播网络潜在变化规律的集合。每一个动态函数都刻画了在信息传播过程中传播网络上各个边可能发生的变化,具体表现为节点之间边上传播速率的变化。每个动态函数都包含若干个动态因素,每个因素都是一个变量,随着这些变量值的变化,网络中边将会按照这些因素为因变量的函数而发生变化。网络动态性函数可以是一种普遍的规律,也可以是特定网络的变化规律。具体的表示形式为一个节点类别标识集合P,一个分类函数Part(xl, x2,…,xn),每类节点的入边上传播速率的变化函数#,#的触发条件,以及#的更新函数。Part (xl,x2^..,xn), xl,..., xn表示节点的属性值,用于给节点分类。针对每一类节点,定义该节点入边上传播速率的变化函数# (xl, x2, x3,…,xn)、Φ的触发条件与#的参数更新函数,参数xl,…,xn为一系列变量,这些变量将会按照某一参数的指数分布不断变化,Φ的触发条件是由xl,…,xn的变量值所表达的,f的参数更新方法即为触发该变化函数f后xl,…,xn变量的更新等式。
[0011]本发明中给出一种构建动态信息传播模型,进而预测给定初始节点集合(I)在一定时间(T)约束下信息传播范围的方法。
[0012]构建动态信息传播模型方法的具体步骤如下:
[0013]1、对于每条信息传播历史,构建传播网络图。对于每一行信息传播数据,首先按照时长从小到大把节点排序,把数据中出现的节点在目标网络图中创建成独立的节点,节点之间的关系表示了传播的速率rate,假设节点间传播的概率为满足参数rate的指数分布,利用数学优化方法,例如凸优化,迭代的训练节点直接的传播速率值,直到所计算出来的传播数据的发生概率熟练,即可得到使得给出的信息传播数据发生的概率最大化的各边速率值。所得到的传播网络图即为G〈N,E, RATE), N为节点集合,E为有向边的集合,对于E中的每个元素e,都有一个速率值r与其对应,r属于RATE。
[0014]2、把I中得到的传播网络图,转换成连续时间马尔科夫链(CTMC)。连续时间马尔科夫链的具体定义如下:CTMC(S,s0, R,L),S为状态集合,s0为初始状态,R:SX S为转移矩阵,每一个元素表示从状态Si (属于S)到s2(属于S)的转移速率,其满足指数分布。L:S->2AP标识了每个转移操作的转移标识(labeling act1n),AP为一个固定的原子谓词。
[0015]在本发明中,CTMC (S,s0, R, L)都利用如下半形式化结构进行表达成一个CTMC模块:
[0016]

【权利要求】
1.一种基于随机模型预测信息最大化传播范围的方法,其步骤包括: 1)从社交网络中获取信息传播的历史数据,并通过网络动态性函数集描述所发现的网络动态性; 2)把信息传播的历史数据与网络动态性函数集建模成动态信息传播模型; 3)通过贪婪算法迭代地设置初始节点集合,利用所述动态信息传播模型并调用随机模型检测器,通过验证或仿真的方法对初始节点集合所能达到的可能传播范围进行预测; 4)根据信息的可能传播范围的预测结果,确定使得传播范围最大化的初始节点集合,并输出该初始节点集合和预测的信息最大化传播范围。
2.根据权利要求1所述的基于随机模型预测信息最大化传播范围的方法,其特征在于:步骤I)所述历史数据中,每行均表示一个信息的传播历史,信息均由唯一标识所区分;每一行由一系列二元组所组成,每个二元组中均包含一个节点唯一标识node_id与一个时长time,表示该信息被节点node_id于信息发布后经过time时长转发。
3.根据权利要求1所述的基于随机模型预测信息最大化传播范围的方法,其特征在于:步骤I)所述网络动态性函数集是一个已知的信息传播网络潜在变化规律的集合,每一个动态性函数都刻画了在信息传播过程中传播网络上各个边可能发生的变化,具体表示形式为:一个节点类别标识集合P,一个分类函数Part (xl, x2,..., xn),每类节点的入边上传播速率的变化函数#,^的触发条件和#的更新函数;其中分类函数Part (xl, x2,…,xn)用于给节点分类,xl,..., xn表示节点的属性值。
4.根据权利要求1所述的基于随机模型预测信息最大化传播范围的方法,其特征在于:步骤2)所述的动态信息传播模型是一系列的连续时间马尔科夫链模型,其包括传播网络连续时间马尔科夫链模型和网络传播动态函数连续时间马尔科夫链模型。
5.根据权利要求4所述的基于随机模型预测信息最大化传播范围的方法,其特征在于:步骤2)中构建动态信息传播模型的方法为: 1)利用数学工具将信息传播的历史数据转换成传播网络图,图上每个节点都是一个网络中的实体,节点间关系表示为有向权重边,边上的权重即为传播速率; 2)将传播网络图转换成连续时间马尔科夫链模型; 3)依次将网络动态性函数集中的每个动态性函数分别转换成连续时间马尔科夫链; 4)将步骤3)所得的网络传播动态函数连续时间马尔科夫链模型与步骤2)中所得的传播网络图连续时间马尔科夫链模型集合通过转移标识进行关联,得到的一系列连续时间马尔科夫链模型,即为所述动态信息传播模型。
6.根据权利要求1所述的基于随机模型预测信息最大化传播范围的方法,其特征在于:步骤3)中通过贪婪算法迭代地设置初始节点集合的方法为: 1)通过调用随机模型检测器对动态信息传播网络中每个单独节点的传播范围进行精确预测; 2)通过确定待加入初始节点集合中的节点对传播范围的增加量Λο τ({ν})进行评估,选择该值最大的节点加入到初始节点集合中,△ στ({ν})的计算方法是在该节点在步骤I)中预测的传播范围基础上乘以打折函数进行估算; 3)对步骤2)进行K次迭代,确定初始节点集合中的节点。
7.根据权利要求6所述的基于随机模型预测信息最大化传播范围的方法,其特征在于:所述贪婪算法中打折函数的公式为:
(s(v.u)eE(1_c ?))。-Ρ|』)στ (!u| ))/( [(v,Ll)eE (i~c r'.“丨(T) )σ? ({u丨.))’ 其中,当(v, u) e E 并且 u e N(I)时,P 以=I—n(w,u)e e, w e |( 1- e否则P1,u = O ;公式中,E为传播网络图中的边集合,e为自然数底,rv,u为传播网络图中边ν到u的初始传播速率,T为时间约束,στ(Ι)表示预测初始节点集合I在T时刻的信息传播范围,N(I)表示集合I的直接后继集合。
8.根据权利要求6所述的基于随机模型预测信息最大化传播范围的方法,其特征在于:所述贪婪算法中,所述的调用随机模型检测器对动态信息传播网络中每个单独节点的传播范围进行精确预测,预测方法选用遍历所有组合后状态的验证方法,或者通过多次仿真,累计传播网络连续时间马尔科夫链模型的状态转移次数计算。
9.根据权利要求1所述的基于随机模型预测信息最大化传播范围的方法,其特征在于:步骤3)所述的随机模型检测器为PRISM随机模型检测器。
10.根据权利要求1所述的基于随机模型预测信息最大化传播范围的方法,其特征在于:步骤3)所述的对初始节点集合所能达到的可能传播范围进行预测,是指在连续时间约束的条件下预测信息可能达到的传播范围。
【文档编号】G06Q50/00GK104134159SQ201410379964
【公开日】2014年11月5日 申请日期:2014年8月4日 优先权日:2014年8月4日
【发明者】谢淼, 王青, 杨秋松 申请人:中国科学院软件研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1