基于文化基因算法的社交网络影响最大化方法

文档序号:6635294阅读:348来源:国知局
基于文化基因算法的社交网络影响最大化方法
【专利摘要】本发明公开了一种基于文化基因算法的社交网络影响最大化方法,主要解决现有技术在处理社交网络影响最大化时难以找出可使信息传播最广的初始激活节点集合问题。其实现步骤为:1.确定目标函数,并构造初始种群;2.开始进化过程,从种群中选择出父代个体,并依次进行交叉及变异操作得到子代个体;3.选出子代最优个体,对其进行局部搜索;4.根据父代和子代个体更新种群,并选出种群最优个体;5.判断是否终止:如果进化次数满足预先设定次数,则输出种群最优个体,否则,返回步骤2。本发明能有效地从大规模社交网络中挖掘出信息传播最广的初始激活节点集合,有效地解决了社交网络信息影响最大化的问题,可用于研究社交网络的信息传播机制。
【专利说明】基于文化基因算法的社交网络影响最大化方法

【技术领域】
[0001] 本发明属于社交网络【技术领域】,特别涉及一种找出社交网络中具有最佳影响力个 体组合的方法,可用于分析和研究社交网络的信息传播机制。

【背景技术】
[0002] 社交网络是现代生活中最为常见的也是最为直观的复杂社会网络,它由网络中每 个个体的人际关系网络构成。其中,网络中的每个节点代表社会生活中的每一个个体,而网 络的边就是个体相对应的人际关系,常见的社交网络有合作网络、信任网络以及交友网络 等。由于个体之间的相互交流和人际关系与我们的生活、学习以及工作密切联系,因此对社 交网络进行分析对人类社会有着重要的研究意义和价值。
[0003] 近年来,随着Web 2.0的出现和互联网信息技术的迅猛发展,一系列的在线交友 网络出现在人们的生活当中,具有代表性的有Facebook、Twitter、QQ以及目前快速发展的 微博社交网络平台等。这些在线社交网络不受空间和时间的限制,能够使人们交流越来越 频繁,联系也越来越紧密,极大地推动了社交网络的发展。社交网络的共同特点就是规模庞 大,使用人群的年龄、行业等复杂多样,且设计的话题覆盖面广,信息量大。
[0004] 社交网络的信息传播,作为社会网络的热点研究话题,是理解、获取和预测市场营 销、社会安全以及Web搜索等领域中信息传播过程的基础和依据。目前,众多企业已经广泛 地利用社交网络的信息传播机制,将社交网络视为市场营销的平台,进行新产品和新服务 的推广。相比于传统的方法,这种市场营销手段往往能够以很小的代价,达到以一传百甚至 传千的效果,从而使企业获得极大的利润。社交网络影响最大化问题就可以具体解释为,在 社交网络中推广某种新型产品或者服务时,如何选择首次推广的用户从而使得该产品或服 务由其推广到网络中更多的个体,或者将"种子短信"发给哪些手机用户可以获得更大范围 的转发;从另一个角度来讲,当传染病来临时,应该采取何种接种免疫策略来避免和控制传 染病的传播,或者根据网络的信息传播机制,如何有效地控制在线社交网络中的谣言传播, 维护网络安全等。
[0005] 目前,社交网络信息影响最大化的研究已经涉及到社会学、经济学、信息传播学、 统计学以及计算机网络学等多个领域,其中较为典型的社交网络包括科学家合作网络、电 子邮件网络、金融信任网络以及复杂多样的在线交友网络等。关于如何去定量地分析和理 解以及如何有效地解决社交网络信息影响最大化问题,目前也已经引起科学界的广泛关注 和研究。除此之外,其背后蕴藏的深刻的社会意义和巨大的商业价值也在很大的程度上促 进了该问题的研究和发展。
[0006] 在现有的针对社交网络信息影响最大化问题的研究中,其内容主要分为两个方 面,分别是如何建立合理的动力学模型去分析和模拟真实的社交网络信息传播机制以及在 此基础上,如何挖掘网络中可以使得信息传播最大化的种子节点集合。目前,在网络信息传 播领域中,较为常用的两种基本动力学分析模型分别称为独立级联模型和线性阈值模型, 其根据网络的不同特征,分别从不同地角度分析了信息如何在网络中进行传播。除了上述 的两种传播机制,还有最初针对传染病传播机制的SIR模型和SIS模型。
[0007] 网络信息影响最大化问题最早为经济市场学领域的产品推广问题。商家为了广泛 推广其产品,如何有选择地去推广给一些有影响的人群,从而使产品达到最大范围的推广。 Domingos 和 Richardson 在"Mining the network value of customers,'(《Processdings of the ASM SIGKDD Conference on Knowledge Discovery and Data Mining》,2001, page 57-66)中第一次将这个问题以一个算法问题提出来,并且通过使用一种基于概率模 型的方法去尝试解决它。在 "Maximizing the spread of influence through a social network''(《Processdings of the ASM SIGKDD Conference on Knowledge Discovery and Data Mining》,2003,pages 137-146) -文中Kempe等人将该问题阐述为一个组合优化问 题,称之为网络影响最大化问题,并通过提出一种基于爬山策略的贪婪算法对其进行了求 解。
[0008] 基于上述基础,近年来越来越多的针对网络影响最大化问题的方法被提出来。传 统的基于网络邻域和距离特性的方法,如最大度中心性方法、最短距离中心性方法以及介 数中心性方法等,一般具有较低的运行时间复杂度,但是上述方法根本无法完全有效地挖 掘出网络中最具影响力的节点组合。而Kempe等人提出的贪婪算法,找出的个体组合可以 达到接近63%的最大影响范围,但是该算法在每确定一个节点时都要遍历网络中所有的节 点,并且必须通过上万次迭代来计算初始激活节点的平均影响范围。这使得贪婪算法在解 决社交网络影响最大化问题时,必须付出了高昂的运算时间复杂度,致使其应用受到极大 的限制。


【发明内容】

[0009] 本发明的目的在于针对上述已有技术的不足,提出一种基于文化基因算法的社交 网络影响最大化方法,以减小运算时间复杂度,挖掘出具有最大影响力的节点组合,应用于 网络信息的传播过程中,实现网络的影响最大化。
[0010] 本发明的技术思路是:将社交网络影响最大化问题看作是一个组合优化问题,其 中将期望传播函数作为目标函数,利用基于文化基因的进化方法来优化目标函数,并通过 利用网络邻域信息引入邻域局部搜索策略,从而找到更好的节点组合,其实现步骤包括如 下:
[0011] (1)输入目标网络G = (V,E),其中,V表示网络中的节点集合,E为网络中边的集 合;
[0012] (2)设定传播概率P和初始激活节点数目K,对于初始激活节点集合A,根据独立级 联信息传播形式构建期望传播值函数EDV,作为待优化的目标函数:

【权利要求】
1. 一种基于文化基因算法的社交网络影响最大化方法,其特征在于包括下列步骤: (1) 输入目标网络G = (V,E),其中,V表示网络中的节点集合,E为网络中边的集合; (2) 设定传播概率p和初始激活节点数目K,对于初始激活节点集合A,根据独立级联信 息传播形式构建期望传播值函数EDV,作为待优化的目标函数:
其中,Neighbor、丨表示初始激活节点集合A的邻居节点集 合,U为初始激活节点集合A的某一邻居节点,= GE}|表示邻居 节点U连接初始激活节点集合A中的节点个数; (3) 种群初始化: (3a)设定种群大小为N,对于指定的初始激活节点数目K,根据最大度启发式方法选 出前K个具有最大度的节点,并将其赋给前N/2个个体X1......XN/2,每一个体表示为X i ={xn, xi2, ... Xij, ...,xiK},其中Xij代表第i个个体的第j个元素所选定节点的编号, i e [l,N/2], j G [1,K]; (3b)从个体X2到个体XN/2,对个体中的每一位生成一个随机概率pd G [〇, 1],如果pd> 0. 5,则将个体中的该位变换为在这个个体内不重复的节点编号;否则,不进行变换; (3c)利用随机方法对后N/2个个体XN/2+1......Xn进行初始化; (3d)利用上述步骤(2)中的待优化的目标函数EDV,计算每个个体的期望传播值,并将 拥有最大期望传播值的个体作为种群的最优个体; (4) 通过进化获得具有最大优化目标函数值的初始激活节点集合: (4a)设定种群进化迭代次数T,个体交叉变换概率p。和变异概率Pm,并令当前迭代次 数 t = 0 ; (4b)选择父代个体:采用锦标赛竞争机制进行父代个体的选择,每一次从种群中随机 选择两个个体,比较两个个体的期望传播值EDV,选择EDV值较大的个体作为一个父代个 体,重复N次上述的选择过程,选出N个父代个体; (4c)交叉变换操作:随机从父代个体中选择两个个体,对其进行单点交叉变换操作, 从父代个体1中随机选择一个节点,对于该节点以及之后的节点均产生一个介于[〇, 1]之 间的随机概率,如果随机概率小于交叉变换概率P。且父代个体1中不包含父代个体2中的 对应节点,则进行对位交叉交换,产生两个子代个体;否则,不进行交叉变换; 重复N/2次上述交叉变换过程,产生N个子代个体; (4d)对于上述子代种群中的每一个个体,对其每一位生成一个介于[0, 1]之间随机概 率,如随机概率小于Pm,则将个体中的该位变换为这个个体内不重复的节点编号;如果随机 概率大于Pm,则该位不进行变换; (4e)从经过上述(4c)和(4d)操作后的子代种群中选择出具有最大EDV值的个体作为 最优的子代个体,对其进行局部搜索,产生新的最优子代个体; (4f)从父代种群和子代种群中选择前N个最大EDV值的个体作为下一代的种群,用来 进行下一次的迭代;比较种群最优个体与上述(4e)过程中产生的新的最优子代个体的EDV 值,选择具有较大EDV值的个体作为当前种群最优个体,令t = t+1 ; (4g)判断是否终止:如果迭代次数t满足预先设定的次数T,即获得了具有最大优化目 标函数值的初始激活节点集合,并执行步骤(5);否则,重复步骤(4b)至步骤(4f); (5)输出步骤(4f)中的种群最优个体所包含的K个节点。
2. 根据权利要求1所述的基于文化基因算法的社会网络影响最大化方法,其中步骤 (2)所述的独立级联信息传播形式,按如下步骤进行: (2a)对激活节点集合A中每个节点u的未激活状态的邻居节点V产生一个随机的概率 值 Pu,v ; (2b)将随机的概率值pu,v与传播概率p进行比较:如果pu, v < p,则邻居节点V被激活, 并将该邻居节点V加入激活节点集合A中;如果pu,v > p,则邻居节点V激活失败; (2c)判断激活节点集合A中的节点数目是否有增加,如果节点数目增加,则重复上述 步骤(2a)和(2b);否则,传播过程结束。
3. 根据权利要求1所述的基于文化基因算法的社会网络影响最大化方法,其中所述步 骤(4e)中的局部搜索操作,按如下步骤进行: (4el)设定搜索标志位m,并令m = 1 ; (4e2)对于子代最优个体的第m个位节点,随机地选择一个邻居节点来替换当前位节 点,产生一个新的个体; (4e3)利用期望传播值函数EDV计算新个体的EDV值,如果新个体的EDV值大于原个 体的EDV值,表示邻域搜索成功,则在新个体的该位上重复上述(4e2)操作;如果新个体的 EDV值小于等于原个体的EDV值,表示邻域搜索失败,则原个体的当前位节点保持不变; (4e4)将搜索标志位m与初始激活节点个数K进行比较,如果两者相等,则局部搜索操 作完成;否则,令m = m+1,重复上述步骤(4e2)至(4e3)。
【文档编号】G06Q10/06GK104361462SQ201410674364
【公开日】2015年2月18日 申请日期:2014年11月21日 优先权日:2014年11月21日
【发明者】公茂果, 马晶晶, 沈波, 马文萍, 罗恩湖, 马里佳, 曾久琳, 蔡清, 王爽 申请人:西安电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1