一种基于节点影响力的信息态势感知及传播管控模型的制作方法

文档序号:11865745阅读:390来源:国知局
一种基于节点影响力的信息态势感知及传播管控模型的制作方法与工艺
本发明属于社交网络分析领域,主要涉及社交网络中信息传播,具体针对节点影响力驱动群体互动并促使信息传播进行分析。
背景技术
:社交网络的蓬勃发展,为开展相关研究提供了丰富的数据基础,使研究者有机会在海量真实的数据基础上,研究信息传播机制,探索信息传播规律,并取得阶段性成果。当前面向社交网络信息传播模型中,比较受欢迎的是1)传染病模型。在传染病传播模型中,最为经典的是SIR模型,即把网络中的个体划分为感染、易感和免疫三种状态,每个个体的状态会持续一段时间,直到受到病毒的影响。借鉴传染病模型的思想,将社交网络的节点划分为不知道消息的人群(S类)、知道并继续传播消息的人群(I类)以及知道消息但失去传播兴趣的人群(R类),通过不同状态间的变化,研究信息传播。2)影响力扩散模型IDM(InfluenceDiffusionModel)。IDM模型通过挖掘蕴含在网络文本内容和恢复结构中的规律来测量论坛参与者的活动,并假设论坛影响力最高的节点即为论坛意见领袖。但在社交网络中存在多种信息,不同信息传播存在较大差异。个体对某信息的状态极易受到周边环境或其他信息的影响而发展变化,且状态变化速度较快。不同个体对信息传播的作用不同,例如权威节点或者处在中心位置的节点会产生较大的影响力,促进信息的传播。如何在多属性的社交网络中发现高影响力节点,分析社交网络中节点之间的影响强度,是快速变化的网络时代信息决策的一个关键问题。基于个体影响力模型,由于社交网络规模巨大、节点众多,不同的场景下有不同的意见领袖,识别这些关键节点、评估这些节点的影响力、建立基于影响力的传播模型仍是一项重大的挑战。对于信息中采用哪种技术进行自动分类,利用哪些指标来描述不同种类信息传播的差异,对于这些差异如何从网络结构和交互行为等方面进行解释,目前都存在一些技术难题,缺乏有效的解决方法。因此,以网络节点核心性作为切入点分析节点影响力对信息传播的作用具有一定的研究意义。技术实现要素:本发明解决的问题:针对如何在多属性的社交网络中发现高影响力节点,本发明综合信息传播网络中节点自身属性、历史行为、网络结构三类影响因素,并对这三类因素进行具体分析,采用梯度下降算法对不同因素赋予不同的权重,总结为影响节点行为的内部和外部因素,并用多元线性回归的方法构建节点自身影响力模型;针对如何计算节点之间的影响力,本发明运用最短路径法,找出网络中处于重要位置的节点,集中考虑了社交网络结构中的一些最基本特性,例如度分布、边介数、节点紧密度等属性影响;基于上述基础,本发明采用一种新的SIR模型研究信息传播的规律,主要改进在于量化影响力强度,为研究信息扩散过程中不同节点群体状态转变提供理论依据。总的来说,本发明提到的节点影响力包括节点自身的影响力和节点之间的影响力,进而结合不同的节点影响力和信息传播网络拓扑结构提出一种改进的SIR模型感知信息传播态势,为相关部门管控信息扩散的广度和深度提供思路。为了解决上述问题,本发明采用的技术方案是,一种基于节点影响力的信息态势感知及传播管控模型,包括数据获取模块,从社交网络中获取源数据,并从中获取节点的个人属性、历史行为和好友关系,构建信息传播网络;特征提取模块,分别从网络静态属性和交互动态属性两个维度提取特征,并分别计算相应的因子函数;信息态势感知及传播模块,基于平均场理论构建信息态势感知及传播管控模型,模拟信息传播趋势,感知信息扩散趋势,捕获信息爆发的高峰期,并挖掘驱动该信息传播的动力因子。具体地,所述网络静态属性包括节点度数、节点介数和节点密度。上述节点度数Deg(vi)为与节点vi相关联的边的数目,Deg(vi)=d+(vi)+d-(vi),d+(vi)是节点vi的关注者总和,d-(vi)是节点vi的粉丝总和。上述节点介数为网络最短路径中经过该节点或边的概率之和;Cb(vi)=Σp∈VΣq≠p∈Vδpq(vi)δpq]]>其中,δpq为节点p和节点q之间的最短路径数,δpq(vi)为节点p和节点q之间经过节点vi的最短路径数,Cb(vi)为节点介数。上述节点密度为节点vi与网络中其他节点的平均距离;Cc(vi)=N-1Σj=1Nd(vi-vj)]]>其中,Cc(vi)为节点密度,N为社交网络中节点数,d(vi-vj)为节点vi到其他所有节点的最短距离。具体地,交互动态属性包括内容相似性、意见领袖、活跃节点和信息传播带动力。在本发明的具体实施例中,所述信息态势感知及传播管控模型中的节点vi的影响力函数为Inf(vi)=β0+β1*finternal(vi)+β2*fexternal(vi)其中,β0、β1、β2是偏回归系数,由多元线性回归模型训练拟合得出;finternal(vi)是基于网络静态属性的节点内部影响力;fexternal(vi)是基于交互动态属性的节点外部影响力。本发明建立信息传播态势感知模型,针对网络中每个节点进行分析,突出节点影响力特点,获取节点影响力的驱动因素。本发明从个体记忆维度和节点交互维度两个角度量化群体间的影响力,并认为影响力因素是传染病模型中状态转化的动力学成因,利用平均场理论对在线社交网络传播模式进行分析研究。在影响强度计算上,与当前研究工作中主要考虑网络结构不同,本发明综合考虑内部因素即个体记忆维度及外部因素即节点交互维度,提出一种基于多元线性回归模型的节点影响力计算和衡量方法。结合节点自身属性和个体行为习惯两个维度分析个体记忆原理;利用图论中的最短路径法来度量社会网络中节点间信息交互经过某条边的流的总数来研究节点交互原理。在信息扩散建模上,借鉴SIR模型机理,本文引入节点影响力因子作为传染病模型中状态改变的参数,运用平均场理论建立微分方程组,并在此基础上给出新的信息传播动力学模型和验证方法,有效避免了在模型中人为设定参数带来的随机性,揭示信息传播中多因素耦合的本质规律,对信息传播链路进行预测,合理引导舆论方向。附图说明图1是本发明的整体框图;图2是本发明的总体实施流程图;图3是本发明算法实施图;图4是本发明信息传播方向图。具体实施方式为使本发明的目的、技术方案更加简明清晰,以下参照附图并根据实例对本发明具体实施做进一步的阐述。如图1为本发明的整体框图,表明本发明所提及的信息传播网络最初只有消息的易感染节点(信息未知者)和少数的感染节点(信息已知者),经过基于影响力的信息传播模型分析后,预测接收到的信息节点逐渐增多并可能达到峰值。基于以上思路,本发明作出如下定义。1.定义G={V,E}为信息传播网络,其中V={v1,v2,…,vn}是社交网络中单个信息互动节点集合,|V|=N,即节点总数,为节点间的朋友关系,若存在边ei,j=<vi,vj>,表示信息可沿边ei.j由节点vi传向vj。2.定义A={(a,vi,t)}为不同时间段的节点互动数据,其中{(a,vi,t)}表示节点vi在t时间的动作a,A是节点集合Tk时间段的互动行为。3.定义个人记忆原理Inner和节点交互原理Outer两种度量节点影响力的特征量,形式化表示群体事件扩散中节点行为动力学的内因和外因。4.定义D(vi,t)为节点vi在时刻t的状态。网络中的节点划分为3类,每类个体集合都处于同一种状态,即D(vi,t)={S,I,R}∈κ。其中,κ表示单个信息事件的传播行为,每个节点有三种可能的状态,分别为易感状态S(Susceptible),即消息未知者,有可能被感染;感染状态I(Infected),即消息已知者,具有传染性;免疫状态R(Recovered),即消息免疫者,对消息失去了兴趣。本发明的实施例如图2所示,主要包括数据获取、特征提取、模型构建3个步骤。首先,获取所需的数据源,其中包括节点个人属性、历史行为、好友关系,构建信息传播网络。其次,提取所需特征,采用线性回归模型,拟合不同类型影响因子的权重,计算节点影响力,并定义为信息传播模型中状态改变的参数。接着,根据信息传播所在的网络结构以及邻居节点间的作用进行建模,假设网络中的节点处于三种状态:易感染状态S(Susceptible),感染状态I(Infected)、免疫状态R(Recovered)。其中,易感染状态定义为节点未接受某消息,但其邻居节点已经得知该信息并正在传播,从而该节点非常有可能接受该信息;感染状态定义为节点接受了某信息,并有继续传播该信息的可能性;免疫状态定义为节点对某消息失去了兴趣,或者该消息处于消亡期,没有传播的价值。最后,在构建好的信息传播网络中,考虑到信息传播为接触性传播,一个新节点与信息已知者接触就必然具有一定的传染率;考虑到信息传播的单向性,处于感染状态的节点只能由未感染节点转变而来,免疫节点可由易感染状态和感染状态节点转变而来;考虑到信息普遍具有生命周期,感染节点在信息消亡时期自动转化为免疫节点,传播后期网络中必然只剩下易感染节点和免疫节点。以下图2进行详细说明:S1:数据获取。社交网络中数据获取方法包括利用网络爬虫获取或者基于API接口抓取数据。在本发明中,首先需根据某一特定话题,在话题创建后不久的某一固定时刻抓取参与该话题的节点作为信息源,即初始感染节点集合;抓取参与话题节点的所有粉丝作为易感染节点集合。进而根据所有节点集合,抓取节点的个人属性(user_info)、节点历史行为(user_behavior)、节点好友关系(user_followers),综合节点关系网络、群体行为网络,构建话题传播网络。S2:特征提取。本发明主要挖掘影响节点参与话题讨论和转发等行为的内、外部动力驱动因素,具体从个体记忆和节点互动两个维度出发,提取影响信息传播表征。其属性可根据节点数据特征对其进行适当的修改,以下通过实例进行具体说明。S21:提取内部属性。内部属性即由目标节点和节点关系构成的网络中的静态结构属性。本发明主要考虑节点度数、节点介数、节点紧密度3个网络中基本的统计特性。为了便于描述,统一用ψij来表示节点vi影响力内在驱动因素,其中j=1,2,3分别代表上述3个静态属性(节点度数、节点介数、节点紧密度)。以下作详细描述。S211:节点度数Deg(vi)节点度数(Degree)定义为与节点vi相关联的边的数目。社交网络是个有向图,若存在边vi→vj,则节点vj是节点vi的关注者,关注者总和记作d+(vi);若存在边vi←vk,则节点vk是节点vi的粉丝,粉丝总和记作d-(vi)。显然Deg(vi)=d+(vi)+d-(vi)S212:节点介数Cb(vi)节点介数(Between)定义为网络最短路径中经过该节点(或边)的概率之和,描述了节点在网络中的影响力与中心性程度。假设节点p和节点q之间的最短路径数为δpq条,这两个节点之间经过节点k的最短路径数为δpq(k)。在此基础上,定义节点k的介数为Cb(vi)=Σp∈VΣq≠p∈Vδpq(vi)δpq]]>S213:节点紧密度Cc(vi)节点紧密度(Closeness)定义为节点vi与网络中其他节点的平均距离的长短,考察节点vi传播信息时不依靠其他节点的程度。若社交网络中有N个节点,求节点vi到其他所有节点的最短距离,记作d(vi,vj),则节点紧密度为Cc(vi)=N-1Σj=1Nd(vi,vj)]]>S22:提取外部属性。外部属性即因信息的存在而产生的属性,可以与信息本身相关,也可以由节点对信息的操作行为产生。本发明为了对影响力形成的外部动态驱动因素进行定量分析,结合促进信息传播的节点行为记录,提取节点间交互的属性信息内容相似性、意见领袖、活跃节点、信息传播带动力4个属性。为了便于描述,统一用符号χij表示节点vi的外部驱动因素,其中j=1,2,3,4代表上述4个动态属性。以下作详细描述。S221:内容相似性S(vi)内容相似性(Similarity)定义为节点vi的个人兴趣与话题标签的相似程度。从节点自定义的标签和热点话题中分别提取关键字,用Jaccard系数进行归一化计算。Jaccard系数越大,表明信息内容和节点个人兴趣有较大的相关性,反之,相关性较小。令A为热点话题内容,B为节点历史行为数据的高频词汇,则内容相似性为S(vi)=|A∩B||A∪B|]]>S222:意见领袖L(vi)意见领袖(Leader)定义为对他人施加影响的活跃分子,在信息传播中起到重要的中介或过滤作用。用PageRank算法计算得到的PR值作为判定节点是否为意见领袖的阈值,用是可调参数,在本发明中取值为节点粉丝数的前10%。意见领袖定义为S223:活跃节点A(vi)A(vi)代表目标节点是否为活跃节点,1代表该节点是活跃节点,0代表该节点不是活跃节点。相比非活跃节点,本发明认为活跃节点对信息传播所起的作用较大,定义为A(vi)=1,Active(vi)>τ0,otherwise]]>其中,Active(vi)代表节点vi的活跃指数,τ为可调参数,在本实施例中的取值τ=50。Active(vi)=ρ*Num[orig(vi)]+Num[retw(vi)]ρ∈[0,1]为活跃指数弱化系数,N[orig(vi)],N[retw(vi)]分别是节点vi在信息发起前一个月每日信息发表量和信息转发的数量。S224:信息传播带动力I(vi)I(vi)指的是根据某节点发布信息后,该信息由于该节点粉丝浏览、评论、转发等历史行为在社交网络中不断扩散,设η是信息传播带动力弱化系数,在本发明中取值是η=0.8。在所研究信息发起前一个月每条微博的平均阅读数、评论数、转发数。综合不同的节点行为量化该节点的信息传播带动力为I(vi)=η*Num‾[read(vi)]+Num‾[comt(vi)]+Num‾[ret(vi)]]]>S3:信息态势感知及传播模型建立。本发明基于以下三个步骤建立了信息态势感知模型。首先,根据社交网络中节点个人属性、个人行为习惯和信息交互记录量化节点影响力的内因和外因,即训练出个人记忆维度和节点交互维度,步骤S2已给出相关定义,此处不再一一赘述。接着,计算信息未知节点集合相对于信息已知节点集合的影响力均值作为感染率λ,计算信息已知节点集合相对于信息免疫节点集合的影响力均值作为恢复率μ。最后,基于平均场理论,把参数λ和μ运用到传染病模型中,模拟信息传播趋势,感知群体状态演化。其具体学习算法如图3所示。S31:节点影响力度量。本发明认为信息的传播力不仅与节点的自身网络结构属性有关,如节点度数、节点介数、节点紧密型等,还与它的外部行为属性有关,如节点本身兴趣与信息的相关度、节点是否为意见领袖节点、节点是否为活跃节点、节点的信息传播带动力。综合内因和外因,节点vi的影响力函数为Inf(vi)=β0+β1*finternal(vi)+β2*fexternal(vi)这里的参数β0、β1、β2是偏回归系数,由多元线性回归模型训练拟合得出。其中,β1、β2是测试个体内因和外因的权值系数,反映网络结构和信息交互情况在影响力构成中的比重,finternal(vi)为节点的内部影响力,fexternal(vi)为节点的外部影响力。Inf(vi)为节点vi的影响力。finternal(vi)=Σm=1mψimmaxv∈V(ψ(v)),m=1,2,3]]>其中,ψim表示节点vi的静态结构属性,可取度数、紧密度、介数等网络结构属性,为归一化因子。fexternal(vi)=Σj=1jχij*(12)ti-ti′ω,j=1,2,3,4]]>由于信息话题影响力具有随着时间推移而逐渐降低的事实,因此,本发明引入半衰期函数表示信息从发布到慢慢消亡的生命周期。其中,ti表示当前时间,t′i表示节点vi上次行为时间,ω为正则化因子,本发明中ω=1000。χij表示节点vi的动态行为属性,可取内容相似性、意见领袖、活跃度、信息传播带动力等节点动作交互属性。S32:信息传播模型。为了验证影响力对信息扩散的作用,本发明采用改进的SIR模型模拟信息传播的过程。SIR模型中的节点集合有三种状态:易感染状态S(Susceptible),感染状态I(Infected)、免疫状态R(Recovered)。不同节点间的状态转移不仅依赖于节点自身的状态,还与其邻居节点的状态相关。用S(t)、R(t)、I(t)分别表示不同时刻的信息未知者、信息已知者、信息免疫者的总数。当节点处于感染状态时,以λ的概率感染处于易感染状态的邻居节点,以μ的概率恢复为免疫状态。节点感染具有单向性,如图4所示,节点接受信息的顺序为未感染状态、感染状态、免疫状态。因此,假设一个处于某个状态节点vi有m个邻居,则k个邻居状态发生改变的概率满足二项分布。P(X=k)=mkInf(vi)k(1-Inf(vi))m-k,k=0,1...m]]>则任一节点在时刻t改变状态的概率为θ(t)=Σk=0mkmmkInf(vi)k(1-Inf(vi))m-k,k=0,1...m]]>结合平均场方程式得dSdt=-θ(t)S(t)I(t)dIdt=θ(t)S(t)I(t)-(1-θ(t))I(t)dRdt=(1-θ(t))I(t)S+I+R=1]]>本发明针对在线社会网络中信息传播模式的特点,结合传染病动力学原理,提出在线社会网络中新的信息传播扩散模型。模型考虑不同关键节点对信息传播机理的影响力度,挖掘在信息传播扩散过程中各因素的地位,建立不同节点的演化方程组,模拟信息传播扩散的过程,分析不同类型的节点在网络中的结构特征以及影响信息传播的主要因素。应当指出上述具体的实施例,可以使本领域的技术人员和读者更全面理解本发明创造的实施方法,应该被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。因此,尽管本发明说明书参照附图和实施例对本发明创造已经进行了详细的说明,但是,本领域的技术人员应当理解,仍然可以对办发明创造进行修改或者等同替换,总之,一切不脱离本发明创造的精神和范围的技术方案及其改进,其均应涵盖在本发明创造专利的保护范围当中。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1