一种基于差分预解集的网络信息扩散源头推断方法与流程

文档序号:18811779发布日期:2019-10-08 23:18阅读:199来源:国知局
一种基于差分预解集的网络信息扩散源头推断方法与流程
本发明涉及信息技术处理领域,具体涉及一种基于差分预解集的网络信息扩散源头推断方法。
背景技术
:复杂网络的一个重要特点是信息可以进行级联传播,实现信息的快速、爆炸式扩散。网络信息扩散源头推断(以下简称为“源头推断”)旨在根据已观测到的部分扩散级联信息(如参与该信息扩散的部分节点信息及其参与时间等等),推测出扩散的初始节点,即找出扩散最初是由谁发起的。该技术可广泛应用于舆情对抗、隐患排除等方面,如社交网络上的谣言散布者发现、计算机网络中的木马扩散源头检测、人群之间传染病的传播源头推断等等。现有的源头推断方法通常是在一定的随机动力模型假设下进行的。这里最为广泛采用的模型为si模型、sis模型和sir模型[1],其中s代表susceptible易感状态,i代表infected被感染状态,r代表recovered免疫状态。代表性源头推断方法如下:·基于中心性度量的启发式算法[2]。这类方法选取具有较高中心性度量的节点作为源头节点。这里最有代表性的中心性度量为紧密度中心性,其直观想法是一个节点到所有感染节点的距离之和越小,那么这个节点越有可能是扩散源头。这类方法都是启发式的,而且并不考虑节点的参与扩散的时间等信息。·基于最大似然的优化方法[3]。该方法将源点推断问题定义为寻找使得观测到的部分扩散级联发生的可能性最大的那个节点,并将该节点视为源头节点。该方法利用的是极大似然的基本思想,为源头推断问题提供了一个基准的优化框架。方法[3]利用指数分布的无记忆性与树结构的无环性,将上述优化问题转化为生成路径的计数问题。此外,蒙泰卡罗抽样方法[4]、bp算法[5]、dmp算法[6]、谱方法[7]等方法从不同的建模视角为源头推断问题提供了不同的求解技术方案。现有技术方法在进行源头推断时所面对的输入数据(即前述的部分级联信息)是被动获取的,并没有对数据的来源做任何的优化选取,而数据质量的好坏通常会很大程度制约着源头推断性能的提升。现有这些方法可称之为纯“事后”的方法,即级联扩散发生后,根据可观测到的、被动拿到的部分扩散级联信息,去设计度量或模型去寻找源头。技术实现要素:针对现有技术问题,本发明提出一种基于差分预解集的网络信息扩散源头推断方法,能够主动地对数据来源进行优化选取,提高输入数据的质量,大幅提升源头推断的精度。为解决上述技术问题,本发明采用如下技术方案:一种基于差分预解集的网络信息扩散源头推断方法,包括以下步骤:用g=(v,e)表示网络节点之间的连接关系,其中v表示网络节点集,e表示网络边集;从g中选取一个子集作为差分预解集s,该s:={s1,...,sk}为g中入度最高的前k个节点;根据差分预解集s估计每个节点v∈v到s中所有节点的扩散时间t(v,sk),其中k=1,2,...,k,根据该扩散时间建立扩散源特征对于一阶级联每个数据cl∈c表示为ul为cl的发起节点,为cl的发起时间,vl为ul的一阶子节点,表示节点vl参与到cl的时间,表示节点vl没有参与级联cl或者参与了但没有被观测到;通过差分预解集s来收集级联信息其中表示节点sk参与到级联c的时间,表示节点sk没有参与级联c;判断指标集合的模|ic|的大小,如果大于预设值,则提取级联c的特征向量其中1≤k1<k2<…<ki≤k;根据指标集合ic的信息对每个节点v∈v的扩散源特征进行调整,调整后的扩散源特征对所有的节点v∈v逐一计算范数||h′(v)-h(c)||2,找到范数最小的那个节点推断为源头。进一步地,利用扩散模型估计节点v到s中所有节点的扩散时间t(v,sk),该扩散模型为:信息沿e中每条有向边e=(u1,u2)扩散的时间服从指数分布exp(λe),如果通过某条边上的历史传播日志信息为空集,则从e中去掉这条边;如果通过某条边上的历史传播日志信息足够少,则用其它边上参数的平均值来估计该边上的λe。进一步地,所述λe根据一阶级联中的信息进行加和/平均/取倒数运算来估计。进一步地,估计扩散时间t(v,sk)的方法为,先模拟设定次数从v到sk所需的扩散时间,再取平均值。进一步地,如果模|ic|小于预设值,则直接采用传统方法进行源头推断,该传统方法包括基于中心性度量的启发式算法、基于最大似然的优化方法、蒙泰卡罗抽样方法、bp算法、dmp算法、谱方法。进一步地,所述预设值为3,但不限定该值,根据实际需要设定。一种基于差分预解集的网络信息扩散源头推断系统,包括存储器和处理器,该存储器存储计算机程序,该程序被配置为由该处理器执行,该程序包括用于执行上述任一方法中各步骤的指令。一种存储计算机程序的计算机可读存储介质,该计算机程序包括指令,该指令当由服务器的处理器执行时使得该服务器执行上述任一方法中的各个步骤。本发明方法主动地对数据来源进行优化选取,通过引入差分预解集这个概念,为网络中的每个节点提取其作为扩散源头的特征,将源头推断问题转化为特征匹配问题,降低复杂度的同时还大幅提升了源头推断精度。这是一种“事前”与“事后”相结合的方法;在级联扩散发生前,优化选取一些节点来实时收集信息;在级联扩散发生后,利用收集来的信息进行扩散源头推断。附图说明图1是一种基于差分预解集的网络信息扩散源头推断方法的流程图。具体实施方式为使本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图作详细说明如下。本发明方法旨在为网络g=(v,e)建立一个新颖的扩散源推断整体方案。这里的v表示网络节点集,e表示网络边集,用来刻画节点之间的连接关系。不失一般性,这里假设g为有向全连通图,边的方向代表信息扩散的方向。除了网络拓扑结构之外,还需要一定量的一阶级联数据集作为输入来训练模型,每个一阶级联数据cl可表示为其中ul为cl的发起节点,为cl的发起时间,vl为ul的一阶子节点,表示节点vl参与到cl的时间。若表示节点vl没有参与级联cl或者参与了但没有被观测到。本发明方法由扩散源特征提取与扩散源推断两大模块组成,其中扩散源特征提取为线下模块,扩散源推断为线上模块。扩散源特征提取的具体实施步骤如下:1.选取差分预解集差分预解集s是节点集v的一个子集,其大小k<<|v|,这里的k值可根据预算和需求情况进行调整(一般情况下,k值越大,模型的精度越高,但对应的计算复杂度也会增大)。差分预解集s中的节点就是要实时观测的节点,需要记录它们参与级联扩散的时间。为了让差分预解集s能尽可能地收集扩散信息而且保证信息的有效性,这里取差分预解集s:={s1,...,sk}为网络g=(v,e)中入度最高的前k个节点。2.为每个节点建立扩散源特征根据上一步选定的差分预解集s,这一步为每个节点v∈v建立扩散源特征。1)假设信息沿着每条有向边e=(u1,u2)扩散的时间服从指数分布exp(λe),这里的λe可根据一阶级联数据集中的信息进行加和/平均/取倒数运算来估计。如果通过某条边上的历史传播日志信息为空集,可以从e中去掉这条边;如果通过某条边上的历史传播日志信息特别少,可以用其它边上参数的平均值来估计这条边上的λe。2)利用1)得到的扩散模型,估计节点v到s中所有节点的扩散时间t(v,sk)(其中k=1,2,...,k)。具体而言,先模拟100次从v到sk所需的扩散时间,然后对这100次的结果取均值,并记之为t(v,sk)。3)至此,节点v的扩散源特征h(v)为下面的k维向量4)同2)和3)为v中的每个节点建立扩散源特征。做好上面扩散源特征提取这个线下模块之后,便可以开始做扩散源推断这个线上模块。对于一个在线扩散的完整的级联c,目标是通过差分预解集s:={s1,...,sk}来主动地收集该级联信息,进而推断它的扩散源头。这个收集到的级联信息记为其中表示节点sk参与到级联c的时间,若表示节点sk没有参与级联c。扩散源特征提取之后,扩散源推断的具体实施步骤如下:3.提取级联的特征引入记号指标集合ic表示差分预解集s中有哪些节点参与到了级联c中。若集合ic的模比较小(比方|ic|<3),则跳出后面的步骤,直接采用已用的方法(如前述的基于中心性度量的启发式算法[2])进行源头推断即可。否则(|ic|≥3)的话,继续下面的步骤。这里说明一下,如果级联比较小的话,一般情况下,这个级联并不会造成多么大的危害,所以对其进行源头推断的意义并不大;如果级联比较大的话,结合差分预解集s的选取方式,集合ic一般都会比较大,本发明方法自然就能派上用场并发挥效用了。接下来假设|ic|=i≥3且不妨记ic={k1,k2,...,ki},其中1≤k1<k2<…<ki≤k。定义级联的特征向量h(c)为:4.级联的源头推断根据上述ic的信息,这一步骤中首先对上述第2步得到的v中的每个节点的特征进行调整。任取节点v∈v,其调整后的扩散源特征h′(v)为下面的i-1维向量:正是因为h′(v)的定义方式,在步骤1中才将s定义差分预解集。接下来对所有的节点v∈v,逐一计算||h′(v)-h(c)||2。该范数越小,表示对应的v节点越有可能是扩散源头,并把范数最小的那个节点推断为源头。为了验证所提方法的有效性,在一个具有114个节点、613条边的社交网络g上进行模拟实验。首先用随机模型(其中令所有的λe=1)生成一阶级联数据集然后根据这些训练数据,通过上述的步骤1和步骤2为社交网络g中的每个节点v建立特征h(v),其中涉及到的参数k是调节的参数,分别取5,10,15,20,25,30。接下来生成模型测试数据集为其中n=1,2,...,1000且每个级联c(n)的源头都是随机选取的。对这1000个待推断源头的级联数据,分别通过步骤3和步骤4进行源头推断。为了评价所提方法的有效性,使用推断准确率(1000个测试数据中,源头推断正确的数据所占比率)和错误距离(推断源头与真实源头在g上的平均距离,即平均hop数)。显然推断准确率越高越好,错误距离越低越好。实验结果如下表:差分预解集k的大小51015202530推断准确率4.8%8.8%11.4%13.0%13.3%13.9%错误距离1.931.671.581.521.481.46实验结果表明,随着差分预解集k的增大,所提的源头推断方法的性能越来越好,同传统源头推断方法常常不足10%的推断准确率相比,本发明的结果有大幅提升。本发明所引文献:[1]wenyuzang,pengzhang,chuanzhou,andliguo.locatingmultiplesourcesinsocialnetworksunderthesirmodel:adivide-and-conquerapproach.journalofcomputationalscience,vol.10,september2015,pages278-287.[2]cominhenrique,fontouracosta,andluciano.identifyingthestartingpointofaspreadingprocessincomplexnetworks.physicalreviewe,84(5):056105,2011.[3]shahdevavratandzamantauhid.rumorsinanetwork:who’stheculprit?ieeetransactionsoninformationtheory,57(8):5163–5181,2011.[4]ameyaagaskarandyuelu.afastmontecarloalgorithmforsourcelocatingongraphs.inspie,2013.[5]fabrizioaltarelli,alfredobraunstein,andlucadallasta.bayesianinferenceofepidemicsonnetworksviabeliefpropagation.inarxiv,2013.[6]lokhovandrey,m′ezardmarc,ohtahiroki,andzdeborova′lenka.inferringtheoriginofanepidemywithdynamicmessage-passingalgorithm.arxivpreprintarxiv:1303.5315,2013.[7]fioritivincenzoandchinnicimarta.predictingthesourcesofanoutbreakwithaspectraltechnique.arxivpreprintarxiv:1211.2333,2012.以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1