一种基于反向传播的网络风险源头追溯方法

文档序号:10555460阅读:285来源:国知局
一种基于反向传播的网络风险源头追溯方法
【专利摘要】本发明公开了一种基于反向传播的网络风险源头追溯方法,包括:将网络中愿意被监控的用户设置为监控节点并进行监控;标记所有被感染监控节点,按照监控节点被感染时间差从被感染监控节点处向已提取的网络拓扑上洪泛式广播标记的风险,统计网络拓扑中能同时接收到所有标记风险的节点并将所述节点添加到潜在的风险源集合中;基于潜在的风险源集合和网络节点在风险传播过程中状态转化的动态性,建立网络风险的微观传播模型;基于所述微观传播模型,采用极大似然估计法从所述潜在的风险源集合中定位风险源头。本发明方法能够在保护绝大多数用户隐私的前提下,通过比较小的计算量来得到更为精确的网络风险溯源结果。
【专利说明】
一种基于反向传播的网络风险源头追溯方法
技术领域
[0001] 本项发明属于在线网络的信息安全领域。具体来说,是一种通过监控大规模在线 网络中的小部分用户,在网络中发生风险(谣言、蠕虫病毒、电网故障)传播事件后,安全人 员可以根据有限的监控信息和网络拓扑快速、精准地推断出风险传播的源头用户(造谣者、 蠕虫传播源)的方法。
【背景技术】
[0002] 互联网的广泛普及使我们更容易遭受各类网络风险,例如在线社交网络中谣言肆 意传播,因特网上病毒感染大量主机,智能电网的网络隔离故障导致大规模断电等。每年, 因这些网络风险而造成的金融和社会财富的损失不计其数。
[0003] 谣言、计算机病毒和智能电网故障都是在不同网络中进行传播的网络风险,为了 应对这些网络风险,在网络中通过技术手段追溯到它们传播源头十分有必要。首先,从司法 取证的角度,精确定位"网络罪犯"(造谣者、病毒传播者)非常重要,可以提供技术佐证来打 击网络罪犯。此外,尽可能快地追溯到网络风险传播源头有助于及时确定网络风险的发生 原因,对其尽早干预可以最大程度上降低这些网络风险造成的损失。最有效的方法是对全 网用户进行监控,获知每个用户被感染的绝对时间从而判断出最先被感染的用户即为风险 传播源。但是这样处理存在两个重大缺点:一方面现实生活中的网络往往规模过大,全网监 控成本太高;另一方面出于对隐私保护的需求,人们绝大多数情况下不愿意被监控和接受 数据采集。例如,微软操作系统的用户体验计划和各种杀毒软件常常通过弹出窗口来征求 用户是否同意提交本地的安全运行日志,并声称这些数据可以更好地保护用户。然而,绝大 多数用户通常选择拒绝。这就要求我们只能监控网络中少数愿意被监控的用户,在风险传 播事件发生之后,通过这些被监控的节点的状态信息利用高效的算法来推测全局的传播 面,从而得到网络风险的传播源头。
[0004] 从技术层面来讲,这类研究可称之为源头追溯问题,其目的就是基于有限的网络 结构知识和部分节点的安全状态来定位消息或者网络风险的传播源头。在学术界,传统的 源头追溯技术有IP追踪和stepping-stone检测,但是它们通常并不有效。这是因为它们只 能确定从某个目标接收的数据包的真实来源,而在实际的传播过程中,数据包的来源通常 只是网络风险传播的参与者、转发者而非真实源头。为更准确高效地定位风险传播源头,亟 需要在应用和逻辑结构的层面设计应用更先进的算法和技术来处理源头追溯问题,而不仅 仅是利用IP层和数据包转发的日志信息来进行追溯源头。
[0005] 近几年来,很多研究学者对源头追溯问题做了相关的工作。最初的研究只针对以 传统SI模型传播的树状网络,进一步出现了针对树状网络中以其他传播模型如SI S,SIR的 源头追溯算法。随着技术进一步发展,源头追溯算法不再局限于树状网络,开始对一般网络 结构中风险溯源问题进行研究。通常,源头追溯要么通过严密、高复杂度的计算来寻求最优 解决方案,要么通过简化的启发式算法来实现最佳时间性能。但是,这些算法普遍存在重大 不足。首先计算量大(需要测试网络中所有用户),其次定位并不十分准确。中国科学院分级 的国际1区期刊IEEE Communications Surveys and Tutorials上2014年发表的综述文章 《Identifying Propagation Sources in Networks:State-〇f-the-Art and Comparative Studies》指出目前学术界比较先进的源头追溯算法80%以上将定位到2~4个网络拓扑距 离的错误位置(按照hops来算),因此并不能满足实际需要。学术界和工业界亟需要更高效 的风险源搜索方法来解决这个问题。

【发明内容】

[0006] 本发明的目的在于克服现有技术的不足,提出一种基于反向传播的网络风险源头 追溯方法。该方法能够在保护绝大多数用户隐私的前提下,通过比较小的计算量来得到更 为精确的网络风险溯源结果,可应用在大型在线网络中的对网络犯罪进行司法取证和风险 修复过程中。
[0007] 本发明借助刑侦学的嫌疑人搜索策略来寻找风险传播源,以往的算法难以应用于 大规模网络,在真实网络中应用前人的算法,复杂度、准确性及其时间消耗将难以承受。因 此,本发明将此寻找风险传播源的过程划分为两个子过程:首先通过反向传播法缩小搜索 范围,其次在缩小后的范围内寻找真正的风险源。
[0008] 具体而言,反向传播法将监控节点标记,然后从监控节点广播(洪泛传播)发送标 记的风险。此方法的逻辑是:如果网络拓扑中存在节点能同时收到所有的监控节点发送来 的标记风险,那么这些节点有可能是风险传播源。这种算法优先考虑准确度,而后考虑运行 效率。由于经过前一步骤的筛选,潜在的风险源集合中只存在小部分网络用户。之后采用极 大似然估计法结合风险的微观传播模型测试潜在的风险源集合,来进一步定位风险传播 源。这一步的原理是:测试每一个潜在的风险源作为传播源,用微观传播模型传播一定时间 后能得到当前网络状态的可能性。将每一个潜在的风险源分别代入传播公式并计算当前网 络状态的概率的似然函数,则能取得极大似然值的潜在的风险源最有可能是真实的感染源 头。
[0009] 本发明解决其技术问题所采用的技术方案是:
[0010] -种基于反向传播的网络风险源头追溯方法,包括:
[0011] 将网络中愿意被监控的用户设置为监控节点并进行监控;
[0012] 网络风险传播事件发生一定时间后,标记所有被感染监控节点,按照监控节点被 感染时间差从被感染监控节点处向已提取的网络拓扑上洪泛式广播标记的风险,统计网络 拓扑中能同时接收到所有标记风险的节点并将所述节点添加到潜在的风险源集合中;
[0013] 基于潜在的风险源集合和网络节点在风险传播过程中状态转化的动态性,建立网 络风险的微观传播模型;所述状态包括健康、感染状态和被感染且具有感染性;
[0014] 基于所述微观传播模型,采用极大似然估计法从所述潜在的风险源集合中定位风 险源头。
[0015] 优选的,所述将网络中愿意被监控的用户设置为监控节点并进行监控,监控信息 包括:
[0016] 监控节点是否接收到风险感染及如果接收到风险感染其被感染的绝对时间。
[0017]优选的,所述监控节点被感染时间差用如下公式表示:
[0018] di=max(T)-Ti
[0019] 其中,i表示第i个被感染的监控节点,i e [I,n],n表示被感染的监控节点的总数; T=(T1Win)表示监控节点被感染的绝对时间。
[0020] 优选的,按照监控节点被感染时间差从被感染监控节点处向已提取的网络拓扑上 洪泛式广播标记的风险,统计网络拓扑中能同时接收到所有标记风险的节点并将所述节点 添加到潜在的风险源集合中,包括:
[0021] 被感染的监控节点的被感染时间差到,被感染的监控节点向其所有相邻节点发送 被节点标记的风险副本;
[0022] 网络拓扑中的任一节点第一次接收到被感染监控节点标记的风险副本后,广播该 风险副本到其所有的相邻节点;
[0023] 如果网络拓扑中的任一节点同时接收到了所有被感染监控节点标记的风险副本, 则把该节点加入到潜在的风险源集合中。
[0024] 优选的,所述基于潜在的风险源集合和网络节点在风险传播过程中状态转化的动 态性,建立网络风险的微观传播模型包括:
[0025] 建立如下迭代公式来表示风险的传播:
[0026] Ps(i,t;u) = [l_v(i,t)] · Ps(i,t_l;u)
[0027] Pi(i,t;u)=v(i,t) · Ps(i,t-l;u)+Pi(i,t_l;u)
[0028]
[0029] Pc(i,t;u)=v(i,t) · Ps(i,t_l;u)
[0030] 其中,Ps(i,t;u)、Pi(i,t;u) Ui,t;u)分别表示网络风险从潜在传播源ueU开 始,传播t时间后S、I及C状态的概率,U表示潜在的风险源集合,S代表健康,I代表感染状态, C表示被感染且具有感染性;v( i,t)表示t时刻节点被感染的概率,IUj e [0,1 ]是网络中任意 两个节点的历史传播概率,rU j=〇时示节点i、j之间不存在连接,nij = 1表示节点i将收到的 任何信息都传给节点j;化表示节点i的相邻节点的集合。
[0031] 优选的,所述基于所述微观传播模型,采用极大似然估计法从所述潜在的风险源 集合中定位风险源头,包括:
[0032] 使用如下公式计算潜在传播源u的似然函数L(u,t):
[0033]
[0034] 其中,5:表示被感染的监控节点集合,Sh表示未被感染的监控节点集合,U是被感 染节点被感染的绝对时间;
[0035] 使用如下公式获取传播事件的似然估计L(ii. U:
[0036]
[0037] 其中S1,Sh e S中的S表示所有监控节点集合;
[0038]使用如下公式将似然函数取极大值时的Uf和tf分别作为风险传播源和风险传播时 间的估计值:
[0039]

[0040]本发明具有如下有益效果:
[0041 ] 1、精度高:通过在一些现实大型网络US.Power Grid,Facebook,AS-level Internet上分别进行100次溯源实验。其中,US.Power Grid网络上能够达到80%左右的精 确率,另外20 %的定位误差在1到3hops。而在Facebook和AS-Internet上本发明方法能够 100%地定位到风险源头,大大优于目前的网络风险溯源算法。
[0042] 2、适应于各种不同的网络架构,如存在小世界特性的Facebook以及存在幂律特性 的AS-level Internet网络等。
[0043] 3、计算量小:反向传播算法极大地缩小了源搜索范围,相比于传统算法计算量大 大减小。
[0044] 以下结合附图及实施例对本发明作进一步详细说明,但本发明的一种基于反向传 播的网络风险源头追溯方法不局限于实施例。
【附图说明】
[0045] 图1为本发明方法的主流程图;
[0046] 图2是本发明的反向传播法缩小搜索方法的原理图;
[0047] 图3是本发明的网络个体在风险传播过程中的状态转化图;
[0048]图4是本发明方法在三种现实网络上的溯源实验结果图。
【具体实施方式】
[0049] 参见图1,一种基于反向传播的网络风险源头追溯方法,包括如下步骤:
[0050] 步骤101,将网络中愿意被监控的用户设置为监控节点并进行监控;
[0051 ]步骤102,网络风险传播事件发生一定时间后,标记所有被感染监控节点,按照监 控节点被感染时间差从被感染监控节点处向已提取的网络拓扑上洪泛式广播标记的风险, 统计网络拓扑中能同时接收到所有标记风险的节点并将所述节点添加到潜在的风险源集 合中;
[0052]步骤103,基于潜在的风险源集合和网络节点在风险传播过程中状态转化的动态 性,建立网络风险的微观传播模型;所述状态包括健康、感染状态和被感染且具有感染性;
[0053]步骤104,基于所述微观传播模型,采用极大似然估计法从所述潜在的风险源集合 中定位风险源头。
[0054]如下将详细介绍基于反向传播的网络风险源头追溯方法。
[0055]监控网络中一定比例的愿意被监控的用户,安全管理人员可以随时提取其各种状 态信息,所述状态信息包括但不限于是否接收到风险感染,以及其对应的被感染的绝对时 间。
[0056]进一步的,当网络风险传播事件发生了一定时间后,安全管理人员将所有监控节 点标记,然后按照监控节点的被感染时间差从被感染监控节点处向已提取的网络拓扑上洪 泛式广播标记的风险。网络拓扑中能够同时接收到所有标记风险的用户即为潜在风险源, 将其加入到潜在的风险源集合中。
[0057]上述步骤的收集潜在风险源伪代码如下:
[0059]上述伪代码中,di = max(T)-Ti,(i e [I,n]),n表示被感染的监控用户的总数,i是 区间[l,n]中的变量,用来表示第i个用户。而T= …U (n= I S1I)表示被感染用户被 感染的绝对时间。Uax表示反向传播的轮数,且tmax >maX ( di )。
[0060] 本实施例中,如图2所示为反向传播法缩小搜索方法的原理图,其中图(a)表示基 本的网络拓扑结构,图(b)表示风险传播事件,图(c)表示反向传播事件。通过图(C)中的反 向扩散法从被感染的监控节点处按照感染的时间差发送标记的风险。如图2,按照被感染节 点的感染的绝对时间差进行分类,分成A、B、C、D四类(实际情况中会有更多类别,图中仅以 四类为例)。假设T= {τ?,τ2···τη} (n= I S11 )表示被感染用户被感染的绝对时间,则感染时间 差di=max(T)-Ti,(i e [I,n])。将di = 0,l,2,3的节点分别标记为D,C,B,A类节点。反向传播 时A类节点先广播,单位时间后B类节点广播,依次类推。网络中同时接收到所有标记风险的 节点则是潜在风险源节点。反向传播后,得到较小的潜在风险源集合,并且风险源头一定在 这个集合中。
[0061] 进一步的,建立网络风险的微观传播模型。风险的微观传播模型中,关注的是网络 个体用户在风险传播过程的状态转化的动态性。如下给出以下四个迭代公式来表示风险的 传播:
[0062] Ps(i,t;u) = [l_v(i,t)] · Ps(i,t_l;u) (I)
[0063] Pi(i,t;u)=v(i,t) · Ps(i,t-l;u)+Pi(i,t_l;u) (2)
[0064]
[0065] Pc(i,t;u)=v(i,t) · Ps(i,t_l;u) (4)
[0066] 其中,S代表健康,I代表感染状态(不具有感染性),C表示节点被感染且具有感染 性。(如图3表示网络个体在风险传播过程中的状态转化图,同现实情况类似,不考虑风险的 重复感染。用户只会在被感染的下一轮传播风险,随后失去感染性,变为I状态,I状态不会 再发送风险。)。公式(1)、(2)、(4)中的? 5(^1!)、?1(^1!)、?。(^11)分别表示网络风险 从传播源u e U开始,传播t时间后是S、I以及C状态的概率。TU je[0,l]是网络中任意两个用 户的历史传播概率。当rUj = 〇时表示节点i、j之间不存在连接,nij = 1表示但凡用户i收到新 的信息都将转发给用户>v(i,t)表示t时刻个体被感染的概率,和其所有拓扑邻居(N1表示 用户i的邻居用户集合)的PcXi,t;u)相关。
[0067] 进一步的,基于确认的潜在风险源集合,采用极大似然估计法来从潜在风险源集 合中确认真正的风险源头,即定位风险源头。具体的方法可由下面三个公式得到:
[0068]
[0069]
[0070]
[0071] 其中,S1是被感染的监控用户集合,Sh是未被感染的监控用户集合,ti是被感染用 户被感染的绝对时间。首先将所有潜在的风险源ueu利用(5)式计算其似然函数L(u,t)。因 为每个潜在的风险源可能会在不同时刻多次同时接收到所有风险副本,因此通过(6)式来 得到传播时间的似然估计L( W,gu)。最后通过(7)式求解,将似然函数取极大值时的Uf和tf分 别作为风险传播源和风险传播时间的估计值。
[0072] 具体的,在一些现实大型网络US.Power Grid,Facebook,AS_level Internet上分 别进行100次溯源实验,如图4所示为在上述三种现实网络上的溯源实验结果图,图中δ为被 监控用户占网络总用户的比例。其中,US.Power Grid网络上平均能够达到80%左右的精确 率,另外20 %的定位误差在1到3hops。而在Facebook和AS-Internet上本发明方法能够 100%地定位到风险源头,大大优于目前的网络风险溯源算法。
[0073] 以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和 原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1. 一种基于反向传播的网络风险源头追溯方法,其特点在于,包括: 将网络中愿意被监控的用户设置为监控节点并进行监控; 标记所有被感染监控节点,按照监控节点被感染时间差从被感染监控节点处向已提取 的网络拓扑上洪泛式广播标记的风险,统计网络拓扑中能同时接收到所有标记风险的节点 并将所述节点添加到潜在的风险源集合中; 基于潜在的风险源集合和网络节点在风险传播过程中状态转化的动态性,建立网络风 险的微观传播模型;所述状态包括健康、感染状态和被感染且具有感染性; 基于所述微观传播模型,采用极大似然估计法从所述潜在的风险源集合中定位风险源 头。2. 根据权利要求1所述的基于反向传播的网络风险源头追溯方法,其特征在于,所述将 网络中愿意被监控的用户设置为监控节点并进行监控,监控信息包括: 监控节点是否接收到风险感染及如果接收到风险感染其被感染的绝对时间。3. 根据权利要求1所述的基于反向传播的网络风险源头追溯方法,其特征在于,所述监 控节点被感染时间差用如下公式表示: di=max(T)-Xi 其中,i表示第i个被感染的监控节点,i G [l,n],n表示被感染的监控节点的总数;T = {Tl,T2-,Tn}表示监控节点被感染的绝对时间。4. 根据权利要求3所述的基于反向传播的网络风险源头追溯方法,其特征在于,按照监 控节点被感染时间差从被感染监控节点处向已提取的网络拓扑上洪泛式广播标记的风险, 统计网络拓扑中能同时接收到所有标记风险的节点并将所述节点添加到潜在的风险源集 合中,包括: 被感染的监控节点的被感染时间差到,被感染的监控节点向其所有相邻节点发送被节 点标记的风险副本; 网络拓扑中的任一节点第一次接收到被感染监控节点标记的风险副本后,广播该风险 副本到其所有的相邻节点; 如果网络拓扑中的任一节点同时接收到了所有被感染监控节点标记的风险副本,则把 该节点加入到潜在的风险源集合中。5. 根据权利要求4所述的基于反向传播的网络风险源头追溯方法,其特征在于,所述基 于潜在的风险源集合和网络节点在风险传播过程中状态转化的动态性,建立网络风险的微 观传播模型包括: 建立如下迭代公式来表示风险的传播: Ps(i,t;u) = [l-v(i,t)] ? Ps(i,t-l;u)Pl ( i , t; u) = V( T t') ? I . t -I *11 ')+Pti I . t -I ? n ') Pc(i ,t;u) =v(± , L; -rsv±,L-i;uy 其中,?5(1,*;11)、?1(1,*;11)、?。(1,*;11)分别表示网络风险从潜在传播源11£1]开始,传 播t时间后S、I及C状态的概率,U表示潜在的风险源集合,S代表健康,I代表感染状态,C表示 被感染且具有感染性;v(i,t)表示t时刻节点被感染的概率,IluG [〇,1]是网络中任意两个 节点的历史传播概率,nij = O时示节点i、j之间不存在连接,Tli j = I表示节点i将收到的任何 信息都传给节点j ;Ni表示节点i的相邻节点的集合。6.根据权利要求5所述的基于反向传播的网络风险源头追溯方法,其特征在于,所述基 于所述微观传播模型,采用极大似然估计法从所述潜在的风险源集合中定位风险源头,包 括: 使用如下公式计算潜在传播源U的似然函数L(u,t):其中,Si表示被感染的监控节点集合,細表示未被感染的监控节点集合,ti是被感染节 点被感染的绝对时间; 使用如下公式获取传播事件的似然化计其中Si,Sh G S中的S表示所有监巧节点集合;使用如下公式将似然函数取极大值时的Uf和tf分别作为风险传播源和风险传播时间的 估计值: Q
【文档编号】H04L29/06GK105915399SQ201610482278
【公开日】2016年8月31日
【申请日】2016年6月27日
【发明人】王田, 文晟, 吴群, 吴尤可, 梁俊斌, 赖永炫
【申请人】华侨大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1