一种基于网络风险熵差的谣言风险评估方法与流程

文档序号:15400279发布日期:2018-09-11 17:20阅读:200来源:国知局

本发明涉及互联网与信息传播技术领域,尤其是涉及一种基于网络风险熵差的网络舆情、网络谣言或网络虚假信息等的风险评估方法。



背景技术:

随着互联网的普及,越来越多的人开始利用互联网进行工作、购物、学习和娱乐等。据2017年8月4日中国互联网络信息中心(cnnic)第40次《中国互联网络发展状况统计报告》显示,截至2017年6月,中国网民规模达到7.51亿,占全球网民总数的五分之一。网络已经成为人们每天获取信息、表达观点、相互交流的媒介和平台。如此便捷的网络平台为网民疏通了一条各抒己见、交流观点的自由渠道,民众越来越倾向于在网络上发表观点舆论。网络舆情内容的生产者已经由网站制作人员转变成为网站和广大网络用户共同作用的混合群体。这种趋势使得互联网成为继报纸、广播、电视等大众传播和人际传播之外的社会舆论传播的主流媒体。网络媒体作为新型媒体打破了传统媒体对时间、空间的许多限制,拓宽了传播的广度与深度。通过国际互联网络,网络媒体可以将信息24小时不间断地传播到世界的每一个角落。网络的迅猛发展给人们带来了生活的便捷,但同时也给谣言“插上了翅膀”。信息传播飞速化、网民参与匿名化、意见表达情绪化、立场观点极端化都为网络谣言的萌芽埋下了隐患。迅速增长的网民规模、便捷的上网方式、移动互联智能化与经济社会转型期积累的各种社会负面情绪相互结合,为谣言的滋生和蔓延提供了条件。

网络谣言是指经由网络广泛传播的没有事实依据的虚假言论。与传统谣言相比,网络谣言无论是传播速度还是传播范围都得到了极大的扩展,尤其容易随着重大事件和突发事件的产生而滋生蔓延,同时互联网的大众性也使得网络上人人都可能成为谣言传播者,因此网络谣言自从出现就在趋于泛滥,而网络谣言这种趋于泛滥的趋势已严重影响到社会的稳定和和谐。网络谣言的广泛传播极易扰乱正常的社会秩序、引发社会信任危机、侵犯公民人身权利,因此研究网络谣言风险评估的方法就显得尤其重要。

目前网络谣言相关的研究还不成熟,研究者提出的谣言风险评估方案多数基于层次分析法等多准则决策算法,对谣言各方面建立评价指标进行综合打分做出风险评估。这类解决方案主观因素较大,难以根据传播动态实时收集数据,评估结果不够精准及时。因此业界亟需一种能够及时精确地对谣言进行风险评估的方案。

以上背景技术内容的公开仅用于辅助理解本发明的发明构思及技术方案,其并不必然属于本专利申请的现有技术,在没有明确的证据表明上述内容在本专利申请的申请日前已经公开的情况下,上述背景技术不应当用于评价本申请的新颖性和创造性。



技术实现要素:

针对现有的谣言风险评估方法的不足,本发明提出一种能够实时监控网络言论(例如网络谣言、舆情、虚假信息等)传播情况,并及时作出风险量化评估的方法。

本发明为克服现有技术的不足所提出的技术方案如下:

一种基于网络风险熵差的谣言风险评估方法,包括以下步骤:

s1、对待评估的网络平台,建立基于sir模型的谣言传播模型;

s2、基于所述谣言传播模型的网络结构,利用谣言源识别方法识别出谣言源及其传播时间;所述网络结构包括多个网络节点,每个节点代表一个网络用户;

s3、根据步骤s2确定的谣言源及其传播时间,在所述网络结构中模拟谣言的正向传播过程,以得到当前时刻所述网络结构中的各个节点处于不同状态的概率;其中,节点的所述状态包括三种:易感染状态、感染状态和恢复状态;

s4、根据当前时刻所述各个节点处于不同状态的概率,计算当前时刻所述网络结构的最大风险熵和最小风险熵;

s5、利用当前时刻所述网络结构的所述最大风险熵和所述最小风险熵,计算当前时刻所述网络结构的网络风险熵;

s6、根据所述网络结构当前时刻的网络风险熵和当前时刻的前一时刻的网络风险熵,计算所述网络结构的网络风险熵差,并根据所述网络风险熵差评估当前时刻谣言对所述网络平台造成的潜在风险。

本发明通过研究谣言传播过程中个体可能的状态、个体之间传播谣言的机理,基于sir模型以及影响谣言传播的因素,提出了一种谣言传播模型,可从谣言源开始有效地刻画谣言在社交网络中传播的过程;并通过调节模型中传染概率和恢复概率可以有效地反映出现实中各种因素对谣言传播的影响,使本发明提出的方法更加符合实际,易于操作。然后,通过计算网络风险熵差分析谣言风险,排除了如层次分析法中主观因素对评估结果的影响,使谣言风险评估的结果更加精确。同时,基于熵的方法能结合网络中每个节点的状态分析整个网络谣言风险影响的大小,能更加全面客观地反映网络谣言的风险。同时,本发明提出的基于网络风险熵差评估谣言风险的模型无需收集构造大量训练集数据或特征数据库,针对不同的谣言得到不同的网络风险熵,不受模型参数的限制,使谣言风险评估的结果更加精确。

附图说明

图1是本发明提出的基于网络风险熵差的谣言风险评估方法流程图;

图2是本发明具体实施例的谣言传播模型的网络结构示意图;

图3是本发明具体实施例的谣言传播模型中个体(节点)的状态转变示意图;

图4是在图2所示的网络结构中利用反向传播法寻找谣言源的原理图。

具体实施方式

下面结合附图和具体的实施方式对本发明作进一步说明。

为了能够定量地评估谣言风险,本发明的具体实施方式提出一种基于网络风险熵差的谣言风险评估方法,首先建立谣言传播模型,然后确定谣言源,再从谣言源正向模拟传播过程,最后在传播过程中定义网络熵差来实时量化谣言的风险。参考图1,本发明提出的该谣言风险评估方法包括以下步骤s1至s6:

步骤s1、对待评估的网络平台,建立基于sir模型的谣言传播模型。

所述的网络平台例如可以是具有转发、评论、点赞等主流功能的社交网络平台,并且本方法中待评估的网络平台不限于是某个平台,可以是若干个互联的平台构成的平台群体,可以评估谣言在这些平台构成的网络中所可能造成的实时风险。

所述基于sir模型的谣言传播模型的一种示例性网络结构如图2所示,该网络结构可以看成是一个社交网络模型,由很多个网络节点(图中的小方块和小圆形都是网络节点,每个节点代表一个网络用户)以及节点之间的联接关系所构成,两个节点之间具有联接关系是指该两个节点之间可以直接传播网络信息,在所述网络结构中用连线来表示。

在该谣言传播模型中,根据sir模型(典型的传染病模型)为每个节点自身定义三种状态:未接收到谣言或接收到谣言但不相信谣言的易感染状态,接收到谣言并且开始传播谣言(即相信谣言)的感染状态,听到真相后由相信谣言转变为不再相信谣言(表现为停止传播谣言)的恢复状态。如图3所示,基于sir模型的个体状态转变示意图,网络中的个体在接收到谣言之前或者接收到谣言但不相信谣言都处于易感染状态,任何时刻都可能以一定概率α转变为感染状态,而处于感染状态的过程中,也会以一定概率β转变为恢复状态。因此sir模型可以有效地刻画每个网络用户自身对于谣言的状态转变过程,再结合如图2所示的网络结构,可以刻画谣言在网络中传播的动态过程。

步骤s2、基于所述谣言传播模型的网络结构,利用谣言源识别方法识别出谣言源及其传播时间。识别谣言源可以采用反向传播法,也可以采用其它典型的谣言源识别方法例如jordan中心法、有效距离法、蒙特卡罗法等等。本发明的具体实施例以采用反向传播法为例来对寻找谣言源的过程进行说明。

谣言可以从网络中的任何个体开始传播,而从不同的个体开始传播的谣言会经过不同的路径,产生不同的影响。因此,找到谣言传播的源头是研究谣言传播过程以及了解网络中各个体当前状态的首要工作。本发明基于反向传播策略的方法寻找谣言传播的源头,参考图4,首先,从所述网络结构中选取一些节点作为观测节点,构成观测节点集合s,并在如图2所示的网络结构中以“小方块”节点表示被选取的观测节点;然后,在某一时刻t进行观测,t时刻处于感染状态的观测节点构成集合处于易感染状态的观测节点构成集合并记录集合中各观测节点(假设t时刻有m个处于感染状态的观测节点)被谣言感染的时刻t={t1,t2,t3,…,tm}。对集合中各观测节点,从最晚被感染的节点开始,依照各自被谣言感染的时间顺序,先后沿着所述网络结构的网络路径反向传播谣言,能同时被集合中的所有观测节点感染的节点将被视作可能的谣言源,加入到疑似谣言源集合u中。如图4所示,利用集合中的节点进行反向传播演示,初始时(τ=0时刻)从最晚被感染(例如感染时刻在t时刻)的节点a1们开始反向传播,τ=1时刻从t-1时刻被感染的节点a2们开始反向传播,τ=2时刻从t-2时刻被感染的节点a3们开始反向传播,依此类推进行反向传播演示。最终能同时被集合中的所有观测节点感染的节点u将被视为可能的谣言源,加入到所述疑似谣言源集合u中。最后,对集合u中的所有节点u,分别求取在t时刻的最大似然值,其中最大似然值最大的节点即为谣言源uf。节点u在t时刻的最大似然值为

其中,pi(h,th;u)为节点h在th时刻被集合u中的节点u传来的谣言所感染而在t时刻处于感染状态的概率,ps(k,t;u)为节点k在t时刻未被集合u中的节点u传来的谣言感染而处于易感染状态的概率,可以通过后述的公式(2)和(5)计算:

其中,α(h,th)表示节点h在th时刻被感染的概率,ps(h,th-1)和pi(h,th-1)分别表示节点h在(th-1)时刻处于易感染状态和感染状态的概率,βh表示处于感染状态的节点h转变为恢复状态的概率,0<βh<1;uh表示节点h所代表的用户在所述网络平台上的信用值,可以从所述网络平台获取得到;ch表示节点h所代表的用户在所述网络平台上的支持度,ph为节点h所代表的用户在所述网络平台上发布的内容中含有持赞同态度的评论数量,nh为节点h所代表的用户在所述网络平台上发布的内容中含有持反对态度的评论数量。并且有:

lh为节点h所代表的用户在最近一预定时间段内的活跃度,nh为节点h在所述网络结构中的相邻节点j的集合,infj为节点j所代表的用户在所述网络平台上的影响力值(例如微博粉丝数量),pi(j,th-1)为节点j在(th-1)时刻处于感染状态的概率;并且有:

分别表示节点h所代表的用户在最近一周和最近一月内于所述网络平台上发布的内容数量,分别表示节点h所代表的用户在最近一周和最近一月内于所述网络平台上点赞的数量,分别表示节点h所代表的用户在最近一周和最近一月内于所述网络平台上回复评论的数量。

ps(k,t;u)=(1-α(k,t))·ps(k,t-1)(5)

α(k,t)表示节点k在t时刻被感染的概率,ps(k,t-1)表示节点k在(t-1)时刻处于易感染状态的概率。

同时,针对每一个可能为谣言源的节点u,可通过如下公式推算相应的谣言传播时间:

谣言源uf及其谣言传播时间tf为:

步骤s3、根据步骤s2确定的谣言源及其传播时间,在所述网络结构中模拟谣言的正向传播过程,以得到当前时刻所述网络结构中的各个节点处于不同状态的概率。在找到谣言源uf并推算出谣言的传播时间tf后,我们利用sir模型来模拟谣言的动态传播过程,在初始时刻我们将谣言源uf定义为感染状态,而网络中的其它节点均定义为易感染状态。本发明根据社交网络中个体的用户特征,定义影响个体被感染概率的因素有其最近活跃度、相邻个体的影响力,影响个体被感染后恢复概率的因素有用户信用、用户支持度。从而,在t时刻,所述网络结构中处于易感染状态的节点i在t时刻被谣言感染的概率为

与前述公式(3)一样,公式(8)中,li为节点i所代表的用户于所述网络平台上最近一预定时间段内的活跃度,ni为节点i在所述网络结构中的相邻节点j的集合,infj为节点j所代表的用户在所述网络平台上的影响力值,pi(j,t-1)为节点j在(t-1)时刻处于感染状态的概率。同样,li的计算采用公式(4),代入相应的参数求取即可。

接下来,计算各节点在t时刻处于不同状态的概率。根据节点i在t时刻被谣言感染的概率α(i,t),计算节点i在t时刻处于易感染状态的概率ps(i,t):

ps(i,t)=(1-α(i,t))·ps(i,t-1)(9)

节点i在t时刻处于感染状态的概率pi(i,t):

以及,节点i在t时刻处于恢复状态的概率pr(i,t):

βi表示处于感染状态的节点i转变为恢复状态的概率,0<βi<1;ui表示节点i所代表的用户在所述网络平台上的信用值;ci表示节点i所代表的用户在所述网络平台上的支持度,pi为节点i所代表的用户在所述网络平台上发布的内容中含有持赞同态度的评论数量,ni为节点i所代表的用户在所述网络平台上发布的内容中含有持反对态度的评论数量。

通过前述计算得到网络结构中各节点处于不同状态的概率后,本发明引入网络熵的概念来定量分析网络中谣言风险的大小。“熵”的概念是由物理学家克劳修斯在1856年创立的,热力学用熵来度量物质系统中能量衰竭的程度。在随后的研究中,玻耳兹曼和爱因斯坦等一大批科学家的研究使人们对熵有了更深刻的认识。20世纪40年代香农把熵引进信息论产生了现代信息科学,用熵定量描述信息量,如下公式即为香农对信息熵的定义:

其中,h表示信源(产生信息的实体)的平均信息量,pz表示第z个信源出现的概率。

对于网络的第q项性能指标来说,其网络熵值可定义为:

hq=-log2vq,q=1,2,...,q(13)

其中vq为所述第q项性能指标的归一化性能参数。

网络系统的网络熵应为各单项性能指标熵的加权和,即:

其中ωq为第q项性能指标的权重。

因此,可采用“熵差”对网络系统受到的攻击效果进行描述,其中δhq=-log2(vq2/vq1)为网络的第q项性能指标被攻击的效果,vq1为网络系统原来的第q项性能指标的归一化性能参数,vq2为网络系统受攻击后第q项性能指标的归一化性能参数。显然,δhnet越大,则网络系统的总体性能变坏得越厉害,攻击效果也就越明显。

步骤s4、根据前述步骤s3求出的当前时刻所述各个节点处于不同状态的概率,计算当前时刻所述网络结构的最大风险熵和最小风险熵。

根据sir模型的感染机制可知:t时刻处于易感染状态的节点x在t+1时刻以ps(x,t+1)的概率保持为易感染状态,同时以pi(x,t+1)的概率被感染成感染状态;t时刻处于感染状态的节点y在t+1时刻以pr(y,t+1)的概率转变为恢复状态,同时以pi(y,t+1)的概率保持感染状态。易感染状态的节点x在t+1时刻保持易感染状态的概率ps(x,t+1)越小,同时感染状态的节点y在t+1时刻转变为恢复状态的概率pr(y,t+1)越小,此时网络中风险越大。由此我们可以定义在t时刻网络最大风险熵hmax(t)为:

其中:

gs和gi分别表示当前时刻所述网络结构中为易感染状态和感染状态的节点集合。

同理,t时刻易感染状态的节点x在t+1时刻被感染成感染状态的概率pi(x,t+1)越小,同时感染状态的节点y在t+1时刻保持为感染状态的概率pi(y,t+1)越小,则此时网络中谣言造成的风险越小。由此,我们可以得到在t时刻网络最小风险熵为

其中,

从而,t时刻所述网络结构的网络风险熵h(t)为:

h(t)=hmax(t)-hmin(t)(17)

t时刻所述网络结构的网络风险熵差δh(t)为:

δh(t)=h(t)-h(t-1)=(hmax(t)-hmin(t))-(hmax(t-1)-hmin(t-1))。

因此,当t时刻网络的最大风险熵值越大而最小风险熵值越小,同时t-1时刻的最大风险熵值越小而最小风险熵值越大时,t时刻的网络风险熵差的值越大,表示当前网络谣言潜在的风险越大。此时更应加大力度进行控制,抑制谣言进一步扩散,避免对社会造成影响。

已有的谣言传播模型需要提前知晓谣言的传播源,从传播源开始动态传播的过程,而这在现实生活中往往难以提前获取。因为现实中大多数谣言是在已经传播了一段时间后才引起关注,在社交网络中很难确定谣言的传播是从何处开始的。

同时,本发明提出的基于网络风险熵差评估谣言风险的方法无需收集构造大量训练集数据或特征数据库,针对不同的谣言得到不同的网络风险熵,不受模型参数的限制,使谣言风险评估的结果更加精确。本发明基于熵的方法能结合谣言动态传播网络中每个节点的状态分析整个网络谣言风险的大小,能更加全面地、定量地反映网络谣言的风险。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1