面向社交网络的信息流行度预测方法及系统与流程

文档序号:14991420发布日期:2018-07-20 22:18阅读:221来源:国知局

本发明属于社交网络分析领域,主要涉及社交网络中信息传播,具体针对信息流行度进行预测与分析。



背景技术:

在当前社交网络及web2.0普及的时代,社交网站如twitter、新浪微博等已成为人们获取信息和发表意见的重要平台。社交网络的信息共享性、实时性、互动性以及传播形式多样性使其在信息传播方面具有强大的影响力,如“马航mh370”、“美国总统选举”等事件在微博上引起全民关注等。鉴于社交网络信息传播对人们生活、社会发展的影响,近年来在线社交网络信息传播分析与预测逐渐得到研究者的重视。

现有研究通常使用流行度来衡量信息在社交网络中的宏观传播效果。信息流行度指在一段时间内操作在社交网络某条信息上的网络行为的数量度量,如视频的观看量、微博的转发量等。目前社交网络信息流行度预测方法主要分为两类。一类是基于传染病的预测方法,该方法利用动力学演化方程组刻画不同类型节点随时间的状态演化关系,侧重于研究传播过程中个体在几个状态之间的重新分配,关注信息的整体传播情况。例如:yang等人在《隐含网络中信息扩散建模》(modelinginformationdiffusioninimplicitnetworks)中基于sis模型的基础上提出了线性影响力模型,模型假设信息的传播受各节点影响力限制,建立每个节点的影响函数,此函数用以量化该节点对后续被激活节点的影响力,某时间处于活跃状态节点的影响力之和即为此时刻信息的流行度。另一类是基于分类或回归的预测方法,从影响信息传播的各个影响因素出发,构建并选择特征,从而训练基于分类或回归的预测模型,对信息流行度进行预测。例如:bakshy等人在《每个人都是一个有影响力的人:量化twitter中的用户影响力》(everyone’saninfluencer:quantifyinginfluenceontwitter)中基于回归树模型进行信息流行度预测,发现平均被转发数、最大被转发数等特征与用户博文转发量呈现相关性,从而证明用户影响力能够影响信息的传播。

但是社交网络中个体之间的连接关系并不是随机的,上述研究均忽略了节点之间的关系强弱差异,以及参与信息传播的个体之间的差异,例如具有很多条强关系的节点或者活跃度高的节点都会产生较大的影响力,促进信息的传播。如何从信息传播的角度在社交网络中发现高影响力节点,结合用户交互和网络结构分析社交网络中节点之间的差异性,是快速变化的网络时代信息决策的一个关键问题。因此,以网络节点影响力度量为切入点进行信息流行度预测建模具有一定的研究意义。

本发明所解决的问题:针对社交网络中个体的差异性、用户关系具有强弱性等问题,本发明提出了一种面向社交网络的信息流行度预测方法。该方法结合信息发布者个体特征和早期信息传播特征预测信息最终的流行度,主要改进在于量化信息传播网络中的节点影响力,本发明提到的节点影响力包括节点之间的影响力和节点自身的影响力,利用节点间的交互刻画社交网络中用户关系的强弱,即节点之间的影响力;利用个体行为刻画用户的活跃度,即节点自身的影响力。总的来说,结合不同的节点影响力和网络拓扑结构提出一种节点传播力度量方法,从信息源驱动和早期信息感染群体驱动两个方面,更加准确地进行信息流行度的预测,为解决热点发现滞后、网络舆情监测实时性难以保证等问题提供思路。



技术实现要素:

本发明旨在解决以上现有技术的问题。提出了一种能够有效预测信息流行程度,及时发现网络群体事件并识别信息传播网络中的重要传播节点的面向社交网络的信息流行度预测系统及方法。本发明的技术方案如下:

一种面向社交网络的信息流行度预测系统,包括:获取数据源模块、属性提取模块,所述获取数据源模块利用社交网络中的用户关系和节点行为数据,构建信息传播网络;属性提取模块,基于节点行为数据从个体行为维度提取并定义用户相对活跃度,基于信息传播网络从节点交互维度出发,提取节点间交互次数并定义用户间关注度、受重视度,还包括信息流行度预测模型构建模块及流行度训练预测模块,所述信息流行度预测模型构建模块,用于构建双重加权社交网络,并利用改进的pagerank算法度量双重加权社交网络中的节点传播力,改进的pagerank算法改进体现在:一是将原算法中的阻尼系数更改成1减去节点权重,表示节点不传播消息的概率,二是在原算法中融入节点的所有入边节点间的影响力,以刻画其他用户对该节点的信任和依赖程度,同时针对信息传播主要受信息源驱动和早期信息感染群体驱动的影响,提取信息发布者的个体特征和信息发布n小时内的转发特征,利用逻辑回归分类器训练得到信息流行度预测模型;流行度训练预测模块,用于将训练好的信息流行度预测模型对任意一条信息的流行度进行预测,发现网络中重要的传播节点。

进一步的,所述属性提取模块从个体行为维度出发,提取用户相对活跃度,刻画用户作为网络中的个体在网络群体中的相对权重,定义相对活跃度为其中,mi为用户提交消息总数,ti为用户注册时间长度,表示网络中用户发布信息数的对数平均值,n为网络用户总数。

进一步的,所述属性提取模块从节点交互维度出发,利用节点间交互次数定义用户间关注度为受重视度为综合这两个指标量化用户关系强度为其中,nab表示用户a→b的交互次数,同理,nba表示用户b→a的交互次数;oa为所有用户a发出交互行为的用户集合,反之,ia为所有用户a收到交互行为的用户集合;为网络中所有交互的对数均值。

进一步的,所述信息流行度预测模型构建模块利用改进的pagerank算法度量双重加权社交网络中的节点传播力具体包括,首先将用户关系强度wij表示为边权重,将用户相对活跃度ai表示为节点权重,重新构建一个双重加权社交网络;然后对pagerank算法进行改进,根据公式:计算得到节点i的传播力tc(i),其中,tc(i)表示节点i的传播力,ai为节点相对活跃度,可以用来表示节点的传播可能性,n为网络节点个数,ii为所有用户i收到交互行为的用户集合。

进一步的,所述提取信息发布者的个体特征和信息发布n小时内的转发特征,利用lr分类器训练得到信息流行度预测模型具体包括;针对信息源传播驱动,提取信息发布者的个体特征,包括发文用户的节点传播力tc(m)、发文用户的认证状态sta(m);针对信息感染群体驱动,提取早期信息转发特征,包括信息一小时内被转发数一小时内转发用户的传播力之和一小时内转发用户的认证数之和其中vret表示信息发布一小时内的转发用户集合,上述特征组合成模型输入将训练样本集中信息最终流行度ym∈{1,2,3,4}作为模型输出,训练lr分类器参数,构建信息流行度预测模型。

进一步的,所述流行度训练预测模块对任意一条信息的流行度预测具体包括,对任一条信息m,以信息为中心从现有网络中找出信息发布者vpos∈v和早期信息感染群体提取信息发布者特征和信息发布一小时内的转发特征作为预测模型输入通过训练好的lr分类器预测信息的流行度ym,并根据节点传播力的排序识别重要传播节点。

进一步的,所述n为1。

一种基于所述系统的面向社交网络的信息流行度预测方法,其包括以下步骤:

利用社交网络中的用户关系和节点行为数据,构建信息传播网络;基于节点行为数据从个体行为维度提取并定义用户相对活跃度,基于信息传播网络从节点交互维度出发,提取节点间交互次数并定义用户间关注度、受重视度,还包括信息流行度预测模型构建步骤及流行度训练预测步骤,所述信息流行度预测模型构建步骤,包括:构建双重加权社交网络,并利用改进的pagerank算法度量双重加权社交网络中的节点传播力,改进的pagerank算法改进体现在:一是将原算法中的阻尼系数更改成1减去节点权重,表示节点不传播消息的概率,二是在原算法中融入节点的所有入边节点间的影响力,以刻画其他用户对该节点的信任和依赖程度,同时针对信息传播主要受信息源驱动和早期信息感染群体驱动的影响,提取信息发布者的个体特征和信息发布n小时内的转发特征,利用逻辑回归分类器训练得到信息流行度预测模型;流行度训练预测步骤,包括:将训练好的信息流行度预测模型对任意一条信息的流行度进行预测,发现网络中重要的传播节点。

本发明的优点及有益效果如下:

本发明针对现有研究在对节点影响力分析时仅考虑网络结构,忽略了用户行为,综合考虑用户间的影响力即节点交互维度及用户自身影响力即个体行为维度,提出一种基于改进pagerank的节点传播力度量方法,使节点传播力的度量更加准确,并进一步根据信息源传播驱动和早期信息感染群体驱动,使用分类器预测信息流行度,能够由此预先更加准确地发现热门信息,对网络舆情的预警和控制具有重要意义。

附图说明

图1是本发明提供优选实施例的实施方式流程图;

图2是本发明的预测模型框图;

图3是本发明的算法实施图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是:

由于信息的流行程度不仅受发布者的影响,还与转发者的影响力紧密相关,因此本发明从信息源驱动和早期信息感染群体驱动两方面出发,提取发布者个体特征和早期信息传播特征,针对网络中个体的差异性及用户关系的强弱性,引入节点间的影响力和节点自身影响力量化差异,构建一种信息流行度预测模型,使其能够有效预测信息流行程度,及时发现网络群体事件并识别信息传播网络中的重要传播节点。

基于以上思路,本发明作出如下定义:

1.定义社交关系网络g=(v,e),其中,v={v1,v2,…,vn}为节点集,节点个数为|v|=n,一个节点代表一个用户,为边集,eij=<vi,vj>表示节点i→j之间的有向边。

2.定义b={(b,vi,t)}为节点行为数据,其中{(b,vi,t)}表示节点vi在t时间的动作b,b是节点集合一段时间内的历史行为。

3.定义个体行为维度和节点交互维度两种度量节点影响力的方式,形式化表示信息传播过程中节点的全局影响力(节点自身影响力)和局部影响力(节点间的影响力)。

问题具体表述为:给定社交关系网络g=(v,e)、节点行为数据b={(b,vi,t)}和信息m,以信息为中心从现有网络中找出信息发布者vpos∈v和早期信息感染群体预测信息的流行度ym,可表示为:

如图1所示为本发明的实施方式流程图,主要包括:数据源获取模块,属性提取模块,构建模型模块,预测分析模块共四大模块。

以下具体说明本发明的详细实施过程。

s1:数据源获取。

社交网络中数据获取方法包括利用网络爬虫获取或者基于api接口抓取数据。在本发明中,首先需以信息为中心,确定信息发布者和信息发布后一段时间的感染群体作为研究对象,抓取社交关系网络及以节点行为数据,并根据节点间历史交互数据构建信息传播网络,节点行为数据包括历史发布、转发、认证等行为以及行为时间,社交关系网络指用户间的关注-被关注关系。

s2:属性提取。

本发明综合信息源传播力和信息感染群体传播力预测信息最终的流行度,关于节点传播力的度量主要从个体行为维度和节点交互维度出发,提取影响传播力度量的属性。其属性可根据数据方面的特征对其进行适当修改,以下通过实例进行具体说明。

s21:个体行为维度属性提取。个体行为包括用户的发布行为、转发行为、注册行为等,本发明采用用户活跃度表示用户在信息传播网络上的个体影响力,主要考虑用户提交消息总数、用户注册时间长度等统计指标对用户活跃度进行量化,以下做详细描述。

s211:用户提交消息总数mi

用户提交消息总数用于反映用户在社交网络中行为活跃度,包括原创消息mip和转发消息mir,内容可以是新鲜事、照片、状态、评论等,显然

mi=mip+mir

s212:用户注册时间长度ti

用户注册时间长度定义为研究的信息对象m被发布的时间tmpos与用户注册id的时间tireg之差,单位为天,显然

ti=tmpos-tireg

s213:用户绝对活跃度ai'

用户绝对活跃度刻画了用户在社交网络中的个体表现,设用户i提交的消息总数为mi,用户注册时长为ti,则用户i的绝对活跃度为

s214:用户相对活跃度ai

在一个网络平台下,存在不同类型的用户,有些用户非常活跃,而多数用户保持较低的活跃度,这样用户的活跃度差异很大。本发明引入相对活跃度,刻画用户作为网络中的个体在网络群体中的活跃度相对权重,减小活跃度差异。在此基础上,定义相对活跃度为

其中,表示网络中用户发布信息数的対数平均值,n为网络用户总数。

s22:节点交互维度属性提取。节点交互指社交网络中用户转发另一个用户的消息,或在发布的消息中提及了另一个用户。节点交互的强弱刻画了用户关系的强弱,本发明利用交互次数定义用户间的关注度、受重视度两个指标,综合这两个指标量化用户关系强度,以下做详细描述。

s221:关注度fab

关注是用户的主动行为,关注度指用户a对b的友好程度和关注程度,可以通过用户间的交互次数占关注主体所有交互的比例体现,如用户a发出的所有交互中,用户b所占的比例越高,说明a对b的关注度越高,反之,关注度较低。令nab表示用户a→b的交互次数,oa为所有用户a发出交互行为的用户集合,则a对b关注度为

s222:受重视度sab

受重视是用户的被动承受,受重视度指用户a受b的重视程度,可以通过用户间的交互次数占受重视客体所有交互的比例体现,如用户a收到的所有交互中,来自于用户b的比例,该值越高表示用户a受b的重视度越高,反之,重视度较低。令nba表示用户b→a的交互次数,ia为所有用户a收到交互行为的用户集合,则a受b重视度为

s223:用户a→b关系强度wab

关注度fab∈[0,1]和受重视度sab∈[0,1]这两个指标可以有效度量两个用户之间的相互依赖。本发明中采用关注度和受重视度的调和平均值,且引入用户间交互次数占全网络中交互次数的对数分位数作为全局因子克服局部高强度交互效应,定义a→b关系强度为

其中,为网络中所有交互的对数均值。

s3:构建信息流行度预测模型。

本发明基于以下两个步骤构建信息流行度预测模型,模型框图如图2所示。首先,以用户为中心,针对网络中个体的差异性及用户关系的强弱性,引入节点间的影响力和节点自身影响力量化差异,并基于改进的pagerank算法度量网络中的节点传播力。然后,以信息为中心,针对信息传播主要受信息源传播驱动和早期信息感染群体驱动的影响,提取信息发布者的个体特征和信息发布一小时内的转发特征,基于训练样本集对lr分类器进行训练建模,其具体学习算法如图3所示。

s31:节点传播力度量。

由于在真实的社交网络中,用户之间的关系强度不同,用户的活跃度也有所不同,将s2步骤中用户关系强度即节点间的影响力表示为边权重,将s2步骤中用户相对活跃度即节点自身影响力表示为节点权重,重新构建一个双重加权社交网络

g'=(v,we,a)

其中,v={v1,v2,…,vn}仍为节点集,为加权边集,weij=<vi,vj,wij>表示节点i→j之间的有向边,wij为i→j之间的权值,且0≤wij≤1;a={a1,a2,…,an}表示每个节点的个体影响力,其中0≤ai≤1。

然后对pagerank算法进行改进,计算网络中各个节点的pr值作为节点传播力,其迭代更新公式为

其中,tc(i)表示节点i的传播力,ai为节点相对活跃度,可以用来表示节点的传播可能性,n为网络节点个数,ii为所有用户i收到交互行为的用户集合。新算法包含两处改进,一是将原算法中的阻尼系数更改成1减去节点权重,即:1-ai,表示节点不传播消息的概率,其逻辑含义与阻尼系数一致;二是在原算法中融入节点i的所有入边节点间的影响力wji,以刻画其他用户对该节点的信任和依赖程度。

补充说明一点:算法的收敛性在经典的pagerank算法中已得到证明,收敛方式也有很多种,常用的方式是把所有用户迭代前后值中变化值与预先设定的阀值比较判定是否收敛。若小于预先设定的阈值,则算法收敛,结束。否则,算法继续迭代。其数学表达为:

|tcn+1-tcn|<ε

其中,tcn表示改进算法第n次迭代的节点传播力值矩阵,ε是预先设定的阈值。

s32:信息流行度预测模型。

为了验证节点传播力对信息扩散的作用,本发明提出基于lr分类器的信息流行度预测模型。由于信息的流行程度不仅受发布者的影响,还与转发者的影响力紧密相关,因此本发明从信息源驱动和早期信息感染群体驱动两方面出发,提取信息发布者的个体特征和信息发布一小时内的转发特征作为模型特征输入具体特征包括:发文用户的节点传播力tc(m)、发文用户的认证状态sta(m)、信息一小时内被转发数一小时内转发用户的传播力之和一小时内转发用户的认证数之和vret表示信息发布一小时内的转发用户集合。模型输入具体表示为

将训练样本集中信息最终流行度ym∈{1,2,3,4}作为模型输出,训练分类器参数,构建信息流行度预测模型。

s4:预测分析。根据训练出来的lr分类器和任一条信息m展开的双重加权社交网络g=(v,e,a),以信息为中心从现有网络中找出信息发布者vpos∈v和早期信息感染群体即可得到信息发布者特征和信息发布一小时内的转发特征作为预测模型输入以预测信息的流行度ym的值,并根据节点传播力的排序识别重要传播节点。

本发明针对在线社交网络信息传播各个影响因素,基于改进的pagerank算法,提出了一种新的面向社交网络的信息流行度预测模型。模型考虑了网络中个体的差异性及用户关系的强弱性,引入节点间的影响力和节点自身影响力量化差异,从而综合度量网络中节点的传播力,分析信息源节点和信息感染节点在信息扩散过程中的驱动作用,预测最终的信息流行度并识别信息传播过程中的重要节点。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1