一种基于信息级联的社交网络信息传播影响力预测方法

文档序号:35920362发布日期:2023-11-04 03:13阅读:99来源:国知局
一种基于信息级联的社交网络信息传播影响力预测方法

本发明涉及级联增长预测领域,特别涉及一种基于信息级联的社交网络信息传播影响力预测方法。


背景技术:

1、在线社交网络平台为信息的传播提供了广泛和快速的渠道,并且多媒体技术也能够使信息承载更多内容。这也使得在线社网络平台成为恶意信息大规模传播的温床,恶意信息在网络平台的加持下扩散的速度和范围也得到了大幅度加强。研究表明,在社交媒体上,谣言、假新闻等虚假信息更加容易引起人们的关注和传播。如果能够通过对信息增长规模进行预测的方法提前识别可能广泛扩散的影响力大的热点信息,并对其进行实时监控,就能及时采取应对措施,防范和化解危机,可以在消耗更少的资源的情况下,最大程度地减少不良信息迅速传播所带来的不良影响。

2、社交网络中的信息以级联的形式传播,通常通过级联的长度来表示信息的影响力,级联越长则信息影响力越大。近年来,深度学习技术在端到端级联流行度预测方面表现出了显著的优越性,能够自动从级联数据中提取有用信息。一些研究方法将信息级联表示为多个用户节点组成的序列,并将其输入循环神经网络(recurrent neural network,rnn)模型,以便更好地挖掘潜在的扩散模式。此外,还有一些研究人员将信息级联表示为级联图或社交网络,并在此基础上应用图神经网络(graph neural network,gnn)模型对信息级联早期传播时的结构特征进行特征提取。

3、然而,目前的研究方法存在以下几个问题:

4、(1)rnn仅能从级联数据序列的输入顺序中学习时间特征,而忽略了可能存在于中间时间序列中的更多时间特征细节。然而,信息传播过程中的时间间隔、单位时间内的传播速度等都已经被证明对于信息传播预测问题至关重要;

5、(2)相同时间内的信息级联长度符合幂律分布,因此级联的长度存在巨大的差异。当循环神经网络面对过长的序列输入时,会出现长期依赖问题,并且梯度消失和梯度爆炸问题也会导致网络无法有效地更新参数;

6、(3)在早期的级联预测任务中,由于观测时间过短并且信息影响人数符合幂律分布,观测到的级联系列以短序列为主。然而,在构建基于短级联序列的级联图时,由于图节点数目过少,难以从图结构中提取足以区分预测级联长度的特征,导致图结构中包含的信息量不足以区不同长度的信息级联。

7、这些问题都导致目前的方法做社交网络信息传播影响力预测准确率较低。


技术实现思路

1、为了克服现有技术中的不足,本发明提供一种基于信息级联的社交网络信息传播影响力预测方法,对现有的时间特征和结构特征的提取方法做出了改进,首先采用位置编码函数与transformer中的encoder结构替代传统的rnn结构进行时间特征提取,同时采用基于扩散随机采样的数据增强方法提取级联图结构特征,通过结合这两种特征提取方法,提出了社交网络信息传播影响力预测模型,用于预测早期信息级联的增长情况。

2、为了达到上述发明目的,解决其技术问题所采用的技术方案如下:

3、一种基于信息级联的社交网络信息传播影响力预测方法,包括以下步骤:

4、步骤1:用有向图来存储提取到的用户节点和用户之间的关系;

5、步骤2:计算用户全局社交关系网络中,每个用户节点的结构特征信息;

6、步骤3:根据信息级联预测问题的定义提取观测序列,处理数据;

7、步骤4:使用扩散随机采样引入一部分全局特征去建模级联特征;

8、步骤5:使用正余弦位置向量编码时间信息得到时间矩阵;

9、步骤6:将时间矩阵转化为编码器的输入向量;

10、步骤7:将二阶扩散随机采样级联图和时间向量相加,相加后的结果和聚合向量一起输入到编码器层做自注意力变换;

11、步骤8:将gat层和编码器层交替堆叠同时融合时间特征和结构特征进行特征变换;

12、步骤9:将每一个多头自注意力向量和聚合向量作为输入,新的聚合向量作为输出;

13、步骤10:输出聚合向量和扩散级联图;

14、步骤11:使用gat进行结构特征提取得到新的扩散级联图;

15、步骤12:进行分层drop操作;

16、步骤13:将级联图、聚合向量和时间矩阵相加;

17、步骤14:重复步骤7~步骤12,将得到的级联图、聚合向量以及最初的时间矩阵作为下一个编码器的输入;

18、步骤15:从编码器中取得最终的聚合向量;

19、步骤16:将步骤15得到的聚合向量输入到预测模块中进行级联增长的预测,得到最终的输出;

20、步骤17:处理数据并更新网络中的可学习参数,降低预测误差。

21、进一步的,所述步骤1包括以下内容:

22、从在线社交平台中提取用户节点和用户之间的关系,用一个有向图来存储信息,该图被称为用户全局社交关系网络;其中,有向图中的节点表示社交网络中的用户,有向图中的边用来表示用户之间的关注关系,边的方向表示信息的传递方向。

23、进一步的,所述步骤2包括以下内容:

24、需要计算的信息有核数、pagerank分数、枢纽系数、权威系数、特征向量中心性和聚集系数,这些特征分别能表示出图中节点的一部分结构特征,使用这六个属性共同来表示一个节点,这六个属性所组成的向量被称为用户全局属性向量,由于每个属性的数值范围都不同,根据所用用户的属性向量,来对其进行归一化,归一化之后的属性向量进行后续的数值计算。

25、进一步的,所述步骤3包括以下内容:

26、社交网络中的信息使用信息级联的形式进行存储,每条信息对应一个级联序列,级联序列中的每一个元素都是一个用户编号和信息发送时间所形成的二元组;级联序列中的元素数量表示该条信息所影响到的用户人数,将序列中的元素按照时间先后顺序排列,表示信息的传播轨迹,根据信息传播前若干小时的信息,去预测最终新增影响用户的数量,也就是根据级联序列中前若干个节点去预测后续节点的数量。

27、进一步的,所述步骤4包括以下内容:

28、对于一条信息级联数据,采用扩散随机采样的数据增强方法来引入一部分全局特征,从而方便建模级联特征;首先要根据图神经网络的堆叠层数确定扩散随机采样的阶数,在社交关系网络中搜索k阶节点的所有邻居节点,排除已经采样过的节点;然后从剩余节点中随机采样最多128个节点作为第k+1阶节点,直到采样到指定阶数为止;采样两次得到级联序列的二阶扩散随机采样级联图,即包含节点及其部分邻居节点的子图。

29、进一步的,所述步骤5包括以下内容:

30、对于级联序列中的时间信息,通过特殊的位置编码函数来将一个时间数字转换成一个向量,将时间转换成向量有利于将时间和其他节点属性共同进行运算,同时也要保证转换成向量的时间同样保留最基础的时间的特征,转换方法如下:

31、确定每一个时间点需要转换的成的向量te的维度n;

32、确定向量te中第k个元素的数值大小,如果k是奇数,则另如果k为偶数,则

33、对级联序列中的所有时间都执行以上变换,最终得到时间矩阵。

34、进一步的,所述步骤6包括以下内容:

35、对于时间矩阵,在其首部添加一个全零的向量作为时空聚合嵌入部分编码器的输入向量。

36、进一步的,所述步骤7包括以下内容:

37、定义一个n维全0的聚合向量用来聚合神经网络变换过程中所有信息级联节点的属性,将步骤4得到的二阶扩散随机采样级联图和步骤6得到的时间向量相加,相加后的结果和聚合向量一起输入到时空聚合嵌入模块的编码器层中,做自注意力变换后输出聚合向量和扩散级联图;

38、在casdiffgnn模型中,每一层的编码器都会产生一个表示全图特征的聚合向量,该向量在图中没有与之对应的节点,不会参与gat的特征变换;

39、自注意力变换的过程如下:

40、(1)计算用户节点自注意力变换结果:定义三个可以通过反向传播更新参数的矩阵wq,wk,wv,分别与每一个用户输入向量进行矩阵乘法运算得到每一个用户节点的q,k,v向量;分别将一个用户的q向量与其他所有用户的k向量进行向量乘法,将计算的结果除以向量维度的开方,并计算softmax函数;softmax函数能将一个含任意实数的k维向量z“压缩”到另一个k维实向量σ(z)中,使得每一个元素的范围都在(0,1)之间,并且所有元素的和为1;通过计算结果可以得到其他用户与该用户的相关程度,并将相关程度作为权重,对所有用户节点的v向量进行加权求和,计算出用户节点的一组自注意力头;

41、(2)定义多个参数矩阵wq,wk,wv,计算出用户节点的多组自注意力头,将所有用户的自注意力头拼接,得到一个多头注意力矩阵;定义线性神经网络层,将每一个用户的多个注意力头输入到线性神经网络层中,得到用户自注意力变换的输出。

42、进一步的,所述步骤8包括以下内容:

43、将步骤7中得到的扩散级联图作为gat层的输入,在casdiffgnn模型中,gat模型被选用作为结构特征提取的方法;在gat模型中,邻居节点通过注意力系数进行加权计算,每个节点只考虑其局部邻居节点的信息;casdiffgnn模型采用编码器层和gat层交替堆叠的方法,对时间特征和结构特征进行深度融合,信息在数据输入gat层前,进行单层的时间聚合变换,将时间特征融入节点特征中一起计算;通过编码器层的自注意力机制,引入图的全局节点特征和时间特征;gat层由于采用了注意力机制,能够自适应地计算每个邻居节点对当前节点的贡献权重,gat层u对于v节点的注意力权重以及输出的定义如下:

44、

45、

46、其中,是第l层gat层的输出,是第l层用于节点特征变换的权重向量,nv表示v的邻居节点集合,αuv表示u对于v节点的注意力权重,表示第l层用于节点注意力的参数矩阵,a(l)是第l层的权重向量参数;

47、最后得到新的扩散级联图。

48、进一步的,所述步骤9包括以下内容:

49、将步骤8得到的扩散级联图中的节点进行分层drop操作,即按照采样的逆顺序逐层丢弃掉网络中的最外层节点,得到级联图。

50、进一步的,所述步骤10包括以下内容:

51、将步骤9中得到的级联图和最初时间矩阵相加,相加的结果和步骤7得到的聚合向量一起作为下一个时空聚合嵌入部分encoder层的输入。

52、进一步的,所述步骤12包括以下内容:

53、将步骤11得到的级联图、聚合向量以及最初的时间矩阵输入到编码器中,从编码器层所输出的结果中,取得最终的聚合向量;最终的聚合向量将会聚合不同深度的gat层的全图特征,其中以级联图特征为主,邻居节点为辅;在聚合的过程中,与级联图距离越远的节点对最终聚合向量的贡献越弱;该向量为时空聚合嵌入模块所输出信息级联的最终嵌入向量。

54、进一步的,所述步骤14包括以下内容:

55、求预测结果与真实结果的平方差,并对所有数据的平方差求平均值,作为神经网络模型的平均误差,用于评估网络模型的性能;通过反向传播的梯度下降的方式更新网络中的可学习参数,以达到降低预测误差的结果。

56、本发明由于采用以上技术方案,使之与现有技术相比,具有以下的优点和积极效果:

57、本发明一种基于信息级联的社交网络信息传播影响力预测方法,使用扩散随机采样的数据增强方法来引入一部分全局特征,从而更好地建模级联结构特征,并采用正余弦位置向量编码时间特征,使用gat对扩散随机采样级联图进行特征提取,并且将用于提取的时间特征和聚合级联节点表示的编码层与gat层交替堆叠,组成时空聚合嵌入模块,来实现时间特征和结构特征的深度融合。达到增强时间特征和结构特征对预测结果的影响的效果。针对信息级联在传播的早期特征不足的场景,该方法有较高的预测准确性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1