基于多重异质图的社交信息传播者预测方法

文档序号:36964133发布日期:2024-02-07 13:10阅读:20来源:国知局
基于多重异质图的社交信息传播者预测方法

本发明涉及在线社交网络领域,具体涉及一种基于多重异质图的社交信息传播者预测方法。


背景技术:

1、在线社交网络平台如新浪微博和推特已经成为了研究信息传播范式和用户行为特征的沃土。持有各异话题偏好的用户在这些社交平台上传播着各式各样的信息,包括新闻、广告、个人想法、甚至是谣言。研究社交网络用户传播行为特征的研究者们着手于利用可见的信息来分析其背后的行为逻辑,这些信息诸如个人信息、信息传播级联、用户间拓扑关系网络等。进一步,研究者们可以将所学习到的信息传播底层原理和行为逻辑应用于下游场景中,如商品推荐和谣言监测等。

2、社交网络信息传播者预测是借助已知的社交平台的历史传播信息数据来预测下一个会参与到给定话题级联中的用户,以促进对社交网络用户行为的研究。近年来,受益于深度学习的热度,很多研究工作倾向于借助经典的深度学习框架来进行用户行为的预测,如图神经网络、循环神经网络、注意力机制等。然而,很少有基于深度学习的方法考虑将用户话题偏好的因素纳入考量。在愈趋复杂化的社交平台上,用户往往会关注互不相同的话题并参与其的传播,并且不同话题上用户的行为特征也往往是大相径庭的。

3、用户话题偏好虽然有助于传播行为预测,但是这一研究方向仍然存在一定的问题亟需解决。一方面,由于用户的话题偏好是隐性的,如何从已知信息中尽可能准确地提取用户的话题偏好并构建出合适的模型架构是一大难点。另一方面,用户的话题偏好也是会发生动态变化的,这为推测用户在给定时间窗口中给定话题上的行为逻辑施加了更多的干扰。


技术实现思路

1、本发明是为了解决上述问题而进行的,目的在于提供一种基于多重异质图的社交信息传播者预测方法。

2、本发明提供了一种基于多重异质图的社交信息传播者预测方法,用于预测多个用户未来参与信息传播的传播概率,具有这样的特征,包括以下步骤:步骤s1,采集一段时间内参与不同信息片段传播的所有用户的信息传播数据;步骤s2,从所有信息片段中选取多个信息片段作为待预测信息片段,并将其余信息片段分别作为训练信息片段;步骤s3,根据待预测信息片段对应的信息传播数据构建待预测信息级联;步骤s4,根据所有训练信息片段对应的信息传播数据构建多重异质图和对应的训练信息级联;步骤s5,构建初始多重异质图模型,并通过所有训练信息级联和多重异质图训练初始多重异质图模型,得到已训练多重异质图模型;步骤s6,将各个待预测信息级联和多重异质图分别输入已训练多重异质图模型,得到各个用户对各个待预测信息级联对应的信息片段进行信息传播的传播概率,其中,信息传播数据包括各个用户的用户id、转发时间、转发的原始文本、转发时评论的评论文本以及用户间的社交拓扑网络,已训练多重异质图模型包括话题选择模块、异质拓扑结构特征提取模块、位置信息特征提取模块、图注意力模块、用户嵌入表示融合模块和多层感知机模块,话题选择模块包含训练好的短文本主题模型,用于对待预测信息级联所转发的原始文本进行处理,得到与该文本在语义上最接近的kt个互异话题作为关键话题,异质拓扑结构特征提取模块存储有预设的node2vec算法,用于对多重异质图进行编码,得到各个关键话题下各个用户对应的异质拓扑结构特征,位置信息特征提取模块用于根据位置编码嵌入矩阵对待预测信息级联进行编码,得到各个关键话题下各个用户对应的位置信息特征,图注意力模块用于根据包含时间衰减因子的图注意力机制,从各个关键话题下各个用户对应的异质拓扑结构特征和位置信息特征中提取用户嵌入表示,用户嵌入表示融合模块用于对每个用户,根据待预测信息级联,将kt个关键话题下对应的用户嵌入表示进行融合,得到该用户的融合嵌入表示;多层感知机模块包括一个两层的感知机,用于对各个用户对应的融合嵌入表示进行处理,得到各个用户对应的传播概率。

3、在本发明提供的基于多重异质图的社交信息传播者预测方法中,还可以具有这样的特征:其中,待预测信息级联和训练信息级联均为用户元组组成的序列,序列中的用户元组按照用户参与信息片段传播的先后顺序排列,用户元组表示信息级联hi上用户在时间参与特定信息片段传播并评论了评论文本

4、在本发明提供的基于多重异质图的社交信息传播者预测方法中,还可以具有这样的特征:其中,多重异质图的表达式为:式中vf为所有用户的集合,ef为根据社交拓扑网络得到的用户间的拓扑边集,ψ为信息传播通路集合,ntopic为互异话题的数量,互异话题为所有用户对应的最偏好话题中各个互不相同的话题,用户的最偏好话题为根据短文本主题模型对该用户对应的评论文本进行处理,得到的隐话题分布中的最偏好的话题分量。

5、在本发明提供的基于多重异质图的社交信息传播者预测方法中,还可以具有这样的特征:其中,图注意力模块包括堆叠的l层包含时间衰减因子的图注意力层,用户嵌入表示为第l层输出的嵌入表示,用户vj在待预测信息级联hi中关键话题k范畴下第l层输出的嵌入表示的计算公式为:式中为经典的图注意力系数矩阵,为用户vj在待预测信息级联hi中关键话题k范畴下的初始特征,和均为话题相关的权重系数矩阵,为时间衰减因子其取值由离散化数值决定,softmax()为非线性激活函数,为注意力系数,为用户vj在待预测信息级联hi中关键话题k下对应的异质拓扑结构特征,为用户vj在待预测信息级联hi中关键话题k下对应的位置信息特征,为用户vj在待预测信息级联hi的位置下标,为预测信息级联hi的长度,为第0层输出的嵌入表示。

6、在本发明提供的基于多重异质图的社交信息传播者预测方法中,还可以具有这样的特征:其中,用户vj在待预测信息级联hi中的融合嵌入表示的计算公式为:式中为用户vj在待预测信息级联hi中第k个关键话题下的用户嵌入表示,为用户vj在训练信息级联集合中的所有的评论文本的话题分布向量的均值的第k个关键话题分量。

7、在本发明提供的基于多重异质图的社交信息传播者预测方法中,还可以具有这样的特征:其中,步骤s5包括以下子步骤:步骤s5-1,构建初始多重异质图模型,并初始化初始多重异质图模型的参数;步骤s5-2,从所有训练信息级联中选取一个训练信息级联作为训练级联;步骤s5-3,将训练级联中待预测用户位置前的部分作为子序列;步骤s5-4,将子序列和多重异质图输入初始多重异质图模型,得到预测概率;步骤s5-5,根据预测概率计算目标损失函数,通过监督信息不断最小化损失函数,并根据目标损失函数计算结果反向更新参数;步骤s5-6,重复步骤s5-2至步骤s5-5,直至初始多重异质图模型收敛或达到最大迭代次数,则将训练好的初始多重异质图模型作为已训练多重异质图模型。

8、在本发明提供的基于多重异质图的社交信息传播者预测方法中,还可以具有这样的特征:其中,用户vj对应的预测概率的计算公式为:式中w2、w1、b1和b2为感知机的参数,为训练级联hi从下标1到位置所组成的子序列,为当前子序列的长度,为基于子序列所计算得到的融合嵌入表示,c为所有训练信息级联的集合,感知机的相邻层之间设置有防止过拟合的dropout层。

9、在本发明提供的基于多重异质图的社交信息传播者预测方法中,还可以具有这样的特征:其中,目标损失函数为交叉熵损失,其计算公式为:式中c为所有训练信息级联的集合,为子序列(1:hi)的长度,为子序列(1:hi)对应的训练信息级联hi的长度。

10、发明的作用与效果

11、根据本发明所涉及的基于多重异质图的社交信息传播者预测方法,因为,一方面,通过短文本主题模型提取用户话题偏好,根据用户话题偏好的相似性构建信息传播通路,以互异话题下的信息传播通路构建多重异质图,从而使多重异质图中包含了各个用户互异精准且动态的话题偏好;另一方面,通过包含时间衰减因子的图注意力机制的图注意力模块学习得到关键话题相关的用户嵌入表示,以话题选择模块和基于用户偏好的用户嵌入表示融合模块来综合考虑待预测信息级联的话题环境影响,从而能够得到较为精准的各个用户在待预测信息级联上进行信息传播的概率。所以,本发明的基于多重异质图的社交信息传播者预测方法能够基于用户话题偏好对用户的传播行为进行预测并得到较为准确的预测结果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1