信息传播主题感知的影响用户预测方法

文档序号:34730377发布日期:2023-07-08 00:10阅读:34来源:国知局
信息传播主题感知的影响用户预测方法

本发明属于信息传播与预测技术,特别涉及传播影响用户预测技术。


背景技术:

1、互联网的迅速发展使得网络中的信息能够飞速的传播。微博、微信等社交平台,淘宝、京东等电商平台成为了人们日常生活信息的主要来源。一方面对于正面的信息,比如商品信息,探索其传播规律可以帮助商家找到潜在的消费者从而实现精准营销;另一方面对于不良信息的传播,比如谣言等,研究这些信息传播预测有助于网络监管方提前找到潜在的受害者或者有不良意图的用户。近年来越来越多的研究者开始聚焦于信息传播规律的研究。比如yang c,tang j,sun m,cui g,liu z.“multi-scale information diffusionprediction with reinforced recurrent networks”.in ijcai,pp.4033-4039,2019aug10.提出使用循环神经网络(rnns)来实现信息传播的微观(传播用户)和宏观(传播规模)多个尺度的预测。wang h,yang c,shi c.“neural information diffusion predictionwith topic-aware attention network”in proceedings of the 30th acminternational conference on information&knowledge management,pp.1899-1908,2021oct 26.提出基于注意力机制的主题感知信息传播预测模型。sun,ling,yuan rao,xiangbo zhang,yuqian lan,and shuanghe yu."ms-hgat:memory-enhanced sequentialhypergraph attention network for information diffusion prediction."(2022).考虑等用户的全局依赖以及个性化还有消息传播的动态性提出了一个记忆增强的顺序超图注意网络来预测信息传播的下一个受影响用户。然而,上述方案还存在以下问题:

2、(1)信息传播的主题极少被考虑,即使被考虑也没有人提出如何提取较清晰、能代表语义的主题提取方法。

3、(2)信息在用户网络中传播的特殊性。过去的预测方法过于关注信息传播的时间动态特征,却忽略了传播信息的载体——网络,其本身比如异质性、用户交互稀疏性等特征。这使得一些简单的序列建模方法比如基于rnn或者注意力机制的方法本身不足以捕捉这些信息传播的规律。

4、(3)已有的信息传播预测方法实用性很差,对于用户和网络中节点的表征不在同一特征空间,这种信息传播建模方式不符合实际的信息传播规律,因此也难以应用到实际场景中。


技术实现思路

1、本发明针对目前的信息传播预测模型忽略了真实的信息传播网络本身的稀疏性,以及用户对于不同主题新闻具有不同的敏感程度的情况,所要解决的技术问题是,提供一个能够感知所传播信息的主题,同时考虑信息传播载体网络的异质性且实用性更强的信息主题感知的传播影响用户预测方法。

2、本发明为解决上述技术问题所采用的技术手段是,信息传播主题感知的影响用户预测方法,包括以下步骤:

3、s1、基于改进的神经网络的主题模型lda的新闻事件主题提取:

4、不同的用户对不同事件的主题兴趣程度不同,因此我们考虑首先选定用户可能感兴趣的主题事件。我们使用一个改进的lda作为事件主题提取模型提取新闻的主题。与现有的主题感知方法相比,lda虽然是简单的词袋模型,但是能够较精准、快速的提取文本的主题。因此,我们拟使用与lda类似的模式获取新闻事件的主题。

5、具体的,假设我们最终输出k个主题,主题集合表示为t,总共需要考虑m个新闻文本的主题,事件主题提取模型的优化目标ji如下:

6、

7、其中,perplexity(newsi)表示数据集中第i个新闻newsi的主题困惑度,主题困惑度为现有lda模型的指标,zi,j表示模型对新闻newsi中出现单词wj的估计概率,同理zi,j+1表示新闻中和wj紧邻的词wj+1的概率,上式的第二项表示两个相邻词单词wj与wj+1的共现概率带来的损失,实施例将其简称为共现损失。模型的最后一项表示最终所有主题集合中任意两个主题a,b间的互信息i(a,b)。在事件主题提取模型的训练过程中,我们通过最小化上述ji来保证模型获取主题困惑度最小且保证保留上下文信息与每个主题尽量带来更多信息的主题。

8、改进的lda通过保证相邻的两个词的共现概率来保证最终提取的主题关注上下文信息,从而解决:文本上下文间实际存在语义关联,然而传统的lda假设各个词的间相互独立。另外,优化目标除了传统lda中的困惑度方面的优化,模型还通过最小化不同主题分布的互信息来实现不同主题的区分,从而解决传统主题提取模型提取结果各个主题存在混淆不清的情况,即不同的主题中通常混有相同的词。

9、事件主题提取模型的训练步骤如下:

10、(1)初始化超参数α,β;

11、(2)利用参数α随机初始化k个主题的词分布tw,其中d表示整个数据集中所有词的个数。tw的任意一行表示为tw,tw~dir(α),其中dir(α)表示迪利克雷分布。tw是深度模型需要学习和更新的参数。

12、(3)事件主题提取模型利用输入每个训练的新闻文本newsi获取主题分布估计dt以及主题的词分布tw,重复执行本步骤直至优化目标ji基本收敛时停止事件主题提取模型训练;具体为:对于每个训练的新闻文本newsi,计算各个词的出现频率ρi,并利用利用β随机初始化一个当前新闻文本newsi的文本-主题分布θi,随后估计在当前主题-词和文本-主题分布下各个词可能出现的概率,获取模型对新闻newsi的所有词的词频估计为zi=θi×tw,估计当前的困惑度、共现损失和互信息。根据事件主题模型的优化目标ji使用随机梯度下降优化模型参数。zi作为整个数据集上各个词在各个文档中出现的概率分布z的第i行,z=dt×tw,dt为主题分布估计。模型对新闻newsi的所有词的词频估计为zi=θi×tw。zi为z的第i行,θi为dt的第i行。

13、(4)重复执行上一步直至优化目标ji基本收敛时停止模型训练。

14、(5)输出模型对所有新闻文本的主题分布估计dt和各个主题的词分布tw。

15、主题事情传播预测模型通过以下步骤实现:

16、s2、基于事件主题构建异质信息传播图,一方面该图排除了当前网络中无关用户的影响,另一方面将所有可能对当前主题感兴趣的用户锁定在了一个较小的子图范围内。

17、具体为:

18、(1)构建事件主题异质图g=(v,e),该图中包含三类节点:用户节点集合u,新闻节点r,主题节点t。事件主题异质图g包含两种类型的边:用户和新闻节点之间的边,这种边表示用户与该新闻存在交互,边的权值为交互次数;新闻与主题节点之间的边,该类边表示当前新闻属于该主题,该类边的权值为dt矩阵中对应位置的值。

19、(2)对于新闻newsi,假设主题提取模块其主题分布为θi,我们取该分布中值靠前主题作为当前事件传播的主要主题,比如,选择θi中最大的前10个主题作为当前事件传播的主要主题,将这个主题集合表示为t*。

20、(3)在g中以t*中的主题为种子节点采样种子节点的所有邻居新闻节点,表示为集合r*和以及和这些新闻相关的用户节点表示为集合u*,从而构成当前主题的子图g*,g*中包含的用户节点即为信息传播的候选用户u*,g*对应的邻接矩阵作为图卷积神经网络gcn的一个输入。

21、s3、获取s2中异质图的各类节点在同一隐空间上的表示。

22、具体为:

23、(1)获取新闻相关的词表征。首先利用开源的bert预训练的词向量来获取词典中所有词的表示;

24、(2)然后利用词和主题之间的分布关系获得各个主题的语义表示;每个主题选取排名靠前的词作为代表词汇,聚合过程中聚合代表词汇的预训练词向量,结果作为该主题的表示;本实施例使用选取排名靠前的15个词作为代表词汇;

25、(3)再然后使用主题与新闻间的分布概率、以及新闻与用户间的交互关系分布获得新闻和用户的语义表示并输出至gcn的另一个输入端;

26、s4、基于图卷积神经网络gcn模拟主题事件在网络中的传播过程,并获取目标新闻和候选用户的高阶表示:gcn以步骤s2中所获取的异质子图网络拓扑结构和s3中所获取的各类节点在同一隐空间上的节点特征为输入,输出目标新闻和候选用户的高阶表示htarget和h*,

27、s5、以求内积的方式计算目标新闻和候选用户的高阶表示之间的相似程度s,并以此为依据对候选用户进行排序,选中分数最高的前c个用户作为预测结果。高阶表示与高阶表示之间的相似程度的计算方式为gcn常用技术,不在此赘述。

28、通过步骤s2-s5,将信息传播影响用户预测问题转换成了多分类问题,主题事情传播预测模型使用交叉熵损失作为优化目标,并使用随机梯度下降sgd来更新模型的参数。

29、本发明通过步骤s1解决背景技术提出的问题(1),通过步骤s2解决背景技术提出的问题(2),通过步骤s3解决背景技术提出的问题(3),做到在复杂网络环境中实现信息主题感知的传播影响用户预测,并尽可能的模拟真实场景中的信息传播保证预测精度。

30、本发明的有益效果:引入了一种主题不混淆并且考虑上下文语义关联的主题提取新方法,并利用该方法实现信息主题感知的传播预测,具备以下优点:

31、1、本发明提出了一个能够感知信息传播主题的信息影响用户预测方法。该方法通过将信息传播的范围定位在一个较小的、对同一主题感兴趣的候选用户中,从这些候选用户中预测可能被影响的用户,相比以往的信息传播预测模型有更高的效率和实用性。

32、2、本发明所提的主题提取模型是基于神经网络的lda改进模型,相比以前的主题提取模型能够提取更清晰、考虑文本上下文且具有代表性的主题,以及主题词。

33、3、本发明将信息传播的网络载体建模为一个包含用户、新闻、主题的异质信息网络,这更符合实际信息传播的情况。而且,与以往的信息传播预测模型不同,我们将异质网络中的节点特征转换到了同一特征空间,这保证了在信息传播的模拟过程中,尽可能地与传播的信息本身相关,避免了融入更多无关噪音。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1