一种基于人际传播的Twitter社交信息传播路径生成方法

文档序号:35164420发布日期:2023-08-18 12:42阅读:49来源:国知局
一种基于人际传播的Twitter社交信息传播路径生成方法

本发明属于网络空间大数据信息服务,具体涉及一种基于人际传播的twitter社交信息传播路径生成方法。


背景技术:

1、随着信息化时代下互联网技术的飞速发展及计算机设备和智能手机等便携式移动终端的普及,网络在线社交已经成为了许多人日常生活不可或缺的重要组成部分。而社交网络平台则是人们进行网络在线社交的重要工具。

2、目前,用户体量较大的社交网络平台包括:微博(weibo)、推特(twitter)和脸书(facebook)等。其中,推特在全世界都非常流行,截至2020年的第三季度,推特的日活跃用户量已经达到了1.87亿,而其中所传播的巨大信息流也为社交网络中信息传播规律的研究提供了数据支撑。推特官方为了对研究者们对社交网络中的信息传播研究提供便利,也提供了相应的数据采集接口,这为推特中的信息传播路径生成方法的研究提供了基础。

3、德国学者马莱兹克于1963年在《大众传播心理学》中所提出的“马莱兹克关于大众传播过程的系统模式”综合考虑了信息、媒介以及从个体到社会层面的多种因素对信息传播过程的影响。因此,其对于信息传播路径生成方法的研究有着重要的指导意义。

4、社交网络中的信息传播路径生成方法研究的是指定时刻信息的传播路径仿真模拟问题。目前,有关社交网络中信息传播路径生成的相关研究主要通过构建传播模型实现,有两大类研究方向:基于时间序列的信息传播建模和基于数据驱动的信息传播建模。

5、基于时间序列的信息传播建模主要有独立级联模型(ic模型)和sis模型;独立级联模型(ic模型)传播模型中的节点只有两种状态,激活态(a)和未激活态(i)。信息传播的初始状态仅有一部分节点处于激活态,而随着时间的推移,处于激活态的节点会有一次机会去尝试激活它的未激活邻居。如果在某一次传播过程结束后没有新的节点被激活时整个传播过程结束;sis模型传播模型中节点只有两种状态,易感态(i)和感染态(s)。sis模型中考虑了节点从感染态恢复为易感态的可能,因此随着时间的推移整个网络中处于感染态的节点数并不会越来越多而是和易感态节点数处于一个相对平衡的状态。该传播模型主要用于模拟考虑了用户从疾病中恢复但仍可能患病条件下疾病在人群中的传播。并且在实际的传播建模过程中sis传播模型需要约束整个网络的拓扑结构不会随时间变化。

6、基于数据驱动的信息传播建模主要有嵌入级联模型和huce模型;嵌入级联模型的特点是通过将用户投影到欧几里得空间,随后利用sigmoid函数计算传播概率,最后,应用期望最大化算法对传播关系进行预测的方法;huce模型是一种基于表示学习的传播模型,它通过结合用户和传播信息的特征及其交互作用来建模用户的转发行为。

7、上述提到的基于时间序列的信息传播建模方法的主要缺陷在于在传播建模过程中对用户属性和信息属性等因素考虑的不足,而在现实的信息传播过程中,例如用户对不同主题信息的偏好程度以及信息内容的主题分布都是影响信息能否被当前用户所接收的重要因素。基于数据驱动的信息传播建模方法拥有从输入数据中自动提取并构建相关特征的优势,但这样的机制也可能导致提取到过多的不相关特征进而产生过拟合问题。


技术实现思路

1、为解决上述技术问题,本发明提出了一种基于人际传播的twitter社交信息传播路径生成方法,通过提出一种全新的人际传播模式,结合社交网络人际传播的信息传播规律和马莱兹克关于大众传播过程的系统模式,进一步基于该模式给出twitter社交网络中的人际传播规律,以此为基础生成twitter社交信息在社交网络中随时间变化的传播路径。

2、本发明的技术方案为:一种基于人际传播的twitter社交信息传播路径生成方法,具体步骤如下:

3、s1、采集twitter相关数据;

4、s2、构建twitter信息传播的关注网络;

5、s3、构建社交网络的人际传播模式;

6、s4、对人际传播模式中的特征进行属性建模并计算传播概率;

7、s5、根据传播概率生成新的传播路径并进一步对传播路径进行更新。

8、进一步地,所述步骤s1具体如下:

9、根据twitter所提供的数据采集接口采集特定地区的用户数据、用户间的关注关系、用户所发布的历史推文以及特定主题的推文信息数据。

10、进一步地,所述步骤s2具体如下:

11、(1)对步骤s1采集到的数据进行过滤,确定一部分信息传播的源用户加入网络节点集,随后将所有源用户对多条指定推文有过转发行为的关注者加入网络节点集;

12、(2)采集现有网络节点集中所有节点的关注者列表,随后删除其中已在网络节点集中的部分并进行多次不放回的随机采样,并将采样后得到的对象加入网络节点集,且采样的次数等同于未采样前网络节点集中的节点数目;

13、(3)根据用户间的关注关系构建连边,得到完整的信息传播关注网络。

14、进一步地,所述步骤s3具体如下:

15、根据社交网络中人际传播条件下的信息传播特点对马莱兹克关于大众传播的系统模式进行改进,删除原有传播模式中与人际传播不相关的因素,包括:传播者的自我印象、传播者的组织、传播者的人员群体、传播者的社会环境、来自公众的压力和制约、接收者所处的受众群体、接收者的社会环境,以及原有传播模式中传播者和接收者的自我印象;并进一步结合实际情况将信息传播热度因素考虑到信息传播的过程中,最终构建出社交网络中的人际传播模式。

16、进一步地,所述步骤s4具体如下:

17、s41、用户和推文关键词向量的构建及相关特征的建模;

18、构建用户和推文关键词向量,首先,对原推文中的符号用空格进行替换,这些符号包括:'\!"#$&()*+,-./:;<=>?@[\\]^_{|}·~‘’',随后采用python的nltk.tokenize模块中的word_tokenize方法对twitter信息传播的关注网络中所有用户的历史推文以及传播推文的内容进行分词和提取,再通过nltk.wordnet模块中的synsets方法去除分词中的非法词并采用nltk.corpus中的stopwords集合判断分词是否为停用词以对当前分词结果进行过滤,最终得到对应的有效关键词集合。

19、统计有效关键词集合中的每个关键词被多少twitter信息传播的关注网络中的用户的历史推文提及过,保留其中被提及次数大于该网络总用户数1%的所有关键词,得到对应的词袋。

20、根据词袋中对应的关键词数目n,分别构建维度为1×n的用户关键词向量和推文关键词向量。其中每个位置的元素分别表示了当前关键词在用户历史推文中的出现频率和在传播推文中的出现频率。

21、s42、推文信息随时间变化的传播热度因子的建模;

22、考虑传播者的传播能力以及上一轮传播结束时所对应的传播路径对推文信息随时间变化的传播热度的影响,传播者的传播能力对信息传播热度的影响反映为时间热度因子,传播路径对信息传播热度的影响反映为结构热度因子。

23、时间热度因子的建模考虑用户对推文信息的传播能力随时间衰减的特性,其具体计算式如下:

24、

25、其中,t表示当前的传播轮次;ts表示传播者节点被激活的传播轮次;ti表示传播者传播影响力持续的传播轮次;α表示衰减率,其大小体现了传播者对信息的传播能力随时间衰减的快慢。

26、结构热度因子的计算方法具体如下:

27、1)将初始时刻,即信息刚开始从源节点传播时的信息传播热度置为1.0;

28、2)根据当前信息的传播热度模拟传播,传播结束后获得对应的传播路径;

29、3)将传播路径作为graph2vec模型的输入,随后将其输出的图嵌入向量作为多层神经网络的输入,对其进行降维输出,最终得到下一个传播时间轮次的结构热度因子;

30、4)根据传播轮次判断传播是否已经结束,如果没有结束则返回步骤2)。

31、s43、计算推文信息传播概率;

32、基于步骤s41的属性向量和步骤s42的传播热度因子计算方法,在社交网络的人际传播模式指导下,得到计算人际传播模型个体间传播概率的方法,具体如下:

33、

34、f(gpre,t,ts)=fw(gpre)×is(t,ts) (3)

35、其中,psa表示传播者vs将推文信息通过关注边成功传递给受传者va并进一步导致其转发推文的概率;uniformeucst表示传播者属性向量和推文关键词向量归一化后的欧拉距离,uniformeucat表示受传者属性向量和推文关键词向量归一化后的欧拉距离;uniformeucst和uniformeucat的倒数分别表示传播者和受传者对推文所包含关键词的感兴趣程度,反映传播者受到来自信息内容的制约后的传播倾向以及受传者对信息内容进行体验过后的接收倾向;eucsa的倒数表示的是传播者和受传者对彼此的个人印象对信息传播的贡献;fscaling表示一个可根据训练目标自行调控的参数,主要用于对传播概率进行放缩。

36、f(gpre,t,ts)表示推文信息传播过程中的热度因子,由两部分组成;is(t,ts)表示由于传播者的传播能力随时间下降对推文传播热度造成影响的时间热度因子;fw(gpre)表示上一轮传播结束时的传播路径对推文传播热度造成影响的结构热度因子。

37、其中,gpre表示上一轮传播结束时对应的传播路径,若是传播的初始时刻,则fw(gpre)取1.0。

38、进一步地,所述步骤s5具体如下:

39、比较所有可能发生传播行为的关注边所对应的传播概率与当前生成随机数的大小判断信息的传播是否成功,如果传播成功则在原有传播路径的基础上进行更新,否则不更新原有传播路径。

40、比较结束后,进一步判断判断当前的传播轮次是否达到最大传播轮次,如果没有,则返回步骤s4,直至达到最大传播轮次,得到最终生成的信息传播路径。

41、其中,可能发生传播行为的关注边指的是被关注者处于已传播推文状态而关注者处于未传播推文状态并且当前传播轮次与被关注者节点被激活的传播轮次之差小于ti的关注边。

42、最后,指定推文信息的传播时间为80小时,并规定每2个小时为一个传播轮次,生成推文信息从发布者节点开始往后40个传播轮次随时间变化的传播路径。

43、本发明的有益效果:本发明的方法首先采集twitter相关数据用于构建twitter信息传播的关注网络,再通过构建社交网络的人际传播模式,对人际传播模式中的特征进行属性建模并计算传播概率,最后根据传播概率生成新的传播路径并进一步对传播路径进行更新。本发明的方法以社交网络中信息传播特点和马莱兹克关于大众传播的系统模式为引导,解决了现有基于时间序列的信息传播建模方法中对用户属性和信息属性等因素考虑不足的问题,且依据传播学教程和马莱兹克关于大众传播的系统模式中有关人际传播的特征进行了信息传播的建模,能够有效防止不相关特征的引入,相比于现有方法能更好地反映推文信息的累计传播规模随时间的变化情况。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1