一种基于社区发现的微博群体识别方法与流程

文档序号:36232826发布日期:2023-12-01 07:19阅读:56来源:国知局
一种基于社区发现的微博群体识别方法与流程

本发明涉及社交网络数据分析,尤其涉及一种基于社区发现的微博群体识别方法。


背景技术:

1、当前,以新浪微博为代表的网络社交媒体已成为我国最主流的网络社交平台,用户基数广泛,舆论影响力深远。截至2021年9月,微博的月活用户达到5.73亿,平均日活跃用户为2.48亿。由微博官方发布《2020微博用户发展报告》显示,微博用户群体继续呈现年轻化趋势,其中90后和00后的占比接近80%。大量青年微博用户群体代表着当下中国互联网最为主流和广大的互联网声音,是我国网络意识形态稳定工作的重中之重。

2、微博网络中的社区是由具有相同或相似兴趣爱好的用户组成的,可以分享并交流信息的子团体.由于微博网络具有用户规模大、节点的度分布不均匀、弱社交网络等特点,传统的社区发现算法应用于微博网络具有局限性,而基于概率主题模型的社区发现算法不仅适用于大规模网络,而且能够将微博网络中节点的语义信息和微博网络拓扑结构融合,主要的概率主题模型有lda(latent dirichlet allocation),atm(author topic model)等。


技术实现思路

1、本发明的目的在于:为了解决上述问题,而提出的一种基于社区发现的微博群体识别方法。

2、为了实现上述目的,本发明采用了如下技术方案:

3、一种基于社区发现的微博群体识别方法,包括以下步骤:

4、s1、数据收集与清洗,从具有@关系的博文中抽取用户之间的关系形成用户图,对中文语料进行分词,利用分词工具对微博数据进行去停用词、清洗数据以及中文分词等操作完成数据预处理;

5、s2、特征提取与表示,构建特定群体的特征指标,通过采集微博公开内容,从内容、行为等属性中提取相关特征,基于新浪微博数据集,通过人工标志构建训练集和测试集;

6、s3、建立分类模型,利用优化的动态主题模型dtm来挖掘微博社区中的特定群体,将微博网络映射为有向加权网络,结合标签传播算法lpa进行社区发现,识别出社交关系网络中固有的社区结构;

7、s4、社群标签和影响力分析,依据用户的粉丝影响力进行求和加权计算,计算用户影响力值,体现社区群体的影响关系。

8、优选地,所述识别方法基于有向加权网络的标签传播算法lpa进行社区发现,算法如下:

9、输入:有向网络g(v,e),权重参数d,网络总节点数n;

10、输出:社区c(v,e);

11、具体分为以下四个步骤:

12、a)初始化网络g中所有节点ui的标签,依次为每个节点分配标签li,迭代次数t=1;

13、b)随机排列网络中的节点,生成序列x;

14、c)按照x中顺序,对每个节点ui更新标签,由拥有标签li的节点ui的邻居节点构成社区集c0,如果存在多个标签情形,则随机选择一个;

15、d)如果社区集c0每个节点具有的标签li都是其邻居节点中出现次数最多的标签,则认为社区达到稳定状态,迭代结束,得到社区ci,否则令迭代次数t=t+1,转到步骤b。

16、优选地,所述用户影响力值通过以下公式计算:

17、

18、其中inf为用户影响力值,s为用户属性特征值,b为用户行为值,j为用户粉丝集合,d为系数(0,1)。

19、综上所述,由于采用了上述技术方案,本发明的有益效果是:

20、1、本申请通过利用优化的动态主题模型dtm(dynamic topic model)来挖掘微博社区中的特定群体,利用选取近一年的微博博文作为研究对象,将不同作者博文的主题相似度作为作者之间链接的权重,将微博网络映射为有向加权网络,结合标签传播算法lpa(label propagation algorithm)进行社区发现,识别出社交关系网络中固有的社区结构,本发明对微博网络的用户关系进行深入分析,基于用户产生内容特征、用户关联关系特征、环境特征的识别方法,对潜在主题进行挖掘,找出兴趣相似的用户以及特定领域的活跃用户群体。



技术特征:

1.一种基于社区发现的微博群体识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于社区发现的微博群体识别方法,其特征在于,所述识别方法基于有向加权网络的标签传播算法lpa进行社区发现,算法如下:

3.根据权利要求1所述的一种基于社区发现的微博群体识别方法,其特征在于,所述用户影响力值通过以下公式计算:


技术总结
本发明公开了一种基于社区发现的微博群体识别方法,包括以下步骤:S1、数据收集与清洗;S2、特征提取与表示;S3、建立分类模型;S4、社群标签和影响力分析。本发明中,通过利用优化的动态主题模型DTM来挖掘微博社区中的特定群体,利用选取近一年的微博博文作为研究对象,将不同作者博文的主题相似度作为作者之间链接的权重,将微博网络映射为有向加权网络,结合标签传播算法LPA进行社区发现,识别出社交关系网络中固有的社区结构,本发明对微博网络的用户关系进行深入分析,基于用户产生内容特征、用户关联关系特征、环境特征的识别方法,对潜在主题进行挖掘,找出兴趣相似的用户以及特定领域的活跃用户群体。

技术研发人员:张琛,秦志鹏,王鹏
受保护的技术使用者:国家计算机网络与信息安全管理中心
技术研发日:
技术公布日:2024/1/16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1