基于社交网络的主题社团发现方法

文档序号:6536729阅读:808来源:国知局
基于社交网络的主题社团发现方法
【专利摘要】本发明公开了一种基于社交网络的主题社团发现方法,包括步骤:S1、对社交网络的文档集进行主题分析,从而得到主题向量集;S2、对所述主题向量集使用k-means算法进行聚类,从而得到主题簇;S3、对每个所述主题簇进行链接划分,得到每个主题簇的主题社团集。本发明结合基于链接的社团发现算法和主题模型算法提供了一种能够有效和高效地对社团进行主题和链接划分的主题社团发现算法。
【专利说明】基于社交网络的主题社团发现方法
【技术领域】
[0001]本发明涉及数据挖掘领域,尤其涉及基于社交网络的主题社团发现方法。
【背景技术】
[0002]随着社交网络服务(简称SNS)的迅速发展,社交网络已经成为人们获取实时信息的重要来源和进行网络社交的重要平台。近几年里我国社交网络的用户数量在高速增长,这就说明了社交网络在高速发展。同时,社交网络存在大量数据信息,而且数据类型有多种形式,如人际网络,文本,图片,视频和音频等。如何利用这些数据为社交网络用户提供更好的服务已经成为了社交网络分析(Social network analysis)的重要研究方向。社团发现问题是社交网络分析的核心问题之一。由原来的无向图社团发现到现在的核心社团发现,社团发现问题得到了许多扩展,并且新的问题又被提出来。社团发现研究既有丰富的科学理论,又有巨大的商业意义,比如社团发现算法可以对社交网络的人及其人际结构进行分析,并可以向其推荐好友、商品等。
[0003]在社交网络分析时,通常是采集社交网络的文本集,再对文本集进行主题分析,主题分析是通过对文本内容分析并提取出文本中的主题的过程。传统的LDA算法就是对文本集进行主题分析,其中,LDA主题模型涉及到贝叶斯理论、Dirichlet分布、多项分布、图模型、变分推断、EM算法、Gibbs抽样等知识。LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序,这简化了问题的复杂性,同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。
[0004]LDA算法以文档集合作为输入(会有切词,去停用词,取词干等常见的预处理,略去不表),希望训练出两个结果向量,即每个文档文档在主题上的概率,和每个主题在词上的概率。以下就是基于gibbs抽样的LDA算法的伪代码:
[0005]
【权利要求】
1.一种基于社交网络的主题社团发现方法,其特征在于,包括步骤: .51、对社交网络的文档集进行主题分析,从而得到主题向量集; .52、对所述主题向量集使用k-means算法进行聚类,从而得到主题簇;. 53、对每个所述主题簇进行链接划分,得到每个主题簇的主题社团集。
2.如权利要求1所述的基于社交网络的主题社团发现方法,其特征在于,所述步骤SI具体包括步骤: . 511、对所述社交网络的文档集分词,得到文档集中词的总数,并对所述分词后的文档集采用LDA算法进行主题分析,得到每个主题出现在每个文档的概率矩阵以及每个文档的主题总数、每个词出现在每个主题上的次数和每个主题所包含的词的总数;其中,所述概率矩阵中的每一行即为对应的文档在主题上的主题向量,全部的主题向量集合即为所述主题向量集。
3.如权利要求2所述的基于社交网络的主题社团发现方法,其特征在于,所述步骤Sll之后还包括步骤: . 512、当社交网络的文档集更新从而产生新的文档集时,根据所述步骤Sll得到的每个文档的主题总数、每个词出现在每个主题上的次数和每个主题所包含的词的总数,对所述新的文档集中每一个新文档分 词后进行主题分析,从而得到更新后的每个主题出现在每个文档的概率矩阵。
4.如权利要求3所述的基于社交网络的主题社团发现方法,其特征在于,步骤S12中对所述新的文档集中每一个文档执行以下步骤: .5121、对当前新文档进行分词,得到词序列; .5122、所述词序列中的每个词所属的主题服从概率分布Multinomial(1/K),对所述每个词所属的主题进行抽样,并统计每个主题被抽到的次数,将所述每个主题被抽到的次数标记为当前主题的出现次数; 其中,概率分布Multinomial (1/K)具体为p (zn=k) =1/K, ζη表示词η所属的主题,K表示当前新文档的主题总数,k表示主题变量; . 5123、对于所述词序列中的每个词,执行以下步骤:取出当前词所属的主题,并将步骤S122统计的被取出的主题的出现次数减1,则此时当前词所属的主题服从概率分布P(zn|m, α, β),接着对当前词所属的主题进行抽样,并将抽到的主题的出现次数加I ; 其中,
5.如权利要求4所述的基于社交网络的主题社团发现方法,其特征在于,所述参数β =0.10
6.如权利要求4所述的基于社交网络的主题社团发现方法,其特征在于,所述参数α =50/文档数。
7.如权利要求1所述的基于社交网络的主题社团发现方法,其特征在于,所述步骤S3对于每个主题簇进行如下步骤: . 531、将主题簇看作一个无向图,对图中的每个点进行编号; . 532、计算任意两个点的社团链接相似度,找出使一个节点的社团链接相似度最大的另一个节点,若此两个节点的AQ >0,则将此两个节点合并为一个节点; 其中,节点i和节点j的社团链接相似度CLS为:
【文档编号】G06F17/30GK103793501SQ201410033736
【公开日】2014年5月14日 申请日期:2014年1月20日 优先权日:2014年1月20日
【发明者】蔡昭权, 周献政, 黄翰 申请人:惠州学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1