一种基于lda主题模型的osn社区发现方法

文档序号:9547248阅读:472来源:国知局
一种基于lda主题模型的osn社区发现方法
【技术领域】
[0001] 本发明涉及一种利用了隐形狄利克雷分布(Latent Dirichlet Allocation,简称 LDA)主题模型的在线社交网络(Online Social Network,简称0SN)社区发现机制,属于社 会计算领域,特别是社区发现领域。
【背景技术】
[0002] 随着互联网的高速发展,网络由最初的以数据为核心逐渐转变为以人为核心,这 促进了在线社交网络的迅猛发展。在线社交网络区别于传统的人际关系网络,不仅拥有大 规模用户及其好友关系,还拥有大量的用户自发表达的文字信息,这给社区发现工作带来 了新的生机和挑战。
[0003] 传统的社区发现方法主要基于连接,即图的拓扑结构,这种方法通过分析个体之 间的显式连接进行社区划分,所发现的社区内部节点之间连接相对紧密,不同社区之间连 接相对稀疏,但这种方法并没有考虑到用户的主题特性。在微博中,用户的推文通常隐含了 用户的兴趣爱好、行为模式等信息,而自然语言处理中所使用到的主题模型可以将这些因 素考虑在内。

【发明内容】

[0004] 发明目的:针对现有技术中存在的问题,本发明一种基于LDA主题模型的社区发 现方法,在不依靠网络拓扑连接信息的基础上,通过挖掘用户微博语义信息得到相应的概 率模型,同时引入微博内容语义相似性,有效描述了用户兴趣爱好的概率分布情况;引入社 区内部拓扑连接紧密性,挖掘内部拓扑连接相对十分紧密的社区。
[0005] 技术方案:为了解决上述问题,本发明提出一种基于LDA主题模型的OSN社区发现 方法,利用在线社交网络中用户与其好友的关系以及用户自发表达的文字信息进行OSN社 区发现过程,包括如下步骤:
[0006] 1)进行数据集预处理,对原始用户微博文档进行分词、去停顿词、去噪等预处理工 作,具体的,从weibo数据集中抽取每条记录的[uid,text]字段,并根据Uid对所有微博进 行归类,每条记录的格式为[uid,textl ;text2 ;……],使用中科院计算所汉语词法分析系 统ICTCLAS2013版进行分词,在分词过程中,去除停顿词以及对于模型而言没有实际意义 的词语(如URL、标点符号、语气词等),同时去除微博表情符号;对记录用户关系的文档中 的followers数据集进行用户关系双向化处理并剔除没有好友的用户,每条记录的格式为 [user, friendl ;friend2 ;......];
[0007] 2)根据既定社区元素构建LDA主题模型,包括基于社区内部微博内容语义相似性 构建的主题模型LDA-T和基于拓扑连接紧密性构建的主题模型LDA-F,所述LDA-T中词项集 是由用户所有推文中的词项构成的集合,文档集是由所有用户的推文构成的集合,主题为 社区的集合,所述LDA-F中词项集是由用户的所有好友构成的集合,文档集是由所有用户 构成的集合,主题是社区的集合;
[0008] 3)根据步骤2得到的模型LDA-T和LDA-F,对文档下主题概率分布以及主题下 词项概率分布施加 Dirichlet分布,生成基于超参数的联合概率分布p (w",Zni, θ η,Φ I α, β),其中,α和β是Dirichlet分布的超参数,wm表示第m篇文档中所有词项的集合,zm 表示第m篇文档中所有词项对应的主题的集合,θ n表示第m篇文档的主题概率分布,Φ表 示所有主题下的词项概率分布的集合;
[0009] 4)根据步骤3得到的联合概率分布,利用吉布斯采样算法估计给定文档时主题的 概率分布Θ JP给定主题时词项的概率分布
[0010] 5)根据步骤4得到的参数获取社区。
[0011] 所述步骤2中LDA模型中文档的生成过程和参数约定为:
[0012] 1)对每个主题k e [1,Κ],采样主题k的词项概率分布
[0013] 2)对每个文档m e [1,Μ],采样文档m的主题概率分布Θ n~Dir ( α );
[0014] 3)对每个文档m e [1,Μ],采样文档m的长度Nni~Poiss( ξ );
[0015] 4)对每个文档m中的词项n e [I,NJ,选择隐含的主题Zni,n~Mult ( θ n),生成一 个词项
[0016] 其中,Nni表示第m篇文档所包含的词项数,K表示主题数目,M表示文档数目,α、 β、ξ为概率分布的参数。
[0017] 所述步骤3生成的联合概率分布为:
[0019] 其中,Wni表示第m篇文档中所有词项的集合,Zni表示第m篇文档中所有词项对应 的主题的集合,S ni表示第m篇文档的主题概率分布,Φ表示所有主题下的词项概率分布的 集合,α和β是Dirichlet分布的超参数,w m,n表示第m篇文档的第η个词项,zm.n表示第 m篇文档中第η个词项所对应的主题,Nni表示第m篇文档所包含的词项数。
[0020] 所述步骤4中,对LDA模型运用吉布斯采样算法,需要由已知的词项集丨巧、先验 Dirichlet分布的参数α,β以及主题数K最终求得给定文档时主题的概率分布Θ和给 定主题时词项的概率分布免,其计算方法为:
[0023] 其中,0n,k表示给定文档m时主题为k的概率,η=表示主题k在文档m中出现的 次数,α =〈a ^ α2,…,am〉为M维的Dirichlet分布的超参数,ak为正实数,反映了 对参数Θ "的先验知识,K为文档m中主题的个数;£表示给定主题k时词项为t的概率, JiP表示词项t在主题k中出现的次数,β .",0k〉为K维的Dirichlet分布 的超参数,β 正实数,反映了对参数iPfc的先验知识,V为主题k中词项的个数。
[0024] 有益效果:本发明采用如上技术方案,具有如下优点:
[0025] 1)引入微博内容语义相似性,有效描述了用户兴趣爱好的概率分布情况;
[0026] 2)引入社区内部拓扑连接紧密性,挖掘内部拓扑连接相对十分紧密的社区;
[0027] 3)利用主题模型改进传统的社区发现方法,在不依靠网络拓扑连接信息的基础 上,通过挖掘用户微博语义信息得到相应的概率模型;
[0028] 4)利用吉布斯采样算法,对模型进行参数估计,与变分推理和EM算法这两种用于 参数估计的算法相比,能够较为简单、快速地处理复杂分布的情况;
[0029] 5)引入数据集预处理机制,保证了社区发现结果的准确度。
【附图说明】
[0030] 图1为本发明的LDA主题模型图;
[0031] 图2为本发明的吉布斯采样算法流程图;
[0032] 图3为本发明的社区发现流程图。
【具体实施方式】
[0033] 下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明 而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等同 变换均落于本申请所附权利要求所限定的范围。
[0034] -种基于LDA主题模型的OSN社区发现方法,首先进行数据集预处理;再利用在 线社交网络中用户与其好友的关系以及用户自发表达的文字信息建立LDA主题模型(包括 LDA-F模型和LDA-T模型),求解模型概率分布;然后利用吉布斯采样算法进行参数估计; 最后根据估计的参数进行OSN社区发现,具体包括如下步骤:
[0035] 1)进行数据集预处理:
[0036] I. I) LDA-F模型的数据集预处理
[0037] 由于LDA-F模型所定义的好友关系必须是双向边,因此在这里需对followers 数据集进行用户关系双向化处理,并剔除没有好友的用户,每条记录的格式为 [user, friendl ;friend2 ;......];
[0038] I. 2) LDA-T模型的数据集预处理
[0039] 从weibo数据集中抽取每条记录的[uid, text]字段,并根据uid对所有微博进行 归类,每条记录的格式为[uid, textl ;text2 ;......];对LDA-T模型的语料库使用中科院计 算所汉语词法分析系统ICTCLAS2013版进行分词,在分词过程中,去除停顿词以及对于模 型而言没有实际意义的词语(如URL、标点符号、语气词等),同时去除微博表情符号。
[0040] 2)求解模型概率分布:
[0041] 基于社区内部微博内容语义相似性构建的主题模型LDA-T和基于社区内部拓扑 连接紧密性构建主题模型LDA-F同属于LDA模型。
[0042] 在基于社区内部微博内容语义相似性构建的主题模型LDA-T中,词项集是由用户 所有推文中的词项构成的集合,文档集是由所有用户的推文构成的集合,主题为社区的集
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1