一种基于lda主题模型的osn社区发现方法_2

文档序号：9547248阅读：来源：国知局

合；在基于社区内部拓扑连接紧密性构建的主题模型LDA-F中，词项集是用户的所有好友构成的集合，文档集是由所有用户构成的集合，主题是社区的集合。
[0043] 对于有M个文档和K个主题的LDA模型，具体的LDA模型中文档的生成过程和参数约定为：
[0044] 2. 1)对每个主题k e [1，K]，采样主题k的词项概率分布％~&>(〇
[0045] 2. 2)对每个文档m e [1，M]，采样文档m的主题概率分布Θ n~Dir ( α );
[0046] 2. 3)对每个文档m e [1，Μ]，采样文档m的长度Nni~Poiss( ξ );
[0047] 2· 4)对每个文档m中的词项n e [1，NJ，选择隐含的主题Zni,n~ Mult( θ n)，生成一个词功
[0048] 其中，Nni表示第m篇文档所包含的词项数，α、β、ξ为概率分布的参数。
[0049] 根据生成的LDA模型文档，对文档下主题概率分布以及主题下词项概率分布施加 Dirichlet分布，生成基于超参数的联合概率分布ρ (wm，zm，Θ m，Φ I α，β ):
[0051] 其中，Wni表示第m篇文档中所有词项的集合，Zni表示第m篇文档中所有词项对应的主题的集合，S ni表示第m篇文档的主题概率分布，Φ表示所有主题下的词项概率分布的集合，α和β是Dirichlet分布的超参数，w m,n表示第m篇文档的第η个词项，zm.n表示第 m篇文档中第η个词项所对应的主题，Nni表示第m篇文档所包含的词项数。
[0052] 3)利用吉布斯采样进行参数估计：
[0053] 利用吉布斯采样算法由主题变量z估计参数Θ和私，对于一个LDA模型运用吉布斯采样算法，需要由已知的词项集彳宙}、先验Dirichlet分布的参数α，β以及主题数K最终求得待估计参数Θ和，其中Θ为给定文档时主题的概率分布，其计算方法见公式2, P 为给定主题时词项的概率分布，其计算方法见公式3 :
[0056] 其中，0n,k表示给定文档m时主题为k的概率，表示主题k在文档m中出现的次数，α =〈a ^ α2，…，am〉为M维的Dirichlet分布的超参数，ak为正实数，反映了对参数Θ "的先验知识，K为文档m中主题的个数；表示给定主题k时词项为t的概率， nf表示词项t在主题k中出现的次数，β 为K维的Dirichlet分布的超参数，PtS正实数，反映了对参数納fc的先验知识，V为主题k中词项的个数。具体的吉布斯采样的算法如下：
[0057] 3. 1)初始化全局变量nf、nf、叫和!^，其中，？if表示词项t在主题k中出现的次数，表示主题k在文档m中出现的次数，叫为的总和，Iini为的总和；
[0058] 3. 2)对于每个文档m e [1，M]中的词项n e [l，Nm]，采样主题zm,n= k~Mult(l/ κ)，使全局变量
分别作自增运算；
[0059] 3. 3)跳转至步骤3. 2直至循环遍历所有文档，循环遍历结束后跳转至步骤3. 4开始迭代；
[0060] 3. 4)对于每个文档m e [1，Μ]中的词项n e [1，NJ，使全局变量
Hni分别作自减运算，之后采样主题
再使全局变量
分别作自增运算；
[0061 ] 3. 5)跳转至步骤3. 4直至达到迭代次数I。
[0062] 此外，步骤3. 4中提至Ij的

是LDA模型的吉布斯采样公式。
[0063] 4)根据得到的参数--给定文档时主题的概率分布Θ |〇在LDA-T模型和LDA-F模型中的实际意义，可知参数Sni的实际意义均为给定用户时社区的概率分布，由此获得以概率分布形式表不的社区。
【主权项】
1. 一种基于LDA主题模型的OSN社区发现方法，其特征在于，利用在线社交网络中用户与其好友的关系以及用户自发表达的文字信息进行0SN社区发现过程，包括如下步骤： 1) 进行数据集预处理，对原始用户微博文档进行分词、去停顿词、去噪等预处理工作，对记录用户关系的文档中的followers数据集进行用户关系双向化处理并剔除没有好友的用户； 2) 根据既定社区元素构建LDA主题模型，包括基于社区内部微博内容语义相似性构建的主题模型LDA-T和基于拓扑连接紧密性构建的主题模型LDA-F，所述LDA-T中词项集是由用户所有推文中的词项构成的集合，文档集是由所有用户的推文构成的集合，主题为社区的集合，所述LDA-F中词项集是由用户的所有好友构成的集合，文档集是由所有用户构成的集合，主题是社区的集合； 3) 根据步骤2得到的模型LDA-T和LDA-F，对文档下主题概率分布以及主题下词项概率分布施加Dirichlet分布，生成基于超参数的联合概率分布p(wm,zm,Θm，Φ|α，β)，其中，α和β是Dirichlet分布的超参数，Wni表示第m篇文档中所有词项的集合，Ζηι表示第 m篇文档中所有词项对应的主题的集合，θη表示第m篇文档的主题概率分布，Φ表示所有主题下的词项概率分布的集合； 4) 根据步骤3得到的联合概率分布，利用吉布斯采样算法估计给定文档时主题的概率分布Θjp给定主题时词项的概率分布 5) 根据步骤4得到的参数获取社区。2. 根据权利要求1所述的基于LDA主题模型的0SN社区发现方法，其特征在于，所述步骤1去除的噪声包括URL、标点符号、语气词和表情符号。3. 根据权利要求1所述的基于LDA主题模型的0SN社区发现方法，其特征在于，所述步骤2中LDA模型中文档的生成过程和参数约定为： 1) 对每个主题ke[1，K]，采样主题k的词项概率分布 2) 对每个文档me[1，Μ]，采样文档m的主题概率分布Θn~Dir(α); 3) 对每个文档me[1，Μ]，采样文档m的长度Nm~Poiss(ξ); 4) 对每个文档m中的词项ne[1，NJ，选择隐含的主题Zni,n~Mult(0 n)，生成一个词项冰姐沐~M'uZf(史); 其中，N"表示第m篇文档所包含的词项数，K表示主题数目，Μ表示文档数目，α、β、ξ为概率分布的参数。4. 根据权利要求3所述的基于LDA主题模型的0SN社区发现方法，其特征在于，所述步骤3生成的联合概率分布为：其中，I表示第m篇文档中所有词项的集合，Ζηι表示第m篇文档中所有词项对应的主题的集合，θη表示第m篇文档的主题概率分布，Φ表示所有主题下的词项概率分布的集合， α和β是Dirichlet分布的超参数，wmin表示第m篇文档的第η个词项，zm.n表示第m篇文档中第n个词项所对应的主题，Nn表示第m篇文档所包含的词项数。5. 根据权利要求4所述的基于LDA主题模型的0SN社区发现方法，其特征在于，所述步骤4中给定文档时，主题的概率分布的计算方法为：其中，表示给定文档m时主题为k的概率，？1；^表示主题k在文档m中出现的次数，α =〈αι，α2，…，am>为Μ维的Dirichlet分布的超参数，ak为正实数，反映了对参数的先验知识，K为文档m中主题的个数。6.根据权利要求4所述的基于LDA主题模型的OSN社区发现方法，其特征在于，所述步骤4中给定主题时，词项的概率分布的计算方法为：其中，φΜ表示给定主题k时词项为t的概率，nf表示词项t在主题k中出现的次数， β=〈β β2,…，βk>为K维的Dirichlet分布的超参数，β正实数，反映了对参数:炉& 的先验知识，V为主题k中词项的个数。
【专利摘要】本发明公开了一种基于隐形狄利克雷分布？(Latent？Dirichlet？Allocation，简称LDA)主题模型的在线社交网络(Online？Social？Network，简称OSN)社区发现方法，首先进行数据集预处理；然后利用在线社交网络中用户与其好友的关系以及用户自发表达的文字信息建立基于LDA主题模型（包括LDA-F模型和LDA-T模型），求解模型概率分布；再利用吉布斯采样算法进行参数估计；最后根据估计的参数进行OSN社区发现。本发明提供的方法在不依靠网络拓扑连接信息的基础上，通过挖掘用户微博语义信息得到相应的概率模型，同时引入微博内容语义相似性，有效描述了用户兴趣爱好的概率分布情况；引入社区内部拓扑连接紧密性，挖掘内部拓扑连接相对十分紧密的社区。
【IPC分类】G06Q50/00, G06F17/30, G06F17/27
【公开号】CN105302866
【申请号】CN201510611455
【发明人】曹玖新, 马卓, 陈巧云, 刘波, 周涛
【申请人】东南大学
【公开日】2016年2月3日
【申请日】2015年9月23日

完整全部详细技术资料下载

当前第2页1 2