一种基于lda主题模型的osn社区发现方法

文档序号：9547248阅读：472来源：国知局

一种基于lda主题模型的osn社区发现方法
【技术领域】
[0001] 本发明涉及一种利用了隐形狄利克雷分布（Latent Dirichlet Allocation，简称 LDA)主题模型的在线社交网络（Online Social Network，简称0SN)社区发现机制，属于社会计算领域，特别是社区发现领域。
【背景技术】
[0002] 随着互联网的高速发展，网络由最初的以数据为核心逐渐转变为以人为核心，这促进了在线社交网络的迅猛发展。在线社交网络区别于传统的人际关系网络，不仅拥有大规模用户及其好友关系，还拥有大量的用户自发表达的文字信息，这给社区发现工作带来了新的生机和挑战。
[0003] 传统的社区发现方法主要基于连接，即图的拓扑结构，这种方法通过分析个体之间的显式连接进行社区划分，所发现的社区内部节点之间连接相对紧密，不同社区之间连接相对稀疏，但这种方法并没有考虑到用户的主题特性。在微博中，用户的推文通常隐含了用户的兴趣爱好、行为模式等信息，而自然语言处理中所使用到的主题模型可以将这些因素考虑在内。

【发明内容】

[0004] 发明目的：针对现有技术中存在的问题，本发明一种基于LDA主题模型的社区发现方法，在不依靠网络拓扑连接信息的基础上，通过挖掘用户微博语义信息得到相应的概率模型，同时引入微博内容语义相似性，有效描述了用户兴趣爱好的概率分布情况；引入社区内部拓扑连接紧密性，挖掘内部拓扑连接相对十分紧密的社区。
[0005] 技术方案：为了解决上述问题，本发明提出一种基于LDA主题模型的OSN社区发现方法，利用在线社交网络中用户与其好友的关系以及用户自发表达的文字信息进行OSN社区发现过程，包括如下步骤：
[0006] 1)进行数据集预处理，对原始用户微博文档进行分词、去停顿词、去噪等预处理工作，具体的，从weibo数据集中抽取每条记录的[uid，text]字段，并根据Uid对所有微博进行归类，每条记录的格式为[uid，textl ;text2 ;……]，使用中科院计算所汉语词法分析系统ICTCLAS2013版进行分词，在分词过程中，去除停顿词以及对于模型而言没有实际意义的词语（如URL、标点符号、语气词等），同时去除微博表情符号；对记录用户关系的文档中的followers数据集进行用户关系双向化处理并剔除没有好友的用户，每条记录的格式为 [user, friendl ；friend2 ；......]；
[0007] 2)根据既定社区元素构建LDA主题模型，包括基于社区内部微博内容语义相似性构建的主题模型LDA-T和基于拓扑连接紧密性构建的主题模型LDA-F，所述LDA-T中词项集是由用户所有推文中的词项构成的集合，文档集是由所有用户的推文构成的集合，主题为社区的集合，所述LDA-F中词项集是由用户的所有好友构成的集合，文档集是由所有用户构成的集合，主题是社区的集合；
[0008] 3)根据步骤2得到的模型LDA-T和LDA-F，对文档下主题概率分布以及主题下词项概率分布施加 Dirichlet分布，生成基于超参数的联合概率分布p (w"，Zni, θ η，Φ I α， β)，其中，α和β是Dirichlet分布的超参数，wm表示第m篇文档中所有词项的集合，zm 表示第m篇文档中所有词项对应的主题的集合，θ n表示第m篇文档的主题概率分布，Φ表示所有主题下的词项概率分布的集合；
[0009] 4)根据步骤3得到的联合概率分布，利用吉布斯采样算法估计给定文档时主题的概率分布Θ JP给定主题时词项的概率分布
[0010] 5)根据步骤4得到的参数获取社区。
[0011] 所述步骤2中LDA模型中文档的生成过程和参数约定为：
[0012] 1)对每个主题k e [1，Κ]，采样主题k的词项概率分布
[0013] 2)对每个文档m e [1，Μ]，采样文档m的主题概率分布Θ n~Dir ( α );
[0014] 3)对每个文档m e [1，Μ]，采样文档m的长度Nni~Poiss( ξ );
[0015] 4)对每个文档m中的词项n e [I，NJ，选择隐含的主题Zni,n~Mult ( θ n)，生成一个词项
[0016] 其中，Nni表示第m篇文档所包含的词项数，K表示主题数目，M表示文档数目，α、 β、ξ为概率分布的参数。
[0017] 所述步骤3生成的联合概率分布为：
[0019] 其中，Wni表示第m篇文档中所有词项的集合，Zni表示第m篇文档中所有词项对应的主题的集合，S ni表示第m篇文档的主题概率分布，Φ表示所有主题下的词项概率分布的集合，α和β是Dirichlet分布的超参数，w m,n表示第m篇文档的第η个词项，zm.n表示第 m篇文档中第η个词项所对应的主题，Nni表示第m篇文档所包含的词项数。
[0020] 所述步骤4中，对LDA模型运用吉布斯采样算法，需要由已知的词项集丨巧、先验 Dirichlet分布的参数α，β以及主题数K最终求得给定文档时主题的概率分布Θ和给定主题时词项的概率分布免，其计算方法为：
[0023] 其中，0n,k表示给定文档m时主题为k的概率，η=表示主题k在文档m中出现的次数，α =〈a ^ α2，…，am〉为M维的Dirichlet分布的超参数，ak为正实数，反映了对参数Θ "的先验知识，K为文档m中主题的个数；￡表示给定主题k时词项为t的概率， JiP表示词项t在主题k中出现的次数，β ."，0k〉为K维的Dirichlet分布的超参数，β 正实数，反映了对参数iPfc的先验知识，V为主题k中词项的个数。
[0024] 有益效果：本发明采用如上技术方案，具有如下优点：
[0025] 1)引入微博内容语义相似性，有效描述了用户兴趣爱好的概率分布情况；
[0026] 2)引入社区内部拓扑连接紧密性，挖掘内部拓扑连接相对十分紧密的社区；
[0027] 3)利用主题模型改进传统的社区发现方法，在不依靠网络拓扑连接信息的基础上，通过挖掘用户微博语义信息得到相应的概率模型；
[0028] 4)利用吉布斯采样算法，对模型进行参数估计，与变分推理和EM算法这两种用于参数估计的算法相比，能够较为简单、快速地处理复杂分布的情况；
[0029] 5)引入数据集预处理机制，保证了社区发现结果的准确度。
【附图说明】
[0030] 图1为本发明的LDA主题模型图；
[0031] 图2为本发明的吉布斯采样算法流程图；
[0032] 图3为本发明的社区发现流程图。
【具体实施方式】
[0033] 下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等同变换均落于本申请所附权利要求所限定的范围。
[0034] -种基于LDA主题模型的OSN社区发现方法，首先进行数据集预处理；再利用在线社交网络中用户与其好友的关系以及用户自发表达的文字信息建立LDA主题模型（包括 LDA-F模型和LDA-T模型），求解模型概率分布；然后利用吉布斯采样算法进行参数估计；最后根据估计的参数进行OSN社区发现，具体包括如下步骤：
[0035] 1)进行数据集预处理：
[0036] I. I) LDA-F模型的数据集预处理
[0037] 由于LDA-F模型所定义的好友关系必须是双向边，因此在这里需对followers 数据集进行用户关系双向化处理，并剔除没有好友的用户，每条记录的格式为 [user, friendl ；friend2 ；......]；
[0038] I. 2) LDA-T模型的数据集预处理
[0039] 从weibo数据集中抽取每条记录的[uid, text]字段，并根据uid对所有微博进行归类，每条记录的格式为[uid, textl ;text2 ;......];对LDA-T模型的语料库使用中科院计算所汉语词法分析系统ICTCLAS2013版进行分词，在分词过程中，去除停顿词以及对于模型而言没有实际意义的词语（如URL、标点符号、语气词等），同时去除微博表情符号。
[0040] 2)求解模型概率分布：
[0041] 基于社区内部微博内容语义相似性构建的主题模型LDA-T和基于社区内部拓扑连接紧密性构建主题模型LDA-F同属于LDA模型。
[0042] 在基于社区内部微博内容语义相似性构建的主题模型LDA-T中，词项集是由用户所有推文中的词项构成的集合，文档集是由所有用户的推文构成的集合，主题为社区的集

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：曹玖新;马卓;陈巧云;刘波;周涛;
技术所有人：东南大学;
我是此专利的发明人

上一篇：一种搜索引擎查询方法及装置的制造方法
上一篇：一种实现数据处理的方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。