基于主题概率模型的微博传播群体划分与账户活跃度评估方法_2

文档序号：9274718阅读：来源：国知局

模型，为每一篇微博文本赋予一个群体编号，然后基于被赋予的群体编号，从构建的词汇表中抽样出词汇：
[0034] 本发明构建基于主题概率的社团发现模型如图2所示；
[0035] (1)模型中的变量：
[0036] 模型中有两种变量，即在样本库中实际可观察到的变量和隐含在样本库中的变量，其中隐含变量：社团C(l，2,…，M)和话题Z(l，2，…，K)，可观察到的变量：文档中出现的单词W ;共享这篇文档的用户集合u ;用户共享这篇文档的行为方式b ;文档的情感极性 1 ;
[0037] (2)模型中的超参数：
[0038] y表示社团成员行为分布的狄利克雷分布的超参数；
[0039] S表示社团成员活跃度的狄利克雷分布的超参数；
[0040] y表示社团的活跃度狄利克雷分布的超参数；
[0041] 0表示主题词分布的狄利克雷分布的超参数；
[0042] a表示社团主题分布的狄利克雷分布的超参数；
[0043] e表示不同情感极性在社团中权重的狄利克雷分布的超参数；
[0044] ⑶参数：
[0045] 当有K个隐含主题时，Dir(?)表示狄利克雷分布，词汇表中分配给主题K的单词的概率，服从Dir (f3)，k= 1，2, ???，!（；
[0046]当有M个社团和S个情感极性，每个社团与四个参数有关：话题矩阵0，用户的参与矩阵A，社团情感矩阵31，用户在社团中行为矩阵q，在社团m中（ m = 1，2，???，]?):
[0047] ? 0111表示社团m的主题分布，代表不同主题在社团m中的权重，見
[0048] ? 表示不同用户在社团m中的活跃度矩阵，Xm|6~Dir(8);
[0049] ?nm表示不同情感极性在社团m中权重，Jr m|e~Dir(e);
[0050] ?nm，p表示社团m中成员p的行为分布，n m，p| y~Dir(y);
[0051] 步表示的在整个语料库中社团的活跃度，步| y~Dir (i〇 ;
[0052] 对于语料库中的每一篇文档d，d=1，2,…，D生成过程如下（Mult( ?)表示多项式分布）：
[0053]1.为文档d分配一个社团cd:cd|步~Mult(步）
[0054] 2.当有Ud用户共享文档d时，设p= 1，2,…，Ud。对于每一个与文档d相关的用户Ud，p，生成过程如下：
[0055]a.从社团cd的参与矩阵中抽取用户Ud，p:Ud，p |A，Cd~Mult(A J
[0056] b?选择用户UdJ勺一个行为模式，~她"(7
[0057] 3.当一篇文档有Nd个词汇，对于在文档d中的每个词汇wd，>= 1，2,…，Nd)，生成过程如下：
[0058] a.从第cd个社团的主题矩阵中抽样一个主题：。
[0059]b.根据抽样出的主题zd，n，从主题单词分布中抽样出一个单词： Uz (/"，卜施"(〇
[0060] 4?从cd社团的情感矩阵中抽取一个情感极性 d|JT，cd~Mult(Jr cd)
[0061] 由上可知，BP-STC的联合概率分布如式（1)所示：
[0062] p(u, c, z, l,w| 8 , y , |3 , e , a )
[0063] =p(u|c, A)p(c| it)p(z|c, 0)p(l|c, 3i)p(w|z, <i>)
[0064] p(入 |6)p(i])|]i)p(0|a)p〇|y)p〇||3)式⑴；
[0065] 3)模型的推导和参数计算：
[0066] 模型的训练与推导采用吉布斯抽样的方法，在模型中，一篇文本只能被分配给一个社团，为了方便模型的推导，模型的参数如图3所示：
[0067] 对于一篇文档d，分配给它的社团的后验条件概率为：
[0068]
[0069] 其中，表示被分配给社团m的总的文档的数目，除文档d，D表示文档的总数目，表示出现在社团m的文档中并分配给主题k的单词的总数，除文档d，Z d表示文档d 的主题的集合，Sd，k表示文档d中分配给主题K的单词总数，<社团m中属于情感极性s的总的文档的数目，1<!表示文档d的情感极性的集合，/C;表示用户p参与社团m的次数除了在d篇文档中出现的次数，u d表示参与文档d交互的用户的集合，ed表示参与文档d交互的总的人数；
[0070] 当文档d分配给社团cd时，文档d中的第i个单词，它的隐含主题的z d;i的条件后验概率如下：
[0071]
[0072] 其中，t表示文档d中第i个单词，^表示文档d中第i个单词被分配的主题。
[0073] 对上面的式（2)和式（3)反复的迭代，最终达到抽样结果稳定状态，每个参数从最后稳定状态进彳丁计算：
[0074]
[0075]
[0076]
[0077] 至此，模型通过吉布斯求解出微博样本库中社团活跃度步，以及每个参与社团的用户活跃度A，每个社团中感兴趣的话题分布0，情感分布31和社团中每个用户的行为分布n。采用归并排序算法对每个主题下所包含的单词以及每个群体中所包含的人入"进行排序，以找到群体中活跃度高的参与者以及最能代表主题的单词，同时可以根据来描述社团中活跃度高的用户的行为表现，从而实现基于主题概率模型的微博传播群体划分与账户活跃度评估。
[0078] 本发明方法通过少量迭代就可以对参与微博话题的人群进行社团划分，同时挖掘每个主题社团中的活跃账户，经实际试用，该方法稳定可靠，具有实际的应用价值，有关资料如下：
[0079] 1)数据集：
[0080] 数据集是关于新浪微博平台上与特定事件相关的微博。该数据集收集了 2015年两会期间的与两会相关的微博。从2015年3月1日到2015年3月15日发布的与两会相关的所有微博。将那些没有任何与用户交互的微博以及经过预处理以后微博内容为空的微博从数据集中过滤掉，最后共有7728条微博作为实验数据（其中包含了 69849个联系人），对参与两会讨论的用户进行社团挖掘以及行为与情感上的分析。
[0081] 2)参数C和参数K的取值分析：
[0082] 在本发明构建的主题概率模型中，超参数值设置为：a = 50/k|3 = 8 = y = y =0. 1。其中主题数目K和社团数目C的设置是采用计算perplexity的值来确定，，其中 Perplexity值越小表明选取的K值越优。模型中perplexity的公式如下：
[0083]
[0084] 其中，Nm表示分配给社团m中的单词的总的数目，w为测试集，为观测到被分配给社团m的单词。图4展示了社团C = 10取不同的K值，perplexity的值的变化趋势，随着K的增加刚开始是下降，到K = 25时下降到最低点，随后出现平缓上升的趋势。
[0085] 3)社团分布展示与分析：
[0086] 基于本发明提出的模型进行划分出的社团，不仅具有主题倾向性，同时也能够挖掘出情感极性的分布以及计算出参与社团的人员的活跃度及其在社团上的行为分布，挖掘出的主要社团的信息展示包社团的活跃度，社团的主题分布，社团参与人员的活跃度以及社团情感极性分布。
[0087] 由图5可知，在新浪平台上两会期间用户讨论比较热烈的是关于退休年龄延迟，反腐工作，医疗保险以及立法修改等方面的主题。同时可以观察到关于这些主题的讨论的情感倾向，积极的要高于消极的。由于央视新闻是微博看两会话题的主持人，央视新闻应当参与了每个具有不同主题倾向性的社团的讨论中，且在社团中是相对比较活跃的。由此验证了本发明提出的本发明所述模型的正确性。从图5和图6中都可以看到主题20包含在每个社团中，原因是主题20中所包含的词汇是两会话题讨论中经常出现的词汇。
[0088] 模型除挖掘社团以及社团活跃人物之外，还能够挖掘出参与人员在社团中的行为分布。图7以社团2和社团10为例，展示的在社团中相对比较活跃的用户的行为分布。
[0089] 图7中参与用户分为两种类型，媒体用户如央视新闻，正义网，人民日报，普通用户如要求祝，吴小杰，幸福快乐一生、好人穷追不舍。可以观察到媒体用户在社团中行为多为原创，而普通用户则多为转发与评论，同时媒体用户行为相对比较均匀，而普通用户则行为相对比较极端。在两会话题的讨论中，信息源头是媒体用户，普通用户对话题信息进行了传播。为了进一步验证模型的正确性，人工观察了社团2中要求祝（微博昵称）在两会期间的微博，发现其两会期间之所以在社团2中转发大量关于法律方面的微博是因为其妻子因意外死亡而肇事者没有赔偿，希望得到法律保护，利用两会话题讨论希望能引起社会关注，具有很强的实用价值，经济和社会效益巨大。
【主权项】
1. 一种基于主题概率模型的微博传播群体划分与账户活跃度评估方法，其特征在于，包括以下步骤： (1) 与特定事件相关的微博样本搜集：以特定事件的关键词为基础，基于爬虫技术或微

完整全部详细技术资料下载

当前第2页1 2 3