基于主题概率模型的微博传播群体划分与账户活跃度评估方法_3

文档序号：9274718阅读：来源：国知局

博公共开放平台获取微博具体文本信息以及参与微博传播的账户集合，其中包括微博的原创账户集合，转发账户集合以及评论账户集合； (2) 微博样本库中词汇表和参与人员表的构建：以单个微博的文本内容以及参与微博的账户集合输入，首先利用中科院中文分词系统对微博文本进行分词，将微博文本表示成多个关键词的形式，近而形成微博样本库上的词汇表；其次采用分割的方法，原理与分词相同，构造参与人员表； (3) 主题概率模型生成：对样本库中的每一条微博d，d= 1，2, ???，0,基于主题概率生成模型，为每一篇微博文本赋予一个群体编号，然后基于被赋予的群体编号，从构建的词汇表和参与人员表中根据模型中的群体-主题，主题-词以及群体-人抽样出词和参与人员； (4) 模型中的参数计算：采用吉布斯抽样的方法对模型中的群体-人员分布，群体-主题分布，群体-人员-行为分布，群体-情感分布以及主题-词分布进行计算，由于参与热门事件的微博传播的账户数目大都以万计，因此采用归并排序算法对每个主题下所包含的单词以及每个群体中所包含的人进行排序，以找到群体中活跃度高的参与者以及最能代表主题的单词。2. 根据权利要求1所述的基于主题概率模型的微博传播群体划分与账户活跃度评估方法，其特征在于，包括以下步骤： 1) 、与事件相关的微博样本采集：与特定事件的相关微博样本应当具有相关性，包括能够描述特定事件的关键词的微博或具有相同的HashTag的微博及其相关转发和评论微博，微博样本的采集基于宽度优先搜索获取与特定事件相关的微博及其转发和评论微博，采用爬虫技术，首先根据网页链接下载微博网页、解析页面结构并提取微博文本信息及其他能够描述微博的元数据信息，以获取的微博为起点，对其相关的转发微博及其评论微博和参与微博的传播的账户信息，同样利用爬虫技术，获取相关数据；或是调用新浪公共开放平台，调用微博官方对外提供的API 函数获取微博文本信息及参与其传播的账户的信息，为有利于对事件传播中的群体划分，在选取微博样本时遵循的原则为：选取转发数和评论数不为〇的微博；样本搜集的内容应包括微博表示号、微博文本内容、微博账户标识号，参与微博传播的账户集合； 2) 、微博样本库中词汇表和参与人员表的构建：由于原始微博样本文字比较随意，在建模前要对微博样本数据进行预处理将微博文本转换成关键词集合的表述形式，同时构建基于样本库的词汇表和参与人员表，判断每个微博样本的情感极性，情感极性分为三种：积极的，消极的和中性的： ⑴文本分词，利用正则表达式去除文本中的无用的HTML标签，然后利用中科院中文分词系统ICTCLAS，对文本进行分词，将微博文本转化成词向量； (2)基于（台湾大学整理发布的NTUSD)情感词典对微博文本进行情感极性判定，考虑到普适的情感词典缺少专门针对微博的情感词汇和表情符号，而微博文本中经常出现微博平台提供的表情符来表达博主的情感（例如：cl表示赞，是积极情感的表达，益:表示鄙视，是消极情感的表达），在普适情感词典的基础之上添加微博表情符，将微博的表情符转化成对应的情感语义词； (3) 去除停用词，停用词主要指得是代词和表示时间的常用词，可以采用基于停用词字典的方法将停用词去除，当去除停用词后，微博内容为空，则舍去这样的微博； (4) 构建样本库中的词汇表，首先初始化一个词典，包括两个内容：词的编号和具体的词；以每条微博的词向量为起点，依次查询词向量中的关键词，是否存在于词典中；当存在，则将具体的词转化成词典对应的编号；当不存在，则将词添加到词典当中去，同时将词向量中具体的词转化成词典对应的编号；重复以上步骤，直到样本库中的每篇文本遍历完为止，并构建样本库中的参与人员表； 2)主题概率模型生成：对样本库中的每一条微博d，d= 1，2,…，D，基于主题概率生成模型，为每一篇微博文本赋予一个群体编号，然后基于被赋予的群体编号，从构建的词汇表中抽样出词汇：本发明构建基于主题概率的社团发现模型如图2所示； (1) 模型中的变量：模型中有两种变量，即在样本库中实际可观察到的变量和隐含在样本库中的变量，其中隐含变量：社团C(l，2,…，M)和话题Z(l，2,…，K)，可观察到的变量：文档中出现的单词 W;共享这篇文档的用户集合u;用户共享这篇文档的行为方式b;文档的情感极性1 ; (2) 模型中的超参数： y表示社团成员行为分布的狄利克雷分布的超参数； S表示社团成员活跃度的狄利克雷分布的超参数；y表示社团的活跃度狄利克雷分布的超参数；后表示主题词分布的狄利克雷分布的超参数； a表示社团主题分布的狄利克雷分布的超参数； e表示不同情感极性在社团中权重的狄利克雷分布的超参数； (3) 参数：当有K个隐含主题时，Dir(?)表示狄利克雷分布，词汇表中分配给主题K的单词的概率，服从Dir(f3)，k= 1，2，...，K; 当有M个社团和S个情感极性，每个社团与四个参数有关：话题矩阵0，用户的参与矩阵A，社团情感矩阵31，用户在社团中行为矩阵n，在社团m中（m = 1，2，???，]?): ? 0111表示社团m的主题分布，代表不同主题在社团m中的权重， ?入m表示不同用户在社团m中的活跃度矩阵，入m| 8~Dir(8); ? 表示不同情感极性在社团m中权重，Jrm|e~Dir(e); ? nm，p表示社团m中成员p的行为分布，nJy~Dir(y); 步表示的在整个语料库中社团的活跃度，步|y~Dir(y); 对于语料库中的每一篇文档d，d= 1，2,…，D生成过程如下（Mult( ?)表示多项式分布）：1.为文档d分配一个社团cd:cd|it~Mult(it)2. 当有Ud用户共享文档d时，设p= 1，2,…，Ud，对于每一个与文档d相关的用户Ud;p，生成过程如下： a. 从社团cd的参与矩阵中抽取用户b. 选择用户Ud，p的一个行为模式，3. 当一篇文档有乂个词汇，对于在文档(1中的每个词汇￥(1，11(11=1，2，"％4)，生成过程如下： a. 从第cd个社团的主题矩阵中抽样一个主题： b. 根据抽样出的主题zd，n，从主题单词分布中抽样出一个单词：4. 从cd社团的情感矩阵中抽取一个情感极性：由上可知，BP-STC的联合概率分布如式（1)所示：p(u,c,z,l,w| 8 ,y, |3 ,e,a) =p(u|c,A)p(c |it)p(z|c, 0 )p(11c, 3i)p(w|z, <i>)p(入| 6)p(i]) | y)p(0 | a)p(3i | y)p〇| 0) 式（1); 3)模型的推导和参数计算：模型的训练与推导采用吉布斯抽样的方法，在模型中，一篇文本只能被分配给一个社团，为了方便模型的推导，模型的参数如图3所示：对于一篇文档d，分配给它的社团的后验条件概率为：其中，表示被分配给社团m的总的文档的数目，除文档d，D表示文档的总数目，表示出现在社团m的文档中并分配给主题k的单词的总数，除文档d，Zd表示文档d的主题的集合，Sd，k表示文档d中分配给主题K的单词总数，C社团m中属于情感极性s的总的文档的数目，1<!表示文档d的情感极性的集合，U表示用户p参与社团m的次数除了在d篇文档中出现的次数，ud表示参与文档d交互的用户的集合，ed表示参与文档d交互的总的人数；当文档d分配给社团cd时，文档d中的第i个单词，它的隐含主题的zd;i的条件后验概率如下：其中，t表示文档d中第i个单词，zt表示文档d中第i个单词被分配的主题；对上面的式（2)和式（3)反复的迭代，最终达到抽样结果稳定状态，每个参数从最后稳定状态进行计算：至此，模型通过吉布斯求解出微博样本库中社团活跃度步，以及每个参与社团的用户活跃度A，每个社团中感兴趣的话题分布0，情感分布31和社团中每个用户的行为分布 n，采用归并排序算法对每个主题下所包含的单词〇k，v以及每个群体中所包含的人a 进行排序，以找到群体中活跃度高的参与者以及最能代表主题的单词，同时可以根据nm，p，b 来描述社团中活跃度高的用户的行为表现，从而实现基于主题概率模型的微博传播群体划分与账户活跃度评估。
【专利摘要】本发明涉及基于主题概率模型的微博传播群体划分与活跃度评估方法，有效解决按传播群体划分，将参与微博话题传播的账户划分为多个群组，量化每个群组中活跃的微博账户，方法是，以特定事件的关键词为基础，获取微博具体文本信息以及参与微博传播的账户集合，以单个微博的文本内容以及参与微博的账户集合输入，构造参与人员表，对样本库中的每一条微博基于主题概率生成模型，从构建的词汇表和参与人员表中根据模型中的群体-主题，主题-词以及群体-人抽样出词和参与人员，采用吉布斯抽样的方法进行计算，采用归并排序算法对每个主题下所包含的单词以及每个群体中所包含的人进行排序，本发明方法简单，及时掌握微博热点、情感倾向和舆论引导。
【IPC分类】G06F17/30, G06Q50/00
【公开号】CN104991956
【申请号】CN201510431015
【发明人】刘琰, 陈静, 尹美娟, 罗军勇, 常斌, 王煦中, 丁文博, 温玉辉
【申请人】中国人民解放军信息工程大学
【公开日】2015年10月21日
【申请日】2015年7月21日

完整全部详细技术资料下载

当前第3页1 2 3