一种顾及时空效应的微博主题提取方法_2

文档序号:9471510阅读:来源:国知局
计算效率。 因此,结合SAGE和区域主题影响力权重,微博主题Z的生成过程可W表示为如下多项式分 布: 阳03引 P(Z| 目 0, 0r) =P(Z| (l-〇r) 0〇+〇rX0r)
[0033] 时空主题模型描述具有时间和区域要素的微博的生成过程:首先,每个区域r有 一个参数为区域主题多项式分布;微博d中的主题Z在背景主题分布及其所在区域主题分 布的共同作用抽样得到;每个主题Z有一个与之对应的"主题一词汇"多项式分布;同时,每 个主题Z也对应一个时间Beta分布;最终,微博d中各词汇W的生成过程就是依据主题Z 不停从中抽样得到,而每个词汇生成的时间也是依据主题Z从Beta( 11),分布中抽样得到。
[0034] 整个微博文档生成过程如下:
[0035] 从Direchlet(a。)中抽样得到白。;
[0036] 对于每个区域r= 1,…,R:
[0037] 从均匀分布中抽取一个区域r;
[0038] 从Direchlet(ar)中得到白r;
[0039] 对于每个主题z= 1,. .,K:
[0040] 从0。和0r为参数的多项式分布中抽取出主题Z; |;0041]从Direchlet(P。)中得至Ijl豁;
[0042] 从Direchlet(丫)中得到
[0043] 对于微博d中的每个词汇W= 1,…,Nd: W44] 从巧Z为参数的多项式分布中抽取词汇W; 柳例从,为参数的Beta分布中抽取时间t。
[0046] 步骤3 :时空主题模型参数计算
[0047] 利用吉布斯(Gibbs)采样估计时空主题模型的参数。时空主题模型有两个潜在变 量:主题Z和区域r。同时为了表达不同区域影响力权重的差异,Z和r的条件后验概率可 写成:
[0048]
[0049] W上联合概率公式表示基于之前各词汇所属的主题情况,采样得到的当前单词属 于各主题的概率。其中,Zdi表示当前微博d的第i个单词所属主题,rdi表示当前微博d的 第i个单词所属区域(一个微博中所有单词属相同区域),tdi表示当前微博d的第i个单 词发表时间(一个微博中所有单词的发表时间都相同);請日分别表示该当前微博 d所属主题Z对应的2个Beta分布参数;-di表示除去当前正在采样的单词,As献表示文 档d中第i个单词被认为属于主题Zdi的次数,%摄砰-啤词V属于主题Zdi的次数;喘表 示文档d属于主题Zdi的次数,nd,,表示文档d属于主题Z的次数;nW表示区域r中的微博 属于主题Z的次数,鶴巧表示区域r中的微博属于主题Zdi的次数。
[0050] 在Gibbs采样中,要W矩阵形式记录每一步迭代中估计出来参数,它们分别是主 题-词汇矩阵(KW),记录了每个单词属于该每个主题的次数;文档-主题矩阵值K),记录每 个文档属于每个主题的次数;主题-时间矩阵化2),记录每个主题对应Beta分布的两个参 数;区域-主题矩阵(服),记录每个区域r属于每个主题的次数。当每个单词属于每个主 题的次数开始收敛或迭代次数超过某一阔值时,该次Gibbs采样完成。
[0051] Gibbs采样完成后,即可利用运些矩阵对参数归一化,W概率形式表达运些参数:
[0052]
[0058]
[0059] 其中,豁w表示单词w属于z的概率,0。z表示主题z在区域r的概率,0。,z表 示背景主题分布中主题Z的概率;11_和n_分别为单词W和V属于主题Z的次数;nW为 区域r属于主题Z的次数;ru,文档d属于主题Z的次数;和梦I分别表示主题Z演变的 Beta分布的两个参数。td,。表示微博d中第n个单词属于主题Z的时间,這;和分别表示 抽样出来属于主题Z的微博的时间均值和时间方差。利用W上时空主题模型参数即可进行 未知微博的主题提取。
【主权项】
1. 一种顾及时空效应的微博主题提取方法,其特征在于:所述提取方法是以主题Z、区 域r,时间t,词汇W对微博建模,通过模型表达式得到这些参数的具体数值,进而实现微博 主题的分类。包括以下步骤: (1) 区域主题影响力计算:用于量化和描述区域POI数量及区域面积大小,从而判别区 域对微博主题的影响程度;所述区域主题影响力模型表达式为:其中,%为区域r的影响力权重,p彦示区域r的POI数量,sr表示区域r的面积; (2) 顾及时空效应的微博主题建模:用于描述具有时间和区域要素的微博的生成过 程; (3) 微博主题模型参数计算:通过计算微博主题模型参数,并对其归一化处理,从而提 取微博的主题。2. 根据权利要求1所述的一种顾及时空效应的微博主题提取方法,其特征在于:所述 步骤(2)的模型表达式为: P(z| 9〇, 9r) = P(z| (l-〇r) 0o+orX 0r) 其中,9。表示背景主题的分布参数,0 1^表示区域r主题的分布参数。3. 根据权利要求1所述的一种顾及时空效应的微博主题提取方法,其特征在于:通过 吉布斯采样方法计算时空主题模型的参数。4. 根据权利要求3所述的一种顾及时空效应的微博主题提取方法,其特征在于:当每 个词汇w属于每个主题z的次数开始收敛时,该次吉布斯采样完成。
【专利摘要】本发明属于舆情监控领域,涉及社交网络用户推荐、社交网络服务推荐及微博主题识别技术分析,尤其涉及一种顾及时空效应的微博主题提取方法。所述提取方法是以主题z、区域r,时间t,词汇w对微博建模,通过模型表达式得到这些参数的具体数值,进而实现微博主题的分类。包括以下步骤:(1)区域主题影响力计算,(2)顾及时空的微博主题建模,(3)微博主题模型参数计算。本发明的有益效果是构建考虑了连续时间和区域影响力权重的时空主题模型,能发现连续时间上微博主题的空间分布和强弱变化,与已有地理主题模型相比,能更加准确地提取微博主题。
【IPC分类】G06F17/30
【公开号】CN105224675
【申请号】CN201510669860
【发明人】段炼
【申请人】广西师范学院
【公开日】2016年1月6日
【申请日】2015年10月13日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1