一种顾及时空效应的微博主题提取方法

文档序号:9471510阅读:282来源:国知局
一种顾及时空效应的微博主题提取方法
【技术领域】
[0001] 本发明属于舆情监控领域,设及社交网络用户推荐、社交网络服务推荐及微博主 题识别技术分析,尤其设及一种顾及时空效应的微博主题提取方法。
【背景技术】
[0002] 近来,国内社交平台如新浪微博、腾讯微博等允许用户在所发布的信息中携带其 地理位置,运些带有位置信息的微博被称为地理标识微博。挖掘带有地理标识的大规模微 博数据,能发现人们的社会移动行为模式、消费习惯、事件时空演变和城市区域功能变化规 律等知识,为商业推荐、舆情监控、灾害预警管理等提供有力支撑。但是微博数据具有噪音 大,篇幅短和数量巨大等特征,一般文本挖掘方法如SVM或SVD(矩阵奇异分解)难W有效 提取微博数据主题。
[0003] 根据地理区域表达方式的不同,地理主题模型可分为两类,一类利用高斯分布来 表达具有相同主题的文档分布区域,运些区域会随着数据集的不同而变化;一类是利用如 行政区划表达固定的地理区域,不会随和数据集的不同而变化。在第一类中,有在主题模型 中用不同的二维高斯分布表达不同主题的微博分布范围,运种方法能自适应发现不同主题 的空间分布区域,但没有考虑区域对微博内容的影响程度;或者通过两个高斯分布分别描 述主题在不同经缔度位置上的强度,但无法描述那些在经缔度上不遵从高斯分布的主题; 或者采用固定的权重来表达区域对文档主题影响程度,而现实中不同区域对文档主题的影 响程度是不同的。在第二类中,有W国家划分地理区域,发现不同事件和人物在不同国家的 受关注程度;如有的利用概率潜在语义索引,W州为区域单位划分美国,发现不同主题在不 同州的关注程度,并采用了固定权重来表达区域对文档主题影响程度。
[0004] 在引入时间因素的地理主题模型的已有技术中,有利用在线LDA对微博主题进行 提取,但其在主题模型之外采用泊松分布来捕捉主题强度在时间上异常情况,无法在主题 模型中利用时间因素来辅助推断微博主题;或者集成区域和时间因素对博客主题进行提 取,但它的时间是离散表达的,难W得到连续时间上的微博主题强度。 阳〇化]总的来说,已有时空主题模型没有或仅采用固定的区域影响权重无法准确反映不 同区域对微博主题影响的差异性,同时他们将时间要素离散化,难W得到连续时间上的微 博主题强度。

【发明内容】

[0006] 本发明的发明目的在于针对现有技术中存在的无法准确反映不同区域对微博主 题影响的差异性,及难W得到连续时间上的微博主题强度等问题,提供一种基于时空LDA 模型的社交网络社区发现方法。
[0007] 为了实现上述目的,本发明采用的技术方案如下:
[0008] 一种顾及时空效应的微博主题提取方法,所述提取方法是将微博主题Z划分为r 个区域,t个时间,W个词汇,包括W下步骤:
[0009] (1)区域主题影响力建模:用于量化和描述区域POI数量及区域面积大小,从而判 别区域对微博主题的影响程度;所述区域主题影响力模型表达式为:
[0010]
W11] 其中,。为区域r的影响力权重,Pr表示区域r的P0I数量,Sr表示区域r的面 积;
[0012] (2)顾及时空效应的微博主题建模:用于描述具有时间和区域要素的微博的生成 过程;
[0013] (3)微博主题模型参数计算:通过计算微博主题模型参数,并对其归一化处理,从 而提取微博的主题。
[0014] 进一步地,所述步骤(2)的模型表达式为: 阳01引 P(z|目0, 0r)= P(z|(l-〇r) 0〇+〇rX0r)
[0016] 其中,0。表示背景主题的分布参数,0f表示区域r主题的分布参数。
[0017] 进一步地,通过Gibbs采样方法计算时空主题模型的参数。
[0018] 进一步地,当每个词汇W属于每个主题Z的次数开始收敛时,该次Gibbs采样完 成。
[0019] 综上所述,本方案首先将城市划分为多个相互连接的非重叠区域,然后在LDA中 引入区域主题分布和区域影响力权重,再利用Beta分布表达主题演变情况,最后进行模型 参数估算。本发明相对现有技术的有益效果是:
[0020] 1.采用Sigmoid函数形式描述区域主题影响力权重,结合稀疏增量式生成模型, 可极大提高计算效率,有效判别区域主题对微博的影响程度,并显著提高微博主题获取的 准确性。
[0021] 2.构建考虑了连续时间和区域影响力权重的时空主题模型,能发现连续时间上微 博主题的空间分布和强弱变化,与已有地理主题模型相比,能更加准确地提取微博主题。
【附图说明】
[0022] 图1为本发明的时空主题模型图。
【具体实施方式】
[0023]W下将结合附图和具体实施例,对本发明提供的技术方案进行说明。
[0024] 步骤1 :区域主题影响力的建模
[00巧]利用研究城市各社区的地理中屯、位置,构造了覆盖武汉市区的泰森多边形网,其 中每个多边形网格代表一个区域。W 为参数表示区域r主题的多项式分布,W为0。参 数表示背景主题的多项式分布。
[00%] 在时间划分上,本文利用Beta分布描述不同主题随时间变化过程,从而在保证了 时间连续特征的同时,获取任意时刻主题的强度。
[0027] 本文认为,一个区域内的被标注出的P0I数量越多,区域面积越小,表明该区域的 社会功能越显著,该区域内的微博受到的影响就越强烈,反之,区域因素对微博主题的影响 就越弱。我们采用Sigmoid函数形式描述区域主题影响力权重:
[0028]
[0029] 其中,0r表示为区域r的影响力权重,pr表示区域r的POI数量,sr区域r的面 积。
[0030] 步骤2 :顾及时空效应的微博主题建模
[0031] 稀疏增量式生成模型(SparseAdditiveGenerativemodel,SAGE),是在表达变量 受到多个因素(运些因素可用指数家族概率分布表达时)影响时,在一个指数形式分布中 对代表不同影响因素的参数进行混合,近似代表多个因素的总体影响,极大提高
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1