一种微博话题热度预测系统及方法

文档序号:6621883阅读:4909来源:国知局
一种微博话题热度预测系统及方法
【专利摘要】本发明涉及社交网络【技术领域】,特别是一种微博话题热度预测系统及方法,所述方法包括如下步骤:首先,根据用户关系及话题因素计算用户影响力;接着根据话题相关的微博和用户影响力,计算话题能量值,量化话题热度;最后结合小波变换与ARIMA回归模型,预测话题热度。所述系统和方法可以实现社交网络热点话题的热度预测,挖掘话题被关注的情况及变化趋势,从海量微博信息中了解并预测出用户所关注话题的热度趋势,并且具有较高的准确度。
【专利说明】一种微博话题热度预测系统及方法

【技术领域】
[0001] 本发明涉及社交网络【技术领域】,特殊涉及一种微博话题热度预测系统及方法。

【背景技术】
[0002] 微博已成为互联网的一种时尚,随着微博的快速发展,微博信息呈现一种爆炸式 的增长态势,大量的微博信息导致微博平台成为当今社会重要的舆论场。如何从海量微博 信息中了解并预测出用户所关注话题的热度趋势成为一个具有挑战性的研究课题。
[0003] 近年来,基于社交媒体的总统选举预测、票房预测、话题热度预测等预测问题的研 究引起了学者们的关注。其中话题热度预测旨在挖掘话题被关注的情况及变化趋势,而如 何量化话题的热度是话题热度预测的重要前提。高热度话题是指在一段时间内频繁出现在 网络上,并被用户广泛关注并讨论的话题。因此,话题相关微博数及其相关用户共同决定着 话题的热度。然而,现有的微博话题热度预测方法大都只考虑微博信息而忽略了用户社会 关系,如很多方法只考虑当前时间片的微博数作为新闻热度,忽略了不同用户对于话题知 名度的贡献的区别。已有部分方法将用户关系考虑在内,但忽略用户同预测话题之间的相 关性。此外,话题的热度不仅受当前时间片产生的微博和相关用户影响,也受到话题的历史 热度值的影响。因此有研究人员引进老化理论计算话题的能量值,刻画话题生命周期。
[0004] 从统计的思想出发,话题热度的预测可以看成是在已有的历史时间序列数值情况 下,对未来某个时刻的话题的能量值的预测。现有时间序列值的预测大多基于回归预测模 型,如自回归或者自回归滑动预测模型(ARMA)、基于神经网络的预测模型等。采用基于回归 的预测模型适用于值在时间上的波动较为平稳的情况。而话题在演化过程中具有突发性, 表现出明显的多尺度特性。而基于神经网络的预测模型能够较好地预测非线性的时间序 列,但模型训练和计算的复杂度过高。
[0005] 综上,现有的话题热度预测系统及方法尚有很大的提升空间。面对海量微博话题 数据,现有方法无论是在效果和效率上都难以满足要求。


【发明内容】

[0006] 本发明的目的在于克服现有技术的不足,提供一种微博话题热度预测系统及方 法,该系统及方法可有效预测话题热度。
[0007] 为实现上述目的,本发明的技术方案是:一种微博话题热度预测系统,所述系统包 括: 用户影响力计算模块,用于计算话题相关的用户影响力; 话题能量值计算模块,用于根据与话题相关的微博和用户影响力计算话题能量值,量 化话题热度; 话题热度预测模块,用于根据计算得到的话题能量值,利用小波变换和ARIMA回归模 型,预测话题热度。
[0008] 本发明还提供一种微博话题热度预测方法,所述方法包括如下步骤: 步骤A:计算话题相关的用户影响力; 步骤B :根据话题相关的微博和用户影响力,计算话题能量值,量化话题热度; 步骤C :根据计算得到的话题能量值,利用小波变换和ARIMA回归模型,预测话题热度: 对能量曲线进行小波分解,然后分别对得到的逼近信号与各层的细节信号进行ARIMA回归 预测,再对预测的分量进行重构,得到预测的话题热度。
[0009] 进一步的,所述步骤A中,计算话题相关的用户影响力,包括以下步骤: 步骤A1 :定义话题依存度,表示两个用户在话题φ下的相关程度,计算公式为:

【权利要求】
1. 一种微博话题热度预测系统,其特征在于,所述系统包括: 用户影响力计算模块,用于计算话题相关的用户影响力; 话题能量值计算模块,用于根据与话题相关的微博和用户影响力计算话题能量值,量 化话题热度; 话题热度预测模块,用于根据计算得到的话题能量值,利用小波变换和ARIMA回归模 型,预测话题热度。
2. -种微博话题热度预测方法,其特征在于,所述方法包括如下步骤: 步骤A :计算话题相关的用户影响力; 步骤B :根据话题相关的微博和用户影响力,计算话题能量值,量化话题热度; 步骤C :根据计算得到的话题能量值,利用小波变换和ARIMA回归模型,预测话题热度: 对能量曲线进行小波分解,然后分别对得到的逼近信号与各层的细节信号进行ARIMA回归 预测,再对预测的分量进行重构,得到预测的话题热度。
3. 根据权利要求2所述的一种微博话题热度预测方法,其特征在于,所述步骤A中,计 算话题相关的用户影响力,包括以下步骤: 步骤A1 :定义话题依存度,表示两个用户在话题φ下的相关程度,计算公式为:
其中,表示用户&和&的话题依存度;表示用户~和~共同关注用户集合, = (匕)n h),/^ζ (6)表示用户6关注的用户集合,(匕)表示用户匕.关注 的用户集合,
表示第?个时间片内发布与话题Φ相关的微博的用户集合,定义为话题 内用户
表示第?个时间片内没有发布与话题Φ相关微博的用户集合,定义为话题外 用户
为一系数,用于削弱话题外用户对用户&和!〇.之间相关程度的贡献,ο < ? < 1 ; 步骤Α2 :根据话题依存度,模拟随机游走过程,迭代更新用户影响力,为使得影响力从 一个用户以更大的概率转移到与之依存度更高的关注用户,定义用户影响力计算的迭代过 程中的概率转移公式为:
步骤A3 :引入系数?削弱话题外的粉丝的影响力贡献,则相应的用户影响力更新公式 为:
其中,/^V(^)表示用户6的粉丝集合,J e [〇, 1]为阻尼因子,用于修正用户影响力 的计算; 迭代过程中的初始影响力定义为用户与其所有粉丝的依存度总和,即:
每一步迭代计算用户影响力为: Inf出
步骤A4 :设定阈值f,当前后两次迭代得到的用户影响力值相差小于阈值f,满足迭 代终止条件,话题相关的用户影响力计算结束。
4.根据权利要求2所述的一种微博话题热度预测方法,其特征在于,所述步骤B中,计 算话题能量值,量化话题热度,包括以下步骤: 步骤B1 :定义话题能量值是由话题在当前时刻的营养的累积,即累计支持度转换而 来,而当前时刻的累积支持度是话题的历史累积支持度经衰减之后同当前摄入的营养值之 和;首先计算在第?个时间片,话题Φ所获取的营养值,其取决于当前时间片与该话题相关 的微博数及话题的影响力,计算公式为:
其中,
表示第?个时间片话题Φ的营养值,
表示第?个时间片与话题Φ 相关的微博集合,
表示微博集合大小
表示第?个时间片的话题Φ的影 响力,其为当前时间片内发布了与话题相关微博的用户对话题Φ的影响力的总和,计算公 式如下:
其中,7/?/ 表示发布与话题?/7相关的第i条微博?%.的用户在这个话题 上的影响力; 步骤Β2 :采用指数衰减方案,计算话题在第?个时间片的累积支持度X :
其中& = 0,参数〇 e [〇, 1]为支持度转移因子,决定着营养值对话题生命的贡献;参 数,e [〇, 1]为支持度衰减因子,用于控制话题的衰减速度; 步骤B3 :采用sigmoid函数定义能量函数将&从无限的范围[0,…)转化到[〇, D之 间的能量值:
能量函数还要满足以下两个条件:
其中,5;表示累积支持度,万(5;)表示能量函数,1彡e2彡q彡0的表示话题能量值的 最低阈值,内表示话题能量峰值的最小阈值;通过以上两个限制条件,保证得到的能量计算 公式能够使得话题在其稳定期有足够大的能量值表示话题高度活跃,同时话题在其生命周 期内的能量值总和要远大于生命周期外的能量值总和。
5.根据权利要求2所述的一种微博话题热度预测方法,其特征在于,所述步骤C中,结 合小波变换和ARIMA回归模型,预测话题热度,包括以下步骤: 步骤C1 :将从第Γ?个时间片的能量序列
看做能量信号; 对能量信号Ι(?)进行/尺度小波分解后得到一个小波逼近信号々及各层的细节信号巧, e [1,/];再通过小波重构即可得到无损的原始信号:
步骤C2 :通过以上的小波分解得到各个分量心与& ;利用ARIMA回归方法分别预测第 ?+l个时间片的分量预测值
,再根据步骤C1得到对第?+l个时 间片的话题能量值的预测值:
【文档编号】G06F17/30GK104123377SQ201410368076
【公开日】2014年10月29日 申请日期:2014年7月30日 优先权日:2014年7月30日
【发明者】陈羽中, 郭文忠, 陈国龙, 方明月 申请人:福州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1